KR20080059650A - 악곡 구간 검출 방법 및 그 장치, 및 데이터 기록 방법 및그 장치 - Google Patents

악곡 구간 검출 방법 및 그 장치, 및 데이터 기록 방법 및그 장치 Download PDF

Info

Publication number
KR20080059650A
KR20080059650A KR1020087011761A KR20087011761A KR20080059650A KR 20080059650 A KR20080059650 A KR 20080059650A KR 1020087011761 A KR1020087011761 A KR 1020087011761A KR 20087011761 A KR20087011761 A KR 20087011761A KR 20080059650 A KR20080059650 A KR 20080059650A
Authority
KR
South Korea
Prior art keywords
music
section
detection
candidate
detecting
Prior art date
Application number
KR1020087011761A
Other languages
English (en)
Other versions
KR100962803B1 (ko
Inventor
이사오 오츠카
히데츠구 스기노하라
Original Assignee
미쓰비시덴키 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 미쓰비시덴키 가부시키가이샤 filed Critical 미쓰비시덴키 가부시키가이샤
Publication of KR20080059650A publication Critical patent/KR20080059650A/ko
Application granted granted Critical
Publication of KR100962803B1 publication Critical patent/KR100962803B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/82Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
    • H04N9/8205Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • G11B2020/10537Audio or video recording
    • G11B2020/10546Audio or video recording specifically adapted for audio data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/78Television signal recording using magnetic recording
    • H04N5/781Television signal recording using magnetic recording on disks or drums
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/84Television signal recording using optical recording
    • H04N5/85Television signal recording using optical recording on discs or drums
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/804Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
    • H04N9/8042Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components involving data reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/804Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
    • H04N9/806Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components with processing of the sound signal
    • H04N9/8063Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components with processing of the sound signal using time division multiplex of the PCM audio and PCM video signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)
  • Television Signal Processing For Recording (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

과제 본 발명은 텔레비젼 방송으로부터 악곡 씬(musical composition scene)을 효율적으로 검출하는 방법을 제공하는 것이다.
해결수단 본 발명에 따른 악곡 구간 검출 방법은, 음성 신호와 영상 신호를 포함하는 데이터를 입력하는 데이터 입력 단계와, 각각 다른 기준에 근거하여, 상기 음성 신호로부터 악곡 후보 구간을 검출하는 복수의 악곡 후보 구간 검출 단계와, 상기 검출된 복수의 악곡 후보 구간에 근거하여, 악곡 구간을 검출하는 악곡 구간 검출 단계를 구비한다. 이에 따라, 록이나 엔카, 클래식 등, 곡조가 다른 광범위한 악곡에 대하여 높은 검출 정밀도를 확보할 수 있다.

Description

악곡 구간 검출 방법 및 그 장치, 및 데이터 기록 방법 및 그 장치{MUSICAL COMPOSITION SECTION DETECTING METHOD AND ITS DEVICE, AND DATA RECORDING METHOD AND ITS DEVICE}
본 발명은, 텔레비젼 방송 등의 데이터로부터 악곡 구간을 검출하는 방법 및 장치, 및 이 방법에 의해 검출된 악곡 구간을 포함하는 데이터를, DVD-R나 DVD-RW 등을 포함하는 기록형 DVD 디스크, 하드디스크 드라이브, 또는 Blu-ray Disc 등의 기록 매체에 기록하는 기록 방법 및 장치에 관한 것이다.
텔레비젼 방송의 하나로, 소위 「노래 프로그램」이나 「음악 프로그램」이라고 불리는 쟝르가 존재한다. 음악 프로그램은 출연자에 의한 연주나 노래, 또는 비디오 영상에 의한 악곡의 영상(이하, 「악곡 씬(musical composition scene)」이라고 기재함. 또, 이 명세서에 있어서, 「악곡 씬」이란 노래나 연주 등의 음악이 음성에 포함되는 영상을 전반적으로 가리킴)과, 사회자 등에 의한 악곡의 소개나 출연자와의 토크(회화)쇼 등의 악곡 이외의 영상(이하, 「비악곡 씬」이라고 기재함)으로 구성되는 경우가 많다.
또한 민법방송이면, 프로그램의 광고주의 선전이나, 방송국 스스로의 광고 선전을 위한 광고 메시지 방송(이하, 「CM 방송」이라고 기재함. 또한, CM 방송의 구간을 「CM 방송 구간」이라고 기재함)이 프로그램의 구성에 포함되는 경우도 있다.
그런데, 녹화한 음악 프로그램을 재생하는 경우, 악곡에 집중하고 싶은 시청자에게 있어서는 비악곡 씬이나 CM 방송 등의 악곡 씬 이외를 효율적으로 건너뛰고 싶은 요망이 있다. 또한 반대로, 악곡에는 흥미가 없는 시청자에게는, 악곡 씬이나 CM 방송을 건너뛰고 토크쇼 등의 비악곡 씬만을 시청하고 싶다고 하는 요망도 있다.
이러한 요망에 대하여, 종래의 악곡 검출 방법 및 기록 방법에서는, 소리 정보의 주파수 스펙트럼의 피크가 주파수 방향에 대하여 시간적으로 안정되어 있는 특징을 이용하여 악곡 씬을 특정하고, 악곡의 영상 음성만을 저장하고 있다(예컨대, 특허문헌 1 참조).
[특허문헌 1] 일본 특허공개 평성 제11-266435호 공보(제5페이지, 도 1)
발명이 해결하고자 하는 과제
그러나, 특허문헌 1에 기재되어 있는 악곡 검출 방법에서는, 악곡 씬의 검출을 단일의 수법에 의해 판정하고 있었기 때문에, 록이나 엔카, 클래식 등, 곡조가 다른 모든 악곡에 대하여 한결같이 검출 정밀도를 확보하는 것은 곤란했다.
본 발명은, 상술한 바와 같이 과제를 해소하기 위해 이루어진 것으로, 텔레비젼 방송 등의 영상 신호 및 음성 신호를 포함하는 데이터로부터 악곡 씬을 효율적으로 검출하는 방법, 및 장치를 제공하는 것이다.
과제를 해결하기 위한 수단
본 발명에 따른 악곡 구간 검출 방법은, 음성 신호와 영상 신호를 포함하는 데이터를 입력하는 데이터 입력 단계와, 각각 다른 기준에 근거하여, 상기 음성 신호로부터, 상기 입력 데이터의 악곡 후보 구간을 검출하는 복수의 악곡 후보 구간 검출 단계와, 상기 검출된 복수의 악곡 후보 구간에 근거하여, 악곡 구간을 검출하는 악곡 구간 검출 단계를 구비하는 것으로 한 것이다.
발명의 효과
본 발명의 악곡 구간 검출 방법에 의하면, 음성 신호에 대하여 각각 다른 복수의 기준에 근거하여 악곡 후보 구간을 검출하고, 또한 이 검출된 복수의 악곡 후보 구간에서 악곡 구간을 검출하기 때문에, 록이나 엔카, 클래식 등, 곡조가 다른 광범위한 악곡에 대하여 높은 검출 정밀도를 확보할 수 있다.
도 1은 실시예 1의 영상 음성 기록 장치를 나타내는 시스템 블럭도,
도 2는 실시예 1의 악곡 구간의 검출, 기록 방법을 나타내는 흐름도,
도 3은 실시예 1의 제 1 악곡 후보 검출부를 나타내는 블럭도,
도 4는 실시예 1의 제 2 악곡 후보 검출부를 나타내는 블럭도,
도 5는 실시예 1의 보정 처리를 나타내는 챠트,
도 6은 실시예 1의 악곡 구간의 검출 처리를 나타내는 챠트,
도 7은 실시예 1의 영상 음성 기록 장치의 파일 구성도,
도 8은 실시예 1의 메타데이터 구조도,
도 9는 실시예 2의 악곡 구간의 검출 처리를 나타내는 챠트,
도 10은 실시예 3의 영상 음성 기록 장치를 나타내는 시스템 블럭도,
도 11은 실시예 3의 악곡 구간의 검출, 기록 방법을 나타내는 흐름도,
도 12는 실시예 3의 CM 방송 구간의 검출 처리를 나타내는 챠트이다.
부호의 설명
1 : 저장 미디어 2 : 기입 드라이브
3 : 영상 신호 4 : 음성 신호
5 : 비디오 인코더 6 : A/D 컨버터
7 : 오디오 인코더 8 : 멀티플렉서
9 : 기입 버퍼 메모리 10 : 제 1 악곡 후보 검출부
11 : 제 2 악곡 후보 검출부 12 : 제 1 보정부
13 : 제 2 보정부 14 : 악곡 검출부
15 : 메타데이터 생성부 16 : 기록 제어부
20 : 직교 변환 처리부 21 : 우도 비교 처리부
22 : 모델 데이터 30 : 차분 연산 처리부
40 : 시간 경과(가로축) 41 : 차이량(세로축)
42 : 차이량 43 : 임계값
44 : 라벨축 45 : 라벨
46a, 46b, 46c : 악곡 후보 구간 47 : 보정 처리 후의 라벨
48 : 보정 처리 후의 악곡 후보 구간 50 : 보정 처리 후의 라벨
51a, 51b, 51c : 보정 처리 후의 악곡 후보 구간
52 : 보정 처리 후의 라벨
53a, 53b, 53c, 53d : 보정 처리 후의 악곡 후보 구간
54 : 검출 처리 후의 라벨 55a, 55b, 55c, 55d : 악곡 구간
60 : 검출 처리 후의 라벨 61a, 61b, 61c : 악곡 구간
70 : CM 검출부 71 : 악곡 검출부
80 : 검출 처리 후의 라벨 81a, 81b : 악곡 구간
82 : CM 라벨 83a : CM 방송 구간
84 : CM 보정 처리 후의 라벨 85a, 85b : 악곡 구간
86 : 라벨축 90 : 루트 디렉토리
91 : 멀티미디어 디렉토리 92 : 메타데이터 디렉토리
93 : 정보 관리 파일 94 : 멀티미디어 데이터 파일
95 : 백업 파일 96 : 메타데이터 파일
100 : 영상 음성 기록 장치 130 : 메타데이터
131a : 메타데이터 관리 정보
131b : 프로그램 메타데이터 정보 서치 포인터
131c : 프로그램 메타데이터 정보 132a : 메타데이터 일반 정보
132b : 악곡 맵 정보 133a : 악곡 맵 일반 정보
133b : 악곡 엔트리 134a : 악곡 개시 시각 정보
134b : 악곡 종료 시각 정보 400 : 차이량의 그래프
405 : 라벨의 그래프 407 : 보정 처리 후의 라벨의 그래프
500 : 보정 처리 후의 라벨의 그래프
502 : 보정 처리 후의 라벨의 그래프
504 : 검출 처리 후의 라벨의 그래프
600 : 검출 처리 후의 라벨의 그래프
700 : 영상 음성 기록 장치
(실시예 1)
이하, 도면을 이용하여 본 실시예 1에 따른 악곡 검출 방법, 및 검출 장치, 및 기록 방법, 및 기록 장치를 설명한다. 본 실시예 1에 따른 악곡 검출 방법은, 음성 신호에 대하여 각각 다른 복수의 기준에 근거하여 악곡 후보 구간 검출하고, 또한 이 검출된 복수의 악곡 후보 구간에서 악곡 구간을 검출하는 것에 특징이 있 다.
또, 이 명세서에 있어서, 악곡 씬(musical composition scene)을 기록한 때, 기록 개시를 기점으로 하여 악곡 씬의 개시 시각으로 되는 시간 위치 정보와, 악곡 씬의 종료 시각으로 되는 시간 위치 정보에 의해 특정되는 구간을 「악곡 구간」이라고 한다.
여기서, 저장 미디어에 기록한 영상 음성을 재생 제어하는 방법에 대하여 설명한다. 일반적으로, 상기한 바와 같은 재생 제어를 행하는 경우에는, 시간 위치 정보를 90kHz에서 카운트하는 프리젠테이션 타임(PTM)이 널리 쓰이고 있다. 즉, 악곡 구간을 특정하기 위해, 개시 시각과 종료 시각의 PTM을 시간 위치 정보로서 참조하는 방법이다. 그러나, 이 이외에도, 영상 음성을 녹화 시간축으로써 1초간 등의 고정 시간으로 이산화했을 때에 악곡 씬인 구간은 High(1), 비악곡 씬인 구간은 Low(0)로 하는 등의 이치화하여 High로 되는 구간을 검색하는 등의 방법이 있다. 이 명세서에 있어서, 이들 악곡 구간의 개시점과 종료점을 특정하기 위한 정보를 「악곡 정보」라고 부른다.
도 1은 본 실시예 1의 영상 음성 기록 장치를 나타내는 시스템 블럭도이다. 또한, 도 2는 본 실시예 1의 악곡 구간의 검출, 기록 방법을 나타내는 흐름도이다. 우선, 도 1 및 도 2를 이용하여 본 실시예 1의 영상 음성 기록 장치에 대하여 개략적으로 설명한다. 영상 음성 기록 장치(100)에는, 기록을 행하는 대상으로 되는 텔레비젼 방송 등의 영상 신호(3)와 음성 신호(4)가 입력된다(ST1). 다음에, 영상 신호(3)는, 비디오 인코더(5)에 있어서 MPEG-2 방식 등에 의해 부호화 압축되어, 영상 데이터로 된다.
한편, 음성 신호(4)가 아날로그 신호인 경우에는, 아날로그 디지털 변환기(A/D 컨버터)(6)에 의해 음성 파형을 일정 시간 간격으로 샘플링하여 진폭을 데이터화한 PCM(Pulse Code Modulation) 방식 등에 의해 디지털 신호로 변환된다(ST2). 그 후, 오디오 인코더(7)에 있어서 돌비 AC-3 방식 등에 의해 부호화 압축되어, 음성 데이터로 된다.
멀티플렉서(8)에서는, 영상 데이터와 음성 데이터를 다중화하여 멀티미디어 데이터를 생성한다. 그 후, 기입 버퍼(9)에서 멀티미디어 데이터를 차차 취입한 후에 기입 드라이브(2)에 송출하고, DVD-R나 DVD-RW 디스크 또는 기록형 Blu-ray Disc 등의 제거 가능한 저장 미디어(1)에 기록(일련의 처리는 「녹화」라고도 말하여짐)이 행하여진다. 영상 음성 기록 장치(100) 및 기입 드라이브(2)의 동작은, 마이크로프로세서 등으로 구성하는 기록 제어부(16)에 의해 통괄적으로 관리하고 제어되어 있다. 또 저장 미디어(1)와 기입 드라이브(2)는, 하드디스크 드라이브(HDD) 등의 제거 가능하지 않은 저장 미디어로 대체되더라도 상관없다.
다음에, 본 실시예 1의 영상 음성 기록 장치의 특징적인 구성 요소인 복수의 악곡 후보 검출부에 대하여 설명한다. 제 1 악곡 후보 검출부(10)에서는, A/D 컨버터(6)로부터 출력되는 PCM 방식의 디지털 신호를 분석하여 악곡 후보 구간을 검출한다(ST3, 4). 제 1 악곡 후보 검출부(10)에서 검출된 악곡 후보 구간은, 필요에 따라, 제 1 보정부(12)에 의해 검출 오차가 보정된다(ST6). 또한, 제 1 악곡 후보 검출부(10)와는 다른 기준을 가지는 제 2 악곡 후보 검출부(11)에서도, 제 1 악곡 후보 검출부(10)와 마찬가지로, 악곡 후보 구간이 검출되어(ST3, 5), 제 2 보정부(13)에 의해 필요에 따라 검출 오차가 보정된다(ST6).
제 1 악곡 후보 검출부(10)와 제 1 보정부(12)에 의해 검출·보정된 악곡 후보 구간과, 제 2 악곡 후보 검출부(11)와 제 2 보정부(13)에 의해 검출·보정된 악곡 후보 구간은 악곡 검출부(14)에 있어서 통합 또는 취사선택의 판단이 행하여져, 악곡 구간이 검출된다(ST7). 검출된 악곡 구간은, 메타데이터 생성부(15)에서 메타데이터 파일로 생성되어, 기입 버퍼 메모리(9)를 거쳐서 저장 미디어(1)에 기록된다(ST8). 또, 메타데이터 생성부(15)는, 차차 산출되어 결정하는 악곡 구간의 악곡 정보를 유지하는 메모리 기능을 갖고 있다.
또, 영상 음성 기록 장치(100)의 기록부의 개념으로서는, 기입 드라이브(2)만을 포함해도 좋고, 멀티플렉서(8), 메타데이터 생성부(15), 기입 버퍼(9), 기록 제어부(16)를 포함해도 좋다.
또한, 여기서는 악곡 후보 구간을 검출하는 악곡 후보 검출부(10, 11)가 2개인 경우에 대하여 기재했지만, 또한 많은 악곡 후보 검출부를 갖는 구성이더라도 좋다. 또한, 보정부(12, 13)는, 악곡 후보 검출부(10, 11)의 각각에 대하여 개별적으로 보정을 행한 후에, 악곡 검출부(14)에 보정 후의 악곡 후보 구간을 출력하는 구성에 대하여 기재했지만, 개별의 보정은 실행하지 않고, 하나의 보정부에 의해 보정된 후, 악곡 검출부(14)에 보정 후의 악곡 후보 구간을 출력하는 구성으로 해도 좋다. 또한, 악곡 검출부(14)에서 검출한 후의 악곡 구간에 대하여 보정을 하는 구성으로 해도 좋다.
도 3은, 본 실시예 1의 제 1 악곡 후보 검출부(10)를 상세히 적은 기능 블럭도이다. 제 1 악곡 후보 검출부(10)는, 직교 변환 처리부(20)와 우도 비교 처리부(21), 및 참조를 위한 데이터 테이블인 모델 데이터(22)로 구성된다. 도면에 도시하는 바와 같이, A/D 컨버터(6)로 변환된 디지털 신호의 직교 변환 계수가 직교 변환 처리부(20)로 산출되고, 또한 우도 비교 처리부(21)가 모델 데이터(22)를 참조하여 라벨이 할당된 후, 제 1 보정부(12)에 출력된다.
또한, 제 1 악곡 후보 검출부(10)에 의한 악곡 후보 구간의 검출의 상세에 대하여 말한다. 음성 신호(4)가 스테레오 신호인 경우, A/D 컨버터(6)에서는 오른쪽 채널과 왼쪽 채널의 PCM 데이터가 개별적으로 얻어진다. 이 스테레오 신호는, 민간용 리코더 기기이면, 샘플링 주파수는 48kHz, 양자화 비트수는 16bit 등의 품질이 쓰인다.
다음에, 직교 변환 처리부(20)에서는, 시간 영역의 PCM 데이터를 주파수 영역에 직교 변환을 실시한다(ST3). 직교 변환에는, PCM 데이터를 시간적으로 50% 중복하는 MDCT(변형 이산 코사인 변환)을 사용하는 예에 대하여 말한다. 50%의 오버랩을 하기 때문에, 512개의 PCM 데이터를 샘플링하면, 256개의 직교 변환 계수(MDCT 계수)가 오른쪽 채널과 왼쪽 채널의 각각에 대하여 얻어진다. 스테레오 신호의 한쪽 채널(예컨대 왼쪽 채널), 또는 모노럴(monaural) 신호의 1채널에 대한 직교 변환 계수로부터, 256차원의 계수 벡터를 얻을 수 있다. 계수 벡터는 계산량의 경감을 목적으로, 사영 변환에 의해 차원수의 저감을 도모하더라도 좋다.
또, 입력된 음성 신호를 분석하는 것에 앞서, 미리 주관 평가로 현저히 악곡 씬이라고 판단되는 음성의 계수 벡터를 수집하여 트레이닝 데이터로서, 계수 벡터의 분포 경향을, 혼합 가우스 분포 모델(GMM법)을 사용하여 모델화해 놓는다. 악곡 씬으로부터 작성한 것을 「음악 클래스 모델」이라고 부른다. 이밖에, 현저한 관객의 환성이나 성원, 박수, 웃음 소리, 출연자의 대화 씬, 등의 비악곡 씬에 관해서도 마찬가지로 트레이닝 데이터를 수집하여 혼합 가우스 분포 모델을 작성하여, 복수의 음성 클래스 모델을 준비한다.
모델 데이터(22)는, 이들 음성 클래스 모델이 참조할 수 있는 데이터 테이블로 된다. 우도 비교 처리부(21)에서는, 모델 데이터(22)를 참조하여, 기록을 행하고 있는 음성 신호의 직교 변환 계수 벡터가 벡터 공간으로서 가장 우도가 높은 음성 클래스를 찾아, 그 음성의 클래스를 해당 구간의 라벨로서 할당한다(ST4).
즉, 음악 클래스 모델의 주파수 특성과 우도가 높은 음성 입력이 있었던 경우에 악곡을 나타내는 라벨이 할당되고, 그 구간이 악곡 씬이라는 검출이 가능하게 된다. 또, 미리 준비한 모델을 참조하여 입력 신호의 음성 클래스를 특정하는 수법이면 혼합 가우스 분포 모델에 의한 우도 비교가 아니더라도 좋고, 히든 마르코프법(HMM 법) 등의 통계적인 수법을 사용하더라도 상관없다.
혼합 가우스 분포 모델에 의한 우도 비교에 의해 악곡을 나타내는 라벨을 할당하는 수법은, 스테레오 방송이나 모노럴 방송 등의 채널수에 영향을 받지 않고 높은 정확도로 악곡 씬만을 검출할 수 있다고 하는 장점이 있다. 그 한편, 악곡 씬과 비악곡 씬과의 경계를 검출하는 정밀도는 약간 애매하게 되는 단점도 있다. 또한 트레이닝 데이터의 수집 방법에 따라서는, 록이나 엔카, 클래식 등, 곡조나 악기 구성에 의한 능숙함, 서투름이 발생하는 경우가 있다.
다음에, 제 2 악곡 후보 검출부(11)에 대하여 설명한다. 도 4는 본 실시예 1의 제 2 악곡 후보 검출부(11)를 상세히 적은 기능 블럭도이다. 제 2 악곡 후보 검출부(11)는, 직교 변환 처리부(20)와 차분 연산 처리부(30)로 구성된다. 도면에 도시하는 바와 같이, A/D 컨버터(6)로 변환된 디지털 신호의 직교 변환 계수가 직교 변환 처리부(20)에서 산출되고, 또한 차분 연산 처리부(30)에서 직교 변환 계수의 차이량이 산출된 후, 제 2 보정부(13)에 출력된다.
또한, 제 2 악곡 후보 검출부(11)에 의한 악곡 후보 구간의 검출의 상세에 대하여 설명한다. 음성 신호(4)로부터 직교 변환 처리부(20)를 거쳐 256개의 직교 변환 계수(MDCT 계수)가 얻어지기까지의 과정(ST3)은 제 1 검출부(10)에서 설명한 것과 공통이며, 여기서는 생략한다.
직교 변환 계수를 (1×256)행렬로서, n 행째의 오른쪽 채널의 직교 변환 계수를 Mr(n), 왼쪽 채널의 직행변환 계수를 Ml(n)이라고 하면, 차분 연산 처리부(30)에서는 양 채널의 직교 변환 계수 행렬의 차를 산출하여, 계수의 자승합인 차이량 D를 다음 식에 의해 얻는다.
Figure 112008034835498-PCT00001
이 처리를 계속적으로 행함으로써, 기록을 행하는 프로그램의 차이량 D의 변화를 파악할 수 있다(ST5). 또, 차이량 D는 직교 계수 행렬의 차에 의한 계수의 자승합으로 했지만, 오른쪽 채널과 왼쪽 채널의 차이가 수치화되는 수법이면, 다른 산출식을 사용하더라도 상관없다.
여기서, 차이량은, 오른쪽 채널과 왼쪽 채널의 차이를 나타내는 것이며, 소리의 넓이감, 스테레오감 등도 표현할 수 있다. 일반적으로, 악곡 씬에서는 소리의 넓이감이 크고, 출연자에 의한 대화 씬 등의 비악곡 씬에서는 소리의 넓이감이 작은 것을 알 수 있다. 즉, 차이량이 소정의 값(임계값)을 넘는 구간이 악곡 씬이라는 검출이 가능하게 된다.
일반적으로, 악곡 씬과 비악곡 씬의 경계에서는 차이량이 크게 변동하기 때문에, 좌우 채널의 직교 계수 행렬의 차이량을 검출하는 수법은, 악곡 구간의 개시 시각 및 종료 시각을 높은 정밀도로 검출할 수 있다고 하는 장점이 있다. 그 한편, 콘서트나 라이브 회장 등 항상 소리의 넓이감이 높은 프로그램에서는 비악곡 씬이라도 높은 차이량을 검출하거나, 또한 모노럴 방송에서는 차이량을 검출할 수 없는 등의 단점도 있다. 또한 록이나 엔카, 클래식 등, 곡조나 악기 구성 등에 따른 능숙함, 서투름이 발생하는 경우가 있다.
도 5는 본 실시예 1의 보정 처리(도 2에서는, ST6의 「필터」에 상당)의 과정을 나타내는 챠트이다. 동 도면에 있어서, (1)는 제 2 악곡 후보 검출부(11)에서 산출된 차이량(42)을 플로팅한 그래프(400)이며, 가로축은 기록한 프로그램의 시간 경과(40), 세로축(41)은 차이량이다.
제 2 보정부(13)에서는, 차이량(42)을 소정의 임계값(43)에 의해 이치화하여, 임계값(43)을 넘는 구간에 악곡을 나타내는 라벨 부여를 행하고, 임계값(43)을 하회하는 구간은 비악곡을 나타내는 라벨 부여를 행한다. 동 도면에 있어서, (2)는 이치화한 라벨(45)을 플로팅한 그래프(402)에서, 악곡을 나타내는 라벨이 붙은 구간을 High, 비악곡 씬을 나타내는 라벨이 붙은 구간을 Low로 하여 라벨축(44)으로 나타내고 있다. 또한, 동 도면의 (3)은 라벨(45)에 대하여 보정의 처리를 행함으로써 얻어지는 보정 후의 라벨(47)을 플로팅한 그래프(407)이다.
여기서, 도 5를 이용하여, 제 2 악곡 후보 검출부(11)에서 산출된 차이량에 대한 제 2 보정부(13)에 의한 보정 처리의 상세에 대하여 설명한다. 일례인 차이량(42)을 임계값(43)에 의해 이치화하면, 라벨(45)과 같이 3개의 악곡 후보 구간(46a, 46b, 46c)이 검출된다.
그리고, 다음에, 이치화에 의해 얻은 라벨(45)에 대하여, 다음 세 가지의 보정 처리를 필요에 따라 실행한다.
(a) 악곡 후보 구간이 소정 시간 T1(예컨대 5초) 이하이면, 악곡에 라벨 부여된 구간은 비악곡(Low)으로 라벨을 변경한다.
(b) 연속하는 악곡 후보 구간의 간격이 소정 시간 T2(예컨대 5초) 이내이면, 비악곡으로 라벨 부여된 간격은, 악곡(High)으로 라벨을 변경한다.
(c) 상기의 (a), (b)의 라벨 변경을 행한 후, 악곡으로 라벨 부여된 구간이 소정 시간 T3(예컨대 60초)을 넘는 구간을 보정 후의 악곡 후보 구간으로 한다. 또, (a)와 (b)는 어느 한쪽이더라도 좋다.
도 5의 (2)를 이용하여 설명하면, 악곡 후보 구간(46c)은 간격 A는, 소정 시간 T1을 채우지 않기 때문에, 보정 처리 (a)에 의해 비악곡 구간으로 되고, 악곡 후보 구간(46a)과 악곡 후보 구간(46b)의 간격 B는, 소정 시간 T2보다 짧기 때문에, 보정 처리 (b)에 의해 하나의 악곡 후보 구간으로 된다. 그 결과, 얻어지는 악곡 후보 구간의 간격 C은 소정 시간 T3을 넘기 때문에, 이 보정 처리에 의해 악곡 구간(48)을 얻을 수 있는 것으로 된다.
또한, 제 1 악곡 후보 검출부(10)에서 산출한 라벨에 대한 제 1 보정부(12)에 의한 보정 처리에 대하여, 마찬가지로 도 5를 이용하여 설명한다. 제 1 악곡 후보 검출부(10)에서는 악곡을 나타내는 라벨과 비악곡을 나타내는 라벨이, 원래부터 2치(値)로 산출되어 있기 때문에, 그대로 도 5의 (2)의 라벨(45)의 플롯으로 된다. 일례로서 나타낸 라벨(45)에서는, 3개의 악곡 후보 구간(46a, 46b, 46c)이 검출된 것으로 되고, 이것에 대하여 제 2 보정부(13)와 마찬가지로, 보정 처리 (a), (b), (c)를 필요에 따라 실시함으로써 악곡 후보 구간(48)을 얻을 수 있는 것으로 된다.
이와 같이, 각각의 보정부에서 보정 처리를 실시함으로써, 출연자에 의한 토크쇼에서의 효과음 등의 비악곡 씬에서, 순간적으로 악곡 씬으로 오검출되어 버린 구간이나, 또는 연주 도중의 연출로서의 전체 휴지 등 악곡 씬임에 관계없이 부분적으로 비악곡 씬으로 오검출되어 버린 구간 등을 보정하는 것이 가능해진다. 또한, 일반적으로, 악곡의 1코러스에 상당하는 60초 등의 소정 시간을 넘어 악곡이 검출되는 구간을 악곡 후보 구간으로 함으로써 토크쇼에서의 단시간의 BGM이나 선전용으로 악곡의 사비부분의 비디오클립 소개, 또는 프로그램의 오프닝이나 엔딩 테마와 같은, 악곡 씬으로서 취급하기에는 적절하지 않은 씬을 제외할 수도 있다.
다음에, 도 1의 악곡 검출부(14)에서의 처리(ST7)에 대하여 설명한다. 도 6은, 본 실시예 1의 악곡 검출부(14)에 의한, 악곡 구간의 검출 처리의 과정을 나타내는 챠트이다. 동 도면에 있어서 (1)는, 제 1 악곡 후보 검출부(10)에서 산출된 라벨에 대하여, 제 1 보정부(12)에 의해 보정 처리를 실시하여 얻은 라벨(50)을 플로팅한 그래프(500)이다. 또한 마찬가지로, 동 도면의 (2)는, 제 2 악곡 후보 검출부(11)에서 산출된 차이량에 대하여, 제 2 보정부(13)에 의해 보정 처리를 실시하여 얻은 라벨(52)을 플로팅한 그래프(502)이다. 동 도면의 (3)은, 라벨(50)과 라벨(51)에 근거하여 검출 처리한 라벨(54)을 플로팅한 그래프(504)이다. 그래프(500, 502, 504)는 모두, 악곡을 나타내는 라벨이 붙은 구간을 High, 비악곡 씬을 나타내는 라벨이 붙은 구간을 Low로 하여 라벨축(44)으로 나타내고 있다.
또한, 도 6을 이용하여, 악곡 검출부(14)에 있어서의 악곡 구간의 검출 처리에 대하여 설명한다. 일례로서, 도면에 도시하는 바와 같이, 라벨(50)에 나타내는 악곡 후보 구간(51a, 51b, 51c)과, 라벨(52)에 나타내는 악곡 후보 구간(53a, 53b, 53c, 53d)이 검출되어 있다고 한다. 본 실시예 1의 악곡 검출부(14)에서는, 쌍방의 악곡 후보 구간을 논리 OR(논리합)로 처리하여, 악곡 구간을 검출한다. 이하, 도 6을 사용하여 구체적으로 설명한다.
일부의 시각에서 중복하여 검출된 악곡 후보 구간(51a와 53a)에서 악곡 구간을 검출하는 경우, 개시 시각 A1과 B1이 동일하면, 검출 후의 악곡 구간(55a)의 개시 시각은 C1로 결정한다. 다음에, 종료 시각 A2는 B2보다 길기(악곡 구간이 시간으로서 연장되는 방향) 때문에, 검출 후의 악곡 구간(55a)의 종료 시각은 A2의 시 각을 채용하여 C2로 된다.
마찬가지로, 악곡 후보 구간(51b와 53b)에서 악곡 구간을 검출하는 경우, 개시 시각 A3와 B3에서는 B3 쪽이 길기 때문에, 검출 후의 악곡 구간(55b)의 개시 시각은 B3의 시각을 채용하여 C3으로 된다. 종료 시각 A4와 B4에서는 B4쪽이 길기 때문에, 검출 후의 악곡 구간(55b)의 종료 시각은 B4의 시각을 채용하여 C4로 된다.
또한, 악곡 후보 구간(53c)에 대해서는 시각이 중복하는 다른 쪽의 악곡 후보 구간이 존재하지 않기 때문에, 개시 시각 B5와 종료 시각 B6이 그대로 검출 후의 악곡 구간(55c)의 개시 시각 C5와 종료 시각 C6으로 채용된다.
최후에, 악곡 후보 구간(51c과 53d)에서 악곡 구간을 검출하는 경우, 개시 시각 A5와 B7에서는 A5쪽이 길기 때문에, 검출 후의 악곡 구간(55d)의 개시 시각은 A5의 시각을 채용하여 C7로 된다. 종료 시각 A6와 B8에서는 A6쪽이 길기 때문에, 검출 후의 악곡 구간(55b)의 종료 시각은 A6의 시각을 채용하여 C8로 된다. 이에 따라, 검출 후의 악곡 구간(55a, 55b, 55c, 55d)이 결정된다.
이와 같이, 악곡 구간의 검출을 악곡 후보 구간의 논리 OR에 의해 판정함으로써, 복수의 악곡 검출 수단에 의해, 각각 다른 기준으로 검출된 악곡 후보 구간을 모두 악곡 구간으로서 결정하게 된다. 이에 따라, 채용하는 악곡 검출 수단에 따라 넓은 범위의 쟝르의 악곡을 검출하는 것이 가능해진다. 또한, 논리 OR에 의한 검출에서는 악곡 구간을 가산하는 것이기 때문에, 복수의 악곡 검출 수단에 의한 악곡 후보 구간중에 오검출된 비악곡 씬이 포함되어 있었다고 해도, 판정 처리 의 과정에서 다른 악곡 검출 수단에서 검출되어 있었던 악곡 씬이 폐해로서 삭제되어 버리는 일이 없다.
또한, 상기에서 설명한 바와 같이, 제 1 악곡 후보 검출 수단(10)은, 높은 정확도로 악곡 씬, 즉 악곡 구간의 도중을 검출할 수 있지만, 악곡 씬과 비악곡 씬의 경계를 검출하는 정밀도는 약간 애매하게 된다는 검출 특성을 갖는다. 한편, 제 2 악곡 후보 검출부(11)는, 악곡 구간의 개시 시각 및 종료 시각을 높은 정밀도로 검출할 수 있다는 검출 특성을 갖는다. 본 실시예 1의 악곡 검출 방법에서는, 상기한 바와 같이 서로 검출 특성이 다른 검출 방법을 조합시키는 것에 의해, 보다 정밀도가 높은 방법으로 하고 있다. 즉, 제 1 악곡 후보 검출 수단(10)의 검출 특성과 제 2 악곡 후보 검출부(11)의 검출 특성이 서로의 검출 특성을 서로 보완하는 관계로 되어 있기 때문에, 악곡 검출의 정밀도를 보다 높은 것으로 하고 있다.
다음에, 도 7, 8을 이용하여, 검출된 악곡 구간의 악곡 정보를 메타데이터 생성부(15)에서 메타데이터 파일로 생성하는 방법을 설명한다. 도 7은 본 실시예 1의 영상 음성 기록 장치의 파일 구성도이다. 즉, 도 7은 저장 미디어(1)의 논리 파일 구조를 나타낸 것이며, 논리적으로 계층 구조를 이루는 디렉토리 구조의 최상위 계층에 루트 디렉토리(90)가 배치되고, 그 루트 디렉토리(90)의 하위층에, 멀티미디어 디렉토리(91), 및 메타데이터 디렉토리(92)가 배치되어 있다.
멀티미디어 디렉토리(91)에는, 저장 미디어(1)에 기록되어 있는 프로그램의 관리 번호를 포함하는 관리 정보를 기술한 정보 관리 파일(93), 프로그램의 영상 신호 또는 음성 신호를 부호화 압축하여 다중화한 멀티미디어 데이터 파일(94), 또 한 정보 관리 파일(93) 등의 백업 파일(95)이 배치되어 있다.
한편, 메타데이터 디렉토리(92)에는, 프로그램을 기록하여 멀티미디어 데이터 파일(94)이 생성되었을 때에 검출된 악곡 구간의 악곡 정보가, 독립된 논리 파일로 이루는 메타데이터 파일(96)로 기술되어, 배치된다.
또, 도 7에서는, 멀티미디어 데이터 파일(94)과 메타데이터 파일(96)이 개별의 디렉토리에 배치되는 예를 나타내었다. 그러나, 동일한 디렉토리 내에 배치되거나, 메타데이터 파일(96)이 루트 디렉토리(90)에 직접 배치되더라도 좋다. 또한, 멀티미디어 데이터 파일(94), 또는 메타데이터 파일(96)은, 기록한 프로그램의 수에 따라 분할되거나, 파일 용량의 제한 등에 의해 복수로 분할되더라도 좋다.
또한, 본 실시예 1에 있어서의 메타데이터 파일(96)은, 그 데이터 형식에 관계없이, 텍스트 형식이더라도 2진 형식이더라도 좋다. 또한, 메타데이터 파일(96)에 기술되어 있는 데이터의 개찬이나, 정보의 유출을 저지하기 위해, 암호 처리를 실시하더라도 좋다.
또한, 관리 정보 파일(93)에, 소망의 프로그램에 대응하는 메타데이터 파일(96)이 존재하고 있는지 여부, 또는 메타데이터 파일(96)에 유효한 값이 존재하는지 여부, 등의 정보를 기술해 놓더라도 좋다. 이러한 정보가 관리 정보 파일(93)에 기록되어 있으면, 프로그램을 재생할 때에, 해당 정보를 참조하는 것으로, 민첩하게 악곡 정보의 존재 또는 유효성을 판단할 수 있다.
이와 같이, 메타데이터 파일(96)을 멀티미디어 데이터 파일(94)에 중첩, 다중화하지 않고 독립된 논리 파일로 한다. 이에 따라, 프로그램을 재생할 때에, 파 일 용량이 큰 멀티미디어 데이터 파일(94)을 주사하지 않고, 비교적 파일 용량이 작은 메타데이터 파일(96)을 판독하는 것으로 악곡 정보를 민첩하게 취득하는 것이 가능해진다.
또, 메타데이터 파일(96)을 멀티미디어 데이터 파일(94)에 중첩하더라도 좋다. 이 경우는, 파일수를 적게 할 수 있고, 또한, 멀티미디어 데이터와 동일한 파일이기 때문에, 악곡 정보를 따르는 멀티미디어 데이터를 제거 가능한 기록 매체에 기록하여 다른 기기에서 편집이나 복사 등의 파일 조작을 행할 때, 메타데이터가 산일하는 것을 억제할 수 있다.
도 8은 계층 구조인 본 실시예 1의 메타데이터 구조도이다. 도면에서, (A)는 데이터 구조의 최상위 계층의 메타데이터(130)이다.
다음에, 도 8(B)을 이용하여, 메타데이터(130)의 데이터 구조를 설명한다. 메타데이터 전체의 정보는, 메타데이터 관리 정보(131a)에 통괄적으로 기술되어 있다. 이 계층에는, 악곡 정보를 가지는 프로그램의 수(1부터 n개)에 따른 프로그램 메타데이터 정보(131c)와, 프로그램 메타데이터 정보(131c)를 개별적으로 액세스하기 위한 어드레스 정보인 프로그램 메타데이터 정보 서치 포인터(131b)가 배치된다.
여기서, 저장 미디어(1)에 악곡 정보를 가지는 프로그램이 존재하지 않는 경우에는, 메타데이터 파일(96)을 작성하지 않더라도 좋고, 또한, 메타데이터 관리 정보(131a)에 프로그램 메타데이터 정보(131c)를 0개로 기술한 메타데이터 파일(96)을 준비하더라도 좋다.
다음에, 도 8(C)를 이용하여, 프로그램 메타데이터 정보(131c)의 데이터 구조를 설명한다. 이 계층에는, 메타데이터 일반 정보(132a)와, 악곡 맵 정보(132b)가 배치된다. 메타데이터 일반 정보(132a)에는, 악곡 맵 정보(132b)를 액세스하기 위한 어드레스 정보 등의 외에, 프로그램 메타데이터 정보(131c)가 대응해야 되는 프로그램의 관리 번호가 기술된다. 이것은 음악 프로그램 이외를 기록한 때 등, 프로그램에 따라서는 악곡 정보를 생성하지 않는 경우도 있기 때문에, 정보 관리 파일(93)로 관리되는 프로그램의 관리 번호와 프로그램 메타데이터 정보(131c)의 번호가 일치하지 않는 경우에, 프로그램과 메타데이터를 관련짓기 위한 테이블이다.
다음에, 도 8(D)를 이용하여, 악곡 맵 정보(132b)의 데이터 구조를 설명한다. 이 계층에는, 악곡 맵 일반 정보(133a)와, 검출한 악곡의 수(1로부터 m 개)에 따른 악곡 엔트리(133b)가 배치된다. 악곡 맵 일반 정보(133a)에는, 악곡 엔트리(133b)를 개별적으로 액세스하기 위한 어드레스 정보가 기술된다.
최후에, 도 8(E)를 이용하여, 악곡 엔트리(133b)의 데이터 구조를 설명한다. 이 계층에는, 검출한 악곡 구간의 악곡 개시 시각 정보(134a)와, 악곡 종료 시각 정보(134b)가 배치된다. 시각 정보에는 프리젠테이션 타임(PTM) 등이 사용된다.
이상 설명한 바와 같이, 본 실시예 1에서는, 악곡 구간의 개시 시각과 종료 시각을 메타데이터로 기술하는 방법의 예를 말했지만, 기록한 프로그램으로부터 악곡 정보를 특정할 수 있는 데이터 구조이면 좋다. 예컨대, 프로그램을 1초간 등의 고정 시간으로 이산화했을 때에 악곡 씬인 구간은 High(1), 비악곡 씬인 구간은 Low(0)으로 하는 등 이치화한 결과를 악곡 맵 정보로서 열거하는 데이터 구조로 해도, 동등의 기능을 실현할 수 있다.
이에 따라, 저장 미디어(1)에 기록한 프로그램을 재생하는 때는 메타데이터 파일(96)로부터 메타데이터(130)를 판독하고, 프로그램에 존재하는 악곡의 악곡 정보를 파악할 수 있다. 따라서, 악곡 정보에 근거하는 재생 제어를 함으로써 악곡 구간만을 연속 재생하거나, 악곡 구간의 개시점 또는 종료점으로 수동으로 스킵하는 기능 등, 효율적으로 악곡 씬을 시청하는 것이 가능해진다.
즉, 종래는, 비악곡 씬이나 CM 방송(CM 방송에 대해서는, 실시예 3에서 설명함)을 건너뛰기 위해서는, 수동 조작에 의한 빨리 감기나 뒤로 감기 재생에 의해 악곡 씬의 선두나 종단 등의 경계를 검색해야 했다.
또한, 기록 매체에 장시간 기록된 프로그램으로부터 악곡 씬을 시청하고 싶은 경우, 또는 비악곡 씬을 시청하고 싶은 경우 등은, 시청자가 빨리 감기(순방향 스캔)나 뒤로 감기(역방향 스캔)한 영상을 보면서 소망의 씬을 찾거나, 15초 등의 고정 시간의 스킵에 의해 소망의 씬이 나타날 때까지 조작을 반복하거나 해야만 한다. 그 때문에, 악곡 씬의 시점이나 종점의 개소를 잘못하여 지나치지 않고 재생하기 위해서는, 미리 악곡 씬의 개소를 정확히 파악하지 않고 있으면 곤란했다. 특히, 처음 보는 프로그램을 재생하는 경우에 있어서는, 프로그램중의 어디에 악곡 씬이 있을지 모르기 때문에, 프로그램의 첫머리에서 악곡 씬을 검색하는 수고를 필요로 하고 있었다.
그러나, 본 실시예 1에 의해 기록된 프로그램을 재생하는 경우는, 상기한 바 와 같은 조작을 행할 필요가 없다. 즉, 재생시에는 처음 보는 프로그램이라도 악곡 구간을 미리 파악할 수 있기 때문에, 악곡 구간만의 연속 재생이나, 악곡 구간의 시점이나 종점에의 수동에서의 스킵 등의 재생 제어가 가능해진다.
또, 본 실시예 1에서는, 영상 신호(3)와 음성 신호(4)로서 텔레비젼 방송을 예로 설명했지만, 예컨대, 별도의 영상 재생 장치를 사용하여 외부 입력 단자로부터 공급되는 영상 음성 신호이더라도 좋다. 또는, 제거 가능한 저장 미디어(1)나 영상 기록 재생 장치에 내장한 하드디스크(도시하지 않음) 등에 기록하고 있는 영상 음성 데이터를 판독하고, 부호화 압축한 음성 데이터를 디코드(복호) 처리하여 PCM 신호를 얻어 악곡 정보를 검출하더라도 좋다. 이 방법이면, 기록시에 실시간으로 악곡 구간의 검출 처리를 할 필요가 없기 때문에, 기록 제어부의 처리 능력이 낮은 경우이더라도, 기록후에 시간을 들여 검출이 가능해진다. 또한, 이미 저장 미디어에 기록된 프로그램으로부터도 악곡 정보를 얻을 수 있다.
(실시예 2)
본 실시예 2에서는, 악곡 검출부(14)에 의한 악곡 구간의 검출 처리로서, 실시예 1에서 설명한 방법과는 다른 검출 방법에 대하여 설명한다. 도 6은, 본 실시예 2의 악곡 검출부(14)에 의한, 악곡 구간의 검출 처리의 과정을 나타내는 챠트이다. 동 도면에 있어서 (1), (2)는, 실시예 1의 도 6에 나타낸 것과 동일하고, 동 도면의 (3)은, 실시예 1과는 다른 검출 방법에 의해 검출된 라벨(60)을 플로팅한 그래프(600)이다.
도 9를 이용하여, 실시예 1과는 다른 악곡 검출부(14)에 있어서의 악곡 구간의 검출 처리에 대하여 설명한다. 본 실시예 2에서는, 라벨(50), 또는 라벨(52) 중 어느 한쪽을 기점으로 하여 악곡 구간을 검출하는 점에 특징이 있다.
일례로서, 도면에 도시하는 바와 같이, 라벨(50)에 나타내는 악곡 후보 구간(51a, 51b, 51c)과, 라벨(52)에 나타내는 악곡 후보 구간(53a, 53b, 53c, 53d)이 검출되어 있다고 한다. 여기서는, 라벨(50)을 기점으로 하는 경우에 대하여 설명한다.
우선, 악곡 후보 구간(51a)의 개시 시각 A1의 근방에서 라벨(52)의 악곡 후보 구간의 개시 시각을 검색하면, B1이 발견된다. 개시 시각 A1과 B1이 동일하면, 검출 후의 악곡 구간(61a)의 개시 시각은 P1로 결정한다. 다음에, 악곡 후보 구간(51a)의 종료 시각 A2의 근방으로 라벨(52)의 악곡 후보 구간의 종료 시각을 검색하면 B2가 발견되기 때문에, 검출 후의 악곡 구간(61a)의 종료 시각은 B2의 시각을 채용하여 P2로 된다.
또한, 악곡 후보 구간(51b)의 개시 시각 A3의 근방에서 라벨(52)의 악곡 후보 구간의 개시 시각을 검색하면 B3이 발견되기 때문에, 검출 후의 악곡 구간(61b)의 개시 시각은 B3을 채용하여 P3으로 된다. 마찬가지로, 종료 시각 A4에 대해서는 종료 시각 B4가 발견되기 때문에, 검출 후의 악곡 구간(61b)의 종료점은 B4를 채용하여 P4로 된다.
또, 이 때, A3을 기점으로 하여 라벨(52)에 있어서의 악곡 후보 구간의 개시 시각을 검색하는 범위는 A2로부터 A4까지의 시각으로 하고, A4를 기점으로 하여 라 벨(52)에 있어서의 악곡 후보 구간의 종료 시각을 검색하는 범위는 A3부터 A5까지로 한다. 이 경우, 가령, 라벨(52)의 악곡 후보 구간이 존재하지 않는 경우에는, 라벨(50)의 악곡 후보 구간이 검출 후의 악곡 구간으로 된다.
이하 마찬가지로, 악곡 구간(61c)에 대해서도 검출 처리에 의해 개시 시각 P5와 종료 시각 P6이 결정된다. 또, 라벨(52)의 악곡 후보 구간(53c)에 대해서는, 기점으로 되는 라벨(50)의 악곡 후보 구간이 존재하지 않기 때문에, 검출 처리에 의해 삭제되는 것으로 된다.
이와 같이, 본 실시예 2에서는, 높은 정확도로 악곡 씬, 즉 악곡 구간의 도중을 검출할 수 있지만, 악곡 씬과 비악곡 씬의 경계를 검출하는 정밀도는 약간 애매하게 된다는 검출 특성을 갖는 제 1 악곡 후보 검출 수단(10)에 의해 검출된 악곡 후보 구간을 기준으로 한다. 그리고, 악곡 구간의 개시 시각이나 종료 시각을 높은 정밀도로 검출할 수 있는 한편 비악곡 씬을 검출해 버리는 검출 특성을 가지는 제 2 악곡 후보 검출 수단(11)에 의해 검출된 악곡 후보 구간의 유무를 검출한다.
즉, 검출시에, 양자의 검출 특성을 고려하여, 악곡 구간의 개시 시각 및 종료 시각을, 제 2 악곡 후보 검출 수단(11)에 의해 검출된 악곡 후보 구간의 개시 시각과 종료 시각을 우선적으로 채용하는 검출 처리를 행한다. 이에 따라, 비악곡 씬의 오검출을 저감할 수 있고, 또한 악곡 구간의 개시 시각과 종료 시각을 높은 정밀도로 검출하는 것이 가능해진다.
즉, 양자가 서로 보완적인 관계에 있는 검출 특성을 고려하여, 악곡 구간의 도중인 악곡 씬을 기준으로 악곡 구간의 개시 시각과 종료 시각을 검출함으로써, 높은 정밀도로 악곡 구간을 검출하는 것이 가능해진다.
(실시예 3)
본 실시예 3에서는, CM 방송 구간을 검출하는 것에 특징이 있다. 도 10은 본 실시예 3의 영상 음성 기록 장치를 나타내는 시스템 블럭도이다. 또한, 도 11은 본 실시예 3의 악곡 구간의 검출, 기록 방법을 나타내는 흐름도이다. 영상 음성 기록 장치(700)에는, 기록을 행하는 대상으로 되는 텔레비젼 방송 등의 영상 신호(3)와 음성 신호(4)의 특징에 근거하여 CM 방송 구간을 검출하는 CM 검출부(70)를 구비한다(ST9). CM 검출부(70)에서 검출된 CM 방송 구간의 개시 시각과 종료 시각은 악곡 검출부(71)에 출력된다. 그 밖의 구성 요소에 대해서는 실시예 1에서 나타낸 것과 동일하고, 여기서는 설명을 생략한다.
다음에, 도 10, 도 11을 이용하여, CM 검출부(70)의 동작을 설명한다. 우선, 비디오 인코더(5)는, 영상 신호(3)를 MPEG-2 방식으로 부호화 압축한 영상 데이터에 있어서의 I 픽쳐 등의 영상 프레임의 휘도 신호나 색차 성분(YUV 포맷) 등의 변화량을 감시한다. 그리고, CM 검출부(70)는, 이 변화량이 소정의 임계값 이상으로 된 경우에 씬 변화가 발생했다고 판정하는 기능을 구비한다. 또한, CM 검출부(70)는, A/D 컨버터(6)에 있어서 음성 신호(4)를 PCM 방식으로 변환한 음성 데이터에 있어서의 음성 파형의 진폭이 소정의 임계값 이하로 된 경우를 무음이라고 판정하는 기능도 갖는다.
또, 텔레비젼 방송에 있어서, CM 방송 구간을 제외한 프로그램 본편의 구간을 「본편 방송 구간」이라고 한다. 일반적으로 CM 방송 구간과 본편 방송 구간과의 경계, 또는 복수 연속하는 CM 방송 구간과 CM 방송 구간의 경계에는, 무음과 씬 변화가 동일 시각에 존재한다. 또한, 하나의 CM 방송은 15초, 30초 등 시간이 결정되어 있다. 이들 현상에 착안하여, CM 검출부(70)는, 씬 변화와 무음이 동기하여 검출되는 개소가 소정 간격으로 연속하는 경우, 이 구간이 CM 방송 구간이라고 판단한다. CM 검출부(70)는, CM 방송이 복수 연속하는 구간의 개시 시각과 종료 시각의 시간 정보를 나타내는 프리젠테이션 타임(PTM)을 산출하여, 악곡 검출부(71)에 출력한다.
또, CM 방송의 검출 수단은, CM 방송 구간의 개시 시각과 종료 시각을 검출할 수 있는 방법이면 수법은 관계없다. 예컨대, 음성 신호(4)의 음성 방식이, 본편 방송에 많은 모노럴 신호로부터 CM 방송에 많은 스테레오 신호로 변화되는 개소를 검출하더라도 좋다. 또한, 영상 신호(3)에 있어서 본편 방송 구간과 CM 방송 구간의 경계에 나타나는 흑색 화면(블랙 프레임)을 검출하는 것이라도 좋다. 또한, 음성 신호만으로부터, 또는 영상 신호만으로부터 CM 방송 구간을 검출하더라도 좋다.
도 12는 본 실시예 3의 악곡 검출부(71)에 의한 검출 처리(도 11에서는, ST9의 「CM 검출」에 상당)의 과정을 나타내는 챠트이다. 동 도면에 있어서 (1)는, 검출된 악곡 구간인 라벨(80)을 플로팅한 그래프(800)이다. 악곡 구간의 검출 처리의 방법에 대해서는, 실시예 1 및 2에서 설명한 것을 이용한다. 또한, 동 도면 의 (2)은, CM 검출부에서 검출된 CM 방송 구간을 나타내는 CM 라벨(82)을 플로팅한 그래프(802)이다. 도면 중, CM 방송 구간으로서 검출된 구간을 High, 그 이외의 구간을 Low로서 라벨축(86)으로 나타내고 있다.
그리고, 동 도면의 (3)은, 검출 처리한 라벨(80)과 CM 라벨(82)을 또한 재검출하여 얻어지는 CM 보정한 라벨(84)을 플로팅한 그래프(804)이다. 그래프(800, 804)는 모두, 악곡 구간을 나타내는 라벨이 붙은 구간을 High, 비악곡 씬을 나타내는 라벨이 붙은 구간을 Low로서 라벨축(44)으로 나타내고 있다.
다음에, 도 12를 이용하여, 악곡 검출부(71)에 있어서의 CM 방송의 검출 처리에 대하여 설명한다. 일례로서, 제 1 악곡 검출 수단과 제 2 악곡 검출 수단에 의한 악곡 후보 구간에서 얻은 라벨(80)에 나타내는 악곡 구간(81a, 81b)과, CM 검출부(70)에 의해 CM 방송을 검출한 CM 방송 구간(83a)이 있는 경우, 악곡 구간(81a, 81b) 중 CM 방송 구간(83a)과 중복하는 구간을 비악곡 씬으로 하는 보정 처리를 행한다.
이하, 도 12를 이용하여 구체적으로 설명한다. 악곡 구간(85a)의 개시 시각 D1은, CM 방송과 중복하지 않지만, 종료 시각 D2는 CM 방송 구간(83a)과 중복하고 있다. 따라서, CM 보정 처리 후의 악곡 구간(85a)의 개시 시각은, D1의 시각을 채용하여 F1로 되고, 종료 시각은 CM 방송 구간(83a)의 개시 시각 E1을 채용하여 F2로 된다.
마찬가지로, 악곡 구간(81b)의 종료 시각 D4는 CM 방송과 중복하지 않지만, 개시 시각 D3은 CM 방송 구간(83a)과 중복하고 있다. 따라서, CM 보정 처리 후의 악곡 구간(85b)의 개시 시각은, CM 방송 구간(83a)의 종료 시각 E2를 채용하여 F3으로 되고, 종료 시각은 D4의 시각을 채용하여 F4로 된다. 여기서는 도시하지 않지만, 검출 처리 후의 악곡 구간이 완전히 CM 방송 구간과 중복하고 있는 경우에는, 그 악곡 구간은 CM 보정 처리에 의해 삭제되는 것으로 된다.
이와 같이, CM 방송이 검출된 구간은 악곡 구간에서 제외되기 때문에, BGM(배경음악)이나 효과음으로서 악곡이 다용되는 CM 방송을, 본래의 음악 프로그램으로서 시청하고 싶은 악곡과 혼동하여 오검출하지 않는 효과가 있다.
또, 본 실시예 3에서는, 악곡 구간의 검출의 후, CM 방송 구간을 제외하는 방법에 대하여 설명했지만, 악곡 후보 구간 결정 후에, 각각의 악곡 후보 구간에서 CM 방송 구간을 제외하고, 그 후에 악곡 구간을 검출하더라도 좋다. 또한, 악곡 후보 구간을 검출하기 전에 CM 방송 구간을 제외하더라도 좋다.
또, 상기 실시예 1 내지 3에서는, 악곡 후보 검출 수단과 보정 수단을 별도의 수단으로 했지만, 이들 두개의 수단의 기능을 갖는 하나의 악곡 검출 수단으로 해도 좋다.
또한, 상기 실시예 1 내지 3에서는, 악곡 구간을 포함한 멀티미디어 데이터를 기록한다고 했지만, 검출된 악곡 구간만의 멀티미디어 데이터를 기록하더라도 좋다.

Claims (14)

  1. 음성 신호와 영상 신호를 포함하는 데이터를 입력하는 데이터 입력 단계와,
    각각 다른 기준에 근거하여 상기 음성 신호로부터 상기 입력 데이터의 악곡 후보 구간을 검출하는 복수의 악곡 후보 구간 검출 단계와,
    상기 검출된 복수의 악곡 후보 구간에 근거하여 악곡 구간을 검출하는 악곡 구간 검출 단계
    를 구비하는 악곡 구간 검출 방법.
  2. 제 1 항에 있어서,
    상기 복수의 기준에 포함되는 하나의 기준의 검출 특성은 상기 하나 이외의 다른 기준의 검출 특성을 보완하도록 설정되는 악곡 구간 검출 방법.
  3. 제 1 항에 있어서,
    상기 기준의 하나는 상기 악곡 후보 구간과 상기 악곡 후보 구간 이외의 구간의 경계를 검출하도록 설정되는 악곡 구간 검출 방법.
  4. 제 1 항에 있어서,
    상기 기준의 하나는 상기 악곡 후보 구간의 도중을 검출하도록 설정되는 악곡 구간 검출 방법.
  5. 제 1 항에 있어서,
    상기 악곡 후보 구간 검출 단계는 상기 검출된 악곡 후보 구간을 보정하는 보정 단계를 구비하는 악곡 구간 검출 방법.
  6. 제 1 항에 있어서,
    광고 구간을 검출하는 광고 검출 단계를 구비하고,
    상기 악곡 구간에서 상기 광고 구간을 제외하는 악곡 구간 검출 방법.
  7. 청구항 1에 기재된 악곡 구간 검출 방법에 의해 검출된 악곡 구간을 포함하는 데이터를 기록하는 데이터 기록 단계와,
    상기 악곡 구간을 특정하기 위한 정보를 기록하는 정보 기록 단계
    를 구비하는 데이터 기록 방법.
  8. 각각 다른 기준에 근거하여, 음성 신호와 영상 신호를 포함하는 입력 데이터의 상기 음성 신호로부터, 상기 입력 데이터의 악곡 후보 구간을 검출하는 복수의 악곡 후보 구간 검출부와,
    상기 검출된 복수의 악곡 후보 구간에 근거하여, 악곡 구간을 검출하는 악곡 구간 검출부
    를 구비하는 악곡 구간 검출 장치.
  9. 제 8 항에 있어서,
    상기 복수의 기준에 포함되는 하나의 기준의 검출 특성은 상기 하나 이외의 다른 기준의 검출 특성을 보완하도록 설정되는 악곡 구간 검출 장치.
  10. 제 8 항에 있어서,
    상기 기준의 하나는, 상기 악곡 후보 구간과, 상기 악곡 후보 구간 이외의 구간의 경계를 검출하도록 설정되는 악곡 구간 검출 장치.
  11. 상기 기준의 하나는, 상기 악곡 후보 구간의 도중을 검출하도록 설정되는 악 곡 구간 검출 장치.
  12. 제 8 항에 있어서,
    상기 검출된 악곡 후보 구간을 보정하는 보정부를 구비하고,
    상기 악곡 검출부는, 상기 보정부에 의해 보정된 복수의 악곡 후보 구간에 근거하여 악곡 구간을 검출하는 악곡 구간 검출 장치.
  13. 제 8 항에 있어서,
    광고 구간을 검출하는 광고 검출부를 구비하고,
    상기 악곡 구간 검출부는, 상기 악곡 구간에서 상기 광고 구간을 제외하는
    악곡 구간 검출 장치.
  14. 청구항 8에 기재된 악곡 구간 검출 장치에 의해 검출된 악곡 구간을 포함하는 데이터를 기록하는 데이터 기록부를 구비하고,
    상기 데이터 기록부는 상기 악곡 구간을 특정하기 위한 정보를 기록하는
    것을 특징으로 하는 데이터 기록 장치.
KR1020087011761A 2005-12-27 2006-12-25 악곡 구간 검출 방법 및 그 장치, 및 데이터 기록 방법 및그 장치 KR100962803B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005374205A JP4321518B2 (ja) 2005-12-27 2005-12-27 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置
JPJP-P-2005-00374205 2005-12-27

Publications (2)

Publication Number Publication Date
KR20080059650A true KR20080059650A (ko) 2008-06-30
KR100962803B1 KR100962803B1 (ko) 2010-06-10

Family

ID=38217975

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020087011761A KR100962803B1 (ko) 2005-12-27 2006-12-25 악곡 구간 검출 방법 및 그 장치, 및 데이터 기록 방법 및그 장치

Country Status (7)

Country Link
US (1) US8855796B2 (ko)
EP (1) EP1968043B1 (ko)
JP (1) JP4321518B2 (ko)
KR (1) KR100962803B1 (ko)
CN (1) CN101310327B (ko)
HK (1) HK1122893A1 (ko)
WO (1) WO2007074755A1 (ko)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008241850A (ja) * 2007-03-26 2008-10-09 Sanyo Electric Co Ltd 録音または再生装置
US10977693B2 (en) 2008-11-26 2021-04-13 Free Stream Media Corp. Association of content identifier of audio-visual data with additional data through capture infrastructure
US9386356B2 (en) 2008-11-26 2016-07-05 Free Stream Media Corp. Targeting with television audience data across multiple screens
US8180891B1 (en) 2008-11-26 2012-05-15 Free Stream Media Corp. Discovery, access control, and communication with networked services from within a security sandbox
US9026668B2 (en) 2012-05-26 2015-05-05 Free Stream Media Corp. Real-time and retargeted advertising on multiple screens of a user watching television
US9961388B2 (en) 2008-11-26 2018-05-01 David Harrison Exposure of public internet protocol addresses in an advertising exchange server to improve relevancy of advertisements
US10880340B2 (en) 2008-11-26 2020-12-29 Free Stream Media Corp. Relevancy improvement through targeting of information based on data gathered from a networked device associated with a security sandbox of a client device
US9519772B2 (en) 2008-11-26 2016-12-13 Free Stream Media Corp. Relevancy improvement through targeting of information based on data gathered from a networked device associated with a security sandbox of a client device
US9986279B2 (en) 2008-11-26 2018-05-29 Free Stream Media Corp. Discovery, access control, and communication with networked services
US10419541B2 (en) 2008-11-26 2019-09-17 Free Stream Media Corp. Remotely control devices over a network without authentication or registration
US9154942B2 (en) 2008-11-26 2015-10-06 Free Stream Media Corp. Zero configuration communication between a browser and a networked media device
US10567823B2 (en) 2008-11-26 2020-02-18 Free Stream Media Corp. Relevant advertisement generation based on a user operating a client device communicatively coupled with a networked media device
US10334324B2 (en) 2008-11-26 2019-06-25 Free Stream Media Corp. Relevant advertisement generation based on a user operating a client device communicatively coupled with a networked media device
US10631068B2 (en) 2008-11-26 2020-04-21 Free Stream Media Corp. Content exposure attribution based on renderings of related content across multiple devices
US8769584B2 (en) 2009-05-29 2014-07-01 TVI Interactive Systems, Inc. Methods for displaying contextually targeted content on a connected television
US10375451B2 (en) 2009-05-29 2019-08-06 Inscape Data, Inc. Detection of common media segments
US10116972B2 (en) 2009-05-29 2018-10-30 Inscape Data, Inc. Methods for identifying video segments and displaying option to view from an alternative source and/or on an alternative device
US9449090B2 (en) 2009-05-29 2016-09-20 Vizio Inscape Technologies, Llc Systems and methods for addressing a media database using distance associative hashing
US10949458B2 (en) 2009-05-29 2021-03-16 Inscape Data, Inc. System and method for improving work load management in ACR television monitoring system
US8930980B2 (en) 2010-05-27 2015-01-06 Cognitive Networks, Inc. Systems and methods for real-time television ad detection using an automated content recognition database
US9071868B2 (en) 2009-05-29 2015-06-30 Cognitive Networks, Inc. Systems and methods for improving server and client performance in fingerprint ACR systems
US8457771B2 (en) * 2009-12-10 2013-06-04 At&T Intellectual Property I, L.P. Automated detection and filtering of audio advertisements
US9838753B2 (en) 2013-12-23 2017-12-05 Inscape Data, Inc. Monitoring individual viewing of television events using tracking pixels and cookies
US10192138B2 (en) 2010-05-27 2019-01-29 Inscape Data, Inc. Systems and methods for reducing data density in large datasets
CN102956230B (zh) * 2011-08-19 2017-03-01 杜比实验室特许公司 对音频信号进行歌曲检测的方法和设备
BR112015023380B1 (pt) * 2013-03-15 2023-03-28 Inscape Data, Inc. Sistema e método para detecção de propaganda detelevisão em tempo real usando banco de dados de reconhecimento de conteúdo automatizado
ES2819032T3 (es) 2013-12-19 2021-04-14 Ericsson Telefon Ab L M Estimación de ruido de fondo en señales de audio
US9955192B2 (en) 2013-12-23 2018-04-24 Inscape Data, Inc. Monitoring individual viewing of television events using tracking pixels and cookies
US20150301718A1 (en) * 2014-04-18 2015-10-22 Google Inc. Methods, systems, and media for presenting music items relating to media content
FR3022051B1 (fr) * 2014-06-10 2016-07-15 Weezic Procede de suivi d'une partition musicale et procede de modelisation associe
CN108337925B (zh) 2015-01-30 2024-02-27 构造数据有限责任公司 用于识别视频片段以及显示从替代源和/或在替代设备上观看的选项的方法
CA2982797C (en) 2015-04-17 2023-03-14 Inscape Data, Inc. Systems and methods for reducing data density in large datasets
US10136190B2 (en) 2015-05-20 2018-11-20 Echostar Technologies Llc Apparatus, systems and methods for song play using a media device having a buffer
US10805668B2 (en) 2015-05-20 2020-10-13 DISH Technologies L.L.C. Apparatus, systems and methods for trick function viewing of media content
US10080062B2 (en) 2015-07-16 2018-09-18 Inscape Data, Inc. Optimizing media fingerprint retention to improve system resource utilization
CN108337912A (zh) 2015-07-16 2018-07-27 构造数据有限责任公司 对视频段的未来收看的预测以优化系统资源利用
JP6903653B2 (ja) 2015-07-16 2021-07-14 インスケイプ データ インコーポレイテッド 共通メディアセグメントの検出
EP3323055A1 (en) 2015-07-16 2018-05-23 Inscape Data, Inc. Systems and methods for partitioning search indexes for improved efficiency in identifying media segments
US10381022B1 (en) 2015-12-23 2019-08-13 Google Llc Audio classifier
WO2018187592A1 (en) 2017-04-06 2018-10-11 Inscape Data, Inc. Systems and methods for improving accuracy of device maps using media viewing data
US10872611B2 (en) * 2017-09-12 2020-12-22 Qualcomm Incorporated Selecting channel adjustment method for inter-frame temporal shift variations
JP7230919B2 (ja) * 2018-08-10 2023-03-01 ヤマハ株式会社 楽譜データの情報処理装置
CN109448684B (zh) * 2018-11-12 2023-11-17 合肥科拉斯特网络科技有限公司 一种智能编曲方法和系统
JP7226709B2 (ja) * 2019-01-07 2023-02-21 ヤマハ株式会社 映像制御システム、及び映像制御方法
US11523186B2 (en) * 2019-09-27 2022-12-06 Disney Enterprises, Inc. Automated audio mapping using an artificial neural network

Family Cites Families (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5794194A (en) * 1989-11-28 1998-08-11 Kabushiki Kaisha Toshiba Word spotting in a variable noise level environment
KR940001861B1 (ko) * 1991-04-12 1994-03-09 삼성전자 주식회사 오디오 대역신호의 음성/음악 판별장치
DE69214882T2 (de) * 1991-06-06 1997-03-20 Matsushita Electric Ind Co Ltd Gerät zur Unterscheidung von Musik und Sprache
JPH08265660A (ja) 1995-03-20 1996-10-11 Nippon Telegr & Teleph Corp <Ntt> 音楽管理方法および装置
JPH099199A (ja) 1995-06-19 1997-01-10 Sony Corp 映像信号記録/再生装置
US5712953A (en) * 1995-06-28 1998-01-27 Electronic Data Systems Corporation System and method for classification of audio or audio/video signals based on musical content
JPH09284704A (ja) 1996-04-15 1997-10-31 Sony Corp 映像信号選択装置及びダイジェスト記録装置
JP3669129B2 (ja) 1996-11-20 2005-07-06 ヤマハ株式会社 音信号分析装置及び方法
US6525255B1 (en) * 1996-11-20 2003-02-25 Yamaha Corporation Sound signal analyzing device
JP3475317B2 (ja) 1996-12-20 2003-12-08 日本電信電話株式会社 映像分類方法および装置
JPH1155613A (ja) 1997-07-30 1999-02-26 Hitachi Ltd 記録および/または再生装置およびこれに用いられる記録媒体
JP3434195B2 (ja) 1998-03-18 2003-08-04 日本電信電話株式会社 音楽映像管理方法、装置および音楽映像管理プログラムを記録した記録媒体
JP2000099069A (ja) * 1998-09-24 2000-04-07 Sony Corp 情報信号処理方法及び装置
JP4300697B2 (ja) 2000-04-24 2009-07-22 ソニー株式会社 信号処理装置及び方法
JP4596196B2 (ja) * 2000-08-02 2010-12-08 ソニー株式会社 ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
CN1175398C (zh) * 2000-11-18 2004-11-10 中兴通讯股份有限公司 一种从噪声环境中识别出语音和音乐的声音活动检测方法
US6625600B2 (en) * 2001-04-12 2003-09-23 Telelogue, Inc. Method and apparatus for automatically processing a user's communication
US7610205B2 (en) * 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
JP2002344852A (ja) * 2001-05-14 2002-11-29 Sony Corp 情報信号処理装置および情報信号処理方法
JP2003099083A (ja) 2001-09-25 2003-04-04 Nippon Hoso Kyokai <Nhk> 音声認識装置
US7260439B2 (en) * 2001-11-01 2007-08-21 Fuji Xerox Co., Ltd. Systems and methods for the automatic extraction of audio excerpts
US7386217B2 (en) * 2001-12-14 2008-06-10 Hewlett-Packard Development Company, L.P. Indexing video by detecting speech and music in audio
KR100472904B1 (ko) * 2002-02-20 2005-03-08 안호성 음악 부분을 자동으로 선별해 저장하는 디지털 음악 재생장치 및 그 방법
KR100880480B1 (ko) * 2002-02-21 2009-01-28 엘지전자 주식회사 디지털 오디오 신호의 실시간 음악/음성 식별 방법 및시스템
JP2003298981A (ja) 2002-04-03 2003-10-17 Oojisu Soken:Kk 要約画像作成装置、要約画像作成方法、要約画像作成プログラム、及び要約画像作成プログラムを記憶したコンピュータ読取可能な記憶媒体
US7286749B2 (en) * 2002-04-16 2007-10-23 Canon Kabushiki Kaisha Moving image playback apparatus, moving image playback method, and computer program thereof with determining of first voice period which represents a human utterance period and second voice period other than the first voice period
JP4086532B2 (ja) 2002-04-16 2008-05-14 キヤノン株式会社 動画再生装置、動画再生方法及びそのコンピュータ・プログラム
JP4109065B2 (ja) 2002-09-27 2008-06-25 クラリオン株式会社 記録再生装置、記録装置、それらの制御方法、制御プログラム及び記録媒体
EP1573462A2 (en) * 2002-10-28 2005-09-14 Gracenote, Inc. Personal audio recording system
US7031915B2 (en) * 2003-01-23 2006-04-18 Aurilab Llc Assisted speech recognition by dual search acceleration technique
US7336890B2 (en) * 2003-02-19 2008-02-26 Microsoft Corporation Automatic detection and segmentation of music videos in an audio/video stream
US20040167767A1 (en) * 2003-02-25 2004-08-26 Ziyou Xiong Method and system for extracting sports highlights from audio signals
JP4199097B2 (ja) * 2003-11-21 2008-12-17 パイオニア株式会社 楽曲自動分類装置及び方法
WO2005069172A1 (ja) * 2004-01-14 2005-07-28 Mitsubishi Denki Kabushiki Kaisha 要約再生装置および要約再生方法
US20050154987A1 (en) * 2004-01-14 2005-07-14 Isao Otsuka System and method for recording and reproducing multimedia
US7022907B2 (en) * 2004-03-25 2006-04-04 Microsoft Corporation Automatic music mood detection
JP4587160B2 (ja) * 2004-03-26 2010-11-24 キヤノン株式会社 信号処理装置および方法
FI20045146A0 (fi) * 2004-04-22 2004-04-22 Nokia Corp Audioaktiivisuuden ilmaisu
US20060149693A1 (en) * 2005-01-04 2006-07-06 Isao Otsuka Enhanced classification using training data refinement and classifier updating
US20060212297A1 (en) * 2005-03-18 2006-09-21 International Business Machines Corporation System and method using blind change detection for audio segmentation
JP2006301134A (ja) 2005-04-19 2006-11-02 Hitachi Ltd 音楽検出装置、音楽検出方法及び録音再生装置
GB2425730B (en) * 2005-05-03 2010-06-23 Codemasters Software Co Rhythm action game apparatus and method
JP4201204B2 (ja) * 2005-05-26 2008-12-24 Kddi株式会社 オーディオ情報分類装置
KR100749045B1 (ko) * 2006-01-26 2007-08-13 삼성전자주식회사 음악 내용 요약본을 이용한 유사곡 검색 방법 및 그 장치

Also Published As

Publication number Publication date
EP1968043A1 (en) 2008-09-10
JP2007180669A (ja) 2007-07-12
JP4321518B2 (ja) 2009-08-26
EP1968043A4 (en) 2011-09-28
CN101310327A (zh) 2008-11-19
CN101310327B (zh) 2012-07-18
WO2007074755A1 (ja) 2007-07-05
US8855796B2 (en) 2014-10-07
HK1122893A1 (en) 2009-05-29
EP1968043B1 (en) 2013-02-20
KR100962803B1 (ko) 2010-06-10
US20090088878A1 (en) 2009-04-02

Similar Documents

Publication Publication Date Title
KR100962803B1 (ko) 악곡 구간 검출 방법 및 그 장치, 및 데이터 기록 방법 및그 장치
JP4442585B2 (ja) 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置
US7466640B2 (en) Method and apparatus for extracting digital data from a medium
JP4081120B2 (ja) 記録装置、記録再生装置
KR20010051898A (ko) 기록 재생 장치 및 방법, 및 기록 매체
JPWO2005069172A1 (ja) 要約再生装置および要約再生方法
KR20060027826A (ko) 비디오 처리장치, 비디오 처리장치용 집적회로, 비디오처리방법, 및 비디오 처리 프로그램
CA2778889A1 (en) Apparatus and method for synchronizing additional data and base data
TW200415603A (en) Apparatus for recording a main file and auxiliary files in a track on a record carrier
US6577589B1 (en) Information recording medium, information recording apparatus and information reproducing apparatus
KR20040081992A (ko) 오디오 데이터의 텍스트 변환 및 디스플레이 방법
JP2006270233A (ja) 信号処理方法及び信号記録再生装置
JP2005352330A (ja) 音声分割記録装置
JP4077264B2 (ja) 情報記録媒体、情報記録装置、情報記録方法、情報再生装置、及び情報再生方法
JP4422538B2 (ja) 音付映像の再生装置
CN1532833A (zh) 音频数据和附加数据之间的同步记录管理以及播放方法
JP2005275149A (ja) 楽曲情報編集装置
JP4312167B2 (ja) コンテンツ再生装置
JP2005223794A (ja) 映像音響コンテンツの記録装置及び方法
Mason et al. Research White Paper
KR20070075240A (ko) 미디어 파일 포맷, 미디어 파일 재생 방법, 및 미디어 파일재생 장치
JP2006079687A (ja) 情報再生装置および記憶装置の空き容量増加方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130524

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20140530

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20150430

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20160517

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20170522

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20180517

Year of fee payment: 9