KR101363534B1 - 비트 추출 장치 및 비트 추출 방법 - Google Patents

비트 추출 장치 및 비트 추출 방법 Download PDF

Info

Publication number
KR101363534B1
KR101363534B1 KR1020087016468A KR20087016468A KR101363534B1 KR 101363534 B1 KR101363534 B1 KR 101363534B1 KR 1020087016468 A KR1020087016468 A KR 1020087016468A KR 20087016468 A KR20087016468 A KR 20087016468A KR 101363534 B1 KR101363534 B1 KR 101363534B1
Authority
KR
South Korea
Prior art keywords
bit
music
bits
position information
processing means
Prior art date
Application number
KR1020087016468A
Other languages
English (en)
Other versions
KR20080087112A (ko
Inventor
고세이 야마시타
야스시 미야지마
Original Assignee
소니 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 소니 주식회사 filed Critical 소니 주식회사
Publication of KR20080087112A publication Critical patent/KR20080087112A/ko
Application granted granted Critical
Publication of KR101363534B1 publication Critical patent/KR101363534B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10GREPRESENTATION OF MUSIC; RECORDING MUSIC IN NOTATION FORM; ACCESSORIES FOR MUSIC OR MUSICAL INSTRUMENTS NOT OTHERWISE PROVIDED FOR, e.g. SUPPORTS
    • G10G3/00Recording music in notation form, e.g. recording the mechanical operation of a musical instrument
    • G10G3/04Recording music in notation form, e.g. recording the mechanical operation of a musical instrument using electrical means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/40Rhythm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/076Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/011Files or data streams containing coded musical information, e.g. for transmission
    • G10H2240/046File format, i.e. specific or non-standard musical file format used in or adapted for electrophonic musical instruments, e.g. in wavetables
    • G10H2240/071Wave, i.e. Waveform Audio File Format, coding, e.g. uncompressed PCM audio according to the RIFF bitstream format method
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/325Synchronizing two or more audio tracks or files according to musical features or musical timings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/215Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
    • G10H2250/235Fourier transform; Discrete Fourier Transform [DFT]; Fast Fourier Transform [FFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Auxiliary Devices For Music (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

본 발명은, 비트 추출 장치 및 비트 추출 방법에 관한 것으로서, 비트 추출 처리부(12)는, .wav 파일에 기록되어 있는 디지털 오디오 신호가 공급되면, 이 디지털 오디오 신호로부터 러프한 비트 위치 정보를 추출하고, 결과를 .mty 파일에 기록된 메타 데이터로서 출력한다. 또, 비트 정렬 처리부(13)는, .mty 파일에 기록된 메타 데이터의 비트 정보를 정렬하고, 결과를 .may 파일에 기록된 메타 데이터로서 출력하고, 악곡의 음악 신호를 재생하면서 고정밀도로 음악의 리듬에 있어서의 비트를 추출한다.
비트 추출 장치, 비트 추출 방법, 비트 추출 처리부, 비트 정렬 처리부

Description

비트 추출 장치 및 비트 추출 방법{BEAT EXTRACTION DEVICE AND BEAT EXTRACTION METHOD}
본 발명은, 음악에 있어서의 리듬의 비트(beat)를 추출하는 비트 추출 장치 및 비트 추출 방법에 관한 것이다.
악곡은, 소절(小節;bar)이나 박자(拍子;beat)라는 시간 척도가 기본으로 되어 구성되어 있다. 그러므로, 연주자는, 소절이나 박자를 기본적인 시간 척도로 하여 악곡을 연주한다. 연주자는, 악곡을 연주하는 타이밍을 채용하는데 있어서, 어떤 소절의 어떤 박자로부터 특정한 음을 울리는 방법으로 연주하고 있으므로, 결코 연주 개시로부터 몇분 몇초 후에 특정한 음을 울린다는 타임 스탬프를 이용한 방법으로 연주하고 있는 것은 아니다. 음악이 소절이나 박자로 규정되어 있으므로, 연주자는, 템포나 리듬에 변동이 있어도 유연하게 대응할 수 있고, 또한 같은 악보의 연주에서도 연주자마다 템포나 리듬에 있어서 개성을 내는 것이 가능해진다.
연주자가 행하는 연주는, 최종적으로 음악 컨텐츠로서 사용자 앞으로 전달된다. 구체적으로는, 각 연주자의 연주가, 예를 들면, 스테레오의 2채널이라는 형태로 믹스 다운되어 1개의 완성 패키지로 된다. 이 완성 패키지는, 예를 들면, PCM(Pulse Code Modulation) 방식을 이용한 음악 CD(Compact Disc)로서 사용자에게 전달된다. 이 음악 CD에 있어서의 음원은, 이른바 샘플링 음원이라는 것이다.
이와 같은 CD 등의 패키지의 단계에서는, 연주자가 의식하고 있는 소절이나 박자 등의 타이밍에 대한 정보가 결락(缺落)되어 있다.
그러나, 인간은, 이 PCM 방식에 있어서의 음성 파형을 D/A(Digital to Analog) 변환하여 얻어진 아날로그음을 듣는 것만으로, 자연스럽게 소절이나 박자라는 타이밍에 대한 정보를 재인식할 수 있다. 즉, 인간은, 음악의 리듬이라는 감각을 자연스럽게 되찾는 것이 가능한 것이다. 한편, 기계는, 이와 같은 능력을 가지고 있지 않아, 음악 그 자체와는 직접 관계가 없는 타임 스탬프라는 시각에 대한 정보만을 가진다.
이와 같은 연주자에 의한 연주나 가수의 가성(歌聲)에 의해 제공되는 악곡의 비교 대상으로서, 종래의 노래방과 같은 시스템이 있다. 이 시스템에서는, 음악의 리듬에 맞추어 가사를 노래방용의 표시 화면에 표시한다.
그러나, 이와 같은 노래방 시스템은, 음악의 리듬을 인식하고 있는 것은 아니고, MIDI(Music Instrument Digital Interface)라는 전용의 데이터를 단지 재생하고 있는데 지나지 않는다.
MIDI 포맷에는, 싱크로 제어에 필요한 연주 정보나 가사 정보, 발음 타이밍(이벤트 시각)을 기술한 타임 코드 정보(타임 스탬프)가 MIDI 데이터로서 기술되어 있다. MIDI 데이터는, 컨텐츠 제작자에 의해 미리 만들어진 것이며, 노래방 재생 장치는, MIDI 데이터의 지시에 따라 예정된 타이밍에서 발음을 행하고 있는데 지나 지 않는다. 말하자면, 장치가 악곡을 그 자리에서 생성(연주)하고 있는 것이다. 이것은, MIDI 데이터와 그 전용 장치라는 한정적인 환경에서만 즐길 수 있는 것이다.
그리고, MIDI 외에도 SMIL(Synchronized Multimedia Integration Language) 등, 다종 다양한 포맷이 존재하지만, 기본적인 컨셉은 동일하다.
그런데, 시중에 유통되고 있는 음악 컨텐츠는, MIDI나 SMIL보다도, 예를 들면, CD로 대표되는 PCM 데이터나 그 압축 음성인 MP3(MPEG(Moving Picture Experts Group) Audio Layer3) 등, 전술한 샘플링 음원이라는 생(raw)의 음성 파형을 주체로 한 포맷이 주류이다.
음악 재생 장치는, 이들 샘플링된 PCM 등의 음성 파형을 D/A 변환하여 출력함으로써, 사용자에게 음악 컨텐츠를 제공한다. 또, FM 라디오 방송 등에 볼 수 있는 바와 같이, 음악 파형 그 자체의 아날로그 신호를 방송하는 예도 있다. 또한, 콘서트, 라이브 연주 등, 그 자리에서 사람이 연주하여 사용자에게 제공하는 예도 있다.
만약, 기계가 음악의 생의 음악 파형으로부터, 음악의 소절이나 박자라는 타이밍을 자동적으로 인식할 수 있었다고 하면, MIDI나 SMIL의 이벤트 시각 정보 등과 같은 미리 준비된 정보가 없어도, 노래방이나 댄스와 같이 음악과 다른 미디어가 리듬 동기하도록 한 싱크로 기능을 실현할 수 있고, 또한 방대한 기존의 CD 등의 컨텐츠에 대해서도 새로운 엔터테인먼트의 가능성이 넓어진다.
종래부터, 템포나 비트를 자동적으로 추출하는 시도는 행해져 오고 있다.
예를 들면, 일본국 특개 2002-116754 공보에는, 시계열 신호로서의 음악 파형 신호의 자기(自己) 상관을 산출하고, 이 산출 결과에 따라 음악의 비트 구조를 해석하고, 또한 이 해석 결과에 따라 음악의 템포를 추출하는 방법이 개시되어 있다.
또, 일본국 특허 제3066528호 공보에는, 악곡 데이터로부터 복수개의 주파수대별 음압(音壓) 데이터를 작성하고, 그 복수개의 주파수대 중에서 리듬을 가장 현저하게 취하는 주파수대를 특정하고, 특정한 주파수 타이밍의 음압 데이터에서의 변화 주기에 따라 리듬 성분을 추정하는 방법이 기재되어 있다.
리듬, 비트, 템포 등을 산출하는 기술을 크게 분류하면, 일본국 특개 2002-116754 공보와 같이 음악 신호를 시간 영역에서 분석하는 것과, 일본국 특허 제3066528호 공보와 같이 주파수 영역에서 분석하는 것으로 나눌 수 있다.
그러나, 일본국 특개 2002-116754 공보의 시간 영역에서 분석하는 것은, 비트와 시간 파형이 반드시 일치하는 것은 아니기 때문에, 본질적으로 높은 추출 정밀도를 얻을 수 없다. 또, 일본국 특허 제3066528호 공보의 주파수 분석을 사용하는 것은, 일본국 특개 2002-116754 공보보다 비교적 추출 정밀도를 향상시키는 것은 가능하나, 주파수 분석에 의해 얻어진 데이터 중에는, 특정한 음표에 있어서의 비트 이외에 많은 비트가 많이 포함되고, 모든 비트로부터 특정한 음표에 있어서의 비트를 분리하는 경우가 극히 곤란하였다. 또, 음악의 템포(시간 주기) 자체에도 큰 변동이 있으므로, 이들 변동에 추종하여, 특정한 음표에 있어서의 비트만을 추출하는 것은 극히 곤란하였다.
이와 같이, 종래의 기술에서는 1곡 전체에 걸쳐, 시간적으로 변동하고 있는 특정한 음표에 있어서의 비트를 추출하는 것은 불가능했었다.
본 발명은, 이와 같은 종래의 문제점을 감안하여 제안된 것이며, 템포가 변동되고 있는 악곡에 대해서도, 1곡 전체에 걸쳐 고정밀도로 특정한 음표에 있어서의 비트만을 추출할 수 있는 비트 추출 장치 및 비트 추출 방법을 제공하는 것을 목적으로 한다.
전술한 목적을 달성하기 위하여, 본 발명에 관한 비트 추출 장치는, 악곡에 있어서의 리듬의 비트 위치 정보를 추출하는 비트 추출 처리 수단과, 상기 비트 추출 처리 수단에 의해 추출되어 얻어진 상기 비트 위치 정보를 사용하여 비트 주기 정보를 생성하고, 상기 비트 주기 정보에 따라 상기 비트 추출 처리 수단에 의해 추출된 비트 위치 정보의 비트를 정렬하는 비트 정렬 처리 수단을 구비한 것을 특징으로 한다.
또, 전술한 목적을 달성하기 위하여, 본 발명에 관한 비트 추출 방법은, 악곡에 있어서의 리듬의 비트 위치 정보를 추출하는 비트 추출 처리 스텝과, 상기 비트 추출 처리 스텝에 의해 추출되어 얻어진 상기 비트 위치 정보를 사용하여 비트 주기 정보를 생성하고, 상기 비트 주기 정보에 따라 상기 비트 추출 처리 수단에 의해 추출된 비트 위치 정보의 비트를 정렬하는 비트 정렬 처리 스텝을 포함하는 것을 특징으로 한다.
도 1은 본 발명에 관한 비트 추출 장치의 일실시예를 포함하는 음악 재생 장치의 내부 구성을 나타낸 기능 블록도이다.
도 2는 비트 추출부의 내부 구성을 나타낸 기능 블록도이다.
도 3 (A)는 디지털 오디오 신호의 시간 파형의 일례를 나타낸 도면이며, 도 3 (B)는 이 디지털 오디오 신호의 스펙트럼을 나타낸 도면이다.
도 4는 비트 추출 처리부의 내부 구성을 나타낸 기능 블록도이다.
도 5 (A)는 디지털 오디오 신호의 시간 파형의 일례를 나타낸 도면이며, 도 5 (B)는 이 디지털 오디오 신호의 스펙트럼을 나타낸 도면이며, 도 5 (C)는 이 디지털 오디오 신호의 비트 추출 파형을 나타낸 도면이다.
도 6 (A)는 비트 추출 처리부에 의해 추출된 비트 위치 정보의 비트 간격을 나타낸 도면이며, 도 6 (B)는 비트 정렬 처리부에 의해 정렬 처리된 비트 위치 정보의 비트 간격을 나타낸 도면이다.
도 7은 특정 비트가 인 비트인지 여부를 판단하기 위한 윈도우폭을 나타낸 도면이다.
도 8은 비트 위치 정보의 비트 간격을 나타낸 도면이다.
도 9는 비트 추출부에서 추출된 비트 위치 정보에 따라 산출되는 총 비트를 나타낸 도면이다.
도 10은 총 비트 및 순간 비트 주기를 나타낸 도면이다.
도 11은 라이브 녹음된 악곡에 있어서의 박자수에 대한 순간 BPM을 나타낸 그래프이다.
도 12는 컴퓨터의 이른바 신디사이즈에 의해 녹음된 악곡에 있어서의 박자수에 대한 순간 BPM을 나타낸 그래프이다.
도 13은 신뢰도 지표값에 따라 비트 위치 정보를 수정하는 일례에 있어서의 처리 스텝을 나타낸 플로차트이다.
도 14는 비트 추출 조건을 자동적으로 최적화하는 일례의 처리 스텝을 나타낸 플로차트이다.
이하, 본 발명을 적용한 구체적인 실시예에 대하여, 도면을 참조하면서 상세하게 설명한다.
도 1은, 본 발명에 관한 비트 추출 장치의 일실시예를 포함하는 음악 재생 장치(10)의 내부 구성을 나타낸 블록도이다. 음악 재생 장치(10)는, 예를 들면, 퍼스널 컴퓨터로 구성된다.
음악 재생 장치(10)에 있어서, 시스템 버스(100)에는, CPU(Central Processing Unit)(101)와, ROM(Read Only Memory)(102)과, RAM(Random Access Memory)(103)이 접속되어 있다. ROM(102)에는 각종 프로그램이 기록되어 있고, CPU(101)는, 작업 영역으로 한 RAM(103) 상에서 이들 프로그램에 따른 처리를 실행한다.
또, 시스템 버스(100)에는, 음성 데이터 디코드부(104)와, 미디어 드라이브(105)와, 통신 네트워크 인터페이스(인터페이스는 도면에서는 I/F라고 기재함. 이하 동일함)(107)와, 조작 입력부 인터페이스(109)와, 디스플레이 인터페이 스(111)와, I/O 포트(113) 및 I/O 포트(114)와, 입력부 인터페이스(115)와, HDD(Hard Disc Drive)(121)가 접속되어 있다. 각 기능 블록에서 처리되는 일련의 데이터는, 이 시스템 버스(100)를 통하여 다른 기능 블록에 공급된다.
미디어 드라이브(105)는, CD(Compact Disc), DVD(Digital Versatile Disc) 등의 미디어(106)에 기억되어 있는 음악 컨텐츠의 음악 데이터를, 시스템 버스(100)에 입력한다.
조작 입력부 인터페이스(109)에는, 키보드, 마우스 등의 조작 입력부(110)가 접속되어 있다.
디스플레이(112)는, 예를 들면, 추출한 비트에 동기한 표시를 하거나, 추출한 비트에 동기하여 춤추는 인형이나 로봇을 표시하거나 하는 것을 상정하고 있다.
I/O 포트(113)에는, 오디오 재생부(117)와, 비트 추출부(11)가 접속되어 있다. 또, I/O 포트(114)에는 비트 추출부(11)가 접속되어 있다.
입력부 인터페이스(115)에는, A/D(Analog to Digital) 변환기(116A)와, 마이크로폰 단자(116B)와, 마이크로폰(116C)을 구비하는 입력부(116)가 접속되어 있다. 마이크로폰(116C)에서 수음(收音)된 음성 신호나 음악 신호는, A/D 변환기(116A)에서 디지털 오디오 신호로 변환되어 입력부 인터페이스(115)에 공급된다. 입력부 인터페이스(115)는, 이 디지털 오디오 신호를 시스템 버스(100)에 입력한다. 시스템 버스(100)에 받아들여진 디지털 오디오 신호(시간 파형 신호에 상당)는, HDD(121)상에 .wav 파일 등의 형식으로 기록된다. 이 입력부 인터페이스(115)를 통하여 받아들여진 디지털 오디오 신호는, 오디오 재생부(117)에 직접 공급되지는 않는다.
음성 데이터 디코드부(104)는, 시스템 버스(100)를 통하여 HDD(121) 또는 미디어 드라이브(105)로부터 음악 데이터가 공급되면, 이 음악 데이터를 디코드하고, 디지털 오디오 신호를 복원한다. 음성 데이터 디코드부(104)는, 이 복원된 디지털 오디오 신호를, 시스템 버스(100)를 통하여 I/O 포트(113)에 전송한다. I/O 포트(113)는, 시스템 버스(100)를 통하여 전송되어 오는 디지털 오디오 신호를 비트 추출부(11) 및 오디오 재생부(117)에 공급한다.
기존의 CD 등의 미디어(106)는 미디어 드라이브(105)를 통하여, 시스템 버스(100)에 받아들여진다. 청취자가 다운로드 등을 함으로써 취득되어 HDD(121)에 받아들여지고 있는 비압축 음성 컨텐츠는, 직접 시스템 버스(100)에 받아들여진다. 한편, 압축 음성 컨텐츠는, 일단, 음성 데이터 디코드부(104)를 통해 시스템 버스(100)로 되돌려진다. 입력부(116)로부터 입력부 인터페이스(115)를 통하여 시스템 버스(100)에 받아들여진 디지털 오디오 신호(디지털 오디오 신호는, 음악의 신호에 한정되지 않고, 예를 들면, 음성 신호나 그 외의 오디오 대역 신호를 포함하는 것으로 함)도 일단, HDD(121)에 받아들여진 후, 다시 시스템 버스(100)로 되돌려진다.
본 발명을 적용한 일실시예에서의 음악 재생 장치(10)에서는, 시스템 버스(100)에 받아들여진 디지털 오디오 신호(시간 파형 신호에 상당)는, I/O 포트(113)에 전송되어, 비트 추출부(11)에 공급된다.
본 발명에 관한 비트 처리 장치의 일실시예인 비트 추출부(11)는, 악곡에 있 어서의 리듬의 비트 위치 정보를 추출하는 비트 추출 처리부(12)와, 비트 추출 처리부(12)에 의해 추출되어 얻어진 비트 위치 정보를 사용하여 비트 주기 정보를 생성하고, 이 비트 주기 정보에 따라 비트 추출 처리부(12)에 의해 추출된 비트 위치 정보의 비트를 정렬하는 비트 정렬 처리부(13)를 구비한다.
도 2에 나타낸 바와 같이, 비트 추출 처리부(12)는, .wav 파일에 기록되어 있는 디지털 오디오 신호가 공급되면, 이 디지털 오디오 신호로부터 러프(coarse)한 비트 위치 정보를 추출하고, 결과를 .mty 파일에 기록된 메타 데이터로서 출력한다. 또, 비트 정렬 처리부(13)는, .mty 파일에 기록된 메타 데이터의 전부, 또는 템포가 같은 것으로 상정되는 악곡 부분에 대응하는 메타 데이터를 사용하여, 비트 추출 처리부(12)에 의해 추출된 비트 위치 정보를 정렬하고, 결과를 .may 파일에 기록된 메타 데이터로서 출력한다. 이로써, 단계적으로 정밀도가 높은 추출 비트 위치 정보를 얻는 것이 가능해진다. 그리고, 비트 추출부(11)에 대한 자세한 것은, 후술한다.
오디오 재생부(117)는, D/A 변환기(117A)와, 출력 앰프(117B)와, 스피커(117C)를 구비한다. I/O 포트(113)는, 시스템 버스(100)를 통하여 전송되어 오는 디지털 오디오 신호를, 오디오 재생부(117)가 구비하는 D/A 변환기(117A)에 공급한다. D/A 변환기(117A)는, I/O 포트(113)로부터 공급된 디지털 오디오 신호를 아날로그 오디오 신호로 변환하고, 출력 앰프(117B)를 통해서 스피커(117C)에 공급한다. 스피커(117C)는, 이 출력 앰프(117B)를 통해서 D/A 변환기(117A)로부터 공급된 아날로그 오디오 신호를 음향 재생한다.
디스플레이 인터페이스(111)에는, 예를 들면, LCD(Liquid Crystal Display) 등으로 이루어지는 디스플레이(112)가 접속되어 있다. 디스플레이(112)에는, 예를 들면, 음악 컨텐츠의 음악 데이터로부터 추출된 비트 성분이나 템포값이 표시된다. 또, 디스플레이(112)에는, 음악에 동기하여, 예를 들면, 애니메이션 화상이나 가사가 표시된다.
통신 네트워크 인터페이스(107)는, 인터넷(108)에 접속되어 있다. 음악 재생 장치(10)에서는, 음악 컨텐츠의 속성 정보를 기억하는 서버에, 인터넷(108)을 통하여 액세스하여, 음악 컨텐츠의 식별 정보를 검색 워드로 하여 그 속성 정보의 취득 요구를 보내고, 이 취득 요구에 따라 서버로부터 보내져 오는 속성 정보를, 예를 들면, HDD(121)가 구비하는 하드 디스크에 기억시킨다.
음악 재생 장치(10)에 적용되는 음악 컨텐츠의 속성 정보는, 악곡을 구성하는 정보를 포함한다. 악곡을 구성하는 정보는, 악곡의 섹션에 대한 정보, 악곡에 있어서의 코드, 코드 단위의 템포, 키, 음량, 및 박자에 대한 정보, 악보에 대한 정보, 코드 진행에 대한 정보, 가사에 대한 정보 등, 이른바 곡조가 정해지는 기준으로 되는 정보로 이루어진다.
여기서, 코드 단위란, 악곡의 박자, 소절 등, 악곡에 부여되는 코드의 단위이다. 또, 악곡의 섹션에 대한 정보는, 예를 들면, 악곡의 선두 위치로부터의 상대 위치 정보나 타임 스탬프로 이루어지는 것이다.
본 발명을 적용한 일실시예에서의 음악 재생 장치(10)가 구비하는 비트 추출부(11)는, 이하에 설명하는 디지털 오디오 신호의 특징에 따라 음악의 리듬의 비트 위치 정보를 추출한다.
도 3 (A)는, 디지털 오디오 신호의 시간 파형의 일례를 나타낸 것이다. 이 도 3 (A)에 나타낸 시간 파형에는, 군데군데 순간적으로 큰 피크값을 이루는 부분이 있는 것을 알 수 있다. 이 큰 피크값을 이루는 부분은, 예를 들면, 드럼의 비트의 일부에 상당하는 부분이다.
그런데, 도 3 (A)에 나타낸 시간 파형을 가지는 디지털 오디오 신호의 시간 파형에서는, 숨겨져 있어 모르지만, 이 도 3 (A)에 나타낸 시간 파형을 가지는 디지털 오디오 신호의 음악을 실제로 들어 보면, 보다 많은 비트 성분이 대략 등간격으로 포함되어 있는 것을 알 수 있다. 즉, 도 3 (A)에 나타낸 시간 파형이 큰 피크값만에서는, 실제의 음악의 리듬의 비트 성분을 추출할 수 없다.
도 3 (B)는, 도 3 (A)에 나타낸 시간 파형을 가지는 디지털 오디오 신호의 스펙트럼을 나타낸 것이다. 이 도 3 (B)에 나타낸 디지털 오디오 신호의 스펙트럼에서는, 도 3 (A)에 나타낸 시간 파형에 있어서 숨겨져 있던 비트 성분이, 파워 스펙트럼이 순간적으로 크게 변화하는 부분으로서 보이는 것을 알 수 있다. 그리고, 실제로 음을 들으면, 이 스펙트럼에 있어서의 파워 스펙트럼이 순간적으로 크게 변화하는 부분이, 비트 성분에 상당한다는 것을 알 수 있다. 비트 추출부(11)에서는, 이 스펙트럼에 있어서의 파워 스펙트럼이 순간적으로 크게 변화하는 부분을 리듬의 비트 성분이라고 본다.
이 비트 성분을 추출하여 비트 주기를 계측함으로써, 음악의 리듬 주기나 BPM(Beat Per Minutes)을 알 수도 있다.
비트 추출 처리부(12)는, 도 4에 나타낸 바와 같이, 파워 스펙트럼 산출부(12A)와, 변화율 산출부(12B)와, 엔벨로프 폴로워부(12C)와, 콤퍼레이터부(12D)와, 2치화부(12E)를 구비한다.
파워 스펙트럼 산출부(12A)에는, 악곡의 도 5 (A)에 나타낸 바와 같은 시간 파형으로 이루어지는 디지털 오디오 신호가 입력된다.
즉, 음성 데이터 디코드부(104)로부터 공급된 디지털 오디오 신호는, 비트 추출 처리부(12)가 구비하는 파워 스펙트럼 산출부(12A)에 공급된다.
파워 스펙트럼 산출부(12A)는, 시간 파형으로부터 고정밀도로 비트 성분을 추출할 수 없으므로, 이 시간 파형에 대하여, 예를 들면, FFT(Fast Fourier Transform)를 사용하여 도 5 (B)에 나타낸 바와 같은 스펙트럼을 산출한다.
이 FFT 연산에 있어서의 분해능은, 비트 추출 처리부(12)에 입력되는 디지털 오디오 신호의 샘플링 주파수가 48kHz인 경우, 샘플수를 512 샘플, 또는 1024 샘플로 하고, 실시간으로 5 ~ 30 msec로 설정하는 것이 바람직하지만, 이 FFT 연산에 있어서 설정된 각종 수치에 대하여는, 이들에 한정되지 않는다. 또, 예를 들면, 하닝(hanning)이나 허밍(hamming) 등의 창 함수(윈도우 함수)를 적용하면서, 또한 창(윈도우)을 오버랩시키면서 FFT 연산을 행하는 것이 일반적으로 바람직하다.
파워 스펙트럼 산출부(12A)는, 산출한 파워 스펙트럼을 변화율 산출부(12B)에 공급한다.
변화율 산출부(12B)는, 파워 스펙트럼 산출부(12A)로부터 공급된 파워 스펙트럼의 변화율을 산출한다. 즉, 변화율 산출부(12B)는, 파워 스펙트럼 산출부(12A) 로부터 공급된 파워 스펙트럼에 대하여 미분 연산을 행함으로써 파워 스펙트럼의 변화율을 산출한다. 변화율 산출부(12B)는, 시시각각으로 변화하는 파워 스펙트럼에 대하여, 미분 연산을 반복 행함으로써, 도 5 (C)에 나타낸 바와 같은 비트 추출 파형을 나타내는 검출 신호를 출력한다. 여기서, 도 5 (C)에 나타낸 비트 추출 파형 중, 정방향으로 상승하는 피크를 비트 성분이라고 본다.
엔벨로프 폴로워부(12C)는, 변화율 산출부(12B)로부터 검출 신호가 공급되면, 이 검출 신호에 적당한 시정수에 의한 히스테리시스 특성을 가함으로써, 이 검출 신호의 채터링을 제거하고, 이 채터링이 제거된 검출 신호를 콤퍼레이터부(12D)에 공급한다.
콤퍼레이터부(12D)는, 적당한 스레숄드(threshold)를 설정하고, 엔벨로프 폴로워부(12C)로부터 공급된 검출 신호의 저레벨의 노이즈를 컷하고, 이 저레벨의 노이즈가 커팅된 검출 신호를 2치화부(12E)에 공급한다.
2치화부(12E)는, 콤퍼레이터부(12D)로부터 공급된 검출 신호 중, 임계값 이상의 레벨을 가지는 검출 신호만을 남기는 2치화 처리를 행하고, P1, P2, 및 P3로 이루어지는 비트 성분의 시간 위치를 나타내는 비트 위치 정보를 .mty 파일에 기록된 메타 데이터로서 출력한다.
이와 같이, 비트 추출 처리부(12)는, 디지털 오디오 신호의 시간 파형으로부터 비트 위치 정보를 추출하고, .mty 파일에 기록된 메타 데이터로서 출력한다. 그리고, 이 비트 추출 처리부(12)가 구비하는 각 구성부에는, 내부 파라미터가 존재하고, 각 내부 파라미터를 변경함으로써 각 구성부의 동작의 효과가 변경된다. 이 내부 파라미터는, 후술하는 바와 같이, 자동으로 최적화되지만, 예를 들면, 조작 입력부(110)에 있어서 사용자의 수동에 의한 매뉴얼 조작에 의해 설정하는 것도 가능하다.
비트 추출 처리부(12)에 의해 추출되어 .mty 파일에 메타 데이터로서 기록되어 있는 악곡의 비트 위치 정보의 비트 간격은, 예를 들면, 도 6 (A)에 나타낸 바와 같이, 비등간격인 것이 많다.
비트 정렬 처리부(13)는, 비트 추출 처리부(12)에 의해 추출된 비트 위치 정보 중, 악곡, 또는 템포가 같은 것으로 상정되는 악곡 부분에서의 비트 위치 정보의 정렬 처리를 행한다.
비트 정렬 처리부(13)는, 비트 추출 처리부(12)에 의해 추출되어 .mty 파일에 기록되어 있는 비트 위치 정보의 메타 데이터로부터 예를 들면, 도 6 (A)의 A1로부터 A11에 나타낸 바와 같은 시간 간격이 등간격의 비트인 등간격 비트를 추출하고, B1으로부터 B4에 나타낸 바와 같은 비(非)등간격 비트를 추출하지 않도록 한다. 본 실시예에 있어서의 등간격 비트란 4분 음표의 간격으로 등간격인 것으로 한다.
비트 정렬 처리부(13)는, 비트 추출 처리부(12)에 의해 추출되어 .mty 파일에 기록되어 있는 비트 위치 정보의 메타 데이터보다 고정밀도의 평균 주기 T를 산출하고, 평균 주기 T와 시간 간격이 같은 비트를 등간격 비트로서 추출한다.
여기서, 추출된 등간격 비트만에서는, 도 6 (A)에 나타낸 바와 같은 공백 기간이 존재하게 된다. 그러므로, 비트 정렬 처리부(13)는, 도 6 (B)에 나타낸 바와 같이, 본래 등간격 비트가 존재하는 위치에, C1으로부터 C3에 나타낸 바와 같은 보간 비트를 새롭게 부가한다. 이로써, 모든 비트 간격이 등간격인 비트 위치 정보를 얻는 것이 가능해진다.
비트 정렬 처리부(13)는, 등간격 비트와 위상이 대략 같은 비트를 인 비트(in beat)라고 정의하여 추출한다. 여기서, 인 비트는, 실제의 음악 비트와 동기하는 비트이며, 등간격 비트도 포함된다. 한편, 비트 정렬 처리부(13)는, 등간격 비트와 위상이 전혀 상이한 비트를 아웃 비트(out beat)라고 정의하고, 이것을 제외한다. 아웃 비트는, 실제의 음악 비트(4분 음표 비트)와는 동기하지 않는 비트이다. 그러므로, 비트 정렬 처리부(13)는, 인 비트와 아웃 비트를 판별할 필요가 있다.
구체적으로, 어느 비트가 인 비트인지 아웃 비트인지를 판단하는 방법으로서, 비트 정렬 처리부(13)는, 도 7에 나타낸 바와 같이, 등간격 비트를 중심으로 한 일정한 윈도우폭 W를 정의한다. 비트 정렬 처리부(13)는, 윈도우폭 W에 포함되는 비트를 인 비트로 하고, 또, 윈도우폭 W에 포함되지 않은 비트를 아웃 비트라고 판단한다.
또, 비트 정렬 처리부(13)는, 윈도우폭 W에 등간격 비트가 포함되어 있지 않을 때, 등간격 비트를 보간하기 위한 비트인 보간 비트를 부가한다.
즉, 비트 정렬 처리부(13)는, 예를 들면, 도 8에 나타낸 바와 같이, A11로부터 A20에 나타낸 바와 같은 등간격 비트와, 등간격 비트 A11와 위상이 대략 같은 비트인 인 비트 D11를 인 비트로서 추출하는 동시에, C11로부터 C13에 나타낸 바와 같은 보간 비트를 추출한다. 또, 비트 정렬 처리부(13)는, B11로부터 B13에 나타낸 바와 같은 아웃 비트를 4분 음표 비트로서는 추출하지 않도록 한다.
실제, 음악 비트는, 시간적으로 변동되고 있으므로, 이 판단에 있어서, 변동이 큰 음악에 대하여는 추출되는 인 비트수가 적어진다. 이 결과, 비트 슬립이라는 추출 에러를 일으키는 문제가 발생한다.
그래서, 변동이 큰 음악에 대하여는, 윈도우폭 W의 값을 크게 다시 설정함으로써 추출되는 인 비트수가 많아지게 되어, 추출 에러를 적게 할 수 있다. 이 윈도우폭 W는, 통상, 일정값으로 되지만, 극단적으로 변동이 큰 악곡에 대하여는, 값을 크게 하는 등, 파라미터로서 조정을 행할 수 있다.
비트 정렬 처리부(13)는, 윈도우폭 W에 포함되는 인 비트, 한편, 윈도우폭 W에 포함되지 않은 아웃 비트라는 비트 속성을 메타 데이터로서 부여한다. 또, 비트 정렬 처리부(13)는, 윈도우폭 W 내에 추출 비트가 존재하지 않을 경우, 자동적으로 보간 비트를 부가하고, 이 보간 비트라는 비트 속성도 메타 데이터로서 부여한다. 이로써, 비트 정보를 구성하는 메타 데이터는, 전술한 비트 위치 정보나 상기한 비트 속성이라는 비트 정보가 포함되고, 메타 데이터 파일(.may)에 기록된다. 그리고, 이 비트 정렬 처리부(13)가 구비하는 각 구성부에는, 기본 윈도우폭 W 등의 내부 파라미터가 존재하고, 각 내부 파라미터를 변경함으로써 동작의 효과가 변경된다.
이와 같이, 비트 추출부(11)는, 비트 추출 처리부(12) 및 비트 정렬 처리부(13)에 있어서의 2단계에 의한 데이터 처리에 의해, 디지털 오디오 신호로부터 매우 고정밀도의 비트 정보를 자동적으로 추출하는 것이 가능해진다. 인 비트/아웃 비트 판정뿐아니라, 적절한 비트 보간 처리를 가함으로써, 1곡 전체에 걸쳐, 4분 음표의 등간격의 비트 정보를 얻을 수 있다.
다음에, 음악 재생 장치(10)가, 본 발명에 관한 비트 추출부(11)에서 추출된 비트 위치 정보에 부수하여 얻어지는 각종 음악 특징량의 계산 방법에 대하여 설명한다.
음악 재생 장치(10)는, 도 9에 나타낸 바와 같이, 비트 추출부(11)에서 추출된 선두 비트 X1와 최종 비트 Xn의 비트 위치 정보에 따라 이하에 나타낸 수식 1에 의해 총 비트수를 산출할 수 있다.
[수식 1]
총 비트수 = 총 인 비트수 + 총 보간 비트수
또, 음악 재생 장치(10)에서는, 비트 추출부(11)에서 추출된 비트 위치 정보에 따라 이하에 나타낸 수식 2 및 수식 3에 의해, 음악 템포(평균 BPM)를 산출할 수 있다.
[수식 2]
평균 비트 주기[샘플]= (최종 비트 위치-선두 비트 위치)/(총 비트수-1)
[수식 3]
평균 BPM[bpm]= 샘플링 주파수/평균 비트 주기×60
이와 같이, 음악 재생 장치(10)에서는, 간단한 사칙(四則) 연산에 의해 총 비트수 및 평균 BPM을 얻을 수 있다. 이로써, 음악 재생 장치(10)는, 이 산출된 결과를 사용하여 고속이며, 또한 저부하로 악곡의 템포를 산출할 수 있다. 그리고, 악곡의 템포를 구하는 방법은, 이에 한정되지 않는다.
이 계산 방법에서는, 계산 정밀도가 음성 샘플링 주파수에 의존하므로, 일반적으로, 유효 숫자 8자리수와, 매우 고정밀도의 값을 얻을 수 있다. 또, 이 계산 방법에서는, 만일, 비트 정렬 처리부(13)의 비트 추출 처리 중에 추출 에러가 생겨도, 그 에러 레이트가 수백 분의 1로부터 수천 분의 1이므로, 얻어지는 BPM은, 고정밀도의 값으로 된다.
또, 음악 재생 장치(10)는, 비트 추출부(11)에서 추출된 비트 위치 정보에 따라 지금까지 실현 불가능했던 악곡의 순간적인 템포의 변동을 나타내는 순간 BPM을 산출할 수 있다. 음악 재생 장치(10)는, 도 10에 나타낸 바와 같이, 등간격 비트의 시간 간격을 순간 비트 주기 Ts로서 이하의 수식 4에 의해, 순간 BPM을 산출한다.
[수식 4]
순간 BPM[bpm]= 샘플링 주파수/순간 비트 주기 Ts×60
음악 재생 장치(10)는, 1비트마다 이 순간 BPM을 그래프화하고, 디스플레이 인터페이스(111)를 통하여 디스플레이(112)에 표시한다. 사용자는, 이 순간 BPM의 분포를 실제로 듣고 있는 음악에 있어서의 템포의 변동 분포로서 파악하고, 예를 들면, 리듬 트레이닝, 악곡의 레코딩 시에 생기는 연주 미스의 파악 등에 이용하는 경우가 생긴다.
도 11은 라이브 녹음된 악곡에 있어서의 박자수에 대한 순간 BPM을 나타낸 그래프이다. 또, 도 12는 컴퓨터의 이른바 신디사이즈에 의해 녹음된 악곡에 있어서의 박자수에 대한 순간 BPM을 나타낸 그래프이다. 양자를 비교해도 알 수 있는 바와 같이, 컴퓨터 녹음된 악곡은, 라이브 녹음된 악곡보다 변동의 시간 폭이 작다. 이것은, 컴퓨터 녹음된 악곡에 있어서의 템포 변동이 매우 적은 성질을 가지기 때문이다. 이 성질을 이용함으로써, 지금까지 불가능했던, 어느 악곡이 라이브 녹음되었는지, 컴퓨터 녹음되었는지를 자동적으로 판단할 수 있다.
다음에, 비트 위치 정보의 추출 처리를 보다 고정밀도로 하는 방법에 대하여 설명한다.
비트 추출부(11)에 의해 추출된 비트 위치 정보를 나타내는 메타 데이터는, 일반적으로, 컴퓨터의 자동 인식 기술에 의해 추출된 것이므로, 이 비트 위치 정보는, 다소의 추출 에러를 포함한다. 특히, 악곡에 따라서는, 비트가 불균일하게 크게 변동되는 것이나, 비트감이 극단으로 부족한 것이 있다.
그래서, 비트 정렬 처리부(13)는, 비트 추출 처리부(12)로부터 공급된 메타 데이터에, 이 메타 데이터의 신뢰도를 나타내는 신뢰도 지표값을 부여하고, 메타 데이터의 신뢰도를 자동적으로 판단한다. 이 신뢰도 지표값은, 예를 들면, 이하의 수식 5에 나타낸 바와 같이, 순간 BPM의 분산값에 반비례하는 함수로서 정의된다.
[수식 5]
신뢰도 지표∝1/순간 BPM의 분산값
이것은, 일반적으로, 비트 추출 처리에 있어서 추출 미스가 생긴 경우, 순간 BPM의 분산값이 커지는 성질이 있기 때문이다. 즉, 순간 BPM의 분산값이 작을 수 록, 신뢰도 지표값이 커지도록 정의되어 있다.
이 신뢰도 지표값에 따라 보다 고정밀도로 비트 위치 정보를 추출하는 방법에 대하여 도 13 및 도 14의 플로차트를 참조하여 설명한다.
비트 위치 정보의 추출 에러를 포함하는 천차만별의 악곡에 대하여, 100% 정확하게 특정한 비트 위치 정보를 자동적으로 취득하는 것은 불가능하다. 그래서, 비트 위치 정보의 추출 에러를 사용자의 수동에 의한 매뉴얼 조작에 의해 수정할 수 있다. 추출 에러를 용이하게 발견하여, 에러 부분을 수정할 수 있으면, 수정 작업이 보다 효율적으로 된다.
도 13은 신뢰도 지표값에 따라 비트 위치 정보를 수동 수정하는 일례의 처리 스텝을 나타낸 플로차트이다.
스텝 S1에 있어서, I/O 포트(113)로부터 비트 추출부(11)가 구비하는 비트 추출 처리부(12)에 디지털 오디오 신호가 공급된다.
스텝 S2에 있어서, 비트 추출 처리부(12)는, I/O 포트(113)로부터 공급된 디지털 오디오 신호로부터, 비트 위치 정보를 추출하고, .mty 파일에 기록된 메타 데이터로서 비트 정렬 처리부(13)에 공급한다.
스텝 S3에 있어서, 비트 정렬 처리부(13)는, 비트 추출 처리부(12)로부터 공급된 비트 위치 정보를 구성하는 비트의 정렬 처리를 행한다.
스텝 S4에 있어서, 비트 정렬 처리부(13)는, 정렬 처리가 행해진 메타 데이터에 부여된 신뢰도 지표값이 일정한 임계값 N(%) 이상인지 여부를 판단한다. 이 스텝 S4에 있어서, 신뢰도 지표값이 N(%) 이상인 경우는, 스텝 S6으로 진행하고, 신뢰도 지표값이 N(%) 미만인 경우는, 스텝 S5로 진행한다.
스텝 S5에 있어서, 음악 재생 장치(10)가 구비하는 오소링 툴(authoring tool;도시하지 않음)에 의해, 사용자에 의한 비트 정렬 처리에 있어서의 수동 수정이 행해진다.
스텝 S6에 있어서, 비트 정렬 처리부(13)는, 비트 정렬 처리가 행해진 비트 위치 정보를 .may 파일에 기록된 메타 데이터로서 I/O 포트(114)에 공급한다.
또, 상기 신뢰도 지표값에 따라 비트 위치 정보의 추출 조건을 변경함으로써, 비트 위치 정보를 보다 고정밀도로 추출할 수 있다.
도 14는 비트 추출 조건을 특정하는 일례의 처리 스텝을 나타낸 플로차트이다.
비트 추출부(11)에 있어서의 비트 추출 처리에서는, 추출 조건을 특정하는 복수개의 내부 파라미터가 존재하고, 그 파라미터값에 의해 추출 정밀도가 변경된다. 그래서, 비트 추출부(11)에 있어서 비트 추출 처리부(12) 및 비트 정렬 처리부(13)는, 복수개의 내부 파라미터가 세트로 된 것을 미리 준비하고, 파라미터 세트마다 비트 추출 처리를 행하여, 상기 신뢰도 지표값을 산출한다.
스텝 S11에 있어서, I/O 포트(113)로부터 비트 추출부(11)가 구비하는 비트 추출 처리부(12)에 디지털 오디오 신호가 공급된다.
스텝 S12에 있어서, 비트 추출 처리부(12)는, I/O 포트(113)로부터 공급된 디지털 오디오 신호로부터, 비트 위치 정보를 추출하고, .mty 파일에 기록된 메타 데이터로서 비트 정렬 처리부(13)에 공급한다.
스텝 S13에 있어서, 비트 정렬 처리부(13)는, 비트 추출 처리부(12)로부터 공급된 메타 데이터의 비트 정렬 처리를 행한다.
스텝 S14에 있어서, 비트 정렬 처리부(13)는, 정렬 처리가 완료된 메타 데이터에 부여된 신뢰도 지표값이 일정한 임계값 N(%) 이상인지 여부를 판단한다. 이 스텝 S14에 있어서, 신뢰도 지표값이 N(%) 이상인 경우는, 스텝 S16으로 진행하고, 신뢰도 지표값이 N(%) 미만인 경우는, 스텝 S15로 진행한다.
스텝 S15에 있어서, 비트 추출 처리부(12) 및 비트 정렬 처리부(13)는, 각각 전술한 파라미터 세트의 파라미터를 변경하고, 스텝 S12로 돌아온다. 스텝 S12 및 스텝 S13의 진행 후, 스텝 S14에 있어서, 다시 신뢰도 지표값의 판단이 행해진다.
스텝 S14에 있어서 신뢰도 지표값이 N(%) 이상으로 되기까지 스텝 S12로부터 스텝 S15까지의 스텝은, 반복된다.
이와 같은 스텝을 거침으로써 최적의 파라미터 세트를 특정할 수 있어, 자동 비트 추출 처리의 추출 정밀도를 대폭 향상시킬 수 있다.
전술한 바와 같이, 본 발명에 관한 비트 추출 장치를 구비한 음악 재생 장치(10)에 의하면, 비트 위치 정보라는 타임 스탬프 정보를 가지지 않는 PCM 등의 음성 파형(샘플링 음원)이라도, 다른 미디어와 음악적으로 동조시킬 수 있다. 또, 비트 위치 정보라는 타임 스탬프 정보의 데이터 사이즈는, 수 Kbyte로부터 수십 Kbyte이며 음성 파형의 데이터 사이즈의 수천 분의 1로 매우 작으므로, 메모리 양이나 처리 스텝을 감소시킬 수 있으므로, 사용자는, 매우 용이하게 취급할 수 있다.
이상, 본 발명에 관한 비트 추출 장치를 구비한 음악 재생 장치(10)에 의하면, 템포가 변경하는 음악이나 리듬에 변동이 있는 음악에 대하여, 1곡 전체에 걸쳐 정확하게 비트를 추출할 수 있고, 또한 음악과 다른 미디어의 동조시킴으로써, 새로운 엔터테인먼트를 창조하는 것이 가능해진다.
그리고, 본 발명은 전술한 실시예에만 한정되는 것이 아니고, 본 발명의 요지를 벗어나지 않는 범위에 있어서 각종의 변경이 가능한 것은 물론이다.
예를 들면, 본 발명에 관한 비트 추출 장치는, 전술한 퍼스널 컴퓨터나 휴대형의 음악 재생기에만 적용되는 것이 아니고, 어떤 태양의 장치나 전자 기기에도 적용할 수 있다.
본 발명에 의하면, 악곡에 있어서의 리듬의 비트 위치 정보를 추출하고, 이 추출되어 얻어진 비트 위치 정보를 사용하여 비트 주기 정보를 생성하고, 이 비트 주기 정보에 따라 추출된 비트 위치 정보의 비트를 정렬함으로써, 악곡 전체로부터 특정한 음표에 있어서의 비트 위치 정보를 고정밀도로 추출하는 것이 가능해진다.

Claims (18)

  1. 악곡에 있어서의 리듬의 비트(beat) 위치 정보를 추출하는 비트 추출 처리 수단과,
    상기 비트 추출 처리 수단에 의해 추출되어 얻어진 상기 비트 위치 정보를 사용하여 비트 주기 정보를 생성하고, 상기 비트 주기 정보에 따라 상기 비트 추출 처리 수단에 의해 추출된 비트 위치 정보의 비트를 정렬하고, 상기 비트 주기 정보의 비트 주기와 시간적으로 일치하는 비트를 중심으로 하여 윈도우폭을 정의하고, 상기 윈도우폭 내에 존재하는 비트만을 추출하며, 상기 윈도우폭 내에 비트가 존재하지 않을 경우, 상기 윈도우폭 내에 새로운 비트를 부가하여, 상기 부가된 비트를 추출하는 비트 정렬 처리 수단을 구비하는, 비트 추출 장치.
  2. 제1항에 있어서,
    상기 비트 정렬 처리 수단은,
    상기 악곡 전체 또는 상기 악곡의 템포가 같은 것으로 상정되는 부분에 있어서 추출된 비트 위치 정보를 사용하는, 비트 추출 장치.
  3. 제1항에 있어서,
    상기 비트 추출 처리 수단은,
    음악의 음악 신호에 있어서의 시간 파형으로부터 상기 음악 신호의 파워 스펙트럼을 산출하는 파워 스펙트럼 산출 수단과,
    상기 파워 스펙트럼 산출 수단에 의해 산출된 파워 스펙트럼의 변화량을 산출하고, 상기 산출된 변환량을 출력하는 변화량 산출 수단을 구비하는, 비트 추출 장치.
  4. 삭제
  5. 삭제
  6. 악곡에 있어서의 리듬의 비트(beat) 위치 정보를 추출하는 비트 추출 처리 수단과,
    상기 비트 추출 처리 수단에 의해 추출되어 얻어진 상기 비트 위치 정보를 사용하여 비트 주기 정보를 생성하고, 상기 비트 주기 정보에 따라 상기 비트 추출 처리 수단에 의해 추출된 비트 위치 정보의 비트를 정렬하고, 상기 비트가 정렬된 비트 위치 정보의 신뢰도를 나타내는 지표값을 산출하여 상기 지표값이 일정한 임계값 이상인지 여부를 판단하는 비트 정렬 처리 수단을 구비하고,
    상기 비트 추출 처리 수단 및 상기 비트 정렬 처리 수단은, 각각 비트 추출 처리 조건 및 비트 정렬 처리 조건을 특정하는 내부 파라미터를 가지고, 상기 지표값이 일정한 임계값 이상으로 되기까지 각각 상기 내부 파라미터를 반복 변경하는, 비트 추출 장치.
  7. 삭제
  8. 제6항에 있어서,
    상기 지표값이 일정한 임계값 이상으로 되기까지 상기 비트 정렬 처리 수단에 의해 정렬된 비트 위치 정보를 수동으로 수정하는 수정 수단을 더 구비한, 비트 추출 장치.
  9. 제6항에 있어서,
    상기 지표값은, 상기 비트 위치 정보의 비트 사이에 있어서의 순간 BPM의 분산값에 반비례하는 함수인, 비트 추출 장치.
  10. 악곡에 있어서의 리듬의 비트 위치 정보를 추출하는 비트 추출 처리 스텝과,
    상기 비트 추출 처리 스텝에 의해 추출되어 얻어진 상기 비트 위치 정보를 사용하여 비트 주기 정보를 생성하고, 상기 비트 주기 정보에 따라 상기 비트 추출 처리 스텝에 의해 추출된 비트 위치 정보의 비트를 정렬하고, 상기 비트 주기 정보의 비트 주기와 시간적으로 일치하는 비트를 중심으로 하여 윈도우폭을 정의하고, 상기 윈도우폭 내에 존재하는 비트만을 추출하며, 상기 윈도우폭 내에 비트가 존재하지 않을 경우, 상기 윈도우폭 내에 새로운 비트를 부가하여, 상기 부가된 비트를 추출하는 비트 정렬 처리 스텝
    을 포함하는, 비트 추출 방법.
  11. 삭제
  12. 삭제
  13. 삭제
  14. 삭제
  15. 삭제
  16. 삭제
  17. 삭제
  18. 삭제
KR1020087016468A 2006-01-25 2007-01-24 비트 추출 장치 및 비트 추출 방법 KR101363534B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JPJP-P-2006-00016801 2006-01-25
JP2006016801A JP4949687B2 (ja) 2006-01-25 2006-01-25 ビート抽出装置及びビート抽出方法
PCT/JP2007/051073 WO2007086417A1 (ja) 2006-01-25 2007-01-24 ビート抽出装置及びビート抽出方法

Publications (2)

Publication Number Publication Date
KR20080087112A KR20080087112A (ko) 2008-09-30
KR101363534B1 true KR101363534B1 (ko) 2014-02-14

Family

ID=38309206

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020087016468A KR101363534B1 (ko) 2006-01-25 2007-01-24 비트 추출 장치 및 비트 추출 방법

Country Status (6)

Country Link
US (1) US8076566B2 (ko)
EP (1) EP1978508A1 (ko)
JP (1) JP4949687B2 (ko)
KR (1) KR101363534B1 (ko)
CN (1) CN101375327B (ko)
WO (1) WO2007086417A1 (ko)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4465626B2 (ja) * 2005-11-08 2010-05-19 ソニー株式会社 情報処理装置および方法、並びにプログラム
US7956274B2 (en) * 2007-03-28 2011-06-07 Yamaha Corporation Performance apparatus and storage medium therefor
JP4311466B2 (ja) * 2007-03-28 2009-08-12 ヤマハ株式会社 演奏装置およびその制御方法を実現するプログラム
JP4467601B2 (ja) * 2007-05-08 2010-05-26 ソニー株式会社 ビート強調装置、音声出力装置、電子機器、およびビート出力方法
JP5266754B2 (ja) 2007-12-28 2013-08-21 ヤマハ株式会社 磁気データ処理装置、磁気データ処理方法および磁気データ処理プログラム
EP2296145B1 (en) * 2008-03-10 2019-05-22 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Device and method for manipulating an audio signal having a transient event
JP5008766B2 (ja) * 2008-04-11 2012-08-22 パイオニア株式会社 テンポ検出装置及びテンポ検出プログラム
JP5150573B2 (ja) * 2008-07-16 2013-02-20 本田技研工業株式会社 ロボット
JP2010054530A (ja) * 2008-08-26 2010-03-11 Sony Corp 情報処理装置、発光制御方法およびコンピュータプログラム
US7915512B2 (en) * 2008-10-15 2011-03-29 Agere Systems, Inc. Method and apparatus for adjusting the cadence of music on a personal audio device
JP2010114737A (ja) * 2008-11-07 2010-05-20 Kddi Corp 携帯端末、拍位置修正方法および拍位置修正プログラム
JP5282548B2 (ja) * 2008-12-05 2013-09-04 ソニー株式会社 情報処理装置、音素材の切り出し方法、及びプログラム
US8889976B2 (en) * 2009-08-14 2014-11-18 Honda Motor Co., Ltd. Musical score position estimating device, musical score position estimating method, and musical score position estimating robot
JP4537490B2 (ja) * 2009-09-07 2010-09-01 株式会社ソニー・コンピュータエンタテインメント オーディオ再生装置およびオーディオ早送り再生方法
TWI484473B (zh) * 2009-10-30 2015-05-11 Dolby Int Ab 用於從編碼位元串流擷取音訊訊號之節奏資訊、及估算音訊訊號之知覺顯著節奏的方法及系統
EP2328142A1 (en) * 2009-11-27 2011-06-01 Nederlandse Organisatie voor toegepast -natuurwetenschappelijk onderzoek TNO Method for detecting audio ticks in a noisy environment
US9159338B2 (en) * 2010-05-04 2015-10-13 Shazam Entertainment Ltd. Systems and methods of rendering a textual animation
JP5569228B2 (ja) * 2010-08-02 2014-08-13 ソニー株式会社 テンポ検出装置、テンポ検出方法およびプログラム
JP5594052B2 (ja) * 2010-10-22 2014-09-24 ソニー株式会社 情報処理装置、楽曲再構成方法及びプログラム
US9324377B2 (en) 2012-03-30 2016-04-26 Google Inc. Systems and methods for facilitating rendering visualizations related to audio data
CN103971685B (zh) * 2013-01-30 2015-06-10 腾讯科技(深圳)有限公司 语音命令识别方法和系统
US9411882B2 (en) 2013-07-22 2016-08-09 Dolby Laboratories Licensing Corporation Interactive audio content generation, delivery, playback and sharing
US9756281B2 (en) 2016-02-05 2017-09-05 Gopro, Inc. Apparatus and method for audio based video synchronization
US9697849B1 (en) 2016-07-25 2017-07-04 Gopro, Inc. Systems and methods for audio based synchronization using energy vectors
US9640159B1 (en) 2016-08-25 2017-05-02 Gopro, Inc. Systems and methods for audio based synchronization using sound harmonics
US9653095B1 (en) 2016-08-30 2017-05-16 Gopro, Inc. Systems and methods for determining a repeatogram in a music composition using audio features
JP6500869B2 (ja) * 2016-09-28 2019-04-17 カシオ計算機株式会社 コード解析装置、方法、及びプログラム
US9916822B1 (en) 2016-10-07 2018-03-13 Gopro, Inc. Systems and methods for audio remixing using repeated segments
JP6705422B2 (ja) * 2017-04-21 2020-06-03 ヤマハ株式会社 演奏支援装置、及びプログラム
CN108108457B (zh) 2017-12-28 2020-11-03 广州市百果园信息技术有限公司 从音乐节拍点中提取大节拍信息的方法、存储介质和终端
JP7343268B2 (ja) * 2018-04-24 2023-09-12 培雄 唐沢 任意信号挿入方法及び任意信号挿入システム
JP7105880B2 (ja) * 2018-05-24 2022-07-25 ローランド株式会社 ビート音発生タイミング生成装置
CN109256146B (zh) * 2018-10-30 2021-07-06 腾讯音乐娱乐科技(深圳)有限公司 音频检测方法、装置及存储介质
CN111669497A (zh) * 2020-06-12 2020-09-15 杭州趣维科技有限公司 一种移动端自拍时音量驱动贴纸效果的方法
CN113411663B (zh) * 2021-04-30 2023-02-21 成都东方盛行电子有限责任公司 一种用于非编工程中的音乐节拍提取方法
CN113590872B (zh) * 2021-07-28 2023-11-28 广州艾美网络科技有限公司 跳舞谱面生成的方法、装置以及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010077433A (ko) * 2000-02-02 2001-08-20 김경미 가상 음악 영상 시스템 및 그 시스템의 영상 표시 방법
JP2003108132A (ja) 2001-09-28 2003-04-11 Pioneer Electronic Corp オーディオ情報再生装置及びオーディオ情報再生システム
US20050071329A1 (en) 2001-08-20 2005-03-31 Microsoft Corporation System and methods for providing adaptive media property classification

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6199710A (ja) 1984-10-19 1986-05-17 富士バルブ株式会社 2つの部材の固定方法
JPH0366528A (ja) 1989-08-02 1991-03-22 Fujitsu Ltd ロボットハンド
JP3433818B2 (ja) * 1993-03-31 2003-08-04 日本ビクター株式会社 楽曲検索装置
JP3066528B1 (ja) 1999-02-26 2000-07-17 コナミ株式会社 楽曲再生システム、リズム解析方法及び記録媒体
JP4186298B2 (ja) 1999-03-17 2008-11-26 ソニー株式会社 リズムの同期方法及び音響装置
JP3789326B2 (ja) 2000-07-31 2006-06-21 松下電器産業株式会社 テンポ抽出装置、テンポ抽出方法、テンポ抽出プログラム及び記録媒体
JP4027051B2 (ja) * 2001-03-22 2007-12-26 松下電器産業株式会社 楽曲登録装置、楽曲登録方法、及びそのプログラムと記録媒体
EP1244093B1 (en) * 2001-03-22 2010-10-06 Panasonic Corporation Sound features extracting apparatus, sound data registering apparatus, sound data retrieving apparatus and methods and programs for implementing the same
US6518492B2 (en) * 2001-04-13 2003-02-11 Magix Entertainment Products, Gmbh System and method of BPM determination
DE10123366C1 (de) 2001-05-14 2002-08-08 Fraunhofer Ges Forschung Vorrichtung zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen
CN1206603C (zh) * 2001-08-30 2005-06-15 无敌科技股份有限公司 音乐音频产生方法与播放系统
JP3674950B2 (ja) * 2002-03-07 2005-07-27 ヤマハ株式会社 音楽データのテンポ推定方法および装置
JP4243682B2 (ja) 2002-10-24 2009-03-25 独立行政法人産業技術総合研究所 音楽音響データ中のサビ区間を検出する方法及び装置並びに該方法を実行するためのプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010077433A (ko) * 2000-02-02 2001-08-20 김경미 가상 음악 영상 시스템 및 그 시스템의 영상 표시 방법
US20050071329A1 (en) 2001-08-20 2005-03-31 Microsoft Corporation System and methods for providing adaptive media property classification
JP2003108132A (ja) 2001-09-28 2003-04-11 Pioneer Electronic Corp オーディオ情報再生装置及びオーディオ情報再生システム

Also Published As

Publication number Publication date
US8076566B2 (en) 2011-12-13
CN101375327B (zh) 2012-12-05
KR20080087112A (ko) 2008-09-30
US20090056526A1 (en) 2009-03-05
WO2007086417A1 (ja) 2007-08-02
EP1978508A1 (en) 2008-10-08
JP2007199306A (ja) 2007-08-09
CN101375327A (zh) 2009-02-25
JP4949687B2 (ja) 2012-06-13

Similar Documents

Publication Publication Date Title
KR101363534B1 (ko) 비트 추출 장치 및 비트 추출 방법
KR101292698B1 (ko) 메타데이터 부여 방법 및 장치
US7534951B2 (en) Beat extraction apparatus and method, music-synchronized image display apparatus and method, tempo value detection apparatus, rhythm tracking apparatus and method, and music-synchronized display apparatus and method
JP5759022B2 (ja) セマンティック・オーディオ・トラック・ミキサー
JP5295433B2 (ja) 複雑さがスケーラブルな知覚的テンポ推定
US8481839B2 (en) System and methods for synchronizing audio and/or visual playback with a fingering display for musical instrument
US7613612B2 (en) Voice synthesizer of multi sounds
US20080115656A1 (en) Tempo detection apparatus, chord-name detection apparatus, and programs therefor
US20080034947A1 (en) Chord-name detection apparatus and chord-name detection program
US8093484B2 (en) Methods, systems and computer program products for regenerating audio performances
WO2017035471A1 (en) Looping audio-visual file generation based on audio and video analysis
US9892758B2 (en) Audio information processing
JP3886372B2 (ja) 音響変節点抽出装置及びその方法、音響再生装置及びその方法、音響信号編集装置、音響変節点抽出方法プログラム記録媒体、音響再生方法プログラム記録媒体、音響信号編集方法プログラム記録媒体、音響変節点抽出方法プログラム、音響再生方法プログラム、音響信号編集方法プログラム
GB2422755A (en) Audio signal processing
Monti et al. Monophonic transcription with autocorrelation
US8612031B2 (en) Audio player and audio fast-forward playback method capable of high-speed fast-forward playback and allowing recognition of music pieces
Scherbaum et al. Tuning systems of traditional Georgian singing determined from a new corpus of field recordings
JP4048249B2 (ja) カラオケ装置
JP4537490B2 (ja) オーディオ再生装置およびオーディオ早送り再生方法
Driedger Time-scale modification algorithms for music audio signals
JP4336362B2 (ja) 音響再生装置及びその方法、音響再生プログラム及びその記録媒体
CN114677995A (zh) 音频处理方法、装置、电子设备及存储介质
JP2018141841A (ja) 音域推定装置、音域推定方法、および、音域推定プログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee