WO2017155098A1 - 音信号処理方法および音信号処理装置 - Google Patents

音信号処理方法および音信号処理装置 Download PDF

Info

Publication number
WO2017155098A1
WO2017155098A1 PCT/JP2017/009745 JP2017009745W WO2017155098A1 WO 2017155098 A1 WO2017155098 A1 WO 2017155098A1 JP 2017009745 W JP2017009745 W JP 2017009745W WO 2017155098 A1 WO2017155098 A1 WO 2017155098A1
Authority
WO
WIPO (PCT)
Prior art keywords
time length
sound signal
beat
index
measure
Prior art date
Application number
PCT/JP2017/009745
Other languages
English (en)
French (fr)
Inventor
陽 前澤
Original Assignee
ヤマハ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヤマハ株式会社 filed Critical ヤマハ株式会社
Priority to DE112017001277.5T priority Critical patent/DE112017001277B4/de
Priority to CN201780015943.3A priority patent/CN108780634B/zh
Publication of WO2017155098A1 publication Critical patent/WO2017155098A1/ja
Priority to US16/117,154 priority patent/US10629177B2/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/40Rhythm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • G10H1/368Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems displaying animated or moving pictures synchronized with the music or audio part
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • G06F17/141Discrete Fourier transforms
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10GREPRESENTATION OF MUSIC; RECORDING MUSIC IN NOTATION FORM; ACCESSORIES FOR MUSIC OR MUSICAL INSTRUMENTS NOT OTHERWISE PROVIDED FOR, e.g. SUPPORTS
    • G10G3/00Recording music in notation form, e.g. recording the mechanical operation of a musical instrument
    • G10G3/04Recording music in notation form, e.g. recording the mechanical operation of a musical instrument using electrical means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • G10H1/0025Automatic or semi-automatic music composition, e.g. producing random music, applying rules from music theory or modifying a musical piece
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/40Rhythm
    • G10H1/42Rhythm comprising tone forming circuits
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/051Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or detection of onsets of musical sounds or notes, i.e. note attack timings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/066Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/076Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/325Synchronizing two or more audio tracks or files according to musical features or musical timings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/215Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
    • G10H2250/235Fourier transform; Discrete Fourier Transform [DFT]; Fast Fourier Transform [FFT]

Definitions

  • the present invention relates to a technique for estimating the time length of beats and measures in a music from a sound signal indicating the music.
  • Patent Documents 1 and 2 describe techniques for estimating a beat point, a tempo, a bar line position, and a chord of a music from a sound signal indicating the music using a probability model.
  • the present invention provides a technique for more easily estimating the length of beats and measures from an input sound signal.
  • a step of obtaining a unit time length in an input sound signal indicating music a step of calculating a timbre feature amount from the input sound signal, and the input sound signal with respect to the timbre feature amount
  • a step of calculating an index indicating the validity of the assumed time length When assuming a time length of one beat and one measure in the music on the basis of the unit time length, a step of calculating an index indicating the validity of the assumed time length; and the unit time length based on the index
  • a step of estimating a time length of the one beat and one measure with reference to the above a step of obtaining a unit time length in an input sound signal indicating music, a step of calculating a timbre feature amount from the input sound signal, and the input sound signal with respect to the timbre feature amount
  • a step of obtaining a unit time length in an input sound signal indicating music a step of calculating a timbre feature amount from the input sound signal, and a time region based on the unit time length.
  • Performing an amplitude discrete Fourier transform on the timbre feature amount in step 1 and a time length of one beat and one measure in the music based on the unit time length in the time domain with respect to the result of the amplitude discrete Fourier transform Calculating a time length indicator of the one beat and one measure by applying a corresponding window function; and the time length of the one beat and the one measure based on the unit time length based on the indicator
  • a sound signal processing method comprising: estimating a time length.
  • the index may be calculated using a preset priority for the combination of time length of one beat and one measure.
  • the lengths of beats and measures can be estimated more easily from the input sound signal.
  • the figure which illustrates the hardware constitutions of the sound signal processing apparatus. 3 is a flowchart illustrating the operation of the sound signal processing device 1; The flowchart which illustrates the detail of parameter
  • FIG. 1 is a diagram illustrating a functional configuration of a sound signal processing device 1 according to an embodiment.
  • the sound signal processing device 1 is a device that estimates the time signature of a music from a sound signal indicating the music (hereinafter referred to as “input sound signal”).
  • the sound signal processing apparatus 1 includes an input sound acquisition unit 11, a unit time acquisition unit 12, a feature amount calculation unit 13, an index calculation unit 14, an estimation unit 15, a storage unit 16, and an output unit 17.
  • the input sound acquisition means 11 acquires an input sound signal, that is, a sound signal indicating a musical piece to be subjected to the following processing.
  • the unit time acquisition unit 12 acquires a unit time length in the input sound signal.
  • the feature amount calculation means 13 calculates a timbre feature amount from the input sound signal.
  • the index calculation means 14 assumes an assumed time length for the timbre feature quantity calculated by the feature quantity calculation means 13 when assuming a time length of one beat and one measure on the basis of the unit time length in the input sound signal. An index indicating the validity of the is calculated.
  • the estimation means 15 estimates the time length of one beat and one measure based on the unit time length based on the index calculated by the index calculation means 14.
  • the storage means 16 stores a priority set in advance for a combination of time length of one beat and one measure.
  • the estimation means 15 estimates the time length of one beat and one measure based on the priority stored in the storage means 16.
  • the output means 17 outputs information on the time length of one beat and one measure estimated by the estimation means 15.
  • FIG. 2 is a diagram illustrating a hardware configuration of the sound signal processing apparatus 1.
  • the sound signal processing device 1 is a computer device having a CPU (Central Processing Unit) 101, a memory 102, a storage 103, a communication interface 104, an input device 105, and an output device 106.
  • the CPU 101 is a control device that controls each unit of the sound signal processing device 1.
  • the memory 102 is a main storage device that functions as a work area when the CPU 101 executes a program.
  • the storage 103 is a non-volatile storage device that stores various programs and data.
  • the communication interface 104 is a device that communicates with other devices according to a predetermined communication standard.
  • the input device 105 is a device for inputting information to the sound signal processing device, and includes, for example, at least one of a microphone, a touch screen, a keypad, and buttons.
  • the output device 106 is a device for outputting information, and includes, for example, at least one of a display and a speaker.
  • the storage 103 stores a program for causing the computer device to function as the sound signal processing device 1.
  • the function shown in FIG. 1 is implemented by the CPU 101 executing this program.
  • the CPU 101 executing this program is an example of the input sound acquisition unit 11, the unit time acquisition unit 12, the feature amount calculation unit 13, the index calculation unit 14, and the estimation unit 15.
  • the memory 102 and the storage 103 are an example of the storage unit 16.
  • the output device 106 is an example of the output unit 17.
  • FIG. 3 is a flowchart illustrating the operation of the sound signal processing apparatus 1.
  • the flow in FIG. 3 is started, for example, when the above program is started.
  • This flow relates to a sound signal processing method for estimating the beat length of a music piece and the time length of a measure.
  • the estimation of the time length of the beat and the bar is to obtain the number b of the eighth notes constituting one beat and the number m of the beats constituting one bar. It corresponds to.
  • the estimation of beat and measure time length is performed in detail as follows.
  • step S1 the input sound acquisition means 11 acquires an input sound signal.
  • the input sound signal is, for example, a music sound signal based on uncompressed or compressed (wav, mp3, etc.) sound data, but is not limited to this.
  • This sound data may be stored in advance in the storage 103 or may be input from outside the sound signal processing apparatus 1.
  • the unit time acquisition unit 12 acquires the unit time length ta.
  • the unit time length ta is a minimum unit of musical time in a musical composition. For example, a repeating unit of a performance sound of a certain instrument (for example, when a rhythm is engraved with a hi-hat, from one stroke of the hi-hat to the next The interval between strokes).
  • the unit time length ta corresponds to the length of, for example, an eighth note or a sixteenth note in this musical composition.
  • the unit time acquisition means 12 calculates the unit time length ta by analyzing the input sound signal. A known technique is used to calculate the unit time length ta. Alternatively, the unit time length ta may be specified by a user instruction input.
  • the unit time acquisition unit 12 acquires the unit time length ta according to the user's instruction input. Specifically, for example, the user repeatedly presses the button (or taps the touch screen) at a timing corresponding to the unit time length according to the input sound, and the unit time acquisition unit 12 responds accordingly by the unit time length ta. To decide.
  • the timing at which the feature in the sound signal appears is not necessarily completely periodic. Absent. Therefore, the unit time length ta acquired in step S2 need not be constant throughout the entire analysis target section of the input sound signal.
  • the input sound signal is divided into a plurality of sections, and the unit time length ta may be different in each section. That is, the unit time length ta is a sequence of time lengths for smoothing a timbre feature value described later.
  • the sound signal processing apparatus 1 may determine a certain unit time length ta throughout the entire analysis target section by a method such as calculating an average value.
  • the sound signal processing device 1 May be processed separately from other parts.
  • the feature quantity calculation means 13 calculates a timbre feature quantity.
  • MFCC Mel Frequency Cepstrum Coefficient
  • the MFCC is a multi-dimensional (for example, 12-dimensional) vector.
  • MFCC is widely known as a parameter representing the characteristics of timbre in a sound signal, and a known technique is used for calculation of MFCC.
  • the MFCC is calculated for each time frame with the unit time length ta specified in each time frame as a unit. That is, in step S3, the MFCC feature series x [d, t] is obtained.
  • x [d, t] indicates the d-dimensional feature quantity at time t (d ⁇ [0, D], t ⁇ [0, T]).
  • the time t is expressed in units of unit time length ta.
  • step S4 the index calculation means 14 calculates an index. This index indicates the validity of the assumed time length when the time length of one beat and one measure is assumed with respect to the timbre feature quantity in the input sound signal based on the unit time length ta.
  • FIG. 4 is a flowchart illustrating details of the index calculation process in step S4.
  • the index calculation unit 14 performs a discrete Fourier transform (DFT) in the time domain.
  • DFT discrete Fourier transform
  • R [d, n] of DFT is obtained (the following equation (1)).
  • n is a parameter corresponding to the frequency (n ⁇ [0, N]).
  • the index calculation means 14 calculates an index S [l] from a plurality of DFT spectra.
  • the index S [l] indicates the strength at which the repetition of the period l appears in the input sound signal (l ⁇ [0, L]).
  • the index calculation means 14 calculates the product sum S [l] by the following equation (2).
  • w [l, n] is However, It is.
  • Expressions (2) to (4) mean that the peripheral data corresponding to the period 1 in the amplitude DFT of length N are summed. That is, w [l, n] is a window function for cutting out data around the period l.
  • is a constant determined experimentally. That is, step S42 applies the window function corresponding to the time length of one beat and one measure in the music based on the unit time length ta in the time domain to the DFT result, thereby obtaining the one beat and one measure.
  • the time length indicator is calculated.
  • FIG. 6 is a diagram illustrating the index S [l].
  • the DFT value ⁇ Rd and the window function w [l, n] are also illustrated.
  • the index S [l] corresponds to the power around the period l of the DFT spectrum (the area of the hatched area in the figure).
  • the index calculation means 14 calculates an index S [l] for each of a plurality of periods l.
  • the index calculation unit 14 stores the calculated S [l] in the storage unit 16.
  • the index calculation means 14 assumes the number of unit time lengths ta constituting a beat and a measure. More specifically, the index calculation means 14 assumes the number b of unit time lengths ta constituting one beat and the number m of beats constituting one bar. That is, the index calculation means 14 assumes that the length of one beat is b ⁇ ta and the length of one measure is m ⁇ b ⁇ ta.
  • candidates for the combination of m and b are limited in advance from a musical point of view. First of all, most music is in 2 beats, 3 beats, or 4 beats. Therefore, in many cases, there is no problem even if it is limited to m ⁇ ⁇ 2, 3, 4 ⁇ . Further, considering that the unit time length ta corresponds to an eighth note or a sixteenth note, there is no problem in many cases even if it is limited to m ⁇ ⁇ 2, 3, 4 ⁇ .
  • combinations (m, b) candidates are limited to nine.
  • the storage unit 16 stores information for specifying combination candidates.
  • the index calculation unit 14 sequentially selects one combination from these nine candidates. Note that the limitation of the candidates for the combination (m, b) described here is merely an example, and the present invention is not limited to this.
  • step S44 the index calculation means 14 acquires the priority P0 [m, b] corresponding to the selected combination (m, b).
  • the priority P0 is set in advance and is stored in the storage unit 16.
  • FIG. 7 is a diagram illustrating the priority P0 stored in the storage unit 16.
  • the priority P0 is set for each of the combinations (m, b). Further, here, for explanation, the remarks column indicates how many times each combination (m, b) has. Note that this remark itself may not be stored in the storage unit 16.
  • the index calculation unit 14 reads the selected combination (m, b) from the priorities stored in the storage unit.
  • the index calculation means 14 calculates the index P [m, b].
  • the index P [m, b] indicates the validity of the assumed combination (m, b). In this example, the larger the value is, the more appropriate the combination (m, b) is.
  • the index calculation unit 14 stores the calculated index P [m, b] in the storage unit 16.
  • step S46 the index calculation means 14 determines whether the calculation of the index P [m, b] has been completed for all (m, b) combination candidates. When it is determined that there is a combination (m, b) for which the index P [m, b] has not yet been calculated (S46: NO), the index calculation unit 14 proceeds to step S43. Thereafter, the combination (m, b) is updated, and the processes of steps S44 and S45 are repeatedly executed. When it is determined that the calculation of the index P [m, b] has been completed for all the combination candidates (S46: YES), the index calculation unit 14 ends the flow of FIG.
  • step S5 the estimation means 15 estimates a plausible combination (m, b) in the input sound signal. Specifically, the index calculation means 14 estimates that the combination (m, b) that indicates the highest value of the index P [m, b] is plausible.
  • step S6 the output unit 17 outputs information on the combination (m, b) estimated by the estimation unit 15.
  • the information regarding the combination (m, b) is, for example, the time signature (4/4 time signature, 4/3 time signature, etc.) of the music related to the input sound signal.
  • the output unit 17 outputs a parameter for specifying the combination (m, b).
  • the output destination is a user
  • the output of this information is, for example, a display on a display.
  • the output destination is another sound signal processing system
  • the output of this information is, for example, data output.
  • Example Table 1 exemplifies the result of time estimation by the method (example) according to the above embodiment and the method according to the comparative example.
  • the inventors of the present application performed time estimation on the actual music using the method according to the example and the method according to the comparative example, and evaluated the accuracy rate.
  • an algorithm for estimating the time signature of the music as 4/4 time was used.
  • 100 so-called popular music-type songs were prepared. The music was classified into a 4-beat system (time signature numerator is a multiple of 2) and 3-beat time series (time signature numerator is a multiple of 3).
  • the correct answer rate for the 4-beat music is slightly lower than the comparative example, but the correct answer rate for the 3-beat music is dramatically improved, and the correct answer rate as a whole is higher than that of the comparative example. Greatly improved.
  • the specific calculation method of the index P [m, b] is not limited to that exemplified in the embodiment.
  • the priority P0 may not be considered. That is, the third term on the right side of Equation (5) may be omitted.
  • the candidates for the combination (m, b) are limited from a musical point of view has been described, but such a limitation may not be performed.
  • ranges of possible values for m and b are individually set, and all possible combinations (m, b) within these ranges may be candidates for combinations.
  • the priority P0 may exclude the possibility that a musically meaningless combination (m, b) is estimated to be plausible.
  • the number m represents the number of beats included in one measure, but the number m may represent the number of unit time lengths ta included in one measure.
  • the number m since the number m must be an integer multiple of the number b, when the candidates for the combination (m, b) are limited, the number m may not be an integer multiple of the number b.
  • the candidates for the combination (m, b) are not limited, and the priority P0 corresponding to the combination (m, b) where the number m is not an integral multiple of the number b is set to an extremely low value, for example, ⁇ . Also good.
  • the timbre feature amount is not limited to that described in the embodiment.
  • feature quantities other than MFCC such as formant frequency and LPC (Linear Predictive Coding) cepstrum, may be used.
  • the window function is not limited to the one exemplified in Equation (3). As long as the spectrum around the period l can be cut out, any form of function may be used.
  • the single device has all the functions of FIG. 1, but the functions of FIG. 1 may be separately implemented in the client device and the server device.
  • the feature amount calculation unit 13, the index calculation unit 14, the estimation unit 15, and the storage unit 16 are mounted on the server device, and the input sound acquisition unit 11, the unit time acquisition unit 12, and the output unit 17 are mounted on the client device. May be.
  • the program executed by the CPU 101 of the sound signal processing device 1 may be provided by a storage medium such as an optical disk, a magnetic disk, or a semiconductor memory, or may be downloaded via a communication line such as the Internet. Also, this program need not comprise all the steps of FIG. For example, this program may include only step S1, step S2, and step S6. The program may include only step S1, step S2, and step S3. Further, this program may include only step S1 and step S6.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Discrete Mathematics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Auxiliary Devices For Music (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

音信号処理方法は、入力音信号における単位時間長を取得するステップ(S2)と、入力音信号から音色特徴量を計算するステップ(S3)と、音色特徴量に対し、入力音信号において単位時間長を基準として1拍および1小節の時間長を仮定した場合に、仮定された時間長の妥当性を示す指標を計算するステップ(S4)と、この指標に基づいて単位時間長を基準とする1拍および1小節の時間長を推定するステップ(S5)とを有する。

Description

音信号処理方法および音信号処理装置
 本発明は、楽曲を示す音信号から、楽曲における拍および小節の時間長を推定する技術に関する。
 音信号を解析する技術が知られている。例えば特許文献1および2には、楽曲を示す音信号からその楽曲の拍点、テンポ、小節線の位置、およびコードを、確率モデルを用いて推定する技術が記載されている。
日本国特開2015-114361号公報 日本国特開2015-200803号公報
 特許文献1および2に記載の技術においては、拍点、テンポ、拍子、およびコード進行等の遷移確率モデルをあらかじめ定義する必要があった。
 これに対し本発明は、入力音信号から拍および小節の長さをより簡単に推定する技術を提供する。
 本発明の一形態は、楽曲を示す入力音信号における単位時間長を取得するステップと、前記入力音信号から音色特徴量を計算するステップと、前記音色特徴量に対し、前記入力音信号において前記単位時間長を基準として前記楽曲における1拍および1小節の時間長を仮定した場合に、当該仮定された時間長の妥当性を示す指標を計算するステップと、前記指標に基づいて前記単位時間長を基準とする前記1拍および1小節の時間長を推定するステップとを有する音信号処理方法を提供する。
 また、本発明の別の形態は、楽曲を示す入力音信号における単位時間長を取得するステップと、前記入力音信号から音色特徴量を計算するステップと、前記単位時間長を基準とする時間領域において前記音色特徴量に対し振幅離散フーリエ変換を行うステップと、前記振幅離散フーリエ変換の結果に対し、前記時間領域において前記単位時間長を基準とする前記楽曲における1拍および1小節の時間長に対応する窓関数を適用することにより当該1拍および1小節の時間長の指標を計算するステップと、前記指標に基づいて前記単位時間長を基準とする前記1拍の時間長および前記1小節の時間長を推定するステップとを有する音信号処理方法を提供する。
 前記1拍および1小節の時間長の組み合わせに対してあらかじめ設定された優先度を用いて前記指標が計算されてもよい。
 本発明によれば、入力音信号から拍および小節の長さをより簡単に推定することができる。
一実施形態に係る音信号処理装置1の機能構成を例示する図。 音信号処理装置1のハードウェア構成を例示する図。 音信号処理装置1の動作を例示するフローチャート。 指標計算処理の詳細を例示するフローチャート。 DFT結果を例示する図。 統合されたDFT結果を例示する図。 記憶されている優先度を例示する図。
1.構成
 図1は、一実施形態に係る音信号処理装置1の機能構成を例示する図である。音信号処理装置1は、楽曲を示す音信号(以下「入力音信号」という)から、その楽曲における拍子を推定する装置である。
 音信号処理装置1は、入力音取得手段11、単位時間取得手段12、特徴量計算手段13、指標計算手段14、推定手段15、記憶手段16、および出力手段17を有する。入力音取得手段11は、入力音信号すなわち以下の処理の対象となる楽曲を示す音信号を取得する。単位時間取得手段12は、入力音信号における単位時間長を取得する。特徴量計算手段13は、入力音信号から、音色特徴量を計算する。指標計算手段14は、特徴量計算手段13により計算された音色特徴量に対し、入力音信号において単位時間長を基準として1拍および1小節の時間長を仮定した場合に、仮定された時間長の妥当性を示す指標を計算する。推定手段15は、指標計算手段14により計算された指標に基づいて、単位時間長を基準とする1拍および1小節の時間長を推定する。
 記憶手段16は、1拍および1小節の時間長の組み合わせに対してあらかじめ設定された優先度を記憶している。この例で、推定手段15は、記憶手段16に記憶されている優先度に基づいて、1拍および1小節の時間長を推定する。出力手段17は、推定手段15により推定された1拍および1小節の時間長に関する情報を出力する。
 図2は、音信号処理装置1のハードウェア構成を例示する図である。音信号処理装置1は、CPU(Central Processing Unit)101、メモリー102、ストレージ103、通信インターフェース104、入力装置105、および出力装置106を有するコンピュータ装置である。CPU101は、音信号処理装置1の各部を制御する制御装置である。メモリー102は、CPU101がプログラムを実行する際のワークエリアとして機能する主記憶装置である。ストレージ103は、各種のプログラムおよびデータを記憶する不揮発性の記憶装置である。通信インターフェース104は、他の装置と所定の通信規格に従った通信を行う装置である。入力装置105は、音信号処理装置に情報を入力するための装置であり、例えば、マイクロフォン、タッチスクリーン、キーパッド、およびボタンの少なくとも1つを含む。出力装置106は、情報を出力するための装置であり、例えば、ディスプレイおよびスピーカの少なくとも一方を含む。
 ストレージ103は、コンピュータ装置を音信号処理装置1として機能させるためのプログラムを記憶している。CPU101がこのプログラムを実行することにより、図1に示した機能が実装される。このプログラムを実行しているCPU101は、入力音取得手段11、単位時間取得手段12、特徴量計算手段13、指標計算手段14、および推定手段15の一例である。メモリー102およびストレージ103は、記憶手段16の一例である。出力装置106は、出力手段17の一例である。
2.動作
 図3は、音信号処理装置1の動作を例示するフローチャートである。図3のフローは、例えば、上記のプログラムが起動されたことを契機として開始される。このフローは、楽曲の拍および小節の時間長を推定する音信号処理方法に係るものである。例えば、拍が八分音符の倍数であると仮定すると、拍および小節の時間長の推定は、1拍を構成する八分音符の数b、および1小節を構成する拍の数mを求めることに相当する。パラメーターmは、この楽曲がm拍子であることを示している。例えば、2拍子の楽曲ではm=2であり、3拍子の楽曲ではm=3であり、4拍子の楽曲ではm=4である。拍および小節の時間長の推定は、詳細には以下のとおり行われる。
 ステップS1において、入力音取得手段11は、入力音信号を取得する。入力音信号は、例えば、非圧縮または圧縮形式(wavやmp3等)の音データに基づく楽曲の音信号であるが、これに限定されるものではない。この音データは、ストレージ103にあらかじめ記憶されていてもよいし、音信号処理装置1の外部から入力されてもよい。
 ステップS2において、単位時間取得手段12は、単位時間長taを取得する。単位時間長taとは、楽曲における音楽的な時間の最小単位をいい、例えば、ある楽器の演奏音の繰り返し単位(一例としてはハイハットでリズムを刻んでいる場合において、ハイハットの一打から次の一打までの間隔)をいう。単位時間長taは、この楽曲における例えば八分音符または十六分音符の長さに相当する。一例として、単位時間取得手段12は、入力音信号を解析することにより、単位時間長taを計算する。単位時間長taの計算には公知の技術が用いられる。あるいは、単位時間長taは、ユーザーの指示入力により指定されてもよい。この場合、単位時間取得手段12は、ユーザーの指示入力に応じて単位時間長taを取得する。具体的には、例えば、入力音に合せて単位時間長に相当するタイミングでユーザーがボタンを繰り返し押し(またはタッチスクリーンをタップし)、単位時間取得手段12は、これに応じて単位時間長taを決定する。
 音信号処理装置1により自動的に計算されるにせよ、ユーザーの指示入力により指定されるにせよ、音信号における特徴が現れるタイミング(一例としてはハイハットが鳴るタイミング)は、必ずしも完全に周期的ではない。そのため、ステップS2において取得される単位時間長taは、入力音信号のうち解析対象の全区間を通じて一定である必要はない。入力音信号は複数の区間に区分され、各区間において単位時間長taは異なっていてもよい。すなわち、単位時間長taは後述する音色特徴量を平滑化するための時間長の列である。あるいは、音信号処理装置1は、平均値を計算する等の手法により、解析対象の全区間を通じて一定の単位時間長taを決定してもよい。この場合において、楽曲の中でこのタイミングの間隔の変化がしきい値(例えば平均値の10%)を超えた部分(例えば曲中でテンポが変わっている部分)については、音信号処理装置1は、他の部分とは分けて処理を行ってもよい。
 再び図3を参照する。ステップS3において、特徴量計算手段13は、音色特徴量を計算する。この例で、音色特徴量としては、MFCC(Mel Frequency Cepstrum Coefficient;メル周波数ケプストラム係数)が用いられる。MFCCは、多次元(一例としては12次元)のベクトルである。MFCCは、音信号において音色の特徴を表すパラメーターとして広く知られており、MFCCの計算には公知の技術が用いられる。MFCCは、各時間フレームにおいて指定された単位時間長taを単位として、時間フレーム毎に計算される。すなわち、ステップS3において、MFCCの特徴系列x[d,t]が得られる。x[d,t]は、時刻tにおける第d次元の特徴量を示している(d∈[0,D]、t∈[0,T])。なお時刻tは、単位時間長taを単位として表される。
 ステップS4において、指標計算手段14は、指標を計算する。この指標は、音色特徴量に対し、入力音信号において単位時間長taを基準として1拍および1小節の時間長を仮定した場合に、その仮定された時間長の妥当性を示すものである。
 図4は、ステップS4における指標計算処理の詳細を例示するフローチャートである。ステップS41において、指標計算手段14は、MFCCを時間領域で離散フーリエ変換(DFT;Discrete Fourier Transform)する。これにより、DFTの絶対値R[d,n]が得られる(次式(1))。なお、nは周波数に相当するパラメーターである(n∈[0,N])。
Figure JPOXMLDOC01-appb-M000001
 図5は、DFT結果を例示する図である。DFT結果は、MFCCの次元に相当する数だけ得られる。例えばMFCCが12次元のベクトルである場合、DFTの結果は12個得られる。なお、このDFT結果において、縦軸はスペクトル強度を示しており、横軸は単位時間長taを基準とする周期τ[ta]を示している。例えば、周期τ=3に現れているピークは、周期3taの繰り返しに相当するピークである。
 再び図4を参照する。ステップS42において、指標計算手段14は、複数のDFTスペクトルから、指標S[l]を計算する。指標S[l]は、入力音信号において周期lの繰り返しが現れる強さを示している(l∈[0,L])。具体的には、指標計算手段14は、次式(2)により積和S[l]を計算する。
Figure JPOXMLDOC01-appb-M000002
ここで、w[l,n]は、
Figure JPOXMLDOC01-appb-M000003
ただし
Figure JPOXMLDOC01-appb-M000004
である。式(2)~(4)は、長さNの振幅DFTにおいて周期lに対応する周辺のデータを積和することを意味する。すなわち、w[l,n]は、周期lの周辺のデータを切り出すための窓関数である。なお、式(4)のλは実験的に決められる定数である。すなわち、ステップS42は、DFTの結果に対し、時間領域において単位時間長taを基準とする楽曲における1拍および1小節の時間長に対応する窓関数を適用することにより、その1拍および1小節の時間長の指標を計算するものである。
 図6は、指標S[l]を例示する図である。ここでは説明のため、DFT値ΣRdおよび窓関数w[l,n]を併せて図示している。この図はl=4の例を示している。指標S[l]は、DFTスペクトルの周期l周辺におけるパワー(図中のハッチングした領域の面積)に相当する。指標計算手段14は、複数の周期lの各々について、指標S[l]を計算する。指標計算手段14は、計算したS[l]を記憶手段16に記憶する。
 再び図4を参照する。ステップS43において、指標計算手段14は、拍および小節を構成する単位時間長taの数を仮定する。より詳細には、指標計算手段14は、1拍を構成する単位時間長taの数b、および1小節を構成する拍の数mを仮定する。すなわち、指標計算手段14は、1拍の長さをb・taと仮定し、1小節の長さをm・b・taと仮定する。
 この例で、mおよびbの組み合わせ(m,b)の候補は、音楽的な観点からあらかじめ限定されている。まず第1に、ほとんどの楽曲は2拍子、3拍子、または4拍子である。したがって、例えばm∈{2,3,4}に限定してしまっても多くの場合、問題がない。また、単位時間長taが八分音符または十六分音符に対応していると考えると、m∈{2,3,4}に限定してしまっても多くの場合、問題がない。mおよびbを例えば上記のように限定すると、組み合わせ(m,b)の候補は9通りに限定される。記憶手段16は、組み合わせの候補を特定する情報を記憶している。指標計算手段14は、これら9通りの候補の中から、一の組み合わせを順次、選択する。なお、ここで説明した組み合わせ(m,b)の候補の限定は単なる例示でありこれに限定されるものではない。
 ステップS44において、指標計算手段14は、選択された組み合わせ(m,b)に対応する優先度P0[m,b]を取得する。優先度P0はあらかじめ設定されており、記憶手段16に記憶されている。
 図7は、記憶手段16に記憶されている優先度P0を例示する図である。ここでは、組み合わせ(m,b)の各々について優先度P0が設定されている。また、ここでは説明のため、備考欄に各組み合わせ(m,b)が何拍子であるかを記載している。なお、この備考自体は記憶手段16に記憶されていなくてよい。この例で、優先度P0は、その値が高いほどその(m,b)の組み合わせが発生する可能性が高いことを意味する。例えば、(m,b)=(4,2)は4/4拍子に相当する(単位時間長taは八分音符に相当)。4/4拍子の楽曲は頻出であるので、ここではP0[4,2]=1.0に設定されている。一方、(m,b)=(4,3)は12/8拍子に相当するが、12/8拍子の楽曲は4/4拍子の楽曲と比較すると出現頻度が低いので、ここではP0[4,3]=0.1に設定されている。指標計算手段14は、記憶手段に記憶されている優先度の中から、選択された組み合わせ(m,b)を読み出す。
 再び図4を参照する。ステップS45において、指標計算手段14は、指標P[m,b]を計算する。指標P[m,b]は、仮定された組み合わせ(m,b)の妥当性を示すものである。この例では、その値が大きいほど組み合わせ(m,b)が妥当であることを示す。具体的に、指標計算手段14は、次式(5)により指標P[m,b]を計算する。
Figure JPOXMLDOC01-appb-M000005
一例として、(m,b)=(4,4)である場合、
Figure JPOXMLDOC01-appb-M000006
である。指標計算手段14は、計算した指標P[m,b]を記憶手段16に記憶する。
 なお、指標S[l]についてはmおよびbの積に相当するS[mb]まで計算されている必要がある。すなわち、mおよびbの最大値mmaxおよびbmaxに対し、周期lは、
Figure JPOXMLDOC01-appb-M000007
をカバーしている必要がある。例えば、mmax=4およびbmax=4であった場合、
Figure JPOXMLDOC01-appb-M000008
である。したがって、指標計算手段14は、ステップS42において、式(8)の範囲で指標S[l]を計算する。
 ステップS46において、指標計算手段14は、(m,b)の全ての組み合わせ候補について指標P[m,b]の計算が完了したか判断する。まだ指標P[m,b]を計算していない組み合わせ(m,b)があったと判断された場合(S46:NO)、指標計算手段14は、処理をステップS43に移行する。以下、組み合わせ(m,b)を更新し、ステップS44およびS45の処理が繰り返し実行される。全ての組み合わせ候補について指標P[m,b]の計算が完了したと判断された場合(S46:YES)、指標計算手段14は、図4のフローを終了する。
 再び図3を参照する。ステップS5において、推定手段15は、入力音信号においてもっともらしい組み合わせ(m,b)を推定する。具体的には、指標計算手段14は、指標P[m,b]が最も高い値を示した組み合わせ(m,b)がもっともらしいと推定する。
 ステップS6において、出力手段17は、推定手段15により推定された組み合わせ(m,b)に関する情報を出力する。組み合わせ(m,b)に関する情報は、例えば、入力音信号に係る楽曲の拍子(4/4拍子、4/3拍子等)である。あるいは、出力手段17は、組み合わせ(m,b)を特定するためのパラメーターを出力する。出力先がユーザーである場合、この情報の出力は、例えばディスプレイにおける表示である。出力先が他の音信号処理システムであった場合、この情報の出力は、例えばデータの出力である。
3.実施例
 表1は、上記の実施形態に係る方法(実施例)と比較例に係る方法とによる拍子推定の結果を例示するものである。本願の発明者らは、実際の楽曲に対し実施例に係る方法および比較例に係る方法を用いて拍子推定を行い、その正解率を評価した。比較例としては、楽曲の拍子をすべて4/4拍子と推定するアルゴリズムが用いられた。拍子推定の対象として、いわゆるポピュラー音楽系の楽曲を100曲準備した。なお、楽曲は4拍子系(拍子の分子が2の倍数)と3拍子系(拍子の分子が3の倍数)とに分類した。
Figure JPOXMLDOC01-appb-T000009
 実施例では4拍子系の楽曲に対する正解率が比較例よりも若干低下しているが、3拍子系の楽曲に対する正解率が劇的に向上しており、全体としては正解率が比較例よりも大幅に改善した。
4.変形例
 本発明は上述の実施形態に限定されるものではなく、種々の変形実施が可能である。以下、変形例をいくつか説明する。以下の変形例のうち2つ以上のものが組み合わせて用いられてもよい。
 指標P[m,b]の具体的な計算方法は実施形態で例示したものに限定されない。例えば、優先度P0は考慮されなくてもよい。すなわち、式(5)の右辺第3項は省略されてもよい。
 実施形態においては組み合わせ(m,b)の候補が音楽的な観点から限定されている例を説明したが、このような限定は行われなくてもよい。例えば、mおよびbはそれぞれ取り得る値の範囲が個別に設定されており、これらの範囲内で可能な組み合わせ(m,b)が全て組み合わせの候補とされてもよい。なおこの場合において、優先度P0により、音楽的に意味の無い組み合わせ(m,b)がもっともらしいと推定される可能性を排除してもよい。例えば、(m,b)=(7,3)の組み合わせは7/8拍子に相当するが、7/8拍子の楽曲は存在自体が少ないので、優先度P0を低い値、例えば負の値に設定してもよい。
 実施形態の例では数mは1小節に含まれる拍の数を表していたが、数mは1小節に含まれる単位時間長taの数を表していてもよい。この場合、数mは数bの整数倍でなければならないので、組み合わせ(m,b)の候補を限定する際に数mが数bの整数倍でないものを除外してもよい。あるいは、組み合わせ(m,b)の候補は限定せずに、数mが数bの整数倍でない組み合わせ(m,b)に対応する優先度P0を極端に低い値、例えば-∞に設定してもよい。
 音色特徴量は実施形態で説明したものに限定されない。例えば、フォルマント周波数、LPC(Linear Predictive Coding)ケプストラム等、MFCC以外の特徴量が用いられてもよい。
 窓関数は式(3)で例示されたものに限定されない。周期lの周辺のスペクトルを切り出すことができるものであれば関数の形式はどのようなものであってもよい。
 実施形態の例では単一の装置が図1の機能をすべて有していたが、図1の機能は、クライアント装置およびサーバ装置に分けて実装されていてもよい。例えば、特徴量計算手段13、指標計算手段14、推定手段15、および記憶手段16がサーバ装置に実装され、入力音取得手段11、単位時間取得手段12、および出力手段17がクライアント装置に実装されてもよい。
 音信号処理装置1のCPU101等により実行されるプログラムは、光ディスク、磁気ディスク、半導体メモリーなどの記憶媒体により提供されてもよいし、インターネット等の通信回線を介してダウンロードされてもよい。また、このプログラムは、図3のすべてのステップを備える必要はない。例えば、このプログラムは、ステップS1、ステップS2およびステップS6のみを備えていてもよい。また、このプログラムは、ステップS1、ステップS2およびステップS3のみを備えるようにしてもよい。さらに、このプログラムは、ステップS1およびステップS6のみを備えるようにしてもよい。
 本出願は、2016年3月11日付で出願された日本国特許出願である特願2016-048562に基づくものであり、その優先権を享受し、その内容はここに参照として取り込まれる。
1…音信号処理装置、11…入力音取得手段、12…単位時間取得手段、13…特徴量計算手段、14…指標計算手段、15…推定手段、16…記憶手段、17…出力手段、101…CPU、102…メモリー、103…ストレージ、104…通信インターフェース、105…入力装置、106…出力装置

Claims (12)

  1.  楽曲を示す入力音信号における単位時間長を取得するステップと、
     前記入力音信号から音色特徴量を計算するステップと、
     前記音色特徴量に対し、前記入力音信号において前記単位時間長を基準として前記楽曲における1拍および1小節の時間長を仮定した場合に、当該仮定された時間長の妥当性を示す指標を計算するステップと、
     前記指標に基づいて前記単位時間長を基準とする前記1拍および1小節の時間長を推定するステップと
     を有する音信号処理方法。
  2.  楽曲を示す入力音信号における単位時間長を取得するステップと、
     前記入力音信号から音色特徴量を計算するステップと、
     前記単位時間長を基準とする時間領域において前記音色特徴量に対し振幅離散フーリエ変換を行うステップと、
     前記振幅離散フーリエ変換の結果に対し、前記時間領域において前記単位時間長を基準とする前記楽曲における1拍および1小節の時間長に対応する窓関数を適用することにより当該1拍および1小節の時間長の指標を計算するステップと、
     前記指標に基づいて前記単位時間長を基準とする前記1拍の時間長および前記1小節の時間長を推定するステップと
     を有する音信号処理方法。
  3.  前記1拍および1小節の時間長の組み合わせに対してあらかじめ設定された優先度を用いて前記指標が計算される
     請求項1または2に記載の音信号処理方法。
  4.  前記1拍および1小節の時間長の組み合わせの複数の候補に対して前記指標をそれぞれ計算し、前記指標に基づいて前記複数の候補から1の1拍および1小節の時間長の組み合わせを選択する
     請求項1から3のいずれかに記載の音信号処理方法。
  5.  前記複数の候補に対して計算した前記指標のうち、指標が最も高い値を示した1拍および1小節の時間長の組み合わせを選択する
     請求項4に記載の音信号処理方法。
  6.  前記1拍の時間長および前記1小節の時間長に関する情報を出力するステップ
     をさらに有する請求項1から5のいずれかに記載の音信号処理方法。
  7.  楽曲を示す入力音信号における単位時間長を取得する単位時間取得手段と、
     前記入力音信号から音色特徴量を計算する特徴量計算手段と、
     前記音色特徴量に対し、前記入力音信号において前記単位時間長を基準として前記楽曲における1拍および1小節の時間長を仮定した場合に、当該仮定された時間長の妥当性を示す指標を計算する指標計算手段と、
     前記指標に基づいて前記単位時間長を基準とする前記1拍および1小節の時間長を推定する推定手段と
     を有する音信号処理装置。
  8.  楽曲を示す入力音信号における単位時間長を取得する単位時間取得手段と、
     前記入力音信号から音色特徴量を計算する特徴量計算手段と、
     前記単位時間長を基準とする時間領域において前記音色特徴量に対し振幅離散フーリエ変換を行い、前記振幅離散フーリエ変換の結果に対し、前記時間領域において前記単位時間長を基準とする前記楽曲における1拍および1小節の時間長に対応する窓関数を適用することにより当該1拍および1小節の時間長の指標を計算する指標計算手段と、
     前記指標に基づいて前記単位時間長を基準とする前記1拍の時間長および前記1小節の時間長を推定する推定手段と
     を有する音信号処理装置。
  9.  前記指標計算手段は、前記1拍および1小節の時間長の組み合わせに対してあらかじめ設定された優先度を用いて前記指標を計算する
     請求項7または8に記載の音信号処理装置。
  10.  1拍および1小節の時間長の組み合わせの複数の候補に関する情報をあらかじめ記憶する記憶手段をさらに有し、
     前記指標計算手段は、前記記憶手段に記憶された情報から、前記1拍および1小節の時間長の組み合わせの複数の候補に対して前記指標をそれぞれ計算し、
     前記推定手段は、前記指標に基づいて前記複数の候補から1の1拍および1小節の時間長の組み合わせを選択する
     請求項7から9のいずれかに記載の音信号処理装置。
  11.  前記推定手段は、前記複数の候補に対して計算した前記指標のうち、指標が最も高い値を示した1拍および1小節の時間長の組み合わせを選択する
     請求項10に記載の音信号処理装置。
  12.  前記1拍の時間長および前記1小節の時間長に関する情報を出力する出力手段
     をさらに有する請求項7から11のいずれかに記載の音信号処理装置。
PCT/JP2017/009745 2016-03-11 2017-03-10 音信号処理方法および音信号処理装置 WO2017155098A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
DE112017001277.5T DE112017001277B4 (de) 2016-03-11 2017-03-10 Tonsignalverarbeitungsverfahren und Tonsignalverarbeitungsvorrichtung
CN201780015943.3A CN108780634B (zh) 2016-03-11 2017-03-10 声音信号处理方法及声音信号处理装置
US16/117,154 US10629177B2 (en) 2016-03-11 2018-08-30 Sound signal processing method and sound signal processing device

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016048562A JP6693189B2 (ja) 2016-03-11 2016-03-11 音信号処理方法
JP2016-048562 2016-03-11

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US16/117,154 Continuation US10629177B2 (en) 2016-03-11 2018-08-30 Sound signal processing method and sound signal processing device

Publications (1)

Publication Number Publication Date
WO2017155098A1 true WO2017155098A1 (ja) 2017-09-14

Family

ID=59789409

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/009745 WO2017155098A1 (ja) 2016-03-11 2017-03-10 音信号処理方法および音信号処理装置

Country Status (5)

Country Link
US (1) US10629177B2 (ja)
JP (1) JP6693189B2 (ja)
CN (1) CN108780634B (ja)
DE (1) DE112017001277B4 (ja)
WO (1) WO2017155098A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000221979A (ja) * 1999-02-02 2000-08-11 Roland Corp テンポ等の演算装置
JP2002116454A (ja) * 2000-10-10 2002-04-19 Seiko Epson Corp 液晶装置および電子機器
JP2007052394A (ja) * 2005-07-19 2007-03-01 Kawai Musical Instr Mfg Co Ltd テンポ検出装置、コード名検出装置及びプログラム
JP2008275975A (ja) * 2007-05-01 2008-11-13 Kawai Musical Instr Mfg Co Ltd リズム検出装置及びリズム検出用コンピュータ・プログラム
WO2009125489A1 (ja) * 2008-04-11 2009-10-15 パイオニア株式会社 テンポ検出装置及びテンポ検出プログラム

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3982443B2 (ja) * 2003-03-31 2007-09-26 ソニー株式会社 テンポ解析装置およびテンポ解析方法
WO2007010637A1 (ja) * 2005-07-19 2007-01-25 Kabushiki Kaisha Kawai Gakki Seisakusho テンポ検出装置、コード名検出装置及びプログラム
US7518053B1 (en) * 2005-09-01 2009-04-14 Texas Instruments Incorporated Beat matching for portable audio
JP4672613B2 (ja) * 2006-08-09 2011-04-20 株式会社河合楽器製作所 テンポ検出装置及びテンポ検出用コンピュータプログラム
JP5282548B2 (ja) * 2008-12-05 2013-09-04 ソニー株式会社 情報処理装置、音素材の切り出し方法、及びプログラム
JP5203404B2 (ja) * 2010-02-13 2013-06-05 学校法人 龍谷大学 テンポ値検出装置およびテンポ値検出方法
US8983082B2 (en) * 2010-04-14 2015-03-17 Apple Inc. Detecting musical structures
JP2012022221A (ja) * 2010-07-16 2012-02-02 Ryukoku Univ 拍時刻推定装置および拍時刻推定方法
US9099064B2 (en) * 2011-12-01 2015-08-04 Play My Tone Ltd. Method for extracting representative segments from music
JP6179140B2 (ja) * 2013-03-14 2017-08-16 ヤマハ株式会社 音響信号分析装置及び音響信号分析プログラム
CN104217729A (zh) * 2013-05-31 2014-12-17 杜比实验室特许公司 音频处理方法和音频处理装置以及训练方法
GB201310861D0 (en) * 2013-06-18 2013-07-31 Nokia Corp Audio signal analysis
GB2518663A (en) * 2013-09-27 2015-04-01 Nokia Corp Audio analysis apparatus
JP6252147B2 (ja) 2013-12-09 2017-12-27 ヤマハ株式会社 音響信号分析装置及び音響信号分析プログラム
JP5866545B1 (ja) 2014-03-06 2016-02-17 パナソニックIpマネジメント株式会社 表示制御装置および表示制御プログラム
JP6295794B2 (ja) 2014-04-09 2018-03-20 ヤマハ株式会社 音響信号分析装置及び音響信号分析プログラム
US10395669B2 (en) * 2016-02-25 2019-08-27 Sony Interactive Entertainment Inc. Voice analysis apparatus, voice analysis method, and program

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000221979A (ja) * 1999-02-02 2000-08-11 Roland Corp テンポ等の演算装置
JP2002116454A (ja) * 2000-10-10 2002-04-19 Seiko Epson Corp 液晶装置および電子機器
JP2007052394A (ja) * 2005-07-19 2007-03-01 Kawai Musical Instr Mfg Co Ltd テンポ検出装置、コード名検出装置及びプログラム
JP2008275975A (ja) * 2007-05-01 2008-11-13 Kawai Musical Instr Mfg Co Ltd リズム検出装置及びリズム検出用コンピュータ・プログラム
WO2009125489A1 (ja) * 2008-04-11 2009-10-15 パイオニア株式会社 テンポ検出装置及びテンポ検出プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
NAO SHOJI ET AL.: "Downbeat estimation of acoustic signals of music with irregular meter", JOURNAL OF THE ACOUSTICAL SOCIETY OF JAPAN, vol. 68, no. 12, 1 December 2012 (2012-12-01), pages 595 - 604, XP055420454, ISSN: 0369-4232 *

Also Published As

Publication number Publication date
CN108780634A (zh) 2018-11-09
US20180374463A1 (en) 2018-12-27
JP2017161852A (ja) 2017-09-14
DE112017001277B4 (de) 2021-06-10
JP6693189B2 (ja) 2020-05-13
DE112017001277T5 (de) 2018-11-29
US10629177B2 (en) 2020-04-21
CN108780634B (zh) 2023-05-09

Similar Documents

Publication Publication Date Title
JP2007322598A (ja) 楽曲分類装置、楽曲分類方法、及び楽曲分類プログラム
US8865993B2 (en) Musical composition processing system for processing musical composition for energy level and related methods
JP6759545B2 (ja) 評価装置およびプログラム
JP6195548B2 (ja) 信号解析装置、方法、及びプログラム
CN105957515A (zh) 声音合成方法、声音合成装置和存储声音合成程序的介质
EP2418643A1 (en) Computer-implemented method and system for analysing digital speech data
WO2017154928A1 (ja) 音信号処理方法および音信号処理装置
JP5141397B2 (ja) 音声処理装置およびプログラム
JP6252147B2 (ja) 音響信号分析装置及び音響信号分析プログラム
JP6295794B2 (ja) 音響信号分析装置及び音響信号分析プログラム
WO2017155098A1 (ja) 音信号処理方法および音信号処理装置
JP4486527B2 (ja) 音響信号分析装置およびその方法、プログラム、記録媒体
JP5126055B2 (ja) 歌唱採点システムおよびプログラム
Singh et al. Efficient pitch detection algorithms for pitched musical instrument sounds: A comparative performance evaluation
JP2015200685A (ja) アタック位置検出プログラムおよびアタック位置検出装置
WO2020196321A1 (ja) 楽曲解析方法および楽曲解析装置
Orio A model for human-computer interaction based on the recognition of musical gestures
JP2015040963A (ja) 音響用フィルタ装置、音響用フィルタリング方法、およびプログラム
JP7243147B2 (ja) コード推定方法、コード推定装置およびプログラム
JP4760179B2 (ja) 音声特徴量算出装置およびプログラム
JP2017161572A (ja) 音信号処理方法および音信号処理装置
JP6234134B2 (ja) 音声合成装置
WO2023068228A1 (ja) 音響処理方法、音響処理システムおよびプログラム
JP6584230B2 (ja) 演奏練習支援装置およびプログラム
WO2016039465A1 (ja) 音響解析装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17763430

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 17763430

Country of ref document: EP

Kind code of ref document: A1