WO2004088631A1 - テンポ解析装置及びテンポ解析方法 - Google Patents

テンポ解析装置及びテンポ解析方法 Download PDF

Info

Publication number
WO2004088631A1
WO2004088631A1 PCT/JP2004/003010 JP2004003010W WO2004088631A1 WO 2004088631 A1 WO2004088631 A1 WO 2004088631A1 JP 2004003010 W JP2004003010 W JP 2004003010W WO 2004088631 A1 WO2004088631 A1 WO 2004088631A1
Authority
WO
WIPO (PCT)
Prior art keywords
tempo
volume
peak
detecting
audio signal
Prior art date
Application number
PCT/JP2004/003010
Other languages
English (en)
French (fr)
Inventor
Goro Shiraishi
Chie Sekine
Kumiko Masuda
Kuniharu Mori
Original Assignee
Sony Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corporation filed Critical Sony Corporation
Priority to EP04718756.2A priority Critical patent/EP1610299B1/en
Priority to CN2004800082260A priority patent/CN1764940B/zh
Priority to US10/551,403 priority patent/US7923621B2/en
Publication of WO2004088631A1 publication Critical patent/WO2004088631A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/40Rhythm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/076Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/005Non-interactive screen display of musical or status data

Definitions

  • the present invention relates to a tempo analysis device and an analysis method for extracting and using a tempo, which is a speed at which a music piece is played, from an audio signal of the music piece or the like.
  • the technology described in this patent document takes in audio data of a musical piece as time-series data, calculates the autocorrelation of the audio data, detects a peak position of the audio data, and selects a tempo candidate.
  • the beat structure of the song is analyzed from the peak position and the level of the autocorrelation pattern, and it is considered to be most appropriate based on the tempo candidates and the analysis result of the beat structure. It estimates the tempo.
  • Another object of the present invention is to provide a tempo analysis device and a tempo analysis device that can easily and accurately detect and use the tempo of the sound of music or the like without imposing a large load on the CPU and without increasing the cost. It is to provide an analysis method.
  • a tempo analysis device proposed to achieve the above-described object includes a peak detection unit that detects a position of a plurality of peaks larger than a predetermined threshold among peaks of a level change of an input audio signal, and a predetermined unit.
  • An interval detecting means for detecting a time interval between peak positions detected by the peak detecting means in the time section; and a time interval based on the frequently occurring time interval among the time intervals detected by the interval detecting means.
  • Specifying means for specifying the tempo of the sound reproduced by the sound signal.
  • the peak detection means sequentially detects a peak position (an apex of a level change) that is larger than the threshold value and immediately before the transition from ascending to descending, with respect to the level of the audio signal. You. Then, a plurality of peak positions, which are detected in a predetermined unit time interval by the time interval detecting means, are generally small. At least a predetermined peak position is used as a reference, and a time interval (peak interval) between this peak position and another peak position is detected.
  • the identifying means detects a frequently occurring time interval based on the detection result from the time interval detecting means, and based on the time interval, detects the sound of the music or the like reproduced by the audio signal to be processed.
  • the tempo is specified. This makes it possible to easily and accurately specify the tempo of the sound of a song or the like without performing a complicated calculation process such as an autocorrelation calculation.
  • the specifying means constituting the tempo analysis device according to the present invention further specifically accumulates an occurrence frequency of a time interval between peak positions detected in a plurality of unit time sections, and, based on the accumulated occurrence frequency, The tempo of the reproduced sound is specified.
  • the tempo analysis device further includes band separation means for separating the input signal into a plurality of frequency bands, and the peak detection means includes at least one or more of the plurality of bands separated by the band separation means. Detecting the peak position for each of the bands, wherein the interval detecting means detects a time interval between the peak positions of at least one or more bands detected by the peak detecting means, and the specifying means comprises: At least one of the time intervals detected for each band is used to specify the tempo of the audio to be reproduced based on the frequently occurring time interval.
  • the tempo analysis device may be configured such that a volume calculation means for calculating the volume of the audio signal, and the threshold used for detecting the peak position based on the volume calculated by the volume calculation means. Threshold setting means.
  • a volume calculation unit that calculates the volume of an audio signal of at least one of a plurality of bands separated by the band separation unit, and a volume calculated by the volume calculation unit as a reference.
  • a threshold setting means for setting a threshold used for detecting a peak position may be provided.
  • the tempo analysis device according to the present invention further includes band extraction means for extracting an audio signal of a predetermined frequency band from the input audio signal, and the peak detection means detects a peak position of the audio signal extracted by the band extraction means. You may comprise so that it may detect.
  • a volume calculating means for calculating the volume of the audio signal extracted by the band extracting means, and a threshold for setting a threshold used for detecting a peak position based on the volume calculated by the volume calculating means.
  • a setting means is provided.
  • the tempo analysis device according to the present invention further comprises: an image display element; storage means for storing image data of a plurality of images that can be displayed on the image display element; and the tempo specified by the identification means. Display control means for selecting and reading image data from the storage means, and displaying an image corresponding to the read image data on the image display element.
  • the display means of the tempo analyzer controls at least one of the size, the moving speed, and the moving pattern of the image for displaying the image corresponding to the image data read from the storage means on the image display element.
  • the display means may select and read out the image data from the storage means based on the tempo specified by the specifying means and the volume calculated by the volume calculation means.
  • the tempo analysis method detects a position of a plurality of peaks larger than a predetermined threshold from a level change of the input audio signal, and detects a position between the detected peak positions in a predetermined unit time section.
  • a time interval is detected, and a tempo of a sound reproduced by an input sound signal is specified based on a time interval that frequently occurs among the detected time intervals.
  • the frequency of occurrence of the time interval between the peak positions detected in the plurality of unit time intervals is accumulated, and the tempo of the reproduced sound is identified based on the accumulated occurrence frequency. .
  • the tempo analysis method further comprises the steps of: separating the input audio signal into a plurality of frequency bands; and detecting the peak position at least for each of at least one of the plurality of separated frequency bands. Detecting the peak position, detecting the time interval, detecting the time interval of at least one or more peak positions for each of the bands, and determining the tempo, detecting the time for each of the at least one band. Identifies the tempo of the sound being played based on the most frequently occurring time intervals.
  • an audio signal of a predetermined frequency band may be extracted from an input audio signal, and when detecting a peak position, a peak position of the extracted audio signal may be detected.
  • the tempo analysis method calculates the volume of the input audio signal, and sets a threshold used for detecting the peak position based on the calculated volume. It may be.
  • a tempo analysis method is a method for selecting and reading image data from a plurality of image data stored in a storage unit based on a specified tempo, and selecting an image corresponding to the read image data. Is displayed on the image display device.
  • This tempo analysis method controls the size, moving speed, and moving pattern of an image displayed on the image display device based on the specified tempo.
  • a plurality of image data stored in the storage means may be selected and read based on the specified tempo and the calculated volume.
  • FIG. 1 is a block diagram showing a car stereo device to which the present invention is applied.
  • FIG. 2 is a block diagram showing a tempo analyzer mounted on the car stereo device.
  • FIG. 3 is a flowchart illustrating a main process executed by the control unit.
  • FIG. 4 is a flowchart for explaining the total volume calculation process executed in step S1 shown in FIG.
  • FIG. 5 is a flowchart for explaining the tempo extraction processing executed in step S2 shown in FIG.
  • FIG. 6 is a flowchart for explaining the threshold processing executed in step S21 shown in FIG.
  • FIG. 7 is a flowchart for explaining the peak position extraction processing executed in step S23 shown in FIG.
  • FIG. 8 is a diagram for explaining the peak position extraction processing.
  • FIG. 9 is a flowchart for explaining the peak interval (period) list creation and tempo determination processing executed in step S25 shown in FIG.
  • FIG. 10 is a diagram for explaining a period list (peak interval list).
  • FIG. 11 is a diagram for explaining the truncation processing of the periodic list.
  • FIG. 12 is a diagram for explaining the retention and use of the peak interval having the highest occurrence frequency for each frame.
  • FIG. 13 is a diagram for explaining a structure in which usable image data is specified based on the determined tempo and volume.
  • FIG. 14 is a diagram illustrating a display example of an image selected and displayed using the determined tempo.
  • BEST MODE FOR CARRYING OUT THE INVENTION a tempo analysis device and a tempo analysis method according to the present invention will be described with reference to the drawings.
  • a car stereo device to which the present invention is applied includes a radio broadcast receiving antenna ANT, an AM / FM tuner unit 1, a CD (Compact Disc) reproducing unit 2, an MD (Mini Disc) reproducing unit 3, It has an external connection terminal 4, an input selector 5, an audio amplifier 6, left and right speakers 7L and 7R, a control unit 9, an LCD (Liuid Crystal Display) 10 ', and a key operation unit 11.
  • the control unit 9 connects a CPU (Central Processing Unit) 91, a ROM (Read Only Memory) 92, a RAM (Random Access Memory) 93, and a non-volatile memory 94 via a CPU bus 95. It is a microcomputer formed by controlling each part of this stereo device.
  • CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • the ROM 92 stores programs executed by the CPU 91, data necessary for processing, image data used for display, character font data, and the like.
  • the RAM 93 is mainly used as a work area.
  • the non-volatile memory 94 is, for example, an EE PROM (Electrically Erasable and Programmable RO M) or flash memory, which stores data that needs to be retained even if the power of the stereo device is turned off, for example, various setting parameters.
  • an LCD 10 and a key operation unit 11 are connected to the control unit 9.
  • the LCD 10 has a relatively large display screen, and can display the status and operation guidance of the car stereo device. When a playback device for a System (System) or a DVD (Digital Versatile Disc) is connected, map information and video information are displayed under the control of the control unit 9.
  • the key operation unit 11 is provided with various operation keys, function keys, operation dials, and the like.
  • the key operation unit 11 receives an operation input from a user, converts the operation input into an electric signal, and controls the control unit 9. Can be notified.
  • the control unit 9 controls each unit of the force stereo device according to an instruction from the user.
  • this car stereo device has an AM / FM tuner unit 1, a CD playback unit 2, an MD playback unit 3, and an external input terminal 4 as supply terminals for audio signals (audio data and the like). Is provided.
  • the AM / FM tuner unit 1 receives and tunes to a desired broadcast channel of AM radio broadcast or FM radio broadcast based on the tuning control signal from the control unit 9, and receives and tunes this.
  • the radio broadcast signal is demodulated, and the demodulated audio signal is supplied to the selector 5.
  • the CD reproducing unit 2 includes a spindle motor, an optical head, and the like.
  • the CD loaded in the CD reproducing unit 2 is driven to rotate, the CD is irradiated with laser light, and the reflected light is received.
  • the MD playback unit 3 includes a spindle motor, an optical head unit, etc., drives the MD loaded therein to rotate, irradiates the MD with laser light, By receiving the reflected light, the audio data recorded as a change in magnetization in the MD is read out and converted into an electric signal. Since the read audio data is usually data compressed, it is subjected to data expansion processing (compression / decompression processing) to form an audio signal for reproduction, and this is supplied to the selector 5. As described above, external devices such as a GPS and a DVD playback device are connected to the external connection terminal 4, and audio signals from those devices are supplied to the selector 5.
  • the selector 5 is controlled by the control unit 9 to control the switching, and which one of the AM / FM tuner 1, the CD playback unit 2, the MD playback unit 3, and the external input terminal 4 outputs the audio signal. Switch. As a result, audio signals from a desired portion of the A / M tuner 1, the CD playback unit 2, the MD playback unit 3, and the external input terminal 4 are supplied to the audio amplifier unit 6.
  • the audio amplifier section 6 is roughly divided into an output signal processing section 61 and an analysis data processing section 62.
  • the output signal processing unit 61 performs various adjustment processes such as volume adjustment and sound quality adjustment on the audio signal to be output based on the control signal from the control unit 9 to form an audio signal for output. This is supplied to the 7L, 7 speed force.
  • the analysis data extraction unit 62 divides the supplied audio signal into a plurality of frequency bands, and supplies information indicating the level of the audio signal in each frequency band to the control unit 9.
  • the control unit 9 detects the peak position of the audio signal based on the analysis data from the analysis data extraction unit 62, which will be described in detail later, and calculates the time interval between the peak positions in a predetermined unit time. Then, based on the calculation result, the tempo of the output audio is specified.
  • the control unit 9 is, for example, a unit corresponding to the tempo specified as described above from the still image data stored in the ROM 92 or the nonvolatile memory 94. Is selected and displayed on the LCD 10. Further, the control unit 9 superimposes the image such as a figure or a character on the still image to be displayed on the LCD 10 so as to display the image such as a figure or a character in a manner to move according to the specified tempo. I have.
  • the audio amplifier section A tempo analyzer is composed of the analysis data extraction unit 62 and the control unit 9 of FIG. 6, and by cooperating with each other, it is possible to specify the tempo of the sound of the music to be reproduced and use it. I have to.
  • the tempo analysis device unit configured by the analysis data extraction unit 62 and the control unit 9 is one to which the embodiment of the tempo analysis device according to the present invention is applied, and the method used here is as follows. An embodiment of the tempo analysis method according to the present invention is applied.
  • FIG. 2 is a block diagram showing a tempo analysis device section mounted on the car stereo device.
  • the tempo analysis device according to the present invention includes the analysis data extraction unit 62 provided in the audio amplifier unit 6 of the car stereo device, and the control unit 9.
  • an A / D converter 12 is provided between the analysis data extractor 62 and the controller 9.
  • the A / D converter 12 converts the information (for example, voltage value) indicating the level of the audio signal output from the analysis data extractor 62 into, for example, 0 to 1203 steps from 0 to 1203.
  • the data is converted into digital data and supplied to the control unit 9.
  • the AZD conversion unit 12 can be provided between the analysis data extraction unit 62 and the control unit 9 as shown in FIG. 2, but is provided as a function of the analysis data extraction unit 62. It can also be provided as a function of the control unit 9.
  • the analysis data extraction unit 62 includes a band separation unit 621, which separates the supplied audio signal into a plurality of frequency bands, and an audio signal separated into a plurality of frequency bands. , And outputs this as level information And a level detector 622.
  • the center frequency of the band separation section 621 is 62 Hz, 157 Hz, 396 Hz, lkHz, 2.5 1 kHz, 6.34 kHz, 16 kHz.
  • the 7 frequency bands (7 bands) are separated.
  • each of the audio signals separated into each frequency band is supplied to the level detection unit 622, as shown in FIG. 2, and the level is detected for each.
  • Information indicating the level of the audio signal of each frequency band detected by the level detection unit 62 2 is supplied to the control unit 9 through the AZD conversion unit 12.
  • the level waveform (audio level waveform) of the audio signal in each of the divided bands is supplied to the control unit 9 as a digital signal.
  • analysis data extraction unit 62 can be realized using a general-purpose integrated circuit, for example, IC 6333 AB (STMicroelectronics). Also, the analysis data extraction unit 62 may be configured by a microcomputer, and the software executed here may perform band division of the audio signal and detection of the signal level.
  • control unit 9 specifies the tempo of the audio to be processed by a process centering on a very simple comparison process using the level (audio level waveform) of the audio signal in each frequency band from the analysis data extracting unit 62. I do. Then, based on the specified tempo, the control unit 9 extracts image data that forms a still image corresponding to the tempo from, for example, the still image data prepared in the ROM 92, Display it on the display screen of CD10.
  • control unit 9 displays a predetermined figure or character on the display screen of the LCD 10 and moves the figure or character according to the specified tempo. To do.
  • FIG. 3 is a flowchart showing a processing procedure in the case where the tempo of the sound reproduced by the processing target audio signal is specified in the force stereo apparatus according to the present invention.
  • the control unit 9 firstly transmits the finally specified template.
  • the calculation processing of the volume level (total volume) of the input audio signal, which is a parameter for displaying the image data together with the input, is performed (step S1).
  • control unit 9 performs a process for extracting and specifying the tempo of the audio to be processed (step S2).
  • the image data to be displayed and the display content are determined by the parameters (total volume and tempo) obtained by the processing in steps S1 and S2.
  • the audio signal to be processed is divided into seven frequency bands (seven bands), and processing is performed using a predetermined time unit section (one frame) as a processing unit.
  • a predetermined time unit section one frame
  • the time unit section is a continuous section of, for example, 4 seconds.
  • FIG. 4 is a flowchart for explaining the processing performed in step S1 shown in FIG.
  • the data buffer of the total volume of the seven bands in each of a plurality of consecutive frames in which the processing results are accumulated is V o 1 D ata [Frame]
  • the The storage buffer for the volume data (level data) is data [band]
  • the storage buffer for the total volume value is Total Vol.
  • [Frame] is the number of frames for which the total volume is to be calculated
  • the [Frame] -th frame is the oldest frame among a plurality of consecutive frames in which the processing result is accumulated. It is.
  • [band] is also a band number indicating which band (frequency band).
  • the volume buffer of the latest frame that is currently being processed is set to V 0 1 D ata [1], and the oldest frame of the continuous multiple frames in which the processing results are accumulated is set.
  • the volume buffer of the frame is Vo ID ata [Frame]
  • the CPU 91 of the control unit 9 first calculates the total volume T ota 1 V 01 from the oldest frame. The volume is subtracted (step S11).
  • step S12 the data stored in the buffers Vol Data [l] to Vol Data [FRAM] is shifted one buffer at a time (step S12).
  • Vo 1 D ata [Frame] Vo ID ata [5]
  • the data of Vo 1 D ata [4] is shifted to Vol D ata [5]
  • Vo The data of l D ata [3] is shifted to Vo l D ata [4]
  • the data of Vo l D ata [2] is shifted to Vo 1 D ata [3]
  • Vo l D ata [l] is shifted. Will be shifted to Vol D ata [2].
  • step S13 the level data data [1], data [2], data [3], data [4], data [5], data [5] of each band (frequency band) of the latest frame from the analysis data extraction unit 62 6] and data [7] are summed, and the sum is set as the data indicating the volume of the latest frame in the buffer Vo1Data [1] (step S13).
  • step S14 by adding the volume value of the latest processing target frame obtained in step S13 to the value of Tota1Vo1 holding the total volume value, the direction from the latest frame to the past is added. Then, the total volume for the frames of [F Ram e] for which the total volume is calculated is obtained (step S14).
  • the total volume of the audio signal to be processed is calculated, and by using this calculated total volume as one of the parameters, the image data can be selected and displayed.
  • the above-described calculation processing of the total sound volume is performed based on the sound level waveform divided into a plurality of frequency bands, it may be calculated based on the sound level waveform of the supplied sound signal.
  • a filter for extracting a specific frequency band component such as a middle sound range may be prepared, and the filter may be obtained from an audio level waveform of an audio signal in that band.
  • FIG. 5 shows the tempo extraction performed in step S2 shown in FIG. It is a flow chart for explaining output processing. As shown in FIG. 5, each of the processes from step S21 to step S24 is performed on the audio signal of each band divided into bands.
  • the CPU 91 of the control unit 9 performs a process of setting a threshold for each band (step S21), and for example, detects a peak position provided in the RAM 93 or the nonvolatile memory 94.
  • the shift processing of the contents of the peak buffer, which is the buffer, is executed (step S22).
  • processing is performed to extract peak positions (peaks of level change) at a level higher than the threshold set in step S21 (step S23), and based on the extracted peak positions, the peak interval between each peak position is determined. (Time interval between peak positions) is obtained (step S24).
  • step S25 After the processes from step S21 to step S24 performed for each band (band), the CPU 91 of the control unit 9 performs a process of collecting the peak intervals of each band into one list, and performs detection.
  • the peak interval (peak cycle) having the highest frequency (occurrence frequency) is specified as the tempo of the sound being reproduced (step S25).
  • step S21 each of the threshold processing of step S21, the peak extraction processing of step S23, and the processing of identifying the tempo of step S25 shown in FIG. 5 will be described in more detail. .
  • FIG. 6 is a flowchart for explaining the threshold processing performed in step S.21 of the tempo extraction processing shown in FIG.
  • the processing is similar to the processing executed in step S1 shown in FIG. 3, and each of the band-divided bands has a maximum volume over a section of one frame (4 seconds). Obtain the level and store the value as MaxVol [band].
  • the threshold T hres is If it is determined that the volume is lower than the 80% level of the Max Vo1 [band], it is determined that the volume is decreasing, and the threshold Thres is set to 90% of the threshold Thres. Set the cent level (step S2 1 2).
  • step S211 when it is determined that the threshold T hres is lower than the 80% level of the volume MaxVol [band], it is determined that the volume is increased, The 80% level of the new maximum volume MaxVo1 [band] is set to the threshold Thres (step S213).
  • the threshold Thres can be appropriately changed both when the sound volume decreases and when the sound volume increases for each band.
  • this threshold Thres as a reference for detecting the peak position of the audio signal, the tempo of the audio can be accurately specified.
  • FIG. 7 is a flowchart for explaining the peak position extraction processing executed in step S23 shown in FIG.
  • a clock signal having a sampling frequency of 20 Hz is used, and the audio signal is sampled 80 times in one frame of 4 seconds, and its level is detected. Is to be. Then, the processing shown in FIG. 7 is performed for each sample.
  • the control unit 9 determines whether or not the current sample level is lower than the threshold value Thres set as described with reference to FIG. 6 (step S231). If it is determined in the determination processing in step S231 that the level of the current sample is not below the threshold value Thres, the level of the current sample may be the maximum value. The level temporarily registered as a candidate is compared with the level of the current sample, and it is determined whether or not the level of the current sample is higher (step S232).
  • step S2 32 the level of the current sample If the level of the registered maximum value candidate is higher, the processing shown in FIG. 7 is exited without any operation. If the current sample level is higher than the tentatively registered maximum value candidate level in the determination process of step S232, the current sample level and the sample position are temporarily determined. It is registered (step S2333), and the process exits from the process shown in FIG.
  • the temporary registration is performed, for example, in the RAM 93 or the temporary registration area of the nonvolatile memory 94.
  • step S233 If it is determined in step S233 that the level of the current sample is lower than the threshold Thres, the sample position of the level provisionally registered in step S233 is determined by the current process. It is determined whether or not the frame is within the target frame (step S2334).
  • step S2334 when it is determined that the sample position of the temporarily registered level is not within the current frame to be processed, the frame to be processed has moved to the next frame. The process shown in FIG. 7 is exited without doing anything.
  • step S2334 when it is determined that the sample position of the temporarily registered level is within the current frame to be processed, the level temporarily registered as a candidate for the peak and the sampling position are converted to the peak level.
  • the peak position is additionally recorded in a predetermined area (maximum value position information area), and the number of peaks is counted by one, and the process shown in FIG. 7 is exited.
  • the peak level is detected and the position (peak position) of the peak level is detected by a relatively simple comparison process without calculating the autocorrelation. So that it can be extracted.
  • the processing shown in FIG. 7 is performed based on the peak position obtained by performing the processing in step S23 of the processing shown in FIG. In 24, the peak interval (time interval between peak positions) is determined.
  • FIG. 8 is a diagram for explaining a peak interval detection process performed in the present invention. As shown in Fig. 8, the peak interval is calculated by taking the case where there are four peak positions (peak points) above the threshold T hres in one frame as an example. The following describes the processing to be performed.
  • the control unit 9 as shown by the alphabets A, B, C, D, E, and F in FIG. 8, for example, based on the information indicating the peak position stored and held in the RAM 93 or the non-volatile memory. Calculate the peak interval so that the same section does not overlap.
  • the interval from the other peak positions is obtained based on each of the four peak positions.
  • a section where the reference peak position and the other peak positions are just reversed is an overlap of sections, so if the sections substantially overlap, process so that only one of them is used. .
  • This processing is performed on the level data of each band in the frame section to be processed. Then, the peak intervals obtained in each band of the frame section to be processed are expanded into a peak interval (period) list (hereinafter, referred to as a period list), and the music to be reproduced is based on the period list. Is determined (specified).
  • FIG. 9 is a flowchart for explaining the period list creation and tempo determination processing executed in step S25 shown in FIG.
  • the process of the flowchart shown in FIG. 9 is a process executed in the control unit 9.
  • control unit 9 determines whether or not the sound volume is currently zero (step S251). This determination can be made by checking the total volume Tota1Vo1 described above, or by separately detecting the volume level of the input audio signal and checking this. Is also good.
  • step S251 assuming that the sound volume may not be completely zero, in the process of step S251, for example, when an audio signal having an audio level equal to or lower than a specified threshold continues for more than a specified sample, the sound volume is reduced. Zero, that is, It may be determined that the life has ended.
  • the control unit 9 assigns all the peak intervals obtained as described above with reference to FIG. 7 to the periodic list while weighting the scores. Expand (Step S2 52). For example, as shown in Fig. 10, the period list shows the peak interval on the horizontal axis and the score (the number of detections) on the vertical axis, and for each peak interval detected in each band in the frame section to be processed. The number of detections is accumulated.
  • a predetermined value is set in advance for the weight according to the magnitude of the peak interval for each band.
  • the weight for the treble band may be smaller than the weight for the middle band.
  • the weight for each band may be set to the same value.
  • the weighting for each band is indicated by W1, W2, W3,...
  • the weighting for each peak interval is indicated by AA, BB.
  • An example of score calculation is as follows.
  • Peak interval B E score-A A * (1st band score * W1 + 2nd band score * W2 + '... + 6th band score * W6 + 7th band score * W7)
  • a weight for each peak interval is obtained by performing weighting for each peak interval and weighting for each band.
  • the control unit 9 determines (specifies), as the tempo, the number of detections, that is, the highest peak interval of the accumulated scores, from the created cycle list (step S253).
  • control unit 9 determines whether or not the maximum value of the score of the periodic list exceeds a predetermined value (step S254). Since the tempo must be determined promptly based on the periodic list, storing more data than necessary in the periodic list is not desirable because it may lead to processing delays and wasted memory.
  • step S254 the maximum value of the periodic list score is determined in advance. If it does not exceed the specified value, the processing shown in FIG. 9 ends. If it is determined in step S254 that the maximum value of the periodic list score exceeds a predetermined value, a cut-off process for the periodic list is performed. (Step S255), and thereafter, the processing shown in FIG. 9 is completed.
  • C The cutoff of the cycle list performed in Step S255 is performed as described above and as shown in FIG. This is performed when the accumulated score of each peak interval exceeds the specified value. Specifically, a predetermined score may be subtracted from the score at each peak interval in the periodic list, or, for example, the score of each peak interval of the oldest frame may be extracted from the data developed in the periodic list. This is done by subtracting the score of the peak interval from the oldest frame toward the new frame in the direction of the new frame.
  • step S251 when it is determined that the volume is zero, it can be determined that the reproduction of the music has ended, so that the music is created as shown in FIG.
  • the cycle list to be reset is reset (step S256), and the processing shown in FIG. 9 is terminated in preparation for the tempo analysis processing of the newly reproduced music.
  • control unit 9 is configured to accumulate information indicating a peak interval detected in each frame, which is the highest frequency detected in that frame, for a plurality of frames, for example, for 100 frames. You. For example, as shown in FIG. 12, data indicating the peak interval at which the detection frequency of each frame is the highest is held.
  • the tempo of the music to be reproduced can be determined appropriately without being greatly affected by sudden fluctuations in the peak interval.
  • the control section 9 determines the tempo of the music to be reproduced as described above, the control section 9 stores the tempo of the music to be reproduced in the ROM 92 according to the determined tempo, for example. Read the image data of the still image, and The still image from the selected image is displayed on the LCD 10.
  • the still image displayed on the LCD 10 is determined based on the tempo and volume of the music being played. That is, as shown in FIG. 13, a coordinate plane is set in which the horizontal axis is the tempo and the vertical axis is the volume, and an area of 9 blocks ⁇ 9 blocks is provided on this plane.
  • the image data forming the image is uniquely determined according to the block determined by the tempo and the volume. That is, image data for forming a predetermined image is determined for each of the 81 blocks shown in FIG.
  • the ROM 92 stores at least image data for forming 81 still images corresponding to each of the 81 blocks set as shown in FIG.
  • the ROM 92 stores image data of about 100 still images.
  • the car stereo device at the time of reproducing the music, not only the image corresponding to the tempo and the volume as described above is displayed on the display screen of the LCD 10 but also, for example, as shown in FIG.
  • a predetermined display object such as a figure or a character is displayed on the display screen of the LCD 10 and is moved.
  • the movement pattern and movement speed of the object Ob are determined according to the determined tempo, for example, if the tempo is fast, move it violently, if the tempo is slow, move it slowly, etc. Will do.
  • the movement pattern and the movement speed may be selected based on the tempo and the volume. It is also possible to prepare a plurality of display objects to be displayed and moved, and to select a display object to be used according to the determined tempo, or the determined tempo and volume. .
  • the force-stereo device As described above, in the force-stereo device according to the present invention, it is possible to easily, quickly, and accurately specify the tempo of the sound of the music to be reproduced without performing complicated arithmetic processing such as autocorrelation arithmetic. Will be able to. Therefore, the tempo of the sound to be reproduced can be specified without imposing a large load on the control unit of the car stereo device.
  • an image to be displayed on the LCD 10 is specified in accordance with the specified tempo, and this can be displayed and provided to the user.
  • the display object can be displayed on the LCD display screen, and can be moved according to the tempo.
  • the audio signal to be reproduced is divided into seven frequency bands, and processing is performed for each band.
  • the present invention is not limited to this. Any number is acceptable. That is, it is not always necessary to divide the frequency band, and the above-described processing may be performed on the audio signal having the entire frequency band.
  • the audio signal to be processed is divided into a plurality of frequency bands, it is not necessary to process the audio signals in all the divided frequency bands, and the divided frequency band is not required.
  • One or more bands may be selected to be processed.
  • the above-described processing may be performed by extracting a voice signal in a frequency band to be processed by a band-pass filter.
  • the threshold for the level of the audio waveform is calculated based on the maximum volume in the previous frame section, but the present invention is not limited to this.
  • the threshold for the audio waveform can be set in advance so as to use a predetermined value. Further, a predetermined value may be selected from a plurality of predetermined values according to the selected volume level or the like and used.
  • the peak interval is detected based on all the peak positions so as to exclude substantially overlapping intervals.
  • the present invention is not limited to this.
  • the peak interval may be detected based on one or more arbitrary peak positions in each frame, and the peak period thus determined may be used. That is, it is not always necessary to detect the peak interval using all peak positions as reference positions.
  • one frame has a duration of 4 seconds, and a description has been made assuming that a quick signal having a sampling frequency of 20 Hz is used.
  • the present invention is not limited to this.
  • the time length of the frame and the sampling frequency may be appropriately selected according to the performance of the CPU mounted on the device such as the force stereo device.
  • a still image is displayed on the LCD and a display object is also displayed, and the display object is moved.
  • processing according to the specified tempo is not limited to this.
  • the surround mode is set Various adjustments may be made, such as increasing the reverb. '
  • the band division of the audio signal has been described as being performed using an existing integrated circuit (IC), but the present invention is not limited to this.
  • the band division of the audio signal can also be performed by a program executed in the control unit 9, for example.
  • the present invention can be sufficiently realized by software. More specifically, as a first program, the level of the supplied audio signal is greater than a predetermined threshold value at a time when the audio signal processing device is being used, and the peak of the level change is obtained.
  • a specifying step of specifying a tempo of a sound reproduced by the sound signal based on a frequently occurring time interval among the detected time intervals.
  • the frequency of occurrence of a time interval between peak positions detected in the plurality of unit time sections is accumulated, and the accumulated It is also possible to create a program that specifies the tempo of the reproduced sound based on the frequency of occurrence.
  • a third program there is provided a band separation step of separating the supplied audio signal into a plurality of frequency bands, and in the detection step, The peak position is detected for each of at least one or more of the frequency bands, and in the time interval detecting step, the peak position for each of the at least one or more bands is targeted, and the time is determined for each band.
  • the tempo of the reproduced sound is specified based on a frequently occurring time interval among time intervals detected in at least one or more bands. It is also possible to create programs that do this.
  • a volume calculation step for calculating the volume of the sound to be output based on the audio signal to be output, and a case where the peak position is detected based on the calculated volume. It is also possible to create a program provided with a threshold setting step for setting a threshold.
  • an image extracting step of extracting image data of an image to be displayed on an image display element from image data stored in a memory based on the specified tempo, and an extracted image It is also possible to create a program provided with a display step of displaying an image corresponding to the night on the image display element.
  • a sixth program it is also possible to create a program including a step of controlling the size, the moving speed, and the moving pattern of an image to be displayed on the image display element based on the specified tempo.
  • the tempo analysis device and the tempo analysis method according to the present invention can also be realized by a program, and the created program is provided to the user through various telecommunication lines such as the Internet and a telephone network or data broadcasting.
  • the present invention can also be provided to the user by distributing a recording medium recording a program having the above-described steps.
  • INDUSTRIAL APPLICABILITY As described above, according to the present invention, it is possible to easily and accurately detect the tempo of audio such as music without performing complicated arithmetic processing such as autocorrelation arithmetic. In addition, information can be provided according to the detected tempo, and various controls can be performed. Detecting the connection of the network by using the hardware interrupt, and establishing the link, minimize the load on the system and connect the network connection.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

 本発明は、楽曲などの音声のテンポを解析するテンポ解析装置であり、解析データ抽出部(62)からの音声信号のレベル情報に基づいて、制御部(9)において、所定の単位時間区間であるフレームを処理単位とし、所定レベル以上においてのピーク位置(レベル変化の頂点)を検出して、当該フレーム区間における各ピーク位置間の間隔(ピーク間隔)を求め、発生頻度の高いピーク間隔をテンポとして決定する。

Description

明細書 テンポ解析装置及びテンポ解析方法 技術分野 本発明は、 楽曲などの音声信号から楽曲が演奏される速さであるテンポを抽出 して利用できるようにするテンポ解析装置及び解析方法に関する。
本出願は、 日本国において 20 0 3年 3月 3 1 日に出願された日本特許出願番 号 20 0 3— 0 941 0 0を基礎として優先権を主張するものであり、 この出願 は参照することにより、 本出願に援用される。 背景技術 従来、 楽曲の音声データを解析することにより、 その楽曲のテンポを自動的に 抽出し、 この抽出したテンポを、 例えば、 譜面を作成する際に利用したり、 編曲 をする際に利用したりするなどのことが行われている。 この種の楽曲のテンポを 抽出する技術の 1つとして、 特開 2 0 0 2— 1 1 6 7 54号公報に記載されたも のがある。
この特許文献に記載された技術は、 楽曲の音声データを時系列データとして取 り込み、 この音声データの自己相関を算出することにより当該音声データのピ一 ク位置を検出して、 テンポの候補を取得するようにし、 一方で、 自己相関パター ンのピーク位置とそのレベルから当該楽曲のビ一ト構造を解析し、 テンポの候補 とビート構造の解析結果とに基づいて、 最も適切と思われるテンポを推定するも のである。
この特許文献に記載された技術を利用することにより、 音楽に対する先見的な 知識を持っていなくても、 誰でもが比較的に簡単に、 しかも正確に、 目的とする 楽曲のテンポを抽出し、 これを利用することができるようになる。
ところで、 最近、 車載用オーディオシステム (力一ステレオシステム) や家庭 用オーディオシステムにおいても、 再生する楽曲のテンポを検出し、 そのテンポ に応じた情報を提供したり、 あるいは、 検出したテンポに応じて、 種々の制御を 行うようにすることが提案されている。
• 上述した特許文献に記載された技術は、 音声データについて自己相関を算出し たり、 ビート構造を解析したりするなど、 演算処理が複雑かつ膨大となり、 実際 に演算処理を行う C P U (Central Process ing Uni t) にかかる負担が大きくなる, このため、 上述した特許文献に記載の技術は、 規模の比較的小さな車載用ォー ディォシステムや家庭用オーディォシステムに適用するには不向きな場合がある。 また、 上述した特許文献に記載の技術を用いようとする場合には、 処理能力の高 い C P Uを用いたり、 メモリ容量を大きくしたりする必要が生じるなど、 オーデ ィォシステムのコストアップにつながる可能性がある。 発明の開示 本発明の目的は、 上述したような従来の技術が有する問題点を解決することが できる新規なテンポ解析装置及びテンポ解析方法を提供することにある。
本発明の他の目的は、 C P Uに大きな負荷をかけることもなく、 また、 コスト アップも生じさせないようにして、 楽曲等の音声のテンポを簡単かつ正確に検出 して利用できるテンポ解析装置及びテンポ解析方法を提供することにある。
上述したような目的を達成するために提案されるテンポ解析装置は、 入力音声 信号のレベル変化のピークのうち、 所定の閾値より大きい複数のピークの位置を 検出するピーク検出手段と、 所定の単位時間区間において、 ピーク検出手段によ り検出されるピーク位置の間の時間間隔を検出する間隔検出手段と、 間隔検出手 段により検出される時間間隔のうち、 発生頻度の多い前記時間間隔に基づいて、 前記音声信号により再生される音声のテンポを特定する特定手段とを備える。
本発明に係るテンポ解析装置は、 ピーク検出手段により、 音声信号のレベルに ' ついて、 閾値より大きく、 かつ、 上昇から下降に転じる直前のピーク位置 (レべ ル変化の頂点) が順次に検出される。 そして、 時間間隔検出手段により、 所定の 単位時間区間において検出される、 一般的には複数個のピーク位置について、 少 なくとも所定の 1つのピーク位置を基準とし、 このピーク位置とその他のピーク 位置との時間間隔 (ピーク間隔) が検出される。 この後、 特定手段により、 時間 間隔検出手段からの検出結果に基づいて、 発生頻度の多い時間間隔が検出され、 その時間間隔に基づいて、 処理対象の音声信号により再生される楽曲などの音声 のテンポが特定される。 これにより、 自己相関演算などの複雑な演算処理を行う ことなく、 簡単かつ正確に楽曲などの音声のテンポを特定することができる。 本発明に係るテンポ解析装置を構成する特定手段は、 さらに具体的に、 複数の 単位時間区間において検出されるピーク位置間の時間間隔の発生頻度を累積し、 この累積した発生頻度に基づいて、 再生される音声の前記テンポを特定する。 本発明に係るテンポ解析装置は、 さらに、 入力信号を複数の周波数帯域に分離 する帯域分離手段を備え、 ピーク検出手段は、 帯域分離手段により分離された複 数の帯域のうちの少なくとも 1つ以上の帯域毎に前記ピーク位置を検出するもの であり、 間隔検出手段は、 ピーク検出手段により検出される少なくとも 1つ以上 の帯域毎のピーク位置の時間間隔を検出するものであり、 特定手段は、 少なくと も 1つ以上の帯域毎に検出される時間間隔のうち、 発生頻度の多い時間間隔に基 づいて再生される音声の前記テンポを特定する。
また、 本発明に係るテンポ解析装置は、 音声信号の音量を算出する音量算出手 段と、 音量算出手段により算出された音量を基準として、 ピーク位置を検出する 場合に用いる前記閾値を設定するようにする閾値設定手段とを備える。
このテンポ解析装置において、 帯域分離手段により分離された複数の帯域のう ちの少なくとも 1つ以上の帯域の音声信号の音量を算出する音量算出手段と、 音 量算出手段により算出された音量を基準として、 ピーク位置を検出する場合に用 いる閾値を設定するようにした閾値設定手段とを設けるようにしてもよい。 本発明に係るテンポ解析装置は、 さらに、 入力音声信号から所定の周波数帯域 の音声信号を抽出する帯域抽出手段を備え、 ピーク検出手段は、 帯域抽出手段に より抽出された音声信号についてピーク位置を検出するように構成してもよい。 このテンポ解析装置において、 帯域抽出手段で抽出された音声信号の音量を算出 する音量算出手段と、 音量算出手段により算出された音量を基準として、 ピーク 位置を検出する場合に用いる閾値を設定する閾値設定手段を設けるようにする。 本発明に係るテンポ解析装置は、 さらに、 画像表示素子と、 画像表示素子に表 示可能な複数の画像の画像データを記憶する記憶手段と、 特定手段により特定さ れる前記テンポに基づいて、 前記記憶手段から画像データを選択して読み出し、 読み出した前記画像データに応じた画像を前記画像表示素子に表示する表示制御 手段とを備えたる。
このテンポ解析装置の表示手段は、 記憶手段から読み出す画像データに応じた 画像を画像表示素子に表示する画像の大きさ、 移動速度、 移動パターンの少なく とも 1つを制御する。
また、 表示手段は、 特定手段により特定されるテンポと音量算出手段により算 出された音量とに基づいて、 記憶手段から画像デ一夕を選択して読み出すように してもよい。
そして、 本発明に係るテンポ解析方法は、 入力音声信号のレベル変化のうち、 所定の閾値より大きい複数のピークの位置を検出し、 所定の単位時間区間におい て、 検出した前記ピーク位置の間の時間間隔を検出し、 検出した前記時間間隔の うち、 発生頻度の多い時間間隔に基づいて、 入力音声信号により再生される音声 のテンポを特定する。 テンポの特定に際しては、 複数の前記単位時間区間におい て検出されるピーク位置間の時間間隔の発生頻度を累積し、 この累積した発生頻 度に基づいて、 再生される音声の前記テンポを特定する。
本発明に係るテンポ解析方法は、 さらに、 入力音声信号を複数の周波数帯域に 分離し、 ピーク位置の検出に際しては、 分離された前記複数の周波数帯域の少な くとも 1つ以上の帯域毎に前記ピーク位置を検出し、 時間間隔の検出に際しては、 少なくとも 1つ以上の前記帯域毎のピーク位置の時間間隔を検出し、 テンポの特 定に際しては、 少なくとも 1つ以上の帯域毎に検出される時間間隔のうち、 発生 頻度の多い時間間隔に基づいて、 再生される音声のテンポを特定する。
また、 本発明に係るテンポ解析方法は、 入力音声信号から所定の周波数帯域の 音声信号を抽出し、 ピーク位置を検出に際しては、 抽出された音声信号について のピーク位置を検出するようにしてもよい。
さらに、 本発明に係るテンポ解析方法は、 入力音声信号の音量を算出し、 算出 した音量を基準として、 ピーク位置を検出する場合に用いる閾値を設定するよう にしてもよい。
本発明に係るテンポ解析方法は、 特定されたテンポに基づいて、 記憶手段に記 憶されている複数の画像データの中から画像データを選択して読み出し、 読み出 した前記画像データに応じた画像を画像表示素子に表示する。 このテンポ解析方 法は、 特定されたテンポに基づいて、 画像表示素子に表示する画像の大きさ、 移 動速度、 移動パターンを制御する。 又は、 特定されたテンポと算出された音量と に基づいて、 記憶手段に記憶されている複数の画像データを選択して読み出すよ うにしてもよい。
本発明の更に他の目的、 本発明によって得られる具体的な利点は、 以下におい' て図面を参照して説明される実施の形態の説明から一層明らかにされるであろう c 図面の簡単な説明 図 1は、 本発明を適用したカーステレオ装置を示すプロック図である。
図 2は、 カーステレオ装置に搭載されるテンポ分析装置を示すブロック図であ る。
図 3は、 制御部で実行されるメイン処理を説明するためのフローチャートであ る。
図 4は、 図 3に示すステップ S 1において実行される総音量計算処理を説明す るためのフロ一チヤ一卜である。
図 5は、 図 3に示すステツプ S 2において実行されるテンポ抽出処理を説明す るためのフローチヤ一卜である。
図 6は、 図 5に示すステップ S 2 1において実行されるスレツショルド処理を 説明するためのフローチヤ一トである。
図 7は、 図 5に示すステップ S 2 3において実行されるピーク位置抽出処理を 説明するためのフローチヤ一卜である。
図 8は、 ピーク位置抽出処理を説明するための図である。
図 9は、 図 5に示すステップ S 2 5において実行されるピーク間隔 (周期) リ スト作成及びテンポ決定処理を説明するためのフローチャートである。 図 1 0は、 周期リスト (ピーク間隔リスト) を説明するための図である。
図 1 1は、 周期リストの足切り処理を説明するための図である。
図 12は、 各フレーム毎の発生頻度が最も高いピーク間隔の保持と利用につい て説明するための図である。
図 1 3は、 決定されたテンポと音量とにより利用可能な画像データが特定され る構造について説明するための図である。
図 14は、 決定されたテンポを用いて選択され表示するようにされる画像の表 示例を示す図である。 発明を実施するための最良の形態 以下、 本発明に係るテンポ解析装置及びテンポ解析方法を図面を参照しながら 説明する。
なお、 以下に説明では、 本発明をカーステレオ装置 (カーオーディオシステ ム) に適用した例をあげて説明する。
まず、 本発明に係るカーステレオ装置を説明する。 本発明が適用されるカース テレオ装置は、 図 1に示すように、 ラジオ放送の受信アンテナ ANT、 AM/F Mチューナ部 1、 CD (Compact Disc) 再生部 2、 MD (Mini Disc) 再生部 3、 外部接続端子 4、 入力セレクタ 5、 オーディオアンプ部 6、 左右のスピーカ 7 L、 7 R、 制御部 9、 L CD (Li uid Crystal Display) 10'、 キー操作部 1 1を備 える。
制御部 9は、 図 1に示すように、 CPU (Central Processing Unit) 9 1、 R OM (Read Only Memory) 9 2、 RAM (Random Access Memory) 93、 不揮発 性メモリ 94が CPUバス 9 5により接続されて形成されたマイクロコンピュー 夕であり、 この力一ステレオ装置の各部を制御する。
ここで、 ROM92は、 C PU 9 1によって実行されるプログラムや処理に必 要になるデータ、 表示に用いる画像データや文字フォントデ一夕などが記憶され たものである。 RAM93は、 主に作業領域として用いられる。 不揮発性メモリ 94は、 例えば、 EE PROM (Electrically Erasable and Programmable RO M) やフラッシュメモリであり、 当該力一ステレオ装置の電源が落とされても保持 しておく必要のあるデ一夕、 例えば、 各種の設定パラメータなどを記憶保持する。 また、 制御部 9には、 図 1に示すように、 LCD 1 0と、 キー操作部 1 1とが 接続されている。 L CD 10は、 比較的に大きな表示画面を有するものであり、 このカーステレオ装置の状態や操作ガイダンスなどを表示することができるとと もに、 例えば、 外部入力端子を通じて、 GP S (Global Positioning System) や DVD (Digital Versatile Disc) の再生装置が接続された場合には、 制御部 9 の制御によって、 地図情報や動画情報等を表示する。
キ一操作部 1 1は、 各種の操作キ一やファンクションキー、 操作ダイヤルなど を備えたものであり、 ュ一ザからの操作入力を受け付けて、 これを電気信号に変 換し、 制御部 9に通知することができる。 これにより、 制御部 9は、 ユーザから の指示に応じて、 この力一ステレオ装置の各部を制御するようにしている。
そして、 図 1に示したように、 このカーステレオ装置は、 音声信号 (音声デー 夕) 等の供給端として、 AM/FMチューナ部 1、 CD再生部 2、 MD再生部 3、 外部入力端子 4を備える。 AM/FMチューナ部 1は、 制御部 9からの選局制御 信号に基づいて、 A Mラジオ放送又は F Mラジオ放送のうちの目的とする放送チ ヤンネルを受信、 選局し、 この受信、 選局したラジオ放送信号を復調して、 復調 後の音声信号をセレクタ 5に供給する。
CD再生部 2は、 スピンドルモータ、 光学ヘッド部などを備え、 これに装填さ れた CDを回転駆動し、 当該 CDにレーザ光を照射して、 その反射光を受光する ことにより、 CDに微少な凹凸の連続であるピットパターンとして記録されてい る音声データを読み出す。 そして、 読み出した音声データを電気信号に変換し、 復調して再生用の音声信号を形成し、 これをセレクタ 5に供給する。
MD再生部 3は、 CD再生部 2の場合と同様に、 スピンドルモータ、 光学へッ ド部などを備え、 これに装填された MDを回転駆動し、 当該 MDにレーザ光を照 射して、 その反射光を受光することにより、 当該 MDに磁化変化として記録され ている音声デ一夕を読み出し、 これを電気信号に変換する。 読み出された音声デ —タは、 通常、 データ圧縮されているので、 これをデータ伸張処理 (圧縮解凍処 理) して再生用の音声信号を形成し、 これをセレクタ 5に供給する。 また、 外部接続端子 4には、 上述したように、 例えば G P Sや D V D再生装置 などの外部機器が接続され、 それらの機器からの音声信号が、 セレクタ 5に供給 するようにされる。
そして、 セレクタ 5は、 制御部 9により切り換え制御がなされ、 A M/ F Mチ ユーナ 1 、 C D再生部 2 、 M D再生部 3、 外部入力端子 4のうちのいずれの部分 からの音声信号を出力するかを切り換える。 これにより、 A M/ F Mチュ ナ 1 、 C D再生部 2 、 M D再生部 3、 外部入力端子 4のうちの目的とする部分からの音 声信号がオーディォアンプ部 6に供給される。
オーディオアンプ部 6は、 大きく分けると、 出力信号処理部 6 1と解析データ 処理部 6 2とからなっている。 出力信号処理部 6 1は、 制御部 9からの制御信号 に基づいて、 出力しょうとする音声信号についての音量調整、 音質調整等の各種 の調整処理を行って、 出力用の音声信号を形成し、 これをスピー力 7 L 、 7 に 供給する。
これにより、 図 1において参照符号 1から 4で示した部分の内の目的とする供 給部分からの音声信号に応じた音声をスピーカ 7 L 、 7 Rから放音することがで きるようにされる。
一方、 解析データ抽出部 6 2は、 これに供給された音声信号を複数の周波数帯 域に分割し、 各周波数帯域の音声信号のレベルを示す情報を制御部 9に供給する。 制御部 9は、 詳しくは後述するが、 解析デ一夕抽出部 6 2からの解析データに基 づいて、 音声信号のピーク位置を検出し、 所定単位時間におけるピーク位置間の 時間間隔を算出して、 この算出結果に基づいて、 出力する音声のテンポを特定す る。
そして、 本例の制御部 9は、 例えば、 R O M 9 2、 あるいは、 不揮発性メモリ 9 4に記憶されている静止画像デ一夕の中から、 上述のようにして特定したテン ポに応じたものを選択し、 それを L C D 1 0に表示するようにしている。 また、 制御部 9は、 L C D 1 0に表示するようにした静止画像に重ねて、 例えば、 図形 やキャラクタなどの画像を、 特定したテンポに応じて動くような態様で表示を行 うようにしている。
このように、 本発明に係るカーステレオ装置においては、 オーディオアンプ部 6の解析データ抽出部 6 2と制御部 9とによりテンポ解析装置を構成し、 これら が協働することによって、 再生する楽曲などの音声のテンポを特定して、 これを 利用することができるようにしている。
すなわち、 解析データ抽出部 6 2と制御部 9とにより構成されるテンポ解析装 置部が、 本発明に係るテンポ解析装置の一実施の形態が適用されたものであり、 ここで用いられる方法が、 この発明に係るテンポ解析方法の一実施の形態が適用 されたものである。
そして、 本発明においては、 以下に詳述するように、 再生しょうとする楽曲な どの音声のテンポを特定する際には、 従来のように自己相関算出等の複雑な演算 処理を行うことはなく、 簡単な処理で、 しかも正確に目的とする音声のテンポを 特定するようにしている。
次に、 本発明に係る力一ステレオ装置に搭載されたテンポ解析装置部について 説明する。
図 2は、 このカーステレオ装置に搭載されたテンポ解析装置部を示すプロック 図である。 上述したように、 本発明に係るテンポ解析装置は、 カーステレオ装置 のオーディオアンプ部 6に設けられる解析デ一タ抽出部 6 2と、 制御部 9とによ り構成される。
図 2に示すように、 解析データ抽出部 6 2と制御部 9との間には、 A / D変換 部 1 2,が設けられる。 この A / D変換部 1 2は、 解析データ抽出部 6 2から出力 される音声信号のレベルを示す情報 (例えば電圧値) を例えば、 0〜 1 0 2 3ま での 1 0 2 4ステツプのデジタルデータに変換して制御部 9に供給するようにす るものである。
この A Z D変換部 1 2は、 図 2に示したように、 解析デ一夕抽出部 6 2と制御 部 9との間に設けることも可能であるが、 解析データ抽出部 6 2の機能として設 けるようにすることもできるし、 また、 制御部 9の機能として設けるようにする こともできる。
この実施の形態において、 解析デ一夕抽出部 6 2は、 これに供給された音声信 号を複数の周波数帯域に分離する帯域分離部 6 2 1と、 複数の周波数帯域に分離 された音声信号のそれぞれのレベルを検出し、 これをレベル情報として出力する レベル検出部 62 2とからなっている。
帯域分離部 62 1は、 図 2にも示したように、 中心周波数が、 6 2Hz、 1 5 7Hz、 39 6 H z , l kH z、 2. 5 1 kHz , 6. 34 kHz , 1 6 kHz の 7つの周波数帯域 (7パンド) に分離するようにしている。
帯域分離部 62 1において、 各周波数帯域に分離された音声信号のそれぞれは、 図 2に示したように、 レベル検出部 6 22に供給され、 そのそれぞれごとにレべ ルが検出される。 レベル検出部 6 2 2において検出された各周波数帯域の音声信 号のレベルを示す情報は、 AZD変換部 1 2を通じて制御部 9に供給される。 す なわち、 帯域分割された各帯域の音声信号のレベル波形 (音声レベル波形) がデ ジ夕ルデ一夕として制御部 9に供給される。
なお、 解析データ抽出部 6 2は、 汎用の集積回路、 例えば、 I C A 6 3 3 A B (STMicroelectronics)等を用いて実現することが可能である。 また、 解析デ一 タ抽出部 62をマイクロコンピュータで構成するようにし、 ここで実行されるソ フトウエアによって音声信号の帯域分割や信号レベルの検出を行うようにするこ ともできる。
そして、 制御部 9は、 解析データ抽出部 62からの各周波数帯域の音声信号の レベル (音声レベル波形) を用い、 ごく簡単な比較処理を中心とする処理により、 処理対象の音声のテンポを特定する。 そして、 特定したテンポに基づいて、 制御 部 9は、 例えば ROM 9 2に用意された静止画像デ一夕の中からそのテンポに応 じた静止画像を形成する画像データを抽出し、 それを L CD 1 0の表示画面に表 示するようにする。
同時に、 制御部 9は、 所定の図形やキャラクタなどを L CD 1 0の表示画面に 表示するようにするとともに、 その図形やキャラクタを、 特定したテンポに応じ て移動させるようにしたりするなどのことを行うようにしている。
次に、 上述したように、 制御部 9の機能として行われる処理対象の音声信号に より再生される音声のテンポを特定する処理について具体的に説明する。 図 3は、 本発明に係る力一ステレオ装置において行われる処理対象の音声信号により再生 される音声のテンポを特定する場合の処理手順を示すフローチャートである。 このカーステレオ装置において、 制御部 9は、 まず、 最終的に特定されたテン ポとともに画像デ一夕の表示のためのパラメータとなる入力音声信号の音量レべ ル (総音量) の計算処理を行う (ステップ S 1) 。
次に、 制御部 9は、 処理対象の音声についてのテンポの抽出及び特定のための 処理を行う (ステップ S 2) 。 このステップ S l、 ステップ S 2の処理によって 求められたパラメ一夕 (総音量とテンポ) により、 表示する画像データや表示内 容が決定される。
そして、 本発明に係るカーステレオ装置においては、 上述したように処理対象 の音声信号を 7つの周波数帯域 (7バンド) に分割し、 所定の時間単位区間 (1 フレーム) を処理単位として処理を行うようにしている。 ここで、 時間単位区間 ( 1フレーム) は、 連続する例えば 4秒間の区間である。
そして、 1フレーム (4秒間) の区間をサンプリング周波数が 20 H zのクロ ック信号を用いてサンプリングすることにより、 1フレームに 80サンプルを得 るようにしている。 さらに、 例えば、 1 0フレーム、 2 0フレームなどのように、 所定のフレーム数分の情報を累積し、 この累積した情報に基づいて、 総音量の算 出やテンポの決定 (特定) を行うようにしている。
次に、 図 3に示す処理のステップ S 1の処理、 及びステップ S 2の処理の詳細 について説明する。
まず、 ステップ S 1の総音量の計算処理について説明する。 図 4は、 図 3に示 すステツプ S 1において行われる処理を説明するためのフローチヤ一トである。 ここでは、 図 4にも示すように、 処理結果を累積する連続した複数フレームの 各フレームにおける 7バンドの合計音量のデータパッファを V o 1 D a t a [F r am e ] とし、 各バンド毎の音量デ一夕 (レベルデータ) の格納バッファを d a t a [b a n d]とし、 総音量の値の格納バッファを T o t a l Vo l とする。 また、 [F r ame]は、 総音量の計算対象となるフレーム数であり、 [F r am e]番目に相当するフレームは、 処理結果を累積する連続した複数フレームの内の 最古のフレームである。 [b a n d]は、 いずれのパンド (周波数帯域) かを示す バンド番号でもある。
そして、 現在処理の対象となっている最新のフレームの音量バッファを V 0 1 D a t a [1]とし、 処理結果を累積する連続した複数フレームの内の最古のフレ ームの音量バッファを Vo I D a t a [F r ame]とすると、 図 4に示すように, 制御部 9の C P U 9 1は、 まず、 総音量 T o t a 1 V 0 1から、 最古のフレーム の音量を減算する (ステップ S 1 1) 。
次に、 ノ ッファ Vo l D a t a [l]〜Vo l D a t a [F r ame] に格納デ 一夕を、 1バッファずつシフトする (ステツプ S 1 2) 。 例えば、 V o 1 D a t a [F r ame] =Vo I D a t a [ 5 ]である場合を例にすると、 V o 1 D a t a [4]のデータを V o l D a t a [5]にシフトし、 Vo l D a t a [3]のデー 夕を Vo l D a t a [4]にシフトし、 Vo l D a t a [2]のデータを V o 1 D a t a [3]にシフトし、 Vo l D a t a [l]のデー夕を Vo l D a t a [2]にシフ トすることになる。
そして、 解析データ抽出部 62からの最新のフレームの各パンド (周波数帯 域) のレベルデータ d a t a [ 1 ]、 d a t a [2] , d a t a [3]、 d a t a [4]、 d a t a [5]、 d a t a [6]、 d a t a [7]を合算し、 この合算結果を最新のフ レームの音量を示すデータとして、 バッファ V o 1 D a t a [1]にセットする (ステップ S 1 3 ) 。
そして、 ステップ S 1 3において求めた、 最新の処理対象のフレームの音量の 値を総音量の値を保持する T o t a 1 V o 1の値に加算することにより、 最新の フレームから過去にさかのぼる方向に総音量を計算する [F r am e]分のフレー ムを対象とした総音量が求められる (ステップ S 14) 。
このようにして、 処理対象の音声信号の総音量が算出され、 この算出された総 音量をパラメータのひとつとして用いることにより、 画像デ一夕を選択 .表示す ることができるようにされる。
なお、 上述した総音量の計算処理は、 複数の周波数帯域に分割された音声レべ ル波形から求めるようにしたが、 これ以外に、 供給された音声信号に対する音声 レベル波形から求めてもよいし、 例えば中音域のような特定の周波数帯域成分を 取り出すフィルタを用意してその帯域の音声信号に対する音声レベル波形から求 めるようにしてもよい。
次に、 図 3に示したステツプ S 2において行われるテンポ抽出処理について具 体的に説明する。 図 5は、 図 3に示したステップ S 2において行われるテンポ抽 出処理を説明するためのフローチャートである。 図 5に示すように、 ステップ S 2 1からステップ S 24までの各処理は、 帯域分割された各バンド毎の音声信号 を対象として行われる。
すなわち、 制御部 9の CPU 9 1は、 各バンド毎に、 スレツショルドを設定す る処理を行い (ステップ S 2 1) 、 例えば RAM9 3、 あるいは、 不揮発性メモ リ 94に設けられるピーク位置検出用のバッファであるピークバッファの内容の シフト処理を実行する (ステップ S 2 2) 。 そして、 ステップ S 2 1で設定した スレツショルド以上のレベルのピーク位置 (レベル変化の頂点) を抽出する処理 を行い (ステップ S 2 3) 、 抽出したピーク位置に基づいて、 各ピーク位置間の ピーク間隔 (ピーク位置間の時間間隔) を求める (ステップ S 24) 。
各バンド (帯域) 毎に行われるステップ S 2 1〜ステップ S 24までの処理の 後、 制御部 9の CPU 9 1は、 各バンド毎のピーク間隔を 1つのリストにまとめ る処理を行い、 検出頻度 (発生頻度) の最も高いピーク間隔 (ピーク周期) を再 生している音声のテンポとして特定する (ステップ S 2 5) 。
次に、 図 5に示したテンポ抽出処理のステツプ S 2 1のスレツショルド処理、 ステップ S 2 3のピーク抽出処理、 ステップ S 2 5のテンポを特定する処理のそ れぞれについてより詳細に説明する。
図 6は、 図 5に示したテンポ抽出処理のステツプ S.2 1において行われるスレ ッショルド処理を説明するためのフローチヤ一卜である。 この実施の形態におい ては、 図 3に示したステップ S 1において実行される処理に類似する処理であつ て、 帯域分割された各バンド毎に 1フレーム (4秒間) の区間にわたりそれぞれ の最大音量レベルを求め、 その値を Ma xVo l [b a n d] として保持してお く。 次の 1フレーム (4秒間) の区間に対してスレツショルド処理を行う際に、 保持されてある M a X V o 1 [b a n d] を呼び出して、 この値に、 例えば 0. 8を掛け算することにより、 最大音量 Ma xVo 1 [b a n d] の 8 0パーセン トのレベルを求め、 この求めたレベルが前の 1フレーム (4秒間) の区間に対し て求められたスレツショルド T h r e sより大きいか否かを判断する (ステツプ S 2 1 1 ) 。
ステップ S 2 1 1の判断処理において、 スレツショルド T h r e sが、 最大音 量 M a x V o 1 [b a n d] の 8 0パーセントのレベルよりも大きいと判断した 場合には、 音量が低下していると判断し、 スレツショルド Th r e sに、 当該ス レツショルド Th r e sの 9 0パ一セントのレベルを設定するようにする (ステ ップ S 2 1 2 ) 。
ステップ S 2 1 1の判断処理において、 スレツショルド T h r e sが、 音量 M a xVo l [b a n d]の 8 0パ一セントのレベルよりも小さいと判断したときに は、 音量が上がっていると判断し、 今回の新たな最大音量 M a xV o 1 [b a n d]の 8 0パ一セントのレベルをスレツショルド T h r e s に設定するようにす る (ステップ S 2 1 3 ) 。
このように、 本発明に係る力一ステレオ装置においては、 各バンド毎に音量が 低下した場合と上昇した場合との両方において、 スレツショルド Th r e sを適 切に変更することができるようにしている。 このスレツショルド Th r e sを、 音声信号のピーク位置を検出する場合の基準として用いることによって、 音声の テンポを正確に特定することができるようにしている。
次に、 図 5に示したテンポ抽出処理のステツプ S 2 3において行われるピーク 位置の抽出処理について説明する。 図 7は、 図 5に示したステップ S 2 3におい て実行されるピーク位置の抽出処理を説明するためのフローチャートである。 上 述もしたように、 この実施の形態においては、 サンプリング周波数が 20 H zの クロック信号を用い、 音声信号は、 1フレームである 4秒間に 8 0回サンプリン グされて、 そのレベルが検出するようにされる。 そして、 各サンプルについて、 図 7に示す処理が行われることになる。
まず、 制御部 9は、 現在のサンプルのレベルが、 図 6を用いて説明したように して設定されるスレツショルド Th r e sを下回っているか否かを判断する (ス テツプ S 23 1) 。 このステップ S 2 3 1の判断処理において、 現在のサンプル のレベルが、 スレツショルド Th r e sを下回っていないと判断したときには、 現在のサンプルのレベルが最大値である可能性があるので、 既に最大値の候補と して仮登録されているレベルと現在のサンプルのレベルとを比較し、 現在のサン プルのレベルの方が高いか否かを判断する (ステップ S 2 3 2 ) 。
ステップ S 2 3 2の判断処理において、 現在のサンプルのレベルよりも、 既に 登録されている最大値の候補のレベルの方が高ければ、 何もすることなく、 この 図 7に示す処理を抜ける。 ステップ S 2 3 2の判断処理において、 現在のサンプ ルのレベルの方が、 仮登録されている最大値の候補のレベルよりも高い場合には, 現在のサンプルのレベルと当該サンプルの位置を仮登録し (ステップ S 2 3 3 ) 、 この図 7に示す処理を抜ける。 なお、 仮登録は、 例えば、 R A M 9 3、 あるいは、 不揮発性メモリ 9 4の仮登録エリアにする。
また、 ステップ S 2 3 1の判断処理において、 現在のサンプルのレベルが、 ス レツショルド T h r e sを下回っていると判断したときには、 ステップ S 2 3 3 において仮登録したレベルのサンプル位置は、 現在の処理対象のフレーム内か否 かを判断する (ステップ S 2 3 4 ) 。
ステップ S 2 3 4の判断処理において、 仮登録したレベルのサンプル位置は、 現在の処理対象のフレーム内ではないと判断したときには、 処理の対象となって いるフレームが次のフレームに移っているので、 何もすることなく、 この図 7に 示す処理を抜けるようにする。
ステップ S 2 3 4の判断処理において、 仮登録したレベルのサンプル位置は、 現在の処理対象のフレーム内であると判断したときには、 ピークの候補として仮 登録したレベルとそのサンプリング位置とを、 ピークレベル及びピーク位置とし て、 所定のエリア (最大値位置情報エリア) に追加記録するとともに、 ピークの 数を 1カウントし、 この図 7に示す処理を抜ける。
このように、 本発明に係るカーステレオ装置においては、 自己相関の算出を行 うことなく、 比較的に簡単な比較処理だけで、 ピークレベルを検出し、 そのピー クレベルの位置 (ピーク位置) を抽出することができるようにしている。
そして、 この力一ステレオ装置においては、 図 7に示した処理が、 図 5に示し た処理のステツプ S 2 3において行われることにより得られるピーク位置に基づ いて、 図 5に示したステップ S 2 4においては、 ピーク間隔 (ピーク位置間の時 間間隔) が求められる。
図 8は、 本発明において行われるピーク間隔の検出処理を説明するための図で ある。 図 8に示すように、 1フレーム内において、 スレツショルド T h r e s以 上のピーク位置 (ピーク点) が 4つ存在する場合を例にして、 ピーク間隔を求め る処理について説明する。
制御部 9は、 例えば、 R A M 9 3あるいは不揮発性メモリに記憶保持されたピ —ク位置を示す情報に基づいて、 図 8において、 アルファベット A、 B、 C、 D、 E、 Fが示すように、 同じ区間が重複することがないように、 ピーク間隔を求め る。
図 8に示した例では、 4つのピーク位置のそれぞれを基準にして、 他のピーク 位置との間隔を求めるようにする。 しかし、 基準となるピーク位置と他のピーク 位置とが逆になるだけの区間は、 区間の重複となるので、 実質的に区間が重複す る場合には、 その一方だけを生かすように処理する。
したがって、 図 8に示した例の場合には、 4つのピーク位置のそれぞれについ て、 他の 3つのピーク位置との間でピーク間隔が求められるので、 1 2個のピー ク間隔を検出することができるが、 重複する区間については、 そのうちの 1つし か生かさないようにすることによって、 図 8に示すように、 6つのピーク間隔 A、 B、 C、 D、 E、 Fが検出できる。
この処理は、 処理対象のフレーム区間の各バンドのレベルデータを対象として 行われる。 そして、 当該処理対象のフレーム区間の各バンドにおける求められた ピーク間隔をピーク間隔 (周期) リスト (以下、 周期リストという。 ) に展開し、 この周期リストに基づいて、 再生するようにしている楽曲のテンポが決定 (特 定) するようにされる。
図 9は、 図 5に示したステップ S 2 5において実行される周期リスト作成及び テンポ決定処理を説明するためのフローチャートである。 図 9に示すフローチヤ —卜の処理は、 制御部 9において実行される処理である。
まず、 制御部 9は、 現在、 音量がゼロであるか否かを判断する (ステップ S 2 5 1 ) 。 この判断は、 前述した総音量 T o t a 1 V o 1をチェックすることによ り行うこともできるし、 また、 別途に、 入力音声信号についての音量レベルを検 出し、 これをチェックするようにしてもよい。
なお、 音量が完全にゼロにならない場合もあることを想定し、 ステップ S 2 5 1の処理においては、 例えば、 規定スレツショルド以下の音声レベルの音声信号 が規定サンプル以上続いた場合には、 音量がゼロになった、 すなわち、 楽曲の再 生が終了したと判断するようにしてもよい。
ステップ S 2 5 1の判断処理において、 音量がゼロでないと判断したときには、 制御部 9は、 図 7を用いて前述したようにして求められるすべてのピーク間隔を スコアに重み付けをしながら周期リストに展開する (ステップ S 2 5 2 ) 。 周期 リストは、 例えば、 図 1 0に示すように、 横軸をピーク間隔、 縦軸をスコア (検 出数) として、 処理対象のフレーム区間における各バンドにおいて検出した各ピ ーク間隔について、 その検出回数を累積するようにするものである。
ここで、 重み付けは、 各パンド毎、 ピーク間隔の大小により所定の値を予め設 定しておく。 例えば、 高音域のバンドに対する重み付けを、 中音域のバンドに対 する重み付けよりも小さい値とするようにしてもよい。 あるいは、 各パンドに対 する重み付けを同一の値とするようにしてもよい。
なお、 この例においては、 図 1 0に示したように、 各バンド毎の重み付けを W 1、 W 2、 W 3、 …で示し、 ピーク間隔毎の重み付けを A A、 B Bで示している ここでスコアの計算例は次のようになる。
ピーク間隔 B、 Eのスコア- A A * ( 1バンド目スコア * W 1 + 2バンド目スコ ァ * W 2 + ' · · + 6バンド目スコア * W 6 + 7バンド目スコア * W 7 )
この例においては、 ピーク間隔毎の重み付けと各バンド毎の重み付けとを行う ことにより、 各ピーク間隔のスコアを得るようにしている。
そして、 図 9に示した周期リストにおいては、 図 8を用いて説明したように検 出されるピーク間隔の内、 同じ間隔であるピーク間隔 B、 Eの検出回数が最も多 く検出されていることがわかる。 制御部 9は、 作成した周期リストから、 検出回 数、 すなわち積み上げられたスコアの最も高いピーク間隔をテンポとして決定 (特定) する (ステップ S 2 5 3 ) 。
次に、 制御部 9は、 周期リストのスコアの最大値が予め決められた規定値を超 えているか否かを判断する (ステップ S 2 5 4 ) 。 テンポの決定は、 周期リスト に基づいて迅速に行わなければならないので、 周期リストに必要以上のデータを 蓄積することは、 処理の遅延、 メモリの無駄使い等につながる可能性があるため 望ましくない。
ステップ S 2 5 4の判断処理において、 周期リス卜のスコアの最大値が予め決 められた規定値を超えていない場合には、 図 9に示す処理を終了する。 また、 ス テツプ S 2 5 4の判断処理において、 周期リストのスコアの最大値が予め決めら れた規定値を超えていると判断した場合には、 周期リストのデ一夕についての足 切り処理を行い (ステップ S 2 5 5 ) 、 この後、 この図 9に示す処理を終了する c ステップ S 2 5 5において行われる周期リストの足切りは、 上述もし、 また、 図 1 1にも示すように、 累積されていく各ピーク間隔のスコアが、 規定値を超え た場合に行われる。 具体的には、 周期リストの各ピーク間隔のスコアから所定ス コア分を減算するようにしたり、 あるいは、 周期リストに展開したデ一夕のうち、 例えば、 一番古いフレームの各ピーク間隔のスコアを差し引くようにしたり、 あ るいは、 一番古いフレームから新しいフレーム方向に複数フレーム分のピーク間 隔のスコアを差し引くようにすることにより行われる。
また、 図 9に示したステップ S 2 5 1の判断処理において、 音量がゼロである と判断したときには、 楽曲の再生が終わったと判断することができるので、 図 1 0に示したように作成される周期リストをリセットし (ステップ S 2 5 6 ) 、 新 たに再生される楽曲のテンポの解析処理に備えるようにして、 この図 9に示す処 理を終了する。
なお、 このカーステレオ装置において、 制御部 9は、 各フレームにおいて検出 されるそのフレームにおける検出頻度の最も高いピーク間隔を示す情報が、 複数 フレーム分、 例えば 1 0 0 0フレーム分蓄積するようにされる。 例えば、 図 1 2 に示すように、 各フレームの検出頻度の最も高いピーク間隔を示すデータが保持 するようにされる。
このように、 処理対象となった過去のフレームについても、 ピーク間隔を示す 情報を保持しておくことにより、 例えば、 あるフレームで突然ピーク間隔が大き く変わったような場合であっても、 その前後のフレームのピーク間隔を示す情報 を参照することによって、 ピーク間隔の突然の変動に大きな影響を受けることな く、 適正に再生対象の楽曲のテンポを決定することができるようにされる。
そして、 本発明に係るカーステレオ装置において、 制御部 9は、 上述のように して、 再生対象の楽曲のテンポを決定すると、 その決定したテンポに応じて、 R O M 9 2に保持されている例えば静止画像の画像データを読み出し、 この読み出 した画像デ一夕による静止画像を L CD 1 0に表示するようにしている。
このカーステレオ装置において、 L CD 1 0に表示される静止画像は、 再生し ている楽曲のテンポと音量とに基づいて決められる。 すなわち、 図 1 3に示すよ うに、 横軸をテンポとし、 縦軸を音量とする座標平面を想定し、 この平面上に 9 ブロック X 9ブロックの領域を設けるようにする。
そして、 テンポと音量とにより決まるブロックに対応して、 画像を形成する画 像デ一夕が一意に決まるようにしている。 つまり、 図 1 3に示した 8 1個のブロ ックのそれぞれに対して、 所定の画像を形成する画像データが決まるようにされ ている。
したがって、 例えば、 図 1 3に示したように、 テンポ TPと、 音量 Vがわかれ ば、 これで示される座標 (ΤΡ, V) が属するプロックに割り当てられた画像デ —夕が ROM9 2から読み出され、 この読み出された画像デ一夕による静止画像 が、 制御部 9の制御によって、 L C D 1 0の表示画面に表示するようにされる。 なお、 ここでは、 例えば、 ROM92には、 少なくとも図 1 3に示したように 設定される 8 1ブロックのそれぞれに対応する 8 1枚の静止画像を形成する画像 データが記憶保持される。 しかし、 実際には、 図 1 3に示したいずれのブロック にも属さない場合も生じる可能性があるので、 どのプロックにも属さない場合に 用いる静止画像を形成する複数の画像データをも記憶保持し、 これを利用するこ ともできるようにされる。 したがって、 例えば ROM 92は、 この実施の形態の 場合、 1 00枚前後の静止画像の画像データが記憶保持されている。
また、 本発明に係る力一ステレオ装置においては、 LCD 1 0の表示画面に、 テンポと音量とに応じた静止画像を表示するものとして説明したが、 所定時間分 の動画像を表示したり、 所定時間分の動画を繰り返し表示するなど、 動画像の表 示を行うようにすることももちろん可能である。
さらに、 本発明に係るカーステレオ装置においては、 楽曲の再生時において、 上述したようにテンポと音量とに応じた画像を L CD 1 0の表示画面に表示する だけでなく、 例えば、 図 14において、 オブジェクト Obが示すように、 予め決 められた図形やキャラクタなどの表示オブジェクトを LCD 1 0の表示画面に表 示させ、 これを移動させるようにしている。 . この場合、 オブジェクト O bの移動パターンや移動速度などは、 例えば、 決定 されたテンポに応じて決められ、 テンポが速ければ、 激しく動かし、 テンポが遅 ければ、 ゆっくりと動かすなどというように制御することになる。 もちろん、 テ ンポと音量とにより、 移動パターンや移動速度を選択するようにしてもよい。 ま た、 表示して移動させるようにする表示オブジェクト自体についても複数個用意 しておき、 決定したテンポ、 あるいは、 決定したテンポと音量とによって、 用い る表示オブジェクトを選択するようにすることもできる。
このように、 本発明に係る力一ステレオ装置においては、 自己相関演算などの 複雑な演算処理を行うことなく、 再生する楽曲などの音声のテンポを簡単に、 し かも迅速かつ正確に特定することができるようにされる。 したがって、 カーステ レオ装置の制御部に大きな負荷をかけることなく、 再生する音声のテンポを特定 することができる。
そして、 特定したテンポに応じて L C D 1 0に表示する画像を特定し、 これを 表示してユーザに提供することができるようにされる。 また、 特定したテンポに 応じて、 表示オブジェクトを L C Dの表示画面に表示させ、 これをテンポに応じ て移動させるなどのことができるようにされる。 つまり、 物理的な情報を利用す るグラフィックイコライザとは異なり、 音楽的な情報である特定したテンポに応 じて、 画像情報を提供することができるという、 新たな態様での情報の提供がで きるようにされる。
なお、 上述した実施の形態においては、 再生する音声信号を 7つの周波数帯域 に分割して、 各帯域毎に処理するものとして説明したが、 これに限るものではな レ 分割する周波数帯域数は、 いくつでもよい。 すなわち、 必ずしも周波数帯域 を分割する必要はなく、 全周波数帯域を有する音声信号に対して上述した処理を 行うようにしてももちろんよい。
また、 処理対象の音声信号を複数の周波数帯域に分割するようにした場合であ つても、 その分割されたすベての周波数帯域の音声信号を処理対象とする必要は なく、 分割した周波数帯域の 1つ以上の帯域を選択して処理対象とするようにし てもよい。 あるいは、 バンドパスフィルタにより処理対象とする周波数帯域の音 声信号を抽出して上述した処理を行うようにしてもよい。 また、 ピーク位置の検出に際しては、 音声波形のレベルについてのスレツショ ルドを、 前フレーム区間の最大音量に基づいて算出するようにしたが、 これに限 るものではない。 音声波形についてのスレツショルドは、 所定の値を用いるよう に予め設定しておくことも可能である。 また、 選択された音量レベルなどに応じ て、 予め決められた複数の値の中から所定の値を選択してこれを用いるようにし てもよい。
前述した実施の形態においては、 ピーク間隔の検出は、 すべてのピーク位置を 基準にして、 実質的に重複する間隔は除外するようにして行うようにしたが、 こ れに限るものではない。 例えば、 各フレームの任意の 1つ以上のピーク位置を基 準にしてピーク間隔を検出するようにし、 このようにして求めたピーク期間を用 いるようにしてもよい。 すなわち、 すべてのピーク位置を基準位置として用いて, ピーク間隔を検出する必要は必ずしもない。
また、 上述した実施の形態においては、 1フレームは 4秒の期間であって、 2 0 H zのサンプリング周波数のク口ック信号を用いるものとして説明したが、 こ れに限るものではない。 フレームの時間長、 サンプリング周波数は、 力一ステレ ォ装置などの機器に搭載された C P Uの性能などに応じて、 適宜のものを選択す るようにすればよい。
さらに、 上述した実施の形態においては、 特定したテンポと総音量に応じて、
L C Dに例えば静止画像を表示するとともに、 表示オブジェクトをも表示させて、 この表示オブジェクトを移動させるようにしたが、 特定したテンポに応じた処理 は、 これに限るものではない。
例えば、 テンポが速い楽曲が再生されている場合には、 低域と高域との音域を 強調するようにしたり、 また、 テンポが遅い楽曲が再生されている場合には、 サ ラウンドモ一ドにしたり、 リバ一ブを強めにかけたりするなどの種々の調整を行 うようにしてもよい。 '
つまり、 特定したテンポに応じて、 イコライザの調整、 サラウンドモードの切 り換え、 音量 (ポリューム) の調整等の種々の制御を行うことが可能である。 上述した実施の形態においては、 本発明をカーステレオ装置に適用した例を挙 げて説明したが、 本発明はこれに限るものではない。 家庭用ステレオ装置、 C D プレーヤ、 M Dプレーヤ、 D V Dプレーヤ、 パーソナルコンピュータなどの音声 信号を再生して出力するようにする種々のオーディォ装置、 オーディォ /ビジュ アル装置にこの発明を適用することができる。
本発明を例えば家庭用ステレオ装置に適用した場合には、 特定したテンポに応 じて、 室内の照明の明るさや室温の調整などを行うようにすることも可能である t また、 上述の実施の形態においては、 音声信号の帯域分割は、 既存の集積回路 ( I C ) を用いて行うものとして説明したが、 これに限るものではない。 音声信 号の帯域分割も例えば、 制御部 9において実行されるプログラムによって行うよ うにすることもできる。
本発明は、 ソフトウェアによっても十分に実現することができる。 これを具体 的に示せば、 第 1番目のプログラムとして、 音声信号を処理する装置のコンビュ 一夕に、 供給される音声信号のレベルが、 所定の閾値より大きく、 かつ、 レベル 変化の頂点となっているピーク位置を検出する検出ステツプと、 所定の単位時間 区間において、 検出した前記ピーク位置を対象として、 少なくとも所定のピーク 位置とその他のピーク位置との間の時間間隔を検出する時間間隔検出ステップと、 検出した前記時間間隔のうち、 発生頻度の多い時間間隔に基づいて、 前記音声信 号により再生される音声のテンポを特定する特定ステップとを実行するプロダラ ムを作成し、 これを有線、 無線、 あるいは、 記録媒体を介して、 オーディオ機器 やオーディォ /ビジュアル機器に供給し、 実行できるようにすることによって本 発明に係る装置、 方法を実現することもできる。
また、 第 2番目のプログラムとして、 上述の第 1番目のプログラムにおいて、 特定ステップにおいては、 複数の前記単位時間区間において検出されるピーク位 置間の時間間隔の発生頻度を累積し、 この累積した発生頻度に基づいて、 再生さ れる音声のテンポを特定するようにするプログラムを作成することもできる。 また、 上述した力一ステレオ装置の場合と同様に、 第 3のプログラムとして、 供給される前記音声信号を複数の周波数帯域に分離する帯域分離ステップを設け、 検出ステップにおいては、 分離された前記複数の周波数帯域の少なくとも 1っ以 上の帯域毎に前記ピーク位置を検出するようにし、 時間間隔検出ステップにおい ては、 少なくとも 1つ以上の帯域毎のピーク位置を対象として、 帯域毎に、 時間 間隔を検出するようにし、 特定ステップにおいては、 少なくとも 1つ以上の帯域 毎に検出される時間間隔のうち、 発生頻度の多い時間間隔に基づいて、 再生され る音声の前記テンポを特定するようにするプログラムを作成することも可能であ る。
また、 第 4のプログラムとして、 出力しょうとする音声信号に基づいて、 出力 しょうとする音声の音量を算出する音量算出ステップと、 算出した音量を基準と して、 ピーク位置を検出する場合に用いる閾値を設定する閾値設定ステップとを 設けたプログラムを作成することも可能である。
また、 第 5のプログラムとして、 特定されたテンポに基づいて、 メモリに記憶 されている画像デ一夕の中から画像表示素子に表示する画像の画像データを抽出 する画像抽出ステップと、 抽出した画像デ一夕に応じた画像を画像表示素子に表 示する表示ステップとを設けたプログラムを作成することも可能である。
また、 第 6のプログラムとして、 特定された前記テンポに基づいて、 画像表示 素子に表示する画像の大きさ、 移動速度、 移動パターンを制御するステップを備 えたプログラムを作成することも可能である。
このように、 本発明に係るテンポ解析装置及びテンポ解析方法は、 プログラム によっても実現可能であり、 作成したプログラムは、 インターネットや電話網な どの種々の電気通信回線やデータ放送によってユーザに提供することが可能であ り、 また、 上述したステップを有するプログラムを記録した記録媒体を配布する ことによつてもユーザに提供することができる。 産業上の利用可能性 上述したように、 本発明によれば、 自己相関演算などの複雑な演算処理を行う ことなく、 楽曲などの音声のテンポを簡単かつ正確に検出することができる。 ま た、 検出したテンポに応じて情報を提供したり、 種々の制御を行ったりするなど のことができるようにされる。 八一ドウエア割り込みを使用してネットワークの 接続されたことを検出し、 さらに、 リンクを確立させるようにしたので、 システ ムの負荷を最小にすることができるとともに、 ネットヮ一クケ一プルを接続する „
PCT/JP2004/003010
24
と、 ただちにネットワークを使用することができる,

Claims

請求の範囲
1 . 入力音声信号のレベル変化のピークのうち、 所定の閾値より大きい複数のピ 一夕の位置を検出するピーク検出手段と、
所定の単位時間区間において、 前記ピーク検出手段により検出される前記ピー ク位置の間の時間間隔を検出する間隔検出手段と、
前記間隔検出手段により検出される前記時間間隔のうち、 発生頻度の多い前記 時間間隔に基づいて、 前記音声信号により再生される音声のテンポを特定する特 定手段と
を備えることを特徴とするテンポ解析装置。
2 . 前記特定手段は、 複数の前記単位時間区間において検出されるピーク位置間 の前記時間間隔の発生頻度を累積し、 この累積した発生頻度に基づいて、 再生さ れる音声の前記テンポを特定することを特徴とする請求の範囲第 1項記載のテン ポ解析装置。
3 . 前期入力信号を複数の周波数帯域に分離する帯域分離手段を備え、
前記ピーク検出手段は、 前記帯域分離手段により分離された複数の帯域のうち の少なくとも 1つ以上の帯域毎に前記ピーク位置を検出するものであり、 前記間隔検出手段は、 前記ピーク検出手段により検出される少なくとも 1っ以 上の前記帯域毎の前記ピーク位置の前記時間間隔を検出するものであり、 前記特定手段は、 少なくとも 1つ以上の前記帯域毎に検出される前記時間間隔 のうち、 発生頻度の多い時間間隔に基づいて、 再生'される音声の前記テンポを特 定する特徴とする請求の範囲第 1項記載のテンポ解析装置。
4 . 前記入力音声信号から所定の周波数帯域の音声信号を抽出する帯域抽出手段 を備え、
前記ピーク検出手段は、 前記帯域抽出手段により抽出された音声信号について 前記ピーク位置を検出することを特徴とする請求の範囲第 1項記載のテンポ解析
5 . 前記入力音声信号の音量を算出する音量算出手段と、
前記音量算出手段により算出された音量を基準として、 前記ピーク位置を検出 する場合に用いられる前記閾値を設定する閾値設定手段と
を備えることを特徴とする請求の範囲第 1項記載のテンポ解析装置。
6 . 前記帯域分離手段により分離された複数の帯域のうちの少なくとも 1つ以上 の帯域の音声信号の音量を算出する音量算出手段と、
前記音量算出手段により算出された音量を基準として、 前記ピーク位置を検出 する場合に用いる前記閾値を設定するようにした閾値設定手段と
を備えることを特徴とする請求の範囲第 3項記載のテンポ解析装置。
7 . 前記帯域抽出手段で抽出された音声信号の音量を算出する音量算出手段と、 前記音量算出手段により算出された音量を基準として、 前記ピーク位置を検出 する場合に用いる前記閾値を設定する閾値設定手段と
を備えることを特徴とする請求の範囲第 4項記載のテンポ解析装置。
8 . 画像表示素子と、
前記画像表示素子に表示可能な複数の画像の画像データを記憶する記憶手段と、 前記特定手段により特定される前記テンポに基づいて、 前記記憶手段から画像 データを選択して読み出し、 読み出した前記画像データに応じた画像を前記画像 表示素子に表示する表示制御手段と
を備えたことを特徴とする請求の範囲第 1項記載のテンポ解析装置。
9 . 前記表示手段は、 前記記憶手段から読み出す前記画像データに応じた画像を 前記画像表示素子に表示する前記画像の大きさ、 移動速度、 移動パターンの少な くとも 1つを制御することを特徴とする請求の範囲第 8項記載のテンポ解析装置。
1 0 . 前記表示手段は、 前記特定手段により特定される前記テンポと前記音量算 出手段により算出された音量とに基づいて、 前記記憶手段から画像データを選択 して読み出すことを特徴とする請求の範囲第 8項記載のテンポ解析装置。
1 1 . 入力音声信号のレベル変化のうち、 所定の閾値より大きい複数のピークの 位置を検出し、
所定の単位時間区間において、 検出した前記ピーク位置の間の時間間隔を検出 し、
検出した前記時間間隔のうち、 発生頻度の多い時間間隔に基づいて、 前記入力 音声信号により再生される音声のテンポを特定することを特徴とするテンポ解析 方法。
1 2 . 前記テンポの特定に際しては、 複数の前記単位時間区間において検出され る前記ピーク位置間の前記時間間隔の発生頻度を累積し、 この累積した発生頻度 に基づいて、 再生される音声の前記テンポを特定することを特徴とする請求の範 囲第 1 1項記載のテンポ解析方法。
1 3 . 前記入力音声信号を複数の周波数帯域に分離し、
前記ピーク位置の検出に際しては、 分離された前記複数の周波数帯域の少なく とも 1つ以上の帯域毎に前記ピーク位置を検出し、
前記時間間隔の検出に際しては、 少なくとも 1つ以上の前記帯域毎の前記ピー ク位置の前記時間間隔を検出し、
前記テンポの特定に際しては、 少なくとも 1つ以上の前記帯域毎に検出される 前記時間間隔のうち、 発生頻度の多い時間間隔に基づいて、 再生される音声の前 記テンポを特定することを特徴とする請求の範囲第 1 1項記載のテンポ解析方法 c
1 4 . 前記入力音声信号から所定の周波数帯域の音声信号を抽出し、 前記ピーク 位置を検出に際しては、 前記抽出された音声信号についての前記ピーク位置を検 出することを特徴とする請求の範囲第 1 1項記載のテンポ解析方法。
1 5 . 前記入力音声信号の音量を算出し、 算出した前記音量を基準として、 前記 ピーク位置を検出する場合に用いる前記閾値を設定することを特徴とする請求の 範囲第 1 1項記載のテンポ解析方法。
1 6 . 前記分離された複数の帯域のうちの少なくとも 1つ以上の帯域の音声信号 の音量を算出し、 算出した前記音量を基準として、 前記ピーク位置を検出する場 合に用いる前記閾値を設定することを特徴とする請求の範囲第 1 3項記載のテン ポ解析方法。
1 7 . 前記算出された前記音量の音量を算出し、 算出した前記音量を基準として、 前記ピーク位置を検出する場合に用いる前記閾値を設定することを特徴とする請 求の範囲第 1 4項記載のテンポ解析方法。
1 8 . 特定された前記テンポに基づいて、 記憶手段に記憶されている複数の画像 データの中から画像データを選択して読み出し、 読み出した前記画像データに応 じた画像を前記画像表示素子に表示することを特徴とする請求の範囲第 1 1項記 載のテンポ解析方法。
1 9 . 特定された前記テンポに基づいて、 画像表示素子に表示する画像の大きさ, 移動速度、 移動パターンを制御することを特徴とする請求の範囲第 1 8項記載の テンポ解析方法。
2 0 . 特定された前記テンポと算出された前記音量とに基づいて、 前記記憶手段 に記憶されている複数の画像デー夕を選択して読み出すことを特徴とする請求の 範囲第 1 8項記載のテンポ解析方法。
PCT/JP2004/003010 2003-03-31 2004-03-09 テンポ解析装置及びテンポ解析方法 WO2004088631A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP04718756.2A EP1610299B1 (en) 2003-03-31 2004-03-09 Tempo analysis device and tempo analysis method
CN2004800082260A CN1764940B (zh) 2003-03-31 2004-03-09 拍子分析装置和拍子分析方法
US10/551,403 US7923621B2 (en) 2003-03-31 2004-03-09 Tempo analysis device and tempo analysis method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2003094100A JP3982443B2 (ja) 2003-03-31 2003-03-31 テンポ解析装置およびテンポ解析方法
JP2003-094100 2003-03-31

Publications (1)

Publication Number Publication Date
WO2004088631A1 true WO2004088631A1 (ja) 2004-10-14

Family

ID=33127380

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2004/003010 WO2004088631A1 (ja) 2003-03-31 2004-03-09 テンポ解析装置及びテンポ解析方法

Country Status (6)

Country Link
US (1) US7923621B2 (ja)
EP (1) EP1610299B1 (ja)
JP (1) JP3982443B2 (ja)
KR (1) KR101005255B1 (ja)
CN (1) CN1764940B (ja)
WO (1) WO2004088631A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113272890A (zh) * 2019-01-07 2021-08-17 雅马哈株式会社 影像控制系统及影像控制方法

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4632678B2 (ja) * 2004-03-11 2011-02-16 日本電気株式会社 音のチューニング機能を備えた移動通信端末
JP4650662B2 (ja) * 2004-03-23 2011-03-16 ソニー株式会社 信号処理装置および信号処理方法、プログラム、並びに記録媒体
JP4940588B2 (ja) 2005-07-27 2012-05-30 ソニー株式会社 ビート抽出装置および方法、音楽同期画像表示装置および方法、テンポ値検出装置および方法、リズムトラッキング装置および方法、音楽同期表示装置および方法
KR101215937B1 (ko) * 2006-02-07 2012-12-27 엘지전자 주식회사 IOI 카운트(inter onset intervalcount) 기반 템포 추정 방법 및 이를 위한 템포 추정장치
JP4632136B2 (ja) * 2006-03-31 2011-02-16 富士フイルム株式会社 楽曲テンポ抽出方法、装置及びプログラム
JP4301270B2 (ja) 2006-09-07 2009-07-22 ヤマハ株式会社 オーディオ再生装置およびオーディオ再生方法
JP2008065905A (ja) 2006-09-07 2008-03-21 Sony Corp 再生装置、再生方法及び再生プログラム
US7645929B2 (en) * 2006-09-11 2010-01-12 Hewlett-Packard Development Company, L.P. Computational music-tempo estimation
US7659471B2 (en) * 2007-03-28 2010-02-09 Nokia Corporation System and method for music data repetition functionality
JP2009015119A (ja) * 2007-07-06 2009-01-22 Sanyo Electric Co Ltd サビ位置検出装置
JP5008766B2 (ja) * 2008-04-11 2012-08-22 パイオニア株式会社 テンポ検出装置及びテンポ検出プログラム
JP4725646B2 (ja) * 2008-12-26 2011-07-13 ヤマハ株式会社 オーディオ再生装置及びオーディオ再生方法
JP5569228B2 (ja) * 2010-08-02 2014-08-13 ソニー株式会社 テンポ検出装置、テンポ検出方法およびプログラム
CN102543052B (zh) * 2011-12-13 2015-08-05 北京百度网讯科技有限公司 一种分析音乐bpm的方法和装置
EP2845188B1 (en) 2012-04-30 2017-02-01 Nokia Technologies Oy Evaluation of downbeats from a musical audio signal
JP6017687B2 (ja) * 2012-06-29 2016-11-02 ノキア テクノロジーズ オーユー オーディオ信号分析
US8952233B1 (en) 2012-08-16 2015-02-10 Simon B. Johnson System for calculating the tempo of music
CN103839538B (zh) * 2012-11-22 2016-01-20 腾讯科技(深圳)有限公司 音乐节奏检测方法及检测装置
US9704350B1 (en) 2013-03-14 2017-07-11 Harmonix Music Systems, Inc. Musical combat game
WO2017145800A1 (ja) * 2016-02-25 2017-08-31 株式会社ソニー・インタラクティブエンタテインメント 音声解析装置、音声解析方法及びプログラム
JP6693189B2 (ja) * 2016-03-11 2020-05-13 ヤマハ株式会社 音信号処理方法
CN106503127B (zh) * 2016-10-19 2019-09-27 竹间智能科技(上海)有限公司 基于脸部动作识别的音乐数据处理方法及系统
CN106652981B (zh) * 2016-12-28 2019-09-13 广州酷狗计算机科技有限公司 Bpm检测方法及装置
WO2018129418A1 (en) * 2017-01-09 2018-07-12 Inmusic Brands, Inc. Systems and methods for selecting the visual appearance of dj media player controls using an interface
JP7105880B2 (ja) 2018-05-24 2022-07-25 ローランド株式会社 ビート音発生タイミング生成装置
CN111128232B (zh) * 2019-12-26 2022-11-15 广州酷狗计算机科技有限公司 音乐的小节信息确定方法、装置、存储介质及设备
CN113497970B (zh) * 2020-03-19 2023-04-11 字节跳动有限公司 视频处理方法、装置、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0876777A (ja) * 1994-09-05 1996-03-22 Yamaha Corp 歌唱用伴奏装置
US5614687A (en) 1995-02-20 1997-03-25 Pioneer Electronic Corporation Apparatus for detecting the number of beats
JPH10319957A (ja) * 1997-05-23 1998-12-04 Enix:Kk キャラクタ舞踏動作表示装置、方法および記録媒体
JP2000267654A (ja) * 1999-03-17 2000-09-29 Aiwa Co Ltd テンポ算出方法
JP2000276137A (ja) * 1999-03-23 2000-10-06 Yamaha Corp 音楽画像表示装置
JP2000311251A (ja) * 1999-02-26 2000-11-07 Toshiba Corp アニメーション作成装置および方法、記憶媒体
JP2002207482A (ja) * 2000-11-07 2002-07-26 Matsushita Electric Ind Co Ltd 自動演奏装置、及び自動演奏方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5005459A (en) * 1987-08-14 1991-04-09 Yamaha Corporation Musical tone visualizing apparatus which displays an image of an animated object in accordance with a musical performance
US6140565A (en) * 1998-06-08 2000-10-31 Yamaha Corporation Method of visualizing music system by combination of scenery picture and player icons
JP3066528B1 (ja) * 1999-02-26 2000-07-17 コナミ株式会社 楽曲再生システム、リズム解析方法及び記録媒体
US6323412B1 (en) * 2000-08-03 2001-11-27 Mediadome, Inc. Method and apparatus for real time tempo detection
EP1354318A1 (en) * 2000-12-22 2003-10-22 Muvee Technologies Pte Ltd System and method for media production
DE10164686B4 (de) * 2001-01-13 2007-05-31 Native Instruments Software Synthesis Gmbh Automatische Erkennung und Anpassung von Tempo und Phase von Musikstücken und darauf aufbauender interaktiver Musik-Abspieler
US6518492B2 (en) * 2001-04-13 2003-02-11 Magix Entertainment Products, Gmbh System and method of BPM determination
JP4263382B2 (ja) * 2001-05-22 2009-05-13 パイオニア株式会社 情報再生装置
JP4646099B2 (ja) * 2001-09-28 2011-03-09 パイオニア株式会社 オーディオ情報再生装置及びオーディオ情報再生システム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0876777A (ja) * 1994-09-05 1996-03-22 Yamaha Corp 歌唱用伴奏装置
US5614687A (en) 1995-02-20 1997-03-25 Pioneer Electronic Corporation Apparatus for detecting the number of beats
JPH10319957A (ja) * 1997-05-23 1998-12-04 Enix:Kk キャラクタ舞踏動作表示装置、方法および記録媒体
JP2000311251A (ja) * 1999-02-26 2000-11-07 Toshiba Corp アニメーション作成装置および方法、記憶媒体
JP2000267654A (ja) * 1999-03-17 2000-09-29 Aiwa Co Ltd テンポ算出方法
JP2000276137A (ja) * 1999-03-23 2000-10-06 Yamaha Corp 音楽画像表示装置
JP2002207482A (ja) * 2000-11-07 2002-07-26 Matsushita Electric Ind Co Ltd 自動演奏装置、及び自動演奏方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP1610299A4

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113272890A (zh) * 2019-01-07 2021-08-17 雅马哈株式会社 影像控制系统及影像控制方法

Also Published As

Publication number Publication date
EP1610299B1 (en) 2015-09-09
US7923621B2 (en) 2011-04-12
JP2004302053A (ja) 2004-10-28
KR20060002907A (ko) 2006-01-09
KR101005255B1 (ko) 2011-01-04
US20060185501A1 (en) 2006-08-24
JP3982443B2 (ja) 2007-09-26
EP1610299A1 (en) 2005-12-28
CN1764940A (zh) 2006-04-26
CN1764940B (zh) 2012-03-21
EP1610299A4 (en) 2011-04-27

Similar Documents

Publication Publication Date Title
WO2004088631A1 (ja) テンポ解析装置及びテンポ解析方法
KR100533433B1 (ko) 정보기록및재생을위한장치및방법
JP5057918B2 (ja) 電子機器およびシーン種類表示方法
US20090047003A1 (en) Playback apparatus and method
US8121307B2 (en) In-vehicle sound control system
US20120089393A1 (en) Acoustic signal processing device and method
US20110085682A1 (en) Apparatus and method for reproducing music in a portable terminal
US9047920B2 (en) Multitrack recorder and mixdown method
KR19980702887A (ko) 재생속도 변환장치
JP2002050161A (ja) マルチトラック・ディジタル録音再生装置
JPH11167396A (ja) 音声記録再生装置
JPH08263076A (ja) 歌唱練習装置
JP2002112113A (ja) 映像編集装置および記憶媒体
JP2004354583A (ja) 音楽生成装置および音楽生成方法
JP2002297200A (ja) 話速変換装置
JP2009225144A (ja) 受信装置、受信制御方法、受信制御プログラム及びその記録媒体
JP4471780B2 (ja) 音声信号処理装置及びその方法
JP2009134786A (ja) 音声再生装置、音声再生制御装置、音声再生装置の制御方法および制御プログラム
JP2010061759A (ja) 音楽記録再生装置
JP5028321B2 (ja) 音楽記録再生装置およびナビゲーション機能を有する音楽記録再生装置
JPH0613923A (ja) オーディオ再生装置
JP2000197013A (ja) レベル表示装置、記録再生装置及びコンピュ―タ読み取り可能な記憶媒体
JPH09244671A (ja) 楽音再生装置
JP2006352578A (ja) 信号処理装置、信号処理方法及び信号処理プログラム
JP2001156660A (ja) 車載音響装置及びオーディオソース切換方法

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2004718756

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 20048082260

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 2006185501

Country of ref document: US

Ref document number: 10551403

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 1020057018634

Country of ref document: KR

WWP Wipo information: published in national office

Ref document number: 2004718756

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 1020057018634

Country of ref document: KR

WWP Wipo information: published in national office

Ref document number: 10551403

Country of ref document: US