WO2017082061A1 - 調律推定装置、評価装置、およびデータ処理装置 - Google Patents

調律推定装置、評価装置、およびデータ処理装置 Download PDF

Info

Publication number
WO2017082061A1
WO2017082061A1 PCT/JP2016/081810 JP2016081810W WO2017082061A1 WO 2017082061 A1 WO2017082061 A1 WO 2017082061A1 JP 2016081810 W JP2016081810 W JP 2016081810W WO 2017082061 A1 WO2017082061 A1 WO 2017082061A1
Authority
WO
WIPO (PCT)
Prior art keywords
pitch
tuning
rhythm
input sound
unit
Prior art date
Application number
PCT/JP2016/081810
Other languages
English (en)
French (fr)
Inventor
辰弥 寺島
松本 秀一
Original Assignee
ヤマハ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヤマハ株式会社 filed Critical ヤマハ株式会社
Priority to US15/774,885 priority Critical patent/US10733900B2/en
Publication of WO2017082061A1 publication Critical patent/WO2017082061A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B15/00Teaching music
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10GREPRESENTATION OF MUSIC; RECORDING MUSIC IN NOTATION FORM; ACCESSORIES FOR MUSIC OR MUSICAL INSTRUMENTS NOT OTHERWISE PROVIDED FOR, e.g. SUPPORTS
    • G10G7/00Other auxiliary devices or accessories, e.g. conductors' batons or separate holders for resin or strings
    • G10G7/02Tuning forks or like devices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • G10H1/366Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems with means for modifying or correcting the external signal, e.g. pitch correction, reverberation, changing a singer's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/44Tuning means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/066Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/091Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for performance evaluation, i.e. judging, grading or scoring the musical qualities or faithfulness of a performance, e.g. with respect to pitch, tempo or other timings of a reference performance
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/325Musical pitch modification
    • G10H2210/331Note pitch correction, i.e. modifying a note pitch or replacing it by the closest one in a given scale
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/02Synthesis of acoustic waves

Definitions

  • the present invention relates to a technique for calculating a tuning value.
  • this invention relates to the technique of evaluating a song or musical instrument performance based on the calculated tuning value.
  • this invention relates to the technique which synthesize
  • Karaoke devices or musical instrument performance evaluation devices often have a function of analyzing and evaluating input sounds such as singing voices or performance sounds.
  • the input sound is evaluated, for example, by comparing the pitch of the singing voice or performance sound with the pitch of the guide melody to be sung or performed (for example, Patent Document 1).
  • the singer or performer adjusts the pitch of the accompaniment in units of semitones and sings or performs
  • the pitch of the singing voice or performance sound is evaluated by correcting based on the accompaniment pitch information.
  • a technology has been developed (for example, Patent Document 2).
  • JP 2005-215493 A Japanese Patent Laid-Open No. 06-295192
  • Patent Document 1 uses a guide melody as a criterion for determination, information that is a criterion for determination is required for each song or performance piece.
  • the pitch information of the changed accompaniment is necessary for proper evaluation.
  • One of the objects of the present invention is to calculate tuning information based on an input sound.
  • the first input sound acquisition unit that acquires the input sound
  • the pitch calculation unit that calculates the pitch of the input sound acquired by the first input sound acquisition unit
  • the pitch calculation A tuning value calculating unit that calculates a tuning value representing an offset between a tuning reference position serving as a tuning reference and a reference position in the first distribution based on a peak in the first distribution of pitches calculated by the unit.
  • the tuning value calculation unit may calculate a tuning value based on a peak group including a plurality of peaks in the first distribution.
  • the tuning value calculation unit may calculate the tuning value based on the positional relationship of the peak group having periodicity.
  • the tuning value calculation unit may calculate the tuning value based on the deviation amount between the peak group and a plurality of reference pitches including the tuning reference position.
  • the tuning distribution further includes a pitch converter that divides the first distribution into a plurality of distributions starting from a reference point arranged at a fixed period, and calculates the second distribution by integrating the plurality of divided distributions.
  • the calculation unit may calculate a rhythm value based on the peak of the second distribution integrated by the pitch conversion unit.
  • the interval between each of the plurality of distributions divided by the pitch conversion unit may be equal to the interval between adjacent reference pitches among the plurality of reference pitches including the tuning reference position.
  • a pitch smoothing processing unit that smoothes the second distribution and calculates the third distribution is further provided, and the tuning value calculation unit searches for the peak of the third distribution calculated by the pitch smoothing processing unit,
  • the distribution peak may be determined based on the third distribution peak.
  • an evaluation unit that calculates an evaluation value for the input sound based on a comparison between the peak group and a plurality of reference pitches including the tuning reference position is further provided, and a plurality of evaluation units are provided.
  • Each offset may be provided, and the tuning value calculation unit may calculate a tuning value based on a plurality of evaluation values calculated by a plurality of evaluation units and a tuning reference position of the plurality of evaluation units.
  • the first input sound acquisition unit that acquires the input sound
  • the pitch calculation unit that calculates the pitch of the input sound acquired by the first input sound acquisition unit
  • a plurality of evaluation units for calculating an evaluation value for an input sound based on comparison with a reference pitch at a reference tuning reference position, each tuning reference position of different evaluation units is different from each other
  • a tuning value calculation unit includes a plurality of tuning values A tuning value is calculated based on the tuning reference position of the evaluation unit that has calculated one evaluation value among a plurality of evaluation values calculated by each of the evaluation units.
  • the pitch and the plurality of reference pitches are compared with each other based on the pitch of the input sound, the plurality of reference pitches, and the tuning value calculated by the tuning value calculation unit in the predetermined evaluation section with the above-described tuning estimation device.
  • the second input sound acquisition unit that acquires the first input sound and the second input sound, the first input sound, the second input sound, and the rhythm estimation device.
  • the rhythm estimation apparatus includes a correction unit that corrects the relationship between the first input sound and the second input sound, and a synthesis unit that combines the first input sound and the second input sound corrected by the correction unit.
  • the tuning value may be calculated based on the first input sound.
  • the rhythm value estimation device calculates a first rhythm value based on the first input sound, calculates a second rhythm value based on the second input sound, and the correction unit includes the first input sound and the second input sound.
  • the relationship between the first input sound and the second input sound may be corrected based on the sound, the first rhythm value, and the second rhythm value.
  • the input sound acquisition unit that acquires the input sound
  • the pitch calculation unit that calculates the pitch of the input sound acquired by the input sound acquisition unit
  • the pitch calculation unit calculates A rhythm value calculating unit that calculates a rhythm value representing an offset between a peak in the pitch distribution and a reference defined for each pitch, for each pitch.
  • the tuning value calculation unit may calculate each tuning value for a plurality of pitches from the distribution.
  • an input sound is acquired, a pitch of the acquired input sound is calculated, and a tuning reference is based on a peak group including a plurality of peaks in the first distribution of the calculated pitch.
  • a rhythm value representing an offset between the rhythm reference position and the reference position in the first distribution is calculated.
  • tuning information can be calculated based on an input sound.
  • the tuning estimation device is a device that estimates a tuning value of a singing voice of a user who sings (hereinafter may be referred to as a singer).
  • This tuning estimation device compares a plurality of pitches determined for each predetermined period (hereinafter sometimes referred to as a reference pitch) and a pitch of a singer's singing voice (hereinafter also referred to as a singing pitch).
  • the rhythm value is calculated.
  • the tuning value can be calculated based on the singing pitch, so that the tuning value can be obtained without the pitch information of the guide melody or the changed accompaniment.
  • a rhythm estimation apparatus will be described.
  • FIG. 1 is a block diagram showing a hardware configuration of a rhythm estimation apparatus 10 according to an embodiment of the present invention.
  • the rhythm estimation apparatus 10 includes a control unit 100, a storage unit 110, an operation unit 120, a display unit 130, a communication unit 140, and a signal processing unit 150. Each of these components is connected via a bus.
  • a microphone 160 is connected to the signal processing unit 150.
  • the control unit 100 includes an arithmetic processing circuit such as a CPU.
  • the control unit 100 causes the rhythm estimation apparatus 10 to realize various functions by executing a control program 112 stored in the storage unit 110 by the CPU.
  • the realized functions include a singing voice tuning value estimation function.
  • the storage unit 110 is a storage device such as a nonvolatile memory or a hard disk.
  • the storage unit 110 stores a control program 112 for realizing the tuning estimation function.
  • the control program 112 may be provided in a state stored in a computer-readable recording medium such as a magnetic recording medium, an optical recording medium, a magneto-optical recording medium, or a semiconductor memory. In this case, the rhythm estimation device 10 only needs to include a device that reads the recording medium.
  • the control program 112 may be downloaded via a network.
  • the storage unit 110 stores input sound data 114 and tuning reference information 116 in addition to the control program 112 described above.
  • the input sound data 114 is data indicating the singing voice input from the microphone 160 by the singer.
  • the input sound data 114 is buffered in the storage unit 110 until the tuning value of the singing voice is calculated by the tuning estimation function.
  • the tuning reference information 116 is information used as a reference for calculating the tuning value of the singing voice by the tuning estimation function unit 200 described later.
  • the tuning reference information 116 defines a reference pitch to be compared with the singing pitch.
  • the reference pitch is defined as a plurality of pitches.
  • the reference pitch includes 440 Hz, which is the tuning reference position, and is defined at 100 cent intervals with 440 Hz as a reference. When the tuning reference position is shifted from 440 Hz depending on the music, for example, when the tuning reference position is 442 Hz, the reference pitch may be defined at 100 cent intervals based on 442 Hz.
  • the operation unit 120 is a device such as operation buttons, a keyboard, and a mouse provided on an operation panel and a remote controller, and outputs a signal corresponding to the input operation to the control unit 100.
  • the display unit 130 is a display device such as a liquid crystal display or an organic EL display, and displays a screen based on control by the control unit 100.
  • the operation unit 120 and the display unit 130 may be a touch panel in which the operation unit 120 and the display unit 130 are integrated.
  • the communication unit 140 is connected to a communication line such as the Internet and transmits / receives information to / from an external device such as a server.
  • the function of the storage unit 110 may be realized by an external device that can communicate with the communication unit 140.
  • the signal processing unit 150 includes an A / D converter.
  • the singing voice is converted into an electric signal by the microphone 160 and input to the signal processing unit 150, and A / D converted by the signal processing unit 150 and output to the control unit 100.
  • the singing voice is buffered in the storage unit 110 as singing voice data.
  • the rhythm estimation function unit will be described.
  • the function of the rhythm estimation function unit is realized by the control unit 100 of the rhythm estimation apparatus 10 executing the control program 112.
  • a part or all of the configuration for realizing the rhythm estimation function unit described below may be realized by hardware.
  • FIG. 2 is a block diagram showing a functional configuration of the tuning function in one embodiment of the present invention.
  • the rhythm estimation function unit 200 includes an input sound acquisition unit 210, a pitch calculation unit 220, and a rhythm value calculation unit 230.
  • the input sound acquisition unit 210 acquires singing voice data (input sound) indicating the singing voice input from the microphone 160.
  • the input sound acquisition unit 210 acquires the singing voice data buffered in the storage unit 110.
  • the singing voice data may be acquired after the singing voice data of the entire song is stored in the storage unit 110. Singing voice data may be acquired directly from the signal processing unit 150.
  • the input sound acquisition unit 210 is not limited to acquiring the singing voice data indicating the input sound to the microphone 160, and the singing voice data indicating the input sound to the external device may be acquired via the network by the communication unit 140. Good.
  • the pitch calculation unit 220 analyzes the singing voice data acquired by the input sound acquisition unit 210, and calculates a temporal change of the singing pitch (frequency), that is, a singing pitch waveform.
  • the singing pitch waveform is calculated by a known method such as a method using the zero cross of the waveform of the singing voice or a method using FFT (Fast Fourier Transform).
  • FIG. 3 is a diagram illustrating an example of the acquired pitch in the tuning method according to the embodiment of the present invention.
  • the waveform shown in FIG. 3 is an example of the singing pitch waveform 300 in a part of the singing.
  • the vertical axis 310 indicates the pitch. Broken lines arranged every 100 cents in the pitch direction indicate a plurality of reference pitches 330.
  • the horizontal axis 320 shows the passage of time. The symbols S, F, K, and V in FIG. 3 will be described in detail later.
  • the tuning value calculation unit 230 calculates a tuning value based on a peak group including a plurality of peaks in the frequency distribution (first distribution) of the singing pitch calculated by the pitch calculation unit 220.
  • the first distribution is obtained based on the singing pitch waveform 300 shown in FIG.
  • the tuning value calculation unit 230 divides the pitch in units of a predetermined pitch width (for example, 2 cent), and the frequency of the singing pitch in each divided pitch range, that is, the singing pitch in each pitch range.
  • the frequency distribution is calculated by calculating the number of samples included.
  • the tuning value calculation unit 230 calculates a tuning value based on deviation amounts (offset values) between a plurality of peak positions in the calculated frequency distribution and a plurality of reference pitches set for the frequency distribution. .
  • a specific method for calculating the tuning value will be described below.
  • FIG. 4 is a diagram showing a frequency distribution of pitches calculated in the tuning method according to the embodiment of the present invention.
  • the horizontal axis 420 indicates the pitch (each pitch range) in cent display, and the vertical axis 410 indicates the frequency in each pitch range.
  • Broken lines arranged at predetermined intervals in the direction of the horizontal axis 420 indicate a plurality of reference pitches 430.
  • the reference pitch 430 is arranged at an interval of 100 cent.
  • the first distribution 400 has a peak group including peaks 340, 350, and 360 near each reference pitch 430. This is because the singer tends to sing along with the accompaniment, so the singing pitch tends to concentrate near the reference pitch 430.
  • the tuning reference position 432 serving as a tuning reference is 440 Hz.
  • the peak 350 corresponding to the tuning reference position 432 in the peak group is also 440 Hz.
  • the peak 350 corresponds to the reference position in the first distribution 400.
  • FIG. 5 is a diagram illustrating an example of a tuning value calculation method in the tuning method according to the embodiment of the present invention.
  • FIG. 5 shows a case where a plurality of peaks 340, 350, 360 and the reference pitch 430 are shifted.
  • the horizontal axis 420 in FIG. 5 indicates the pitch (each pitch range) in cent display
  • the vertical axis 410 indicates the frequency in each pitch range.
  • the tuning reference position 432 is 440 Hz
  • the peak 350 is shifted from 440 Hz. That is, the offset 436 is provided between the tuning reference position 432 and the peak 350 corresponding to the reference position in the first distribution 400.
  • This deviation amount (offset value) is calculated as a tuning value.
  • the tuning value is calculated based on the positional relationship between the plurality of peaks 340, 350, 360 and the reference pitch 430 corresponding to these peaks, but the present invention is not limited to this example.
  • the tuning value may be calculated based on the positional relationship between the position based on the shape of peaks (convex distribution) including each of the peaks 340, 350, and 360 and the reference pitch 430 corresponding to these peaks.
  • the deviation amount between the average value of the Gaussian distribution obtained based on the shape of the peak including the peak 340 and the reference pitch 430 corresponding to the peak may be calculated as the tuning value.
  • the tuning value may be calculated as follows. (1) The amount of deviation between the highest peak and the reference pitch 430 corresponding to the peak is used as the tuning value. (2) The average value of the deviation amounts from the reference pitch 430 for each peak is used as the tuning value. (3) The height of each peak is added or multiplied as a weight to the amount of deviation from the reference pitch 430 for each peak, and the average value of the amount of deviation taking the weight into account is used as the tuning value. (4) By calculating the amount of deviation from the reference pitch 430 for each peak as the rhythm value of each pitch played, the tone harmonic value of the instrument subjected to stretch tuning is calculated.
  • a tuning value for each scale is calculated for a piano, and a tuning value for each string is calculated for a guitar.
  • the program has a recommended stretch tuning value in advance, based on the amount of deviation from the recommended tuning value, for example, the user who has raised the A5 tuning by 5 cents Can sound like a brightly reverberating performance.
  • rhythm estimation function unit 200 may be provided in one computer.
  • the rhythm estimation function unit 200 described above may be provided in a plurality of computers. That is, the functions of the input sound acquisition unit 210, the pitch calculation unit 220, and the tuning value calculation unit 230 may be realized by cooperation of the plurality of computers.
  • some or all of the input sound acquisition unit 210, the pitch calculation unit 220, and the rhythm value calculation unit 230 are provided in different computers, and these computers perform data communication via a network, thereby performing rhythm estimation.
  • the function as the function unit 200 may be realized.
  • the rhythm value can be calculated based on the peak group in the frequency distribution of the pitch, so that the guide melody or the changed accompaniment sound is obtained. Even if there is no high information, tuning information can be calculated based on the input sound.
  • the first distribution 400 shown in FIG. 4 may be calculated after the noise is removed.
  • a pitch (a short pitch of a predetermined time or less) acquired in small pieces may be determined as noise, and noise removal processing may be performed so as not to be included in the first distribution 400.
  • noise removal processing is performed so as not to be included in the first distribution 400.
  • an area where the pitch variation of the input sound is stable within a predetermined variation may be determined as the rhythm estimation area, and the first distribution 400 may be calculated based on the pitch of this area.
  • a place where the pitch of the input sound is horizontal may be determined as a rhythm estimation region, and the first distribution 400 may be calculated based on the pitch of this region.
  • the horizontal pitch means that the pitch during the predetermined period does not vary, or the rate of fluctuation of the pitch during the predetermined period is below a certain level.
  • the rhythm estimation area may be determined from the MIDI data.
  • FIG. 6 is a block diagram showing a functional configuration of the tuning function in one embodiment of the present invention.
  • the tuning estimation function unit 200A is different from the tuning estimation device 10 according to the first embodiment in that a pitch conversion unit 240A is provided between the pitch calculation unit 220A and the tuning value calculation unit 230A.
  • the pitch converter 240A divides the first distribution 400 shown in FIG. 4 into a plurality of distributions, and calculates the second distribution by integrating the plurality of divided distributions.
  • Each of the plurality of distributions is a distribution starting from reference points arranged at a constant period in the first distribution 400.
  • FIG. 7 is a diagram illustrating an example of a conversion method from the first distribution to the second distribution by the pitch conversion unit in the tuning method according to the embodiment of the present invention. Specifically, referring to FIG. 7, first, as shown in FIGS. 7A and 7B, the pitch converter 240 ⁇ / b> A is a reference in which the first distribution 400 shown in FIG. 4 is arranged at a constant period.
  • a plurality of distributions 450 (distributions 450-1, 450-2, 450-3, 450-4, 450-3, 450-3, 450-3, 450-3, 450-3, 450-3, 450-3, 450-3, 450-3, 450-3, 450-3, 450-3, 450-3, 450-3, 450-3, 450-3, 450-3, 450-3, 450-3, 450-3, 450-3, 450-3, 450-3, 450-3, 450-3, 450-3, 450-3, 450-3, 450-3, 450-3, 450-3, 450-3, 450-3, 450-3, 450-3, 450-3, 450-3, 450-3, 450-3, 450-3, 450-3, 450-3, 450-3, 450-3, 450-3, 450-3, 450-3, 450-3, 450-3, 450-3, 450-3, 450-3, 450-3, 450-3, 450-3, 450-3,
  • the pitch conversion unit 240A integrates the plurality of divided distributions 450 by converting the horizontal axis so that the reference pitches 430 that are the respective start points coincide.
  • FIG. 7C shows an example in which only the distributions 450-1, 450-2, 450-3, and 450-4 are integrated for convenience of explanation. Of course, all the divided distributions are included. It may be integrated.
  • the pitch conversion unit 240A sets the pitch value of the first distribution 400 shown in FIG. It is also possible to divide the divided remainder into a plurality of distributions 450 with the horizontal axis as the horizontal axis, and to integrate the plurality of divided distributions 450. That is, conversion from the horizontal axis P of the first distribution 400 to the horizontal axis X A of the second distribution 450 can be calculated by the following equation.
  • FIG. 8 is a diagram showing an example of the integrated second distribution in the tuning method according to the embodiment of the present invention.
  • the second distribution 460 obtained by integrating the plurality of divided distributions 450 shown in FIG. 7 is a frequency distribution having a high frequency at both ends and a low frequency near the center. This is because the pitch converter 240A divides the first distribution 400 near its peak.
  • both ends of the second distribution 460 correspond to the reference pitch 430 in FIG.
  • the left end of the second distribution 460 is referred to as a reference pitch 430L, and the right end is referred to as a reference pitch 430R.
  • the integrated second distribution 460 has an integrated peak 470 (peak of the second distribution 460) in the vicinity of the reference pitch 430L. In this way, the pitch conversion unit 240A generates a distribution reflecting the periodicity of the peak group of the first distribution 400.
  • the tuning value calculation unit 230A calculates a tuning value based on the integrated second distribution 460 of FIG. Specifically, the rhythm value is calculated based on the accumulated peak 470 and the amount of deviation in the plus direction from the reference pitch 430L or the amount of deviation in the minus direction from 430R with respect to the accumulated second distribution 460. That is, the tuning value represents a relative shift amount from the reference pitch 430.
  • the divided sections of the plurality of distributions 450 are defined as the intervals of the adjacent reference pitches 430.
  • the sections of the distribution 450 may be intervals of the plurality of reference pitches 430. In this case, since the distribution 450 includes a plurality of peaks, the rhythm value may be calculated by the same method as in the above (1) to (4).
  • the rhythm value can be calculated based on the peak group in the frequency distribution of the pitch, so that the guide melody or the changed accompaniment sound is obtained. Even if there is no high information, tuning information can be calculated based on the input sound. Since the rhythm value can be calculated based on the second distribution 460 reflecting the periodicity of the first distribution 400, a more accurate rhythm value can be calculated.
  • FIG. 9 is a block diagram showing a functional configuration of the tuning function in one embodiment of the present invention.
  • the tuning estimation function unit 200B is different from the tuning estimation device 10A according to the second embodiment in that a pitch smoothing processing unit 250B is provided between the pitch conversion unit 240B and the tuning value calculation unit 230B.
  • FIG. 10 is a diagram illustrating an example of the integrated second distribution in the tuning method according to the embodiment of the present invention.
  • FIG. 11 is a diagram illustrating an example of the third distribution smoothed in the tuning method according to the embodiment of the present invention.
  • the pitch smoothing processing unit 250B smoothes the integrated second distribution 460B shown in FIG. 10 to obtain a third distribution 480B shown in FIG.
  • a moving average, a low-pass filter, or the like can be used as the smoothing process.
  • the rhythm value is calculated using the noise peak 462B instead of the second peak 470B. Even in such a case, the noise peak 462B is removed or made invisible by the smoothing by the pitch smoothing processing unit 250B.
  • the tuning value calculation unit 230B calculates a tuning value based on the smooth peak 490B (the peak of the third distribution 480B).
  • the rhythm value can be calculated based on the peak group in the frequency distribution of the pitch, so the guide melody or the changed accompaniment sound Even if there is no high information, tuning information can be calculated based on the input sound.
  • the smoothing process is used to reduce the influence of noise, but the present invention is not limited to this method.
  • the slope value of the shape of the second distribution 460B with respect to the horizontal axis is calculated, and when the slope value is out of a predetermined range, the region is excluded from the rhythm value calculation target. Also good.
  • the inclination value may be an inclination between adjacent pitches, or may be an inclination based on a plurality of pitches.
  • the smoothing process is performed on the second distribution 460B, but the present invention is not limited to this method.
  • the smoothing process may be performed on the first distribution 400 illustrated in FIGS. 4 and 5. After the smoothing process is performed on the first distribution 400, the first distribution 400 may be divided into a plurality of distributions and integrated to generate the second distribution 460B.
  • the fourth embodiment an example will be described in which the peaks used for the tuning value calculation are narrowed down based on the smooth peak 490B shown in FIG. Since the hardware configuration of the rhythm estimation device and the configuration of the rhythm estimation function unit are the same as those in the third embodiment, description thereof is omitted here.
  • the third distribution 480B including the smooth peak 490B is calculated by the smoothing process, and the second distribution shown in FIG. 10 is limited to the region corresponding to the position of the smooth peak 490B.
  • the peak at 460B is searched.
  • the region corresponding to the position of the smooth peak 490B may be, for example, a region including a predetermined range from the position of the smooth peak 490B.
  • the region including the predetermined range may be a region of 10 cents above and below based on the smooth peak 490B.
  • the region including the predetermined range may be a region of an average value ⁇ standard deviation ( ⁇ ) of a Gaussian distribution including the smooth peak 490B.
  • the region in which the peak of the second distribution 460B is searched may change according to the pitch width used for the calculation of the smoothing process (that is, how many units of the smoothing process are performed). In other words, when the pitch width used for the calculation of the smoothing process is increased, the search range is set wider accordingly.
  • the search area is 4 centimeters above and below the smooth peak 490B, and when the smoothing process is performed in units of 10 cents, the search area is based on the smooth peak 490B.
  • the search area may be automatically set in accordance with the unit for performing the smoothing process so as to be the upper and lower 10 cent area.
  • the rhythm estimation device since the rhythm value can be calculated based on the peak group in the frequency distribution of the pitch, the pitch of the guide melody or the changed accompaniment is obtained. Even if there is no information, tuning information can be calculated based on the input sound. By calculating the rhythm value using the peaks in the narrowed area based on the smoothed distribution, it is possible to calculate the rhythm value with high accuracy while suppressing abnormal values due to sudden noise. can do.
  • FIG. 12 is a block diagram showing the configuration of the tuning function in one embodiment of the present invention.
  • the rhythm estimation function unit 200C is provided with a plurality of evaluation units 260C (260C-1 to 260C-5) between the pitch calculation unit 220C and the rhythm value calculation unit 230C, so that the rhythm estimation according to the first embodiment is performed. Different from the device 10.
  • the plurality of evaluation units 260C have different evaluation criteria.
  • the input sound is evaluated based on each evaluation criterion, and a different evaluation value is calculated for each evaluation unit 260C.
  • a tuning value is calculated based on the plurality of calculated evaluation values.
  • a method for calculating the evaluation value and the tuning value will be described in detail.
  • FIG. 13 is a diagram illustrating an example of an evaluation method by the evaluation unit in the tuning method according to the embodiment of the present invention.
  • the evaluation value calculation method by the evaluation unit 260C will be described with reference to FIG.
  • FIG. 13 shows a second distribution 460C similar to FIG.
  • the first threshold value 434L and the second threshold value 434R are provided at fixed positions from the reference pitches 430L and 430R.
  • the evaluation value is an integral value of the second distribution 460C in the first evaluation region T1 from the reference pitch 430L to the first threshold value 434L, and the second evaluation region T2 from the reference pitch 430R to the second threshold value 434R. It is obtained based on the total with the integrated value of the second distribution 460C. That is, the evaluation value increases as the second distribution 460C concentrates in the vicinity of the reference pitches 430L and 430R.
  • FIG. 14 is a diagram illustrating an example of a tuning method based on the evaluation value obtained by the evaluation unit in the tuning method according to the embodiment of the present invention.
  • the positions of the reference pitches 430L and 430R with respect to the second distribution 460C are different in the plurality of evaluation units 260C-1 to 260C-5. That is, an offset is provided for each tuning reference position in the plurality of evaluation units.
  • the second distribution 460C illustrated in FIG. 14 is the same distribution as the second distribution 460C illustrated in FIG.
  • the tuning reference position of the evaluation unit 260C-3 is set to 440 Hz
  • the tuning reference positions of the evaluation units 260C-1 and 260C-2 are set to be deviated from 440 Hz by +20 cent and +10 cent, respectively
  • the evaluation units 260C-4 and 260C- The tuning reference position of 5 may be set so as to deviate by -10 cent and -20 cent from 440 Hz, respectively.
  • the plurality of evaluation units 260C have different tuning values.
  • the evaluation units 260C-1 to 260C-5 have different positions of the reference pitch 430L with respect to the second distribution 460C, the first threshold values 434L-1 to 434L-5 and the second threshold value with respect to the second distribution 460C are used.
  • the relative positional relationship between 434R-1 to 434R-5 is different. Accordingly, the evaluation values calculated for the plurality of evaluation units 260C-1 to 260C-5 are different from each other.
  • the evaluation value is higher as the second peak 470C is closer to the reference pitch 430L or 430R, the evaluation unit 260C having the optimum tuning reference position can be determined based on the evaluation value. For example, in FIG.
  • the evaluation value of the evaluation unit 260C-2 in which the reference pitches 430L and 430R and the second peak 470 substantially coincide is the highest. Therefore, “+10 cent” is calculated as the tuning value based on the tuning reference position of the evaluation unit 260C-2 that has calculated the highest evaluation value.
  • the rhythm value calculation unit 230C calculates the rhythm value based on the plurality of evaluation values calculated by the evaluation unit 260C.
  • the tuning value may be calculated based on the tuning reference position of the evaluation unit 260C that has calculated the value.
  • the tuning value may be calculated based on the average value of the distribution.
  • the rhythm value can be calculated based on the evaluation values calculated by the plurality of evaluation units having different pitch frequency distributions and evaluation criteria. Therefore, the rhythm information can be calculated based on the input sound without the guide melody or the pitch information of the changed accompaniment. Since the evaluation value reflects a certain range of distribution, it can be made less susceptible to sudden noise and the like.
  • a rhythm estimation device capable of calculating a rhythm value with high accuracy with a small number of evaluation units by limiting the target range and performing evaluation value calculation by a plurality of evaluation units.
  • the peak used for the tuning value calculation is narrowed down, and the evaluation value is calculated by the evaluation unit 260C in which the tuning reference position is changed in fine steps in the vicinity of the peak.
  • a rhythm value may be calculated based on this.
  • the above-described peak narrowing may be performed using a distribution smoothed in the same manner as in the fourth embodiment, or may be performed using a distribution before smoothing.
  • the rhythm value can be calculated based on the evaluation values calculated by a plurality of evaluation units having different pitch frequency distributions and evaluation criteria. Therefore, the rhythm information can be calculated based on the input sound without the guide melody or the pitch information of the changed accompaniment. Since the evaluation value is calculated for the narrowed-down area, a highly accurate tuning value can be calculated with fewer evaluation units.
  • the first threshold value 434L and the second threshold value 434R may be further subdivided. That is, for example, the first threshold value 434L may be divided into two regions, and different weighted evaluation values may be calculated for the respective regions. For example, the evaluation value may be calculated so that the evaluation value becomes higher as it is closer to the reference pitches 430L and 430R.
  • the above load may be added to the evaluation value separately for the flat side and the sharp side. That is, different weights may be given to the evaluation value of the first evaluation region T1 and the evaluation value of the second evaluation region T2. For example, the evaluation value may be matched with the listener's sense by relatively lowering the sharp evaluation value that is conspicuous in the sense of hearing.
  • a karaoke apparatus 20 (evaluation apparatus) using the rhythm estimation function unit of any of the first to sixth embodiments will be described.
  • a karaoke apparatus will be described, but it can also be applied to a musical instrument performance evaluation apparatus.
  • FIG. 15 is a block diagram showing a hardware configuration of the karaoke apparatus in one embodiment of the present invention.
  • the karaoke device 20 is different from the tune estimation device 10 shown in FIG. 1 in that the storage unit 510 includes the music data 518 and score criteria in addition to the control program 512, input sound data 514, and tune reference information 516.
  • Information 519, and a speaker 570 is connected to the signal processing unit 550.
  • the signal processing unit 550 includes a sound source that generates an audio signal from a MIDI format signal, a D / A converter, and the like.
  • the music data 518 includes data related to karaoke songs, such as guide melody data, accompaniment data, and lyrics data.
  • the guide melody data is data indicating the melody of the song.
  • Accompaniment data is data indicating the accompaniment of a song.
  • the guide melody data and accompaniment data may be data expressed in the MIDI format.
  • the accompaniment data is read by the control unit 500, D / A converted by the signal processing unit 550, and output from the speaker 570 as an accompaniment of the song. At this time, a guide melody may be output from the speaker 570.
  • the lyric data is data for displaying the lyrics of the song and data indicating the timing for changing the color of the displayed lyrics telop.
  • the score reference information 519 is information used by the evaluation function as a reference for evaluating the singing voice.
  • the score reference information 519 includes information for specifying a change in singing pitch (singing pitch waveform) for detecting a singing technique.
  • a singing technique such as vibrato, kobushi, shakuri, or fall
  • the following singing pitch waveform is shown.
  • Vibrato The pitch changes finely (within a predetermined period or less).
  • a specific example of the singing pitch waveform is indicated by “V” in FIG.
  • a specific example of vibrato detection is disclosed in Japanese Patent Application Laid-Open No. 2005-107087.
  • (B) Kobushi The pitch temporarily increases (within a predetermined time), and then returns to the original pitch.
  • An example of a specific singing pitch waveform is indicated by “K” in FIG.
  • a specific example of Kobushi detection is disclosed in Japanese Patent Laid-Open No. 2008-268370.
  • An example of a specific singing pitch waveform is indicated by “S” in FIG.
  • a specific example of shackle detection is disclosed in Japanese Patent Laid-Open No. 2005-107334.
  • a specific example of the singing pitch waveform is indicated by “F” in FIG.
  • a specific example of fall detection is disclosed in Japanese Patent Laid-Open No. 2008-225115.
  • FIG. 16 is a block diagram showing a functional configuration of the karaoke apparatus in one embodiment of the present invention.
  • the karaoke apparatus 20 includes an accompaniment output unit 610, a rhythm estimation function unit 200, a specific section detection unit 620, a pitch comparison unit 630, and a score calculation unit 640.
  • the accompaniment output unit 610 reads accompaniment data corresponding to the song tune designated by the singer, and causes the speaker 570 to output the accompaniment sound via the signal processing unit 550.
  • the tuning estimation function unit 200 the tuning estimation function unit 200 described in the first to sixth embodiments can be used.
  • the tuning estimation function unit 200 outputs the reference pitch, the pitch calculated by the pitch calculation unit 220, and the tuning value calculated by the tuning value calculation unit 230, and transmits them to the pitch comparison unit 630.
  • the rhythm estimation function unit 200 may output a pitch corrected by the calculated rhythm value.
  • the specific section detection unit 620 analyzes the singing pitch waveform and detects a section (specific section) including the singing technique defined by the score reference information in the singing voice input period. The specific section detected at this time may be associated with each type of singing technique.
  • the pitch comparison unit 630 sets a section excluding the specific section detected by the specific section detection unit 620 in the singing voice input period as an evaluation section.
  • the pitch comparison unit 630 compares the singing pitch with the reference pitch based on the singing pitch waveform in the evaluation section, the reference pitch, and the tuning value calculated by the tuning estimation function unit 200.
  • the singing pitch may be adjusted using the tuning value, and conversely, the reference pitch may be adjusted.
  • the adjustment of the singing pitch or the reference pitch may be performed after the song ends, or may be performed in real time during the singing.
  • the degree of mismatch between the singing pitch waveform and the reference pitch is calculated.
  • a plurality of reference pitches exist at 100 cent intervals.
  • the reference pitch closest to the singing pitch among the plurality of reference pitches is selected as a comparison target of the singing pitch.
  • the difference between the singing pitch and the reference pitch in each sample of the singing pitch waveform is added in the evaluation section, and the added value is divided by the number of samples in the evaluation section, thereby calculating the degree of inconsistency.
  • the evaluation section may be further divided into a plurality of sections, and the mismatch degree may be calculated in each section.
  • the sections divided into a plurality may have sections that are partially overlapped.
  • the score calculation unit 640 calculates a score value that serves as an index for evaluating the singing voice based on the comparison result in the pitch comparison unit 630.
  • the score calculation unit 640 may calculate the score value based on another element, instead of calculating the score value based only on the mismatch degree.
  • Other elements include singing techniques and other parameters that can be extracted from singing voice data.
  • the score value may be calculated using the singing technique corresponding to the specific section detected by the specific section detecting unit 620.
  • Another parameter is, for example, a change in volume. If volume change is used, singing intonation can be added to the evaluation.
  • the evaluation result by the score calculation unit 640 may be presented on the display unit 530.
  • the tuning value can be calculated based on the peak group in the frequency distribution of the pitch, and therefore the pitch information of the guide melody or the changed accompaniment Even if there is no rhythm, tuning information can be calculated based on the input sound.
  • the degree of inconsistency calculated by the pitch comparison unit 630 is obtained by adding the difference between the reference pitch and the singing pitch for each sample. As the difference is larger, the degree of inconsistency is further increased. May be weighted. For example, when the difference between the reference pitch and the singing pitch is 20 cent compared to 10 cent, the difference between the score values may be tripled instead of doubling. On the other hand, when the difference between the reference pitch and the singing pitch is smaller than a predetermined range (for example, when it is 2 cent or less), it may be treated as a match (difference 0 cent) and the degree of mismatch may not be increased. .
  • the difference between the reference pitch and the singing pitch may be added separately for the flat side and the sharp side. Then, the flat-side mismatch degree and the sharp-side mismatch degree may be respectively calculated. When the degree of mismatch is biased to either the flat side or the sharp side, it may be determined whether the song is out of sharpness or singing out of flatness.
  • FIG. 17 is a block diagram showing a functional configuration of the data processing apparatus according to the embodiment of the present invention.
  • the data processing device 30 includes a rhythm estimation function unit 200, an input sound acquisition unit 700, a correction unit 710, and a synthesis unit 720.
  • the tuning estimation function unit 200 the tuning estimation function unit 200 described in the first to sixth embodiments can be used.
  • the input sound acquisition unit 700 acquires two input sounds, a first input sound 702 and a second input sound 704. Among them, the first input sound 702 is transmitted to the tuning estimation function unit 200, and the tuning estimation function unit 200 calculates a tuning value 706 based on the first input sound 702.
  • the correction unit 710 corrects the relationship between the first input sound 702 and the second input sound 704 based on the rhythm value 706 calculated by the rhythm estimation function unit 200, the first input sound 702, and the second input sound 704. .
  • the synthesis unit 720 synthesizes the first input sound 712 and the second input sound 714 corrected by the correction unit 710.
  • the input sound acquisition unit 210 included in the tuning estimation function unit 200 acquires song data.
  • the pitch calculation unit 220 calculates the singing pitch for the singing data.
  • the tuning value calculation unit 230 calculates the singing data tuning value based on the distribution of the singing pitch.
  • the correction unit 710 corrects the song data based on the song data tuning value.
  • the combining unit 720 combines the corrected song data and accompaniment data.
  • the singing data is automatically corrected and synthesized with the accompaniment data based on the tuning value calculated from the acquired singing data. Therefore, it is possible to provide a data processing device that does not require extra user operations.
  • a data processing apparatus using the rhythm estimation function unit of any of the first to sixth embodiments will be described.
  • a data processing method in which a data processing apparatus corrects performance data and singing data by a musical instrument and combines them will be described. Since the hardware used in the ninth embodiment can be the same as that shown in FIG. 1, the description thereof is omitted here.
  • the functional blocks included in the data processing function unit are the same as those in FIG. Therefore, the function of the data processing apparatus according to the ninth embodiment will be described with reference to FIG.
  • FIG. 18 is a block diagram showing a functional configuration of the data processing apparatus according to the embodiment of the present invention.
  • the data processing device 30 ⁇ / b> A includes a rhythm estimation function unit 200, an input sound acquisition unit 700, a correction unit 710, and a synthesis unit 720.
  • the tuning estimation function unit 200 the tuning estimation function unit 200 described in the first to sixth embodiments can be used.
  • the input sound acquisition unit 700 acquires two input sounds, a first input sound 702 and a second input sound 704.
  • the first input sound 702 and the second input sound 704 are transmitted to the rhythm estimation function unit 200, and the rhythm estimation function unit 200 performs the second rhythm based on the first rhythm value 706 based on the first input sound 702 and the second input sound 704.
  • a value 708 is calculated.
  • the correction unit 710 Based on the first input sound 702, the second input sound 704, and the first rhythm value 706 and the second rhythm value 708 calculated by the rhythm estimation function unit 200, the correction unit 710 performs the first input sound 702 and the second input sound 702. The relationship of the input sound 704 is corrected.
  • the synthesis unit 720 synthesizes the first input sound 712 and the second input sound 714 corrected by the correction unit 710.
  • the input sound acquisition unit 210 acquires performance data and singing data.
  • the pitch calculation unit 220 calculates a performance pitch for the performance data and a singing pitch for the singing data.
  • the tuning value calculation unit 230 calculates a performance data tuning value based on the performance pitch distribution, and calculates a song data tuning value based on the song pitch distribution.
  • the correction unit 710 corrects the performance data based on the performance data tuning value, and corrects the song data based on the song data tuning value.
  • the synthesis unit 720 synthesizes the corrected performance data and singing data.
  • the performance data and singing data are automatically corrected based on the respective tuning values calculated from the acquired performance data and singing data. Since both can be combined, it is possible to provide a data processing apparatus that does not require extra user operations.
  • a rhythm estimation device that calculates a rhythm value by a method different from the first to sixth embodiments will be described.
  • a tuning value estimation method for calculating a deviation amount (tuning value) from a reference pitch for each pitch will be described.
  • the hardware used in the tenth embodiment can be the same as that in the first embodiment, the description thereof is omitted here.
  • the functional blocks that the tuning value estimation device has are the same as those in FIG. 2, but the functions that each functional block has are different. Therefore, the function of the tuning value estimation apparatus according to the tenth embodiment will be described with reference to FIG.
  • the input sound acquisition unit 210D acquires the input sound.
  • the pitch calculation unit 220D calculates the pitch of the input sound acquired by the input sound acquisition unit 210D.
  • the tuning value calculation unit 230D calculates, for each pitch, a peak tuning value in a distribution in which the pitches calculated by the pitch calculation unit 220D are integrated with respect to the reference pitch.
  • the tuning value of the entire first distribution 400 is based on the difference between part or all of the peaks 340, 350, and 360 of the first distribution 400 and the reference pitch 430 set in the vicinity thereof.
  • a method for calculating the above has been described.
  • the rhythm value is calculated individually for each pitch in the first distribution 400 in which the pitches are integrated.
  • the tuning value for the peak 340 is calculated based on the offset 436 between the peak 340 and the reference pitch 430 in the vicinity thereof.
  • a tuning value for the peak 350 is calculated based on the offset 436 between the peak 350 and the reference pitch 430 in the vicinity thereof. In this way, the tuning value may be calculated individually for each pitch.
  • a rhythm value can be calculated for each pitch based on a plurality of peaks in the frequency distribution of pitches. It is possible to detect a shift in the tuning value at high.
  • a rhythm estimation device that calculates a rhythm value by a method different from that of the first embodiment will be described.
  • the tuning method for calculating the tuning value based on the deviation amounts of the plurality of peaks 340, 350, 360 of the first distribution 400 and the plurality of reference pitches 430 has been described.
  • the shift amount between one peak (for example, peak 350) and the reference pitch 430 (for example, tuning reference position 432) among the plurality of peaks 340, 350, 360 of the first distribution 400 is set.
  • a tuning method for calculating a tuning value based on this will be described.
  • the rhythm estimation device of the eleventh embodiment calculates the rhythm value based only on the deviation amount between the rhythm reference position 432 and the peak 350 corresponding to the reference position in the first distribution 400. That is, the shift amount between the tuning reference position 432 and the peak 350 is not considered without considering the shift amount between the peak 340 and the reference pitch 430 at the corresponding position and the shift amount between the peak 360 and the corresponding reference pitch 430 at the corresponding position.
  • the tuning value is calculated based only on the above.
  • the reference pitch 430 and the peak of the first distribution 400 used for calculating the tuning value can be appropriately selected, and are not limited to the tuning reference position 432 and the peak 350 as described above.
  • a plurality of peaks in the first distribution 400 may not exist. Based on the amount of deviation between the peaks 340, 350, 360 and the reference pitch 430 corresponding to each peak, the tuning value corresponding to each peak may be calculated. That is, from the first distribution 400, a rhythm value for each pitch may be calculated for a plurality of pitches.
  • the rhythm estimation apparatus can calculate a rhythm value for a specific pitch, and can be used for tuning a musical instrument. Since it is possible to simultaneously calculate the tuning values for a plurality of pitches, the tuning time of the musical instrument can be shortened.
  • the sound indicated by the singing voice data acquired by the input sound acquisition unit 210 is not limited to the voice by the singer, but may be a voice by singing synthesis or an instrument sound. If it is a musical instrument sound, it is desirable to be a single note performance.
  • examples of techniques detected as a specific section include vibrato, staccato, bend up (shakri), bend down (fall), and slide (portamento). Of these techniques, vibrato, bend-up, bend-down, and slide with pitch change are detected in the same manner as in the embodiment. Since the pitch calculated by the pitch calculation unit 220 is affected, the specific section detected in this way is excluded from the evaluation in the evaluation section as in the case of singing.
  • timbres such as expression of notes such as trills and extremely short modified sounds, saxophone growls, guitar cutting, etc. are also detected as specific sections and excluded from evaluation because they affect the pitch acquisition accuracy. It is good also as an object of.
  • a musical instrument capable of generating complex sounds may be detected by detecting complex sounds.

Abstract

入力音に基づいて調律情報が算出される。調律推定装置は、入力音を取得する入力音取得部と、入力音取得部が取得した入力音のピッチを算出するピッチ算出部と、ピッチ算出部が算出したピッチの第1分布におけるピークに基づいて、調律の基準となる調律基準位置と第1分布における基準位置とのオフセットを表す調律値を算出する調律値算出部と、を備える。調律値算出部は、第1分布における周期的なピーク群の位置関係に基づいて調律値を算出する。

Description

調律推定装置、評価装置、およびデータ処理装置
 本発明は、調律値を算出する技術に関する。または、本発明は、算出された調律値に基づいて歌唱または楽器演奏を評価する技術に関する。または、本発明は、算出された調律値に基づいて歌唱データと演奏データとを合成する技術に関する。
 カラオケ装置又は楽器演奏評価装置には、歌唱音声又は演奏音などの入力音を解析して評価する機能が備えられていることが多い。入力音は、例えば、歌唱音声又は演奏音のピッチと歌唱又は演奏すべきガイドメロディのピッチとを比較し、これらの一致の程度に基づいて評価される(例えば、特許文献1)。また、歌唱者又は演奏者が伴奏の音高を半音単位で調整して歌唱又は演奏した場合に、伴奏の音高情報に基づいて補正されることによって、歌唱音声又は演奏音のピッチが評価される技術が開発されている(例えば、特許文献2)。
特開2005-215493号公報 特開平06-295192号公報
 しかしながら、特許文献1の技術は、ガイドメロディを判定の基準に用いるため、歌唱曲又は演奏曲ごとに判定の基準となる情報が必要である。また、歌唱者が伴奏の音高を変更して歌唱した場合や、演奏者が意図的に楽器の調律を変更した場合、その調律情報がないと適正な評価をすることができない。特許文献2の技術では、適正な評価をするためには、変更された伴奏の音高情報が必要である。
 本発明の目的の一つは、入力音に基づいて調律情報を算出することを目的とする。
 本発明の一実施形態に係る調律推定装置によると、入力音を取得する第1入力音取得部と、第1入力音取得部が取得した入力音のピッチを算出するピッチ算出部と、ピッチ算出部が算出したピッチの第1分布におけるピークに基づいて、調律の基準となる調律基準位置と第1分布における基準位置とのオフセットを表す調律値を算出する調律値算出部と、を備える。
 また、調律値算出部は、第1分布における複数のピークを含むピーク群に基づいて調律値を算出してもよい。
 また、調律値算出部は、周期性を有するピーク群の位置関係に基づいて調律値を算出してもよい。
 また、調律値算出部は、ピーク群と調律基準位置を含む複数の基準ピッチとのずれ量に基づいて調律値を算出してもよい。
 また、第1分布を一定周期で配置された基準点を始点とする複数の分布に分割し、分割された複数の分布を積算して第2分布を算出するピッチ変換部をさらに備え、調律値算出部は、ピッチ変換部によって積算された第2分布のピークに基づいて調律値を算出してもよい。
 また、ピッチ変換部によって分割された前記複数の分布の各々の区間の間隔は、調律基準位置を含む複数の基準ピッチのうち隣接する基準ピッチ間の間隔と等しくてもよい。
 また、第2分布を平滑化処理して第3分布を算出するピッチ平滑処理部をさらに備え、調律値算出部は、ピッチ平滑処理部によって算出された第3分布のピークを検索し、第2分布のピークは、第3分布のピークに基づいて決定されてもよい。
 また、ピーク群と調律基準位置を含む複数の基準ピッチとの比較に基づいて入力音に対する評価値を算出する評価部をさらに備え、評価部は複数設けられ、異なる評価部の調律基準位置にはそれぞれオフセットが設けられ、調律値算出部は、複数の評価部によって算出された複数の評価値及び前記複数の評価部の調律基準位置に基づいて調律値を算出してもよい。
 本発明の一実施形態に係る調律推定装置によると、入力音を取得する第1入力音取得部と、第1入力音取得部が取得した入力音のピッチを算出するピッチ算出部と、調律の基準となる調律基準位置における基準ピッチとの比較に基づいて入力音に対する評価値を算出する評価部を複数備え、異なる評価部の各々の調律基準位置は互いに異なり、調律値算出部は、複数の評価部の各々によって算出された複数の評価値のうち、一の評価値を算出した評価部の調律基準位置に基づいて調律値を算出する。
 また、上記の調律推定装置と、所定の評価区間において、入力音のピッチ、複数の基準ピッチ、及び調律値算出部によって算出された調律値に基づいて、ピッチと複数の基準ピッチとを比較するピッチ比較部と、ピッチ比較部によって比較された結果に基づいて、入力音に対する得点値を算出する得点計算部と、をさらに備えてもよい。
 また、上記の調律推定装置と、第1入力音及び第2入力音を取得する第2入力音取得部と、第1入力音、第2入力音、及び調律推定装置が算出した調律値に基づいて、第1入力音及び第2入力音の関係を補正する補正部と、補正部によって補正された第1入力音及び第2入力音を合成する合成部と、を有し、調律推定装置は、第1入力音に基づいて調律値を算出してもよい。
 また、調律値推定装置は、第1入力音に基づいて第1調律値を算出し、第2入力音に基づいて第2調律値を算出し、補正部は、第1入力音、第2入力音、第1調律値、及び第2調律値に基づいて、第1入力音及び第2入力音の関係を補正してもよい。
 本発明の一実施形態に係る調律推定装置によると、入力音を取得する入力音取得部と、入力音取得部が取得した入力音のピッチを算出するピッチ算出部と、ピッチ算出部が算出したピッチの分布におけるピークと音高毎に定められた基準とのオフセットを表す調律値を音高毎に算出する調律値算出部と、を備える。
 また、調律値算出部は、分布から、複数の音高に対してそれぞれの調律値を算出してもよい。
 本発明の一実施形態に係るプログラムによると、入力音を取得し、取得した入力音のピッチを算出し、算出したピッチの第1分布における複数のピークを含むピーク群に基づいて、調律の基準となる調律基準位置と第1分布における基準位置とのオフセットを表す調律値を算出する。
 本発明の一実施形態によれば、入力音に基づいて調律情報を算出することができる。
本発明の一実施形態における調律推定装置のハードウェア構成を示すブロック図である。 本発明の一実施形態における調律推定機能部の機能構成を示すブロック図である。 本発明の一実施形態における調律方法において、取得したピッチの一例を示す図である。 本発明の一実施形態における調律方法において、算出されたピッチの度数分布を示す図である。 本発明の一実施形態における調律方法において、調律値の算出方法の一例を示す図である。 本発明の一実施形態における調律推定機能部の機能構成を示すブロック図である。 本発明の一実施形態における調律方法において、ピッチ変換部による第1分布から第2分布への変換方法の一例を示す図である。 本発明の一実施形態における調律方法において、積算された第2分布の一例を示す図である。 本発明の一実施形態における調律推定機能部の機能構成を示すブロック図である。 本発明の一実施形態における調律方法において、積算された第2分布の一例を示す図である。 本発明の一実施形態における調律方法において、平滑化された第3分布の一例を示す図である。 本発明の一実施形態における調律機能の構成を示すブロック図である。 本発明の一実施形態における調律方法において、評価部による評価方法の一例を示す図である。 本発明の一実施形態における調律方法において、評価部によって得られた評価値に基づく調律方法の一例を示す図である。 本発明の一実施形態における評価装置のハードウェア構成を示すブロック図である。 本発明の一実施形態における評価装置の機能構成を示すブロック図である。 本発明の一実施形態におけるデータ処理装置の機能構成を示すブロック図である。 本発明の一実施形態におけるデータ処理装置の機能構成を示すブロック図である。
 以下、本発明の一実施形態における調律推定装置について、図面を参照しながら詳細に説明する。以下に示す実施形態は本発明の実施形態の一例であって、本発明はこれらの実施形態に限定されるものではない。
〈第1実施形態〉
 本発明の第1実施形態における調律推定装置について、図面を参照しながら詳細に説明する。第1実施形態に係る調律推定装置は、歌唱するユーザ(以下、歌唱者という場合がある)の歌唱音声の調律値を推定する装置である。この調律推定装置は、所定期間ごとに決められた複数のピッチ(以下、基準ピッチという場合がある)と、歌唱者の歌唱音声のピッチ(以下、歌唱ピッチという場合がある)とを比較して、調律値を算出する。この調律推定装置によると、歌唱ピッチに基づいて調律値を算出することができるため、ガイドメロディ又は変更された伴奏の音高情報がなくても調律値を得ることができる。以下、このような調律推定装置について説明する。
[ハードウェア]
 図1は、本発明の一実施形態における調律推定装置10のハードウェア構成を示すブロック図である。調律推定装置10は、制御部100、記憶部110、操作部120、表示部130、通信部140、及び信号処理部150を含む。これらの各構成は、バスを介して接続されている。信号処理部150にはマイクロフォン160が接続されている。
 制御部100は、CPUなどの演算処理回路を含む。制御部100は、記憶部110に記憶された制御プログラム112をCPUによって実行することで、調律推定装置10に各種機能を実現させる。実現される機能には、歌唱音声の調律値推定機能が含まれる。記憶部110は、不揮発性メモリ、ハードディスク等の記憶装置である。記憶部110は、調律推定機能を実現するための制御プログラム112を記憶する。制御プログラム112は、磁気記録媒体、光記録媒体、光磁気記録媒体、半導体メモリなどのコンピュータ読み取り可能な記録媒体に記憶した状態で提供されてもよい。この場合には、調律推定装置10は、記録媒体を読み取る装置を備えていればよい。制御プログラム112は、ネットワーク経由でダウンロードされてもよい。
 記憶部110は、上記の制御プログラム112に加えて、入力音データ114及び調律基準情報116を記憶する。入力音データ114は、歌唱者がマイクロフォン160から入力した歌唱音声を示すデータである。この例では、入力音データ114は、調律推定機能によって歌唱音声の調律値が算出されるまで、記憶部110にバッファされる。調律基準情報116は、後に説明する調律推定機能部200が歌唱音声の調律値算出の基準として用いる情報である。例えば、調律基準情報116には、歌唱ピッチと比較されるべき基準ピッチが規定されている。基準ピッチは、複数のピッチとして規定されている。この例では、基準ピッチは、調律基準位置である440Hzを含み、440Hzを基準として100cent間隔で規定されている。なお、楽曲によって調律基準位置が440Hzからずれている場合、例えば調律基準位置が442Hzである場合には、基準ピッチは442Hzを基準として100cent間隔で規定されればよい。
 操作部120は、操作パネルおよびリモコンなどに設けられた操作ボタン、キーボード、マウスなどの装置であり、入力された操作に応じた信号を制御部100に出力する。表示部130は、液晶ディスプレイ、有機ELディスプレイ等の表示装置であり、制御部100による制御に基づいた画面が表示される。なお、操作部120と表示部130とは、操作部120及び表示部130が一体化されたタッチパネルであってもよい。通信部140は、制御部100の制御に基づいて、インターネットなどの通信回線に接続して、サーバ等の外部装置と情報の送受信を行う。なお、記憶部110の機能は、通信部140において通信可能な外部装置で実現されてもよい。
 信号処理部150はA/Dコンバータを含む。歌唱音声は、マイクロフォン160において電気信号に変換されて信号処理部150に入力され、信号処理部150においてA/D変換されて制御部100に出力される。上述したように、歌唱音声は、歌唱音声データとして記憶部110にバッファされる。
[調律推定機能部]
 調律推定機能部について説明する。調律推定機能部の機能は、調律推定装置10の制御部100が制御プログラム112を実行することによって実現される。なお、以下に説明する調律推定機能部を実現する構成の一部または全部は、ハードウェアによって実現されてもよい。
 図2は、本発明の一実施形態における調律機能の機能構成を示すブロック図である。調律推定機能部200は、入力音取得部210、ピッチ算出部220、及び調律値算出部230を含む。
 入力音取得部210は、マイクロフォン160から入力された歌唱音声を示す歌唱音声データ(入力音)を取得する。なお、入力音取得部210は、記憶部110にバッファされた歌唱音声データを取得するが、記憶部110に1曲全体の歌唱音声データが記憶された後に歌唱音声データを取得してもよく、信号処理部150から歌唱音声データを直接取得してもよい。入力音取得部210は、マイクロフォン160へ入力音を示す歌唱音声データを取得する場合に限定されず、外部装置への入力音を示す歌唱音声データを、通信部140によりネットワーク経由で取得してもよい。
 ピッチ算出部220は、入力音取得部210によって取得された歌唱音声データを解析し、歌唱ピッチ(周波数)の時間的な変化、すなわち歌唱ピッチ波形を算出する。具体的には、歌唱音声の波形のゼロクロスを用いた方法、FFT(Fast Fourier Transform)を用いた方法等、公知の方法で歌唱ピッチ波形が算出される。
 図3は、本発明の一実施形態における調律方法において、取得したピッチの一例を示す図である。図3に示す波形は、歌唱の一部における歌唱ピッチ波形300の例である。縦軸310はピッチを示す。ピッチ方向に100centごとに配置された破線は複数の基準ピッチ330を示している。横軸320は時間の経過を示している。図3中のS、F、K、Vの記号については後で詳しく説明する。
 調律値算出部230は、ピッチ算出部220が算出した歌唱ピッチの度数分布(第1分布)における複数のピークを含むピーク群に基づいて調律値を算出する。ここで、第1分布は図3に示す歌唱ピッチ波形300に基づいて得られたものである。具体的には、調律値算出部230は、所定のピッチ幅(例えば、2cent)単位でピッチを区分し、この区分された各ピッチ範囲における歌唱ピッチの度数、すなわち、各ピッチ範囲における歌唱ピッチが含まれるサンプル数を算出することで度数分布を算出する。そして、調律値算出部230は、算出された度数分布における複数のピーク位置と度数分布に対して設定された複数の基準ピッチとの間のずれ量(オフセット値)に基づいて調律値を算出する。以下に調律値の具体的な算出方法について説明する。
 図4は、本発明の一実施形態における調律方法において、算出されたピッチの度数分布を示す図である。横軸420はピッチ(各ピッチ範囲)をcent表示で示し、縦軸410は各ピッチ範囲における度数を示す。横軸420方向に所定の間隔で配置された破線は複数の基準ピッチ430を示している。ここで、基準ピッチ430は100centの間隔で配置されている。図4に示すように、第1分布400は各々の基準ピッチ430付近にピーク340、350、360を含むピーク群を有している。これは、歌唱者は伴奏に合わせて歌唱しようとするため、歌唱ピッチは基準ピッチ430付近に集中する傾向があるためである。図4に示す第1分布400はピーク340、350、360とそれぞれの基準ピッチ430とのずれがほとんどない場合、つまり、調律値がほぼゼロである場合の例を示した。ここで、複数の基準ピッチ430のうち、調律の基準となる調律基準位置432は440Hzである。ピーク群のうち調律基準位置432に対応するピーク350も440Hzである。ピーク350は第1分布400における基準位置に相当する。
 図5は、本発明の一実施形態における調律方法において、調律値の算出方法の一例を示す図である。図5は、複数のピーク340、350、360と基準ピッチ430とがずれた場合を示している。図4と同様に、図5の横軸420はピッチ(各ピッチ範囲)をcent表示で示し、縦軸410は各ピッチ範囲における度数を示す。図5において、調律基準位置432は440Hzであるが、ピーク350は440Hzからずれている。つまり、調律基準位置432と第1分布400における基準位置に相当するピーク350との間にオフセット436が設けられている。換言すると、複数のピーク340、350、360はこれらのピークに対応する位置に設定された各々の基準ピッチ430に対して同一方向にずれている、ということもできる。このずれ量(オフセット値)が調律値として算出される。
 上記では、複数のピーク340、350、360とこれらのピークに対応する基準ピッチ430との位置関係に基づいて調律値が算出される例を示したが、この例に限定されない。例えば、ピーク340、350、360の各々を含む山(凸形状の分布)の形状に基づく位置とこれらの山に対応する基準ピッチ430との位置関係に基づいて調律値が算出されてもよい。例えば、ピーク340を含む山の形状に基づいて得られるガウシアン分布の平均値とその山に対応する基準ピッチ430とのずれ量が調律値として算出されてもよい。
 複数のピーク340、350、360とこれらのピークに対応する基準ピッチ430とのずれ量がそれぞれ異なる場合、以下のように調律値を算出してもよい。
(1)最も高いピークとそのピークに対応する基準ピッチ430とのずれ量を調律値とする。
(2)それぞれのピークに対する基準ピッチ430からのずれ量の平均値を調律値とする。
(3)それぞれのピークに対する基準ピッチ430からのずれ量に対して各ピークの高さを加重値として加算又は乗算し、加重値を加味したずれ量の平均値を調律値とする。
(4)それぞれのピークに対する基準ピッチ430からのずれ量を、演奏した各音高の調律値とする事でストレッチチューニングを施した楽器の音高調律値を算出する。
 上記のうち(4)の調律値の算出方法によると、例えば、ピアノなら1音階ごとの調律値が算出され、ギターなら弦ごとの調律値が算出される。このようにすることで、プログラムが予めお勧めのストレッチチューニング値を持っていれば、当該お勧めのチューニング値からのずれ量に基づいて、例えばユーザに対して「A5のチューニングを5cent上げた方が明るく響いた演奏に聞こえます。」などのコメントを提供することが可能になる。
 なお、上記の調律推定機能部200は1つのコンピュータに備えられていてもよい。又は、上記の調律推定機能部200は複数のコンピュータに備えられてもよい。つまり、入力音取得部210、ピッチ算出部220、及び調律値算出部230の機能は、当該複数のコンピュータが協働することで実現されてもよい。例えば、入力音取得部210、ピッチ算出部220、及び調律値算出部230の一部又は全部が異なるコンピュータに備えられており、これらのコンピュータがネットワークを介してデータ通信を行うことで、調律推定機能部200としての機能が実現されてもよい。
 以上のように、本発明の第1実施形態に係る調律推定装置10によると、ピッチの度数分布におけるピーク群に基づいて調律値を算出することができるため、ガイドメロディ又は変更された伴奏の音高情報がなくても入力音に基づいて調律情報を算出することができる。
 ここで、図3に示す歌唱ピッチ波形300において、ノイズが除去されてから図4に示す第1分布400が算出されてもよい。例えば、細切れに取得されたピッチ(所定の時間以下の短いピッチ)はノイズと判断し、第1分布400に含まれないようにノイズ除去処理が行われてもよい。入力音のボリュームが所定の音量以下の場合、又は入力音のボリュームのばらつきが所定のばらつき以上の場合にノイズと判断し、第1分布400に含まれないようにノイズ除去処理が行われてもよい。又は、入力音のピッチのばらつきが所定のばらつき以内に安定している領域を調律推定領域と判断し、この領域のピッチに基づいて第1分布400が算出されてもよい。又は、入力音のピッチが水平の箇所を調律推定領域と判断し、この領域のピッチに基づいて第1分布400が算出されてもよい。ここで、ピッチが水平とは、所定期間のピッチが変動しない、又は所定期間のピッチの変動率が一定以下であることを意味する。歌唱又は演奏の手本となるデータ(例えばMIDIデータ)がある場合、そのMIDIデータから調律推定領域が決定されてもよい。
〈第2実施形態〉
 本発明の第2実施形態に係る調律推定装置10Aに含まれる調律推定機能部200Aの構成及びその推定方法について図6乃至図8を用いて説明する。ここで、第2実施形態において、調律推定装置のハードウェア構成は第1実施形態と同様であるので、ここでは説明を省略する。図6は、本発明の一実施形態における調律機能の機能構成を示すブロック図である。調律推定機能部200Aはピッチ算出部220Aと調律値算出部230Aとの間にピッチ変換部240Aが設けられている点において、第1実施形態に係る調律推定装置10と相違する。
 ピッチ変換部240Aは、例えば図4に示す第1分布400を複数の分布に分割し、分割された複数の分布を積算して第2分布を算出する。上記の複数の分布の各々は、第1分布400において一定周期で配置された基準点を始点とする分布である。ここで、図7は、本発明の一実施形態における調律方法において、ピッチ変換部による第1分布から第2分布への変換方法の一例を示す図である。図7を用いて具体的に説明すると、まず、図7の(a)及び(b)に示すように、ピッチ変換部240Aは、図4に示す第1分布400を一定周期で配置された基準ピッチ430(基準ピッチ430-1、430-2、430-3を特に区別しない場合は単に基準ピッチ430という)を境界として、複数の分布450(分布450-1、450-2、450-3、450-4を特に区別しない場合は単に分布450という)に分割する。ここで、分割された複数の分布450は各々の基準ピッチ430を始点としているので、各々の分布450の横軸の幅は隣接する基準ピッチ430の間隔と同じである。つまり、各々の分布450は基準ピッチ430をゼロ点とし、100centのピッチ幅を有する度数分布である。そして、図7の(c)に示すように、ピッチ変換部240Aは、分割された複数の分布450を、各々の始点である基準ピッチ430が一致するように横軸を変換して積算する。ここで、図7の(c)では、説明の便宜上、分布450-1、450-2、450-3、450-4だけが積算された例を示したが、もちろん分割された全ての分布が積算されてもよい。
 上記の変換方法を換言すると、例えば分割された複数の分布450のピッチ幅を100centとした場合、ピッチ変換部240Aは、第1分布400を図5に示す第1分布400のピッチ値を100で割った余りの値を横軸とする複数の分布450に分割し、分割された複数の分布450を積算する、ということもできる。つまり、第1分布400の横軸Pから第2分布450の横軸XAへの変換は以下の式で計算することができる。
   XA=P・mod(100cent)
 図8は、本発明の一実施形態における調律方法において、積算された第2分布の一例を示す図である。図8に示すように、図7に示す分割された複数の分布450が積算された第2分布460は両端の度数が高く、中央付近の度数が低い度数分布である。これはピッチ変換部240Aが第1分布400をそのピーク付近で分割しているからである。ここで、第2分布460の両端は図7における基準ピッチ430に対応している。図8では第2分布460の左端を基準ピッチ430Lといい、右端を基準ピッチ430Rという。図8では、積算された第2分布460は、基準ピッチ430Lの近傍に積算ピーク470(第2分布460のピーク)を有している。このようにして、ピッチ変換部240Aは第1分布400のピーク群の周期性を反映した分布を生成する。
 調律値算出部230Aは、図8の積算された第2分布460に基づいて調律値を算出する。具体的には、調律値は、積算ピーク470及び積算された第2分布460に対する基準ピッチ430Lからのプラス方向へのずれ量又は430Rからのマイナス方向へのずれ量に基づいて算出される。つまり、調律値は基準ピッチ430からの相対的なずれ量を表している。第2実施形態では、分割された複数の分布450の区間は隣接する基準ピッチ430の間隔として定義されたが、分布450の区間は複数の基準ピッチ430毎の間隔であってもよい。この場合、分布450は複数のピークを含むため、上記(1)~(4)と同様の方法で調律値が算出されてもよい。
 以上のように、本発明の第2実施形態に係る調律推定装置10Aによると、ピッチの度数分布におけるピーク群に基づいて調律値を算出することができるため、ガイドメロディ又は変更された伴奏の音高情報がなくても入力音に基づいて調律情報を算出することができる。第1分布400の周期性を反映した第2分布460に基づいて調律値を算出することができるため、より正確な調律値を算出することができる。
〈第3実施形態〉
 本発明の第3実施形態に係る調律推定装置10Bに含まれる調律推定機能部200Bの構成及びその推定方法について図9乃至図11を用いて説明する。ここで、第3実施形態において、調律推定装置のハードウェア構成は第1実施形態と同様であるので、ここでは説明を省略する。図9は、本発明の一実施形態における調律機能の機能構成を示すブロック図である。調律推定機能部200Bはピッチ変換部240Bと調律値算出部230Bとの間にピッチ平滑処理部250Bが設けられている点において、第2実施形態に係る調律推定装置10Aと相違する。
 図10及び図11を用いて、ピッチ平滑処理部250Bの具体的な処理方法について説明する。図10は、本発明の一実施形態における調律方法において、積算された第2分布の一例を示す図である。図11は、本発明の一実施形態における調律方法において、平滑化された第3分布の一例を示す図である。ピッチ平滑処理部250Bは、図10に示す積算された第2分布460Bを平滑化処理して図11に示す第3分布480Bを得る。ここで、平滑化処理としては、移動平均やローパスフィルタなどを用いることができる。
 例えば、第2分布460Bにノイズに起因した鋭いノイズピーク462Bが含まれていると、第2ピーク470Bの代わりにノイズピーク462Bを用いて調律値が算出されてしまう。このような場合であっても、ピッチ平滑処理部250Bによる平滑化によってノイズピーク462Bが除去又は非顕在化される。そして、調律値算出部230Bは、平滑ピーク490B(第3分布480Bのピーク)に基づいて調律値を算出する。
 以上のように、本発明の第3実施形態に係る調律推定装置10Bによると、ピッチの度数分布におけるピーク群に基づいて調律値を算出することができるため、ガイドメロディ又は変更された伴奏の音高情報がなくても入力音に基づいて調律情報を算出することができる。調律値を算出するピークを検出する前に平滑化処理を行うことで、突発的なノイズによって調律値が異常値を示すことを抑制することができる。
 第3実施形態では、ノイズの影響を低減するために平滑化処理が用いられたが、この方法に限定されない。例えば、図10に示す第2分布460Bにおいて、横軸に対する第2分布460B形状の傾き値を算出し、傾き値が所定の範囲から外れた場合にその領域が調律値の計算対象から除外されてもよい。傾き値は隣接するピッチ間の傾きであってもよく、複数のピッチに基づく傾きであってもよい。第3実施形態では第2分布460Bに対して平滑化処理が行われたが、この方法に限定されない。例えば、図4及び図5に示す第1分布400に対して平滑化処理が行われてもよい。第1分布400に対して平滑化処理が行われた後に、第1分布400が複数の分布に分割され、積算されることで第2分布460Bが生成されてもよい。
〈第4実施形態〉
 第4実施形態では、図11に示す平滑ピーク490Bに基づいて調律値算出に用いるピークの絞り込みを行う例について説明する。調律推定装置のハードウェア構成及び調律推定機能部の構成に関しては第3実施形態と同様であるので、ここでは説明を省略する。第4実施形態では、第3実施形態と同様に平滑化処理によって平滑ピーク490Bを含む第3分布480Bが算出され、平滑ピーク490Bの位置に対応する領域に限定して図10に示す第2分布460Bのピークが検索される。ここで、平滑ピーク490Bの位置に対応する領域は、例えば、平滑ピーク490Bの位置から所定の範囲を含む領域であってもよい。具体的には、上記の所定の範囲を含む領域は、平滑ピーク490Bを基準に上下10centの領域であってもよい。又は、上記の所定の範囲を含む領域は、平滑ピーク490Bを含むガウシアン分布の平均値±標準偏差(σ)の領域であってもよい。第2分布460Bのピークを検索する領域は、平滑化処理の計算に用いるピッチ幅(つまり、何cent単位で平滑化処理を行うか)に応じて変化してもよい。つまり、平滑化処理の計算に用いるピッチ幅が広くなると、それに伴って上記の検索範囲も広く設定される。具体例としては、4cent単位で平滑化処理が行われる場合は検索領域を平滑ピーク490Bを基準に上下4centの領域とし、10cent単位で平滑化処理を行う場合は検索領域を平滑ピーク490Bを基準に上下10centの領域とするように、平滑化処理を行う単位に応じて検索領域が自動的に設定されてもよい。
 以上のように、本発明の第4実施形態に係る調律推定装置によると、ピッチの度数分布におけるピーク群に基づいて調律値を算出することができるため、ガイドメロディ又は変更された伴奏の音高情報がなくても入力音に基づいて調律情報を算出することができる。平滑化された分布に基づいて絞り込まれた領域におけるピークを用いて調律値を算出することで、突発的なノイズによって調律値が異常値を示すことを抑制しつつ、精度の高い調律値を算出することができる。
〈第5実施形態〉
 本発明の第5実施形態に係る調律推定装置10Cに含まれる調律推定機能部200Cの構成及びその推定方法について図12乃至図14を用いて説明する。ここで、第5実施形態において、調律推定装置のハードウェア構成は第1実施形態と同様であるので、ここでは説明を省略する。図12は、本発明の一実施形態における調律機能の構成を示すブロック図である。調律推定機能部200Cはピッチ算出部220Cと調律値算出部230Cとの間に複数の評価部260C(260C-1~260C-5)が設けられている点において、第1実施形態に係る調律推定装置10と相違する。図12に示す評価部260Cは、例えば、図4に示す複数のピーク340、350、360とそれらに対応する複数の基準ピッチ430との比較、又は図8に示す積算ピーク470と基準ピッチ430L又は430Rとの比較に基づいて、入力音に対する評価値を算出する。
 複数の評価部260Cはそれぞれ異なる評価基準を有している。入力音はそれぞれの評価基準に基づいて評価され、評価部260C毎に異なる評価値が算出される。そして、算出された複数の評価値に基づいて調律値が算出される。以下に評価値及び調律値の算出方法について詳しく説明する。
 図13は、本発明の一実施形態における調律方法において、評価部による評価方法の一例を示す図である。図13を用いて、評価部260Cによる評価値の算出方法について説明する。図13には図8と同様の第2分布460Cが示されている。図13では、基準ピッチ430L及び430Rから一定の位置に第1しきい値434L及び第2しきい値434Rが設けられている。そして評価値は、基準ピッチ430Lから第1しきい値434Lまでの第1評価領域T1の第2分布460Cの積分値と、基準ピッチ430Rから第2しきい値434Rまでの第2評価領域T2の第2分布460Cの積分値との合計に基づいて求められる。つまり、第2分布460Cが基準ピッチ430L及び430Rの付近に集中するほど評価値は高くなる。
 図14は、本発明の一実施形態における調律方法において、評価部によって得られた評価値に基づく調律方法の一例を示す図である。図14において、複数の評価部260C-1~260C-5では、第2分布460Cに対する基準ピッチ430L及び430Rの位置が異なっている。つまり、複数の評価部における調律基準位置には、それぞれオフセットが設けられている。なお、図14に示す第2分布460Cは図13に示す第2分布460Cと同じ分布である。例えば、評価部260C-3の調律基準位置を440Hzとして、評価部260C-1、260C-2の調律基準位置は、それぞれ440Hzから+20cent、+10centずれるように設定され、評価部260C-4、260C-5の調律基準位置は、それぞれ440Hzから-10cent、-20centずれるように設定されてもよい。換言すると、複数の評価部260Cはそれぞれ異なる調律値を有している、ということもできる。
 複数の評価部260C-1~260C-5では、第2分布460Cに対する基準ピッチ430Lの位置が異なるため、第2分布460Cに対する第1しきい値434L-1~434L-5及び第2しきい値434R-1~434R-5の相対的な位置関係が異なっている。したがって、複数の評価部260C-1~260C-5に対して算出された評価値はそれぞれ異なる値となる。ここで、第2ピーク470Cが基準ピッチ430L又は430Rに近いほど評価値は高いため、評価値に基づいて調律基準位置が最適な評価部260Cを判断することができる。例えば、図14では、基準ピッチ430L及び430Rと第2ピーク470とがほぼ一致している評価部260C-2の評価値が最も高い。したがって、最も高い評価値を算出した評価部260C-2の調律基準位置に基づいて、調律値として「+10cent」が算出される。換言すると、調律値算出部230Cは、評価部260Cによって算出された複数の評価値に基づいて調律値を算出する、ということもできる。この例では、複数の評価部260Cのうち、評価値が最も高い評価部260C-2の調律基準位置に基づいて調律値を算出する方法について説明したが、この方法に限定されず、所定の評価値を算出した評価部260Cの調律基準位置に基づいて調律値が算出されてもよい。その他の方法として、各評価部260Cの調律基準位置を横軸とし、それぞれの評価部260Cで算出された評価値を縦軸として、各評価部260Cに対してプロットされた評価値から得られるガウシアン分布の平均値に基づいて調律値が算出されてもよい。
 以上のように、本発明の第5実施形態に係る調律推定装置によると、ピッチの度数分布及び評価基準の異なる複数の評価部によって算出された評価値に基づいて調律値を算出することができるため、ガイドメロディ又は変更された伴奏の音高情報がなくても入力音に基づいて調律情報を算出することができる。上記の評価値は一定範囲の分布を反映するので、突発的なノイズ等の影響を受けにくくすることができる。
〈第6実施形態〉
 第6実施形態では、対象範囲を限定して複数の評価部による評価値算出を行うことで、少ない評価部で精度の高い調律値の計算をすることができる調律推定装置について説明する。例えば、第4実施形態に示すように調律値算出に用いるピークの絞り込みを行い、そのピーク近傍において、調律基準位置を細かいステップで変化させた評価部260Cによって評価値が算出され、その評価値に基づいて調律値が算出されてもよい。上記のピークの絞り込みは、第4実施形態と同様に平滑化処理された分布を用いて行われてもよく、平滑化前の分布を用いて行われてもよい。
 以上のように、本発明の第6実施形態に係る調律推定装置によると、ピッチの度数分布及び評価基準の異なる複数の評価部によって算出された評価値に基づいて調律値を算出することができるため、ガイドメロディ又は変更された伴奏の音高情報がなくても入力音に基づいて調律情報を算出することができる。絞り込まれた領域に対して評価値を算出するため、より少ない評価部で高い精度の調律値を算出することができる。
 ここで、第5実施形態及び第6実施形態において、第1しきい値434L及び第2しきい値434Rがさらに細分化されてもよい。つまり、例えば、第1しきい値434Lが2つの領域に分割され、それぞれの領域に対して異なる加重の評価値が算出されてもよい。例えば、基準ピッチ430L及び430Rに近いほど評価値が高くなるように評価値が算出されてもよい。
 フラット側とシャープ側とに分けて上記の荷重が評価値に加算されてもよい。つまり、第1評価領域T1の評価値と第2評価領域T2の評価値とのそれぞれに対して異なる加重が付与されてもよい。例えば、聴感上目立つとされているシャープ側の評価値を相対的に低くすることで、評価値を聴取者の感覚に合わせてもよい。
〈第7実施形態〉
 第7実施形態では、第1実施形態乃至第6実施形態のいずれかの調律推定機能部を用いたカラオケ装置20(評価装置)について説明する。第7実施形態では、カラオケ装置について説明するが、楽器演奏評価装置に適用することもできる。
[ハードウェア]
 図15は、本発明の一実施形態におけるカラオケ装置のハードウェア構成を示すブロック図である。図15に示すように、カラオケ装置20は図1に示す調律推定装置10とは異なり、記憶部510が制御プログラム512、入力音データ514、及び調律基準情報516に加えて楽曲データ518及び得点基準情報519を有しており、信号処理部550にスピーカ570が接続されている。ここで、信号処理部550はMIDI形式の信号からオーディオ信号を生成する音源、D/Aコンバータ等を含む。
 楽曲データ518には、カラオケの歌唱曲に関連するデータ、例えば、ガイドメロディデータ、伴奏データ、歌詞データなどが含まれる。ガイドメロディデータは、歌唱曲のメロディを示すデータである。伴奏データは、歌唱曲の伴奏を示すデータである。ガイドメロディデータおよび伴奏データは、MIDI形式で表現されたデータであってもよい。伴奏データは、制御部500によって読み出され、信号処理部550においてD/A変換され、スピーカ570から歌唱曲の伴奏として出力される。このとき、ガイドメロディもスピーカ570から出力されるようにしてもよい。歌詞データは、歌唱曲の歌詞を表示させるためのデータ、および表示させた歌詞テロップを色替えするタイミングを示すデータである。
 得点基準情報519は、評価機能が歌唱音声の評価の基準として用いる情報である。例えば、得点基準情報519には、歌唱技法を検出するための歌唱ピッチの変化(歌唱ピッチ波形)を特定するための情報が含まれる。ビブラート、コブシ、シャクリ、フォールといった歌唱技法であれば、例えば、以下のような歌唱ピッチ波形を示す。
(A)ビブラート:ピッチが細かく(所定周期以下で)高低に変化する。具体的な歌唱ピッチ波形の例を図3の「V」で示す。ビブラート検出の具体的な例は、特開2005-107087号公報に開示されている。
(B)コブシ:ピッチが一時的に(所定時間以内で)高くなり、その後、元のピッチに戻る。具体的な歌唱ピッチ波形の例を図3の「K」で示す。コブシ検出の具体的な例は、特開2008-268370号公報に開示されている。
(C)シャクリ:ピッチが所定時間かけて高くなり、その後安定する。具体的な歌唱ピッチ波形の例を図3の「S」で示す。シャクリ検出の具体的な例は、特開2005-107334号公報に開示されている。
(D)フォール:ピッチが所定時間かけて低くなり、その後、歌唱が途切れる。具体的な歌唱ピッチ波形の例を図3の「F」で示す。フォール検出の具体的な例は、特開2008-225115号公報に開示されている。
[評価装置の機能部]
 図16は、本発明の一実施形態におけるカラオケ装置の機能構成を示すブロック図である。カラオケ装置20は、伴奏出力部610、調律推定機能部200、特定区間検出部620、ピッチ比較部630、及び得点計算部640を含む。伴奏出力部610は、歌唱者に指定された歌唱曲に対応する伴奏データを読み出し、信号処理部550を介して、伴奏音をスピーカ570から出力させる。調律推定機能部200として、第1実施形態乃至第6実施形態で説明した調律推定機能部200を用いることができる。ここで、調律推定機能部200は基準ピッチ、ピッチ算出部220によって算出されたピッチ、及び調律値算出部230によって算出された調律値を出力してピッチ比較部630に送信する。なお、調律推定機能部200は算出された調律値によって補正されたピッチを出力してもよい。特定区間検出部620は、歌唱ピッチ波形を解析し、歌唱音声の入力期間のうち、得点基準情報によって規定された歌唱技法を含む区間(特定区間)を検出する。このとき検出される特定区間は、歌唱技法の種類ごとに対応付けられていてもよい。
 ピッチ比較部630は、歌唱音声の入力期間のうち、特定区間検出部620において検出された特定区間を除いた区間を、評価区間として設定する。ピッチ比較部630は、評価区間における歌唱ピッチ波形、基準ピッチ、及び調律推定機能部200によって算出された調律値に基づいて、歌唱ピッチと基準ピッチとを比較する。ここで、調律値を用いて歌唱ピッチが調整されてもよく、逆に基準ピッチが調整されてもよい。歌唱ピッチ又は基準ピッチの調整は曲の終了後に行われてもよく、歌唱中にリアルタイムに行われてもよい。比較結果として、この例では、歌唱ピッチ波形と基準ピッチとの不一致度が算出される。ここで、複数の基準ピッチが100cent間隔で存在する。そのため、複数の基準ピッチのうち、歌唱ピッチに最も近い基準ピッチが歌唱ピッチの比較対象として選択される。歌唱ピッチ波形と基準ピッチとの差が大きいほど、高い不一致度が算出される。例えば、歌唱ピッチ波形の各サンプルにおける歌唱ピッチと基準ピッチとの差分が評価区間において加算され、加算値が評価区間のサンプル数で除算されることによって、不一致度が算出される。
 このようにして、メロディに依存しない歌唱評価を行うことができる。この例では、歌唱ピッチと基準ピッチとが、歌唱音声の入力期間全体ではなく、特定区間を除いた区間において比較されている。したがって、特定区間における歌唱技法による意図的な歌唱ピッチのずれが、不一致度を増加させてしまわないようにすることもできる。なお、評価区間がさらに複数に分割された区間に分けられ、それぞれの区間において不一致度が算出されてもよい。複数に分割された区間は、それぞれ一部が重複した区間を有していてもよい。
 得点計算部640は、ピッチ比較部630における比較結果に基づいて、歌唱音声の評価の指標となる得点値を算出する。この例では、ピッチ比較部630で算出された不一致度が高いほど得点値が低く算出され、歌唱音声の評価が悪くなる。なお、得点計算部640は、この不一致度のみに基づいて得点値を算出するのではなく、さらに他の要素に基づいて得点値を算出してもよい。他の要素として、歌唱技法および歌唱音声データから抽出可能な他のパラメータなどが挙げられる。歌唱技法を得点値に反映させる場合には、特定区間検出部620において検出された特定区間に対応する歌唱技法を用いて得点値が計算されてもよい。他のパラメータとして、例えば、音量変化が挙げられる。音量変化を用いれば、歌唱の抑揚を評価に加えることもできる。得点計算部640による評価結果は、表示部530において提示されてもよい。
 以上のように、本発明の第7実施形態に係るカラオケ装置によると、ピッチの度数分布におけるピーク群に基づいて調律値を算出することができるため、ガイドメロディ又は変更された伴奏の音高情報がなくても入力音に基づいて調律情報を算出することができる。
 ここで、第7実施形態において、ピッチ比較部630で算出される不一致度は、基準ピッチと歌唱ピッチとの差分をサンプルごとに加算したが、この差分が大きいほど、不一致度がさらに大きくなるように重み付けがされてもよい。例えば、基準ピッチと歌唱ピッチとの差分が10centである場合に対して20centである場合には、得点値の差分が2倍になるのではなく3倍になるようにしてもよい。一方、基準ピッチと歌唱ピッチとの差分が所定範囲より小さい場合(例えば、2cent以下である場合)には、一致(差分0cent)しているものとして扱い、不一致度を大きくしないようにしてもよい。
 基準ピッチと歌唱ピッチとの差分は、フラット側とシャープ側とに分けて加算されてもよい。そして、フラット側の不一致度とシャープ側の不一致度とがそれぞれ算出されてもよい。不一致度の大きさがフラット側又はシャープ側のいずれかに偏っている場合には、シャープ気味に外れた歌唱なのか、フラット気味に外れた歌唱なのかを判定してもよい。
〈第8実施形態〉
 第8実施形態では、第1実施形態乃至第6実施形態のいずれかの調律推定機能部を用いたデータ処理装置について説明する。第8実施形態では、データ処理装置が調律された伴奏に対して歌唱データを補正して合成するデータ処理方法について説明する。ここで、ハードウェアは図1と同様のものを用いることができるため、ここでは説明を省略する。
[データ処理装置の機能部]
 図17は、本発明の一実施形態におけるデータ処理装置の機能構成を示すブロック図である。データ処理装置30は、調律推定機能部200、入力音取得部700、補正部710、及び合成部720を含む。調律推定機能部200として、第1実施形態乃至第6実施形態で説明した調律推定機能部200を用いることができる。データ処理装置30において、入力音取得部700は第1入力音702及び第2入力音704の2つの入力音を取得する。それらのうち、第1入力音702が調律推定機能部200に送信され、調律推定機能部200では第1入力音702に基づく調律値706が算出される。補正部710は、調律推定機能部200によって算出された調律値706、第1入力音702、及び第2入力音704に基づいて、第1入力音702及び第2入力音704の関係を補正する。合成部720は、補正部710が補正した第1入力音712と第2入力音714とを合成する。
 具体例として、以下に調律された伴奏に対して歌唱データを合成する場合について説明する。まず、調律推定機能部200に含まれる入力音取得部210は、歌唱データを取得する。次に、ピッチ算出部220は歌唱データに対する歌唱ピッチを算出する。次に、調律値算出部230は、歌唱ピッチの分布に基づいて歌唱データ調律値を算出する。次に、補正部710は、歌唱データ調律値に基づいて歌唱データを補正する。そして、合成部720は、補正された歌唱データと伴奏データとを合成する。
 以上のように、本発明の第8実施形態に係るデータ処理装置によると、取得した歌唱データから算出された調律値に基づいて、自動的に歌唱データを補正して伴奏データと合成することができるため、ユーザの余計な操作を必要としないデータ処理装置を提供することができる。
〈第9実施形態〉
 第9実施形態では、第1実施形態乃至第6実施形態のいずれかの調律推定機能部を用いたデータ処理装置について説明する。第9実施形態では、データ処理装置が楽器による演奏データ及び歌唱データを補正してこれらを合成するデータ処理方法について説明する。第9実施形態に用いられるハードウェアは図1と同様のものを用いることができるため、ここでは説明を省略する。データ処理機能部が有する機能ブロックは図17と同様であるが、各機能ブロックが有する機能が異なる。したがって、第9実施形態のデータ処理装置の動作について、図18を用いてその機能を説明する。
[データ処理装置の機能部]
 図18は、本発明の一実施形態におけるデータ処理装置の機能構成を示すブロック図である。データ処理装置30Aは、データ処理装置30と同様に調律推定機能部200、入力音取得部700、補正部710、及び合成部720を含む。調律推定機能部200として、第1実施形態乃至第6実施形態で説明した調律推定機能部200を用いることができる。データ処理装置30Aにおいて、入力音取得部700は第1入力音702及び第2入力音704の2つの入力音を取得する。第1入力音702及び第2入力音704は調律推定機能部200に送信され、調律推定機能部200では第1入力音702に基づく第1調律値706及び第2入力音704に基づく第2調律値708が算出される。補正部710は、第1入力音702、第2入力音704、及び調律推定機能部200によって算出された第1調律値706、第2調律値708に基づいて、第1入力音702及び第2入力音704の関係を補正する。合成部720は、補正部710が補正した第1入力音712と第2入力音714とを合成する。
 具体例として、演奏された演奏データ及び歌唱データを合成する場合について説明する。まず、入力音取得部210は演奏データ及び歌唱データを取得する。次に、ピッチ算出部220は演奏データに対する演奏ピッチ、及び歌唱データに対する歌唱ピッチを算出する。次に、調律値算出部230は、演奏ピッチの分布に基づいて演奏データ調律値を算出し、歌唱ピッチの分布に基づいて歌唱データ調律値を算出する。次に、補正部710は、演奏データ調律値に基づいて演奏データを補正し、歌唱データ調律値に基づいて歌唱データを補正する。そして、合成部720は、補正された演奏データと歌唱データとを合成する。
 以上のように、本発明の第9実施形態に係るデータ処理装置によると、取得した演奏データ及び歌唱データから算出されたそれぞれの調律値に基づいて、自動的に演奏データ及び歌唱データを補正し、両者を合成することができるため、ユーザの余計な操作を必要としないデータ処理装置を提供することができる。
〈第10実施形態〉
 第10実施形態では、第1実施形態乃至第6実施形態とは異なる方法で調律値を算出する調律推定装置について説明する。第10実施形態では、各音高に対して基準となる音高からのずれ量(調律値)を算出する調律値推定方法について説明する。ただし、第10実施形態に用いられるハードウェアは第1実施形態と同様のものを用いることができるので、ここでは説明を省略する。調律値推定装置が有する機能ブロックは図2と同様であるが、各機能ブロックが有する機能が異なる。したがって、第10実施形態の調律値推定装置の動作について、図2を用いてその機能を説明する。
[調律推定機能部]
 第10実施形態の調律推定装置10Dの調律推定機能部200Dにおいて、入力音取得部210Dは入力音を取得する。ピッチ算出部220Dは入力音取得部210Dが取得した入力音のピッチを算出する。調律値算出部230Dは、基準ピッチに対して、ピッチ算出部220Dが算出したピッチが積算された分布におけるピークの調律値を音高毎に算出する。
 図5の分布を用いて、調律推定装置10Dの動作を具体的に説明する。第1実施形態では、第1分布400のピーク340、350、360のうち一部又は全部と、それらの付近に設定された基準ピッチ430との差に基づいて、第1分布400全体の調律値を算出する方法について説明した。一方、第10実施形態では、ピッチが積算された第1分布400における各音高について個別に調律値が算出される。具体的には、ピーク340とその近傍の基準ピッチ430とのオフセット436に基づいて、ピーク340に対する調律値が算出される。同様にして、ピーク350とその近傍の基準ピッチ430とのオフセット436に基づいて、ピーク350に対する調律値が算出される。このようにして、各音高に対して個別に調律値が算出されてもよい。
 以上のように、本発明の第10実施形態に係る調律推定装置によると、ピッチの度数分布における複数のピークに基づいて各音高に対して調律値を算出することができるため、特定の音高における調律値のずれを検出することができる。
〈第11実施形態〉
 第11実施形態では、第1実施形態とは異なる方法で調律値を算出する調律推定装置について説明する。第1実施形態では、第1分布400の複数のピーク340、350、360と複数の基準ピッチ430とのずれ量に基づいて調律値を算出する調律方法について説明した。一方、第11実施形態では、第1分布400の複数のピーク340、350、360のうち、1つのピーク(例えば、ピーク350)と基準ピッチ430(例えば、調律基準位置432)とのずれ量に基づいて調律値を算出する調律方法について説明する。
 第11実施形態の調律方法について、図5を参照して説明する。第11実施形態の調律推定装置は、調律基準位置432と第1分布400における基準位置に相当するピーク350とのずれ量のみに基づいて調律値を算出する。つまり、ピーク340とそれに対応する位置の基準ピッチ430とのずれ量、及びピーク360とそれに対応する位置の基準ピッチ430とのずれ量は考慮せず、調律基準位置432とピーク350とのずれ量のみに基づいて調律値が算出される。ただし、調律値の算出に用いる基準ピッチ430及び第1分布400のピークは、適宜選択することができ、上記のように、調律基準位置432及びピーク350に限定されない。第1分布400のピークは複数存在していなくてもよい。ピーク340、350、360と、それぞれのピークに対応する基準ピッチ430とのずれ量に基づいて、それぞれのピークに対応する調律値が算出されてもよい。つまり、第1分布400から、複数の音高に対して、それぞれの音高に対する調律値が算出されてもよい。
 以上のように、本発明の第11実施形態に係る調律推定装置によると、特定の音高に対して調律値を算出することができるため、楽器のチューニングなどに利用することができる。複数の音高に対して、それぞれの調律値を同時に算出することが可能であるため、楽器のチューニング時間を短縮化することができる。
<その他の実施形態>
 入力音取得部210によって取得される歌唱音声データが示す音は、歌唱者による音声に限られず、歌唱合成による音声であってもよいし、楽器音であってもよい。楽器音である場合には、単音演奏であることが望ましい。楽器音である場合には、特定区間として検出される技法として、例えば、ビブラート、スタッカート、ベンドアップ(シャクリ)、ベンドダウン(フォール)、スライド(ポルタメント)が挙げられる。これらの技法のうち、ピッチ変化を伴うビブラート、ベンドアップ、ベンドダウン、スライドが、実施形態と同様な方法で検出される。ピッチ算出部220において算出されるピッチに影響を及ぼすため、このようにして検出された特定区間においては、歌唱の場合と同様に評価区間における評価から除外される。これら以外にも、トリルおよび極めて短い修飾音等の音符の表現、サックスのグロール、ギターのカッティング等の音色に関する技法についても、ピッチの取得精度に影響があるため特定区間として検出して評価の除外の対象としてもよい。さらに複音の発音ができる楽器は誤動作を防止するために複音を検出して除去の対象としてもよい。
10:調律推定装置、 20:カラオケ装置、 30:データ処理装置、 100、500:制御部、 110、510:記憶部、 112:制御プログラム、 114:歌唱音声データ、 116:調律基準情報、 120:操作部、 130、530:表示部、 140:通信部、 150、550:信号処理部、 160:マイクロフォン、 20:カラオケ装置、 200:調律推定機能部、 210、700:入力音取得部、 220:ピッチ算出部、 230:調律値算出部、 240:ピッチ変換部、 250:ピッチ平滑処理部、 260:評価部、 300:歌唱ピッチ波形、 310、410:縦軸、 320、420:横軸、 330、430:基準ピッチ、 340、350、360:第1ピーク、 400:第1分布、 432:調律基準位置、 434L:第1しきい値、 434R:第2しきい値、 450:第2分布、 460:積算された第2分布、 462:ノイズピーク、 470:第2ピーク、 480:第3分布、 490:第3ピーク、 518:楽曲データ、 519:得点基準情報、 570:スピーカ、 610:伴奏出力部、 620:特定区間検出部、 630:ピッチ比較部、 640:得点計算部、 710:補正部、 720:合成部

Claims (12)

  1.  入力音を取得する第1入力音取得部と、
     前記第1入力音取得部が取得した前記入力音のピッチを算出するピッチ算出部と、
     前記ピッチ算出部が算出した前記ピッチの第1分布におけるピークに基づいて、調律の基準となる調律基準位置と前記第1分布における基準位置とのオフセットを表す調律値を算出する調律値算出部と、
    を備えることを特徴とする調律推定装置。
  2.  前記調律値算出部は、前記第1分布における複数のピークを含むピーク群に基づいて前記調律値を算出することを特徴とする請求項1に記載の調律推定装置。
  3.  前記調律値算出部は、周期性を有する前記ピーク群の位置関係に基づいて調律値を算出することを特徴とする請求項2に記載の調律推定装置。
  4.  前記調律値算出部は、前記ピーク群と前記調律基準位置を含む複数の基準ピッチとのずれ量に基づいて前記調律値を算出することを特徴とする請求項2に記載の調律推定装置。
  5.  前記第1分布を一定周期で配置された基準点を始点とする複数の分布に分割し、前記分割された複数の分布を積算して第2分布を算出するピッチ変換部をさらに備え、
     前記調律値算出部は、前記ピッチ変換部によって積算された前記第2分布のピークに基づいて調律値を算出することを特徴とする請求項2に記載の調律推定装置。
  6.  前記ピッチ変換部によって分割された前記複数の分布の各々の区間の間隔は、前記調律基準位置を含む複数の基準ピッチのうち隣接する基準ピッチ間の間隔と等しいことを特徴とする請求項5に記載の調律推定装置。
  7.  前記第2分布を平滑化処理して第3分布を算出するピッチ平滑処理部をさらに備え、
     前記調律値算出部は、前記ピッチ平滑処理部によって算出された前記第3分布のピークを検索し、
     前記第2分布のピークは、前記第3分布のピークに基づいて決定されることを特徴とする請求項5に記載の調律推定装置。
  8.  入力音を取得する第1入力音取得部と、
     前記第1入力音取得部が取得した前記入力音のピッチを算出するピッチ算出部と、
     調律の基準となる調律基準位置における基準ピッチとの比較に基づいて前記入力音に対する評価値を算出する評価部を複数備え、
     異なる前記評価部の各々の前記調律基準位置は互いに異なり、
     前記調律値算出部は、前記複数の前記評価部の各々によって算出された複数の前記評価値のうち、一の前記評価値を算出した前記評価部の前記調律基準位置に基づいて調律値を算出することを特徴とする調律推定装置。
  9.  請求項1乃至8のいずれか一に記載の前記調律推定装置と、
     所定の評価区間において、前記入力音の前記ピッチ、複数の基準ピッチ、及び前記調律値算出部によって算出された前記調律値に基づいて、前記ピッチと前記複数の基準ピッチとを比較するピッチ比較部と、
     前記ピッチ比較部によって比較された結果に基づいて、前記入力音に対する得点値を算出する得点計算部と、
    をさらに備えることを特徴とする評価装置。
  10.  請求項1乃至8のいずれか一に記載の前記調律推定装置と、
     第1入力音及び第2入力音を取得する第2入力音取得部と、
     前記第1入力音、前記第2入力音、及び前記調律推定装置が算出した前記調律値に基づいて、前記第1入力音及び前記第2入力音の関係を補正する補正部と、
     前記補正部によって補正された前記第1入力音及び前記第2入力音を合成する合成部と、を有し、
     前記調律推定装置は、前記第1入力音に基づいて前記調律値を算出することを特徴とするデータ処理装置。
  11.  入力音を取得する入力音取得部と、
     前記入力音取得部が取得した前記入力音のピッチを算出するピッチ算出部と、
     前記ピッチ算出部が算出した前記ピッチの分布におけるピークと音高毎に定められた基準とのオフセットを表す調律値を音高毎に算出する調律値算出部と、
    を備えることを特徴とする調律推定装置。
  12.  前記調律値算出部は、前記分布から、複数の音高に対してそれぞれの前記調律値を算出することを特徴とする請求項11に記載の調律推定装置。
PCT/JP2016/081810 2015-11-10 2016-10-27 調律推定装置、評価装置、およびデータ処理装置 WO2017082061A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US15/774,885 US10733900B2 (en) 2015-11-10 2016-10-27 Tuning estimating apparatus, evaluating apparatus, and data processing apparatus

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2015220445A JP6759560B2 (ja) 2015-11-10 2015-11-10 調律推定装置及び調律推定方法
JP2015-220445 2015-11-10

Publications (1)

Publication Number Publication Date
WO2017082061A1 true WO2017082061A1 (ja) 2017-05-18

Family

ID=58695194

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/081810 WO2017082061A1 (ja) 2015-11-10 2016-10-27 調律推定装置、評価装置、およびデータ処理装置

Country Status (3)

Country Link
US (1) US10733900B2 (ja)
JP (1) JP6759560B2 (ja)
WO (1) WO2017082061A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110998708A (zh) * 2017-08-03 2020-04-10 雅马哈株式会社 差分提示装置、差分提示方法及差分提示程序
WO2020158661A1 (ja) * 2019-02-01 2020-08-06 後藤ガット有限会社 楽器用調律器、演奏支援装置及び楽器管理装置

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6759545B2 (ja) * 2015-09-15 2020-09-23 ヤマハ株式会社 評価装置およびプログラム
JP6690181B2 (ja) * 2015-10-22 2020-04-28 ヤマハ株式会社 楽音評価装置及び評価基準生成装置
JP6759560B2 (ja) * 2015-11-10 2020-09-23 ヤマハ株式会社 調律推定装置及び調律推定方法
JP6891662B2 (ja) * 2017-06-23 2021-06-18 富士通株式会社 音声評価プログラム、音声評価方法および音声評価装置
WO2019026260A1 (ja) * 2017-08-03 2019-02-07 ヤマハ株式会社 評価装置、評価方法および評価プログラム
JP6939922B2 (ja) * 2019-03-25 2021-09-22 カシオ計算機株式会社 伴奏制御装置、伴奏制御方法、電子楽器及びプログラム
CN110120216B (zh) * 2019-04-29 2021-11-12 北京小唱科技有限公司 用于演唱评价的音频数据处理方法及装置
US11211039B2 (en) * 2019-08-29 2021-12-28 Yousician Oy Musical instrument tuning

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06308946A (ja) * 1993-04-26 1994-11-04 Roland Corp 調律装置
JP2003036085A (ja) * 2001-07-25 2003-02-07 Daiichikosho Co Ltd ピッチシフター付きカラオケ装置
JP2007193156A (ja) * 2006-01-20 2007-08-02 Yamaha Corp 調律装置付電子楽器
JP2013114088A (ja) * 2011-11-29 2013-06-10 Kddi Corp 音響再生装置
JP2014191192A (ja) * 2013-03-27 2014-10-06 Brother Ind Ltd 基準データ作成装置、基準データ作成システム、演奏端末装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5056398A (en) * 1988-09-20 1991-10-15 Adamson Tod M Digital audio signal processor employing multiple filter fundamental acquisition circuitry
JPH06295192A (ja) 1993-04-09 1994-10-21 Matsushita Electric Ind Co Ltd 比較装置
US6580024B2 (en) * 2001-01-11 2003-06-17 Peterson Electro-Musical Products, Inc. Electronic strobe tuning aid
US6924426B2 (en) * 2002-09-30 2005-08-02 Microsound International Ltd. Automatic expressive intonation tuning system
JP2005215493A (ja) 2004-01-30 2005-08-11 Brother Ind Ltd カラオケ装置及びプログラム
WO2006023600A2 (en) * 2004-08-18 2006-03-02 Transperformance, Llc Apparatus and method for self-tuning stringed musical instruments with an accompanzing vibrato mechanism
JP4581699B2 (ja) 2005-01-21 2010-11-17 日本ビクター株式会社 音程認識装置およびこれを利用した音声変換装置
US7514620B2 (en) * 2006-08-25 2009-04-07 Apple Inc. Method for shifting pitches of audio signals to a desired pitch relationship
JP2008076758A (ja) * 2006-09-21 2008-04-03 Roland Corp 楽器用チューナおよび楽器用アンプ
US8642874B2 (en) * 2010-01-22 2014-02-04 Overtone Labs, Inc. Drum and drum-set tuner
JP6759560B2 (ja) * 2015-11-10 2020-09-23 ヤマハ株式会社 調律推定装置及び調律推定方法
US10586518B2 (en) * 2017-03-27 2020-03-10 Band Industries, Inc. Automatic tuning methods and systems

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06308946A (ja) * 1993-04-26 1994-11-04 Roland Corp 調律装置
JP2003036085A (ja) * 2001-07-25 2003-02-07 Daiichikosho Co Ltd ピッチシフター付きカラオケ装置
JP2007193156A (ja) * 2006-01-20 2007-08-02 Yamaha Corp 調律装置付電子楽器
JP2013114088A (ja) * 2011-11-29 2013-06-10 Kddi Corp 音響再生装置
JP2014191192A (ja) * 2013-03-27 2014-10-06 Brother Ind Ltd 基準データ作成装置、基準データ作成システム、演奏端末装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110998708A (zh) * 2017-08-03 2020-04-10 雅马哈株式会社 差分提示装置、差分提示方法及差分提示程序
WO2020158661A1 (ja) * 2019-02-01 2020-08-06 後藤ガット有限会社 楽器用調律器、演奏支援装置及び楽器管理装置
JP2020126102A (ja) * 2019-02-01 2020-08-20 後藤ガット有限会社 楽器用調律器、演奏支援装置及び楽器管理装置
JP7307906B2 (ja) 2019-02-01 2023-07-13 後藤ガット有限会社 楽器用調律器
US11948544B2 (en) 2019-02-01 2024-04-02 Gotoh Gut Co., Ltd. Musical instrument tuner, musical performance support device and musical instrument management device

Also Published As

Publication number Publication date
US10733900B2 (en) 2020-08-04
JP2017090671A (ja) 2017-05-25
JP6759560B2 (ja) 2020-09-23
US20180357920A1 (en) 2018-12-13

Similar Documents

Publication Publication Date Title
WO2017082061A1 (ja) 調律推定装置、評価装置、およびデータ処理装置
JP4767691B2 (ja) テンポ検出装置、コード名検出装置及びプログラム
US7582824B2 (en) Tempo detection apparatus, chord-name detection apparatus, and programs therefor
US7579546B2 (en) Tempo detection apparatus and tempo-detection computer program
JP4823804B2 (ja) コード名検出装置及びコード名検出用プログラム
US8618402B2 (en) Musical harmony generation from polyphonic audio signals
US20150348567A1 (en) Dynamically adapted pitch correction based on audio input
JP2008275975A (ja) リズム検出装置及びリズム検出用コンピュータ・プログラム
JP5229998B2 (ja) コード名検出装置及びコード名検出用プログラム
WO2017068990A1 (ja) 楽音評価装置、評価基準生成装置及び記録媒体
JP2008015214A (ja) 歌唱力評価方法及びカラオケ装置
JP4204941B2 (ja) カラオケ装置
JPH10207455A (ja) 音信号分析装置及び方法
JP5005445B2 (ja) コード名検出装置及びコード名検出用プログラム
JP4932614B2 (ja) コード名検出装置及びコード名検出用プログラム
JP2008015211A (ja) ピッチ抽出方法、歌唱力評価方法、歌唱訓練プログラム及びカラオケ装置
JP4134961B2 (ja) 音信号分析装置及び方法
JP5153517B2 (ja) コード名検出装置及びコード名検出用コンピュータ・プログラム
JP2016180965A (ja) 評価装置およびプログラム
JP5618743B2 (ja) 歌唱音声評価装置
JP5585320B2 (ja) 歌唱音声評価装置
JP2008015212A (ja) 音程変化量抽出方法、ピッチの信頼性算出方法、ビブラート検出方法、歌唱訓練プログラム及びカラオケ装置
JP4910855B2 (ja) リファレンスデータ編集装置、こぶし評価装置、リファレンスデータ編集方法、こぶし評価方法及びプログラム
JP6638305B2 (ja) 評価装置
WO2016148256A1 (ja) 評価装置およびプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16864025

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16864025

Country of ref document: EP

Kind code of ref document: A1