WO2010098130A1 - トーン判定装置およびトーン判定方法 - Google Patents

トーン判定装置およびトーン判定方法 Download PDF

Info

Publication number
WO2010098130A1
WO2010098130A1 PCT/JP2010/001331 JP2010001331W WO2010098130A1 WO 2010098130 A1 WO2010098130 A1 WO 2010098130A1 JP 2010001331 W JP2010001331 W JP 2010001331W WO 2010098130 A1 WO2010098130 A1 WO 2010098130A1
Authority
WO
WIPO (PCT)
Prior art keywords
tone
input signal
encoding
unit
vector sequence
Prior art date
Application number
PCT/JP2010/001331
Other languages
English (en)
French (fr)
Inventor
佐藤薫
森井利幸
江原宏幸
Original Assignee
パナソニック株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック株式会社 filed Critical パナソニック株式会社
Priority to US13/202,170 priority Critical patent/US20110301946A1/en
Priority to BRPI1008915A priority patent/BRPI1008915A2/pt
Priority to RU2011135735/08A priority patent/RU2011135735A/ru
Priority to MX2011008605A priority patent/MX2011008605A/es
Priority to CN2010800092997A priority patent/CN102334156A/zh
Priority to EP10746013A priority patent/EP2402938A1/en
Priority to JP2011501521A priority patent/JPWO2010098130A1/ja
Publication of WO2010098130A1 publication Critical patent/WO2010098130A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q1/00Details of selecting apparatus or arrangements
    • H04Q1/18Electrical details
    • H04Q1/30Signalling arrangements; Manipulation of signalling currents
    • H04Q1/44Signalling arrangements; Manipulation of signalling currents using alternate current
    • H04Q1/444Signalling arrangements; Manipulation of signalling currents using alternate current with voice-band signalling frequencies
    • H04Q1/46Signalling arrangements; Manipulation of signalling currents using alternate current with voice-band signalling frequencies comprising means for distinguishing between a signalling current of predetermined frequency and a complex current containing that frequency, e.g. speech current
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders

Definitions

  • the present invention relates to a tone determination device and a tone determination method.
  • the CELP speech encoding apparatus encodes input speech based on a speech model stored in advance. Specifically, the CELP speech coding apparatus divides a digitized speech signal into frames of about 10 to 20 ms, performs linear prediction analysis of the speech signal for each frame, and performs linear prediction coefficients and linear prediction residuals. Vectors are obtained, and linear prediction coefficients and linear prediction residual vectors are individually encoded.
  • variable rate encoding device that changes the bit rate according to the input signal has been realized.
  • the input signal is encoded at a high bit rate when the input signal mainly includes a lot of audio information
  • the input signal is encoded at a low bit rate when the input signal mainly includes a lot of noise information. It is possible to encode. That is, when a lot of important information is included, the quality of the output signal reproduced on the decoding device side is improved by high-quality encoding, while when the importance is low, low-quality encoding is performed. By suppressing it, it is possible to save power, transmission band, and the like.
  • VAD Voice Active Detector
  • the tone determination apparatus disclosed in the above-mentioned Patent Document 1 that is, a tone that obtains the frequency component of the input signal by SDFT and detects the tone characteristic of the input signal by the correlation between the frequency component of the current frame and the frequency component of the previous frame.
  • the correlation is obtained in consideration of all frequency bands, there is a problem that the calculation amount becomes large.
  • An object of the present invention is to reduce the amount of calculation in a tone determination apparatus and a tone determination method for obtaining a frequency component of an input signal and determining a tone characteristic of the input signal based on a correlation between the frequency component of the current frame and the frequency component of the previous frame. It is to let you.
  • the tone determination apparatus includes a shortening unit that performs a shortening process for shortening a vector sequence length of a frequency-converted input signal, a correlation unit that obtains a correlation using a vector sequence after shortening the vector sequence length, and the correlation And determining means for determining the tone characteristics of the input signal.
  • the amount of calculation required for tone determination can be reduced.
  • the figure showing the mode of the joint process of the SDFT coefficient based on Embodiment 1 of this invention The block diagram which shows the internal structure of the correlation analysis part which concerns on Embodiment 1 of this invention.
  • segmentation process and downsampling process of the SDFT coefficient based on Embodiment 2 of this invention The block diagram which shows the main structures of the encoding apparatus which concerns on Embodiment 3 of this invention.
  • FIG. 1 is a block diagram showing the main configuration of tone determination apparatus 100 according to the present embodiment.
  • tone determination apparatus 100 determines the tone characteristics of an input signal and outputs a determination result.
  • the input signal may be a voice signal or a musical sound signal.
  • a frequency conversion unit 101 performs frequency conversion of an input signal using SDFT, and outputs an SDFT coefficient, which is a frequency component obtained by frequency conversion, to the downsampling unit 102 and the buffer 103.
  • the down-sampling unit 102 performs a down-sampling process on the SDFT coefficient input from the frequency conversion unit 101, and shortens the sequence length of the SDFT coefficient. Next, the downsampling unit 102 outputs the SDFT coefficient after downsampling to the buffer 103.
  • the buffer 103 stores the SDFT coefficient of the previous frame and the SDFT coefficient after the downsampling of the previous frame, and outputs these two SDFT coefficients to the vector combining unit 104.
  • the buffer 103 receives the SDFT coefficient of the current frame from the frequency conversion unit 101 and the SDFT coefficient after down-sampling of the current frame from the down-sampling unit 102, and combines these two SDFT coefficients into a vector combining unit. To 104.
  • the buffer 103 stores the two SDFT coefficients of the previous frame stored therein (the SDFT coefficient of the previous frame and the SDFT coefficient after downsampling of the previous frame) and the two SDFT coefficients of the current frame (current The SDFT coefficient is updated by replacing the SDFT coefficient of the frame and the SDFT coefficient after downsampling of the current frame.
  • the vector combiner 104 receives the SDFT coefficient of the previous frame, the SDFT coefficient after downsampling of the previous frame, the SDFT coefficient of the current frame, and the SDFT coefficient after downsampling of the current frame from the buffer 103, Shift information is input from the band determination unit 106. Next, the vector combining unit 104 combines a part of the SDFT coefficient of the previous frame and a part of the SDFT coefficient after downsampling of the previous frame to generate a new SDFT coefficient (previous frame combined SDFT coefficient), The new SDFT coefficient is output to correlation analysis section 105.
  • the vector combining unit 104 combines a part of the SDFT coefficient of the current frame and a part of the SDFT coefficient after downsampling of the current frame to generate a new SDFT coefficient (current frame combined SDFT coefficient),
  • the new SDFT coefficient is output to correlation analysis section 105. At this time, how to combine them is determined according to the shift information.
  • Correlation analyzing section 105 receives the previous frame combined SDFT coefficient and the current frame combined SDFT coefficient from vector combining section 104, obtains the correlation between the frames of the SDFT coefficient, and outputs the obtained correlation to tone determining section 107. . Further, the correlation analysis unit 105 obtains the power of the current frame for each fixed band, and outputs the power for each band of the current frame to the band determination unit 106 as power information. Since the power is an incidental secondary product obtained in the process of obtaining the correlation, it is not necessary to separately perform calculation for obtaining the power.
  • the band determination unit 106 determines the band with the maximum power using the power information input from the correlation analysis unit 105 because the band with the maximum power is an important band in determining the tone characteristics of the input signal.
  • the position information of the determined band is output to the vector combining unit 104 as shift information.
  • the tone determination unit 107 determines the tone property of the input signal according to the correlation value input from the correlation analysis unit 105. Next, tone determination section 107 outputs tone information as an output of tone determination apparatus 100.
  • the operation of the tone determination apparatus 100 will be described by taking as an example the case where the order of the input signal to be subjected to tone determination is the 2Nth order (N is an integer of 1 or more).
  • h (n) is a window function, and an MDCT window function or the like is used.
  • the vector combining unit 104 combines the SDFT coefficients of the current frame according to the following equation (3).
  • the vector combining unit 104 combines the SDFT coefficients of the previous frame according to the following equation (4).
  • FIG. 2 shows the state of the above combining process in the vector combining unit 104.
  • the down-sampled SDFT coefficients ((1) and (3)) are basically used as the combined SDFT coefficients, which correspond to the range of the length LH with the shift information SH as the head.
  • the SDFT coefficient ((2)) is inserted between (1) and (2) for coupling.
  • LH which is the length of the range to be extracted, is set in advance to a value suitable as a constant.
  • LH When LH is lengthened, the combined SDFT coefficient becomes long, so that the amount of calculation is increased in the processing for obtaining the later correlation, while the obtained correlation becomes more accurate. Therefore, LH may be determined in consideration of a trade-off between the calculation amount and the accuracy of correlation. It is also possible to adaptively change LH.
  • K (N + LH) / 2-1.
  • FIG. 3 is a block diagram showing an internal configuration of the correlation analysis unit 105 according to the present embodiment.
  • the error power calculation unit 201 outputs the obtained error power SS to the division unit 204.
  • the power calculation unit 202 outputs the obtained power SA (k) as power information to the addition unit 203 and the band determination unit 106 (FIG. 1).
  • the adder 203 receives the power SA (k) from the power calculator, and obtains the power SA that is the sum of the power SA (k) according to the following equation (7).
  • the adding unit 203 outputs the obtained power SA to the dividing unit 204.
  • the division unit 204 receives the error power SS from the error power calculation unit 201 and the power SA from the addition unit 203. Next, the division unit 204 obtains the correlation S according to the following equation (8), and outputs the obtained correlation S to the tone determination unit 107 (FIG. 1) as correlation information.
  • FIG. 4 is a block diagram showing an internal configuration of the bandwidth determination unit 106 according to the present embodiment.
  • the shift number determination unit 304 receives k from which the weighted power SW (k) is maximized from the maximum power search unit 303, obtains the SH value that matches the frequency corresponding to k, and shifts the SH value. Information is output to the vector combining unit 104 (FIG. 1).
  • the tone determination unit 107 receives the correlation S from the correlation analysis unit 105, determines tone characteristics according to the value of the correlation S, and outputs the determined tone characteristics as tone information. Specifically, the tone determination unit 107 compares the threshold T with the correlation S, and determines that the current frame is “tone” when T> S holds, and sets the current frame as “non-tone” when T> S does not hold. It may be determined. As the value of the threshold T, a statistically suitable value may be obtained by learning. Further, the tone property may be determined by the method disclosed in Patent Document 1. Further, a plurality of threshold values may be set, and the degree of tone may be determined step by step.
  • the processing frame (vector sequence) is shortened by performing the downsampling before obtaining the correlation, the length of the processing frame (vector sequence) used for calculating the correlation is conventionally reduced. It is shorter than that. Therefore, according to the present embodiment, it is possible to reduce the amount of calculation required for determining the tone characteristics of the input signal.
  • tone determination is performed using the (vector series) as it is without shortening, deterioration in performance of tone determination can be suppressed.
  • tone classification by tone determination there are usually only two to three types of tone classification by tone determination (for example, two types of “tone” and “non-tone” in the above description), and detailed determination results are not required. Therefore, even if the processing frame (vector sequence) is shortened, there is a high possibility that the result will eventually converge to the same classification result as when the processing frame (vector sequence) is not shortened.
  • the frequency band important for determining the tone property of the input signal is typically a frequency band in which the power of the frequency component is large. Therefore, in the present embodiment, the frequency where the power of the frequency component is maximized is searched, and in the tone determination process of the next frame, the range in which downsampling is not performed is set to the vicinity of the frequency where the power is the largest. Thereby, it is possible to further suppress the performance deterioration of the tone determination.
  • the band where the power is maximum is determined as the important frequency band.
  • the frequency band corresponding to the condition in which the power is set in advance is the important frequency band. It can be determined.
  • FIG. 5 is a block diagram showing a main configuration of tone determination apparatus 500 according to the present embodiment.
  • tone determination apparatus 500 determines the tone characteristics of an input signal and outputs a determination result will be described as an example.
  • FIG. 5 the same components as those in FIG. 1 (Embodiment 1) are denoted by the same reference numerals.
  • the frequency conversion unit 101 performs frequency conversion of the input signal using SDFT, and outputs the SDFT coefficient obtained by frequency conversion to the Bark scale division unit 501.
  • the Bark scale division unit 501 divides the SDFT coefficient input from the frequency conversion unit 101 according to a division ratio set in advance based on the Bark scale, and outputs the divided SDFT coefficient to the downsampling unit 502.
  • the Bark scale is E.I. This is a psychoacoustic measure proposed by Zwicker, E., which is a critical band of human hearing.
  • the division in the Bark scale division unit 501 can be performed using a frequency value corresponding to the boundary between two critical bands adjacent to each other.
  • the downsampling unit 502 performs a downsampling process on the divided SDFT coefficient input from the Bark scale division unit 501 to shorten the sequence length of the SDFT coefficient. At this time, the downsampling unit 502 performs a different downsampling process for each of the divided SDFT coefficients. Next, the downsampling unit 502 outputs the downsampled SDFT coefficient to the buffer 503.
  • Buffer 503 stores the SDFT coefficient after downsampling of the previous frame, and outputs this to correlation analysis section 504. Further, the buffer 503 outputs the SDFT coefficient after down-sampling of the current frame input from the down-sampling unit 502 to the correlation analysis unit 504. Then, the buffer 503 updates the SDFT coefficient by exchanging the SDFT coefficient after the downsampling of the previous frame stored therein and the SDFT coefficient after the downsampling of the newly input current frame.
  • the correlation analysis unit 504 receives the SDFT coefficient of the previous frame and the SDFT coefficient of the current frame from the buffer 503, obtains the correlation between the frames of the SDFT coefficient, and outputs the obtained correlation to the tone determination unit 107.
  • the tone determination unit 107 determines the tone property of the input signal according to the correlation value input from the correlation analysis unit 504. Next, tone determination section 107 outputs tone information as an output of tone determination apparatus 500.
  • tone determination apparatus 500 will be described with reference to FIG. 6, taking as an example the case where the order of the input signal to be subjected to tone determination is 2Nth.
  • a ratio (ba: bb: bc) based on the Bark scale can be divided into three sections Y_b_a (k), Y_b_b (k), and Y_b_c (k) (FIG. 6).
  • ba INT (0.05575 ⁇ N)
  • bb INT (0.11969 ⁇ N) ⁇ ba
  • bc N ⁇ bb ⁇ ba.
  • INT means to take the integer part of the calculation result in parentheses.
  • the division ratio is divided into three bands of 0 to 920 Hz, 920 to 3150 Hz, and 3150 to 16000 Hz based on the frequency corresponding to the boundary between two critical bands adjacent to each other.
  • the ratio of these three bands is (0.0575: 0.1394: 0.831). Note that the number of divisions and the division ratio are not limited to these values, and may be changed as appropriate.
  • low-pass filter coefficients designed so as not to cause aliasing distortion are set in the filter coefficients [j0, j1, j2, j3].
  • s r ⁇ 3 holds, and s takes a value from 1 to bc / 3-1.
  • Y_b_c_re (0) Y_b_c (0) may be set without performing downsampling.
  • low-pass filter coefficients designed so as not to cause aliasing distortion are set in the filter coefficients [i0, i1, i2, i3].
  • the broken line in FIG. 6 represents a range corresponding to the same frequency band before and after downsampling.
  • the SDFT coefficient is divided into three sections of low frequency, mid frequency, and high frequency according to the Bark scale, and the SDFT coefficient is left as it is in the low frequency range, and is down-sampled by half in the mid frequency range.
  • the SDFT coefficient is obtained, and the SDFT coefficient down-sampled to 1/3 in the high frequency section.
  • the number of divisions based on the Bark scale is not limited to three, and may be two or four or more.
  • the downsampling method is not limited to the above method, and a downsampling method suitable for the form to which the present invention is applied may be used.
  • correlation analysis section 504 calculates correlation S according to the following equations (12) to (14), and outputs the calculated correlation S to tone determination section 107 as correlation information.
  • the processing frame (vector sequence) is shortened by performing the downsampling before obtaining the correlation, the length of the processing frame (vector sequence) used for calculating the correlation is conventionally reduced. It is shorter than that. Therefore, according to the present embodiment, it is possible to reduce the amount of calculation required for determining the tone characteristics of the input signal.
  • the frequency component is divided at a ratio set using a scale based on human psychoacoustic characteristics, thereby gradually increasing the degree of decrease in the number of samples due to downsampling. Can continue. As a result, the number of samples can be reduced particularly in a section of low importance in human psychoacoustics, and the amount of calculation can be further reduced.
  • the Bark scale is used as a scale used when dividing the SDFT coefficient.
  • other scales may be used as long as they are appropriate based on human psychoacoustic characteristics. Good.
  • FIG. 7 is a block diagram showing the main configuration of encoding apparatus 400 according to the present embodiment.
  • encoding apparatus 400 determines the tone characteristics of an input signal and switches the encoding method according to the determination result.
  • the tone determination device 100 (FIG. 1) according to the first embodiment or the tone determination device 500 (FIG. 5) according to the second embodiment.
  • the tone determination devices 100 and 500 obtain tone information from the input signal as described in the first embodiment or the second embodiment.
  • tone determination apparatuses 100 and 500 output tone information to selection unit 401.
  • the tone information may be output to the outside of the encoding device 400 as necessary.
  • the tone information is used as information for switching the decoding method in a decoding device (not shown).
  • a decoding method corresponding to the selected encoding method is selected in order to decode a code generated by an encoding method selected by the selection unit 401 described later.
  • the selection unit 401 receives tone information from the tone determination devices 100 and 500, and selects an output destination of the input signal according to the tone information. For example, the selection unit 401 selects the encoding unit 402 as the output destination of the input signal when the input signal is “tone”, and as the output destination of the input signal when the input signal is “non-tone”.
  • the encoding unit 403 is selected.
  • the encoding unit 402 and the encoding unit 403 encode the input signal using different encoding methods. Therefore, by such selection, the encoding method used for encoding the input signal can be switched according to the tone characteristics of the input signal.
  • the encoding unit 402 encodes the input signal and outputs a code generated by the encoding. Since the input signal input to the encoding unit 402 is a “tone”, the encoding unit 402 encodes the input signal by frequency transform encoding suitable for musical sound encoding.
  • the encoding unit 403 encodes the input signal and outputs a code generated by the encoding. Since the input signal input to the encoding unit 403 is “non-tone”, the encoding unit 403 encodes the input signal by CELP encoding suitable for speech encoding.
  • the encoding method used by the encoding units 402 and 403 for encoding is not limited to the above, and the most suitable encoding method among conventional encoding methods may be used as appropriate.
  • any one of the three or more encoding units may be selected according to the degree of tone determined in stages.
  • the input signal is described as an audio signal and / or a musical sound signal.
  • the present invention can be implemented for other signals in the same manner as described above.
  • the input signal can be encoded by an optimal encoding method according to the tone characteristics of the input signal.
  • FIG. 8 is a block diagram showing the main configuration of tone determination apparatus 600 according to the present embodiment.
  • tone determination apparatus 600 determines the tone characteristics of an input signal and outputs the determination result will be described as an example.
  • FIG. 8 the same components as those in FIG. 1 (Embodiment 1) are denoted by the same reference numerals, and description thereof is omitted.
  • a harmonic component calculation unit 601 calculates a harmonic component using a pitch lag input from the CELP encoder 702 shown in FIG. 10 to be described later, and information indicating the calculated harmonic component (harmonic component information) is a vector.
  • the data is output to the combining unit 602.
  • the vector combiner 602 receives from the buffer 103 the SDFT coefficient of the previous frame, the SDFT coefficient after downsampling of the previous frame, the SDFT coefficient of the current frame, and the SDFT coefficient after downsampling of the current frame.
  • the vector combining unit 602 receives harmonic component information from the harmonic component calculating unit 601. Next, the vector combining unit 602 combines a part of the SDFT coefficient of the previous frame and a part of the SDFT coefficient after downsampling of the previous frame to generate a new SDFT coefficient, and performs a correlation analysis on the generated SDFT coefficient To the unit 603.
  • the vector combining unit 602 combines a part of the SDFT coefficient of the current frame and a part of the SDFT coefficient after downsampling of the current frame to generate a new SDFT coefficient, and performs a correlation analysis on the generated SDFT coefficient. To the unit 603. At this time, what type of combination is performed by the vector combination unit 602 is determined according to the harmonic component information.
  • the correlation analysis unit 603 receives the SDFT coefficient after combining the previous frame and the SDFT coefficient after combining the current frame from the vector combining unit 602, obtains the correlation between the frames of the SDFT coefficient, and calculates the calculated correlation as a tone.
  • the data is output to the determination unit 107.
  • the tone determination unit 107 receives the correlation from the correlation analysis unit 603 and determines the tone of the input signal according to the correlation value. Next, tone determination section 107 outputs tone information as an output of tone determination apparatus 600.
  • tone determination device 600 will be described with reference to FIG. 9, taking as an example the case where the order of the input signal to be subjected to tone determination is 2Nth.
  • the harmonic component calculation unit 601 inputs a pitch lag from a CELP encoder 702 shown in FIG.
  • the pitch lag is a basic period (frequency) component of the input signal, which is called a pitch period, a basic period, etc. in the time domain, and is called a pitch frequency, a basic frequency, etc. in the frequency domain.
  • a pitch lag is obtained when generating an adaptive excitation vector.
  • the adaptive excitation vector is obtained by cutting out the most appropriate part as the periodic component of the input signal from the excitation sequence (adaptive excitation codebook) generated in the past by the length of the frame (subframe). .
  • the pitch lag is a value that indicates how many samples back from the current time the adaptive sound source vector is cut out.
  • the pitch lag obtained in the CELP encoder 702 is directly used as a harmonic. What is necessary is just to input into the component calculation part 601, and it is not necessary to add the new process for calculating
  • the harmonic component calculation unit 601 obtains a fundamental frequency using the input pitch lag.
  • the fundamental frequency P can be obtained by the following equation (15).
  • pl is a pitch lag, which corresponds to the start position of the extracted portion when the adaptive excitation vector is extracted from the adaptive excitation codebook.
  • the basic frequency P is found to be 400 Hz according to equation (15).
  • the harmonic component calculation unit 601 obtains harmonic components of integer multiples (2 ⁇ P, 3 ⁇ P, 4 ⁇ P,...) Of the fundamental frequency P, and the vector combination unit 602 obtains the fundamental frequency P and the harmonic component information. Output to.
  • the harmonic component calculation unit 601 may output only harmonic component information corresponding to the frequency band of the SDFT coefficient used for tone determination. For example, when the frequency band of the SDFT coefficient used for tone determination is 8000 to 12000 Hz and the fundamental frequency P is 400 Hz, the harmonic component calculation unit 601 uses the harmonic components (8000, 8400, 8800) included in the frequency band 8000 to 12000 Hz. ,..., 12000) need only be output.
  • the harmonic component information output by the harmonic component calculating unit 601 is uniquely determined according to the value of the pitch lag pl. Therefore, if the harmonic component information is obtained in advance for all pitch lags pl and stored in the memory, the harmonic component information to be output by referring to the memory without performing the above processing for obtaining the harmonic component information. Therefore, it is possible to avoid an increase in the amount of calculation for obtaining overtone component information.
  • the vector combining unit 602 combines the SDFT coefficients of the current frame using the harmonic component information. Specifically, the vector combining unit 602 selects a non-downsampled SDFT coefficient in the vicinity of the frequency band corresponding to the harmonic component, selects a downsampled SDFT coefficient in the frequency band not corresponding to the harmonic component, Combine SDFT coefficients. For example, only 2 ⁇ P is input as harmonic component information, and the SDFT coefficient corresponding to the frequency of 2 ⁇ P is Y (PH), and down-sampling is performed in the range (length LH) in the vicinity of Y (PH). When a non-SDFT coefficient is selected, the vector combining unit 602 combines SDFT coefficients according to the following equation (16).
  • the vector combining unit 602 combines the SDFT coefficients of the previous frame according to the following equation (17).
  • FIG. 9 shows the state of the above combining process in the vector combining unit 602.
  • the SDFT coefficients after the downsampling are basically used as the combined SDFT coefficients, and within the range of the length LH around the frequency PH of the harmonic component.
  • Corresponding SDFT coefficients ((2)) are inserted between (1) and (3) for coupling.
  • the broken lines in FIG. 9 represent ranges corresponding to the same frequency band before and after downsampling. That is, as shown in FIG. 9, it is considered that the vicinity of the frequency PH of the harmonic component is important, and the non-downsampled SDFT coefficient is used as it is in the vicinity of the frequency PH of the harmonic component.
  • LH which is the length of the extracted range, is set in advance to a value suitable as a constant.
  • LH When LH is lengthened, the combined SDFT coefficient becomes long, so that the amount of calculation is increased in the processing for obtaining the correlation later. On the other hand, the correlation to be obtained becomes more accurate. Therefore, LH may be determined in consideration of a trade-off between the calculation amount and the accuracy of correlation. It is also possible to adaptively change LH.
  • K (N + LH) / 2-1.
  • the vector sequence length is reduced by downsampling in a frequency band other than the vicinity of the frequency corresponding to the harmonic component, so that the amount of calculation required for determining the tone characteristics of the input signal is reduced. can do.
  • the vibrations of music particularly the strings of musical instruments and the air in musical instrument tubes, usually contain harmonic components that are integral multiples such as doubles and triples in addition to basic frequency components ( Harmonic structure).
  • Harmonic structure usually contain harmonic components that are integral multiples such as doubles and triples in addition to basic frequency components ( Harmonic structure).
  • the vector sequence length is not shortened in the range near the frequency corresponding to the harmonic component, and is used as it is for determination of tone. Therefore, a harmonic structure that is important in the determination of tone characteristics is taken into consideration, and deterioration of the tone characteristics determination performance due to lack of information amount due to downsampling can be prevented.
  • FIG. 10 is a block diagram showing the main configuration of encoding apparatus 700 according to the present embodiment.
  • encoding apparatus 700 determines the tone characteristics of an input signal and switches the encoding method according to the determination result.
  • FIG. 10 the same components as those in FIG. 7 (Embodiment 3) are denoted by the same reference numerals, and description thereof is omitted.
  • 10 includes the tone determination device 600 (FIG. 8) according to the fourth embodiment.
  • the downsampling unit 701 performs downsampling of the input signal and outputs the input signal after downsampling to the CELP encoder 702. For example, when the input signal to the downsampling unit 701 is 32000 Hz, the input signal is often downsampled to 16000 Hz so that the input signal has an optimum frequency band as the input signal to the CELP encoder 702.
  • CELP encoder 702 performs CELP encoding on the input signal after downsampling input from downsampling unit 701.
  • CELP encoder 702 outputs a code obtained as a result of CELP encoding to CELP decoder 703 and outputs the code as a part of the encoding result of encoding apparatus 700 to the outside of encoding apparatus 700. Further, CELP encoder 702 outputs a pitch lag obtained in the CELP encoding process to tone determination apparatus 600.
  • tone determination apparatus 600 obtains tone information from the input signal and pitch lag. Next, tone determination apparatus 600 outputs tone information to selection unit 401. Note that, as in the third embodiment, this tone information may be output to the outside of the encoding apparatus 700 as necessary.
  • CELP decoder 703 performs CELP decoding on the code input from CELP encoder 702.
  • CELP decoder 703 outputs a decoded signal obtained as a result of CELP decoding to upsampling section 704.
  • the upsampling unit 704 upsamples the decoded signal input from the CELP decoder 703 and outputs it to the adder 705. For example, when the input signal to the downsampling unit 701 is 32000 Hz, the upsampling unit 704 obtains a 32000 Hz decoded signal by upsampling.
  • the adder 705 subtracts the decoded signal after upsampling from the input signal, and outputs the residual signal after subtraction to the selection unit 401.
  • the signal component encoded by the CELP encoder 702 is converted into the code of the next encoding process. It is possible to make it.
  • the encoding unit 402 encodes the residual signal and outputs a code generated by the encoding. Since the input signal input to the encoding unit 402 is a “tone”, the encoding unit 402 encodes the residual signal using an encoding method suitable for encoding musical sounds.
  • the encoding unit 403 encodes the residual signal and outputs a code generated by the encoding. Since the input signal input to the encoding unit 403 is “non-tone”, the encoding unit 403 encodes the residual signal by an encoding method suitable for speech encoding.
  • any one of the three or more encoding units may be selected according to the degree of tone determined in stages.
  • the input signal is described as an audio signal and / or a musical sound signal.
  • the present invention can be implemented for other signals in the same manner as described above.
  • the input signal can be encoded by an optimal encoding method according to the tone characteristics of the input signal.
  • the frequency conversion of the input signal may be performed by frequency conversion other than SDFT, for example, DFT (Discrete Fourier Transform), FFT (Fast Fourier Transform), DCT (Discrete Cosine Transform), MDCT (Modified Discrete Cosine Transform), etc. Good.
  • DFT Discrete Fourier Transform
  • FFT Fast Fourier Transform
  • DCT Discrete Cosine Transform
  • MDCT Modified Discrete Cosine Transform
  • the tone determination device and the coding device can be mounted on a communication terminal device and a base station device in a mobile communication system in which transmission of voice, music, etc. is performed.
  • a communication terminal device and a base station device having similar operational effects can be provided.
  • the present invention can also be realized by software.
  • an algorithm of the tone determination method according to the present invention is described in a programming language, and this program is stored in a memory and executed by information processing means, thereby realizing the same function as the tone determination apparatus according to the present invention. can do.
  • each functional block used in the description of the above embodiment is typically realized as an LSI which is an integrated circuit. These may be individually made into one chip, or may be made into one chip so as to include a part or all of them.
  • LSI LSI
  • IC system LSI
  • super LSI ultra LSI
  • the method of circuit integration is not limited to LSI, and implementation with a dedicated circuit or a general-purpose processor is also possible.
  • An FPGA Field Programmable Gate Array
  • a reconfigurable processor that can reconfigure the connection or setting of circuit cells inside the LSI may be used.
  • the present invention can be applied to uses such as speech encoding and speech decoding.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Error Detection And Correction (AREA)

Abstract

 現フレームの周波数成分と前フレームの周波数成分との相関により入力信号のトーン性を判定するトーン判定装置において、計算量を低減させることができるトーン判定装置。この装置において、ベクトル結合部(104)は、前フレームのSDFT係数の一部と、前フレームのダウンサンプリング後のSDFT係数の一部とを結合して新たなSDFT係数を生成するとともに、現フレームのSDFT係数の一部と、現フレームのダウンサンプリング後のSDFT係数の一部とを結合して新たなSDFT係数を生成し、相関分析部(105)は、SDFT係数のフレーム間での相関を求めるとともに、現フレームのパワーを一定の帯域毎に求め、帯域決定部(106)は、パワーが最大となる帯域を決定し、決定した帯域の位置情報をシフト情報として出力し、トーン判定部(107)は、相関分析部(105)から入力される相関の値に応じて入力信号のトーン性を判定する。

Description

トーン判定装置およびトーン判定方法
 本発明は、トーン判定装置およびトーン判定方法に関する。
 ディジタル無線通信や、インターネット通信に代表されるパケット通信、または、音声蓄積などの分野においては、電波などの伝送路の容量や記憶媒体の有効利用を図るため、音声信号の符号化/復号化技術が不可欠であり、これまでに多くの音声符号化/復号化方式が開発されてきた。その中で、CELP(Code Excited Linear Prediction)方式の音声符号化/復号化方式が主流の方式として実用化されている。
 CELP方式の音声符号化装置は、予め記憶された音声モデルに基づいて入力音声をコード化する。具体的には、CELP方式の音声符号化装置は、ディジタル化された音声信号を10~20ms程度のフレームに区切り、フレーム毎に音声信号の線形予測分析を行い、線形予測係数と線形予測残差ベクトルを求め、線形予測係数と線形予測残差ベクトルをそれぞれ個別に符号化する。
 また、入力信号に応じてビットレートを変更する可変レート符号化装置も実現されている。可変レート符号化装置では、入力信号が主に音声情報を多く含む場合には高いビットレートで入力信号を符号化し、入力信号が主に雑音情報を多く含む場合には低いビットレートで入力信号を符号化することが可能である。すなわち、重要な情報を多く含む場合には高品質な符号化により、復号化装置側で再生される出力信号の高品質化を図る一方で、重要性が低い場合には低品質な符号化に抑えることにより、電力、伝送帯域等を節約することができる。このように、入力信号の特徴(例えば、有声性、無声性、トーン性等)を検出し、検出結果に応じて符号化方法を変更することにより、入力信号の特徴に適した符号化を行うことができ、符号化性能を向上させることができる。
 入力信号が音声情報であるか、雑音情報であるかを分類する方法としてVAD(Voice Active Detector)がある。具体的には、(1)入力信号を量子化してクラス分類を行い、クラス情報から音声情報/雑音情報を分類する方法、(2)入力信号の基本周期を求め、基本周期の長さだけ遡った信号と現信号との相関の高さに応じて音声情報/雑音情報を分類する方法、(3)入力信号の周波数成分の時間変動を調べ、変動情報に応じて音声情報/雑音情報を分類する方法等がある。
 また、SDFT(Shifted Discrete Fourier Transform)により入力信号の周波数成分を求め、現フレームの周波数成分と前フレームの周波数成分との相関の高さに応じて入力信号のトーン性を分類する技術がある(例えば、特許文献1)。上記特許文献1開示の技術では、トーン性に応じて周波数帯域拡張の方法を切り替えることにより、符号化性能の向上を図っている。
国際公開第2007/052088号
 しかしながら、上記特許文献1開示のようなトーン判定装置、すなわち、SDFTにより入力信号の周波数成分を求め、現フレームの周波数成分と前フレームの周波数成分との相関により入力信号のトーン性を検出するトーン判定装置においては、すべての周波数帯域を考慮して相関を求めているため、計算量が大きくなってしまうという課題があった。
 本発明の目的は、入力信号の周波数成分を求め、現フレームの周波数成分と前フレームの周波数成分との相関により入力信号のトーン性を判定するトーン判定装置およびトーン判定方法において、計算量を低減させることである。
 本発明のトーン判定装置は、周波数変換された入力信号のベクトル系列長を短縮する短縮処理を行う短縮手段と、ベクトル系列長短縮後のベクトル系列を用いて相関を求める相関手段と、前記相関を用いて前記入力信号のトーン性を判定する判定手段と、を具備する構成を採る。
 本発明によれば、トーン判定に要する計算量を低減させることができる。
本発明の実施の形態1に係るトーン判定装置の主要な構成を示すブロック図 本発明の実施の形態1に係るSDFT係数の結合処理の様子を表す図 本発明の実施の形態1に係る相関分析部の内部構成を示すブロック図 本発明の実施の形態1に係る帯域決定部の内部構成を示すブロック図 本発明の実施の形態2に係るトーン判定装置の主要な構成を示すブロック図 本発明の実施の形態2に係るSDFT係数の分割処理およびダウンサンプリング処理の様子を表す図 本発明の実施の形態3に係る符号化装置の主要な構成を示すブロック図 本発明の実施の形態4に係るトーン判定装置の主要な構成を示すブロック図 本発明の実施の形態4に係るSDFT係数の結合処理の様子を表す図 本発明の実施の形態5に係る符号化装置の主要な構成を示すブロック図
 以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。
 (実施の形態1)
 図1は、本実施の形態に係るトーン判定装置100の主要な構成を示すブロック図である。ここでは、トーン判定装置100が、入力信号のトーン性を判定し、判定結果を出力する場合を例にとって説明する。入力信号は、音声信号であっても楽音信号であってもよい。
 図1において、周波数変換部101は、SDFTを用いて入力信号の周波数変換を行い、周波数変換により求められる周波数成分であるSDFT係数をダウンサンプリング部102とバッファ103とに出力する。
 ダウンサンプリング部102は、周波数変換部101から入力されるSDFT係数に対してダウンサンプリング処理を行い、SDFT係数の系列長を短縮する。次いで、ダウンサンプリング部102は、ダウンサンプリング後のSDFT係数をバッファ103に出力する。
 バッファ103は、前フレームのSDFT係数と、前フレームのダウンサンプリング後のSDFT係数とを内部に格納しており、これら2つのSDFT係数をベクトル結合部104に出力する。次いで、バッファ103は、周波数変換部101から現フレームのSDFT係数を入力されるとともに、ダウンサンプリング部102から現フレームのダウンサンプリング後のSDFT係数を入力され、これらの2つのSDFT係数をベクトル結合部104に出力する。次いで、バッファ103は、内部に格納されている前フレームの上記2つのSDFT係数(前フレームのSDFT係数と、前フレームのダウンサンプリング後のSDFT係数)と、現フレームの上記2つのSDFT係数(現フレームのSDFT係数と、現フレームのダウンサンプリング後のSDFT係数)とをそれぞれ入れ替えることにより、SDFT係数を更新する。
 ベクトル結合部104は、バッファ103から前フレームのSDFT係数と、前フレームのダウンサンプリング後のSDFT係数と、現フレームのSDFT係数と、現フレームのダウンサンプリング後のSDFT係数とを入力されるとともに、帯域決定部106からシフト情報を入力される。次いで、ベクトル結合部104は、前フレームのSDFT係数の一部と、前フレームのダウンサンプリング後のSDFT係数の一部とを結合して新たなSDFT係数(前フレーム結合SDFT係数)を生成し、この新たなSDFT係数を相関分析部105に出力する。また、ベクトル結合部104は、現フレームのSDFT係数の一部と、現フレームのダウンサンプリング後のSDFT係数の一部とを結合して新たなSDFT係数(現フレーム結合SDFT係数)を生成し、この新たなSDFT係数を相関分析部105に出力する。この際、どのように結合するのかは、上記シフト情報に応じて決定される。
 相関分析部105は、ベクトル結合部104から前フレーム結合SDFT係数と、現フレーム結合SDFT係数とを入力され、SDFT係数のフレーム間での相関を求め、求めた相関をトーン判定部107に出力する。また、相関分析部105は、現フレームのパワーを一定の帯域毎に求め、現フレームの帯域毎のパワーをパワー情報として帯域決定部106に出力する。上記パワーは、相関を求める過程で得られる付随的な二次生成物であるため、パワーを求めるための計算を別途行う必要は無い。
 帯域決定部106は、パワーが最大となる帯域は入力信号のトーン性の判定において重要な帯域であるため、相関分析部105から入力されるパワー情報を用いてパワーが最大となる帯域を決定し、決定した帯域の位置情報をシフト情報としてベクトル結合部104に出力する。
 トーン判定部107は、相関分析部105から入力される相関の値に応じて入力信号のトーン性を判定する。次いで、トーン判定部107は、トーン判定装置100の出力としてトーン情報を出力する。
 次に、トーン判定対象となる入力信号の次数が2N次(Nは1以上の整数)である場合を例にとって、トーン判定装置100の動作について説明する。なお、以下の説明では、入力信号をx(i)(i=0,1,…,2N-1)と記す。
 周波数変換部101は、入力信号x(i)(i=0,1,…,2N-1)を入力され、下記の式(1)に従って周波数変換を行い、得られたSDFT係数Y(k)(k=0,1,…,N)をダウンサンプリング部102とバッファ103とに出力する。
Figure JPOXMLDOC01-appb-M000001
 ここで、h(n)は窓関数であり、MDCT窓関数等が使用される。また、uは時間シフトの係数、vは周波数シフトの係数であり、例えば、u=(N+1)/2、v=1/2のように設定される。
 ダウンサンプリング部102は、周波数変換部101からSDFT係数Y(k)(k=0,1,…,N)を入力され、下記の式(2)に従ってダウンサンプリング処理を行う。
Figure JPOXMLDOC01-appb-M000002
 ここで、n=m×2が成り立ち、mは1からN/2-1までの値をとる。m=0の場合は、ダウンサンプリングを行わずにY_re(0)=Y(0)としてもよい。ここで、フィルタ係数[j0,j1,j2,j3]には折り返し歪みが生じないように設計された低域通過フィルタ係数を設定する。例えば、入力信号のサンプリング周波数が32000Hzであるとき、j0=0.195、j1=0.3、j2=0.3、j3=0.195に設定すると良好な結果が得られることが判っている。
 次いで、ダウンサンプリング部102は、ダウンサンプリング後のSDFT係数Y_re(k)(k=0,1,…,N/2-1)をバッファ103に出力する。
 バッファ103は、周波数変換部101からSDFT係数Y(k)(k=0,1,…,N)を入力されるとともに、ダウンサンプリング部102からダウンサンプリング後のSDFT係数Y_re(k)(k=0,1,…,N/2-1)を入力される。次いで、バッファ103は、内部に格納されている前フレームのSDFT係数Y_pre(k)(k=0,1,…,N)と、前フレームのダウンサンプリング後のSDFT係数Y_re_pre(k)(k=0,1,…,N/2-1)とをベクトル結合部104に出力する。次いで、バッファ103は、現フレームのSDFT係数Y(k)(k=0,1,…,N)と、現フレームのダウンサンプリング後のSDFT係数Y_re(k)(k=0,1,…,N/2-1)とをベクトル結合部104に出力する。次いで、バッファ103は、現フレームのSDFT係数Y(k)(k=0,1,…,N)をY_pre(k)(k=0,1,…,N)として内部に格納し、現フレームのダウンサンプリング後のSDFT係数Y_re(k)(k=0,1,…,N/2-1)をY_re_pre(k)(k=0,1,…,N/2-1)として内部に格納する。すなわち、現フレームのSDFT係数と前フレームのSDFT係数とを入れ替えることにより、バッファの更新を行う。
 ベクトル結合部104は、バッファ103から現フレームのSDFT係数Y(k)(k=0,1,…,N)と、現フレームのダウンサンプリング後のSDFT係数Y_re(k)(k=0,1,…,N/2-1)と、前フレームのSDFT係数Y_pre(k)(k=0,1,…,N)と、前フレームのダウンサンプリング後のSDFT係数Y_re_pre(k)(k=0,1,…,N/2-1)とを入力されるとともに、帯域決定部106からシフト情報SHを入力される。次いで、ベクトル結合部104は、下記の式(3)に従って現フレームのSDFT係数の結合を行う。
Figure JPOXMLDOC01-appb-M000003
 同様に、ベクトル結合部104は、下記の式(4)に従って前フレームのSDFT係数の結合を行う。
Figure JPOXMLDOC01-appb-M000004
 ここで、LHは、結合に用いるSDFT係数Y(k)(k=0,1,…,N)の長さ、または、結合に用いるY_pre(k)(k=0,1,…,N)の長さである。
 ベクトル結合部104での上記の結合処理の様子を表すと図2に示すようになる。
 図2に示すように、結合後のSDFT係数には基本的にダウンサンプリング後のSDFT係数((1)と(3))が用いられ、シフト情報SHを先頭として長さLHの範囲に相当するSDFT係数((2))が、(1)と(2)の間に挿入されて結合が行われる。図2の破線は、ダウンサンプリング前後で、同じ周波数帯域に相当する範囲同士を表している。すなわち、図2に示すように、シフト情報SHとは、SDFT係数Y(k)(k=0,1,…,N)またはSDFT係数Y_pre(k)(k=0,1,…,N)を、どの周波数帯域から抜き出すのかを指示する値である。ここで、抜き出す範囲の長さであるLHは、定数として適した値を予め設定しておく。LHを長くすると結合後のSDFT係数が長くなるため、後の相関を求める処理において計算量が大きくなる一方で、求める相関がより正確になる。従って、計算量と相関の正確さとのトレードオフを考慮して、LHを決めるとよい。また、LHを適応的に変化させることも可能である。
 次いで、ベクトル結合部104は、現フレームの結合後のSDFT係数Y_co(k)(k=0,1,…,K)と、前フレームの結合後のSDFT係数Y_co_pre(k)(k=0,1,…,K)とを相関分析部105に出力する。ここで、K=(N+LH)/2-1である。
 図3は、本実施の形態に係る相関分析部105の内部構成を示すブロック図である。
 図3において、誤差パワー計算部201は、ベクトル結合部104から現フレームの結合後のSDFT係数Y_co(k)(k=0,1,…,K)と前フレームの結合後のSDFT係数Y_co_pre(k)(k=0,1,…,K)とを入力され、下記の式(5)に従って誤差パワーSSを求める。
Figure JPOXMLDOC01-appb-M000005
 次いで、誤差パワー計算部201は、求めた誤差パワーSSを除算部204に出力する。
 パワー計算部202は、ベクトル結合部104から現フレームの結合後のSDFT係数Y_co(k)(k=0,1,…,K)を入力され、下記の式(6)に従って、各kにおけるパワーSA(k)を求める。
Figure JPOXMLDOC01-appb-M000006
 次いで、パワー計算部202は、求めたパワーSA(k)をパワー情報として加算部203と帯域決定部106(図1)とに出力する。
 加算部203は、パワー計算部からパワーSA(k)を入力され、下記の式(7)に従って、パワーSA(k)の総和であるパワーSAを求める。
Figure JPOXMLDOC01-appb-M000007
 次いで、加算部203は、求めたパワーSAを除算部204に出力する。
 除算部204は、誤差パワー計算部201から誤差パワーSSを入力されるとともに、加算部203からパワーSAを入力される。次いで、除算部204は、下記の式(8)に従って、相関Sを求め、求めた相関Sを相関情報としてトーン判定部107(図1)に出力する。
Figure JPOXMLDOC01-appb-M000008
 図4は、本実施の形態に係る帯域決定部106の内部構成を示すブロック図である。
 図4において、重み係数格納部301は、相関分析部105(図1)がパワー情報として出力するパワーSA(k)に乗算する重み係数W(k)(k=0,1,…,N)を格納しており、この重み係数を長さKに短縮してWa(k)(k=0,1,…,K)として乗算部302に出力する。短縮の方法は、k<SHまたはSH+LH-1<kに相当する範囲において、W(k)を1つおきに間引けばよい。ここで、重み係数W(k)(k=0,1,…,N)を、低域の範囲では1.0に設定し、高域の範囲では0.9に設定する等して、低域の範囲をより重要視することが可能である。
 乗算部302は、相関分析部105(図1)からパワー情報としてパワーSA(k)を入力されるとともに、重み係数格納部301から重み係数Wa(k)(k=0,1,…,K)を入力される。次いで、乗算部302は、下記の式(9)に従って、重み係数を乗じた重み付きパワーSW(k)(k=0,1,…,K)を求め、この重み付きパワーを最大パワー探索部303に出力する。
Figure JPOXMLDOC01-appb-M000009
 また、重み係数格納部301および乗算部302による重み付け処理を省くことも可能である。重み付け処理を省くことにより、式(9)に必要な乗算を無くすることができ、更なる計算量削減が可能となる。
 最大パワー探索部303は、乗算部302から重み付きパワーSW(k)(k=0,1,…,K)を入力され、すべてのkの中から重み付きパワーSW(k)が最大となるkを探し出し、探し出したkをシフト数決定部304に出力する。
 シフト数決定部304は、最大パワー探索部303から重み付きパワーSW(k)が最大となるkを入力され、このkに相当する周波数と一致するSHの値を求め、このSHの値をシフト情報としてベクトル結合部104(図1)に出力する。
 図1に示すトーン判定部107は、相関分析部105から相関Sを入力され、相関Sの値に応じてトーン性を決定し、決定したトーン性をトーン情報として出力する。具体的には、トーン判定部107は、閾値Tと相関Sとを比較し、T>Sが成り立つ場合は現フレームを「トーン」と判定し、成り立たない場合は現フレームを「非トーン」と判定すればよい。閾値Tの値は、学習により統計的に適した値を求めておけばよい。また、上記特許文献1に開示されている方法でトーン性を判定してもよい。また、複数の閾値を設定し、段階的にトーンの度合いを判定してもよい。
 このように、本実施の形態によれば、相関を求める前にダウンサンプリングを行って処理フレーム(ベクトル系列)を短縮するため、相関の計算に用いる処理フレーム(ベクトル系列)の長さが従来に比べて短くなる。よって、本実施の形態によれば、入力信号のトーン性の判定に要する計算量を低減することができる。
 また、本実施の形態によれば、入力信号のトーン性を判定するために重要な区間(すなわち、入力信号のトーン性を判定するために重要な周波数帯域)ではダウンサンプリングを行わず、処理フレーム(ベクトル系列)を短縮せずにそのまま用いてトーン判定を行うため、トーン判定の性能劣化を抑えることができる。
 なお、トーン判定によるトーン性の分類は通常2~3種類程度(例えば、上記説明では「トーン」と「非トーン」の2種類)と少なく、細かい精度の判定結果が要求される訳ではない。よって、処理フレーム(ベクトル系列)を短縮しても、最終的に、処理フレーム(ベクトル系列)を短縮しないときと同様の分類結果に収束する可能性が高い。
 また、入力信号のトーン性を判定するために重要な周波数帯域は、代表的には、周波数成分のパワーが大きな周波数帯域であると考えられる。よって、本実施の形態では、周波数成分のパワーが最も大きくなる周波数を探索し、次のフレームのトーン判定処理において、ダウンサンプリングを行わない範囲をパワーが最も大きい周波数近辺とした。これにより、トーン判定の性能劣化をさらに抑えることができる。なお、本実施の形態では、入力信号のトーン性の判定において、パワーが最大となる帯域を重要な周波数帯域と決定したが、パワーが予め設定された条件に該当する周波数帯域を重要な周波数帯域と決定すればよい。
 (実施の形態2)
 図5は、本実施の形態に係るトーン判定装置500の主要な構成を示すブロック図である。ここでは、トーン判定装置500が、入力信号のトーン性を判定し、判定結果を出力する場合を例にとって説明する。なお、図5において、図1(実施の形態1)と同一の構成部には同一符号を付す。
 図5において、周波数変換部101は、SDFTを用いて入力信号の周波数変換を行い、周波数変換により求められたSDFT係数をバーク尺度分割部501に出力する。
 バーク尺度分割部501は、周波数変換部101から入力されるSDFT係数を、バーク尺度に基づいて予め設定されている分割割合に従って分割し、分割されたSDFT係数をダウンサンプリング部502に出力する。ここで、バーク尺度とは、E.ツヴィッカー(Zwicker,E.)により提案された音響心理学的尺度であり、人間の聴覚の臨界帯域(critical band)を求めたものである。バーク尺度分割部501における分割は、互いに隣接する2つの臨界帯域の境界に相当する周波数の値を用いて行うことができる。
 ダウンサンプリング部502は、バーク尺度分割部501から入力される分割されたSDFT係数に対してダウンサンプリング処理を行い、SDFT係数の系列長を短縮する。この際、ダウンサンプリング部502は、分割されたSDFT係数毎に異なるダウンサンプリング処理を行う。次いで、ダウンサンプリング部502は、ダウンサンプリング後のSDFT係数をバッファ503に出力する。
 バッファ503は、前フレームのダウンサンプリング後のSDFT係数を内部に格納しており、これを相関分析部504に出力する。また、バッファ503は、ダウンサンプリング部502から入力される、現フレームのダウンサンプリング後のSDFT係数を相関分析部504に出力する。そして、バッファ503は、内部に格納されている前フレームのダウンサンプリング後のSDFT係数と、新たに入力された現フレームのダウンサンプリング後のSDFT係数とを入れ替えることにより、SDFT係数を更新する。
 相関分析部504は、バッファ503から前フレームのSDFT係数と、現フレームのSDFT係数とを入力され、SDFT係数のフレーム間での相関を求め、求めた相関をトーン判定部107に出力する。
 トーン判定部107は、相関分析部504から入力される相関の値に応じて入力信号のトーン性を判定する。次いで、トーン判定部107は、トーン判定装置500の出力としてトーン情報を出力する。
 次に、トーン判定対象となる入力信号の次数が2N次である場合を例にとって、図6を用いて、トーン判定装置500の動作について説明する。
 バーク尺度分割部501は、周波数変換部101からSDFT係数Y(k)(k=0,1,…,N)を入力され、バーク尺度に基づいた分割割合でSDFT係数Y(k)(k=0,1,…,N)を分割する。例えば、入力信号のサンプリング周波数が32000Hzであるとき、バーク尺度分割部501は、下記の式(10)に示すように、SDFT係数Y(k)(k=0,1,…,N)を、バーク尺度に基づく割合(ba:bb:bc)で、Y_b_a(k),Y_b_b(k),Y_b_c(k)の3つの区間に3分割することができる(図6)。
Figure JPOXMLDOC01-appb-M000010
 ここで、ba=INT(0.0575×N),bb=INT(0.1969×N)-ba,bc=N-bb-baである。また、INTは、括弧内の計算結果の整数部分をとることを意味する。また、分割割合は、互いに隣接する2つの臨界帯域の境界に相当する周波数に基づいて、0~920Hz,920~3150Hz,3150~16000Hzの3帯域に分割する場合を一例として挙げている。この3帯域の割合は、(0.0575:0.1394:0.8031)となる。なお、分割数および分割割合は、こられの値に限られず、適宜変更してもよい。
 次いで、バーク尺度分割部501は、分割されたSDFT系列Y_b_a(k)(k=0,1,…,ba-1),Y_b_b(k)(k=0,1,…,bb-1),Y_b_c(k)(k=0,1,…,bc)をダウンサンプリング部502に出力する。
 ダウンサンプリング部502は、バーク尺度分割部501から入力される分割されたSDFT係数Y_b_a(k)(k=0,1,…,ba-1),Y_b_b(k)(k=0,1,…,bb-1),Y_b_c(k)(k=0,1,…,bc)に対して、下記の式(11)に従ってダウンサンプリング処理を行う。
Figure JPOXMLDOC01-appb-M000011
 ここでは、n=m×2が成り立ち、mは1からbb/2-1までの値をとる。m=0の場合は、ダウンサンプリングを行わずにY_b_b_re(0)=Y_b_b(0)としてもよい。ここで、フィルタ係数[j0,j1,j2,j3]には、折り返し歪みが生じないように設計された低域通過フィルタ係数を設定する。
 また、ここでは、s=r×3が成り立ち、sは1からbc/3-1までの値をとる。r=0の場合は、ダウンサンプリングを行わずにY_b_c_re(0)=Y_b_c(0)としてもよい。ここで、フィルタ係数[i0,i1,i2,i3]には、折り返し歪みが生じないように設計された低域通過フィルタ係数を設定する。
 すなわち、ba区間のSDFT係数Y_b_a(k)(k=0,1,…,ba-1)についてはダウンサンプリングを行わずにそのままの値を残し、bb区間のSDFT係数Y_b_b(k)(k=0,1,…,bb-1)についてはSDFT係数の長さが2分の1となるようにダウンサンプリングを行い、bc区間のSDFT係数Y_b_c(k)(k=0,1,…,bc)についてはSDFT係数の長さが3分の1となるようにダウンサンプリングを行う(図6)。なお、図6の破線は、ダウンサンプリング前後で、同じ周波数帯域に相当する範囲を表している。
 このように、バーク尺度に従ってSDFT係数を低域、中域、高域の3区間に分割し、低域の区間ではSDFT係数をそのまま残し、中域の区間では2分の1にダウンサンプリングされたSDFT係数を求め、高域の区間では3分の1にダウンサンプリングされたSDFT係数を求める。これにより、音響心理的特性に基づいた尺度でSDFT係数のサンプル数を減少させることができる。
 なお、バーク尺度に基づいた分割個数は3個に限らず、2個または4個以上の分割数であってもよい。
 また、ダウンサンプリングの方法も上記の方法に限らず、本発明が適用される形態に応じて適したダウンサンプリング方法を用いてもよい。
 次いで、ダウンサンプリング部502は、SDFT係数Y_b_a(k)(k=0,1,…,ba-1)と、ダウンサンプリング後のSDFT係数Y_b_b_re(k)(k=0,1,…,bb/2-1),Y_b_c_re(k)(k=0,1,…,bc/3-1)と、をバッファ503に出力する。
 バッファ503は、ダウンサンプリング部502からSDFT係数Y_b_a(k)(k=0,1,…,ba-1)と、ダウンサンプリング後のSDFT係数Y_b_b_re(k)(k=0,1,…,bb/2-1),Y_b_c_re(k)(k=0,1,…,bc/3-1)と、を入力される。
 次いで、バッファ503は、内部に格納されている前フレームのSDFT係数Y_b_a_pre(k)(k=0,1,…,ba-1)と、前フレームのダウンサンプリング後のSDFT係数Y_b_b_re_pre(k)(k=0,1,…,bb/2-1),Y_b_c_re_pre(k)(k=0,1,…,bc/3-1)と、を相関分析部504に出力する。
 次いで、バッファ503は、現フレームのSDFT係数Y_b_a(k)(k=0,1,…,ba-1)と、現フレームのダウンサンプリング後のSDFT係数Y_b_b_re(k)(k=0,1,…,bb/2-1),Y_b_c_re(k)(k=0,1,…,bc/3-1)と、を相関分析部504に出力する。
 次いで、バッファ503は、現フレームのSDFT係数Y_b_a(k)(k=0,1,…,ba-1)をY_b_a_pre(k)(k=0,1,…,ba-1)として内部に格納し、現フレームのダウンサンプリング後のSDFT係数Y_b_b_re(k)(k=0,1,…,bb/2-1),Y_b_c_re(k)(k=0,1,…,bc/3-1)をY_b_b_re_pre(k)(k=0,1,…,bb/2-1),Y_b_c_re_pre(k)(k=0,1,…,bc/3-1)として内部に格納する。すなわち、バッファ503は、現フレームのSDFT係数と前フレームのSDFT係数とを入れ替えることにより、SDFT係数を更新する。
 相関分析部504は、バッファ503から現フレームのSDFT係数Y_b_a(k)(k=0,1,…,ba-1)と、現フレームのダウンサンプリング後のSDFT係数Y_b_b_re(k)(k=0,1,…,bb/2-1),Y_b_c_re(k)(k=0,1,…,bc/3-1)と、前フレームのSDFT係数Y_b_a_pre(k)(k=0,1,…,ba-1)と、前フレームのダウンサンプリング後のSDFT係数Y_b_b_re_pre(k)(k=0,1,…,bb/2-1),Y_b_c_re_pre(k)(k=0,1,…,bc/3-1)と、を入力される。
 次いで、相関分析部504は、下記の式(12)~(14)に従って相関Sを求め、求めた相関Sを相関情報としてトーン判定部107に出力する。
Figure JPOXMLDOC01-appb-M000012
Figure JPOXMLDOC01-appb-M000013
Figure JPOXMLDOC01-appb-M000014
 ここで、式(12)および式(13)の第2項において、総和に対して2を乗算しているのはサンプル数が2分の1に減少されているからであり、また、式(12)および式(13)の第3項において、総和に対して3を乗算しているのはサンプル数が3分の1に減少されているからである。このように、ダウンサンプリングによりサンプル数が減少されている場合、それに応じた定数を乗ずることで、相関の計算に対する各項の寄与を一律にすることができる。
 このように、本実施の形態によれば、相関を求める前にダウンサンプリングを行って処理フレーム(ベクトル系列)を短縮するため、相関の計算に用いる処理フレーム(ベクトル系列)の長さが従来に比べて短くなる。よって、本実施の形態によれば、入力信号のトーン性の判定に要する計算量を低減することができる。
 また、本実施の形態によれば、人間の音響心理的特性に基づいた尺度を用いて設定される割合で周波数成分を分割することにより、ダウンサンプリングによるサンプル数の減少の度合いを段階的に強めていくことができる。これにより、人間の音響心理的に重要度の低い区間では特にサンプル数を減少させることが可能となり、更なる計算量の低減が可能となる。
 なお、本実施の形態では、SDFT係数を分割する際に用いる尺度としてバーク尺度を用いたが、人間の音響心理的特性に基づいた尺度で適切なものであれば、他の尺度を用いてもよい。
 (実施の形態3)
 図7は、本実施の形態に係る符号化装置400の主要な構成を示すブロック図である。ここでは、符号化装置400が、入力信号のトーン性を判定し、判定結果に応じて符号化方法を切り替える場合を例にとって説明する。
 図7に示す符号化装置400は、上記実施の形態1に係るトーン判定装置100(図1)または上記実施の形態2に係るトーン判定装置500(図5)を備える。
 図7において、トーン判定装置100,500は、上記実施の形態1または上記実施の形態2において説明したように、入力信号からトーン情報を得る。次いで、トーン判定装置100,500は、トーン情報を選択部401に出力する。また、このトーン情報は、必要に応じて符号化装置400の外部に出力してもよい。例えばこのトーン情報は、図示しない復号化装置において、復号化方法を切り替えるための情報として用いられる。図示しない復号化装置では、後述の選択部401が選択する符号化方法により生成される符号を復号化するために、選択された符号化方法に対応する復号化方法が選択される。
 選択部401は、トーン判定装置100,500よりトーン情報を入力され、トーン情報に応じて入力信号の出力先を選択する。例えば、選択部401は、入力信号が「トーン」である場合には入力信号の出力先として符号化部402を選択し、入力信号が「非トーン」である場合には入力信号の出力先として符号化部403を選択する。符号化部402と符号化部403とは、互いに異なる符号化方法により入力信号を符号化するものである。よって、このような選択により、入力信号のトーン性に応じて、入力信号の符号化に用いる符号化方法を切り替えることができる。
 符号化部402は、入力信号を符号化し、符号化により生成される符号を出力する。符号化部402に入力される入力信号は「トーン」であるため、符号化部402は、楽音の符号化に適している周波数変換符号化により入力信号を符号化する。
 符号化部403は、入力信号を符号化し、符号化により生成される符号を出力する。符号化部403に入力される入力信号は「非トーン」であるため、符号化部403は、音声の符号化に適しているCELP符号化により入力信号を符号化する。
 なお、符号化部402,403が符号化に用いる符号化方法は上記のものに限定されず、従来の符号化方法の中から最も適しているものを適宜用いてもよい。
 また、本実施の形態では符号化部が2つである場合を一例として説明したが、互いに異なる符号化方法により符号化を行う符号化部が3つ以上あってもよい。この場合、段階的に判定されるトーンの度合いに応じて、3つ以上の符号化部のうちいずれかの符号化部を選択すればよい。
 また、本実施の形態では入力信号が音声信号および/または楽音信号であるとして説明したが、本発明はその他の信号に対しても上記と同様にして実施することが可能である。
 このようして、本実施の形態によれば、入力信号のトーン性に応じた最適な符号化方法により入力信号を符号化することができる。
 (実施の形態4)
 図8は、本実施の形態に係るトーン判定装置600の主要な構成を示すブロック図である。ここでは、トーン判定装置600が、入力信号のトーン性を判定し、判定結果を出力する場合を例にとって説明する。なお、図8において、図1(実施の形態1)と同一の構成部には同一符号を付し、その説明を省略する。
 図8において、倍音成分算出部601は、後述する図10に示すCELP符号化器702から入力されるピッチラグを用いて倍音成分を算出し、算出した倍音成分を示す情報(倍音成分情報)をベクトル結合部602に出力する。
 ベクトル結合部602は、バッファ103から前フレームのSDFT係数と、前フレームのダウンサンプリング後のSDFT係数と、現フレームのSDFT係数と、現フレームのダウンサンプリング後のSDFT係数とを入力される。また、ベクトル結合部602は、倍音成分算出部601から倍音成分情報を入力される。次いで、ベクトル結合部602は、前フレームのSDFT係数の一部と、前フレームのダウンサンプリング後のSDFT係数の一部とを結合して新たなSDFT係数を生成し、生成したSDFT係数を相関分析部603に出力する。また、ベクトル結合部602は、現フレームのSDFT係数の一部と、現フレームのダウンサンプリング後のSDFT係数の一部とを結合して新たなSDFT係数を生成し、生成したSDFT係数を相関分析部603に出力する。この際、ベクトル結合部602がどのような結合を行うかは、倍音成分情報に応じて決定される。
 相関分析部603は、ベクトル結合部602から前フレームの結合後のSDFT係数と、現フレームの結合後のSDFT係数とを入力され、SDFT係数のフレーム間での相関を求め、求めた相関をトーン判定部107に出力する。
 トーン判定部107は、相関分析部603から相関を入力され、この相関の値に応じて入力信号のトーン性を判定する。次いで、トーン判定部107は、トーン判定装置600の出力としてトーン情報を出力する。
 次に、トーン判定対象となる入力信号の次数が2N次である場合を例にとって、図9を用いて、トーン判定装置600の動作について説明する。
 倍音成分算出部601は、後述する図10に示すCELP符号化器702からピッチラグを入力する。ここで、ピッチラグとは、入力信号の基本となる周期(周波数)成分のことであり、時間領域では、ピッチ周期、基本周期等と呼ばれ、周波数領域では、ピッチ周波数、基本周波数等と呼ばれることもある。一般に、CELP符号化器では、適応音源ベクトルを生成する際にピッチラグが求められる。適応音源ベクトルは、過去に生成された音源系列(適応音源符号帳)の中から、入力信号の周期的な成分として最も適切な部分をフレーム(サブフレーム)の長さだけ切り出されたものである。ピッチラグとは、現時刻から何サンプル遡って適応音源ベクトルを切り出すのかを指示する値であるとも言える。後述する図10に示すように、符号化装置が、CELP符号化を行った後にさらに高域の成分を符号化するような構成を採る場合、CELP符号化器702内で求められるピッチラグをそのまま倍音成分算出部601に入力すればよく、ピッチラグを求めるための新たな処理を追加する必要はない。
 次に、倍音成分算出部601は、入力されたピッチラグを用いて基本周波数を求める。例えば、入力が16000HzであるCELP符号化器でピッチラグを求めている場合、下記の式(15)により基本周波数Pを求めることができる。
Figure JPOXMLDOC01-appb-M000015
 ここで、plはピッチラグであり、適応音源符号帳から適応音源ベクトルを切り出す際の、切り出す部分の先頭位置に相当する。例えば、現時刻から40サンプルだけ遡った位置から適応音源ベクトルが切り出された場合(pl=40)、式(15)により、その基本周波数Pは400Hzであることがわかる。
 次に、倍音成分算出部601は、基本周波数Pの整数倍(2×P,3×P,4×P,…)の倍音成分を求め、基本周波数Pと倍音成分情報とをベクトル結合部602に出力する。この際、倍音成分算出部601は、トーン判定に用いるSDFT係数の周波数帯域に相当する倍音成分情報のみを出力すればよい。例えば、トーン判定に用いるSDFT係数の周波数帯域が8000~12000Hzであり、基本周波数Pが400Hzである場合、倍音成分算出部601は、周波数帯域8000~12000Hzに含まれる倍音成分(8000,8400,8800,…,12000)のみを出力すればよい。また、すべての倍音成分情報を出力するのではなく、周波数の低い方から数個のみ(例えば、8000,8400,8800の3個のみ)に限定して出力してもよい。また、偶数番目の倍音成分情報(例えば、8000,8800,9600,…)のみ、または、奇数番目の倍音成分情報(例えば、8400,9200,10000,…)のみを出力するということも可能である。
 また、倍音成分算出部601が出力する倍音成分情報はピッチラグplの値に応じて一意に定まる。そこで、前もってすべてのピッチラグplについて倍音成分情報を求めておきメモリに格納しておけば、倍音成分情報を求める上記のような処理を行わなくても、メモリを参照すれば出力すべき倍音成分情報がわかるので、倍音成分情報を求めるための計算量の増加を回避することができる。
 ベクトル結合部602は、バッファ103から、現フレームのSDFT係数Y(k)(k=0,1,…,N)と、現フレームのダウンサンプリング後のSDFT係数Y_re(k)(k=0,1,…,N/2-1)と、前フレームのSDFT係数Y_pre(k)(k=0,1,…,N)と、前フレームのダウンサンプリング後のSDFT係数Y_re_pre(k)(k=0,1,…,N/2-1)とを入力されるとともに、倍音成分算出部601から倍音成分情報(P,2×P,3×P,…)を入力される。
 次いで、ベクトル結合部602は、倍音成分情報を用いて現フレームのSDFT係数の結合を行う。具体的には、ベクトル結合部602は、倍音成分に相当する周波数帯域の近傍ではダウンサンプリングしていないSDFT係数を選び、倍音成分に相当しない周波数帯域ではダウンサンプリング後のSDFT係数を選び、それらのSDFT係数を結合させる。例えば、倍音成分情報として2×Pのみを入力され、2×Pの周波数に相当するSDFT係数がY(PH)であり、Y(PH)の近傍の範囲(長さLH)においてはダウンサンプリングしていないSDFT係数が選択される場合、ベクトル結合部602は、下記の式(16)に従ってSDFT係数の結合を行う。
Figure JPOXMLDOC01-appb-M000016
 同様に、ベクトル結合部602は、下記の式(17)に従って前フレームのSDFT係数の結合を行う。
Figure JPOXMLDOC01-appb-M000017
 ベクトル結合部602での上記の結合処理の様子を表すと図9に示すようになる。
 図9に示すように、結合後のSDFT係数には基本的にダウンサンプリング後のSDFT係数((1)と(3))が用いられ、倍音成分の周波数PHを中心として長さLHの範囲に相当するSDFT係数((2))が(1)と(3)の間に挿入されて結合が行われる。図9の破線は、ダウンサンプリング前後で、同じ周波数帯域に相当する範囲同士を表している。すなわち、図9に示すように、倍音成分の周波数PHの近傍は重要であると考え、倍音成分の周波数PHの近傍には、ダウンサンプリングしていないSDFT係数をそのまま使うこととしている。ここで、抜き出す範囲の長さであるLHは、定数として適した値を予め設定しておく。LHを長くすると結合後のSDFT係数が長くなるため、後の相関を求める処理において計算量が大きくなるが、一方で、求める相関がより正確になる。従って、計算量と相関の正確さとのトレードオフを考慮して、LHを決めるとよい。また、LHを適応的に変化させることも可能である。
 また、倍音成分情報として複数の倍音成分がベクトル結合部602に入力された場合、複数の倍音成分の周波数の近傍において、図9の(2)に示すように、ダウンサンプリングしていないSDFT係数を複数抜き出して結合に用いるとよい。
 次いで、ベクトル結合部602は、現フレームの結合後のSDFT係数Y_co(k)(k=0,1,…,K)と、前フレームの結合後のSDFT係数Y_co_pre(k)(k=0,1,…,K)とを相関分析部603に出力する。ここで、K=(N+LH)/2-1である。
 相関分析部603は、ベクトル結合部602から現フレームの結合後のSDFT係数Y_co(k)(k=0,1,…,K)と前フレームの結合後のSDFT係数Y_co_pre(k)(k=0,1,…,K)とを入力され、式(5)~(8)に従って相関Sを求め、求めた相関Sを相関情報としてトーン判定部107に出力する。
 このように、本実施の形態によれば、倍音成分に相当する周波数近傍以外の周波数帯域では、ダウンサンプリングによるベクトル系列長の短縮を行うため、入力信号のトーン性の判定に要する計算量を低減することができる。また、音楽、特に楽器の弦や楽器管内の空気の振動には、通常、基本的な周波数成分の他に周波数が2倍、3倍等の整数倍の倍音成分が一緒に含まれている(調波構造)。このような場合でも、本実施の形態によれば、倍音成分に相当する周波数近傍の範囲ではベクトル系列長の短縮をせずにそのままトーン性の判定に用いる。そのため、トーン性の判定において重要となる調波構造が考慮され、ダウンサンプリングによる情報量欠落によるトーン性判定性能の劣化を防ぐことができる。
 (実施の形態5)
 図10は、本実施の形態に係る符号化装置700の主要な構成を示すブロック図である。ここでは、符号化装置700が、入力信号のトーン性を判定し、判定結果に応じて符号化方法を切り替える場合を例にとって説明する。なお、図10において、図7(実施の形態3)と同一の構成部には同一符号を付し、その説明を省略する。
 図10に示す符号化装置700は、上記実施の形態4に係るトーン判定装置600(図8)を備える。
 図10において、ダウンサンプリング部701は、入力信号のダウンサンプリングを行い、ダウンサンプリング後の入力信号をCELP符号化器702に出力する。例えば、ダウンサンプリング部701への入力信号が32000Hzである場合、その入力信号がCELP符号化器702への入力信号として最適な周波数帯域となるように、16000Hzにダウンサンプリングされることが多い。
 CELP符号化器702は、ダウンサンプリング部701から入力されたダウンサンプリング後の入力信号をCELP符号化する。CELP符号化器702は、CELP符号化の結果得られる符号をCELP復号化器703に出力するとともに、符号化装置700の符号化結果の一部として符号化装置700の外部に出力する。また、CELP符号化器702は、CELP符号化の過程において得られるピッチラグをトーン判定装置600に出力する。
 トーン判定装置600は、上記実施の形態4において説明したように、入力信号とピッチラグとからトーン情報を得る。次いで、トーン判定装置600は、トーン情報を選択部401に出力する。なお、実施の形態3と同様に、このトーン情報は、必要に応じて符号化装置700の外部に出力してもよい。
 CELP復号化器703は、CELP符号化器702から入力される符号をCELP復号化する。CELP復号化器703は、CELP復号化の結果得られる復号化信号をアップサンプリング部704に出力する。
 アップサンプリング部704は、CELP復号化器703から入力される復号化信号をアップサンプリングして加算器705に出力する。例えば、ダウンサンプリング部701への入力信号が32000Hzである場合、アップサンプリング部704は、アップサンプリングにより32000Hzの復号化信号を得る。
 加算器705は、入力信号からアップサンプリング後の復号化信号を減算し、減算後の残差信号を選択部401に出力する。このように、CELP符号化器702により符号化された信号成分を入力信号から差し引くことにより、CELP符号化器702で符号化しなかった高周波数帯域側の信号成分を、次の符号化過程の符号化対象とすることができる。
 符号化部402は、残差信号を符号化し、符号化により生成される符号を出力する。符号化部402に入力される入力信号は「トーン」であるため、符号化部402は、楽音の符号化に適している符号化方法により残差信号を符号化する。
 符号化部403は、残差信号を符号化し、符号化により生成される符号を出力する。符号化部403に入力される入力信号は「非トーン」であるため、符号化部403は、音声の符号化に適している符号化方法により残差信号を符号化する。
 なお、本実施の形態では符号化部が2つである場合を一例として説明したが、互いに異なる符号化方法により符号化を行う符号化部を3つ以上あってもよい。この場合、段階的に判定されるトーンの度合いに応じて、3つ以上の符号化部のうちいずれかの符号化部を選択すればよい。
 また、本実施の形態では入力信号が音声信号および/または楽音信号であるとして説明したが、本発明はその他の信号に対しても上記と同様にして実施することが可能である。
 このようにして、本実施の形態によれば、入力信号のトーン性に応じた最適な符号化方法により入力信号を符号化することができる。
 また、ピッチラグの情報を得ることができる構成であれば、本実施の形態で説明した構成に限らず、種々形態を変更しても上記同様の効果を得ることができる。
 以上、本発明の実施の形態について説明した。
 なお、入力信号の周波数変換は、SDFT以外の周波数変換、例えば、DFT(離散フーリエ変換)、FFT(高速フーリエ変換)、DCT(離散コサイン変換)、MDCT(修正離散コサイン変換)等により行ってもよい。
 また、上記実施の形態に係るトーン判定装置および符号化装置は、音声や楽音等の伝送が行われる移動体通信システムにおける通信端末装置および基地局装置に搭載することが可能であり、これにより上記同様の作用効果を有する通信端末装置および基地局装置を提供することができる。
 また、上記実施の形態では、本発明をハードウェアで構成する場合を例にとって説明したが、本発明をソフトウェアで実現することも可能である。例えば、本発明に係るトーン判定方法のアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明に係るトーン判定装置と同様の機能を実現することができる。
 また、上記実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部またはすべてを含むように1チップ化されてもよい。
 また、ここではLSIとしたが、集積度の違いによって、IC、システムLSI、スーパーLSI、ウルトラLSI等と呼称されることもある。
 また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現してもよい。LSI製造後に、プログラム化することが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
 さらに、半導体技術の進歩または派生する別技術により、LSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてあり得る。
 2009年2月27日出願の特願2009-046517、2009年5月18日出願の特願2009-120112および2009年10月13日出願の特願2009-236451の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。
 本発明は、音声符号化および音声復号化等の用途に適用することができる。

Claims (14)

  1.  周波数変換された入力信号のベクトル系列長を短縮する短縮処理を行う短縮手段と、
     ベクトル系列長短縮後のベクトル系列を用いて相関を求める相関手段と、
     前記相関を用いて前記入力信号のトーン性を判定する判定手段と、
     を具備するトーン判定装置。
  2.  前記周波数変換された入力信号のベクトル系列と前記ベクトル系列長短縮後のベクトル系列とを結合して結合ベクトル系列を生成する結合手段、をさらに具備し、
     前記相関手段は、前記結合ベクトル系列を用いて相関を求める、
     請求項1記載のトーン判定装置。
  3.  前記短縮手段は、前記短縮処理をダウンサンプリング処理により行う、
     請求項1記載のトーン判定装置。
  4.  前記入力信号の一定の周波数帯域毎のパワーを用いて、前記トーン性の判定において予め設定された条件に該当する周波数帯域を決定する決定手段、をさらに具備し、
     前記短縮手段は、前記予め設定された条件に該当する周波数帯域以外の周波数帯域において前記短縮処理を行う、
     請求項1記載のトーン判定装置。
  5.  前記決定手段は、前記相関手段が前記相関を求める過程で得られる前記一定の周波数帯域毎のパワーを用いて前記予め設定された条件に該当する周波数帯域を決定する、
     請求項4記載のトーン判定装置。
  6.  前記周波数変換後の信号のベクトル系列を、人間の音響心理的特性に基づいた尺度を用いて設定される割合で分割する分割手段、をさらに具備し、
     前記短縮手段は、分割後のベクトル系列のベクトル系列長を短縮する前記短縮処理を行う、
     請求項1記載のトーン判定装置。
  7.  前記分割手段は、前記尺度としてバーク尺度を用いる、
     請求項6記載のトーン判定装置。
  8.  CELP(Code Excited Linear Prediction)符号化において求められるピッチラグを用いて倍音成分を算出する倍音成分算出手段、をさらに具備し、
     前記結合手段は、前記倍音成分を用いて前記周波数変換された入力信号のベクトル系列と前記ベクトル系列長短縮後のベクトル系列とを結合する、
     請求項2記載のトーン判定装置。
  9.  前記結合手段は、前記倍音成分に相当しない周波数帯域にある前記ベクトル系列長短縮後のベクトル系列を前記周波数変換された入力信号のベクトル系列に結合する、
     請求項8記載のトーン判定装置。
  10.  請求項1記載のトーン判定装置と、
     前記入力信号を互いに異なる符号化方法を用いて符号化する複数の符号化手段と、
     前記判定手段での判定結果に応じて、前記入力信号の符号化を行う符号化手段を前記複数の符号化手段の中から選択する選択手段と、
     を具備する符号化装置。
  11.  請求項8記載のトーン判定装置と、
     前記入力信号をCELP符号化し、ピッチラグを求めるとともにCELP復号化信号を生成し、前記入力信号と前記CELP復号化信号との残差信号を生成するCELP符号化手段と、
     前記残差信号を互いに異なる符号化方法を用いて符号化する複数の符号化手段と、
     前記判定手段での判定結果に応じて、前記残差信号の符号化を行う符号化手段を前記複数の符号化手段の中から選択する選択手段と、
     を具備する符号化装置。
  12.  請求項1記載のトーン判定装置を具備する通信端末装置。
  13.  請求項1記載のトーン判定装置を具備する基地局装置。
  14.  周波数変換された入力信号のベクトル系列長を短縮する短縮処理を行う短縮工程と、
     ベクトル系列長短縮後のベクトル系列を用いて相関を求める相関工程と、
     前記相関を用いて前記入力信号のトーン性を判定する判定工程と、
     を具備するトーン判定方法。
PCT/JP2010/001331 2009-02-27 2010-02-26 トーン判定装置およびトーン判定方法 WO2010098130A1 (ja)

Priority Applications (7)

Application Number Priority Date Filing Date Title
US13/202,170 US20110301946A1 (en) 2009-02-27 2010-02-26 Tone determination device and tone determination method
BRPI1008915A BRPI1008915A2 (pt) 2009-02-27 2010-02-26 dispositivo de determinação de tom e método de determinação de tom
RU2011135735/08A RU2011135735A (ru) 2009-02-27 2010-02-26 Устройство определения тона и способ определения тона
MX2011008605A MX2011008605A (es) 2009-02-27 2010-02-26 Dispositivo de determinacion de tono y metodo de determinacion de tono.
CN2010800092997A CN102334156A (zh) 2009-02-27 2010-02-26 音调判定装置及音调判定方法
EP10746013A EP2402938A1 (en) 2009-02-27 2010-02-26 Tone determination device and tone determination method
JP2011501521A JPWO2010098130A1 (ja) 2009-02-27 2010-02-26 トーン判定装置およびトーン判定方法

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
JP2009-046517 2009-02-27
JP2009046517 2009-02-27
JP2009120112 2009-05-18
JP2009-120112 2009-05-18
JP2009236451 2009-10-13
JP2009-236451 2009-10-13

Publications (1)

Publication Number Publication Date
WO2010098130A1 true WO2010098130A1 (ja) 2010-09-02

Family

ID=42665343

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2010/001331 WO2010098130A1 (ja) 2009-02-27 2010-02-26 トーン判定装置およびトーン判定方法

Country Status (9)

Country Link
US (1) US20110301946A1 (ja)
EP (1) EP2402938A1 (ja)
JP (1) JPWO2010098130A1 (ja)
KR (1) KR20110132339A (ja)
CN (1) CN102334156A (ja)
BR (1) BRPI1008915A2 (ja)
MX (1) MX2011008605A (ja)
RU (1) RU2011135735A (ja)
WO (1) WO2010098130A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011052191A1 (ja) * 2009-10-26 2011-05-05 パナソニック株式会社 トーン判定装置およびトーン判定方法
US11069373B2 (en) 2017-09-25 2021-07-20 Fujitsu Limited Speech processing method, speech processing apparatus, and non-transitory computer-readable storage medium for storing speech processing computer program

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102783034B (zh) * 2011-02-01 2014-12-17 华为技术有限公司 用于提供信号处理系数的方法和设备
US9418671B2 (en) * 2013-08-15 2016-08-16 Huawei Technologies Co., Ltd. Adaptive high-pass post-filter

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6980950B1 (en) * 1999-10-22 2005-12-27 Texas Instruments Incorporated Automatic utterance detector with high noise immunity
JP2007065226A (ja) * 2005-08-31 2007-03-15 Advanced Telecommunication Research Institute International ボーカル・フライ検出装置及びコンピュータプログラム
JP2008176155A (ja) * 2007-01-19 2008-07-31 Kddi Corp 音声認識装置およびその発声判定方法、発声判定プログラムならびにその記憶媒体
JP2009046517A (ja) 2008-11-05 2009-03-05 Pias Arise Kk 睫毛用化粧料
JP2009120112A (ja) 2007-11-16 2009-06-04 Toyota Motor Corp 車両の制御装置
JP2009236451A (ja) 2008-03-28 2009-10-15 Nippon Spindle Mfg Co Ltd 温調装置

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1155942C (zh) * 1995-05-10 2004-06-30 皇家菲利浦电子有限公司 具有改进的音调检测的编码语音传输系统和方法
JP3840684B2 (ja) * 1996-02-01 2006-11-01 ソニー株式会社 ピッチ抽出装置及びピッチ抽出方法
US5864820A (en) * 1996-12-20 1999-01-26 U S West, Inc. Method, system and product for mixing of encoded audio signals
US6718217B1 (en) * 1997-12-02 2004-04-06 Jsr Corporation Digital audio tone evaluating system
US6161088A (en) * 1998-06-26 2000-12-12 Texas Instruments Incorporated Method and system for encoding a digital audio signal
CA2252170A1 (en) * 1998-10-27 2000-04-27 Bruno Bessette A method and device for high quality coding of wideband speech and audio signals
JP3888097B2 (ja) * 2001-08-02 2007-02-28 松下電器産業株式会社 ピッチ周期探索範囲設定装置、ピッチ周期探索装置、復号化適応音源ベクトル生成装置、音声符号化装置、音声復号化装置、音声信号送信装置、音声信号受信装置、移動局装置、及び基地局装置
WO2004036939A1 (fr) * 2002-10-18 2004-04-29 Institute Of Acoustics Chinese Academy Of Sciences Appareil de communication mobile numerique portable, procede de commande vocale et systeme
US7363218B2 (en) * 2002-10-25 2008-04-22 Dilithium Networks Pty. Ltd. Method and apparatus for fast CELP parameter mapping
CN1768476B (zh) * 2003-03-31 2010-06-09 Nxp股份有限公司 采样率转换器及方法,包括采样率转换器的设备
CN1272948C (zh) * 2003-08-21 2006-08-30 北京交通大学 一种同步码分多址用户信号二维波达方向估计方法和装置
US7548853B2 (en) * 2005-06-17 2009-06-16 Shmunk Dmitry V Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
US20070083365A1 (en) * 2005-10-06 2007-04-12 Dts, Inc. Neural network classifier for separating audio sources from a monophonic audio signal
US8473298B2 (en) * 2005-11-01 2013-06-25 Apple Inc. Pre-resampling to achieve continuously variable analysis time/frequency resolution
EP2162880B1 (en) * 2007-06-22 2014-12-24 VoiceAge Corporation Method and device for estimating the tonality of a sound signal
GB2453117B (en) * 2007-09-25 2012-05-23 Motorola Mobility Inc Apparatus and method for encoding a multi channel audio signal
WO2012037515A1 (en) * 2010-09-17 2012-03-22 Xiph. Org. Methods and systems for adaptive time-frequency resolution in digital data coding

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6980950B1 (en) * 1999-10-22 2005-12-27 Texas Instruments Incorporated Automatic utterance detector with high noise immunity
JP2007065226A (ja) * 2005-08-31 2007-03-15 Advanced Telecommunication Research Institute International ボーカル・フライ検出装置及びコンピュータプログラム
JP2008176155A (ja) * 2007-01-19 2008-07-31 Kddi Corp 音声認識装置およびその発声判定方法、発声判定プログラムならびにその記憶媒体
JP2009120112A (ja) 2007-11-16 2009-06-04 Toyota Motor Corp 車両の制御装置
JP2009236451A (ja) 2008-03-28 2009-10-15 Nippon Spindle Mfg Co Ltd 温調装置
JP2009046517A (ja) 2008-11-05 2009-03-05 Pias Arise Kk 睫毛用化粧料

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011052191A1 (ja) * 2009-10-26 2011-05-05 パナソニック株式会社 トーン判定装置およびトーン判定方法
US8670980B2 (en) 2009-10-26 2014-03-11 Panasonic Corporation Tone determination device and method
US11069373B2 (en) 2017-09-25 2021-07-20 Fujitsu Limited Speech processing method, speech processing apparatus, and non-transitory computer-readable storage medium for storing speech processing computer program

Also Published As

Publication number Publication date
JPWO2010098130A1 (ja) 2012-08-30
MX2011008605A (es) 2011-09-09
CN102334156A (zh) 2012-01-25
KR20110132339A (ko) 2011-12-07
EP2402938A1 (en) 2012-01-04
RU2011135735A (ru) 2013-05-10
US20110301946A1 (en) 2011-12-08
BRPI1008915A2 (pt) 2018-01-16

Similar Documents

Publication Publication Date Title
US8543392B2 (en) Encoding device, decoding device, and method thereof for specifying a band of a great error
JP4954080B2 (ja) 変換符号化装置および変換符号化方法
KR101092167B1 (ko) 피치-조정 및 비-피치-조정 코딩을 이용한 신호 인코딩
JP4546464B2 (ja) スケーラブル符号化装置、スケーラブル復号化装置、およびこれらの方法
KR101244310B1 (ko) 광대역 부호화 및 복호화 방법 및 장치
EP2492911B1 (en) Audio encoding apparatus, decoding apparatus, method, circuit and program
EP1793373A1 (en) Audio encoding apparatus, audio decoding apparatus, communication apparatus and audio encoding method
MXPA06011957A (es) Codificacion de senales.
JP2009042734A (ja) 符号化装置および符号化方法
JP2010244078A (ja) スペクトル包絡情報量子化装置、スペクトル包絡情報復号装置、スペクトル包絡情報量子化方法及びスペクトル包絡情報復号方法
JPH10124088A (ja) 音声帯域幅拡張装置及び方法
EP1801785A1 (en) Scalable encoder, scalable decoder, and scalable encoding method
US20110004469A1 (en) Vector quantization device, vector inverse quantization device, and method thereof
US8719011B2 (en) Encoding device and encoding method
EP2626856B1 (en) Encoding device, decoding device, encoding method, and decoding method
JPWO2008053970A1 (ja) 音声符号化装置、音声復号化装置、およびこれらの方法
WO2009125588A1 (ja) 符号化装置および符号化方法
JP2009042740A (ja) 符号化装置
WO2010098130A1 (ja) トーン判定装置およびトーン判定方法
JPH10124089A (ja) 音声信号処理装置及び方法、並びに、音声帯域幅拡張装置及び方法
WO2013057895A1 (ja) 符号化装置及び符号化方法
JP2003044099A (ja) ピッチ周期探索範囲設定装置及びピッチ周期探索装置
JPWO2008018464A1 (ja) 音声符号化装置および音声符号化方法
JP5774490B2 (ja) 符号化装置、復号装置およびこれらの方法
JP2004301954A (ja) 音響信号の階層符号化方法および階層復号化方法

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201080009299.7

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10746013

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2011501521

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: MX/A/2011/008605

Country of ref document: MX

WWE Wipo information: entry into national phase

Ref document number: 13202170

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 1734/MUMNP/2011

Country of ref document: IN

ENP Entry into the national phase

Ref document number: 20117019747

Country of ref document: KR

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 2010746013

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2011135735

Country of ref document: RU

REG Reference to national code

Ref country code: BR

Ref legal event code: B01A

Ref document number: PI1008915

Country of ref document: BR

ENP Entry into the national phase

Ref document number: PI1008915

Country of ref document: BR

Kind code of ref document: A2

Effective date: 20110829