WO2011048815A1 - オーディオ符号化装置、復号装置、方法、回路およびプログラム - Google Patents

オーディオ符号化装置、復号装置、方法、回路およびプログラム Download PDF

Info

Publication number
WO2011048815A1
WO2011048815A1 PCT/JP2010/006234 JP2010006234W WO2011048815A1 WO 2011048815 A1 WO2011048815 A1 WO 2011048815A1 JP 2010006234 W JP2010006234 W JP 2010006234W WO 2011048815 A1 WO2011048815 A1 WO 2011048815A1
Authority
WO
WIPO (PCT)
Prior art keywords
pitch
parameter
range
audio signal
encoded
Prior art date
Application number
PCT/JP2010/006234
Other languages
English (en)
French (fr)
Inventor
石川 智一
則松 武志
コック セン チョン
フアン ゾウ
ハイシャン ジョン
Original Assignee
パナソニック株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック株式会社 filed Critical パナソニック株式会社
Priority to JP2011537144A priority Critical patent/JP5530454B2/ja
Priority to EP10824667.9A priority patent/EP2492911B1/en
Priority to CN2010800036592A priority patent/CN102257564B/zh
Priority to US13/141,169 priority patent/US8886548B2/en
Publication of WO2011048815A1 publication Critical patent/WO2011048815A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Definitions

  • the present invention relates generally to a converted audio encoding system, and more particularly to a converted audio encoding system that improves encoding efficiency and sound quality by shifting the pitch frequency of an input audio signal using a time expansion / contraction technique.
  • the audio encoding system can be applied not only to audio but also to a speech signal, and can be used for a mobile phone, a telephone / video conference.
  • the transform coding technique is designed to efficiently encode an audio signal.
  • human speech the fundamental frequency of the signal changes from time to time.
  • the energy of the speech signal is spread over a wide frequency band.
  • the time expansion / contraction technique is used in the prior arts [3] and [4] to compensate for the influence of pitch change.
  • FIG. 10 is a diagram showing an example of the concept of shifting the basic frequency.
  • Time expansion / contraction technology is used to realize pitch shift.
  • the spectrum in the column (a) in FIG. 10 is the original spectrum, and the spectrum in the column (b) in FIG. 10 is the spectrum after the pitch shift.
  • the basic frequency is shifted from 200 Hz to 100 Hz. In this way, the pitch is stabilized by shifting the pitch of the next frame to match the pitch of the preceding frame.
  • FIG. 11 is a diagram showing the spectrum after the pitch shift.
  • the signal in column (a) of FIG. 11 is a sweep signal. And the signal of the (b) column of FIG. 11 is a signal after a pitch shift, and the pitch in the (b) column becomes constant.
  • the two spectra in column (c) of FIG. 11 are the spectra of signal (a) and signal (b).
  • the energy of the signal (b) is limited to a narrow band.
  • the pitch shift as described above is achieved using a resampling method.
  • the resampling rate changes according to the pitch change rate.
  • the pitch contour of the input frame is obtained by applying the pitch tracking algorithm.
  • FIG. 8 is a diagram for explaining segmentation of one audio frame.
  • the frame is segmented into small sections for pitch tracking.
  • adjacent sections may overlap. That is, for example, in at least one combination, one section (a part) of two sections adjacent to each other in the combination may overlap the other section (a part).
  • Each section has a pitch value corresponding to that section.
  • FIG. 15 is a diagram showing processing for calculating the pitch contour.
  • the signal in the column (a) in FIG. 15 is a signal having a time-varying pitch.
  • One pitch value is calculated from one section of the signal.
  • a pitch contour is a chain of pitch values.
  • the resampling rate is proportional to the pitch change rate.
  • the pitch change information is extracted from the pitch contour.
  • cents and semitones are frequently used to measure the pitch change rate.
  • FIG. 12 is a diagram showing the lengths of cents and semitones. The cent is calculated from the pitch ratio of adjacent pitches.
  • Resampling is applied to the time domain signal according to the pitch change rate.
  • the pitch of the other sections is shifted to the reference pitch to obtain a stable pitch. For example, if the pitch of the next section is higher than the previous pitch, the resampling rate is set lower in proportion to the cent difference between those two pitches. Otherwise, the sampling rate must be higher.
  • the sound range is shifted to a lower frequency by lowering the playback speed of the high-pitched sound. This is similar to the concept of resampling the signal in proportion to the pitch change rate.
  • FIG. 13 and FIG. 14 show an encoding system incorporating a time expansion / contraction method.
  • FIG. 13 is a block diagram of time expansion and contraction in the encoder (encoder 13A).
  • FIG. 14 is a block diagram of time expansion and contraction in the decoder (decoder 14A).
  • the time domain signal is time stretched before transform coding.
  • Pitch information is required for inverse time expansion and contraction in the decoder.
  • the pitch ratio must be encoded with an encoder.
  • time expansion / contraction The motivation for using time expansion / contraction is to stabilize the pitch within one frame and achieve improved coding efficiency.
  • the time expansion / contraction depends to some extent on the accuracy of pitch tracking.
  • pitch contour detection is that difficulties may arise due to changes in signal amplitude and trajectory.
  • post processing methods such as smoothing and fine adjustment threshold parameters have been introduced to improve pitch detection accuracy, but these methods are based on a specific database.
  • time expansion / contraction is applied based on an inaccurate pitch contour, the sound quality deteriorates and the bits used for transmitting the time expansion / contraction information are wasted. Therefore, it is necessary to design time expansion / contraction that does not use the detected pitch contour as a guideline.
  • the saved bits can be used for transform encoding, so that the sound quality can be improved and the signal has a large pitch change. Can respond.
  • a simple method of incorporating the time expansion / contraction method into the transform encoding system is to directly connect the time expansion / contraction method to the transform encoding.
  • the time scaling scheme is independent of transform coding. Since the purpose of the time expansion / contraction is to improve the efficiency of transform coding, it is useful for the time stretching to use some coding information from the transform coding system.
  • the current transform coding structure using time expansion / contraction needs to be improved.
  • Another object includes providing an encoding device, a decoding device, and the like in which the range of the pitch change ratio (see the ratio 88 in FIG. 18) can be an appropriate range (see the range 86). Another object is to provide an encoding device or the like that can perform high-quality sound when appropriate processing is performed at a pitch change ratio in a wider range (see the ratio 88 in FIG. 18). including. Another object is to generate data (see data 90L in FIG. 22) of the code (see reference numeral 90 in FIG. 18) in which the pitch (see pitch 822 in FIG. 16, ratio 83, ratio 88 in FIG. 18, etc.) is encoded. For example, an encoding device that can reduce the amount of data (for example, an average amount). Then, another object includes providing an encoding device or the like that performs processing in a standard such as ISO that will be defined in the future and that performs processing relatively appropriately.
  • a standard such as ISO that will be defined in the future and that performs processing relatively appropriately.
  • the encoding device includes a pitch detector that detects pitch contour information of an input audio signal, and a range (range) of the bit change ratio (see Tw_ratio in FIG. 18) based on the detected pitch contour information.
  • 86) is the cent number of the pitch change ratio (Tw_ratio: 1.0416, 1.0293, 0.9772, 0.9715, 0.9604) of the range (see the range 86a) (cent: 60, 50,
  • the absolute value of ⁇ 40, ⁇ 50, ⁇ 60) is a pitch change ratio (Tw_ratio, Tw_ratio_index: FIG. 18) that is a range (range 86) of a range (range 86) including a range (range 86a) that is 42 or more.
  • a pitch parameter generator that generates a pitch parameter, a first encoder that encodes the generated pitch parameter, and the input audio according to the pitch contour information.
  • a pitch shifter that shifts the pitch frequency of the audio signal, a second encoder that encodes the shifted audio signal that is output from the pitch shifter, the encoded pitch parameter that is output from the first encoder, and
  • a multiplexer that generates a bit stream including the encoded pitch parameter and the data by combining the data encoded from the audio signal output from the pitch shifter and output from the second encoder;
  • the first encoder sets the pitch parameter (see the ratio 88 in FIG. 18) to the cent number having a relatively small absolute value (see cent in FIG. 18).
  • the pitch parameter of the pitch change ratio see the ratio 88a
  • it is encoded into a coding pitch parameter (see the code 90a) of a code having a relatively short code length, and a cent number having a relatively large absolute value is obtained.
  • the pitch parameter is the pitch parameter of the pitch change ratio (see the ratio 88b)
  • an encoding device that encodes the encoded pitch parameter (see the code 90b) of the code having a relatively long code length is constructed.
  • a decoding device is a decoding device that decodes a bitstream including encoded data of a pitch-shifted audio signal and encoded pitch parameter information, from the bitstream to be decoded to the bitstream.
  • a demultiplexer that separates the encoded data and the encoded pitch parameter information included therein, and a domain of the bit change ratio (see Tw_ratio in FIG. 18) from the separated encoded pitch parameter information ( Range 86) is the cent number (cent: 60, 50, cent) of the pitch change ratio (Tw_ratio: 1.0416, 1.0293, 0.9772, 0.9715, 0.9604) of the range (range 86a).
  • the absolute value of ⁇ 40, ⁇ 50, ⁇ 60) is the range (range 86) of the range (range 86) including the range (range 86a) that is 42 or more. 6) a first decoder that generates a decoding pitch parameter including a pitch change ratio (Tw_ratio, Tw_ratio_index: FIG. 18), a pitch contour reconstructor that restores pitch contour information according to the generated decoding pitch parameter, A second decoder that decodes the separated encoded data to generate the pitch-shifted audio signal; and the pitch-shifted audio according to the reconstructed pitch contour information that is the restored pitch contour information An audio signal reconstructor that converts a signal into an original audio signal.
  • a first decoder that generates a decoding pitch parameter including a pitch change ratio (Tw_ratio, Tw_ratio_index: FIG. 18), a pitch contour reconstructor that restores pitch contour information according to the generated decoding pitch parameter,
  • a second decoder that decodes the separated encoded data to generate the
  • the first decoder uses the separated encoded pitch parameter information when the encoded pitch parameter information is encoded pitch parameter information of a code having a relatively short code length. Is decoded into a pitch parameter of a relatively small absolute value cent number pitch change ratio, and when the code pitch parameter information of a code having a relatively long code length, A decoding device for decoding the pitch change ratio into a pitch parameter is constructed.
  • the following signal processing system including an encoding device and a decoding device may be constructed (see also the description at the beginning of the embodiment, etc.).
  • the encoding device in the signal processing system, the encoding device generates the second signal in which the pitch shifter shifts the pitch of the first signal from the first signal to a predetermined pitch.
  • the second encoder encodes the generated second signal into a third signal, and the pitch parameter generator identifies the pitch of the first signal before being shifted.
  • a pitch change ratio is calculated, and the first encoder is an encoding device that encodes the calculated pitch change ratio into a code.
  • the second decoder In the decoding apparatus, the second decoder generates the second signal generated from the first signal, the pitch of the first signal being shifted to the predetermined pitch.
  • the encoded third signal is decoded into the second signal, and the audio signal reconstructor generates the first signal from the decoded second signal, and the first signal
  • a decoder decodes the code into the pitch change ratio, and the pitch contour reconstructor specifies the pitch at which the first signal of the pitch is generated, which is specified by the decoded pitch change ratio. It is a decoding device to calculate.
  • the code that is encoded into the pitch change ratio and decoded into the pitch change ratio is a pitch between two pitches having a pitch difference of 0 cents corresponding to the pitch change ratio corresponding to the code.
  • the first pitch change ratio has a relatively small difference with respect to the change ratio
  • the first code has a relatively short code length
  • the second pitch change ratio has a relatively large difference.
  • the second code has a relatively long code length.
  • the third signal in which the shifted second signal is encoded is generated by the encoding device, and the operation in which the decoding device decodes the first signal before the shift is performed.
  • the pitch change ratio of the pitch of the signal of the signal is only performed when the difference that the pitch change ratio of 0 cents has with respect to the pitch change ratio is equal to or smaller than a threshold value, and is not performed when the difference is larger than the threshold value. It is not a value at a pitch of less than 42 cents, but a value at a pitch greater than 42 cents.
  • the harmonics are corrected along with the pitch shift, so it is necessary to consider the harmonic structure of the signal during time expansion and contraction.
  • the proposed harmonic time expansion / contraction method improves the sound quality by correcting the pitch contour and taking into account the harmonic structure during time expansion / contraction based on the analysis of the harmonic structure.
  • the proposed dynamic time expansion and contraction also evaluates the efficiency of time expansion and contraction by comparing the harmonic structures before and after the time expansion and contraction, and decides whether to use the time expansion and contraction for the target frame. It removes the inaccuracy caused by inaccurate pitch contours.
  • the pitch contour information is sent directly to the decoder without being compressed.
  • dynamic time expansion / contraction a method for encoding time expansion / contraction parameters more efficiently is proposed. After the statistical analysis of the pitch contour for time expansion / contraction, it can be seen that the time expansion / contraction is enabled only at a few positions where the pitch changes in the signal frame.
  • the proposed dynamic time expansion / contraction also supports a wide range of time expansion / contraction values. Note that “corresponding” means that an appropriate operation can be performed.
  • the saved bits are used for transform coding and the sound quality is improved by a wide range of time scaling values.
  • MS stereo mode (Mid Stereo Mode) is used to encode stereo audio signals.
  • MS stereo mode Mid Stereo Mode
  • the left and right channels have similar characteristics to each other, it is more efficient to use the same time scaling parameter for the left and right signals.
  • sharing the time expansion / contraction may lower the coding efficiency. Therefore, the MS mode is introduced for time expansion and contraction in the proposed transform coding structure.
  • the bit stream (see the bit streams 106x, 205i, etc.) received by the decoding device has a plurality of positions (see sections 841 to 84M) in one frame (see the frame 84F in FIG. 16).
  • the signal at the pitch change position (see position 704p in FIG. 9) is TimeWarp (pitch shifted) by the audio signal reconstructor, and the signals at other positions are not subjected to TimeWarp (see position 704p).
  • the pitch contour is corrected based on information obtained by analyzing the harmonic structure of the audio signal, and the efficiency of time expansion / contraction is evaluated by comparing the harmonic structures before and after the time expansion / contraction process. .
  • the time expansion / contraction technique of the present invention can improve sound quality and encoding efficiency of an audio encoding system by using MS stereo mode information from transform encoding.
  • the range of the pitch change ratio can be an appropriate range (see the range 86).
  • the data amount (for example, the average of the data amount) of the code (see the reference numeral 90 in FIG. 18) in which the pitch (see the pitch 822 in FIG. 16, the ratio 83, the ratio 88 in FIG. 18, etc.) is encoded can be reduced. .
  • FIG. 1 is a block diagram of an encoder that uses dynamic time stretching.
  • FIG. 2 is a block diagram of a decoder that uses dynamic time stretching.
  • FIG. 3 is a block diagram of a decoder that uses a modified dynamic time warp decoder.
  • FIG. 4 is a block diagram of an encoder that uses dynamic time stretching using the MS mode.
  • FIG. 5 is a block diagram of a decoder using dynamic time warping utilizing the MS mode.
  • FIG. 6 is a block diagram of an encoder that uses a modified dynamic time warping utilizing the MS mode.
  • FIG. 7 is a block diagram of an encoder using closed loop dynamic time stretching.
  • FIG. 8 is a diagram for explaining segmentation of one audio frame.
  • FIG. 9 is a diagram illustrating the calculation of the vector C.
  • FIG. 1 is a block diagram of an encoder that uses dynamic time stretching.
  • FIG. 3 is a block diagram of a decoder that uses a modified dynamic time warp decoder
  • FIG. 10 is a diagram for explaining the pitch shift.
  • FIG. 11 shows the spectrum after the pitch shift.
  • FIG. 12 is a diagram illustrating cents and semitones.
  • FIG. 13 is a block diagram of time expansion and contraction in the encoder.
  • FIG. 14 is a block diagram of time expansion / contraction in the decoder.
  • FIG. 15 is a diagram for explaining the calculation of the pitch contour.
  • FIG. 16 shows a spectrum based on a logarithmic scale.
  • FIG. 17 is a diagram illustrating pitch shift using harmonics.
  • FIG. 18 is a diagram showing a table.
  • FIG. 19 is a diagram showing a table in the preceding example.
  • FIG. 20 is a diagram illustrating an encoding device and a decoding device.
  • FIG. 21 is a flowchart showing the flow of processing.
  • FIG. 22 is a diagram illustrating data in each of the preceding example and the present apparatus.
  • the encoding apparatus (encoding apparatus 1) of the embodiment provided in the system of the embodiment (system 2S in FIG. 20) is an input audio signal (signal 101i (FIG. 1): see signal 811 in FIG. 11).
  • Pitch detector pitch contour analysis block (pitch contour analysis unit) for detecting pitch contour information (information (pitch) 101x, pitch 822 (FIG. 15))) 101) and the detected pitch contour information (information 101x), the range (range 86) of the bit change ratio (Tw_ratio (FIG. 18), ratio 83 (FIG. 15), ratio 88 (FIG. 18)).
  • FIG. 18 shows the cent number (cent: 60) of the pitch change ratio (Tw_ratio: 1.0416, 1.0293, 0.9772, 0.9715, 0.9604) of the range (range 86a).
  • 50, ⁇ 40, ⁇ 50, ⁇ 60) is a pitch change ratio (Tw_ratio: FIG. 18) that is a range (range 86) of a range (range 86) including a range (range 86a) that is 42 or more.
  • a pitch parameter generator dynamic time expansion / contraction block 102 for generating pitch parameters (parameter (pitch change ratio) 102x, ratio 88 (FIG. 18)), and the generated pitch parameter (parameter 102x) (reference numeral 90).
  • the first encoder for encoding (to FIG. 18) and the pitch contour information (information (pitch) 101x, pitch 822), the input audio signal (signal (first signal) ) 101i) Pitch shifter for shifting the pitch frequency (pitch 822: FIG. 15) (to the reference pitch 82r (FIG.
  • a coding apparatus comprises a multiplexer circuit) 106) and (encoder 1).
  • 1 cent is, for example, a pitch that is only 1 / 100th of a pitch 90j (FIG. 12) of 100 cents that constitutes a semitone (see two pitches (see two pitches 821 and 822 in FIG. 15)). Difference), in other words, a pitch of only 1 / 1200th of a pitch of one octave.
  • the entire pitch parameter to be generated may be the pitch change ratio, or a part may be the pitch change ratio. Then, such a pitch parameter whose part or the like is the pitch change ratio may be one of a plurality of generated pitch parameters.
  • the first encoder uses the pitch parameter (parameter 102x (FIG. 1), ratio 88 (FIG. 18)) and the pitch parameter (ratio 88) is relatively small.
  • Pitch change ratio for example, 1.0 at two pitches of pitch width (see pitches 821 and 822 (see FIG. 15)) of cent number ( ⁇ 0: see cent in FIG. 18) of value (0) )
  • Pitch parameter (ratio 88a) a coding pitch parameter (symbol 90a) of a code (symbol 90a: "0") of a relatively short code length (length 1: see bits in FIG. 18).
  • the encoding apparatus (encoding apparatus 1) is encoded to encode the encoding pitch parameter (reference numeral 90b) of the length 6) code (reference numeral 90b: “111100”).
  • the decoding apparatus includes encoded data (third signal) 204i of the pitch-shifted audio signal (second signal 203ib: FIG. 2), and encoding pitch.
  • a decoding device decoding device 2 that decodes a bit stream (stream 205i (stream 106x)) including parameter information (parameter 201i, code 90), from the bit stream (stream 205i) to be decoded
  • a demultiplexer that separates the encoded data (third signal 204i in FIG. 2 (third signal 105x in FIG. 1)) and the encoded pitch parameter information (parameter 201i, reference numeral 90) included in the stream, respectively. (Multiplexer block 205) and the separated encoded pitch parameter information (parameter).
  • the range (range 86) of the bit change ratio (ratio 88, Tw_ratio_index, Tw_ratio: FIG. 18) is the pitch change ratio (Tw_ratio: 1.0416) of the range (86a).
  • 0293, 0.9772, 0.9715, 0.9604 including the range (range 86a) in which the absolute value of the cent number (cent: 60, 50, ⁇ 40, ⁇ 50, ⁇ 60) is 42 or more First decoder (lossless decoding block) that generates a decoding pitch parameter (parameter 202i, code 90) including a pitch change ratio (ratio 88, Tw_ratio_index, Tw_ratio: FIG.
  • a constructor dynamic time expansion / contraction reconstruction block 202 and the separated encoded data (signal 204i, third signal 204i) are decoded and the pitch-shifted audio signal (signal (second signal)) is decoded. 203ib), and the pitch-shifted audio signal (signal (signal (2)) according to reconstructed pitch contour information (information 203ia, pitch 822) that is the restored pitch contour information.
  • An audio signal reconstructor (time expansion / contraction block 203) that converts (second signal) 203ib) into the original audio signal (second signal 203x) (having the pitch specified by the reconstructed pitch contour information); Is a decoding device (decoding device 2).
  • the first decoder uses the separated encoded pitch parameter information (parameter 201i (FIG. 2), code 90 (FIG. 18)) as the encoded pitch.
  • the parameter information (code 90 (FIG. 18)) is coded pitch parameter information (code 90a) of a code (code 90a: “0”) of a relatively short code length (length 1: see bits in FIG. 18).
  • decoding into a pitch parameter (ratio 88a) of a pitch change ratio (1.0, ratio 88a) of a relatively small absolute value (0) cent number (0: see cent in FIG.
  • an encoding device see, for example, encoding device 1 (FIG. 1, FIG. 20), step S1 (FIG. 21), etc.
  • a decoding device see decoding device 2, step S2, etc.
  • the following signal processing system may be constructed.
  • the pitch shifter (time expansion / contraction unit 104) is configured so that the pitch shifter (time expansion / contraction unit 104) receives the first signal (first signal 101i, input audio signal (previously described): FIG. 1) Second signal (second signal 104x, shifted audio signal (previously described)) in which the pitch of the first signal (pitch 822: FIG. 15) is shifted to a predetermined pitch (reference pitch 82r). ), And the second encoder (conversion encoder 105) outputs the generated second signal (second signal 104x) from the third signal (third signal 105x, pitch shifter).
  • the audio signal is encoded into encoded data (described above), and the pitch parameter generator (pitch parameter generator (dynamic time expansion / contraction block) 10) is encoded.
  • the pitch parameter generator pitch parameter generator (dynamic time expansion / contraction block) 10) is encoded.
  • the second signal (conversion decoder 204) is generated from the first signal (first signal 203x (first signal 101i)).
  • the second signal (second signal 203ib (second signal) in which the pitch (pitch 822: FIG. 15) of (first signal 203x) is shifted to the predetermined pitch (reference pitch 82r).
  • 104x) is encoded into the third signal (third signal 204i (third signal 105x)) to the second signal (second signal 203ib (second signal 104x)).
  • the audio signal reconstructor (time expansion / contraction unit 203) generates the first signal (first signal 203x) from the decoded second signal (second signal 203ib), and the first signal 203x is decoded.
  • Lissless decoding unit 201 converts the code (parameter 201i (parameter 103x), code 90 (FIG. 18)) into the pitch change ratio (parameter 202i (parameter 102x), ratio 88 (number of the ratio 88), Tw_ratio, Tw_ratio_index), and the pitch contour reconstructor (202) is identified by the decoded pitch change ratio (ratio 88), and the first signal (first signal) of the pitch (pitch 822) is specified.
  • 203x) is a decoding device (decoding device 2: decoding device 2c, 2g (FIG. 2, FIG. 5, etc.)) that calculates the pitch (pitch 822).
  • Non-Patent Documents 1 to 4, etc. The technical development of this type of signal processing system is currently in progress (see Non-Patent Documents 1 to 4, etc.), and such a signal processing system is often not well understood. .
  • this signal processing system is a signal processing system in a standard to be determined in the future.
  • the shifted second signal (second signal 104x, 203ib) is encoded into the third signal (third signal 105x, 204i).
  • the converted third signal is decoded into the second signal.
  • the sound data (third signal) subjected to processing such as communication from the encoding device to the decoding device can be made into more appropriate data such as data having a small data amount.
  • the pitch change ratio is calculated and the second signal decoded from the third signal is shifted, the shift to the pitch specified by the calculated pitch change ratio is reliably performed.
  • the pitch of the shift destination can be set to an appropriate pitch.
  • the calculated pitch change ratio is encoded into a code, and the encoded code is decoded into the pitch change ratio so that a code having a data amount smaller than the data amount of the pitch change ratio is communicated.
  • the amount of data of the pitch data (the code in which the pitch change ratio is encoded (code 90)) to be processed can be reduced.
  • the code (the ratio 88) is encoded and the code (the ratio 88) is decoded into the pitch change ratio (the ratio 88).
  • Reference numeral 90 indicates that the pitch change ratio (ratio 88) corresponding to the reference numeral (reference numeral 90) is a pitch change ratio between two pitches having a pitch difference of 0 cents (a ratio 88x of 1.0: FIG. 18).
  • the first pitch change ratio (ratio 88a) having a relatively small difference (0 cent)
  • the first code (code 90a) having a relatively short code length (length 1).
  • the second code (symbol 90b) having a relatively long code length is used.
  • variable length coding according to the difference (whether it is close to the 0 cent ratio 8x (how far away)) may be used.
  • the data amount of the third signal (signals 105x and 204i) is reduced, and the data amount of the pitch data (signals 103x and 201i) to be processed such as communication can be further sufficiently reduced.
  • the third signal in which the shifted second signal (signal 104x, 203ib) is encoded.
  • 105x) is generated by the encoding device and decoded by the decoding device (S1, S2 in FIG. 21) is the first signal (first signal 101i, 203x) before being shifted.
  • the range (range) of the pitch change ratio (ratio 88) in which the above-described operation is performed may be set to a range 86 (FIG. 18) wider than (range 87 in the previous example).
  • the pitch change ratio in a wider range is encoded, and the data amount of the encoded code 90 data (data 90L in FIG. 22) is further increased.
  • the data amount of the encoded data 90L is, for example, a data amount (substantially) smaller than the data amount of the data 91L (FIG. 19) encoded with the fixed-length code 91 in the preceding example. It is avoided that the data amount becomes too small, the data amount is relatively close (for example, the same data amount may be sufficient), and the data amount after encoding can be made an appropriate data amount. .
  • the range of the pitch change ratio range is such that the amount of data of the encoded code 90 (data 90L) is, for example, a fixed length.
  • a range (threshold value) that is an appropriate data amount such as a data amount that is relatively close to the data amount of data (for example, data 91L) at the time of encoding (preceding example).
  • the pitch change ratio (ratio 88) is as large as the pitch change ratio in the range 86a in which the cent number is greater (42 cents) than the previous pitch (pitch 821: FIG. 15). It was noticed that the pitch change ratio of the changed pitch (pitch 822: FIG. 15) is often (to some extent).
  • the pitch change ratio belongs to the above-mentioned wider range (range 86), and the third signal 105x is generated.
  • the sound quality can be improved, for example, by avoiding the process of generating another signal having a sound quality lower than that of the third signal 105x.
  • the code 90a having the short code length (length 1) described above is the code 90 having the pitch change ratio 88a in the range 87 in less than 42 cents.
  • a code 90b having a long code length (length 6) is a code 90 having a pitch change ratio 88b in a range 86a of 42 cents or more.
  • This threshold value (“0.0416” in the above description) is, for example, the value of each value belonging to the range of the pitch change ratio range (range 86 in FIG. 18, 1.0416 to 0.9604). Among them, the value in the cent number of the largest absolute value (1.0416). That is, in this way, by setting the threshold value to a high value (for example, “0.0416” described above), only the range 87 in which the range 86 is less than 42 (see 1.02285 to 0.982857 in FIG. 19). In addition, a range 86a of 42 cents or more (a range between 1.0416 to 1.0293 and 0.9772 to 0.9604 in FIG. 18) is also included, and a wider range may be included. Good.
  • FIG. 1 is a diagram showing an example of a proposed encoder (encoding device).
  • one frame of the left and right signals is transmitted to a block 101 which is a pitch contour analysis block.
  • 101 pitch contour analysis block (pitch contour analysis unit) 101
  • the pitch contours of the left and right channels are calculated separately. That is, the pitch contour of each channel is calculated.
  • the pitch contour detection algorithm described in the prior art can be used here (pitch contour analysis unit 101).
  • one frame is segmented into M overlapping segments.
  • M pitches are calculated from M sections.
  • the pitch contours of the left and right channels extracted in block 101 are sent to block 102 which is a dynamic time expansion / contraction block. Then, the block 102 is based on the extracted pitch contour information composed of the pitch change section information (time expansion / contraction position) and the pitch change ratio (time expansion / contraction value) of the adjacent section corresponding thereto in each audio frame. Generate pitch parameters.
  • the pitch parameter is also referred to as a dynamic time expansion / contraction parameter.
  • This dynamic time expansion / contraction parameter is sent to the block 103 which is a lossless encoding block.
  • the lossless encoding block further compresses the time expansion / contraction value to generate an encoding time expansion / contraction parameter.
  • a general lossless encoding technique is used.
  • the generated encoding time expansion / contraction parameter is sent to a block 106 which is a multiplexer (multiplexer block, multiplexer circuit), and a bit stream is generated.
  • the dynamic time expansion / contraction parameter is sent to the block 104 which is a time expansion / contraction block.
  • Block 104 resamples the input signal according to the time stretch parameter.
  • the left and right signal pitches are shifted (time stretched) separately according to the corresponding dynamic time stretch parameters.
  • the signal after the time expansion / contraction is sent to the block 105 which is a conversion encoder.
  • the encoded signal and related information are also sent to block 106, which is a multiplexer.
  • the input signal of the block 101 in the first embodiment is not necessarily a stereo signal, and may be a monaural signal or a multi-signal.
  • the dynamic time stretching method can be applied to any number of channels.
  • the pitch contour is processed by a dynamic time expansion / contraction method to generate a dynamic time expansion / contraction parameter.
  • the generated dynamic time expansion / contraction parameter represents a position to which time expansion / contraction is applied and a time expansion / contraction value at the position. Sound quality is improved by the proposed dynamic time expansion and contraction method.
  • lossless encoding is also introduced.
  • pitch detection is a difficult problem because the amplitude and period of the signal change. That is, when the pitch contour information is directly used for time expansion / contraction, the inaccuracy of the pitch contour affects the time expansion / contraction performance. Since the harmonics of the signal are corrected in proportion to the pitch shift during the time expansion / contraction, it is necessary to consider the influence of the time expansion / contraction on the harmonics.
  • the pitch contour is corrected and a more efficient dynamic time expansion / contraction parameter is generated. This consists of three parts.
  • the performance of time expansion and contraction is evaluated by comparing the harmonic structures before and after time expansion and contraction.
  • the pitch contour is modified. Similar to the first embodiment, an audio frame is segmented into M sections for pitch calculation.
  • the pitch contour has M pitch values (pitch 1 , pitch 2 ,..., Pitch M ).
  • the pitch is shifted close to the reference pitch value.
  • a stable reference pitch is obtained after time expansion and contraction.
  • the signal harmonics can be shifted to the vicinity of the reference pitch harmonics.
  • FIG. 17 is a diagram illustrating pitch shift using harmonics.
  • FIG. 17 An example is shown in FIG. As shown in FIG. 17, the reference pitch and the respective reference harmonics are shown by broken lines (three places).
  • the detected pitch is close to the harmonics of the reference pitch.
  • ⁇ f 1 > ⁇ f 2 means the following. That is, ⁇ f 1 > ⁇ f 2 is such that a larger expansion / contraction value (see ⁇ f 1 in FIG. 17) is used to shift the detected pitch to the reference pitch, and the detected pitch is used as the reference pitch harmonics. Means that a smaller scaling value (see ⁇ f 2 in FIG. 17) is used to shift to.
  • the dynamic time expansion / contraction process corrects the pitch contour and enables the shift of harmonic components. Details of this correction processing will be described below.
  • the proposed dynamic time expansion and contraction compares the difference between the detected pitch and the reference pitch.
  • pitch ref in Equation 2 below (Expression 2) represents a reference pitch value.
  • pitch i is the section i, representing the detected pitch value.
  • pitch ref is an integer and k> 1.
  • Equation 2 If there is a value of k that satisfies Equation 2 below, The value pitch i must be shifted to “k ⁇ pitch ref ” at the value of k, which is the harmonic of the reference pitch value. The detected pitch i is corrected to pitch i / 2.
  • pitch i is corrected to k ⁇ pitch i .
  • time expansion / contraction is applied, and the performance is evaluated by comparing the harmonic structures before and after the time expansion / contraction.
  • the sum of the harmonic components before and after the time expansion and contraction is used as a performance evaluation criterion in the second embodiment.
  • the harmonics of the pitch value of section i are calculated as follows.
  • q is the number of harmonic components.
  • S (•) represents the spectrum of the signal.
  • Pitch i is a pitch value detected in pitch contours pitch 1 , pitch 2 ,..., Pitch M.
  • S ′ (•) represents the spectrum of the signal after time expansion and contraction.
  • the signal Prior to time scaling, the signal consists of pitch 1 , pitch 2 ,..., Pitch M harmonics.
  • the harmonic ratio HR is defined to represent the energy distribution between these harmonic components as follows.
  • the harmonics ratio HR ′ is calculated as follows.
  • H ′ (pitch ref ) is the sum of the harmonics of the reference pitch after time expansion and contraction.
  • dynamic time stretching parameters are generated using an efficient method.
  • Pitch change position in the frame since not many in the frame can be designed with a pitch change position, so as to encode separately a value Delta] p i, efficient manner.
  • the corrected pitch contour is normalized.
  • the difference between adjacent corrected pitches is calculated as follows.
  • FIG. 9 is a diagram illustrating the calculation process of the vector C.
  • FIG. N An example of the setting contents of the vector C is shown in FIG. N is defined as the number of sections where the pitch varies and ⁇ p i ⁇ 1.
  • a dynamic scheme is used to encode the vector C and the time scaling value ⁇ p i for which ⁇ p i ⁇ 1.
  • a flag A is then generated to indicate which method has been selected.
  • the time stretch value ⁇ p i with ⁇ p i ⁇ 1 and the vector C must be sent to the decoder.
  • N 0 and If so, it means that the number of pitch change points is small. In this case, it is more efficient to directly encode the position of the pitch change point.
  • the flag A is set to 2 and log 2 M bits are used to encode the positions marked 0 in vector C.
  • the position of the pitch change point is 2, and 3 bits are used for encoding position 2.
  • Flag A the number of pitch change point N, the pitch change position, and, Delta] p i is a Delta] p i ⁇ 1 is sent to block 103.
  • the saving of bit-rate, lossless encoding may be used.
  • ⁇ p i 1.
  • Only the first two schemes may be used for block 102 for the purpose of reducing complexity.
  • Dynamic time stretching allows the harmonic structure to be rebuilt through time stretching. Since the energy is limited to the reference pitch and its harmonic components, the coding efficiency is improved.
  • the evaluation scheme reduces the dependency on the accuracy of pitch detection and improves the performance of the coding system.
  • An efficient method for encoding the time expansion / contraction parameter can improve the sound quality by reducing the bit rate and can cope with the encoding of a signal having a larger pitch change rate.
  • FIG. 2 is a block diagram of the third embodiment.
  • a block 205 which is a demultiplexer, divides the input bitstream into an encoded time stretch parameter, an encoded audio signal, and associated transform encoder information.
  • the encoding time expansion / contraction parameter is sent to the block 201 which is a lossless decoding block.
  • the block 201 which is a lossless decoding block.
  • dynamic time expansion / contraction parameters are generated.
  • Dynamic time warping is composed of flags and the information of the position where time warping is applied, the time warping value Delta] p i corresponding thereto.
  • Dynamic time expansion / contraction information is sent to block 202 which is a dynamic time expansion / contraction reconstruction block.
  • Block 202 decodes the time stretch parameter from the dynamic time stretch parameter.
  • the block 204 which is a conversion decoder decodes the encoded signal based on the conversion encoder information from the demultiplexer block 205. It decodes the time stretched signal.
  • the time expansion / contraction block 203 receives the time expanded / contracted signal and applies the time expansion / contraction to the input signal. This time expansion / contraction process is the same as the process in the block 104 in the first embodiment. The signal is not stretched according to the time stretch parameter and the audio signal.
  • Stretch dynamic time received by the expansion and contraction reconstruction dynamic time consists flag and the information of the position where time warping is applied, the time warping value Delta] p i corresponding thereto.
  • the flag is confirmed. If the flag is 0, it means that time expansion / contraction is not applied to the target frame. In this case, all the reconstructed pitch contour vectors are set to 1.
  • the flag is 1, it means that M bits are used for encoding the vector C indicating the position to which time expansion / contraction is applied. One bit is aligned to one position. 1 is marked as no pitch change, while 0 is marked as time expansion / contraction. By counting the number of zeros in vector C, the total number of time expansion points N can be determined. In the process, stretch value Delta] p i of N times is obtained from the buffer. ⁇ p i corresponds to the time expansion and contraction value.
  • c (i) 0.
  • the pseudo code is as follows.
  • the normalized pitch contour is reconstructed as follows.
  • the pitch contour is later used for time expansion and contraction.
  • FIG. 3 is a diagram showing the proposed encoder.
  • the difference between the encoding system shown in FIG. 1 and the encoder shown in FIG. 3 is in blocks 306 and 307.
  • the function of the lossless decoding 306 in FIG. 3 is the same as 201 in FIG.
  • the dynamic time expansion / contraction reconstruction block 307 is the same as 202 in FIG.
  • the encoder uses exactly the same time expansion / contraction parameters as the decoder.
  • the fifth embodiment increases the accuracy of time expansion and contraction in the encoder.
  • FIG. 4 is a diagram illustrating a configuration of the encoding device according to the sixth embodiment.
  • the MS mode is frequently used for encoding a stereo audio signal such as an AAC codec.
  • MS mode detects the similarity between the left and right channel subbands in the frequency domain. MS stereo mode is enabled when the left and right channel subbands are similar. Otherwise, the MS mode is not enabled.
  • the MS mode information can be used for many transform encodings, the MS mode information can be used for improving the performance of harmonic time expansion / contraction in dynamic time expansion / contraction.
  • the left and right channel signals are sent to block 401, which is an MS calculation block.
  • the MS calculation block calculates the similarity between the left and right signals in the frequency domain. This is the same as MS detection in general transform coding.
  • Block 401 generates a flag. If the MS mode is enabled for all subbands of the stereo audio signal, the flag is set to 1, otherwise the flag is set to 0.
  • block 402 which is a downmix block
  • the left and right channel signals are downmixed into a middle signal and a side signal.
  • the middle signal is sent to block 403, which is a pitch contour analysis block.
  • a block 403 which is a pitch contour analysis block, calculates pitch contour information in the same manner as the block 102 in FIG.
  • a set of pitch contours is generated for the downmixed signal. Otherwise, the pitch contours of the left and right signals are generated separately.
  • blocks 404, 405, and 406, 408 is the same as the description of the operations of blocks 103, 104, 105, and 196.
  • dynamic time compression is modified to be more suitable for stereo coding.
  • the left and right channels may have different characteristics.
  • different time compression parameters are calculated for different channels.
  • the left and right channels may have similar characteristics. It is reasonable to use the same time compression parameter for both channels. If the left and right channels are similar, more efficient audio coding can be achieved by using the same set of time compression parameters.
  • FIG. 5 is a block diagram of a decoding device according to the seventh embodiment.
  • the input bit stream is sent to the demultiplexer block 506.
  • the output of the block 506 is an encoding time compression parameter, transform encoder information, and an encoded signal.
  • the block 505 which is a conversion decoder decodes the encoded signal into a time compression signal according to the conversion encoder information, and extracts the MS mode information.
  • MS mode information is sent to the MS mode detection block 504.
  • the MS mode is enabled for all subbands of this frame, the MS mode is also enabled for time compression and the flag is set to 1. Otherwise, the MS mode is not used to reconstruct the harmonic time stretch and the flag is set to zero. The MS mode flag is sent to the harmonics time stretch reconstruction block 502.
  • the dynamic time expansion / contraction parameter is inversely quantized from the block 501 which is a lossless decoding block.
  • the dynamic time expansion / contraction reconstruction block 502 reconstructs the time expansion / contraction parameters according to the MS flag.
  • FIG. 6 is a block diagram of an encoder that uses a modified dynamic time warping utilizing the MS mode.
  • the fourth embodiment is changed so as to improve the accuracy of time expansion and contraction in the encoder.
  • a lossless encoding block 608 and a dynamic time expansion / contraction reconstruction block 609 are added to the encoding structure.
  • the purpose is to ensure that the encoder uses the same time scaling parameters as the decoder.
  • the description of blocks 608 and 609 is the same as the description of blocks 501 and 502 in FIG.
  • FIG. 7 is a diagram illustrating an encoding apparatus according to the ninth embodiment.
  • the configuration of the ninth embodiment is based on the configuration of the eighth embodiment, but a comparison scheme (comparison scheme 710) is added. Prior to sending the encoded signal and the time stretch parameter to the multiplexer 711 of FIG. 7, the encoded signal is verified in a comparison scheme 710. After decoding the time expansion / contraction, it is determined whether the overall sound quality is improved.
  • One example is to compare the SNR of the decoded signal with the original signal.
  • the time-scaled encoded signal is decoded by the transform decoder.
  • the time expansion / contraction is applied to the decoded time expansion / contraction signal using the same time expansion / contraction parameter as 708 in FIG. 7, and a non-expansion / contraction signal is generated.
  • SNR 1 is calculated.
  • This encoded signal is decoded by the same transform decoder, and the SNR 2 is calculated by comparing the decoded signal with the original signal.
  • the determination is made by comparing SNR 1 and SNR 2 . If SNR 1 > SNR 2 , the time stretch is selected and the first encoded signal, transform encoder information, and encoded time stretch parameters are sent to the decoder. Otherwise, time scaling is not selected and the second encoded signal and transform encoder information are transmitted to the decoder.
  • bit consumption can be compared instead of SNR.
  • the time expansion / contraction technique is used to compensate for the influence of pitch change in the audio encoding system.
  • a dynamic time expansion / contraction method is proposed.
  • the time expansion / contraction method of the present invention improves the sound quality by correcting the pitch contour and taking into account the harmonic structure during time expansion / contraction based on the analysis of the harmonic structure.
  • the dynamic time expansion / contraction method also evaluates the effectiveness of time expansion / contraction by comparing the harmonic structures before and after the time expansion / contraction, and determines whether or not the time expansion / contraction should be used for the target audio frame. This removes inaccuracies caused by inaccurate pitch contour information.
  • Dynamic time stretching also provides a more efficient way to encode time stretching parameters and uses MS mode information obtained from transform coding to improve sound quality and coding efficiency.
  • the encoding device 1 and the decoding device 2 may be constructed.
  • the following operation may be performed.
  • Some (or all) of the above-described processes may be the same (similar) to the operations described below.
  • the following processing may be performed in the encoding device 1.
  • the pitch of the signal 101i is the reference pitch (previously described: for example, the reference pitch in FIG. 15).
  • 82r may be generated (refer to signal 812 in FIGS. 1 and 11) (time expansion / contraction unit 104, step S104 in FIG. 21).
  • a shift to a shift destination pitch may be performed in this way.
  • the shift destination pitch may not be the reference pitch but may be a harmonic of the reference pitch (harmonic) or the like (see Formula 2 etc.).
  • the signal 101i (signal 104x) is, for example, of a plurality of channels such as a plurality of channels such as a stereo 2-channel, a 5.1-channel, or a 7.1-channel multichannel. It may be a signal in one channel.
  • the signal 101i refers to, for example, a plurality of sections (for example, M sections 84 (section 841 to section 84M) included in the frame 84F (FIG. 16) shown in FIG.
  • the signal in one or a part of the sections 84 may be used.
  • M in FIG. 16 may specifically be 16, for example.
  • the reference pitch (reference pitch 82r) described above is more appropriate when the signal 104x after being shifted to the reference pitch is encoded than when the signal 101i is encoded.
  • the pitch to be encoded is more appropriate when the signal 104x after being shifted to the reference pitch is encoded than when the signal 101i is encoded.
  • the term “appropriate” here means, for example, the amount of data after encoding (while maintaining the sound quality) when it is assumed that the signal 101 i before being shifted is encoded.
  • This also means that the data amount of the signal 105x (FIG. 1) obtained by encoding the signal 104x after the shift is smaller. That is, for example, the smaller data amount refers to a data amount that is the same as the sound quality of the data of that data amount and is smaller than the data amount of the other data in which the sound quality is maintained.
  • the reference pitch is a shift in another section (for example, the section 821 s adjacent to the section 822 s) other than the section of the signal 101 i (for example, the section 822 s in FIG. 15). ) Is the same pitch (reference pitch 82r) as the previous pitch (for example, reference pitch 82r).
  • the signal 104x (FIG. 1) after the shift may be encoded into the signal 105x (conversion encoder 105, step S105).
  • the signal 104x after the shift is easily spectrally encoded, and the signal that has been easily encoded is encoded, whereby the signal that is not shifted (the first signal 101i) is encoded.
  • the sound quality is the same, the amount of data required for encoding can be reduced.
  • the third signal 105x having a data amount smaller than the data amount of the directly encoded signal is encoded, and the third signal 105x having a smaller data amount is obtained as the encoded signal of the sound of the first signal 101i.
  • Signal 105x is used.
  • the parameter 102x (dynamic time expansion / contraction parameter, pitch parameter described above) for specifying the pitch of the signal 101i before the shift (see pitch 822 (FIG. 15)) may be calculated (pitch parameter).
  • pitch parameter dynamic time expansion / contraction parameter, pitch parameter described above
  • the calculated parameter 102x may be a predetermined ratio (ratio 88 (Tw_ratio) in FIG. 18: pitch change ratio described above).
  • the calculated ratio (ratio 88, parameter 102x) is changed from the predetermined pitch (see, for example, pitch 821 in FIG. 15) by the ratio (see ratio 83 shown in FIG. 15).
  • the specified pitch (pitch 822) can be specified (see the ratio 83 shown in FIG. 15).
  • the data of the ratio 88 is number data for specifying the number of the ratio 88 (FIG. Tw_ratio_index), and the ratio is indirectly determined by specifying the ratio of the specified number. May be specified.
  • Such number data may be calculated as the parameter 102x.
  • the ratio indicated by reference numeral 83 is schematically illustrated as the ratio between the pitch 821 and the pitch 822 depending on the position of the tip of the arrow line indicated by reference numeral 83.
  • the calculated parameter 102x is a signal obtained by decoding the signal 105x (the signal 204i in FIG. 2) when the encoded sound signal 105x is decoded (for example, by the decoding device 2) (FIG. 2).
  • Signal 203ib (signal 104x in FIG. 1)
  • a signal (signal 203x in FIG. 2 (signal 101i in FIG. 1)) having a pitch (see pitch 822) specified by the parameter 102x is generated (reverse shift). Parameter).
  • the parameter 102x is communicated from the encoding device 1 to the decoding device (decoding device 2), and the communicated parameter 102x (see the signal 201i in FIG. 2)
  • the above processing may be performed.
  • the pitch of the decoded signal (signal 203x in FIG. 2) can be surely set to an appropriate pitch (see pitch 822).
  • the sound data (pitch identification parameter 102x) is used together with the sound data (signal 104x, signal 105x in FIG. 1, signal 203ib, signal 204i in FIG. 2), and the sound data and pitch Two types of data may be used.
  • the calculated parameter 102x is encoded into the encoded parameter 103x (parameter 201i in FIGS. 1 and 2) having a data amount smaller than the data amount of the parameter 102x.
  • Lossless encoding Hassless encoding (Huffman code, Arithmetic encoding, etc.)
  • Lossless encoding 103, step S103 Lossless encoding 103, step S103.
  • the parameter 102x (pitch data) can also be encoded (lossless encoding) to reduce the data amount of the parameter 102x (pitch data).
  • the section of the time adjacent to the time of the section (section 822s) of the pitch (see, for example, pitch 822 of FIG. 15) that can be specified by the calculated parameter 102x (parameter 204i of FIGS. 1 and 2) 821s) (pitch 821).
  • the calculated parameter 102x is a ratio (ratio 83, Tw_ratio in FIG. 18) between the pitch (pitch 821) of the adjacent (section (section 821s)) and the pitch (pitch 822) of the parameter 102x.
  • the specified parameter may be used.
  • the ratio is calculated (specified), lossless encoding is performed on the calculated ratio, and the data after the ratio is irreversibly encoded may be used as the encoding time expansion / contraction parameter. (See description above).
  • the calculated parameter 102x specifies a pitch (pitch 822) having a change by a ratio specified by the parameter 102x (ratio 83 in FIG. 15) from the adjacent pitch (pitch 821), and determines the pitch ( The pitch 822) may be indirectly specified by the ratio.
  • the ratio 88a (eg, the ratio 88x itself) is relatively close to the ratio 88x (1.0 ratio: FIG. 18) of the 0 cent pitch change. Etc.) occur at a high frequency (appearance frequency), while a ratio 88b relatively distant from the ratio 88x (eg, the ratio of “1.0293” shown in FIG. 18) occurs at a low frequency. Noticed.
  • the frequency at which the ratio 88 occurs is a frequency according to whether the ratio 88 is close to the 0 cent ratio 88x (higher the closer to the 0 cent ratio 88x, and the lower the distance is). I realized that.
  • ratio 88 (parameter 102x) is a ratio that is relatively close to the ratio 88x of 0 cents (ratio 88a: FIG. 18) and is a ratio 88a that appears at a relatively high appearance frequency
  • a code having a relatively short code length (bit length, length) (a code (bit string) 90a (FIG. 18), for example, a code “0” having a length of 1 (see FIG. 18)) is encoded. May be.
  • the calculated ratio 88 (parameter 102x) is a ratio that is relatively far from the ratio 88x of 0 cents (ratio 88b), and is a ratio 88b that appears at a relatively low appearance frequency.
  • the code may be encoded into a relatively long code (code 90b, for example, code "111110" shown in FIG. 18 and having a code length of 6).
  • each ratio 88 (parameter 102x: ratio 88a, ratio 88b, etc.) thus calculated is whether the ratio 88 is close to the 0 cent ratio 88x (how much is the difference from the ratio 88x).
  • Variable length code 90 (codes 90a, 90b, etc.) having a code length corresponding to the appearance frequency corresponding to the frequency of appearance.
  • a table 103t (table data, table data) that associates an appropriate variable length code 90 (code 90a, 90b, etc.) corresponding to the ratio 88 with respect to the ratio 88 (ratio 88a, 88b, etc.).
  • Table 85 see FIG. 18, FIG. 20, FIG. 1, etc. may be stored.
  • this table 103t may be specifically memorize
  • the calculated ratio 88 (ratio 88a, 88b: parameter 102x (FIG. 1)) is associated with the variable length code 90 (reference 90a, 90b: parameter 103x (FIG. 1)). Then, the variable length coding may be performed by encoding the ratio 88.
  • the data amount of the parameter 103x (code 90) after encoding becomes smaller, and the amount of encoded data that can be used by the transform encoder can be indirectly increased, thereby improving the encoded sound quality. Can be made.
  • the following processing may be performed in the decoding device 2 (FIG. 2 and the like).
  • the signal 204i obtained by encoding the sound signal 203ib may be decoded into the signal 203ib (signal 104x) (conversion decoder 204, step S204).
  • the transform decoder may be an orthogonal transform coding method such as MPEG (Moving Picture Experts Group) -AAC (Advanced Audio Coding), or ACELP (Algebraic Code Exited Linear Prediction).
  • MPEG Motion Picture Experts Group
  • AAC Advanced Audio Coding
  • ACELP Algebraic Code Exited Linear Prediction
  • the signal 204i to be decoded has a pitch (pitch 822) in the signal 203x (signal 101i) generated from the sound signal 203x (signal 101i) before being shifted.
  • the signal 203ib (signal 104x) after being shifted to the reference pitch (reference pitch 82r) is an encoded signal 204i (signal 105x).
  • the signal 204i to be decoded may be, for example, the signal 105x after being encoded by the encoding device 1 described above.
  • the signal 204i to be decoded is included in the data (stream 106x in FIG. 1, stream 205i in FIG. 2) communicated from the encoding apparatus 1 that has performed the encoding to the decoding apparatus 2.
  • a signal communicated from the encoding device 1 to the decoding device 2 may be used.
  • a signal 203x obtained by shifting (reversely shifting) the reference pitch (reference pitch 82r) in the decoded signal 203ib from the signal 203ib decoded from the signal 204i to the pitch (pitch 822) before the shift. Is generated (time expansion and contraction unit 203, step S203).
  • the encoding time expansion / contraction parameter 201i is losslessly decoded to obtain the dynamic time expansion / contraction parameter 202i.
  • the acquired dynamic time expansion / contraction parameter 202i is represented by the TW_Ratio_Index.
  • the time expansion / contraction parameter TW_Ratio is acquired from the acquired dynamic time expansion / contraction parameter 202i and the table 103t representing the relationship between TW_Ratio_Index and TW_Ratio.
  • the signal 203ib is converted by the time expansion / contraction circuit (time expansion / contraction unit) 203 into a non-expansion / contraction signal 203x corresponding to the pitch before being shifted (reverse shift).
  • the parameter 201i (parameter 103x in FIG. 1) obtained by encoding the ratio 88 (parameter 202i, parameter 102x) is decoded into the ratio 88 (parameter 202i, parameter 102x) and decoded.
  • a shift to a pitch (pitch 822) specified by the ratio 88 (parameter 202i) may be performed (reversible decoding unit 201, S201).
  • the data amount of the pitch data is also made small in the encoded data (parameter 201i, parameter 103x), and the data amount of the pitch data can be reduced.
  • the inventor when the ratio 88 is a ratio 88a close to the 0 cent ratio 88x, appears frequently, and when the ratio 88b is a ratio 88b away from the 0 cent ratio 88x. Noticed that it appears less frequently.
  • a relatively short code 90a may be decoded to a ratio 88a close to the 0 cent ratio 88x
  • a relatively long code 90b may be decoded to a ratio 88b far from the 0 cent ratio 88x.
  • decoding in accordance with the appearance frequency according to whether or not the ratio is close to the 0 cent ratio 88x may be performed.
  • the code 90 (FIG. 18) of the parameter 201i to be decoded is the code 90 (code 90a) with the ratio 88a close to the 0 cent ratio 88x
  • the code 90i is a short code 90a and is 0 cent.
  • the code 90 (the code 90b) having the ratio 88b that is away from the ratio 88x the long code 90b may be used.
  • the short code 90a may be decoded into the ratio 88a close to the 0 cent ratio 88x
  • the long code 90b may be decoded into the ratio 88b away from the 0 cent ratio 88x.
  • a decoding table 201t (FIG. 18, FIG. 2, FIG. 20, etc .: table 85) corresponding to the above-described table 103t (table 85: FIG. 18) is stored.
  • the table 201t may be stored by the lossless decoding unit 201 (second pitch processing unit 201A: see FIG. 2, FIG. 20, etc.).
  • the stored table 201t is decoded into the ratio 88 (parameter 202i) associated with the variable length code 90 (encoded parameter 201i), so that an appropriate decoding process is performed. Also good.
  • a fixed-length code having a fixed length see the fixed-length code 91 (reference numerals 91a and 91b) having a length of 3 bits in FIG. 19) and pitch data (ratio 88 (FIG. 18)
  • a technique is known in which the parameters in FIG. 1 (see parameter 202 (FIG. 2 etc.)) are fixed-length encoded.
  • the data 9L (first row and second column in FIG. 22) communicated for each frame 84F is, for example, 16 fixed lengths corresponding to 16 sections 84 of the frame 84F.
  • data 90L (second row and third row in FIG. 22) communicated for each frame 84F is shown in FIG. It includes fifteen length 1 codes 90c, indicated by fifteen "1" characters.
  • the data 90L in the present embodiment is, for example, a single length 6 (long in the data 90Ls) indicated by one “6” (“4” in the data 90Ls) shown in FIG. 4) of code 90d (code 90ds of data 90Ls, code 90dt of data 90Lt).
  • the data 90L in the present embodiment appears at a high frequency (for example, the frequency of 15/16 in the example of FIG. 22) and has a short length (for example, the length 1 at 9c in FIG. 22,
  • a large number for example, 15 in the example of the data 90L in FIG. 22
  • the code 90c reference numeral 90a in FIG. 18
  • the code 90a “0” in the table of FIG. 18 is included. .
  • the data 90L includes a code 90d (see, for example, the length 6 in FIG. 22 (length 4 in the data 90Ls and the length 6 in the code 90b “111110” in FIG. 18)).
  • 18 includes a small number (for example, one illustrated in FIG. 22).
  • the data amount of the data 90L in the processing such as communication of each frame 84F is reduced from the data amount in the data 91L (first row in FIG. 22) in the previous example.
  • these reduction ranges are merely examples that are theoretically assumed by calculation.
  • the principle for reduction described above may be used to obtain a reduction width that is the same as or close to these reduction widths (27 bits, 29 bits), or a relatively small reduction width, etc. It may be used to obtain other reduction widths.
  • the reduction amount of the data amount to be reduced can be a relatively large reduction amount (for example, 27 bits, 29 bits, etc. described above).
  • FIG. 12 shows a pitch 90j of only 100 cents (one cent is 1/1200 of one octave) constituting a semitone.
  • a pitch that is only 1 / 100th of the semitone pitch 90j is 1 cent.
  • the pitch between two pitches separated from each other by the ratio 88 of the row is It indicates how many times the pitch is 1 cent, i.e. the number of cents of the pitch in the ratio of 88 in that row.
  • cent number of 1.0288 times the ratio 88 is 50 cents. Is shown.
  • the range 861 (FIG. 18: a part of the range 86a) is a range of ratio 88 (1.0293, 1.0416) larger than 42 cents from the ratio 88x (the eighth row in FIG. 18) of 0 cents ( The ratio is larger than the ratio 88x and the absolute value of the difference from the ratio 88x is 42 cents or more).
  • the range 862 (part of the range 86a) is a ratio 88 (less than -42 cents) (a ratio 88 (0.9772, 0. 9715, 0.9604) (the range is smaller than the ratio 88x and the absolute value of the difference from the ratio 88x is 42 cents or more).
  • the absolute value of the difference from the 0 cent ratio 88x (line 8) is 42 cents or more, and is 42 cents or more away from the ratio 88x.
  • the ratio 88 range is shown.
  • range 87 is a range of ratio 88 that is less than 42 cents away.
  • the ratio 88a (ratio 83a in FIG. 15) is, for example, the ratio 88 belonging to the range 87 in less than 42 cents as described above, and the ratio 88b (ratio 83b in FIG. 15) is, as shown in FIG. , A ratio 88 belonging to range 86a that is 42 cents or more.
  • ratio 83 is the ratio in the range 87 where the ratio 83 is less than 42 cents.
  • 83a is a relatively small difference
  • a ratio 83b is a relatively large difference.
  • the ratio 88a is, for example, a ratio 88a (in FIG. 18, the ratio 88x itself) that is relatively close to the 0 cent ratio 88x (Tw_ratio “1”).
  • the other ratio 88b is a ratio 88b that is relatively far from the ratio 88x.
  • the length (length 1) of the code 90a (code “0”) corresponding to the ratio 88a is shorter than the length of the code 90b (“111100”) corresponding to the ratio 88b.
  • the code 90a (parameter 103x in FIG. 1) corresponding to the calculated ratio 88a is generated (reference code 103). 1), the generated code 90a may be decoded into the ratio 88a (parameter 202i in FIG. 2) (decoding device 2), and the processing described above may be performed.
  • the code 90b corresponding to the ratio 88b is generated, and the generated code 90b is decoded into the ratio 88b.
  • the above-described processing may be performed to reduce the data amount of the sound data (see the signal 105x (FIG. 1) and the signal 204i (FIG. 2)).
  • the ratio 88b of the range 86a is calculated, that is, when the ratio 83 between the two pitches (pitch 822, 821) is 42 cents or more, the above-described processing is performed, Since the data amount of data is reduced, the data amount of sound data can be reduced more reliably.
  • the ratio 83 (FIG. 15) is a ratio 83a of less than 42 cents, and the change between two pitches (see pitches 822 and 821 in FIG. 15) is a small change, not only 42 cents. Even when the ratio 83b is a large change, the data amount of the sound data is reduced. That is, regardless of whether the change in pitch (see pitches 822 and 821 in FIG. 15) is large or small, the data amount of sound data is reduced, and the data amount of sound data can be reliably reduced.
  • the ratio 89 (FIG. 19) between two pitches (see pitches 822 and 821) is a ratio belonging to a range 87 that is less than 42 cents. Only in such a case, the data amount is reduced, and the data amount of the sound data cannot be surely reduced.
  • the range in which appropriate processing is performed is from a relatively narrow range (range consisting of only the range 87) in the preceding example to a range wider than that range (range 87).
  • the range including the range 86a is further increased to the range 86), and the range in which appropriate processing is performed can be set to a wider range (range 87).
  • the above-mentioned range 87 is an example of such an expanded range.
  • the range (range 87) in which appropriate processing is performed in the preceding example includes at least a ratio (see ratio 88 etc.) less than 42 cents. It is.
  • the ratio 83p (FIG. 9) between two pitches (see pitches 822 and 821 in FIG. 15) at the position 704p (FIG. 9) is a ratio of 0 cents 90x (FIG. 18) (near).
  • the position 704p (the position at which the pitch changes) as described above and the ratio 83q (FIG. 9) at the position 704q (FIG. 9) are the position 704q (previously described) that is the ratio 90x (near) of 0 cent.
  • the constructed encoding apparatus stores, for example, the locations where the pitch variation is present (704p in FIG. 9) and the locations where the pitch variation is not present (704q in FIG. 9) in this encoded frame (see FIG. 9).
  • 9 vector C, 102m), and the location information (vector C, 102m) and the TW_Ratio or TW_Ratio_Index information at the pitch fluctuation point (704p) are transmitted to the decoding device. good. By doing so, it is only necessary to transmit TW_Ratio (or TW_Ratio_Index) of only the pitch fluctuation portion, and therefore the encoding / decoding device can be configured with the minimum necessary communication data amount (encoding amount).
  • the position 704x is a position 704q where the pitch does not change in many cases, and a position 704p where the pitch changes. I notice that there is little (a little) (previous).
  • the parameter 102x (parameter 202i in FIGS. 1 and 2) is, for example, a ratio 83p (the data 102m (FIG. 9 and the like) specifying the changing position 704p and the changing position 704p specified by the data 102m). May be included.
  • the parameter 102x may specify the ratio (ratio 83p) of the position 704p specified by the included data 102m as the ratio 83p (specified by the data (described above)) included in the parameter 102x.
  • the parameter 102x is a ratio (ratio 83q) at a position other than the position 704p specified by the included data 102m (position 704q where the pitch does not change), for example, a ratio 90x of 0 cents (see FIG. It may be specified as a ratio 83q at a position 704q where the pitch does not change, such as 18).
  • the parameter 102x includes only data of the ratio 83p of the changing position 704p and does not change.
  • the data of the position 704q is not included, the data of many positions (the position 704q that does not change) is not included, and the data amount of the pitch data (parameters 102x and 103x in FIG. 1, 204i and 203 b in FIG. 2) is further increased. Can be sufficiently small.
  • codes variable length code 90, data 90L (FIGS. 20 and 22) for encoding the pitch (ratio 88 of pitch 822 and pitch 822) of signal 204i (stream 205i) input to decoding apparatus 2 in this way. )) Format (table 85 in FIG. 18) is disclosed.
  • a ratio 88a code (variable length code 90, code 90a) that is relatively close to a 0 cent ratio 88x is a shorter length (length 1) code 90a ("0").
  • the code (variable length code 90, code 90b) having a ratio 88b far from the 0 cent ratio 88x is a code 90b ("111100") having a longer length (length 6).
  • the data amount of the pitch data (parameters 103x, 203x) is, for example, in the first row and third column in FIG.
  • the data amount of the pitch data can be further reduced by reducing the width from 48 bits to 21 bits in the second row and the third column (19 bits in the third row and the third column).
  • a plurality of configurations (such as the lossless encoding unit 103) are combined to produce a synergistic effect from the combination.
  • some or all of the plurality of configurations are lacking, and a synergistic effect in the present technology occurs. Absent.
  • the present technology is considered to have an advanced level over the conventional example.
  • a part (or all) of the encoding device 1 may be an integrated circuit in which one or more functions of the encoding device 1 are mounted (for example, refer to the integrated circuit 1C in FIG. 20).
  • a computer program for causing a computer that is a part (or all) of the encoding device 1 to execute one or more functions of the encoding device 1 may be constructed.
  • an integrated circuit see integrated circuit 2C
  • a computer program see program 2P
  • the like on which the function of the decoding device 2 is mounted may be constructed.
  • a storage medium storing this computer program may be constructed, or a data structure of data of this computer program may be constructed.
  • step S101 and S104, etc. may be any order within a range in which an appropriate operation is possible.
  • the order of step S101 may be earlier than or later than that of step S104, or may be the same order by being executed in parallel.
  • ranges can be considered as the range handled by the processing.
  • the range (range 86, 87) of the above-described range of the pitch change ratio (the ratio 88 in FIG. 18 and the ratio 89 in FIG. 19) is more than the above-described various ranges.
  • the bit stream (bit streams 106x and 205i) received by the decoding device (decoding device 2) is a plurality of positions (sections 841 to 84M) in one frame (frame 84F: FIG. 16). Only the signal at the pitch change position (position 704p) is time warped (time expansion / contraction processing) by the audio signal reconstructor (time expansion / contraction block (time expansion / contraction unit) 203), and signals of other positions are not time warped (time).
  • a decoding device including position information (for example, data 102m in FIG. 9) for specifying a pitch change position (position 704p) that is not subjected to expansion / contraction processing may be constructed.
  • the pitch parameter generator determines the pitch change position (see position 704p (FIG. 9), data 102m) and the pitch based on the detected pitch contour information (information 101x).
  • Two pitch parameters (parameter 102x: for example, a first pitch parameter 102x for specifying a pitch change position and a second pitch parameter 102x for specifying a pitch change ratio) including a change ratio (see ratio 83p)
  • An encoding device that generates a pitch parameter 102x or the like may be constructed.
  • the number of pitch change positions is small (small), and the number of other positions is large.
  • an encoding device (encoding device 1e: FIG. 3) or the like further provided with a pitch contour reconstructor (dynamic time expansion / contraction reconstruction block 307: FIG. 3) or the like may be constructed.
  • decoding is performed from the encoding pitch parameter (parameter 303x: FIG. 3 (parameter 103x)) output from the first encoder (lossless encoding unit 303: FIG. 3 (lossless encoding unit 103: FIG. 1)).
  • a first decoder (lossless decoding block 306) that generates a decoding pitch parameter (parameter 306x) including a pitch change position (see position 704p (see FIG.
  • a pitch contour reconstructor (dynamic time expansion / contraction reconstruction block 307) for restoring pitch contour information (information 307x (see information 301x)) according to the decoded pitch parameter (parameter 306x), and the pitch shifter (time The expansion / contraction block 304) is the restored pitch contour information (information 307x).
  • Encoding device encoding device 1e, pitch contour analysis unit 301 to multiplexer circuit 308, that shifts the pitch frequency (pitch 822: FIG. 15) of the input audio signal (signal 301i) according to the constructed pitch contour information (information 307x) May be constructed.
  • the restored information 307x as the information used in the shift, the same information as the information restored in the decoding device 2 used in the decoding device 2 is used. More appropriate (accurate) information may be available.
  • the middle side stereo mode (MS stereo mode) is applied to each audio frame of the input stereo audio signal (signal 401i: FIG. 4), and a flag (flag 401x) indicating application of the MS stereo mode is confirmed.
  • a downmixer (downmix block 402) for downmixing the input stereo audio signal (signal 401i) according to the generated flag (flag 401x) and an MS mode selector (MS operation block (MS operation unit) 401)
  • the pitch detector is a downmix signal (signal 402a) obtained by downmixing the input stereo audio signal (signal 401i) according to the generated flag (flag 401x).
  • Ma Detects pitch contour information (information 403x) of the input stereo audio signal (signal 402b), and the pitch shifter (time expansion / contraction block 406) according to the pitch contour information (information 403x) and the flag (flag 401x).
  • An encoding device (encoding device 1f, MS operation unit 401) that shifts the pitch frequency (see pitch 822 (FIG. 15)) of the input stereo audio signal or the downmix signal (signal 402x (signal 402a or 402b)).
  • ⁇ Multiplexer circuit 408) may be constructed.
  • a flag may be generated and processing according to the generated flag may be performed.
  • an MS mode selector that selects an MS stereo mode according to an input stereo audio signal (signal 601i: FIG. 6) and generates a flag (flag 601x) indicating application of the MS stereo mode
  • generation A downmixer (downmix block 602) for downmixing the input stereo audio signal (signal 601i) according to the flag (flag 601x), a first decoder (lossless decoding block 608), and a pitch contour reconstructor (motion And a pitch detector (pitch contour analysis block 603) according to the generated flag (flag 601x), and the input stereo audio signal (signal 601i) is downmixed according to the generated flag (flag 601x).
  • the pitch decoder (signal 602a) or pitch contour information (information 603x) of the input stereo audio signal (signal 602b) is detected, and the first decoder (lossless decoding block 608) detects the first encoder (lossless encoding). From the encoded pitch parameter (parameter 605x) output from the block 605), a decoding pitch parameter (including a decoding pitch change position (see position 704p (see FIG. 8)) and a decoding pitch change ratio (see ratio 83p) (see FIG. 8). Parameter 608x), and the pitch contour reconstructor (dynamic time expansion and reconstruction reconstruction block 609) reconstructs pitch contour information according to the generated decoded pitch parameter (parameter 608x) and the flag (flag 601x).
  • the pitch shifter (time expansion / contraction block 606) shifts the pitch frequency of the input stereo audio signal or the downmix signal (signal 602x (signal 602a or 602b)) according to the reconstructed pitch contour information (information 609x).
  • An encoding device (encoding device 1h, MS operation unit 601 to multiplexer circuit 408) may be constructed.
  • the same information as the information used in the decryption device 2 is used, so that more appropriate information can be used and the operation can be easily performed.
  • comparison means for determining whether to use the pitch shifter (time expansion / contraction block 708 in FIG. 7), the multiplexer (multiplexer block 711), encoded data (signal 709x).
  • an encoding device encoding device 1i, MS operation unit 701 to multiplexer circuit 711 that generates a bit stream (stream 711x) by combining the encoding pitch parameter (parameter 710x) output from the comparison unit. May be constructed.
  • the comparison scheme 710 generates a more appropriate signal (for example, SNR (Signal Signal) among the third signal 709x (third signal 105x (FIG. 1)) generated and the other signals.
  • SNR Signal Signal
  • to Noise Ratio signal noise ratio, signal-to-noise ratio having a higher noise and less noise, or a signal having a smaller amount of data
  • the decoding device decoding device 2 or the like. It may be selected as a signal to be used.
  • the other signal may be, for example, another signal other than the third signal 709x in which the same sound as that recorded by the third signal 709x is recorded.
  • the SNR (Signal to Noise Ratio) in the third signal 709x and the SNR in other signals are calculated, respectively, and based on the two calculated SNRs.
  • the above selection may be made.
  • the calculated SNR is, for example, the difference that the signal of the SNR (the third signal 709x, other signals) has with respect to the signal before the shift (see the signal 101i in FIG. 1 and the like).
  • the value when the noise of the signal of the SNR is taken may be used.
  • the third signal 709x may not be appropriate, the other signal is used and the appropriate signal is maintained to be used. Is available.
  • the pitch parameter generator (for example, the dynamic time expansion / contraction block 102 in FIG. 1) provided in the encoding device (encoding device 1) is a first harmonic structure before the pitch shift.
  • a pitch parameter generator (dynamic time expansion / contraction block 102) is constructed that modifies the pitch contour (information 101x) and determines whether the pitch shift should be used or not by comparing with the second harmonic structure after May be.
  • the first pitch contour when the first pitch contour is not corrected, it is determined to use the pitch shift in the first pitch contour, and the first pitch contour is changed to the second pitch contour. By being modified, it may be determined to use a pitch shift at the second pitch contour.
  • the harmonic structure (data) includes, for example, data including a plurality of values each of which is a value indicating the amplitude of the harmonics corresponding to the value among one or more harmonics of the signal. But you can.
  • an evaluation value indicating the quality of the signal after being processed may be calculated from the harmonic structure of the signal before being pitch-shifted and the harmonic structure of the signal after being processed.
  • the quality indicated by the evaluation value calculated for the pitch shift of the first pitch contour is higher than the quality indicated by the evaluation value calculated for the pitch shift of the second pitch contour, It may be determined that the first pitch profile is not modified and, if it is of lower quality (if less), it will be modified.
  • the quality at the first pitch contour may not be high quality
  • the signal quality after the pitch shift is performed after the processing at the second pitch contour is performed at that time It is possible to maintain high quality and ensure high signal quality.
  • the first decoder determines the pitch change position (position 704p (FIG. 9)) from the encoded pitch parameter information (parameter 201i) separated. And the pitch change ratio (see the ratio 83p) (see, for example, the first parameter 202i for specifying the pitch change position and the second parameter for specifying the pitch change ratio).
  • a decoding device (decoding device 2c) that generates two parameters 202i) with 202i may be constructed.
  • the decoding apparatus includes the bit stream (stream 506i) including the encoded data (signal 505i: FIG. 5) of the pitch-shifted stereo audio signal (signal 503ibL, etc .: FIG. 5). ) And an MS mode detector (MS mode detection block 504), and the second decoder (transform decoder block 505) decodes the separated encoded data (signal 505i) and is pitch-shifted.
  • the audio signal (signal 503ibL, etc.) and MS mode encoding information (information 504i) are generated, and the MS mode detector (MS mode detection block 504) generates whether the MS mode is enabled.
  • MS mode is detected according to the encoded MS mode information (information 504i)
  • An MS mode flag (flag 504F: FIG. 5) indicating whether or not to be enabled is generated, and the pitch contour reconstructor (dynamic time expansion / contraction reconstruction unit 502) generates the first decoder (lossless decoding block 501).
  • the pitch contour reconstructor dynamic time expansion / contraction reconstruction unit 502
  • the pitch contour reconstructor dynamic time expansion / contraction reconstruction unit 502
  • a block refers to a so-called functional block.
  • the above-described effects occur, and the operation of the encoding device 1 and the like can be performed more appropriately.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

 情報を検出するピッチ輪郭分析部(101)と、検出された前記情報に基づいて、当該範囲(86a)のピッチ変化比のセント数(cent)の絶対値は、42以上である範囲(86a)を含む範囲(86)の変域であるピッチ変化比(Tw_ratio:図18)を生成する動的時間伸縮部(102)と、生成されたピッチパラメータ(102x)を符号化する第1の可逆符号化部(103)と、前記情報に従って、信号のピッチをシフトする時間伸縮部(104)と、シフトがされた信号(104x)を符号化する第2のエンコーダとを備える符号化装置(1)が構築される。

Description

オーディオ符号化装置、復号装置、方法、回路およびプログラム
 本発明は、概して、変換オーディオ符号化システムに関し、特に、時間伸縮技術を用いて、入力オーディオ信号のピッチ周波数をシフトすることで、符号化効率および音質を向上させる変換オーディオ符号化システムに関する。なお、当該オーディオ符号化システムは、オーディオだけでなく、スピーチ信号にも適用でき、携帯電話や電話・テレビ会議にも、使用できる。
 変換符号化技術は、オーディオ信号を、効率的に符号化するように設計されている。人間の発話では、信号の基本的周波数が、時々変化する。これにより、スピーチ信号のエネルギーは、広範な周波数帯域に拡散する。そして、特に、低ビットレートにおいては、ピッチが変化するスピーチ信号を、変換コーデックによって、符号化することは、効率的ではない。なお、例えば、時間伸縮技術は、先行技術[3]、[4]において、ピッチ変化の影響を補うために用いられている。
 図10は、基本的周波数をシフトするという概念の例を示す図である。
 時間伸縮技術は、ピッチシフトを実現するために用いられる。図10の(a)欄のスペクトラムは、元のスペクトラムであり、図10の(b)欄のスペクトラムは、ピッチシフト後のスペクトラムである。
 図10の(b)欄では、基本的周波数が、200Hzから100Hzにシフトされている。こうして、次フレームのピッチを、先行フレームのピッチに合わせるようにシフトすることで、ピッチが安定する。
 図11は、ピッチシフト後のスペクトラムを示す図である。
 したがって、信号エネルギーが、図11に示すように集中する。
 図11の(a)欄の信号は、スイープ信号である。そして、図11の(b)欄の信号は、ピッチシフト後の信号であり、(b)欄でのピッチは、一定になる。
 一方、図11の(c)欄の2つのスペクトラムは、信号(a)および信号(b)のスペクトラムである。図11の(c)欄において、信号(b)のエネルギーは、狭帯域に制限されるのが示される。
 ここで、上述のようなピッチシフトは、再サンプリング方法を用いて達成される。安定したピッチを維持するために、再サンプリングレートが、ピッチ変化レートに従って変化する。そして、ピッチトラッキングアルゴリズムを適用することで、入力フレームのピッチ輪郭が得られる。
 図8は、1オーディオフレームのセグメント化を説明する図である。
 図8に示されるように、フレームは、ピッチトラッキングのため、小さなセクションにセグメント化される。なお、ここで、隣接セクションは、重なっていてもよい。つまり、例えば、少なくとも1つの組み合わせにおいては、その組み合わせの、互いに隣接する2つのセクションのうちの一方のセクション(の一部)が、他方のセクション(の一部)に重なってもよい。
 そして、従来例としては、現在のところ、自己相関に基づくピッチトラッキングアルゴリズム[1]、および、周波数領域に基づくピッチ検出方法[2]がある。
 各セクションは、そのセクションに対応するピッチ値を有する。
 図15は、ピッチ輪郭の算出の処理を示す図である。
 図15の(a)欄の信号は、時変ピッチを有する信号である。信号の1セクションから、1つのピッチ値が算出される。ピッチ輪郭は、ピッチ値の連鎖である。
 時間伸縮の間、再サンプリングレートは、ピッチ変化レートに比例している。
 ピッチ変化情報は、ピッチ輪郭から抽出される。
 なお、このピッチ変化レートの測定には、セントおよび半音が頻繁に用いられる。
 図12は、セントおよび半音の長さを示す図である。セントは、隣接ピッチのピッチ比から算出される。
Figure JPOXMLDOC01-appb-M000001
 
 ピッチ変化レートに従って、再サンプリングが、時間領域信号に適用される。他のセクションのピッチが、参照ピッチにシフトされ、安定したピッチを得る。例えば、次のセクションのピッチが、先行ピッチよりも高ければ、再サンプリングレートは、それらの2ピッチの間の、セントの差分に比例して、より低く設定される。そうでなければ、サンプリングレートは、より高くなければならない。
 なお、ここで、音声再生速度を調整可能な記録再生装置があるとして、高音の音の再生速度を下げることで、音域が、低周波数にシフトされる。これは、ピッチ変化レートに比例して、信号を再サンプリングする概念に似ている。
 図13および図14は、時間伸縮方式を組み入れた符号化システムを示す。
 図13は、エンコーダ(エンコーダ13A)における時間伸縮のブロック図である。
 図14は、デコーダ(デコーダ14A)における時間伸縮のブロック図である。
 変換符号化の前に、時間領域信号が時間伸縮される。デコーダにおける逆時間伸縮において、ピッチ情報が必要である。よって、ピッチ比は、エンコーダで符号化されなければならない。
 そして、先行技術において、これらのピッチ比情報の符号化に、小さな固定テーブルが用いられている。ピッチ比の符号化には、小さなビットが用いられる。しかしながら、信号のピッチ変化レートが大きいときに、小さなテーブルでは、限界があり、時間伸縮の性能は落ちる。
 しかしながら、大きなテーブルが用いられる際には、より多くのビットを使用し、変換符号化のために、十分なビットが残らないために、音質も落ちる。現在のところ、固定テーブルを用いた時間伸縮の効果は限られている。
 なお、上述された処理(符号化など)は、後で詳しく説明されるように、例えば、将来定められることが想定される、ISO(International Organization for Standardization)等の規格における処理と同じ処理である。
[1] Milan Jelinek, "Wideband Speech Coding Advances in VMR-WB Standard", IEEE Transactions on Audio, Speech and Language Processing, Vol. 15, No. 4 2007年5月 [2] Xuejing Sun, "Pitch Detection and Voice Quality Analysis Using Subharmonic-to-Harmonic Ratio ", IEEE ICASSP, 333-336, Orlando 2002年 [3] Bernd Edler, "A Time-warpped MDCT Approach To Speech Transform Coding", AES 126th Convention, Munich, Germany 2000年5月
[4] 米国特許出願公開第2008/0004869(A1)号明細書(Juergen Herre, “Audio Encoder, Audio Decoder and Audio Processor Having a Dynamically Variable Warping Characteristic”)
 時間伸縮を用いる動機は、1フレーム内のピッチを安定させ、符号化効率の改善を達成することである。時間伸縮は、ある程度、ピッチトラッキングの精度に依存する。
 しかしながら、ピッチ輪郭検出の課題は、信号の振幅および軌道の変化により、困難が生じることがあることである。つまり、平滑化や、微調整閾値パラメータのような、ポスト処理方式が、ピッチ検出精度の改善のために、いくつか導入されているが、それらの方式は、特定のデータベースに基づいている。
 時間伸縮が、不正確なピッチ輪郭に基づいて適用されれば、音質が落ち、時間伸縮情報の送信に用いられたビットが無駄になる。したがって、検出されたピッチ輪郭を、無分別に指針としないような時間伸縮を設計する必要がある。
 現在のところ、先行技術の時間伸縮における、従来より利用可能な技術としては、ピッチ輪郭情報を符号化する効率的な方法を欠いている。
 ここで、先行技術において、ピッチ輪郭を表現するためには、固定テーブルが用いられている。
 そして、小さなテーブルは、ピッチが大きく変化する状況には、不十分であるが、より大きなテーブルは、より大きなビットの使用を必要とする。これにより、特に、低ビットレートの符号化において、コスト高となる可能性がある。これは、時間伸縮パラメータの送信に、ビットを使用することで、符号化効率を改善することの代償である。
 したがって、時間伸縮パラメータを、より効率的に符号化する方法があれば、節約したビットを、変換符号化に用いることができることから、音質を向上させることができ、かつ、ピッチ変化の大きい信号に対応することができる。
 時間伸縮方式を、変換符号化システムに取り入れる簡易な方法は、時間伸縮方式を、直接的に、変換符号化に連結させることである。先行技術において、時間伸縮方式は、変換符号化から独立している。時間伸縮の目的は、変換符号化の効率の向上であることから、変換符号化システムから、何らかの符号化情報を用いることは、時間伸縮の役に立つ。現在の時間伸縮を用いた変換符号化構造は、改善の必要がある。
 また、他の目的は、ピッチ変化比(図18の比88を参照)の変域が、適切な変域(範囲86を参照)にできる符号化装置、復号装置等を提供することを含む。また、他の目的は、適切な処理が、より広い範囲の変域のピッチ変化比(図18の比88を参照)のときに行われて、音質が高くできる符号化装置等を提供することを含む。また、他の目的は、ピッチ(図16のピッチ822、比83、図18の比88等を参照)が符号化された符号(図18の符号90を参照)のデータ(図22のデータ90Lを参照)のデータ量(例えば平均量など)が小さくできる符号化装置等を提供することを含む。そして、ひいては、他の目的は、将来定められる、ISO等の規格における処理を行い、かつ、比較的適切に処理をする符号化装置等を提供することを含む。
 本発明の符号化装置は、入力オーディオ信号のピッチ輪郭情報を検出するピッチディテクタと、検出された前記ピッチ輪郭情報に基づいて、当該ビット変化比(図18のTw_ratioを参照)の変域(範囲86を参照)は、当該範囲(範囲86a参照)のピッチ変化比(Tw_ratio:1.0416、1.0293、0.9772、0.9715、0.9604)のセント数(cent:60、50、-40、-50、-60)の絶対値は、42以上である範囲(範囲86a)を含む範囲(範囲86)の変域(範囲86)であるピッチ変化比(Tw_ratio、Tw_ratio_index:図18)を含むピッチパラメータを生成するピッチパラメータジェネレータと、生成された前記ピッチパラメータを符号化する第1のエンコーダと、前記ピッチ輪郭情報に従って、前記入力オーディオ信号のピッチ周波数をシフトするピッチシフタと、前記ピッチシフタから出力された、シフトがされたオーディオ信号を符号化する第2のエンコーダと、前記第1のエンコーダから出力された符号化ピッチパラメータと、前記第2のエンコーダから出力された、前記ピッチシフタから出力された前記オーディオ信号が符号化されたデータとを組み合わせることで、前記符号化ピッチパラメータと当該データとが含まれるビットストリームを生成するマルチプレクサとを備える符号化装置である。
 つまり、具体的には、前記第1のエンコーダは、前記ピッチパラメータ(図18の比88を参照)を、当該ピッチパラメータが、比較的小さな絶対値のセント数(図18のcentを参照)のピッチ変化比のピッチパラメータ(比88aを参照)である場合には、比較的短い符号長の符号の符号化ピッチパラメータ(符号90aを参照)へと符号化し、比較的大きな絶対値のセント数のピッチ変化比のピッチパラメータ(比88bを参照)である場合には、比較的長い符号長の符号の符号化ピッチパラメータ(符号90bを参照)へと符号化する符号化装置が構築される。
 本発明の復号装置は、ピッチシフトされたオーディオ信号の符号化データと、符号化ピッチパラメータ情報とを含むビットストリームを復号する復号装置であって、復号を行う前記ビットストリームから、当該ビットストリームに含まれる前記符号化データと、前記符号化ピッチパラメータ情報とをそれぞれ分離するデマルチプレクサと、分離された前記符号化ピッチパラメータ情報から、当該ビット変化比(図18のTw_ratioを参照)の変域(範囲86を参照)は、当該範囲(範囲86a)のピッチ変化比(Tw_ratio:1.0416、1.0293、0.9772、0.9715、0.9604)のセント数(cent:60、50、-40、-50、-60)の絶対値は、42以上である範囲(範囲86a)を含む範囲(範囲86)の変域(範囲86)であるピッチ変化比(Tw_ratio、Tw_ratio_index:図18)を含む復号ピッチパラメータを生成する第1のデコーダと、生成された前記復号ピッチパラメータに従って、ピッチ輪郭情報を復元するピッチ輪郭リコンストラクタと、分離された前記符号化データを復号して、ピッチシフトされた前記オーディオ信号を生成する第2のデコーダと、復元された前記ピッチ輪郭情報である再構築ピッチ輪郭情報に従って、ピッチシフトされた前記オーディオ信号を、元のオーディオ信号に変換するオーディオ信号リコンストラクタとを備える復号装置である。
 つまり、具体的には、前記第1のデコーダは、分離された前記符号化ピッチパラメータ情報を、当該符号化ピッチパラメータ情報が、比較的短い符号長の符号の符号化ピッチパラメータ情報である場合には、比較的小さな絶対値のセント数のピッチ変化比のピッチパラメータへと復号し、比較的長い符号長の符号の符号化ピッチパラメータ情報である場合には、比較的大きな絶対値のセント数のピッチ変化比のピッチパラメータへと復号する復号装置が構築される。
 こうして、例えば、符号化装置と、復号装置とを含んでなる、次のような信号処理システムが構築されてもよい(実施形態の冒頭の説明等を併せて参照されたい)。
 つまり、当該信号処理システムにおいて、前記符号化装置は、前記ピッチシフタが、第1の信号から、当該第1の信号のピッチが、予め定められたピッチへとシフトされた第2の信号を生成し、前記第2のエンコーダが、生成された前記第2の信号を、第3の信号へと符号化し、前記ピッチパラメータジェネレータが、シフトがされる前の前記第1の信号の前記ピッチを特定するピッチ変化比を算出し、前記第1のエンコーダが、算出された当該ピッチ変化比を符号へと符号化する符号化装置である。
 そして、前記復号装置は、前記第2のデコーダが、前記第1の信号から生成された、当該第1の信号の前記ピッチが前記予め定められたピッチへとシフトされた前記第2の信号が符号化された前記第3の信号を、前記第2の信号へと復号し、前記オーディオ信号リコンストラクタが、復号された前記第2の信号から前記第1の信号を生成し、前記第1のデコーダが、前記符号を、前記ピッチ変化比へと復号し、前記ピッチ輪郭リコンストラクタが、復号された前記ピッチ変化比により特定される、当該ピッチの前記第1の信号が生成される前記ピッチを算出する復号装置である。
 そして、前記ピッチ変化比が符号化された、当該ピッチ変化比へと復号される前記符号は、当該符号に対応する前記ピッチ変化比が、0セントの音程の差の2つのピッチの間のピッチ変化比に対して、比較的小さな差を有する第1のピッチ変化比である場合には、比較的短い符号長の第1の符号であり、比較的大きな差を有する第2のピッチ変化比である場合には、比較的長い符号長の第2の符号である。
 そして、シフトがされた前記第2の信号が符号化された前記第3の信号が、前記符号化装置で生成され、前記復号装置で復号される動作は、シフトがされる前の前記第1の信号の前記ピッチの前記ピッチ変化比が、0セントの前記ピッチ変化比に対して有する差が、閾値以下の場合にのみ行われ、前記閾値よりも大きい場合には行われず、当該閾値は、42セント未満の音程での値ではなく、42セント以上に大きな音程での値である。
 すなわち、上述の説明の課題で述べた通り、ピッチ輪郭が不正確であると、時間伸縮後の音質の低下につながる可能性がある。
 そこで、この課題を克服するために、動的時間伸縮方式を提案する。それは、ハーモニクス構造も考慮した時間伸縮方式である。
 時間伸縮の間、ピッチシフトと共に、ハーモニクスが修正されるので、時間伸縮の間の信号のハーモニクス構造を考慮する必要がある。
 そこで、提案のハーモニクス時間伸縮方式は、ハーモニクス構造の分析に基づいて、ピッチ輪郭を修正し、時間伸縮の間のハーモニクス構造を考慮することにより、音質を改善する。
 提案の動的時間伸縮は、また、時間伸縮の前後のハーモニクス構造を比較することによって、時間伸縮の効率を評価し、対象フレームに、時間伸縮を利用するかどうかを決定する。それは、不正確なピッチ輪郭によってもたらされる不正確性を取り除く。
 先行技術において、ピッチ輪郭情報は、圧縮されずに、直接、デコーダに送られる。動的時間伸縮において、時間伸縮パラメータを、より効率的に符号化する方法を提案する。時間伸縮のために、ピッチ輪郭を統計的に分析した後に、信号フレーム内で、ピッチが変化する僅かな位置においてのみ、時間伸縮が有効にされていることが分かる。
 したがって、時間伸縮が適用されている部分でのみ情報を符号化すると、より効率的である。
 また、ピッチ変化値の発生する確率が一様でないことから、時間伸縮パラメータの符号化に、可逆符号化を用いることで、ビットを節約できる。
 提案の動的時間伸縮では、時間伸縮が適用される位置の情報と、その位置の時間伸縮値とを用いる。先行技術に記載のように、固定テーブルを用いて、ピッチ輪郭全体を符号化することで、ビットが節約される。
 提案の動的時間伸縮は、また、広範囲の時間伸縮値に対応する。なお、対応するとは、適切な動作ができることなどを意味する。節約されたビットが、変換符号化に用いられ、かつ、広範囲の時間伸縮値により、音質が改善される。
 一方、多くの変換符号化システムにおいて、ステレオオーディオ信号の符号化に、MSステレオモード(Mid Side Stereo Mode)を使用している。変換符号化システムからのMSモード情報を使用することで、時間伸縮の性能を改善する、新たな構造を提案する。左右のチャネルが、互いに類似した特性を有するとき、左右の信号に、同じ時間伸縮パラメータを使用すると、より効率的である。左右のチャネルが大きく異なるときには、時間伸縮を共用すると、符号化効率が下がる場合がある。よって、提案の変換符号化構造における時間伸縮に、MSモードを導入する。
 なお、例えば、当該復号装置により受信される前記ビットストリーム(ビットストリーム106x、205i等を参照)は、1つのフレーム(図16のフレーム84Fを参照)における複数の位置(セクション841~84Mを参照)のうちで、当該ピッチ変化位置(図9の位置704pを参照)における信号のみが前記オーディオ信号リコンストラクタによりTimeWarp(ピッチシフト)され、他の位置の信号はTimeWarpされないピッチ変化位置(位置704pを参照)を特定する位置情報(データ102m:図9)を含む復号装置が構築されてもよい。
 本発明において説明する時間伸縮方式では、オーディオ信号のハーモニクス構造を分析した情報に基づいて、ピッチ輪郭を修正し、時間伸縮処理の前後のハーモニクス構造を比較することにより、時間伸縮の効率を評価する。このことで、対象オーディオフレームに、時間伸縮を利用するべきかどうかを決定するものである。その処理により、検出されたピッチ輪郭情報の不正確性によりもたらされる音質劣化を防ぐことができ、音質が高くできる。さらに、本発明の時間伸縮技術では、変換符号化からのMSステレオモード情報を利用することで、音質およびオーディオ符号化システムの符号化効率を改善できる。
 ピッチ変化比(図18の比88を参照)の変域が、適切な変域(範囲86を参照)にできる。
 適切な処理が、より広い範囲の変域のピッチ変化比(図18の比88を参照)のときに行われて、音質が高くできる。
 ピッチ(図16のピッチ822、比83、図18の比88等を参照)が符号化された符号(図18の符号90を参照)のデータ量(例えば、データ量の平均等)が小さくできる。
図1は、動的時間伸縮を用いるエンコーダのブロック図である。 図2は、動的時間伸縮を用いるデコーダのブロック図である。 図3は、変更された動的時間伸縮デコーダを用いるデコーダのブロック図である。 図4は、MSモードを利用する動的時間伸縮を用いるエンコーダのブロック図である。 図5は、MSモードを利用する動的時間伸縮を用いるデコーダのブロック図である。 図6は、MSモードを利用する変更された動的時間伸縮を用いるエンコーダのブロック図である。 図7は、閉ループ動的時間伸縮を用いるエンコーダのブロック図である。 図8は、1オーディオフレームのセグメント化を説明する図である。 図9は、ベクトルCの算出を説明する図である。 図10は、ピッチシフトを説明する図である。 図11は、ピッチシフト後のスペクトラムである。 図12は、セントおよび半音を説明する図である。 図13は、エンコーダにおける時間伸縮のブロック図である。 図14は、デコーダにおける時間伸縮のブロック図である。 図15は、ピッチ輪郭の算出を説明する図である。 図16は、対数目盛に基づくスペクトラムである。 図17は、ハーモニクスを利用するピッチシフトを説明する図である。 図18は、表を示す図である。 図19は、先行例での表を示す図である。 図20は、符号化装置および復号装置を示す図である。 図21は、処理の流れを示す流れ図である。 図22は、先行例と本装置とのそれぞれでのデータを示す図である。
 以下、説明を参照して、本発明を実施するための形態が説明される。
 実施の形態のシステム(図20のシステム2S)に設けられる、実施の形態の符号化装置(符号化装置1)は、入力オーディオ信号(信号101i(図1):図11の信号811を参照)の(のピッチ(例えばピッチ822(図15))を特定する)ピッチ輪郭情報(情報(ピッチ)101x、ピッチ822(図15))を検出するピッチディテクタ(ピッチ輪郭分析ブロック(ピッチ輪郭分析部)101)と、検出された前記ピッチ輪郭情報(情報101x)に基づいて、当該ビット変化比(Tw_ratio(図18)、比83(図15)、比88(図18))の変域(範囲86:図18)は、当該範囲(範囲86a)のピッチ変化比(Tw_ratio:1.0416、1.0293、0.9772、0.9715、0.9604)のセント数(cent:60、50、-40、-50、-60)の絶対値は、42以上である範囲(範囲86a)を含む範囲(範囲86)の変域(範囲86)であるピッチ変化比(Tw_ratio:図18)を含むピッチパラメータ(パラメータ(ピッチ変化比)102x、比88(図18))を生成するピッチパラメータジェネレータ(動的時間伸縮ブロック102)と、生成された前記ピッチパラメータ(パラメータ102x)を(符号90(図18)へと)符号化する第1のエンコーダ(可逆符号化部103)と、前記ピッチ輪郭情報(情報(ピッチ)101x、ピッチ822)に従って、前記入力オーディオ信号(信号(第1の信号)101i)のピッチ周波数(ピッチ822:図15)を(参照ピッチ82r(図15)へと)シフトするピッチシフタ(時間伸縮ブロック104)と、前記ピッチシフタから出力された、シフトがされたオーディオ信号(第2の信号104x)を(、符号化された第3の信号150xへと)符号化する第2のエンコーダ(変換エンコーダブロック105)と、前記第1のエンコーダ(可逆符号化ブロック103)から出力された符号化ピッチパラメータ(パラメータ103x、符号90)と、前記第2のエンコーダ(変換エンコーダブロック105)から出力された、前記ピッチシフタから出力された前記オーディオ信号(信号(第2の信号)104x)が符号化されたデータ(第3の信号105x)とを組み合わせることで、前記符号化ピッチパラメータと当該データとが含まれるビットストリーム(ストリーム106x)を生成するマルチプレクサ(マルチプレクサブロック(マルチプレクサ回路)106)とを備える符号化装置(符号化装置1)である。
 なお、1セントは、例えば、半音を構成する100セントの音程90j(図12)の、100分の1だけの音程(2つのピッチ(図15の2つのピッチ821、822を参照)の間の差)をいい、換言すれば、1オクターブの音程の、1200分の1だけの音程をいう。
 なお、例えば、生成されるピッチパラメータの全体が、ピッチ変化比でもよいし、一部が、ピッチ変化比でもよい。そして、一部等がピッチ変化比である、このようなピッチパラメータは、生成される複数のピッチパラメータのうちの、1つでもよい。
 つまり、例えば、前記第1のエンコーダ(可逆符号化103)は、前記ピッチパラメータ(パラメータ102x(図1)、比88(図18))を、当該ピッチパラメータ(比88)が、比較的小さな絶対値(0)のセント数(±0:図18のcentを参照)の(音程の幅の2つのピッチ(ピッチ821、822(図15)を参照)での)ピッチ変化比(例えば1.0)のピッチパラメータ(比88a)である場合には、比較的短い符号長(長さ1:図18のbitsを参照)の符号(符号90a:「0」)の符号化ピッチパラメータ(符号90a)へと符号化し、比較的大きな絶対値(50)のセント数(+50)のピッチ変化比(1.0293:符号88b)のピッチパラメータ(符号88b)である場合には、比較的長い符号長(「111100」での長さ6)の符号(符号90b:「111100」)の符号化ピッチパラメータ(符号90b)へと符号化する符号化装置(符号化装置1)が構築される。
 そして、実施の形態の復号装置(図2の復号装置2)は、ピッチシフトされたオーディオ信号(第2の信号203ib:図2)の符号化データ(第3の信号)204iと、符号化ピッチパラメータ情報(パラメータ201i、符号90)とを含むビットストリーム(ストリーム205i(ストリーム106x))を復号する復号装置(復号装置2)であって、復号を行う前記ビットストリーム(ストリーム205i)から、当該ビットストリームに含まれる前記符号化データ(図2の第3の信号204i(図1の第3の信号105x))と、前記符号化ピッチパラメータ情報(パラメータ201i、符号90)とをそれぞれ分離するデマルチプレクサ(マルチプレクサブロック205)と、分離された前記符号化ピッチパラメータ情報(パラメータ201i、符号90)から、当該ビット変化比(比88、Tw_ratio_index、Tw_ratio:図18)の変域(範囲86)は、当該範囲(86a)のピッチ変化比(Tw_ratio:1.0416、1.0293、0.9772、0.9715、0.9604)のセント数(cent:60、50、-40、-50、-60)の絶対値は、42以上である範囲(範囲86a)を含む範囲(範囲86)の変域(範囲86)であるピッチ変化比(比88、Tw_ratio_index、Tw_ratio:図18)を含む復号ピッチパラメータ(パラメータ202i、符号90)を生成する第1のデコーダ(可逆復号ブロック201)と、生成された前記復号ピッチパラメータ(パラメータ202i、符号90)に従って、ピッチ輪郭情報(情報203ia、ピッチ822)を復元するピッチ輪郭リコンストラクタ(動的時間伸縮再構築ブロック202)と、分離された前記符号化データ(信号204i、第3の信号204i)を復号して、ピッチシフトされた前記オーディオ信号(信号(第2の信号)203ib)を生成する第2のデコーダ(変換デコーダブロック204)と、復元された前記ピッチ輪郭情報である再構築ピッチ輪郭情報(情報203ia、ピッチ822)に従って、ピッチシフトされた前記オーディオ信号(信号(第2の信号)203ib)を、(前記再構築ピッチ輪郭情報により特定されるピッチを有する、)元のオーディオ信号(第2の信号203x)に変換するオーディオ信号リコンストラクタ(時間伸縮ブロック203)とを備える復号装置(復号装置2)である。
 つまり、例えば、前記第1のデコーダ(可逆復号ブロック201:図2)は、分離された前記符号化ピッチパラメータ情報(パラメータ201i(図2)、符号90(図18))を、当該符号化ピッチパラメータ情報(符号90(図18))が、比較的短い符号長(長さ1:図18のbitsを参照)の符号(符号90a:「0」)の符号化ピッチパラメータ情報(符号90a)である場合には、比較的小さな絶対値(0)のセント数(0:図18のcentを参照)のピッチ変化比(1.0、比88a)のピッチパラメータ(比88a)へと復号し、比較的長い符号長(符号90b「111100」での長さ6)の符号(符号90b:「111100」)の符号化ピッチパラメータ情報(符号90b)である場合には、比較的大きな絶対値(50)のセント数(50)のピッチ変化比(1.0293:比88b)のピッチパラメータ(比88b)へと復号する復号装置(復号装置2)が構築される。
 つまり、例えば、符号化装置(符号化装置1(図1、図20など)、ステップS1(図21)等を参照)と、復号装置(復号装置2、ステップS2等を参照)とを含んでなる、次のような信号処理システム(信号処理システム2S)が構築されてもよい。
 つまり、当該信号処理システムにおいて、前記符号化装置は、例えば、前記ピッチシフタ(時間伸縮部104)が、第1の信号(第1の信号101i、入力オーディオ信号(先述):図1)から、当該第1の信号のピッチ(ピッチ822:図15)が、予め定められたピッチ(参照ピッチ82r)へとシフトされた第2の信号(第2の信号104x、シフトがされたオーディオ信号(先述))を生成し、前記第2のエンコーダ(変換エンコーダ105)が、生成された前記第2の信号(第2の信号104x)を、第3の信号(第3の信号105x、ピッチシフタから出力された前記オーディオ信号が符号化されたデータ(先述))へと符号化し、前記ピッチパラメータジェネレータ(ピッチパラメータ生成部(動的時間伸縮ブロック)102)が、シフトがされる前の前記第1の信号(第1の信号101i)の前記ピッチ(ピッチ822)を特定するピッチ変化比(パラメータ102x(図1)、比88(図18)、Tw_ratio、Tw_ratio_index)を算出し、前記第1のエンコーダ(可逆符号化部103)が、算出された当該ピッチ変化比を符号(符号90(図18)、パラメータ(符号化パラメータ、符号化ピッチパラメータ)103x(図1))へと符号化する符号化装置(符号化装置1:符号化装置1a、1e、1f、1h、1i(図1、図3、図4、図6、図7など))などである。
 そして、前記復号装置は、例えば、前記第2のデコーダ(変換デコーダ204)が、前記第1の信号(第1の信号203x(第1の信号101i))から生成された、当該第1の信号(第1の信号203x)の前記ピッチ(ピッチ822:図15)が前記予め定められたピッチ(参照ピッチ82r)へとシフトされた前記第2の信号(第2の信号203ib(第2の信号104x))が符号化された前記第3の信号(第3の信号204i(第3の信号105x))を、前記第2の信号(第2の信号203ib(第2の信号104x))へと復号し、前記オーディオ信号リコンストラクタ(時間伸縮部203)が、復号された前記第2の信号(第2の信号203ib)から前記第1の信号(第1の信号203x)を生成し、前記第1のデコーダ(可逆復号部201)が、前記符号(パラメータ201i(パラメータ103x)、符号90(図18))を、前記ピッチ変化比(パラメータ202i(パラメータ102x)、比88(比88の番号)、Tw_ratio、Tw_ratio_index)へと復号し、前記ピッチ輪郭リコンストラクタ(202)が、復号された前記ピッチ変化比(比88)により特定される、当該ピッチ(ピッチ822)の前記第1の信号(第1の信号203x)が生成される前記ピッチ(ピッチ822)を算出する復号装置(復号装置2:復号装置2c、2g(図2、図5など))などである。
 なお、この種の信号処理システムの技術開発は、現在、進められつつある途中であり(非特許文献1~4などを参照)、このような信号処理システムについては、よく分かっていないことが多い。
 つまり、例えば、そもそも、多くの技術者は、このような信号処理システムを知らず、その技術開発に着手する段階にさえ到っていないと考えられる。
 つまり、将来、このような信号処理システムの規格(ISO(International Organization for Standardization)における規格など)が定められることが考えられる。そして、定められた後において、比較的広く利用されることが期待される。
 例えば、本信号処理システムは、将来定められる規格における信号処理システムである。
 このような信号処理システムによれば、例えば、シフトがされた第2の信号(第2の信号104x、203ib)が第3の信号(第3の信号105x、204i)へと符号化され、符号化された第3の信号が、当該第2の信号へと復号される。これにより、符号化装置から復号装置への通信などの処理がされる、音のデータ(第3の信号)が、データ量が小さいデータなどの、より適切なデータにできる。
 なお、これにより、ひいては、音のデータが、このように小さいにも関わらず、音質が下げられる必要がなく、高い音質で足りて、音質が高くできる。
 しかも、ピッチ変化比が算出されて、第3の信号から復号された第2の信号のシフトがされるのに際して、算出されたピッチ変化比により特定されるピッチへのシフトがされて、確実に、シフトがされる、シフト先のピッチが、適切なピッチにできる。
 しかも、算出されたピッチ変化比が符号へと符号化され、符号化された符号が、ピッチ変化比へと復号されて、ピッチ変化比のデータ量よりも小さいデータ量である符号について、通信などの処理がされて、処理がされる、ピッチのデータ(ピッチ変化比が符号化された符号(符号90))のデータ量も小さくできる。
 そして、このような信号処理システム(符号化装置1、復号装置2)において、前記ピッチ変化比(比88)が符号化された、当該ピッチ変化比(比88)へと復号される前記符号(符号90)は、当該符号(符号90)に対応する前記ピッチ変化比(比88)が、0セントの音程の差の2つのピッチの間のピッチ変化比(1.0の比88x:図18)に対して、比較的小さな差(0セント)を有する第1のピッチ変化比(比88a)である場合には、比較的短い符号長(長さ1)の第1の符号(符号90a)であり、比較的大きな差(50セント)を有する第2のピッチ変化比(比88b)である場合には、比較的長い符号長の第2の符号(符号90b)等である。
 つまり、上記された差が、小さな差である場合には、その差のピッチ変化比(比88a)が出現する出現頻度が高く、大きな差である場合には、その差のピッチ変化比(比88b)の出現頻度が低いことが多いことがあるのに、発明者は、実験を通じて気付いた。
 そこで、こうして、差(0セントの比8xに近いか否か(どの程度離れているか))に応じた可変長符号化が利用されてもよい。これにより、第3の信号(信号105x、204i)のデータ量が小さくされて、通信などの処理がされる、ピッチのデータ(信号103x、201i)のデータ量が、より十分に小さくできる。
 そして、具体的には、例えば、このような信号処理システムにおいて、シフトがされた前記第2の信号(信号104x、203ib)が符号化された前記第3の信号(第3の信号204i、信号105x)が、前記符号化装置で生成され、前記復号装置で復号される動作(図21のS1、S2)は、シフトがされる前の前記第1の信号(第1の信号101i、203x)の前記ピッチ(ピッチ822)の前記ピッチ変化比(比88)が、0セントの前記ピッチ変化比(比88x)に対して有する差が、閾値(図18における、max{1.0416-1=0.0416、1-0.9604=0.0396}=0.0416)以下の場合(「差」≦0.0416)にのみ行われ、前記閾値よりも大きい場合(0.0416<「差」)には行われない。
 そして、例えば、当該閾値は、42セント未満の音程での値(例えば、図19の先行例における、1.02285-1=0.02285など)ではなく、42セント以上に大きい音程での値(上述された、0.0416など)である。
 すなわち、こうして、先述された動作がされるか否かが切り替えられる、上述された閾値が、(先行例での閾値(図19での、上述された「0.02285」を参照)と比べて、)より高い値(例えば、図18における、max{1.0416-1=0.0416、1-0.9604=0.0396}=0.0416)にされてもよい。
 つまり、先述の動作がされるピッチ変化比(比88)の範囲(変域)が、(先行例での範囲87)より広い範囲86(図18)にされてもよい。
 これにより、より広い範囲の変域のピッチ変化比が符号化されて、符号化された符号90のデータ(図22のデータ90L)のデータ量が、より大きくされる。これにより、符号化されたデータ90Lのデータ量が、例えば、先行例における、固定長の符号91で符号化されたデータ91L(図19)のデータ量よりも(かなり)少ないデータ量などの、少な過ぎるデータ量になってしまうことが回避され、比較的近いデータ量(例えば同じデータ量でもよい)などの、適切なデータ量にされ、符号化後のデータ量が、適切なデータ量にできる。
 なお、このように、例えば、ピッチ変化比の変域の範囲(上述の閾値)は、符号化された符号90によるデータ(データ90L)のデータ量が、このような、例えば、固定長での符号化がされた際(先行例)におけるデータ(例えばデータ91L)のデータ量に比較的近いデータ量などの、適切なデータ量である範囲(閾値)等である。
 しかも、発明者は、実験を通じて、ピッチ変化比(比88)は、直前のピッチ(ピッチ821:図15)に対して、セント数が(42セントより)大きい範囲86aのピッチ変化比だけの大きな変化をしたピッチ(ピッチ822:図15)のピッチ変化比であることが(ある程度)多いことに気づいた。
 このため、このような大きな変化のピッチ変化比(比88)が生じても、そのピッチ変化比が、上述の、より広い範囲の変域(範囲86)に属し、第3の信号105xが生成され、第3の信号105xの音質よりも低い音質の他の信号が生成される処理がされるのが回避されるなどにより、音質が高くできる。
 これにより、ピッチ変化比の変域が、適切な変域にでき、かつ、音質が高くできる。
 なお、こうして、例えば、図18に示されるように、上述された、短い符号長(長さ1)の符号90aは、42セント未満における範囲87のピッチ変化比88aの符号90などである。そして、例えば、長い符号長(長さ6)の符号90bは、42セント以上の範囲86aにおけるピッチ変化比88bの符号90などである。
 なお、これに対して、先行例(図19、図13、図14など)においては、42セントより大きい範囲86aのセント数でのピッチ変化比(比88bを参照)が生じること多いことに気づいておらず、つまり、範囲86aのピッチ変化比が生じることが、音質が低い原因であるのに気づいていない。このため、先行例(図19、図13、図14等)から、本技術の構成を導くことは困難と考えられる。
 なお、この閾値(上述の説明での「0.0416」)は、例えば、ピッチ変化比の変域の範囲(図18の範囲86、1.0416~0.9604の範囲)に属する各値のうちで、最も大きい絶対値のセント数での値(1.0416)である。つまり、こうして、閾値が、高い値(例えば、上述の「0.0416」)にされることにより、範囲86が、42未満における範囲87(図19の1.02285~0.982857を参照)だけでなく、更に、42セント以上の範囲86a(図18の1.0416~1.0293と、0.9772~0.9604とでの範囲)も含むようにされて、より広い範囲にされてもよい。
 なお、こうして、複数の処理(複数の構成、複数の技術的特徴)が組み合わせられ、組み合わせからの相乗効果が生じる。
 なお、組み合わせられる複数の処理は、何れも、この相乗効果のためのパーツ(部品)として利用されるものである点で共通し、単一の技術範囲に属する。
 一方で、知られた従来例(例えば、図19、図13、図14などを参照)では、これら複数の処理のうちの一部または全部を欠き、相乗効果は生じない。この点で、本技術は、従来例に対して相違すると考えられる。
 なお、この実施形態は、単に、様々な発明ステップの原理を説明するものである。ここに説明する具体例の、様々な変形は、当業者には明らかであろう。
 (第1の実施形態)
 第1の実施形態において、動的時間伸縮方式を用いる符号化装置を提案する。
 図1は、提案のエンコーダ(符号化装置)の例を示す図である。
 図1において、左右の信号の1フレームが、ピッチ輪郭分析ブロックであるブロック101に送信される。そして、101(ピッチ輪郭分析ブロック(ピッチ輪郭分析部)101)において、左右のチャネル(2つのチャネル)のピッチ輪郭が、別々に算出される。つまり、それぞれのチャネルのピッチ輪郭が算出される。なお、例えば、先行技術に記載の、ピッチ輪郭検出アルゴリズムを、ここ(ピッチ輪郭分析部101)で用いることができる。
 そして、先述された図8に示されるように、1フレームが、M個の重なり合うセグメントに、セグメント化される。1フレーム内で、M個のセクションから、M個のピッチが算出される。
 ブロック101で抽出された、左右のチャネルのピッチ輪郭は、動的時間伸縮ブロックであるブロック102に送られる。そして、ブロック102は、各オーディオフレームにおける、ピッチ変化セクション情報(時間伸縮位置)と、それに対応する隣接セクションのピッチ変化比(時間伸縮値)とからなる、抽出されたピッチ輪郭情報に基づいて、ピッチパラメータを生成する。以下、ピッチパラメータを、動的時間伸縮パラメータとも呼ぶ。
 この動的時間伸縮パラメータは、可逆符号化ブロックであるブロック103に送られる。可逆符号化ブロックは、さらに、時間伸縮値を圧縮し、符号化時間伸縮パラメータを生成する。なお、ブロック103では、例えば、一般的な可逆符号化技術が用いられる。
 その後、生成された符号化時間伸縮パラメータが、マルチプレクサ(マルチプレクサブロック、マルチプレクサ回路)であるブロック106に送られ、ビットストリームが生成される。
 動的時間伸縮パラメータは、時間伸縮ブロックであるブロック104に送られる。なお、ブロック104の処理では、例えば、先行技術に記載されている技術が用いられてもよい。ブロック104は、時間伸縮パラメータに従って、入力信号を、再サンプリングする。ステレオ符号化に関し、左右の信号のピッチが、対応する動的時間伸縮パラメータに従って、別々にシフト(時間伸縮)される。
 時間伸縮後の信号は、変換エンコーダであるブロック105に送られる。
 符号化信号および関連情報もまた、マルチプレクサであるブロック106に送られる。
 なお、第1の実施形態における、ブロック101の入力信号は、ステレオ信号である必要はなく、モノラル信号またはマルチ信号であってもよい。動的時間伸縮方式は、あらゆる数のチャネルに適用できる。
 (効果)
 第1の実施形態において、ピッチ輪郭が、動的時間伸縮方式により処理され、動的時間伸縮パラメータが生成される。そして、生成された動的時間伸縮パラメータは、時間伸縮が適用される位置と、その位置の時間伸縮値とを表す。提案の動的時間伸縮方式により、音質が改善される。時間伸縮値の符号化に用いられるビットを、さらに削減するため、可逆符号化も導入する。
 (第2の実施形態)
 第2の実施形態において、時間伸縮パラメータを、より効率よく符号化する方式を用いる動的時間伸縮方法を説明する。
 課題の欄の記述で説明したとおり、信号の振幅および周期が変化するため、ピッチ検出は、困難な課題である。つまり、ピッチ輪郭情報が、時間伸縮に直接用いられると、ピッチ輪郭の不正確性が、時間伸縮の性能に影響する。信号のハーモニクスは、時間伸縮中のピッチシフトに比例して、修正されるため、ハーモニクスに対する、時間伸縮の影響を考慮する必要がある。
 第2の実施形態において説明する時間伸縮方法では、オーディオ信号のハーモニクス構造を分析することで、ピッチ輪郭を修正し、より効率的な、動的時間伸縮パラメータを生成する。これは、3つの部分からなる。
 第1に、ハーモニクス構造に従ってピッチ輪郭を修正する。
 第2に、時間伸縮の前後のハーモニクス構造を比較することにより、時間伸縮の性能を評価する。
 第3に、動的時間伸縮パラメータを効率よく表現する方式を用いる。
 先行技術[3]および[4]に記載のようにピッチ輪郭全体を符号化するのではなく、時間伸縮が有効にされている箇所の位置情報のみを符号化し、その位置の時間伸縮値を可逆符号化によって符号化する。
 第1に、ピッチ輪郭が修正される。第1の実施形態と同様に、ピッチ算出のため、オーディオフレームが、M個のセクションにセグメント化される。ピッチ輪郭は、M個のピッチ値(pitch1,pitch2,……pitchM)を有する。先行技術[3]および[4]において、ピッチは、参照ピッチ値の近くにシフトされる。時間伸縮の後に、安定した参照ピッチが得られる。
 ここで、提案の動的時間伸縮により、信号のハーモニクスを、参照ピッチ値のハーモニクス付近にシフトすることができる。
 図17は、ハーモニクスを利用するピッチシフトを説明する図である。
 図17に一例を示す。なお、図示されるように、図17においては、破線(3箇所)により、参照ピッチと、それぞれの参照ハーモニクスとの図示がされる。図17において、検出されたピッチは、参照ピッチのハーモニクスに近い。そして、Δf1>Δf2は、次のことを意味する。つまり、Δf1>Δf2は、検出されたピッチを、参照ピッチにシフトするために、より大きな伸縮値(図17のΔf1を参照)が用いられ、検出されたピッチを、参照ピッチのハーモニクスにシフトするために、より小さな伸縮値(図17のΔf2を参照)が用いられることを意味する。
 動的時間伸縮の処理は、ピッチ輪郭を修正し、ハーモニクス成分のシフトを可能にする。この修正処理の詳細を、以下に説明する。
 提案の動的時間伸縮は、検出されたピッチと、参照ピッチの差分を比較する。
 ここで、下記の数2(数式2)におけるpitchrefは、参照ピッチ値を表す。また、pitchiは、セクションiの、検出されたピッチ値を表す。
 そして、pitchi>pitchrefであれば、pitchiに、より近いのは、pitchrefか、参照ピッチ値のハーモニクスk×pitchrefの何れであるかを確認する。ここで、kは整数であり、k>1である。
 以下の数式2を満たす、kの値が存在する場合には、
Figure JPOXMLDOC01-appb-M000002
 値pitchiは、参照ピッチ値のハーモニクスである、そのkの値における「k×pitchref」にシフトされなければならない。検出されたpitchiは、pitchi/2に修正される。
 他方、pitchi<pitchrefであれば、pitchrefに、より近いのは、pitchiか、pitchrefのハーモニクスの何れであるかを確認する。以下を満たすkが存在するならば、
Figure JPOXMLDOC01-appb-M000003
pitchiのハーモニクスは、参照ピッチにシフトされなければならない。よって、pitchiは、k×pitchiに修正される。
 第2に、この、修正されたピッチ輪郭に基づき、時間伸縮が適用され、時間伸縮の前後のハーモニクス構造を比較することで、性能が評価される。時間伸縮の前後のハーモニクス成分の和が、第2の実施形態における、性能評価基準として用いられる。
 セクションiのピッチ値のハーモニクスは、以下の通り算出される。
Figure JPOXMLDOC01-appb-M000004
 
 ここで、qは、ハーモニクス成分の数である。なお、この実施形態においては、q=3が提案される。そして、S(・)は、信号のスペクトラムを表す。そして、pitchiは、ピッチ輪郭pitch1,pitch2,……pitchMにおいて検出されたピッチ値である。
 時間伸縮後に、ハーモニクスの和が算出される。
Figure JPOXMLDOC01-appb-M000005
 S’(・)は、時間伸縮後の信号のスペクトラムを表す。
 時間伸縮の前には、信号は、pitch1,pitch2,……pitchMのハーモニクスからなる。ハーモニクス比HRは、以下のように、これらのハーモニクス成分の間のエネルギー分布を表すように定義される。
Figure JPOXMLDOC01-appb-M000006
Figure JPOXMLDOC01-appb-M000007
は、ピッチpitch1,pitch2,……pitchMのハーモニクスの和からなる。
 時間伸縮後に、ハーモニクス比HR’が、以下の通り算出される。
Figure JPOXMLDOC01-appb-M000008
 H’(pitchref)は、時間伸縮後の参照ピッチのハーモニクスの和である。
Figure JPOXMLDOC01-appb-M000009
は、時間伸縮後のピッチpitch1,pitch2,……pitchMのハーモニクスの和からなる。
 時間伸縮後に、エネルギーが、参照ピッチに制限されることが期待される。他のピッチのエネルギーは低下する。したがって、HR’>HRが期待される。時間伸縮は、HR’>HRの時に効果的であると考えられ、このフレームに、時間伸縮が利用される。
 動的時間伸縮の第3の部分では、効率的な方式を用いて、動的時間伸縮パラメータを生成する。フレームにおけるピッチ変化位置は、フレーム内にそれほど多くないことから、ピッチ変化位置と、値Δpiとを別々に符号化するように、効率的な方式を設計することができる。
 まず、修正されたピッチ輪郭が、正規化される。次に、隣接する、修正されたピッチの差分が、以下の通り算出される。
Figure JPOXMLDOC01-appb-M000010
 先行技術[3]および[4]と異なり、動的時間伸縮は
Figure JPOXMLDOC01-appb-M000011
のベクトル全体を符号化せず、Δpi≠1である位置を示すために、ベクトルCを用いる。それは、時間伸縮が有効にされている位置を示す。Δpi≠1である、それらの時間伸縮値Δpiのみが、可逆符号化技術によって、符号化される。
 Δpi=1であれば、C(i)は、1に設定され、そうでなければ、C(i)は、0に設定される。ベクトルCの各要素は、修正されたピッチ輪郭の1セクションに対応する。
 図9は、ベクトルCの算出の処理を説明する図である。
 ベクトルCの設定内容の一例を、図9に示す。Nは、ピッチが変化し、Δpi≠1であるセクションの数として定義される。
 ベクトルCと、Δpi≠1である時間伸縮値Δpiとを符号化するために、動的方式が用いられる。そして、どの方式が選択されたかを示すために、フラグAが生成される。
 まず、このフレームに、ピッチ変化点があるかどうかを確認する。N=0であれば、ピッチ変化点がないことを意味する。フラグAが、0に設定され、この場合、フラグAのみが、可逆符号化ブロックであるブロック103に送られる。
 1つ以上のピッチ変化点があれば、Δpi≠1である時間伸縮値Δpiと、ベクトルCとがデコーダに送られなければならない。
Figure JPOXMLDOC01-appb-M000012
であれば、ピッチ変化点が多数あることを意味し、この状況では、ベクトルと、Δpi≠1である時間伸縮値Δpiとを直接符号化する方が、効率がよい。フラグAが、1に設定され、ベクトルCの符号化に、Mビットを使用する。例えば、ベクトルC=00001111に関し、このベクトルCを表すのに、8ビットが使用される。フラグA、ベクトルC、および、Δpi≠1であるΔpiとが、可逆符号化ブロック103に送られる。
 一方、N>0かつ
Figure JPOXMLDOC01-appb-M000013
であれば、ピッチ変化点の数が少ないことを意味する。この場合、ピッチ変化点の位置を、直接符号化する方が、効率がよい。フラグAが、2に設定され、ベクトルCにおいて、0に印付けられている位置の符号化に、log2Mビットを使用する。
 ピッチ変化点の数Nの符号化に
Figure JPOXMLDOC01-appb-M000014
ビットを使用する。
 例えば、ベクトルC=10111111に関し、ピッチ変化点の位置は、2であり、位置2の符号化に、3ビットが使用される。フラグA、ピッチ変化点の数N、ピッチ変化位置、および、Δpi≠1であるΔpiが、ブロック103に送られる。
 先述された通り、Δpiを統計的に分析した後には、値Δpiの発生確率は、一様ではなく、ビットレートの節約に、可逆符号化が用いられてもよい。なお、可逆符号化103(可逆符号化ブロック103)の処理は、算術符号化、または、ハフマン符号化であってもよく、選択されたピッチ比Δpiを符号化する。ここで、Δpi≠1である。
 複雑性を低下させる目的で、最初の二つの方式のみを、ブロック102に利用してもよい。
 (効果)
 動的時間伸縮により、時間伸縮を通して、ハーモニクス構造を再構築することが可能になる。エネルギーが、参照ピッチと、そのハーモニクス成分に制限されることから、符号化効率が、改善される。評価方式により、ピッチ検出の精度への依存が減少し、符号化システムの性能が、改善される。時間伸縮パラメータを符号化する効率的な方式は、ビットレートを減らすことで、音質を改善し、より大きなピッチ変化レートを有する信号の符号化に対応することができる。
 (第3の実施形態)
 第3の実施形態において、動的時間伸縮方式を用いる復号装置を提案する。
 図2は、第3の実施形態のブロック図を示す図である。
 デマルチプレクサであるブロック205は、入力ビットストリームを、符号化時間伸縮パラメータ、符号化オーディオ信号、および、関連する変換エンコーダ情報に分割する。
 符号化時間伸縮パラメータは、可逆復号ブロックであるブロック201に送られる。このブロックにおいて、動的時間伸縮パラメータが生成される。
 動的時間伸縮は、フラグと、時間伸縮が適用される位置の情報と、それに対応する時間伸縮値Δpiとからなる。
 動的時間伸縮情報は、動的時間伸縮再構築ブロックであるブロック202に送られる。ブロック202は、動的時間伸縮パラメータから、時間伸縮パラメータを復号する。
 変換デコーダであるブロック204は、デマルチプレクサブロック205からの変換エンコーダ情報に基づいて、符号化信号を復号する。それは、時間伸縮された信号を復号する。
 時間伸縮ブロック203は、時間伸縮された信号を受け取り、入力信号に対して、時間伸縮を適用する。この時間伸縮処理は、第1の実施形態におけるブロック104での処理と同じである。時間伸縮パラメータ、および、オーディオ信号に従って、信号は伸縮されない。
 (第4の実施形態)
 動的時間伸縮再構築の具体例を、第4の実施形態で説明する。
 動的時間伸縮再構築によって受け取られた動的時間伸縮は、フラグと、時間伸縮が適用される位置の情報と、それに対応する時間伸縮値Δpiとからなる。
 まず、フラグが確認される。フラグが0であれば、対象フレームに、時間伸縮が適用されないことを意味する。この場合、再構築されたピッチ輪郭ベクトルは、全て1に設定される。
 フラグが1であれば、時間伸縮が適用される位置を示すベクトルCの符号化に、Mビットが使用されることを意味する。1ビットが、1つの位置に合わせられる。1は、ピッチ変化なしの印として、一方、0は、時間伸縮の印として、印付けられる。ベクトルCにおける0の数を数えることによって、時間伸縮点Nの総数が分かる。その過程で、N回の伸縮値Δpiが、バッファから得られる。Δpiは、時間伸縮値に対応している。ここで、c(i)=0である。
 擬似コードは、以下の通りである。
Figure JPOXMLDOC01-appb-M000015
 フラグが2であれば、時間伸縮点の数Nが、バッファから読み出される。その後、N個の時間伸縮点が、バッファから読み出される。最後に、時間伸縮点に対応するピッチ比が、バッファから得られる。擬似コードは、以下の通りである。
Figure JPOXMLDOC01-appb-M000016
 正規化されたピッチ輪郭は、以下の通りに、再構築される。
Figure JPOXMLDOC01-appb-M000017
 ピッチ輪郭は、後に、時間伸縮に用いられる。
 (第5の実施形態)
 第5の実施形態において、動的時間伸縮方式を用いる、他の符号化装置を提案する。
 図3は、提案のエンコーダを示す図である。
 図1に示される符号化システムと、図3に示されるエンコーダとの間の違いは、ブロック306および307にある。図3の、可逆復号306の機能は、図2の201と同じである。動的時間伸縮再構築ブロック307は、図2の202と同じである。
 図3の、この構成を用いることで、エンコーダは、デコーダと全く同じ時間伸縮パラメータを用いることになる。
 第5の実施形態は、エンコーダにおける時間伸縮の精度を高める。
 (第6の実施形態)
 第6の実施形態において、ミドルサイドステレオモード(MSモード)を組み入れた符号化装置を説明する。
 図4は、第6の実施形態の符号化装置の構成を示す図である。
 多くの変換コーデックにおいて、例えば、AACコーデック等のステレオオーディオ信号の符号化に、MSモードが、頻繁に用いられる。
 MSモードは、周波数領域について、左右のチャネルのサブバンド同士の類似性を検出する。MSステレオモードは、左右のチャネルのサブバンドが類似している時に、有効にされる。そうでなければ、MSモードは有効にされない。
 MSモード情報は、多くの変換符号化に利用できることから、動的時間伸縮において、MSモード情報を、ハーモニクス時間伸縮の性能改善のために利用することができる。
 先述の図4により、変換コーデックからのMSモード情報を用いる構成が示される。
 左右のチャネル信号が、MS演算ブロックである、ブロック401に送られる。MS演算ブロックは、周波数領域について、左右の信号の間の類似性を算出する。これは、一般的な変換符号化における、MS検出と同じである。ブロック401によって、1フラグが生成される。MSモードが、ステレオオーディオ信号の全てのサブバンドに対して有効にされていれば、フラグは、1に設定され、そうでなければ、フラグは、0に設定される。
 flag=1であれば、ダウンミックスブロックである、ブロック402において、左右のチャネル信号が、ミドル信号とサイド信号とにダウンミックスされる。ミドル信号は、ピッチ輪郭分析ブロックである、ブロック403に送られる。
 そうでなければ、元のステレオ信号がブロック403に送られる。
 ピッチ輪郭分析ブロックである、ブロック403は、図1のブロック102と同様に、ピッチ輪郭情報を算出する。ダウンミックスされた信号に対し、1組のピッチ輪郭が生成される。そうでなければ、左右の信号のピッチ輪郭が、別々に生成される。
 ブロック404、405、および406、408の説明は、ブロック103、104、および105、196の動作での説明と同じである。
 (効果)
 第6の実施形態において、動的時間圧縮は、ステレオ符号化に、さらに適するように変更される。ステレオ符号化に関し、左右のチャネルは、異なる特性を持つことがある。この場合、異なるチャネルに対し、異なる時間圧縮パラメータが算出される。左右のチャネルが、類似の特性を有することもある。両チャネルに、同じ時間圧縮パラメータを用いると、合理的である。左右のチャネルが類似している場合、同じ時間圧縮パラメータの組を用いることで、より効率的なオーディオ符号化が、達成できる。
 (第7の実施形態)
 第7の実施形態において、MSモードに対応する復号装置を説明する。
 図5は、第7の実施形態における復号装置のブロック図である。
 入力ビットストリームが、デマルチプレクサブロック506に送られる。
 ブロック506の出力は、符号化時間圧縮パラメータ、変換エンコーダ情報、および符号化信号である。
 変換デコーダであるブロック505は、変換エンコーダ情報に従って、符号化信号を、時間圧縮信号に復号し、MSモード情報を抽出する。
 MSモード情報は、MSモード検出ブロック504に送られる。
 このフレームの全てのサブバンドに対して、MSモードが有効にされていれば、MSモードは、時間圧縮に対しても、有効にされ、フラグが、1に設定される。そうでなければ、MSモードは、ハーモニクス時間伸縮の再構築に用いられず、フラグは、0に設定される。当該MSモードフラグは、ハーモニクス時間伸縮再構築ブロック502に送られる。
 動的時間伸縮パラメータは、可逆復号ブロックであるブロック501から、逆量子化される。
 動的時間伸縮再構築ブロック502は、MSフラグに従って、時間伸縮パラメータを再構築する。
 M/S flag=1であれば、1組の時間伸縮パラメータが生成され、そうでなければ、動的時間伸縮パラメータから、2組の時間伸縮パラメータが生成される。時間伸縮パラメータの生成プロセスは、第2の実施形態と同じである。
 時間伸縮ブロック503において、M/S flag=1であれば、時間伸縮された左信号と、時間伸縮された右信号とに、異なる時間伸縮パラメータが適用される。そうでなければ、時間伸縮されたステレオオーディオ信号に、同じ時間伸縮パラメータが適用される。
 (第8の実施形態)
 図6は、MSモードを利用する、変更された動的時間伸縮を用いるエンコーダのブロック図である。
 図6に示されるように、エンコーダにおける時間伸縮の精度を高めるように、第4の実施形態を変更する。
 この変更は、第3の実施形態の変更と同じである。
 可逆符号化ブロック608、および、動的時間伸縮再構築ブロック609が、符号化構造に追加される。この目的は、エンコーダが、デコーダと同じ時間伸縮パラメータを用いるようにすることである。ブロック608、および、609の説明は、図5の、ブロック501および502の説明と同じである。
 (第9の実施形態)
 第9の実施形態において、閉ループ動的時間伸縮手段を備える符号化装置を、導入する。
 図7は、第9の実施形態の符号化装置を示す図である。
 第9の実施形態の構成は、第8の実施形態の構成に基づくが、比較スキーム(比較スキーム710)が、追加されている。符号化信号、および、時間伸縮パラメータを、図7のマルチプレクサ711に送る前に、比較スキーム710において、符号化信号が確認される。時間伸縮の復号後に、全体の音質が改善されているかどうかが、判断される。
 比較スキームには、様々な種類がある。一例は、復号信号のSNRを、元の信号と比較することである。
 第1に、時間伸縮された符号化信号が、変換デコーダによって、復号される。図7の708と同じ時間伸縮パラメータを用いて、復号された時間伸縮信号に時間伸縮が適用され、非伸縮信号が生成される。非伸縮信号と元の信号とを比較することによって、SNR1が算出される。
 第2に、他の符号化信号が、時間伸縮を適用することなく、生成される。この符号化信号は、同じ変換デコーダによって復号され、復号信号を、元の信号と比較することによって、SNR2が算出される。
 第3に、SNR1と、SNR2とを比較することによって、決定がなされる。SNR1>SNR2であれば、時間伸縮が選択され、第1の符号化信号、変換エンコーダ情報、および、符号化時間伸縮パラメータが、デコーダに送られる。そうでなければ、時間伸縮は選択されず、第2の符号化信号、および、変換エンコーダ情報が、デコーダに送信される。
 比較スキームの、他の方法として、SNRの代わりに、ビット消費を比較することができる。
 要約すれば、次のことが言える。すなわち、時間伸縮技術は、オーディオ符号化システムにおけるピッチ変化の影響を補うために用いられる。そして、時間伸縮の効率を改善するために、動的時間伸縮方式が提案される。本発明の時間伸縮方式は、ハーモニクス構造の分析に基づいて、ピッチ輪郭を修正し、時間伸縮の間のハーモニクス構造を考慮することによって、音質を改善する。動的時間伸縮方式は、また、時間伸縮の前後のハーモニクス構造を比較することによって、時間伸縮の有効性を評価し、対象オーディオフレームに、時間伸縮を利用すべきかどうかを決定する。それにより、不正確なピッチ輪郭情報によってもたらされる不正確性を取り除く。動的時間伸縮は、また、時間伸縮パラメータを、より効率的に符号化する方法を提供し、変換符号化から得られるMSモード情報を用いて、音質および符号化効率を改善する。
 なお、こうして、符号化装置1および復号装置2(信号処理システム2S、図1、図2、図20、図21など)が構築されてもよい。そして、例えば、ある局面などにおいて、次の動作がされてもよい。上述された処理のうちの一部(または全部)は、以下で説明される動作と同じ(類似する)動作などでもよい。
 つまり、符号化装置1において、次の処理がされてもよい。
 つまり、音の信号101i(図1、図11の信号811を参照)から、当該信号101iのピッチ(例えば、図15のピッチ822を参照)が、参照ピッチ(先述:例えば、図15の参照ピッチ82r)へとシフトされた信号104x(図1、図11の信号812を参照)が生成されてもよい(時間伸縮部104、図21のステップS104)。
 なお、このようにして、シフト先のピッチ(参照ピッチなど)へのシフトがされてもよい。そして、シフト先のピッチは、先述のように、参照ピッチでなく、参照ピッチの倍音(ハーモニクス)などでもよい(数式2などを参照)。
 なお、信号101i(信号104x)は、具体的には、例えば、ステレオの2チャンネル、5.1チャンネル、または、7.1チャンネルなどのマルチチャンネルの複数のチャネルなどの、複数のチャンネルのうちの1つのチャンネルにおける信号などでもよい。
 そして、さらに具体的には、信号101iは、例えば、複数のセクション(例えば、図16に示される、フレーム84F(図16)に含まれる、M個のセクション84(セクション841~セクション84M)を参照)の信号のうちの、1つあるいは一部のセクション84における信号などでもよい。
 なお、図16のMの値は、具体的には、例えば16などでもよい。
 そして、例えば、上述された参照ピッチ(参照ピッチ82r)は、信号101iが符号化されるよりも、当該参照ピッチへとシフトがされた後の信号104xが符号化される方が、より適切な符号化がされるピッチである。
 つまり、ここで、適切であるとは、例えば、仮に、シフトがされる前の信号101iが符号化されたと仮定した際における、(音質を維持したままでの、)符号化後のデータ量よりも、シフトがされた後の信号104xが符号化された信号105x(図1)のデータ量の方が小さいことなどをいう。つまり、例えば、小さい方のデータ量は、そのデータ量のデータの音質と同じ音質で、音質が維持された他方のデータのデータ量よりも小さいデータ量などをいう。
 つまり、例えば、参照ピッチは、信号101iのセクション(例えば図15のセクション822s)以外の他のセクション(例えば、セクション822sに隣接するセクション821s)でのシフトで、当該他のセクションのピッチ(ピッチ821)がシフトされる先のピッチ(例えば、参照ピッチ82r)と同じピッチ(参照ピッチ82r)などである。
 そして、シフトがされた後の信号104x(図1)が、信号105xへと符号化されてもよい(変換エンコーダ105、ステップS105)。
 これにより、シフトがされた後の信号104xが、スペクトル的に符号化し易くなり、符号化し易くなった信号を符号化することで、シフトしない信号(第1の信号101i)を符号化することに比べて、同じ音質であれば、符号化に必要なデータ量が少なくできる。
 つまり、こうして、シフトがされて、シフトがされる前における第1の信号101iが直接符号化されるのが回避され、シフトがされた後の第2の信号104xが、第1の信号101iが直接符号化された信号のデータ量よりも小さいデータ量の第3の信号105xへと符号化され、第1の信号101iの音の、符号化された信号として、より小さいデータ量の第3の信号105xが用いられる。
 一方で、シフトがされる前の信号101iのピッチ(ピッチ822(図15)を参照)を特定するパラメータ102x(先述された動的時間伸縮パラメータ、ピッチパラメータ)が算出されてもよい(ピッチパラメータ生成部102、ステップS102)。
 なお、先述のように、例えば、算出されるパラメータ102xは、予め定められた比(図18の比88(Tw_ratio):先述されたピッチ変化比)でもよい。そして、算出された比(比88、パラメータ102x)は、予め定められたピッチ(例えば、図15のピッチ821を参照)から、当該比(図15に示される比83を参照)だけの変化をしたピッチ(ピッチ822)を特定することができる(図15に示される比83を参照)。
 なお、さらに具体的には、例えば、比88のデータは、その比88の番号(図Tw_ratio_index)を特定する、番号のデータであり、特定される番号の比を特定することにより、比を間接的に特定してもよい。このような、番号のデータが、パラメータ102xとして算出されてもよい。
 なお、図15においては、符号83の矢印線の先端の位置により、符号83で示される比が、ピッチ821と、ピッチ822との間の比であることが模式的に図示される。
 そして、算出されるパラメータ102xは、符号化された、音の信号105xが(例えば復号装置2などにより)復号される際に、信号105x(図2の信号204i)が復号された信号(図2の信号203ib(図1の信号104x))から、当該パラメータ102xにより特定されるピッチ(ピッチ822を参照)の信号(図2の信号203x(図1の信号101i))が生成される(逆シフトがされる)パラメータでもよい。
 なお、さらに具体的には、当該パラメータ102xが、符号化装置1から、復号をする装置(復号装置2)へと通信されて、通信されたパラメータ102x(図2の信号201iを参照)により、上述の処理がされてもよい。
 これにより、復号された後の信号(図2の信号203x)のピッチが、確実に、適切なピッチ(ピッチ822を参照)にできる。
 なお、こうして、音のデータ(図1の信号104x、信号105x、図2の信号203ib、信号204i)と共に、ピッチのデータ(ピッチを特定するパラメータ102x)が利用されて、音のデータと、ピッチのデータとの2つのデータが利用されてもよい。
 しかしながら、音のデータについて、信号101iから符号化された、信号203ibへと復号される、小さなデータ量の信号(図1の信号105x、図2の信号204i)が利用されて、音のデータのデータ量が小さくされることではなくて、むしろ、他方の、ピッチのデータ(図1のパラメータ102x、図2のパラメータ201i)のデータ量が小さくすることの方が、より強く望まれることも考えられる。
 そこで、より具体的には、例えば、算出されたパラメータ102xが、パラメータ102xのデータ量よりも小さいデータ量を有する、符号化後のパラメータ103x(図1、図2のパラメータ201i)へと符号化(可逆符号化(Huffman符号やArithmetic符号化など))されてもよい(可逆符号化103、ステップS103)。
 これにより、パラメータ102x(ピッチのデータ)についても、符号化(可逆符号化)を施すことで、パラメータ102x(ピッチのデータ)のデータ量も小さくできる。
 しかしながら、算出されるパラメータ102x(図1、図2のパラメータ204i)によって特定できるピッチ(例えば、図15のピッチ822を参照)のセクション(セクション822s)の時刻に隣接する時刻のセクション(直前のセクション821s)のピッチ(ピッチ821)もある。
 そこで、算出されるパラメータ102xは、隣接する(セクション(セクション821s)の)ピッチ(ピッチ821)と、そのパラメータ102xのピッチ(ピッチ822)との間の比(比83、図18のTw_ratio)を特定するパラメータでもよく、この比を算出(特定)して、算出された比に対して可逆符号化を行い、この比が不可逆符号化された後のデータを、符号化時間伸縮パラメータとしてもよい(先述の説明を参照)。
 つまり、算出されるパラメータ102xは、そのパラメータ102xによって特定される比(図15の比83)だけの変化を、隣接するピッチ(ピッチ821)から有するピッチ(ピッチ822)を特定して、ピッチ(ピッチ822)を、当該比によって間接的に特定してもよい。
 しかしながら、発明者は実験を行い、比較的多くの場合においては、0セントの音程の変化の比88x(1.0の比:図18)に対して比較的近い比88a(例えば、比88xそのものなど)は、高い頻度(出現頻度)で生じる一方で、比88xから比較的離れた比88b(例えば、図18に示される、「1.0293」の比など)は、低い頻度で生じることに気付いた。
 つまり、比88が生じる(出現する)頻度は、その比88が、0セントの比88xに近いか否かに応じた頻度(0セントの比88xに近いほど高く、離れるほど低い頻度)であることに気付いた。
 そこで、算出された比88(パラメータ102x)は、0セントの比88xに対して比較的近い比(比88a:図18)で、比較的高い出現頻度で出現する比88aである場合には、比較的短い符号長(ビット長、長さ)の符号(符号(ビット列)90a(図18)、例えば、長さが1である符号「0」(図18を参照)など)へと符号化されてもよい。
 そして、他方で、算出された比88(パラメータ102x)は、0セントの比88xから比較的離れた比(比88b)であり、比較的低い出現頻度で出現する比88bである場合には、比較的長い長さの符号(符号90b、例えば、図18に示される、符号長が6の符号「111110」)へと符号化されてもよい。
 つまり、こうして、算出された、それぞれの比88(パラメータ102x:比88a、比88bなど)が、その比88が、0セントの比88xに近いか否か(比88xとの差がどの程度であるか)に応じた出現頻度に対応する符号長の可変長符号90(符号90a、90bなど)へと、可変長符号化されてもよい。
 なお、具体的には、例えば、比88(比88a、88bなど)に対して、その比88に対応した適切な可変長符号90(符号90a、90bなど)を対応付けるテーブル103t(テーブルのデータ、テーブル85:図18、図20、図1などを参照)が記憶されてもよい。
 なお、このテーブル103tは、具体的には、例えば、可逆符号化部103(第1のピッチ処理部103A:図1、図20等を参照)により記憶されてもよい。
 そして、記憶されたテーブル103tにより、算出された比88(比88a、88b:パラメータ102x(図1))が対応付けられた可変長符号90(符号90a、90b:パラメータ103x(図1))へと、その比88が符号化されることにより、可変長符号化が行われてもよい。
 これにより、ピッチの、符号化後のパラメータ103x(符号90)のデータ量が、より小さくなり、変換エンコーダで使うことの出来る符号化データ量を間接的に増やすことができ、符号化音質を向上させることができる。
 そして、復号装置2(図2等)において、次の処理がされてもよい。
 つまり、音の信号203ib(信号104x:図1)が符号化された信号204iが、信号203ib(信号104x)へと復号されてもよい(変換デコーダ204、ステップS204)。なお、変換デコーダの方式は、例えば、MPEG(Moving Picture Experts Group)-AAC(Advanced Audio Coding)などのような直交変換符号化方式であってもいいし、ACELP(Algebraic Code Exited Linear Prediction)などの音声符号化方式であっても良いし、その他の方式などでもよい。
 そして、復号される信号204iは、より具体的には、シフトがされる前の、音の信号203x(信号101i)から生成された、当該信号203x(信号101i)におけるピッチ(ピッチ822)が、参照ピッチ(参照ピッチ82r)へとシフトされた後の信号203ib(信号104x)が符号化された信号204i(信号105x)である。
 つまり、復号される信号204iは、例えば、上述された符号化装置1により、符号化がされた後における信号105xでもよい。
 つまり、さらに具体的には、例えば、復号される信号204iは、符号化をした符号化装置1から復号装置2へと通信されるデータ(図1のストリーム106x、図2のストリーム205i)に含まれ、符号化装置1から復号装置2へと通信される信号でもよい。
 そして、信号204iから復号された信号203ibから、復号された当該信号203ibにおける参照ピッチ(参照ピッチ82r)が、シフトがされる前のピッチ(ピッチ822)へとシフト(逆シフト)された信号203xを生成する(時間伸縮部203、ステップS203)。
 そして、より具体的には、符号化時間伸縮パラメータ201iを可逆復号化して、動的時間伸縮パラメータ202iを取得する。取得された動的時間伸縮パラメータ202iは、前記TW_Ratio_Indexで表される。そして、取得された動的時間伸縮パラメータ202i、および、TW_Ratio_Indexと、TW_Ratioとの間の関係を表したテーブル103tにより、時間伸縮パラメータTW_Ratioを取得する。取得したTW_Ratioに応じて、信号203ibを、時間伸縮回路(時間伸縮部)203にて、シフトされる前のピッチに相当する非伸縮信号203xへと変換する(逆シフト)。
 そして、具体的には、比88(パラメータ202i、パラメータ102x)が符号化されたパラメータ201i(図1のパラメータ103x)が、比88(パラメータ202i、パラメータ102x)へと復号されて、復号された比88(パラメータ202i)により特定されるピッチ(ピッチ822)へのシフトがされてもよい(可逆復号部201、S201)。
 これにより、ピッチのデータのデータ量についても、符号化されたデータ(パラメータ201i、パラメータ103x)における、小さなデータ量にされて、ピッチのデータのデータ量も小さくできる。
 そして、発明者は、先述のように、比88は、0セントの比88xに近い比88aである場合には、高い頻度で出現し、0セントの比88xから離れた比88bである場合には、低い頻度で出現することに気付いた。
 そこで、0セントの比88xに近い比88aへと、比較的短い符号90aが、復号され、0セントの比88xから離れた比88bへと、比較的長い符号90bが復号されてもよい。
 つまり、こうして、0セントの比88xに近いか否かに応じた出現頻度に合わせた復号(当該出現頻度に基づいた可変長符号化における復号)がされてもよい。
 なお、換言すれば、復号されるパラメータ201iの符号90(図18)は、0セントの比88xに近い比88aの符号90(符号90a)である場合には、短い符号90aであり、0セントの比88xから離れた比88bの符号90(符号90b)である場合には、長い符号90bであってもよい。
 つまり、これにより、短い符号90aが、0セントの比88xに近い比88aへと復号され、長い符号90bが、0セントの比88xから離れた比88bへと復号されてもよい。
 これにより、より十分に、ピッチのデータのデータ量が小さくできる。
 なお、より具体的には、例えば、先述されたテーブル103t(テーブル85:図18)に対応する復号化テーブル201t(図18、図2、図20など:テーブル85)を記憶しておく。
 そして、さらに具体的には、例えば、テーブル201tは、可逆復号部201(第2のピッチ処理部201A:図2、図20などを参照)により記憶されてもよい。
 そして、記憶されたテーブル201tにより、可変長符号90(符号化されたパラメータ201i)が対応付けられた比88(パラメータ202i)へと復号がされることにより、適切な、復号の処理がされてもよい。
 なお、先行例としては、固定長の長さの固定長符号(図19における、3ビットの長さの固定長符号91(符号91a、91b)を参照)により、ピッチのデータ(比88(図18)、図1のパラメータ(パラメータ202(図2等)を参照)が、固定長符号化される技術が知られる。
 そして、先述された、図16の説明で述べられたように、例えば、1つのフレーム84Fは、16個のセクション84(セクション841~84M、M=16)へと分割される。
 このため、先行例では、それぞれのフレーム84Fについて通信されるデータ9L(図22の第1行第2列)は、例えば、そのフレーム84Fの16個のセクション84に対応する、16個の固定長符号91(図22の固定長符号91c、91dなど)を含み、3ビット×16個=48ビット(図22の表の第1行第3列を参照)だけの、比較的大きいデータ量を有する。
 これに対して、本実施形態の符号化装置1、復号装置2によれば、それぞれのフレーム84Fについて通信されるデータ90L(図22における第2行、第3行)は、図22に示される15個の「1」の文字により示される、15個の、長さ1の符号90cを含む。
 そして、本実施形態におけるデータ90Lは、例えば、図22に示される1個の、「6」(データ90Lsでは「4」)の文字により示される、1個の、長さ6(データ90Lsでは長さ4)の符号90d(データ90Lsの符号90ds、データ90Ltの符号90dt)を含む。
 このように、本実施形態におけるデータ90Lは、高い頻度(例えば、図22の例では、15/16の頻度)で出現する、短い長さ(例えば、図22における、符号9cにおける長さ1、および、図18の表の符号90a「0」における長さ1などを参照)の符号90c(図18における符号90a)を、多い個数(例えば、図22のデータ90Lの例では15個)だけ含む。
 そして、データ90Lは、長い長さ(例えば、図22における長さ6個(データ90Lsでは長さ4)、および、図18の符号90b「111110」における長さ6などを参照)の符号90d(図18の符号90b)を、少ない個数(例えば、図22で例示される1個)だけ含む。
 つまり、図示されるように、本システムでのデータ90Lは、例えば、1×15+6×1=21ビット(第3行のデータ90Ls)、または、1×15+4×1=19ビット(第2行)などの、比較的小さいデータ量を有する。
 このため、例えば、本システムによれば、それぞれのフレーム84Fの通信等の処理でのデータ90Lのデータ量における、先行例でのデータ91L(図22の第1行)でのデータ量からの減少幅として、48-21=27ビット(第3行のデータ90Lt)、または、48-19=29ビット(第2行のデータ90Ls)などの減少幅が生じることが期待できる。
 なお、これらの減少幅(27ビット、29ビットなど)は、単なる、計算によって、理論的に想定される一例である。つまり、上述された、減少のための原理は、これらの減少幅(27ビット、29ビット)と同一または近似する減少幅を得るために利用されてもよいし、比較的小さい減少幅などの、その他の減少幅を得るために利用されるなどしてもよい。
 このように、本実施形態によれば、減少がされる、データ量の減少幅が、比較的大きな減少幅(例えば、上述された27ビット、29ビットなど)にできる。
 そして、さらに、本システムにおいて、次の動作がされてもよい。
 図12により、半音を構成する100セント(1セントは、1オクターブの1200分の1)だけの音程90jが示される。このような半音の音程90jの100分の1だけの音程が、1セントである。なお、この点については、例えば、図12に示される「100c」の文字も、参照されたい。
 そして、図18の表における第1列(cent)における、それぞれの行においては、その行の比88だけ互いに離れた2つのピッチ(図15のピッチ821、822を参照)の間の音程が、1セント(cent)の何倍の音程であるかが示され、つまり、その行の比88の音程のセント数が示される。
 なお、例えば、図18の表の第3行(符号「111100」の行)においては、1.0293倍の比88(比83(図15)を参照)のセント数が、50セントであることが示される。
 そして、範囲861(図18:範囲86aの一部)は、0セントの比88x(図18の第8行)から、42セント以上に大きい比88(1.0293、1.0416)の範囲(比88xより大きく、かつ、比88xからの差の絶対値が、42セント以上である範囲)を示す。
 一方で、範囲862(範囲86aの一部)は、-42セント以上に小さい比88(0セントの比88xから、より小さい方へと、42セント以上離れた比88(0.9772、0.9715、0.9604)の範囲(比88xよりも小さく、かつ、比88xからの差の絶対値が、42セント以上であるは範囲)である。
 つまり、範囲861と、範囲862とを合わせてなる範囲86aは、0セントの比88x(第8行)からの差の絶対値が、42セント以上であり、比88xから、42セント以上、離れた比88の範囲を示す。
 そして、範囲87は、42セント未満だけしか離れてない、比88の範囲である。
 なお、この範囲87については、後で、さらに詳しく説明される。
 そして、比88a(図15の比83a)は、図18に示されるように、例えば、上述された、42セント未満における範囲87に属する比88であり、比88b(図15の比83b)は、42セント以上である範囲86aに属する比88である。
 なお、比83(図15、図18の比88)を作る2つのピッチ(図15のピッチ821、822を参照)の間の差は、その比83が、42セント未満の範囲87での比83a(比88a)であれば、比較的小さい差であり、42セント以上の範囲86aでの比83b(比88b)であれば、比較的大きな差である。
 そして、発明者の実験によれば、42セント未満の範囲87の比88aが生じるだけに止まることなく、このような、大きな差の2つのピッチ(ピッチ821、822を参照)が生じて、42セント以上の範囲87での比88aが現れることがあるのがみられた。
 なお、ここで、比88aは、例えば、0セントの比88x(Tw_ratio「1」)に対して比較的近い比88a(図18では、比88xそのもの)である。
 そして、他方の比88bは、比88xから比較的遠い比88bである。
 つまり、先述のように、例えば、比88aに対応する符号90a(符号「0」)の長さ(長さ1)は、比88bに対応する符号90b(「111100」)の長さよりも短い。
 そこで、例えば、信号101i(図1)の比88として、範囲87に属する比88aが算出された場合において、算出された比88aに対応する符号90a(図1のパラメータ103x)が生成され(符号化装置1)、生成された符号90aが、比88a(図2のパラメータ202i)へと復号されて(復号装置2)、先述された処理がされてもよい。
 つまり、これにより、比88が、範囲87に属する比88aである場合において、先述された処理がされて、シフトが利用され、音のデータ(信号105x(図1)、信号204i(図2)を参照)のデータ量が小さくされてもよい。
 そして、さらに、信号101iの比88として、範囲86aに属する比88bが算出された場合においても、比88bに対応する符号90bが生成され、生成された符号90bが、比88bへと復号されて、先述された処理がされ、音のデータ(信号105x(図1)、信号204i(図2)を参照)のデータ量が小さくされてもよい。
 これにより、範囲86aの比88bが算出される場合、つまり、2つのピッチ(ピッチ822、821)の間の比83が、42セント以上である場合にも、先述の処理がされて、音のデータのデータ量が小さくされて、より確実に、音のデータのデータ量が小さくできる。
 つまり、比83(図15)が、42セント未満の比83aであり、2つのピッチ(図15のピッチ822、821を参照)の間の変化が、小さい変化である場合だけでなく、42セント以上の比83bで、大きい変化である場合にも、音のデータのデータ量が小さくされる。つまり、ピッチの変化(図15のピッチ822、821を参照)が大きいか小さいかに関わらず、音のデータのデータ量が小さくされ、確実に、音のデータのデータ量が小さくできる。
 なお、これに対して、先行例(図19)においては、2つのピッチ(ピッチ822、821を参照)の間の比89(図19)が、42セント未満である範囲87に属する比である場合にのみ、データ量が小さくされる処理がされて、確実に、音のデータのデータ量が小さくできない。
 このように、本システムでは、確実にデータ量が小さくできて、先行例(図19等)に対して、際立った先進性を有する。
 なお、このようにして、本実施形態によれば、適切な処理がされる範囲が、先行例における比較的狭い範囲(範囲87のみからなる範囲)から、その範囲よりもさらに広い範囲(範囲87を含むのに加えて、更に、範囲86aまで含んだ範囲86)にされて、適切な処理がされる範囲が、より広い範囲(範囲87)にできる。
 先述された、範囲87は、このような、広げられた範囲の一例である。
 つまり、発明者の現時点での知識によれば、先行例で適切な処理がされる範囲(範囲87)は、少なくとも、42セント未満の比(比88等を参照)のみが含まれてなる範囲である。
 また、たとえば、次のような局面では、次の動作・構成をしてもよい。つまり、その位置704p(図9)での、2つのピッチ(図15のピッチ822、821を参照)の間の比83p(図9)が、0セントの比90x(図18)(の近傍)ではない位置704p(先述された、ピッチが変化する位置)と、その位置704q(図9)での比83q(図9)は、0セントの比90x(の近傍)である位置704q(先述された、ピッチが変化しない位置)がある局面(符号化フレーム)がある。そして、構築される符号化装置は、例えば、この符号化フレームにおいて、ピッチ変動のある箇所(図9の704p)と、ピッチ変動の無い箇所(図9の704q)のそれぞれの場所を記憶(図9のベクトルC、102m)して、その場所情報(ベクトルC、102m)、および、ピッチ変動点(704p)におけるTW_RatioまたはTW_Ratio_Indexの情報を、復号化装置へと送信する符号化装置であっても良い。そうすることで、ピッチ変動箇所のみのTW_Ratio(またはTW_Ratio_Index)を送信するだけですむため、必要最小限の通信データ量(符号化量)によって、符号化・復号化装置を構成することもできる。
 こうして、ピッチが変化する位置704pと、変化しない位置704qとを含む複数の位置704xがある場合、位置704xは、多くの場合においては、ピッチが変化しない位置704qであり、変化する位置704pであることは少ない(僅かである)ことに気付く(先述)。
 そこで、パラメータ102x(図1、図2のパラメータ202i)は、例えば、変化する位置704pを特定するデータ102m(図9等)と、データ102mにより特定される、変化する位置704pでの比83p(を特定するデータ)とを含んでもよい。
 そして、パラメータ102xは、含まれるデータ102mにより特定する位置704pの比(比83p)を、当該パラメータ102xに含まれる(データ(上述)により特定される)比83pと特定してもよい。
 そして、他方で、パラメータ102xは、含まれるデータ102mにより特定される位置704p以外の他の位置(ピッチが変化しない位置704q)での比(比83q)を、例えば、0セントの比90x(図18)などの、ピッチが変化しない位置704qにおける比83qと特定してもよい。
 これにより、それぞれの位置(位置704p、704q)における比(比83p、83q)が何れも特定されるにも関わらず、パラメータ102xは、変化する位置704pの比83pのデータのみを含み、変化しない位置704qのデータを含まず、多くの位置(変化しない位置704q)のデータは含まず、ピッチのデータ(図1のパラメータ102x、103x、図2の204i、203いb)のデータ量が、さらに十分に少なくできる。
 なお、こうして、復号装置2へと入力される、信号204i(ストリーム205i)のピッチ(ピッチ822、ピッチ822の比88)を符号化する符号(可変長符号90、データ90L(図20、図22))のフォーマット(図18のテーブル85)が開示される。
 開示されるフォーマットにおいて、0セントの比88xに比較的近い比88aの符号(可変長符号90、符号90a)は、より短い長さ(長さ1)の符号90a(「0」)である一方で、0セントの比88xから遠い比88bの符号(可変長符号90、符号90b)は、より長い長さ(長さ6)の符号90b(「111100」)である。
 そして、入力された、このフォーマットの符号(可変長符号90、データ90L)に対して、復号装置2により行われる処理(手続)S2(図21)が開示される。
 このような、フォーマット(図18)および手続(処理S2)により、先述のようにして、ピッチのデータ(パラメータ103x、203x)のデータ量が、例えば、図22における、第1行第3列の48ビットから、第2行第3列の21ビット(第3行第3列の19ビット)への減少幅などだけ小さくされて、ピッチのデータのデータ量が、より小さくできる。
 そして、例えば、このような、フォーマットおよび手続が記載された規格書による規格が定められて、本技術がより広く利用されてもよい。
 これにより、より広い場面において、ピッチのデータ量が、より小さくされるようにされて、より大きく、産業の発達に寄与できる。
 こうして、本技術によれば、複数の構成(可逆符号化部103など)が組み合わせられて、組み合わせからの相乗効果が生じる。これに対して、知られる従来例(図13、図14、図19、および、その他の技術など)においては、これら複数の構成のうちの一部または全部を欠き、本技術における相乗効果が生じない。
 この点で、本技術は、従来例に対して先進性を有すると考えられる。
 なお、符号化装置1の一部(または全部)は、当該符号化装置1の1以上の機能が実装された集積回路(例えば、図20の集積回路1Cを参照)でもよい。また、当該符号化装置1の1以上の機能を、当該符号化装置1の一部(または全部)であるコンピュータに実行させるためのコンピュータプログラム(プログラム1Pを参照)が構築されてもよい。
 同様に、復号装置2の機能が実装された集積回路(集積回路2Cを参照)、コンピュータプログラム(プログラム2Pを参照)などが構築されてもよい。
 また、このコンピュータプログラムが記憶された記憶媒体が構築されてもよいし、このコンピュータプログラムのデータのデータ構造などが構築されてもよい。
 また、互いに異なる複数の実施形態での記載などの、互いに離れた箇所の複数の記載で示される複数の技術事項が、適宜組み合わせられてもよい。それらの複数の記載により、組み合わせられた形態も開示される。
 また、単なる細部については、如何なる形態が採られてもよく、例えば、更なる改良発明が加えられた形態が採られてもよいし、単なる、実際の実施に際して、当業者が容易に思い付く形態などが採られてもよい。
 なお、図21における、複数のステップ(ステップS101およびS104など)が実行される順序は、適切な動作が可能である範囲内の、如何なる順序でもよい。例えば、ステップS101の順序は、ステップS104の順序よりも先でもよいし、後でもよいし、並列に実行されるなどして、同じ順序でもよい。
 なお、処理により扱われる範囲としては、様々な範囲が考えられる。そして、本技術では、このような様々な範囲のうちから、上述された、ピッチ変化比(図18の比88、図19の比89)の変域の範囲(範囲86、87)が、より狭い範囲(先行例での範囲87)から、より広い範囲(範囲86)へと広げられる範囲として選択される。このような、本技術によってされた、範囲の選択に想い到ることは容易でないと考えられる。
 なお、こうして、例えば、以下の各装置等が実施されてもよい。
 つまり、当該復号装置(復号装置2)により受信される前記ビットストリーム(ビットストリーム106x、205i)は、1つのフレーム(フレーム84F:図16)における複数の位置(セクション841~84M)のうちで、当該ピッチ変化位置(位置704p)における信号のみが前記オーディオ信号リコンストラクタ(時間伸縮ブロック(時間伸縮部)203)によりTimeWarpされ(時間伸縮の処理がされ)、他の位置の信号はTimeWarpされない(時間伸縮の処理がされない)ピッチ変化位置(位置704p)を特定する位置情報(例えば、図9のデータ102m)を含む復号装置が構築されてもよい。
 そして、前記ピッチパラメータジェネレータ(動的時間伸縮ブロック102)は、検出された前記ピッチ輪郭情報(情報101x)に基づいて、ピッチ変化位置(位置704p(図9)、データ102mを参照)と前記ピッチ変化比(比83pを参照)とを含む前記ピッチパラメータ(パラメータ102x:例えば、ピッチ変化位置を特定する第1のピッチパラメータ102xと、ピッチ変化比を特定する第2のピッチパラメータ102xとの2つのピッチパラメータ102xなど)を生成する符号化装置が構築されてもよい。
 つまり、例えば、複数の位置のうちで、ピッチ変化位置におけるピッチ変化比のデータのみが処理され、他の位置のピッチ変化比のデータが処理されなくてもよい。
 そして、先述されたように、例えば、ピッチ変化位置の個数は僅かであり(少なく)、他の位置の個数は多い。
 このため、少ない個数の位置(ビット変化位置)のデータの処理のみで済み、処理がされるデータのデータ量が少なくできる。
 なお、ピッチ輪郭リコンストラクタ(動的時間伸縮再構築ブロック307:図3)等が更に設けられた符号化装置(符号化装置1e:図3)などが構築されてもよい。
 つまり、前記第1のエンコーダ(可逆符号化部303:図3(可逆符号化部103:図1))から出力された前記符号化ピッチパラメータ(パラメータ303x:図3(パラメータ103x))から、復号ピッチ変化位置(位置704p(図9)を参照)と復号ピッチ変化比(比83pを参照)とを含む復号ピッチパラメータ(パラメータ306x)を生成する第1のデコーダ(可逆復号ブロック306)と、生成された前記復号ピッチパラメータ(パラメータ306x)に従って、ピッチ輪郭情報(情報307x(情報301xを参照))を復元するピッチ輪郭リコンストラクタ(動的時間伸縮再構築ブロック307)とを備え、前記ピッチシフタ(時間伸縮ブロック304)は、復元された前記ピッチ輪郭情報(情報307x)である再構築ピッチ輪郭情報(情報307x)に従って、前記入力オーディオ信号(信号301i)のピッチ周波数(ピッチ822:図15)をシフトする符号化装置(符号化装置1e、ピッチ輪郭分析部301~マルチプレクサ回路308)が構築されてもよい。
 つまり、こうして、例えば、シフトで利用される情報として、復元された情報307xが利用されることにより、復号装置2で利用される、当該復号装置2で復元される情報と同じ情報が利用されて、より適切な(精度のよい)情報が利用できてもよい。
 また、入力ステレオオーディオ信号(信号401i:図4)の各オーディオフレームにミドルサイドステレオモード(MSステレオモード)を適用するかどうかを確認して、前記MSステレオモードの適用を示すフラグ(フラグ401x)を生成するMSモードセレクタ(MS演算ブロック(MS演算部)401)と、生成された前記フラグ(フラグ401x)に従って、前記入力ステレオオーディオ信号(信号401i)をダウンミックスするダウンミキサ(ダウンミックスブロック402)とを備え、前記ピッチディテクタ(ピッチ輪郭分析ブロック403)は、生成された前記フラグ(フラグ401x)に従って、前記入力ステレオオーディオ信号(信号401i)がダウンミックスされたダウンミックス信号(信号402a)、または、前記入力ステレオオーディオ信号(信号402b)のピッチ輪郭情報(情報403x)を検出し、前記ピッチシフタ(時間伸縮ブロック406)は、前記ピッチ輪郭情報(情報403x)と前記フラグ(フラグ401x)とに従って、前記入力ステレオオーディオ信号または前記ダウンミックス信号(信号402x(信号402aまたは402b))のピッチ周波数(ピッチ822(図15)を参照)をシフトする符号化装置(符号化装置1f、MS演算部401~マルチプレクサ回路408)が構築されてもよい。
 つまり、こうして、例えば、フラグが生成されて、生成されたフラグに従った処理がされてもよい。
 これにより、MSステレオモードが利用される場合と、利用されない場合とがあるにも関わらず、利用されるか否かを示す、ユーザによる操作などがされなくても、生成されたフラグに応じた処理がされるだけで、適切な処理がされる。これにより、余計な操作が不要にされて、操作が簡単にできる。
 また、入力ステレオオーディオ信号(信号601i:図6)に従って、MSステレオモードを選択し、前記MSステレオモードの適用を示すフラグ(フラグ601x)を生成するMSモードセレクタ(MS演算ブロック601)と、生成された前記フラグ(フラグ601x)に従って前記入力ステレオオーディオ信号(信号601i)をダウンミックスするダウンミキサ(ダウンミックスブロック602)と、第1のデコーダ(可逆復号ブロック608)と、ピッチ輪郭リコンストラクタ(動的時間伸縮再構築ブロック609)とを備え、前記ピッチディテクタ(ピッチ輪郭分析ブロック603)は、生成された前記フラグ(フラグ601x)に従って、前記入力ステレオオーディオ信号(信号601i)がダウンミックスされたダウンミックス信号(信号602a)または前記入力ステレオオーディオ信号(信号602b)のピッチ輪郭情報(情報603x)を検出し、前記第1のデコーダ(可逆復号ブロック608)は、前記第1のエンコーダ(可逆符号化ブロック605)から出力された前記符号化ピッチパラメータ(パラメータ605x)から、復号ピッチ変化位置(位置704p(図8)を参照)と復号ピッチ変化比(比83pを参照)とを含む復号ピッチパラメータ(パラメータ608x)を生成し、前記ピッチ輪郭リコンストラクタ(動的時間伸縮再構築ブロック609)は、生成された前記復号ピッチパラメータ(パラメータ608x)と、前記フラグ(フラグ601x)に従って、再構築ピッチ輪郭情報(情報609x(情報603xを参照))を復元し、前記ピッチシフタ(時間伸縮ブロック606)は、復元された前記再構築ピッチ輪郭情報(情報609x)に従って、前記入力ステレオオーディオ信号または前記ダウンミックス信号(信号602x(信号602aまたは602b))のピッチ周波数をシフトする符号化装置(符号化装置1h、MS演算部601~マルチプレクサ回路408)が構築されてもよい。
 これにより、復号装置2で利用される情報と同じ情報が利用されて、より適切な情報が利用できることと、操作が簡単にできることとが両立できる。
 また、前記ピッチシフタ(図7の時間伸縮ブロック708)を使用するかどうかを決定する比較手段(比較部、比較スキーム710)を備え、前記マルチプレクサは(マルチプレクサブロック711)、符号化データ(信号709x)と、前記比較手段から出力された符号化ピッチパラメータ(パラメータ710x)とを組み合わせることでビットストリーム(ストリーム711x)を生成する符号化装置(符号化装置1i、MS演算部701~マルチプレクサ回路711)が構築されてもよい。
 つまり、例えば、比較スキーム710により、生成される第3の信号709x(第3の信号105x(図1))と、他の信号とのうちで、より適切な方の信号(例えば、SNR(Signal to Noise Ratio:シグナルノイズレシオ、S/N比)が、より高く、ノイズがより少ない方の信号、または、データ量が、より少ない方の信号など)が、復号装置(復号装置2など)により利用される信号として選択されてもよい。
 なお、他の信号は、例えば、第3の信号709xにより記録される音と同じ音が記録された、当該第3の信号709x以外の他の信号などでもよい。
 つまり、より具体的には、第3の信号709xでのSNR(Signal to Noise Ratio:シグナルノイズレシオ)と、他の信号でのSNRとがそれぞれ算出されて、算出された2つのSNRに基づいて、上記の選択がされてもよい。
 なお、算出されるSNRは、例えば、シフトがされる前の信号(図1の信号101iなどを参照)に対して、そのSNRの信号(第3の信号709x、他の信号)が有する差が、そのSNRの信号が有するノイズとされた際の値などでもよい。
 これにより、第3の信号709xの方が適切でないときがあるにも関わらず、そのときには、他の信号が利用され、適切な信号が用いられることが維持されて、より確実に、適切な信号が利用できる。
 また、符号化装置(符号化装置1)に設けられる前記ピッチパラメータジェネレータ(例えば、図1の動的時間伸縮ブロック102)であって、ピッチシフトがされる前の第1のハーモニクス構造と、された後の第2のハーモニクス構造とを比較することで、前記ピッチ輪郭(情報101x)を修正し、当該ピッチシフトを利用すべきかどうかを決定するピッチパラメータジェネレータ(動的時間伸縮ブロック102)が構築されてもよい。
 なお、例えば、第1のピッチ輪郭が修正されないことにより、当該第1のピッチ輪郭でのピッチシフトを利用することが決定されると共に、当該第1のピッチ輪郭が、第2のピッチ輪郭へと修正されることにより、当該第2のピッチ輪郭でのピッチシフトを利用することが決定されてもよい。
 そして、ハーモニクス構造(のデータ)は、例えば、それぞれの値が、信号の1以上のハーモニクスのうちの、その値に対応するハーモニクスの振幅を示す値である複数の値が含まれてなるデータなどでもよい。
 そして、ピッチシフトがされる前の信号のハーモニクス構造と、された後の信号のハーモニクス構造とから、された後の信号の質を示す評価値が算出されてもよい。
 そして、第1のピッチ輪郭のピッチシフトについて算出される評価値により示される質が、第2のピッチ輪郭のピッチシフトについて算出される評価値により示される質よりも、高い質である場合に、第1のピッチ輪郭が修正されないことが決定されると共に、より低い質である場合(以下である場合)には、修正されることが決定されてもよい。
 これにより、第1のピッチ輪郭での質が、高い質でないときがあるにも関わらず、そのときには、第2のピッチ輪郭での処理がされて、ピッチシフトがされた後の信号の質が、高い質に維持され、確実に、信号の質が高くできる。
 他方、実施形態の復号装置に関して、前記第1のデコーダ(可逆復号ブロック201:図2)は、分離された前記符号化ピッチパラメータ情報(パラメータ201i)から、ピッチ変化位置(位置704p(図9)を参照)と前記ピッチ変化比(比83pを参照)とを含む前記復号ピッチパラメータ(パラメータ202i:例えば、ピッチ変化位置を特定する第1のパラメータ202iと、ピッチ変化比を特定する第2のパラメータ202iとの2つのパラメータ202i)を生成する復号装置(復号装置2c)が構築されてもよい。
 そして、当該復号装置(図5の復号装置2g)は、ピッチシフトされたステレオオーディオ信号(信号503ibL等:図5)の前記符号化データ(信号505i:図5)を含む前記ビットストリーム(ストリーム506i)を復号し、MSモードディテクタ(MSモード検出ブロック504)を備え、前記第2のデコーダ(変換デコーダブロック505)は、分離された前記符号化データ(信号505i)を復号して、ピッチシフトされた前記オーディオ信号(信号503ibL等)と、MSモード符号化情報(情報504i)とを生成し、前記MSモードディテクタ(MSモード検出ブロック504)は、MSモードが有効にされているかどうかを、生成された前記MSモード符号化情報(情報504i)に従って検出し、MSモードが有効にされるべきかどうかを示すMSモードフラグ(フラグ504F:図5)を生成し、前記ピッチ輪郭リコンストラクタ(動的時間伸縮再構築部502)は、前記第1のデコーダ(可逆復号ブロック501)から出力された、生成された前記復号ピッチパラメータ(パラメータ502i)と、生成された前記MSモードフラグ(フラグ504F)とに従って、ピッチ輪郭情報(情報503ia)を復元する復号装置(復号装置1g、可逆復号部501~マルチプレクサ回路506)が構築されてもよい。
 これにより、MSモードが有効にされているどうかが検出され、有効にされているかどうかを示す、ユーザによる余計な操作がされなくても済んで、操作が、より簡単にできる。
 なお、例えば、ブロックとは、いわゆる機能ブロックなどをいう。
 符号化装置1および復号装置2において、上述の各効果が生じ、これら符号化装置1等における動作が、より適切な動作にできる。
 これにより、ひいては、これら符号化装置1等の生産、使用などをする産業分野において、産業の発達に貢献できる。
 1 符号化装置
 2 復号装置
 2S システム
 101 ピッチ輪郭分析部
 102 動的時間伸縮部
 103 可逆符号化部
 104 時間伸縮部
 105 変換エンコーダ
 106 マルチプレクサ
 201 可逆復号部
 202 動的時間伸縮再構築部
 203 時間伸縮部
 204 変換デコーダ
 205 デマルチプレクサ

Claims (19)

  1.  入力オーディオ信号のピッチ輪郭情報を検出するピッチディテクタと、
     検出された前記ピッチ輪郭情報に基づいて、当該ビット変化比の変域は、当該範囲のピッチ変化比のセント数の絶対値は、42以上である範囲を含む範囲の変域であるピッチ変化比を含むピッチパラメータを生成するピッチパラメータジェネレータと、
     生成された前記ピッチパラメータを符号化する第1のエンコーダと、
     前記ピッチ輪郭情報に従って、前記入力オーディオ信号のピッチ周波数をシフトするピッチシフタと、
     前記ピッチシフタから出力された、シフトがされたオーディオ信号を符号化する第2のエンコーダと、
     前記第1のエンコーダから出力された符号化ピッチパラメータと、前記第2のエンコーダから出力された、前記ピッチシフタから出力された前記オーディオ信号が符号化されたデータとを組み合わせることで、前記符号化ピッチパラメータと当該データとが含まれるビットストリームを生成するマルチプレクサとを備える符号化装置。
  2.  前記ピッチパラメータジェネレータは、検出された前記ピッチ輪郭情報に基づいて、ピッチ変化位置と前記ピッチ変化比とを含む前記ピッチパラメータを生成する請求項1記載の符号化装置。
  3.  前記第1のエンコーダから出力された前記符号化ピッチパラメータから、復号ピッチ変化位置と復号ピッチ変化比とを含む復号ピッチパラメータを生成する第1のデコーダと、
     生成された前記復号ピッチパラメータに従って、ピッチ輪郭情報を復元するピッチ輪郭リコンストラクタとを備え、
     前記ピッチシフタは、復元された前記ピッチ輪郭情報である再構築ピッチ輪郭情報に従って、前記入力オーディオ信号のピッチ周波数をシフトする請求項2記載の符号化装置。
  4.  入力ステレオオーディオ信号の各オーディオフレームにミドルサイドステレオモード(MSステレオモード)を適用するかどうかを確認して、前記MSステレオモードの適用を示すフラグを生成するMSモードセレクタと、
     生成された前記フラグに従って、前記入力ステレオオーディオ信号をダウンミックスするダウンミキサとを備え、
     前記ピッチディテクタは、生成された前記フラグに従って、前記入力ステレオオーディオ信号がダウンミックスされたダウンミックス信号または前記入力ステレオオーディオ信号のピッチ輪郭情報を検出し、
     前記ピッチシフタは、前記ピッチ輪郭情報と前記フラグとに従って、前記入力ステレオオーディオ信号または前記ダウンミックス信号のピッチ周波数をシフトする請求項2または3記載の符号化装置。
  5.  入力ステレオオーディオ信号に従って、MSステレオモードを選択し、前記MSステレオモードの適用を示すフラグを生成するMSモードセレクタと、
     生成された前記フラグに従って前記入力ステレオオーディオ信号をダウンミックスするダウンミキサと、
     第1のデコーダと、
     ピッチ輪郭リコンストラクタとを備え、
     前記ピッチディテクタは、生成された前記フラグに従って、前記入力ステレオオーディオ信号がダウンミックスされたダウンミックス信号または前記入力ステレオオーディオ信号のピッチ輪郭情報を検出し、
     前記第1のデコーダは、前記第1のエンコーダから出力された前記符号化ピッチパラメータから、復号ピッチ変化位置と復号ピッチ変化比とを含む復号ピッチパラメータを生成し、
     前記ピッチ輪郭リコンストラクタは、生成された前記復号ピッチパラメータと、前記フラグに従って、再構築ピッチ輪郭情報を復元し、
     前記ピッチシフタは、復元された前記再構築ピッチ輪郭情報に従って、前記入力ステレオオーディオ信号または前記ダウンミックス信号のピッチ周波数をシフトする請求項2記載の符号化装置。
  6.  前記ピッチシフタを使用するかどうかを決定する比較手段を備え、
     前記マルチプレクサは、符号化データと、前記比較手段から出力された符号化ピッチパラメータとを組み合わせることで、前記ビットストリームを生成する請求項5記載の符号化装置。
  7.  請求項1~6の何れかに記載の符号化装置に設けられた前記ピッチパラメータジェネレータであって、
     ピッチシフトがされる前の第1のハーモニクス構造と、された後の第2のハーモニクス構造とを比較することで、前記ピッチ輪郭を修正し、当該ピッチシフトを利用すべきかどうかを決定するピッチパラメータジェネレータ。
  8.  前記第1のエンコーダは、
     前記ピッチパラメータを、
     当該ピッチパラメータが、比較的小さな絶対値のセント数のピッチ変化比のピッチパラメータである場合には、比較的短い符号長の符号の符号化ピッチパラメータへと符号化し、
     比較的大きな絶対値のセント数のピッチ変化比のピッチパラメータである場合には、比較的長い符号長の符号の符号化ピッチパラメータへと符号化する請求項1~6の何れかに記載の符号化装置。
  9.  ピッチシフトされたオーディオ信号の符号化データと、符号化ピッチパラメータ情報とを含むビットストリームを復号する復号装置であって、
     復号を行う前記ビットストリームから、当該ビットストリームに含まれる前記符号化データと、前記符号化ピッチパラメータ情報とをそれぞれ分離するデマルチプレクサと、
     分離された前記符号化ピッチパラメータ情報から、当該ビット変化比の変域は、当該範囲のピッチ変化比のセント数の絶対値は、42以上である範囲を含む範囲の変域であるピッチ変化比を含む復号ピッチパラメータを生成する第1のデコーダと、
     生成された前記復号ピッチパラメータに従って、ピッチ輪郭情報を復元するピッチ輪郭リコンストラクタと、
     分離された前記符号化データを復号して、ピッチシフトされた前記オーディオ信号を生成する第2のデコーダと、
     復元された前記ピッチ輪郭情報である再構築ピッチ輪郭情報に従って、ピッチシフトされた前記オーディオ信号を、元のオーディオ信号に変換するオーディオ信号リコンストラクタとを備える復号装置。
  10.  前記第1のデコーダは、分離された前記符号化ピッチパラメータ情報から、ピッチ変化位置と前記ピッチ変化比とを含む前記復号ピッチパラメータを生成する請求項9記載の復号装置。
  11.  当該復号装置は、ピッチシフトされたステレオオーディオ信号の前記符号化データを含む前記ビットストリームを復号し、
     MSモードディテクタを備え、
     前記第2のデコーダは、分離された前記符号化データを復号して、ピッチシフトされた前記ステレオオーディオ信号と、MSモード符号化情報とを生成し、
     前記MSモードディテクタは、MSモードが有効にされているかどうかを、生成された前記MSモード符号化情報に従って検出し、MSモードが有効にされるべきかどうかを示すMSモードフラグを生成し、
     前記ピッチ輪郭リコンストラクタは、前記第1のデコーダから出力された、生成された前記復号ピッチパラメータと、生成された前記MSモードフラグとに従って、前記ピッチ輪郭情報を復元する請求項10記載の復号装置。
  12.  前記第1のデコーダは、
     分離された前記符号化ピッチパラメータ情報を、
     当該符号化ピッチパラメータ情報が、比較的短い符号長の符号の符号化ピッチパラメータ情報である場合には、比較的小さな絶対値のセント数のピッチ変化比のピッチパラメータへと復号し、
     比較的長い符号長の符号の符号化ピッチパラメータ情報である場合には、比較的大きな絶対値のセント数のピッチ変化比のピッチパラメータへと復号する請求項9~11の何れかに記載の復号装置。
  13.  請求項8記載の符号化装置と、請求項12記載の復号装置とを含んでなる信号処理システム。
  14.  入力オーディオ信号のピッチ輪郭情報を検出するピッチディテクタ工程と、
     検出された前記ピッチ輪郭情報に基づいて、当該ビット変化比の変域は、当該範囲のピッチ変化比のセント数の絶対値は、42以上である範囲を含む範囲の変域であるピッチ変化比を含むピッチパラメータを生成するピッチパラメータジェネレータ工程と、
     生成された前記ピッチパラメータを符号化する第1のエンコーダ工程と、
     前記ピッチ輪郭情報に従って、前記入力オーディオ信号のピッチ周波数をシフトするピッチシフタ工程と、
     前記ピッチシフタ工程で出力された、シフトがされたオーディオ信号を符号化する第2のエンコーダ工程と、
     前記第1のエンコーダ工程で出力された符号化ピッチパラメータと、前記第2のエンコーダ工程で出力された、前記ピッチシフタから出力された前記オーディオ信号が符号化されたデータとを組み合わせることで、前記符号化ピッチパラメータと当該データとが含まれるビットストリームを生成するマルチプレクサ工程とを含む符号化方法。
  15.  ピッチシフトされたオーディオ信号の符号化データと、符号化ピッチパラメータ情報とを含むビットストリームを復号する復号方法であって、
     復号を行う前記ビットストリームから、当該ビットストリームに含まれる前記符号化データと、前記符号化ピッチパラメータ情報とをそれぞれ分離するデマルチプレクサ工程と、
     分離された前記符号化ピッチパラメータ情報から、当該ビット変化比の変域は、当該範囲のピッチ変化比のセント数の絶対値は、42以上である範囲を含む範囲の変域であるピッチ変化比を含む復号ピッチパラメータを生成する第1のデコーダ工程と、
     生成された前記復号ピッチパラメータに従って、ピッチ輪郭情報を復元するピッチ輪郭リコンストラクタ工程と、
     分離された前記符号化データを復号して、ピッチシフトされた前記オーディオ信号を生成する第2のデコーダ工程と、
     復元された前記ピッチ輪郭情報である再構築ピッチ輪郭情報に従って、ピッチシフトされた前記オーディオ信号を、元のオーディオ信号に変換するオーディオ信号リコンストラクタ工程とを含む復号方法。
  16.  入力オーディオ信号のピッチ輪郭情報を検出するピッチディテクタと、
     検出された前記ピッチ輪郭情報に基づいて、当該ビット変化比の変域は、当該範囲のピッチ変化比のセント数の絶対値は、42以上である範囲を含む範囲の変域であるピッチ変化比を含むピッチパラメータを生成するピッチパラメータジェネレータと、
     生成された前記ピッチパラメータを符号化する第1のエンコーダと、
     前記ピッチ輪郭情報に従って、前記入力オーディオ信号のピッチ周波数をシフトするピッチシフタと、
     前記ピッチシフタから出力された、シフトがされたオーディオ信号を符号化する第2のエンコーダと、
     前記第1のエンコーダから出力された符号化ピッチパラメータと、前記第2のエンコーダから出力された、前記ピッチシフタから出力された前記オーディオ信号が符号化されたデータとを組み合わせることで、前記符号化ピッチパラメータと当該データとが含まれるビットストリームを生成するマルチプレクサとを備える集積回路。
  17.  ピッチシフトされたオーディオ信号の符号化データと、符号化ピッチパラメータ情報とを含むビットストリームを復号する集積回路であって、
     復号を行う前記ビットストリームから、当該ビットストリームに含まれる前記符号化データと、前記符号化ピッチパラメータ情報とをそれぞれ分離するデマルチプレクサと、
     分離された前記符号化ピッチパラメータ情報から、当該ビット変化比の変域は、当該範囲のピッチ変化比のセント数の絶対値は、42以上である範囲を含む範囲の変域であるピッチ変化比を含む復号ピッチパラメータを生成する第1のデコーダと、
     生成された前記復号ピッチパラメータに従って、ピッチ輪郭情報を復元するピッチ輪郭リコンストラクタと、
     分離された前記符号化データを復号して、ピッチシフトされた前記オーディオ信号を生成する第2のデコーダと、
     復元された前記ピッチ輪郭情報である再構築ピッチ輪郭情報に従って、ピッチシフトされた前記オーディオ信号を、元のオーディオ信号に変換するオーディオ信号リコンストラクタとを備える集積回路。
  18.  入力オーディオ信号のピッチ輪郭情報を検出するピッチディテクタ工程と、
     検出された前記ピッチ輪郭情報に基づいて、当該ビット変化比の変域は、当該範囲のピッチ変化比のセント数の絶対値は、42以上である範囲を含む範囲の変域であるピッチ変化比を含むピッチパラメータを生成するピッチパラメータジェネレータ工程と、
     生成された前記ピッチパラメータを符号化する第1のエンコーダ工程と、
     前記ピッチ輪郭情報に従って、前記入力オーディオ信号のピッチ周波数をシフトするピッチシフタ工程と、
     前記ピッチシフタ工程で出力された、シフトがされたオーディオ信号を符号化する第2のエンコーダ工程と、
     前記第1のエンコーダ工程で出力された符号化ピッチパラメータと、前記第2のエンコーダ工程で出力された、前記ピッチシフタから出力された前記オーディオ信号が符号化されたデータとを組み合わせることで、前記符号化ピッチパラメータと当該データとが含まれるビットストリームを生成するマルチプレクサ工程とをコンピュータに実行させるためのコンピュータプログラム。
  19.  ピッチシフトされたオーディオ信号の符号化データと、符号化ピッチパラメータ情報とを含むビットストリームをコンピュータに復号させるためのコンピュータプログラムであって、
     復号を行う前記ビットストリームから、当該ビットストリームに含まれる前記符号化データと、前記符号化ピッチパラメータ情報とをそれぞれ分離するデマルチプレクサ工程と、
     分離された前記符号化ピッチパラメータ情報から、当該ビット変化比の変域は、当該範囲のピッチ変化比のセント数の絶対値は、42以上である範囲を含む範囲の変域であるピッチ変化比を含む復号ピッチパラメータを生成する第1のデコーダ工程と、
     生成された前記復号ピッチパラメータに従って、ピッチ輪郭情報を復元するピッチ輪郭リコンストラクタ工程と、
     分離された前記符号化データを復号して、ピッチシフトされた前記オーディオ信号を生成する第2のデコーダ工程と、
     復元された前記ピッチ輪郭情報である再構築ピッチ輪郭情報に従って、ピッチシフトされた前記オーディオ信号を、元のオーディオ信号に変換するオーディオ信号リコンストラクタ工程とを前記コンピュータに実行させるためのコンピュータプログラム。
PCT/JP2010/006234 2009-10-21 2010-10-21 オーディオ符号化装置、復号装置、方法、回路およびプログラム WO2011048815A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2011537144A JP5530454B2 (ja) 2009-10-21 2010-10-21 オーディオ符号化装置、復号装置、方法、回路およびプログラム
EP10824667.9A EP2492911B1 (en) 2009-10-21 2010-10-21 Audio encoding apparatus, decoding apparatus, method, circuit and program
CN2010800036592A CN102257564B (zh) 2009-10-21 2010-10-21 音频编码装置、解码装置、方法、电路及程序
US13/141,169 US8886548B2 (en) 2009-10-21 2010-10-21 Audio encoding device, decoding device, method, circuit, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2009-242302 2009-10-21
JP2009242302 2009-10-21

Publications (1)

Publication Number Publication Date
WO2011048815A1 true WO2011048815A1 (ja) 2011-04-28

Family

ID=43900059

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2010/006234 WO2011048815A1 (ja) 2009-10-21 2010-10-21 オーディオ符号化装置、復号装置、方法、回路およびプログラム

Country Status (5)

Country Link
US (1) US8886548B2 (ja)
EP (1) EP2492911B1 (ja)
JP (1) JP5530454B2 (ja)
CN (1) CN102257564B (ja)
WO (1) WO2011048815A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10173036B2 (en) 2012-02-07 2019-01-08 Marie-Andrea I. Wilborn Apparatus operable to protect and maintain positioning of an IV catheter

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7720677B2 (en) * 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
MY154452A (en) * 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
ES2379761T3 (es) * 2008-07-11 2012-05-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Proporcinar una señal de activación de distorsión de tiempo y codificar una señal de audio con la misma
US8855303B1 (en) * 2012-12-05 2014-10-07 The Boeing Company Cryptography using a symmetric frequency-based encryption algorithm
US9798974B2 (en) 2013-09-19 2017-10-24 Microsoft Technology Licensing, Llc Recommending audio sample combinations
US9257954B2 (en) * 2013-09-19 2016-02-09 Microsoft Technology Licensing, Llc Automatic audio harmonization based on pitch distributions
US9280313B2 (en) 2013-09-19 2016-03-08 Microsoft Technology Licensing, Llc Automatically expanding sets of audio samples
US9372925B2 (en) 2013-09-19 2016-06-21 Microsoft Technology Licensing, Llc Combining audio samples by automatically adjusting sample characteristics
CN106571145A (zh) * 2015-10-08 2017-04-19 重庆邮电大学 一种语音模仿方法和装置
GB201621434D0 (en) 2016-12-16 2017-02-01 Palantir Technologies Inc Processing sensor logs
CN107181928A (zh) * 2017-07-21 2017-09-19 苏睿 会议系统及数据传输方法
CN113112993B (zh) * 2020-01-10 2024-04-02 阿里巴巴集团控股有限公司 一种音频信息处理方法、装置、电子设备以及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60263377A (ja) * 1984-06-08 1985-12-26 Ricoh Elemex Corp 音響信号の時間軸変換装置
JPS60263375A (ja) * 1984-06-08 1985-12-26 Ricoh Elemex Corp 音響信号の時間軸変換装置
JPH10111694A (ja) * 1996-10-08 1998-04-28 Sony Corp 音声信号多重化装置および方法
JP2001188600A (ja) * 1999-12-28 2001-07-10 Matsushita Electric Ind Co Ltd 音程変換装置
JP2002162996A (ja) * 2000-11-24 2002-06-07 Matsushita Electric Ind Co Ltd オーディオ信号符号化方法、オーディオ信号符号化装置、音楽配信方法、および、音楽配信システム
JP2002268694A (ja) * 2001-03-13 2002-09-20 Nippon Hoso Kyokai <Nhk> ステレオ信号の符号化方法及び符号化装置
JP2003521721A (ja) * 1998-11-24 2003-07-15 マイクロソフト コーポレイション ピッチ追跡方法および装置
WO2006046761A1 (ja) * 2004-10-27 2006-05-04 Yamaha Corporation ピッチ変換装置
US20080004869A1 (en) 2006-06-30 2008-01-03 Juergen Herre Audio Encoder, Audio Decoder and Audio Processor Having a Dynamically Variable Warping Characteristic

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001069474A1 (fr) 2000-03-14 2001-09-20 Kabushiki Kaisha Toshiba Centre de systemes d'irm et systeme d'irm
FR2850781B1 (fr) * 2003-01-30 2005-05-06 Jean Luc Crebouw Procede pour le traitement numerique differencie de la voix et de la musique, le filtrage du bruit, la creation d'effets speciaux et dispositif pour la mise en oeuvre dudit procede
SE0301272D0 (sv) * 2003-04-30 2003-04-30 Coding Technologies Sweden Ab Adaptive voice enhancement for low bit rate audio coding
US7840014B2 (en) * 2005-04-05 2010-11-23 Roland Corporation Sound apparatus with howling prevention function
US7974837B2 (en) 2005-06-23 2011-07-05 Panasonic Corporation Audio encoding apparatus, audio decoding apparatus, and audio encoded information transmitting apparatus
US9058812B2 (en) 2005-07-27 2015-06-16 Google Technology Holdings LLC Method and system for coding an information signal using pitch delay contour adjustment
US7720677B2 (en) * 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
US7734053B2 (en) * 2005-12-06 2010-06-08 Fujitsu Limited Encoding apparatus, encoding method, and computer product
WO2009038512A1 (en) * 2007-09-19 2009-03-26 Telefonaktiebolaget Lm Ericsson (Publ) Joint enhancement of multi-channel audio
CN101552005A (zh) 2008-04-03 2009-10-07 华为技术有限公司 编码方法、解码方法、系统及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60263377A (ja) * 1984-06-08 1985-12-26 Ricoh Elemex Corp 音響信号の時間軸変換装置
JPS60263375A (ja) * 1984-06-08 1985-12-26 Ricoh Elemex Corp 音響信号の時間軸変換装置
JPH10111694A (ja) * 1996-10-08 1998-04-28 Sony Corp 音声信号多重化装置および方法
JP2003521721A (ja) * 1998-11-24 2003-07-15 マイクロソフト コーポレイション ピッチ追跡方法および装置
JP2001188600A (ja) * 1999-12-28 2001-07-10 Matsushita Electric Ind Co Ltd 音程変換装置
JP2002162996A (ja) * 2000-11-24 2002-06-07 Matsushita Electric Ind Co Ltd オーディオ信号符号化方法、オーディオ信号符号化装置、音楽配信方法、および、音楽配信システム
JP2002268694A (ja) * 2001-03-13 2002-09-20 Nippon Hoso Kyokai <Nhk> ステレオ信号の符号化方法及び符号化装置
WO2006046761A1 (ja) * 2004-10-27 2006-05-04 Yamaha Corporation ピッチ変換装置
US20080004869A1 (en) 2006-06-30 2008-01-03 Juergen Herre Audio Encoder, Audio Decoder and Audio Processor Having a Dynamically Variable Warping Characteristic

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BERND EDLER: "A Time-warped MDCT Approach To Speech Transform Coding", AES 126TH CONVENTION, May 2000 (2000-05-01)
MILAN JELINEK: "Wideband Speech Coding Advances in VMR-WB Standard", IEEE TRANSACTIONS ON AUDIO, SPEECH AND LANGUAGE PROCESSING, vol. 15, no. 4, May 2007 (2007-05-01), XP011177208, DOI: doi:10.1109/TASL.2007.894514
See also references of EP2492911A4
XUEJING SUN: "Pitch Detection and Voice Quality Analysis Using Subharmonic-to-Harmonic Ratio", IEEE ICASSP, 2002, pages 333 - 336

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10173036B2 (en) 2012-02-07 2019-01-08 Marie-Andrea I. Wilborn Apparatus operable to protect and maintain positioning of an IV catheter

Also Published As

Publication number Publication date
JP5530454B2 (ja) 2014-06-25
EP2492911A1 (en) 2012-08-29
US20110268279A1 (en) 2011-11-03
EP2492911B1 (en) 2017-08-16
CN102257564B (zh) 2013-07-10
JPWO2011048815A1 (ja) 2013-03-07
CN102257564A (zh) 2011-11-23
US8886548B2 (en) 2014-11-11
EP2492911A4 (en) 2015-04-15

Similar Documents

Publication Publication Date Title
JP5530454B2 (ja) オーディオ符号化装置、復号装置、方法、回路およびプログラム
JP5208901B2 (ja) 音声信号および音楽信号を符号化する方法
KR101274827B1 (ko) 다수 채널 오디오 신호를 디코딩하기 위한 장치 및 방법, 및 다수 채널 오디오 신호를 코딩하기 위한 방법
TWI405187B (zh) 可縮放語音及音訊編碼解碼器、包括可縮放語音及音訊編碼解碼器之處理器、及用於可縮放語音及音訊編碼解碼器之方法及機器可讀媒體
JP6704037B2 (ja) 音声符号化装置および方法
US8340976B2 (en) Method and apparatus for generating an enhancement layer within a multiple-channel audio coding system
KR101275892B1 (ko) 오디오 신호를 인코딩하고 디코딩하기 위한 방법 및 장치
KR101274802B1 (ko) 오디오 신호를 인코딩하기 위한 장치 및 방법
TW200841743A (en) Encoder, decoder and methods for encoding and decoding data segments representing a time-domain data stream
KR20140005277A (ko) 저-지연 통합 스피치 및 오디오 코딩에서 에러 은닉을 위한 장치 및 방법
WO2016016724A2 (ko) 패킷 손실 은닉방법 및 장치와 이를 적용한 복호화방법 및 장치
KR101809298B1 (ko) 부호화 장치, 복호 장치, 부호화 방법 및 복호 방법

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201080003659.2

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10824667

Country of ref document: EP

Kind code of ref document: A1

REEP Request for entry into the european phase

Ref document number: 2010824667

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2010824667

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 13141169

Country of ref document: US

Ref document number: 2011537144

Country of ref document: JP