WO2012046685A1 - 符号化方法、復号方法、符号化装置、復号装置、プログラム、記録媒体 - Google Patents

符号化方法、復号方法、符号化装置、復号装置、プログラム、記録媒体 Download PDF

Info

Publication number
WO2012046685A1
WO2012046685A1 PCT/JP2011/072752 JP2011072752W WO2012046685A1 WO 2012046685 A1 WO2012046685 A1 WO 2012046685A1 JP 2011072752 W JP2011072752 W JP 2011072752W WO 2012046685 A1 WO2012046685 A1 WO 2012046685A1
Authority
WO
WIPO (PCT)
Prior art keywords
sample
samples
decoding
sample sequence
frequency
Prior art date
Application number
PCT/JP2011/072752
Other languages
English (en)
French (fr)
Inventor
守谷 健弘
登 原田
優 鎌本
祐介 日和▲崎▼
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to JP2012537696A priority Critical patent/JP5612698B2/ja
Publication of WO2012046685A1 publication Critical patent/WO2012046685A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor

Definitions

  • the present invention relates to an encoding technique for an acoustic signal and a decoding technique for a code string obtained by the encoding technique. More specifically, the present invention relates to encoding and decoding of a frequency domain sample sequence obtained by converting an acoustic signal into the frequency domain.
  • Adaptive coding for orthogonal transform coefficients such as DFT (Discrete Fourier Transform) and MDCT (Modified Discrete Cosine Transform) is known as a coding method for low-bit (for example, about 10 kbit / s to 20 kbit / s) speech and acoustic signals. It has been.
  • AMR-WB + Extended-Adaptive-Multi-Rate-Wideband
  • TCX transform-coded-excitation
  • TwinVQ TransformTransdomain Weighted Interleave Vector Quantization
  • a collection of samples after the entire MDCT coefficient is rearranged according to a fixed rule is encoded as a vector.
  • a large component for each pitch period is extracted from the MDCT coefficient, information corresponding to the pitch period is encoded, and the remaining MDCT coefficient sequence from which the large component for each pitch period is further removed is rearranged.
  • a method of encoding the subsequent MDCT coefficient sequence by vector quantization for each predetermined number of samples may be employed.
  • Non-patent documents 1 and 2 can be exemplified as documents related to TwinVQ.
  • Patent Document 1 can be exemplified as a technique for extracting and encoding samples at regular intervals.
  • coding based on TCX such as AMR-WB +
  • AMR-WB + does not take into account variations in the frequency domain coefficient based on periodicity
  • coding with a large amount of variation reduces the coding efficiency.
  • quantization and coding in TCX For example, a case where a sequence in which MDCT coefficients that have become discrete values by quantization are arranged from the lowest frequency is compressed by adaptive arithmetic coding. Think. In this case, a plurality of samples are set as one symbol (coding unit), and the assigned code is adaptively controlled depending on the symbol immediately before the symbol. In general, a short code is assigned if the amplitude is small, and a long code is assigned if the amplitude is large.
  • the assigned code is adaptively controlled depending on the symbol immediately before the symbol, if a small amplitude value continues, an increasingly shorter code is assigned, while a large amplitude suddenly appears after a sample with a small amplitude.
  • a very long code is assigned. That is, if the fluctuation of the absolute value of the amplitude between adjacent samples in the sequence is large, the total code amount of codes obtained by adaptive arithmetic coding for the sequence becomes large.
  • the conventional TwinVQ is designed on the assumption that vector quantization of fixed-length code that assigns the same codebook code to all the vectors composed of predetermined samples, and MDCT using variable-length coding No coding of the coefficients was envisaged.
  • an object of the present invention is to provide an encoding / decoding technique for improving the quality of a discrete signal, in particular, an audio-acoustic digital signal, by encoding with a low bit with a low calculation amount. To do.
  • the encoding technique of the present invention (1) all samples in the sample sequence are included in the frequency domain sample sequence derived from the acoustic signal in a predetermined time interval, and (2) the acoustic in the sample sequence One or a plurality of consecutive samples including samples corresponding to the periodicity or fundamental frequency of the signal and one or consecutive including samples corresponding to an integer multiple of the periodicity or fundamental frequency of the acoustic signal in the sample sequence
  • a rearranged sample string is output by rearranging at least some of the samples included in the sample string so that all or some of the samples are collected [sorting process]. Then, the sample sequence obtained by the rearrangement is encoded [encoding procedure].
  • information representing the periodicity of the acoustic signal In consideration of decoding, information representing the periodicity of the acoustic signal, information representing the fundamental frequency of the acoustic signal, periodicity of the acoustic signal in the rearrangement process or the periodicity or fundamental of the acoustic signal and the sample corresponding to the fundamental frequency
  • information representing the periodicity of the acoustic signal In consideration of decoding, information representing the periodicity of the acoustic signal, information representing the fundamental frequency of the acoustic signal, periodicity of the acoustic signal in the rearrangement process or the periodicity or fundamental of the acoustic signal and the sample corresponding to the fundamental frequency.
  • the samples corresponding to the respective frequencies from the lowest frequency to the first predetermined frequency may be rearranged. In this case, the first frequency smaller than the first predetermined frequency is counted from the lowest frequency.
  • the rearrangement of the samples corresponding to the frequencies up to 2 predetermined frequencies may not be performed.
  • rearrangement of samples corresponding to each frequency from the lowest frequency to a predetermined frequency may not be performed.
  • the sample string when the prediction gain corresponding to the acoustic signal in the predetermined time interval or the estimated value thereof is equal to or less than a predetermined threshold value, the sample string may be output as the rearranged sample string.
  • the encoding technique of the present invention (1) all samples of the sample sequence are included in the frequency domain sample sequence derived from the acoustic signal in a predetermined time interval, and (2) the size of the sample A sample column is output as a sample column after rearrangement, in which at least a part of the samples included in the sample column is rearranged so that samples that have the same or similar index reflecting the same are collected [sorting process]. Then, the sample sequence obtained by the rearrangement is encoded [encoding procedure].
  • the index is, for example, the absolute value or power of the amplitude of the sample.
  • the envelope of the index of the sample sequence after the rearrangement shows an increasing tendency or a decreasing tendency as the frequency increases.
  • at least some of the samples included in the sample row may be rearranged.
  • the encoding procedure of the encoding technique of the present invention for example, in the sample sequence obtained by the rearrangement process, (1) within a range satisfying a predetermined condition regarding an index reflecting the sample size.
  • the first variable length encoding is performed for each sample of the included sample group, and (2) the second variable length encoding is performed for each of a plurality of samples for at least part of the other sample group.
  • the encoding process for example, among the sample sequence obtained by the rearrangement process, (1) one set of samples included in a range satisfying a predetermined condition regarding an index reflecting the sample size Perform first variable length coding for each sample, (2) perform coding to output a code representing the number of consecutive samples having an index corresponding to zero, and (3) collect other samples
  • the second variable length coding is performed for each of a plurality of samples for at least a part of.
  • the input code string is decoded every predetermined time interval to obtain a frequency domain sample string [decoding procedure], and at least some samples included in the sample string are obtained. Then, rearrangement is performed based on information (auxiliary information) specifying rearrangement to the sample sequence to obtain a sample sequence derived from the acoustic signal [recovery processing].
  • the sample sequence obtained by the decoding procedure includes (1) all samples constituting the sample sequence derived from the acoustic signal, and (2) one including samples corresponding to the periodicity or fundamental frequency of the acoustic signal. Or a sample in the frequency domain such that all or some of the samples are collected together, including one or more consecutive samples and samples that correspond to the periodicity of the acoustic signal or an integer multiple of the fundamental frequency. Are arranged.
  • the auxiliary information used in the recovery process includes, for example, information indicating the periodicity of the acoustic signal, information indicating the fundamental frequency of the acoustic signal, periodicity of the acoustic signal or the periodicity or fundamental frequency of the acoustic signal and the sample corresponding to the periodicity or fundamental frequency of the acoustic signal. Any one of the pieces of information indicating the interval with the sample corresponding to an integer multiple of.
  • the sample sequence obtained by the decoding procedure is, for example, a sample sequence in which samples corresponding to each frequency from the lowest frequency to the first predetermined frequency are rearranged. There may be a sample sequence in which the samples corresponding to each frequency up to a second predetermined frequency smaller than one predetermined frequency are not rearranged. Alternatively, the sample sequence obtained by the decoding procedure is, for example, a sample sequence in which samples corresponding to each frequency from the lowest frequency to a predetermined frequency are not rearranged.
  • the sample sequence obtained in the decoding procedure is directly used as the sample sequence derived from the acoustic signal. Also good.
  • the input code string is decoded every predetermined time interval to obtain a frequency domain sample string [decoding procedure], and at least a part of the sample string included in the sample string is obtained.
  • the samples are rearranged based on information (auxiliary information) specifying rearrangement to the sample sequence and returned to the sample sequence derived from the acoustic signal [recovery processing].
  • the sample sequence obtained by the decoding procedure includes (1) all samples constituting the sample sequence derived from the acoustic signal, and (2) samples having the same or similar index reflecting the sample size.
  • the frequency domain samples are arranged so as to gather.
  • the index is, for example, the absolute value or power of the amplitude of the sample
  • the sample string obtained by the decoding procedure has a tendency that the envelope of the index of the sample string after rearrangement increases as the frequency increases.
  • frequency domain samples are arranged so as to show a downward trend.
  • the decoding procedure of the decoding technique of the present invention for example, (1) a set of samples included in a range satisfying a predetermined condition related to an index reflecting the size of the sample in the input code string.
  • the code obtained by the first variable length coding is decoded for each sample, and (2) at least a part of the collection of other samples is obtained by the second variable length coding for each of a plurality of samples.
  • Decode the received code for example, in the input code string, (1) a first sample for each sample of a set of samples included in a range that satisfies a predetermined condition regarding an index reflecting the sample size.
  • the code obtained by the second variable length coding is decoded for each of a plurality of samples.
  • At least some of the samples included in the frequency-domain sample sequence derived from the acoustic signal may be one or a plurality of consecutive samples including samples corresponding to the periodicity or fundamental frequency of the acoustic signal, and the acoustic signal. Rearrangement is performed such that one or a plurality of consecutive samples including samples corresponding to the periodicity of the signal or an integer multiple of the fundamental frequency are collected. In this way, because the samples that reflect the sample size (for example, the absolute value of the amplitude) are gathered at the same or similar level, the sample size between the adjacent samples in the sample row is reflected.
  • the sample size for example, the absolute value of the amplitude
  • the variation of the index to be reduced is reduced, and the total code amount of the code obtained by adaptive arithmetic coding for the sample sequence can be suppressed.
  • processing that can be executed with a small amount of calculation such as rearrangement is performed, improvement in coding efficiency, reduction in quantization distortion, and the like are realized.
  • the present invention within the framework of quantizing the frequency domain sample sequence derived from the acoustic signal of a predetermined time interval, while reducing the quantization distortion by rearranging the samples based on the frequency domain sample features,
  • One of the features is an improvement in encoding that reduces the amount of code by using variable length encoding.
  • the predetermined time interval is referred to as a frame.
  • an improvement in coding is realized by concentrating samples having a large amplitude by rearranging samples according to periodicity.
  • a sample sequence in the frequency domain derived from the acoustic signal for example, a DFT coefficient sequence or an MDCT coefficient sequence obtained by converting the audio acoustic digital signal in frame units from the time domain to the frequency domain
  • a coefficient sequence to which processing such as normalization, weighting, and quantization is applied can be exemplified.
  • an embodiment of the present invention will be described using an MDCT coefficient sequence as an example.
  • the frequency domain conversion unit 1 converts the audio-acoustic digital signal into N-point MDCT coefficient sequences in the frequency domain in units of frames (step S1).
  • the encoding side quantizes the MDCT coefficient sequence, encodes the quantized MDCT coefficient sequence, transmits the obtained code sequence to the decoding side, and the decoding side quantizes the code sequence.
  • the MDCT coefficient sequence can be reconstructed, and the time-domain audio-acoustic digital signal can be reconstructed by inverse MDCT transformation.
  • the amplitude of the MDCT coefficient has approximately the same amplitude envelope (power spectrum envelope) as the power spectrum of a normal DFT. For this reason, by assigning information proportional to the logarithmic value of the amplitude envelope, the quantization distortion (quantization error) of the MDCT coefficients in all bands can be uniformly distributed, and the overall quantization distortion can be reduced.
  • the power spectrum envelope can be efficiently estimated using a linear prediction coefficient obtained by linear prediction analysis.
  • a method for controlling such quantization error a method of adaptively assigning quantization bits of each MDCT coefficient (adjusting the quantization step width after flattening the amplitude), or weighted vector quantization is used.
  • an example of the quantization method performed in the embodiment of the present invention will be described, it should be noted that the present invention is not limited to the quantization method described.
  • Weighting envelope normalization unit 2 uses the power spectrum envelope coefficient sequence of the speech acoustic digital signal estimated using the linear prediction coefficient obtained by the linear prediction analysis for the speech acoustic digital signal in units of frames to input the MDCT coefficient sequence Are normalized, and a weighted normalized MDCT coefficient sequence is output (step S2).
  • the weighted envelope normalization unit 2 uses the weighted power spectrum envelope coefficient sequence in which the power spectrum envelope is blunted to generate an MDCT coefficient sequence in units of frames. Normalize each coefficient of.
  • the weighted normalized MDCT coefficient sequence does not have the amplitude gradient and the amplitude irregularity as large as the input MDCT coefficient sequence, but has a similar magnitude relationship to the power spectrum envelope coefficient sequence of the audio-acoustic digital signal. That is, the coefficient side region corresponding to the low frequency has a slightly large amplitude and has a fine structure resulting from the pitch period.
  • Each coefficient W (1),..., W (N) of the power spectrum envelope coefficient sequence corresponding to each coefficient X (1),..., X (N) of the N-point MDCT coefficient sequence is linearly predicted. It can be obtained by converting the coefficients into the frequency domain. For example, the time signal x (t) at the time t becomes a past value x (t ⁇ 1),..., X ( tp) and the prediction residuals e (t) and the linear prediction coefficients alpha 1, ⁇ ⁇ ⁇ , represented by the formula (1) by alpha p.
  • each coefficient W (n) [1 ⁇ n ⁇ N] of the power spectrum envelope coefficient sequence is expressed by Expression (2). exp ( ⁇ ) is an exponential function with the Napier number as the base, j is an imaginary unit, and ⁇ 2 is the predicted residual energy.
  • the linear prediction coefficient may be obtained by performing linear prediction analysis on the audio-acoustic digital signal input to the frequency domain transform unit 1 by the weighted envelope normalization unit 2, or may not be shown in the encoding device 100. It may be obtained by linear predictive analysis of a speech sound digital signal by the means described above. In such a case, the weighted envelope normalization unit 2 obtains each coefficient W (1),..., W (N) of the power spectrum envelope coefficient sequence using the linear prediction coefficient. Further, the coefficients W (1),..., W (N) of the power spectrum envelope coefficient sequence are already obtained by other means (power spectrum envelope coefficient sequence calculation unit 7) in the encoding apparatus 100.
  • the weighted envelope normalization unit 2 can use each coefficient W (1),..., W (N) of this power spectrum envelope coefficient sequence. Note that since the decoding device 200 described later needs to obtain the same value as the value obtained by the coding device 100, a quantized linear prediction coefficient and / or power spectrum envelope coefficient sequence is used.
  • linear prediction coefficient or “power spectrum envelope coefficient sequence” means a quantized linear prediction coefficient or power spectrum envelope coefficient sequence.
  • the linear prediction coefficient is encoded by, for example, a conventional encoding technique, and the prediction coefficient code is transmitted to the decoding side.
  • the conventional encoding technique is, for example, an encoding technique in which a code corresponding to the linear prediction coefficient itself is a prediction coefficient code, a code corresponding to the LSP parameter by converting the linear prediction coefficient into an LSP parameter, and a prediction coefficient code.
  • An encoding technique for converting a linear prediction coefficient into a PARCOR coefficient and using a code corresponding to the PARCOR coefficient as a prediction coefficient code is obtained by other means existing in the encoding apparatus 100, the linear prediction coefficient is encoded by a conventional encoding technique in the other means existing in the encoding apparatus 100. And the prediction coefficient code is transmitted to the decoding side.
  • the weighted envelope normalization unit 2 converts each coefficient X (1),..., X (N) of the MDCT coefficient sequence to a correction value W ⁇ (1) of each coefficient of the power spectrum envelope coefficient sequence corresponding to each coefficient. , ..., W ⁇ (N), by dividing each coefficient X (1) / W ⁇ (1), ..., X (N) / W ⁇ (N) of the weighted normalized MDCT coefficient sequence Process to get.
  • the correction value W ⁇ (n) [1 ⁇ n ⁇ N] is given by Equation (3).
  • is a positive constant of 1 or less, and is a constant that dulls the power spectrum coefficient.
  • the weighted envelope normalization unit 2 converts each coefficient X (1),..., X (N) of the MDCT coefficient sequence to the ⁇ power of each coefficient of the power spectrum envelope coefficient sequence corresponding to each coefficient (0 ⁇ ⁇ 1) values W (1) ⁇ ,..., W (N) ⁇ by dividing each coefficient X (1) / W (1) ⁇ ,. (N) / W (N) ⁇ is obtained.
  • a frame-by-frame weighted normalized MDCT coefficient sequence is obtained, but the weighted normalized MDCT coefficient sequence does not have as large an amplitude gradient or amplitude unevenness as the input MDCT coefficient sequence, but the input MDCT coefficient It has a magnitude relationship similar to the power spectrum envelope of the column, that is, one having a slightly large amplitude in the coefficient side region corresponding to a low frequency and a fine structure resulting from the pitch period.
  • the inverse processing corresponding to the weighted envelope normalization process that is, the process of restoring the MDCT coefficient sequence from the weighted normalized MDCT coefficient sequence is performed on the decoding side, so the weighted power spectrum envelope coefficient sequence from the power spectrum envelope coefficient sequence It is necessary to set a common setting for the encoding side and the decoding side.
  • “Normalized gain calculator 3” Next, the sum or energy value of the amplitude values over all frequencies is calculated so that the normalization gain calculation unit 3 can quantize each coefficient of the weighted normalization MDCT coefficient sequence with the given total number of bits for each frame. Then, the quantization step width is determined, and a coefficient (hereinafter referred to as gain) for dividing each coefficient of the weighted normalized MDCT coefficient sequence so as to be the quantization step width is obtained (step S3). Information representing this gain is transmitted to the decoding side as gain information. The normalization gain calculation unit 3 normalizes (divides) each coefficient of the weighted normalization MDCT coefficient sequence by this gain for each frame.
  • the quantization unit 4 quantizes each coefficient of the weighted normalized MDCT coefficient sequence normalized by the gain for each frame with the quantization step width determined in the process of step S3 (step S4).
  • the frame-by-frame quantized MDCT coefficient sequence obtained in the process of step S4 is input to the rearrangement unit 5 which is a main part of the present embodiment.
  • the input of the rearrangement unit 5 is performed in steps S1 to S4.
  • the coefficient sequence obtained in each process is not limited.
  • the input of the rearrangement unit 5 will be referred to as a “frequency domain sample string” or simply a “sample string” derived from an acoustic signal.
  • the quantized MDCT coefficient sequence obtained in step S4 corresponds to a “frequency domain sample sequence”.
  • the samples constituting the frequency domain sample sequence are included in the quantized MDCT coefficient sequence. It corresponds to the coefficient.
  • the reordering unit 5 includes, for each frame, (1) all samples of the frequency domain sample sequence, and (2) frequency so that samples having the same or similar index that reflects the sample size are collected.
  • a rearranged sample string obtained by rearranging at least a part of samples included in the region sample string is output (step S5).
  • the “index reflecting the sample size” is, for example, the absolute value or power (square value) of the amplitude of the sample, but is not limited thereto.
  • the rearrangement unit 5 includes (1) all samples in the sample sequence, and (2) one or a plurality of consecutive samples including samples corresponding to the periodicity or fundamental frequency of the acoustic signal in the sample sequence. Included in the sample sequence such that all or some of the samples and one or more consecutive samples including samples corresponding to the periodicity of the acoustic signal in the sample sequence or an integer multiple of the fundamental frequency are collected A rearranged sample sequence is output as a rearranged sample sequence.
  • the absolute value and power of the amplitude corresponding to the fundamental frequency and harmonics (integer multiples of the fundamental frequency) and samples in the vicinity of them are the same as those of the samples corresponding to the frequency region excluding the fundamental frequency and harmonics.
  • This is based on a remarkable feature in an acoustic signal that is larger than the absolute value or power of the amplitude, particularly voice or musical sound.
  • the periodic feature amount (for example, pitch period) of the acoustic signal extracted from the acoustic signal such as voice or musical sound is equivalent to the fundamental frequency
  • the periodic feature amount (for example, pitch) of the acoustic signal is equivalent to the fundamental frequency.
  • the absolute value and power of the amplitude of the sample corresponding to the periodicity) and its integer multiples and the samples in the vicinity of them are larger than the absolute value and power of the amplitude of the sample corresponding to the frequency domain excluding the periodic feature and their integral multiples.
  • the feature of being large is also recognized.
  • T represents a symbol representing an interval (hereinafter simply referred to as an interval) between a sample corresponding to the periodicity or fundamental frequency of the acoustic signal and a sample corresponding to an integer multiple of the periodicity or fundamental frequency of the acoustic signal.
  • the rearrangement unit 5 includes samples F (nT ⁇ 1) and F (nT + 1) before and after the sample F (nT) corresponding to an integer multiple of the interval T from the input sample sequence. Three samples F (nT-1), F (nT), and F (nT + 1) are selected.
  • F (j) is a sample corresponding to the number j representing the sample index corresponding to the frequency.
  • n is an integer in a range where 1 to nT + 1 do not exceed the preset upper limit N of the target sample.
  • Let jmax be the maximum value of the number j representing the sample index corresponding to the frequency.
  • N A collection of samples selected according to n is called a sample group.
  • the upper limit N may be equal to jmax.
  • the high-frequency sample index is generally small enough, so that it is large for improving the encoding efficiency described later.
  • N may be a value smaller than jmax.
  • N may be a value about half of jmax. If the maximum value of n determined based on the upper limit N is nmax, samples corresponding to each frequency from the lowest frequency to the first predetermined frequency nmax * T + 1 among the samples included in the input sample sequence Are subject to sorting.
  • the symbol * represents multiplication.
  • the rearrangement unit 5 generates the sample sequence A by arranging the selected samples F (j) in order from the beginning of the sample sequence while maintaining the magnitude relationship of the original number j. For example, when n represents each integer from 1 to 5, the rearrangement unit 5 uses the first sample group F (T-1), F (T), F (T + 1), and the second sample group. F (2T-1), F (2T), F (2T + 1), third sample group F (3T-1), F (3T), F (3T), F (3T + 1), fourth sample group F ( 4T-1), F (4T), F (4T + 1), and fifth sample group F (5T-1), F (5T), F (5T), F (5T + 1) are arranged from the head of the sample sequence.
  • the rearrangement unit 5 arranges the unselected sample F (j) in order from the end of the sample row A while maintaining the magnitude relationship of the original numbers.
  • the unselected sample F (j) is a sample located between the sample groups constituting the sample row A, and such a continuous set of samples is referred to as a sample set. That is, in the above example, the first sample set F (1),..., F (T-2), the second sample set F (T + 2),. , F (3T-2), fourth sample set F (3T + 2), ..., F (4T-2), fifth sample set F (4T + 2),..., F (5T-2), the sixth sample set F (5T + 2),... F (jmax) are arranged in order from the end of the sample sequence A, and these samples constitute the sample sequence B .
  • the input sample sequence F (j) (1 ⁇ j ⁇ jmax) is F (T ⁇ 1), F (T), F (T + 1), F (2T ⁇ 1). ), F (2T), F (2T + 1), F (3T-1), F (3T), F (3T + 1), F (4T-1), F (4T), F (4T + 1 ), F (5T-1), F (5T), F (5T), F (5T + 1), F (1), ..., F (T-2), F (T + 2), ..., F (2T-2) , F (2T + 2), ..., F (3T-2), F (3T + 2), ..., F (4T-2), F (4T + 2), ..., F (5T-2), F (5T + 2),... F (jmax) are rearranged (see FIG. 3).
  • each sample In the low frequency band, each sample often has a large value in amplitude and power, even if it is a sample other than a sample corresponding to the periodicity and fundamental frequency of an acoustic signal or a sample that is an integer multiple of the sample. Therefore, the rearrangement of samples corresponding to each frequency from the lowest frequency to the predetermined frequency f may not be performed. For example, if the predetermined frequency f is nT + ⁇ , the samples F (1),..., F (nT + ⁇ ) before rearrangement are not rearranged, and after F (nT + ⁇ + 1) before rearrangement. This sample is subject to sorting.
  • is set in advance to an integer greater than or equal to 0 and somewhat smaller than T (for example, an integer not exceeding T / 2).
  • n may be an integer of 2 or more.
  • P samples F (1),..., F (P) from the sample corresponding to the lowest frequency before rearrangement are not rearranged, and after F (P + 1) before rearrangement Samples may be sorted.
  • the predetermined frequency f is P.
  • the criteria for the rearrangement for the collection of samples to be rearranged are as described above. Note that when the first predetermined frequency is set, the predetermined frequency f (second predetermined frequency) is smaller than the first predetermined frequency.
  • the input sample sequence F (j) (1 ⁇ j ⁇ jmax) is F (1),..., F (T + 1), F (2T-1), F (2T), F (2T + 1), F (3T-1), F (3T), F (3T + 1), F (4T-1), F (4T), F (4T + 1), F (5T-1 ), F (5T), F (5T + 1), F (T + 2), ..., F (2T-2), F (2T + 2), ..., F (3T-2), F (3T + 2), ..., F (4T-2), F (4T + 2), ..., F (5T-2), F (5T + 2), ... F (jmax) (see Fig. 4). reference).
  • the upper limit N or first predetermined frequency for determining the maximum value of the number j to be rearranged is not set to a value common to all frames, and a different upper limit N or first predetermined frequency is set for each frame. May be.
  • information specifying the upper limit N or the first predetermined frequency for each frame may be sent to the decoding side.
  • the number of sample groups to be rearranged may be specified. In this case, the number of sample groups is set for each frame, and the sample group is set. May be sent to the decoding side. Of course, the number of sample groups to be rearranged may be common to all frames.
  • the second predetermined frequency f may be set to a different second predetermined frequency f for each frame without being a value common to all frames. In this case, information specifying the second predetermined frequency for each frame may be sent to the decoding side.
  • the reordering unit 5 may reorder at least some of the samples included in the input sample sequence so that the envelope of the sample index shows a downward trend as the frequency increases.
  • all the samples included in the frequency domain sample string are positive values so that it can be easily understood that the samples having a larger amplitude are biased to the low frequency side by rearranging the samples.
  • An example of the case is shown. Actually, each sample included in the frequency domain sample string is often a positive, negative, or zero value. Even in such a case, the above-described rearrangement process or the rearrangement process described later is performed. Just do it.
  • one or a plurality of consecutive samples including samples corresponding to periodicity or fundamental frequency and one or a plurality including samples corresponding to integer multiples of periodicity or fundamental frequency on the low frequency side.
  • one or more consecutive samples including samples corresponding to periodicity or fundamental frequency, and integer multiples of periodicity or fundamental frequency may be performed to collect one or a plurality of consecutive samples including the corresponding sample.
  • the sample group is arranged in the reverse order in the sample row A
  • the sample set is arranged in the reverse order in the sample row B
  • the sample row B is arranged on the low frequency side
  • the sample row A is arranged behind the sample B. That is, in the above example, the sixth sample set F (5T + 2),...
  • the reordering unit 5 may reorder at least some of the samples included in the input sample sequence so that the envelope of the sample index shows a tendency to increase as the frequency increases. .
  • Interval T may be a decimal number (for example, 5.0, 5.25, 5.5, 5.75) instead of an integer.
  • F (R (nT-1)), F (R (nT)), and F (R (nT + 1)) are selected with RT (nT) rounded off to nT.
  • a value for the interval T it is preferable to set a value for the interval T according to the input sample sequence, that is, for each frame.
  • a method of determining the interval T for each frame for example, a method of searching for periodicity of sample indices (absolute value or square value) and setting the interval T so that the bias of the average absolute value or the mean square value becomes large. May be adopted.
  • E (T) is obtained by adding indexes of all samples included in the sample group selected corresponding to T.
  • the index of the sample is represented as
  • F (j) a set of numbers j of all samples included in the sample group selected corresponding to T.
  • E (T) ⁇ j ⁇ M
  • F (T-1) + F (T) + F (T + 1) + F (2T-1) + F (2T) + F (2T + 1) + F (3T-1) + F (3T) + F (3T + 1) + F (4T-1) + F (4T) + F (4T + 1) + F (5T-1) + F (5T) + F (5T + 1).
  • card (M) represents the number of elements (concentration) of the set M.
  • the frequency domain period (interval) T may be obtained by converting the fundamental frequency obtained by another means (not shown) in the encoding apparatus 100 or the time domain pitch period. Good. Further, not only the determination of the interval T using the periodicity as described above, but when the sample group is collected on the low frequency side, in the latter half of the sample sequence B, and when the sample group is collected on the high frequency side, the sample sequence In the first half of B, a method of determining the interval T so that a sample having an amplitude of 0 continues for a long time may be adopted.
  • the rearrangement unit 5 rearranges the sample strings based on each of a plurality of preset T values, and the encoding unit 6 described later calculates the code amount of the code string corresponding to each T value.
  • a method of selecting the interval T with the smallest code amount may be adopted.
  • auxiliary information for specifying rearrangement of the sample sequence to be described later is output from the encoding unit 6 instead of the rearrangement unit 5.
  • the interval T can be set to a predetermined value for all frames.
  • the rearrangement unit 5 or the encoding unit 6 includes auxiliary information (first auxiliary information) for specifying the rearrangement of the sample sequence, that is, information indicating the periodicity of the acoustic signal, information indicating the fundamental frequency, or the acoustic signal.
  • Information indicating the interval T between the sample corresponding to the periodicity or the fundamental frequency and the sample corresponding to the periodicity of the acoustic signal or an integer multiple of the fundamental frequency is output. For example, when the interval T is determined for each frame, auxiliary information for specifying the rearrangement of the sample sequence is also output for each frame.
  • the auxiliary information for specifying the rearrangement of the sample sequence is obtained by encoding the periodicity, the fundamental frequency, or the interval T for each frame.
  • This encoding may be fixed length encoding or variable length encoding to reduce the average code amount.
  • information obtained by variable length coding the difference between the interval T between the previous frame and the current frame may be used as information representing the interval T.
  • information obtained by variable-length coding the difference between the fundamental frequency of the previous frame and the fundamental frequency of the current frame may be used as information representing the fundamental frequency. If information representing the fundamental frequency is obtained by another means (not shown) in the encoding apparatus 100, the information representing the fundamental frequency obtained by the other means, not the rearrangement unit 5, is sampled.
  • n can be selected from a plurality of options, the upper limit value of n or the upper limit N described above may be included in the auxiliary information for specifying the rearrangement of the sample sequence.
  • the number of samples included in each sample group is a total of 3 samples including a sample corresponding to periodicity, a fundamental frequency or an integral multiple thereof (hereinafter referred to as a central sample) and one sample before and after the sample.
  • a central sample a sample corresponding to periodicity, a fundamental frequency or an integral multiple thereof
  • An example of a fixed number is shown.
  • the number of samples included in the sample group and the sample index are variable, the number of samples included in the sample group and the combination of sample indexes are different from the other options.
  • Information representing one selected from the above is also included in the auxiliary information for specifying the rearrangement of the sample sequence.
  • the rearrangement unit 5 performs rearrangement corresponding to each option, and the encoding unit 6 described later encodes a code string corresponding to each option.
  • a method may be adopted in which the code amount is obtained and the option with the smallest code amount is selected.
  • the auxiliary information specifying the rearrangement of the sample sequence is output from the encoding unit 6 instead of the rearrangement unit 5. This method is also valid when n can be selected.
  • the options include, for example, options related to the interval T, options related to the combination of the number of samples included in the sample group and the sample index, and options related to n, and all combinations of these options may be a considerable number. is expected.
  • Calculation of the final code amount for all combinations of these options requires a processing amount, which may be a problem from the viewpoint of efficiency.
  • the candidates for the interval T are narrowed down to a small number, and for each candidate, the number of samples included in the sample group is combined, The most preferable option may be selected.
  • measure the sum of the sample indices approximately, and select the choice based on the concentration of the sample indices in the low frequency range or the number of consecutive samples with zero amplitude from the highest frequency to the low frequency range on the frequency axis. You may decide. Specifically, the sum of the absolute values of the amplitudes of the sample sequences after the rearrangement is obtained for a region that is 1/4 from the low frequency side of the entire sample sequence, and if the sum is larger than a predetermined threshold value, It is assumed that this is a preferred permutation. Also, according to the method of selecting the option with the longest number of consecutive samples with zero amplitude from the highest frequency of the sample sequence after rearrangement toward the low frequency side, samples with large indexes are concentrated in the low frequency range. It is assumed that this is also a preferable rearrangement.
  • the processing amount is small, but the rearrangement of the sample sequence that minimizes the final code amount may not be selected. For this reason, it is only necessary to select a plurality of candidates by the approximation process as described above, and finally calculate the code amount accurately for only a small number of candidates and select the most preferable one (the code amount is small).
  • the encoding unit 6 encodes the sample sequence output from the rearrangement unit 5 and outputs the obtained code sequence (step S6). For example, the encoding unit 6 performs encoding by switching the variable-length encoding method according to the amplitude deviation of the samples included in the sample sequence output by the rearrangement unit 5. That is, since the rearrangement unit 5 collects samples having large amplitudes on the low frequency side (or high frequency side) in the frame, the encoding unit 6 performs variable length encoding by a method suitable for the bias. .
  • the average code is obtained by performing the rice coding with a different rice parameter for each region. The amount can be reduced.
  • samples having a large amplitude are collected on the low frequency side (side closer to the head of the frame) in the frame will be described as an example.
  • the encoding unit 6 applies Rice encoding (also referred to as Golomb-Rice encoding) for each sample in a region where samples having large amplitudes are gathered. In a region other than this region, the encoding unit 6 applies entropy encoding (Huffman encoding, arithmetic encoding, etc.) suitable for encoding a set of samples obtained by collecting a plurality of samples.
  • the application region of rice encoding and the rice parameter may be fixed, or one of a plurality of options having different combinations of the application region of rice encoding and the rice parameter can be selected. It may be a configuration.
  • a variable length code (binary value surrounded by the symbol "") as shown below can be used as selection information for rice encoding, and the encoding unit 6 also outputs selection information.
  • Rice coding is applied to the area 1/16 from the beginning with the Rice parameter set to 2.
  • the code amount of the code string corresponding to each rice encoding obtained by the encoding process is compared, and the option with the smallest code amount is selected.
  • a method of selecting may be adopted.
  • the average code amount can be reduced by, for example, run-length encoding the number of consecutive samples having an amplitude of 0.
  • the encoding unit 6 applies (1) Rice encoding for each sample in a region where samples having a large amplitude are gathered, and (2) (a) 0 in regions other than this region. In a region where samples having amplitude are continuous, encoding is performed to output a code representing the number of consecutive samples having amplitude of 0. (b) In the remaining region, encoding is performed on a set of samples in which a plurality of samples are collected.
  • Entropy coding (Huffman coding, arithmetic coding, etc.) is also applied. Even in such a case, the selection of the rice encoding as described above may be performed. In such a case, information indicating to which region run-length encoding has been applied needs to be transmitted to the decoding side. For example, this information is included in the selection information. Further, when a plurality of encoding methods belonging to entropy encoding are prepared as options, information for specifying which encoding is selected needs to be transmitted to the decoding side. Information is included in the selection information.
  • the rearrangement unit 5 also outputs a sample string before rearrangement (a sample string that has not been rearranged), and the encoding unit 6 can change the sample string before rearrangement and the sample string after rearrangement.
  • the code amount of the code string obtained by performing long-length coding and variable-length coding of the sample string before rearrangement, and the code string obtained by switching the sample string after rearrangement by switching variable-length coding for each region When the code amount of the sample sequence before rearrangement is the minimum, the code sequence obtained by variable-length coding the sample sequence before rearrangement is output.
  • auxiliary information (second auxiliary information) indicating whether or not the sample sequence corresponding to the code sequence is a sample sequence in which the samples are rearranged is also output. It is sufficient to use 1 bit as the second auxiliary information.
  • the second auxiliary information specifies a sample sequence in which the sample sequence corresponding to the code sequence is not rearranged, the first auxiliary information may not be output.
  • the rearrangement of the sample sequence is applied only when the prediction gain or its estimated value is larger than a predetermined threshold value.
  • This utilizes the property of voice and musical tone that vocal cord vibration and instrument vibration are strong and the periodicity is often high when the prediction gain is large.
  • the prediction gain is the original sound energy divided by the prediction residual energy.
  • a quantized parameter can be used in common by an encoding device and a decoding device.
  • the encoding unit 6 uses the i-th quantized PARCOR coefficient k (i) obtained by another means (not shown) in the encoding apparatus 100 to (1-k (i) * k ( i)) is multiplied by each order, and an estimated value of the prediction gain expressed by the reciprocal number is calculated. If the calculated estimated value is larger than a predetermined threshold, the rearranged sample sequence is variable-length encoded. The obtained code string is output, and if not, a code string obtained by variable-length coding the sample string before rearrangement is output. In this case, it is not necessary to output the second auxiliary information indicating whether or not the sample sequence corresponding to the code sequence is the sample sequence that has been rearranged. That is, since there is a high possibility that the effect is small at the time of noisy speech or silence where prediction is not possible, it is less wasteful of the second auxiliary information and calculation if it is determined that the rearrangement is not performed.
  • the rearrangement unit 5 calculates the prediction gain or the estimated value of the prediction gain, and performs the rearrangement on the sample string when the prediction gain or the estimated value of the prediction gain is larger than a predetermined threshold value. Is output to the encoding unit 6, otherwise, the sample sequence itself input to the rearrangement unit 5 is output to the encoding unit 6 without being rearranged with respect to the sample sequence.
  • the sample sequence output from the rearrangement unit 5 may be variable length encoded.
  • the threshold value is set in advance as a common value on the encoding side and the decoding side.
  • a symbol sequence frequency table for arithmetic coding is selected from the immediately preceding symbol sequence.
  • Arithmetic coding that divides the closed interval half-line [0, 1] according to the appearance probability of the selected symbol sequence and assigns a code for the symbol sequence to a binary decimal value indicating a position in the segmented interval. Is done.
  • the sample sequence in the frequency domain after the rearrangement (quantized MDCT coefficient sequence in the above example) is sequentially divided into symbols from the low frequency, and a frequency table for arithmetic coding is generated.
  • the closed interval half-line [0, 1] is divided according to the appearance probability of the selected symbol sequence, and the symbol sequence is converted into a binary decimal value indicating the position in the divided interval. Assign a sign for.
  • the sample sequence has already been rearranged so that samples having the same or similar index (for example, the absolute value of the amplitude) reflecting the sample size are collected by the rearrangement process. The fluctuation of the index reflecting the sample size between adjacent samples is reduced, the accuracy of the symbol frequency table is increased, and the total code amount of codes obtained by arithmetic coding on the symbols can be suppressed.
  • the decoding apparatus 200 receives at least the gain information, the auxiliary information, the code string, and the prediction coefficient code. When selection information is output from the encoding apparatus 100, this selection information is also input to the decoding apparatus 200.
  • Linear prediction coefficient decoding unit 10 decodes the input prediction coefficient code by a conventional decoding technique for each frame, and calculates each coefficient W (1),..., W (N) of the power spectrum envelope coefficient sequence. Obtained (step S10).
  • the linear prediction coefficient decoding unit 10 also obtains a PARCOR coefficient corresponding to the linear prediction coefficient.
  • the conventional decoding technique is, for example, a technique for decoding a prediction coefficient code to obtain a linear prediction coefficient when the prediction coefficient code is a code corresponding to a linear prediction coefficient, and a prediction coefficient code is a code corresponding to an LSP parameter.
  • a technique for obtaining a LSP parameter by decoding a prediction coefficient code in a certain case a technique for obtaining a PARCOR coefficient by decoding a prediction coefficient code when the prediction coefficient code is a code corresponding to the PARCOR coefficient, and the like.
  • the linear prediction coefficient, LSP parameter, PARCOR coefficient, and power spectrum envelope coefficient sequence can be converted to each other, and if the conversion process is performed according to the input prediction coefficient code and the information necessary for the subsequent processing, Good is well known. From the above, what includes the decoding process of the prediction coefficient code and the conversion process performed as necessary is “decoding by a conventional decoding technique”.
  • Decoding unit 11 decodes the input code string for each frame and outputs a frequency domain sample string (step S11).
  • the decoding unit 11 performs a decoding process on the input code string using a decoding method according to the selection information.
  • a decoding method corresponding to the encoding method executed to obtain the code string is executed.
  • the details of the decoding process performed by the decoding unit 11 correspond to the details of the encoding process performed by the encoding unit 6 of the encoding device 100. Therefore, the description of the encoding process is incorporated herein and the decoding corresponding to the executed encoding is performed.
  • the decoding unit 11 Is a decoding process performed by the decoding unit 11, and this is a detailed description of the decoding process.
  • selection information When selection information is input, what encoding method is executed is specified by the selection information.
  • the selection information includes, for example, information for specifying an application region and a rice parameter for Rice coding, information indicating an application region for run-length encoding, and information for specifying the type of entropy encoding
  • the decoding method corresponding to these encoding methods is applied to the corresponding region of the input code string.
  • the decoding process corresponding to the Rice encoding Since the decoding process corresponding to the Rice encoding, the decoding process corresponding to the entropy encoding, and the decoding process corresponding to the run length encoding are all well known, the description thereof is omitted (for example, refer to the above-mentioned Reference 1).
  • the recovery unit 12 performs, for each frame, according to auxiliary information (first auxiliary information) that specifies rearrangement of the sample sequence included in the input auxiliary information.
  • An original sample sequence is obtained (step S12).
  • the “original sample arrangement” corresponds to a “frequency domain sample string” input to the rearrangement unit 5 of the encoding apparatus 100.
  • the recovery unit 12 can restore the sequence of the original samples to the frequency domain sample sequence output from the decoding unit 11 based on the first auxiliary information.
  • auxiliary information second auxiliary information
  • the recovery unit 12 uses the frequency domain sample sequence output by the decoding unit 11 as the original sample. In the case where the result is output and indicates that rearrangement is not performed, the sample sequence in the frequency domain output by the decoding unit 11 is output as it is.
  • the recovery unit 12 uses, for example, the i-th quantized PARCOR coefficient k (i) input from the linear prediction coefficient decoding unit 10 in the decoding device 200 to (1-k (i) * k (i)) is multiplied for each order, and an estimated value of the prediction gain expressed by the reciprocal is calculated. If the calculated estimated value is larger than a predetermined threshold, the frequency domain sample output by the decoding unit 11 is calculated. The sequence is output after the original samples are arranged, and if not, the frequency domain sample sequence output by the decoding unit 11 is output as it is.
  • the details of the recovery process performed by the recovery unit 12 correspond to the details of the rearrangement process performed by the rearrangement unit 5 of the encoding device 100. Therefore, the description of the rearrangement process is incorporated herein, and the reverse process of the rearrangement process ( It is specified that the reverse sorting) is the recovery process performed by the recovery unit 12, and this will be a detailed description of the recovery process.
  • the reverse process of the rearrangement process It is specified that the reverse sorting is the recovery process performed by the recovery unit 12, and this will be a detailed description of the recovery process.
  • the rearrangement unit 5 collects the sample group on the low frequency side and F (T-1), F (T), F (T + 1), F (2T-1), F (2T), F (2T +1), F (3T-1), F (3T), F (3T + 1), F (4T-1), F (4T), F (4T + 1), F (5T-1), F (5T), F (5T), F (5T), F (5T + 1), F (1), ..., F (T-2), F (T + 2), ..., F (2T-2), F (2T + 2), ..., F (3T-2), F (3T + 2), ..., F (4T-2), F (4T + 2), ..., F (5T-2), F (5T + 2), ..., F (5T + 2), ...
  • F (jmax) In the above-described example in which the recovery unit 12 outputs the frequency domain sample sequences F (T ⁇ 1), F (T), F (T + 1), and F (2T ⁇ 1), F (2T), F (2T + 1), F (3T-1), F (3T), F (3T + 1), F (4T-1), F (4T), F (4T + 1), F (5T-1), F (5T), F (5T), F (5T), F (5T + 1), F (1), ..., F (T-2), F (T + 2), ..., F (2T-2 ), F (2T + 2), ..., F (3T-2), F (3T + 2), ..., F (4T-2), F (4T + 2), ..., F (5T-2), F (5T + 2), ... F (jmax) is input.
  • the auxiliary information includes, for example, information on the interval T, information indicating that n is an integer of 1 to 5, and information specifying that the sample group includes 3 samples. ing. Therefore, based on this auxiliary information, the recovery unit 12 inputs the sample sequences F (T-1), F (T), F (T + 1), F (2T-1), F (2T), F (2T + 1), F (3T-1), F (3T), F (3T + 1), F (4T-1), F (4T), F (4T), F (4T + 1), F (5T-1 ), F (5T), F (5T), F (5T + 1), F (1), ..., F (T-2), F (T + 2), ..., F (2T-2), F (2T + 2) , ..., F (3T-2), F (3T + 2), ..., F (4T-2), F (4T + 2), ..., F (5T-2), F (5T + 2), ... F (jmax) can be returned to the original sample sequence F (j) (1 ⁇ j ⁇ jmax).
  • the inverse quantization unit 13 inversely quantizes the original sample sequence output by the recovery unit 12 for each frame (step S13). If described in correspondence with the above example, the “weighted normalized MDCT coefficient sequence normalized by gain” input to the quantization unit 4 of the encoding apparatus 100 is obtained by inverse quantization.
  • the gain multiplication unit 14 multiplies each coefficient of the “weighted normalized MDCT coefficient sequence normalized by gain” output from the inverse quantization unit 13 for each frame by the gain specified by the gain information.
  • a “normalized weighted normalized MDCT coefficient sequence” is obtained (step S14).
  • the weighted envelope inverse normalization unit 15 obtains each coefficient of the “normalized weighted normalization MDCT coefficient sequence” output from the gain multiplication unit 14 for each frame by the linear prediction coefficient decoding unit 10. By applying a correction coefficient obtained from the power spectrum envelope coefficient sequence, an “MDCT coefficient sequence” is obtained (step S15).
  • an “MDCT coefficient sequence” is obtained (step S15).
  • the weighted envelope denormalization unit 15 outputs “normalized weighted normalization MDCT output from the gain multiplication unit 14.
  • each coefficient in the “coefficient sequence” values W (1) ⁇ ,..., W (N) ⁇ of ⁇ coefficients (0 ⁇ ⁇ 1) of the coefficients of the power spectrum envelope coefficient sequence corresponding to the coefficients
  • each coefficient X (1),..., X (N) of the MDCT coefficient sequence is obtained.
  • time domain conversion unit 16 converts the “MDCT coefficient sequence” output from the weighted envelope inverse normalization unit 15 into the time domain for each frame to obtain a frame-based audio-acoustic digital signal (step S16).
  • high-efficiency coding can be performed (that is, the average code length) by coding a sample sequence rearranged according to the fundamental frequency. Can be reduced).
  • samples with the same or similar index are concentrated for each local region by rearranging the sample sequence, so that not only variable-length coding efficiency but also quantization distortion and code amount can be reduced. It has become.
  • the encoding device / decoding device may include an input unit to which a keyboard or the like can be connected, an output unit to which a liquid crystal display or the like can be connected, a CPU (Central Processing Unit) [cache memory, or the like. ] RAM (Random Access Memory) or ROM (Read Only Memory) and external storage device as a hard disk, and data exchange between these input unit, output unit, CPU, RAM, ROM, and external storage device It has a bus that can be connected. If necessary, the encoding / decoding device may be provided with a device (drive) that can read and write a storage medium such as a CD-ROM.
  • a device drive
  • the external storage device of the encoding device / decoding device stores a program for executing encoding / decoding and data necessary for processing of this program [not limited to the external storage device, for example, a program It may be stored in a ROM which is a read-only storage device. ]. Data obtained by the processing of these programs is appropriately stored in a RAM or an external storage device.
  • a storage device that stores data, addresses of storage areas, and the like is simply referred to as a “storage unit”.
  • the storage unit of the encoding device stores a program for rearranging the frequency domain sample sequences derived from the audio-acoustic signal, a program for encoding the sample sequences obtained by the rearrangement, and the like. .
  • the storage unit of the decoding device stores a program for decoding the input code sequence, a program for restoring the sample sequence obtained by decoding to a sample sequence before being rearranged by the encoding device, and the like. Has been.
  • each program stored in the storage unit and data necessary for the processing of each program are read into the RAM as necessary, and interpreted and executed by the CPU.
  • the encoding is realized by the CPU realizing a predetermined function (sorting unit, encoding unit).
  • each program stored in the storage unit and data necessary for processing each program are read into the RAM as necessary, and are interpreted and executed by the CPU.
  • the decoding is realized by the CPU realizing a predetermined function (decoding unit, recovery unit).
  • the present invention is not limited to the above-described embodiment, and can be appropriately changed without departing from the spirit of the present invention.
  • the processing described in the above embodiment may be executed not only in time series according to the order of description but also in parallel or individually as required by the processing capability of the apparatus that executes the processing. .
  • the process by the linear prediction coefficient decoding unit 10 and the process by the decoding unit 11 can be executed in parallel.
  • processing functions in the hardware entity (encoding device / decoding device) described in the above embodiment are realized by a computer, the processing contents of the functions that the hardware entity should have are described by a program. Then, by executing this program on a computer, the processing functions in the hardware entity are realized on the computer.
  • the program describing the processing contents can be recorded on a computer-readable recording medium.
  • the computer-readable recording medium may be any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory.
  • a magnetic recording device a hard disk device, a flexible disk, a magnetic tape or the like, and as an optical disk, a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), a CD-ROM (Compact Disc Read Only) Memory), CD-R (Recordable) / RW (ReWritable), etc.
  • magneto-optical recording media MO (Magneto-Optical disc), etc., semiconductor memory, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory), etc. Can be used.
  • this program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
  • a computer that executes such a program first stores a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device.
  • the computer reads the program stored in its own recording medium and executes the process according to the read program.
  • the computer may directly read the program from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer.
  • the processing according to the received program may be executed sequentially.
  • the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes a processing function only by an execution instruction and result acquisition. It is good.
  • the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).
  • the hardware entity is configured by executing a predetermined program on the computer.
  • a predetermined program on the computer.
  • at least a part of these processing contents may be realized in hardware.

Abstract

 音響信号の低ビットでの符号化による品質を低演算量で改善する技術を提供する。符号化処理にて、音響信号に由来する周波数領域のサンプル列に含まれるサンプルの並べ替えを行う。例えば、基本周波数に対応するサンプルを含む一つまたは連続する複数のサンプルおよび、基本周波数の整数倍に対応するサンプルを含む一つまたは連続する複数のサンプルが集まるように、サンプル列に含まれる少なくとも一部のサンプルを並べ替える。この並べ替えを特定する情報(補助情報)も出力する。そして、並べ替えで得られたサンプル列に対して符号化を行う。復号処理では、入力された符号列を復号して周波数領域のサンプル列を得て、さらに、この得られたサンプル列から補助情報に基づいて元のサンプル列を得る。

Description

符号化方法、復号方法、符号化装置、復号装置、プログラム、記録媒体
 本発明は、音響信号の符号化技術並びにこの符号化技術によって得られた符号列の復号技術に関する。より詳しくは、音響信号を周波数領域に変換して得られた周波数領域のサンプル列の符号化とその復号に関する。
 低ビット(例えば10kbit/s~20kbit/s程度)の音声信号や音響信号の符号化方法として、DFT(離散フーリエ変換)やMDCT(変形離散コサイン変換)などの直交変換係数に対する適応符号化が知られている。例えば標準規格技術であるAMR-WB+(Extended Adaptive Multi-Rate Wideband)は、TCX(transform coded excitation:変換符号化励振)符号化モードを持ち、この中ではDFT係数を8サンプルごとに正規化してベクトル量子化している。
 また、TwinVQ(Transform domain Weighted Interleave Vector Quantization)では、MDCT係数全体を固定の規則で並べ替えた後のサンプルの集まりがベクトルとして符号化される。この際、例えば、MDCT係数からピッチ周期ごとの大きな成分を抽出し、ピッチ周期に対応する情報を符号化し、さらにピッチ周期ごとの大きな成分を取り除いた残りのMDCT係数列を並べ替えて、並べ替え後のMDCT係数列を所定サンプル数ごとにベクトル量子化することにより符号化する方法などが採用される場合もある。TwinVQに関する文献として非特許文献1,2を例示できる。
 また、等間隔にサンプルを抽出して符号化する技術として例えば特許文献1を例示できる。
特開2009-156971号公報
T. Moriya, N. Iwakami, A. Jin, K. Ikeda, and S. Miki, "A Design of Transform Coder for Both Speech and Audio Signals at 1 bit/sample," Proc. ICASSP'97, pp. 1371-1374, 1997. J.Herre, E. Allamanche, K. Brandenburg, M. Dietz, B.Teichmann, B. Grill, A. Jin, T. Moriya, N. Iwakami, T. Norimatsu, M. Tsushima, T. Ishikawa, "The integrated Filterbank Based Scalable MPEG-4 Audio Coder," 105th Convention Audio Engineering Society, 4810, 1998.
 AMR-WB+をはじめ、TCXに基づく符号化では周期性に基づく周波数領域の係数の振幅のばらつきは考慮されていないため、ばらつきの大きい振幅をまとめて符号化すると符号化効率は低下してしまう。TCXでの量子化や符号化には各種変形例があるが、例えば、量子化により離散値となったMDCT係数を周波数の低いほうから並べた系列を適応型算術符号化によって圧縮を行う場合を考える。この場合、複数のサンプルを1シンボル(符号化単位)とし、そのシンボルの直前のシンボルに依存して割り当て符号を適応的に制御する。一般に、振幅が小さければ短い符号が割り当てられ、振幅が大きい場合には長い符号が割り当てられる。シンボルの直前のシンボルに依存して割り当て符号を適応的に制御するため、振幅の小さい値が連続すると、ますます短い符号が割り当てられる一方、小さい振幅のサンプルのあとに急に大きな振幅が出現すると非常に長い符号が割り当てられてしまう。つまり、系列内における隣接するサンプル間での振幅の絶対値の変動が大きいと、系列に対する適応型算術符号化によって得られる符号の総符号量が大きくなってしまう。
 また、従来のTwinVQは、所定サンプルにより構成されるベクトルの全てに同じ符号帳の符号を割り当てる固定長符号のベクトル量子化を用いることを前提として設計されており、可変長符号化を使ってMDCT係数を符号化することは一切想定されていなかった。
 本発明は、このような技術的背景に鑑みて、離散信号、特に音声音響ディジタル信号の低ビットでの符号化による品質を低演算量で改善する符号化・復号技術を提供することを目的とする。
 本発明の符号化技術によると、所定の時間区間の音響信号に由来する周波数領域のサンプル列について、(1)サンプル列の全てのサンプルが含まれ、かつ、(2)サンプル列のうちの音響信号の周期性または基本周波数に対応するサンプルを含む一つまたは連続する複数のサンプルおよび、サンプル列のうちの音響信号の周期性または基本周波数の整数倍に対応するサンプルを含む一つまたは連続する複数のサンプル、の全部または一部のサンプルが集まるようにサンプル列に含まれる少なくとも一部のサンプルを並べ替えたもの、を並べ替え後のサンプル列として出力する[並べ替え処理]。そして、並べ替えによって得られたサンプル列を符号化する[符号化手続]。
 なお、復号を考慮して、音響信号の周期性を表す情報、音響信号の基本周波数を表す情報、並べ替え処理における音響信号の周期性または基本周波数に対応するサンプルと音響信号の周期性または基本周波数の整数倍に対応するサンプルとの間隔を表す情報、のいずれかを補助情報として出力する。
 並べ替え処理では、最低の周波数から第1の所定の周波数までの各周波数に対応するサンプルの並べ替えを行うようにしてもよく、この場合、最低の周波数から第1の所定の周波数より小さい第2の所定の周波数までの各周波数に対応するサンプルの並べ替えを行わないようにしてもよい。あるいは、並べ替え処理では、最低の周波数から所定の周波数までの各周波数に対応するサンプルの並べ替えを行わないようにしてもよい。
 並べ替え処理では、所定の時間区間の音響信号に対応する予測利得またはその推定値が予め定めた閾値以下である場合は、サンプル列を並べ替え後のサンプル列として出力するようにしてもよい。
 あるいは、本発明の符号化技術によると、所定の時間区間の音響信号に由来する周波数領域のサンプル列について、(1)サンプル列の全てのサンプルが含まれ、かつ、(2)サンプルの大きさを反映する指標が同等か同程度のサンプルが集まるようにサンプル列に含まれる少なくとも一部のサンプルを並べ替えたもの、を並べ替え後のサンプル列として出力する[並べ替え処理]。そして、並べ替えによって得られたサンプル列を符号化する[符号化手続]。この場合、指標は、例えばサンプルの振幅の絶対値またはパワーであり、並べ替え処理では、並べ替え後のサンプル列の指標の包絡線が周波数の増大に伴って増大傾向または下降傾向を示すように、サンプル列に含まれる少なくとも一部のサンプルを並べ替えるようにしてもよい。
 このような本発明の符号化技術の符号化手続では、例えば、並べ替え処理で得られたサンプル列のうち、(1)サンプルの大きさを反映する指標に関する予め定められた条件を満たす範囲に含まれるサンプルの集まりについて一つのサンプルごとに第1の可変長符号化を行い、(2)それ以外のサンプルの集まりの少なくとも一部について複数のサンプルごとに第2の可変長符号化を行う。あるいは、符号化処理では、例えば、並べ替え処理で得られたサンプル列のうち、(1)サンプルの大きさを反映する指標に関する予め定められた条件を満たす範囲に含まれるサンプルの集まりについて一つのサンプルごとに第1の可変長符号化を行い、(2)ゼロの大きさに対応する指標を有するサンプルの連続数を表す符号を出力する符号化を行い、(3)それ以外のサンプルの集まりの少なくとも一部について複数のサンプルごとに第2の可変長符号化を行う。
 本発明の復号技術によると、所定の時間区間ごとに、入力された符号列を復号して、周波数領域のサンプル列を得て[復号手続]、このサンプル列に含まれる少なくとも一部のサンプルを、当該サンプル列への並べ替えを特定する情報(補助情報)に基づいて並べ替えて音響信号に由来するサンプル列を得る[回復処理]。復号手続で得られたサンプル列は、(1)音響信号に由来するサンプル列を構成する全てのサンプルを含み、かつ、(2)音響信号の周期性または基本周波数に対応するサンプルを含む一つまたは連続する複数のサンプルおよび、音響信号の周期性または基本周波数の整数倍に対応するサンプルを含む一つまたは連続する複数のサンプル、の全部または一部のサンプルが集まるように、周波数領域のサンプルが並べられたものである。
 回復処理で用いられる補助情報は、例えば、音響信号の周期性を表す情報、音響信号の基本周波数を表す情報、音響信号の周期性または基本周波数に対応するサンプルと音響信号の周期性または基本周波数の整数倍に対応するサンプルとの間隔を表す情報、のいずれかである。
 復号手続で得られたサンプル列は、例えば、最低の周波数から第1の所定の周波数までの各周波数に対応するサンプルの並べ替えが行われたサンプル列であり、この場合、最低の周波数から第1の所定の周波数より小さい第2の所定の周波数までの各周波数に対応するサンプルの並べ替えが行われていないサンプル列である場合もある。あるいは、復号手続で得られたサンプル列は、例えば、最低の周波数から所定の周波数までの各周波数に対応するサンプルの並べ替えが行われていないサンプル列である。
 回復処理では、入力された量子化済PARCOR係数から計算される予測利得の推定値が予め定めた閾値以下である場合は、復号手続で得られたサンプル列をそのまま音響信号に由来するサンプル列としてもよい。
 あるいは、本発明の復号技術によると、所定の時間区間ごとに、入力された符号列を復号して、周波数領域のサンプル列を得て[復号手続]、このサンプル列に含まれる少なくとも一部のサンプルを、当該サンプル列への並べ替えを特定する情報(補助情報)に基づいて並べ替えて音響信号に由来するサンプル列に戻す[回復処理]。復号手続で得られたサンプル列は、(1)音響信号に由来するサンプル列を構成する全てのサンプルを含み、かつ、(2)サンプルの大きさを反映する指標が同等か同程度のサンプルが集まるように、周波数領域のサンプルが並べられたものである。この場合、指標は、例えば、サンプルの振幅の絶対値またはパワーであり、復号手続で得られたサンプル列は、並べ替えた後のサンプル列の指標の包絡線が周波数の増大に伴って増大傾向または下降傾向を示すように周波数領域のサンプルが並べられたものである。
 このような本発明の復号技術の復号手続では、例えば、入力された符号列のうち、(1)サンプルの大きさを反映する指標に関する予め定められた条件を満たす範囲に含まれるサンプルの集まりについて一つのサンプルごとに第1の可変長符号化で得られた符号を復号し、(2)それ以外のサンプルの集まりの少なくとも一部について複数のサンプルごとに第2の可変長符号化で得られた符号を復号する。あるいは、復号手続では、例えば、入力された符号列のうち、(1)サンプルの大きさを反映する指標に関する予め定められた条件を満たす範囲に含まれるサンプルの集まりについて一つのサンプルごとに第1の可変長符号化で得られた符号を復号し、(2)ゼロの大きさに対応する指標を有するサンプルの連続数を表す符号を復号し、(3)それ以外のサンプルの集まりの少なくとも一部について複数のサンプルごとに第2の可変長符号化で得られた符号を復号する。
 本発明によると、音響信号に由来する周波数領域のサンプル列に含まれる少なくとも一部のサンプルを、音響信号の周期性または基本周波数に対応するサンプルを含む一つまたは連続する複数のサンプルおよび、音響信号の周期性または基本周波数の整数倍に対応するサンプルを含む一つまたは連続する複数のサンプルが集まるように並べ替える。このように、サンプルの大きさを反映する指標(例えば振幅の絶対値)が同等か同程度のサンプルが集まっていることから、サンプル列内での隣接するサンプル間でのサンプルの大きさを反映する指標の変動が小さくなり、サンプル列に対する適応型算術符号化によって得られる符号の総符号量を抑制できる。また、並べ替えという少ない演算量で実行可能な処理を行うから、符号化効率の向上や量子化歪の軽減などが実現される。
符号化装置の実施形態の機能構成例を示す図。 符号化方法の実施形態の処理手順を示す図。 サンプル列に含まれるサンプルの並べ替えの一例を説明するための概念図。 サンプル列に含まれるサンプルの並べ替えの一例を説明するための概念図。 復号装置の実施形態の機能構成例を示す図。 復号方法の実施形態の処理手順を示す図。
 図面を参照しながら本発明の実施形態を説明する。なお、重複する構成要素には同じ参照符号を当てて重複説明を省略する。
 本発明は、所定の時間区間の音響信号に由来する周波数領域のサンプル列を量子化する枠組みの中で、周波数領域のサンプルの特徴量に基づくサンプルの並べ替えによって量子化歪を小さくしつつ、可変長符号化を利用することで符号量を少なくするという符号化の改善を特徴の一つとする。以下、所定の時間区間をフレームと呼称する。例えば基本周期が比較的明瞭なフレームでは周期性に合わせたサンプルの並べ替えによって大きな振幅のサンプルを集中させることにより符号化の改善が実現する。ここで、音響信号に由来する周波数領域のサンプル列として、例えば、フレーム単位の音声音響ディジタル信号が時間領域から周波数領域に変換して得られるDFT係数列やMDCT係数列、このような係数列に対して正規化や重み付けや量子化などの処理が適用された係数列などを例示することができる。以下、MDCT係数列を例にとって本発明の実施形態を説明する。
[実施形態]
「符号化処理」
 最初に図1~図4を参照して符号化装置100が行う符号化処理を説明する。
「周波数領域変換部1」
 まず、周波数領域変換部1がフレーム単位で音声音響ディジタル信号を周波数領域のN点のMDCT係数列に変換する(ステップS1)。
 一般論として、符号化側ではMDCT係数列を量子化して、量子化されたMDCT係数列を符号化して、得られた符号列を復号側へ伝送し、復号側では当該符号列から量子化されたMDCT係数列を再構成し、さらに逆MDCT変換によって時間領域の音声音響ディジタル信号を再構成することができる。ところで、MDCT係数の振幅は近似的に通常のDFTのパワースペクトルと同じ振幅包絡(パワースペクトル包絡)を持つ。このため、振幅包絡の対数値に比例する情報割り当てを行うことによって、全帯域のMDCT係数の量子化歪(量子化誤差)を均一に分散させることができ、全体の量子化歪を小さくすることができ、加えて情報圧縮も実現される。なお、パワースペクトル包絡は線形予測分析によって求められた線形予測係数を使って効率よく推定することができる。このような量子化誤差を制御する方法としては、各MDCT係数の量子化ビットを適応的に割り当てる(振幅を平坦にした後で量子化のステップ幅を調整する)方法や、重み付けベクトル量子化により適応的に重みをつけて符号を決定する方法がある。ここでは、本発明の実施形態において実行される量子化方法の一例を説明するが、説明する量子化方法に限定されるものではないことに留意されたい。
「重み付け包絡正規化部2」
 重み付け包絡正規化部2が、フレーム単位の音声音響ディジタル信号に対する線形予測分析によって求められた線形予測係数を用いて推定された音声音響ディジタル信号のパワースペクトル包絡係数列によって、入力されたMDCT係数列の各係数を正規化し、重み付け正規化MDCT係数列を出力する(ステップS2)。ここでは聴覚的に歪が小さくなるような量子化の実現のために、重み付け包絡正規化部2は、パワースペクトル包絡を鈍らせた重み付けパワースペクトル包絡係数列を用いて、フレーム単位でMDCT係数列の各係数を正規化する。この結果、重み付け正規化MDCT係数列は、入力されたMDCT係数列ほどの大きな振幅の傾きや振幅の凹凸を持たないが、音声音響ディジタル信号のパワースペクトル包絡係数列と類似の大小関係を有するもの、すなわち、低い周波数に対応する係数側の領域にやや大きな振幅を持ち、ピッチ周期に起因する微細構造をもつもの、となる。
[重み付け包絡正規化処理の具体例]
 N点のMDCT係数列の各係数X(1),・・・,X(N)に対応するパワースペクトル包絡係数列の各係数W(1),・・・,W(N)は、線形予測係数を周波数領域に変換して得ることができる。例えば、全極型モデルであるp次自己回帰過程により、時刻tの時間信号x(t)は、p時点まで遡った過去の自分自身の値x(t-1),・・・,x(t-p)と予測残差e(t)と線形予測係数α1,・・・,αpによって式(1)で表される。このとき、パワースペクトル包絡係数列の各係数W(n)[1≦n≦N]は式(2)で表される。exp(・)はネイピア数を底とする指数関数、jは虚数単位、σ2は予測残差エネルギーである。
Figure JPOXMLDOC01-appb-M000001
 線形予測係数は、周波数領域変換部1に入力された音声音響ディジタル信号を重み付け包絡正規化部2によって線形予測分析して得られたものでもよいし、符号化装置100内に在る図示しない他の手段によって音声音響ディジタル信号を線形予測分析して得られたものであってもよい。このような場合には、重み付け包絡正規化部2が線形予測係数を用いてパワースペクトル包絡係数列の各係数W(1),・・・,W(N)を求める。また、符号化装置100内に在る他の手段(パワースペクトル包絡係数列計算部7)によってパワースペクトル包絡係数列の各係数W(1),・・・,W(N)が既に得られている場合には、重み付け包絡正規化部2は、このパワースペクトル包絡係数列の各係数W(1),・・・,W(N)を用いることができる。なお、後述する復号装置200でも符号化装置100で得られた値と同じ値を得る必要があるため、量子化された線形予測係数および/またはパワースペクトル包絡係数列が利用される。以後の説明において、特に断りが無い限り、「線形予測係数」ないし「パワースペクトル包絡係数列」は量子化された線形予測係数ないしパワースペクトル包絡係数列を意味する。また、線形予測係数は例えば従来的な符号化技術によって符号化されて予測係数符号が復号側へ伝送される。従来的な符号化技術とは、例えば、線形予測係数そのものに対応する符号を予測係数符号とする符号化技術、線形予測係数をLSPパラメータに変換してLSPパラメータに対応する符号を予測係数符号とする符号化技術、線形予測係数をPARCOR係数に変換してPARCOR係数に対応する符号を予測係数符号とする符号化技術、などである。符号化装置100内に在る他の手段によってパワースペクトル包絡係数列が得られる構成である場合は、符号化装置100内に在る他の手段において線形予測係数が従来的な符号化技術によって符号化されて予測係数符号が復号側へ伝送される。
 ここでは、重み付け包絡正規化処理の具体例として二つの例を示すが、本発明ではこれらの例に限定されるものではない。
<例1>
 重み付け包絡正規化部2は、MDCT係数列の各係数X(1),・・・,X(N)を当該各係数に対応するパワースペクトル包絡係数列の各係数の補正値Wγ(1),・・・,Wγ(N)で除算することによって、重み付け正規化MDCT係数列の各係数X(1)/Wγ(1),・・・,X(N)/Wγ(N)を得る処理を行う。補正値Wγ(n)[1≦n≦N]は式(3)で与えられる。但し、γは1以下の正の定数であり、パワースペクトル係数を鈍らせる定数である。
Figure JPOXMLDOC01-appb-M000002
<例2>
 重み付け包絡正規化部2は、MDCT係数列の各係数X(1),・・・,X(N)を当該各係数に対応するパワースペクトル包絡係数列の各係数のβ乗(0<β<1)の値W(1)β,・・・,W(N)βで除算することによって、重み付け正規化MDCT係数列の各係数X(1)/W(1)β,・・・,X(N)/W(N)βを得る処理を行う。
 この結果、フレーム単位の重み付け正規化MDCT係数列が得られるが、重み付け正規化MDCT係数列は入力されたMDCT係数列ほどの大きな振幅の傾きや振幅の凹凸を持たないが、入力されたMDCT係数列のパワースペクトル包絡と類似の大小関係を有するもの、すなわち、低い周波数に対応する係数側の領域にやや大きな振幅を持ち、ピッチ周期に起因する微細構造をもつもの、となる。
 なお、重み付け包絡正規化処理に対応する逆処理、つまり、重み付け正規化MDCT係数列からMDCT係数列を復元する処理が復号側にて行われるため、パワースペクトル包絡係数列から重み付けパワースペクトル包絡係数列を算出する方法を符号化側と復号側で共通の設定にしておくことが必要である。
「正規化利得計算部3」
 次に、正規化利得計算部3が、フレームごとに、重み付け正規化MDCT係数列の各係数を与えられた総ビット数で量子化できるように、全周波数に亘る振幅値の和またはエネルギー値を用いて量子化ステップ幅を決定し、この量子化ステップ幅になるように重み付け正規化MDCT係数列の各係数を割り算する係数(以下、利得という。)を求める(ステップS3)。この利得を表す情報は、利得情報として復号側へ伝送される。正規化利得計算部3は、フレームごとに、重み付け正規化MDCT係数列の各係数をこの利得で正規化(除算)する。
「量子化部4」
 次に、量子化部4が、フレームごとに、利得で正規化された重み付け正規化MDCT係数列の各係数をステップS3の処理で決定された量子化ステップ幅で量子化する(ステップS4)。
「並べ替え部5」
 ステップS4の処理で得られたフレーム単位の量子化MDCT係数列は、本実施形態の要部である並べ替え部5の入力となるが、並べ替え部5の入力は、ステップS1~ステップS4の各処理で得られた係数列に限定されない。このことを明示的に理解するため、以下、並べ替え部5の入力を音響信号に由来する「周波数領域のサンプル列」あるいは単に「サンプル列」と呼称することにする。この実施形態では、ステップS4の処理で得られた量子化MDCT係数列が「周波数領域のサンプル列」に相当し、この場合、周波数領域のサンプル列を構成するサンプルは量子化MDCT係数列に含まれる係数に相当する。
 並べ替え部5は、フレームごとに、(1)周波数領域のサンプル列の全てのサンプルを含み、かつ、(2)サンプルの大きさを反映する指標が同等か同程度のサンプルが集まるように周波数領域のサンプル列に含まれる少なくとも一部のサンプルを並べ替えたもの、を並べ替え後のサンプル列として出力する(ステップS5)。ここで「サンプルの大きさを反映する指標」とは、例えばサンプルの振幅の絶対値やパワー(自乗値)であるが、これらに限定されない。
[並べ替え処理の詳細]
 この並べ替え処理の具体例を説明する。例えば、並べ替え部5は、(1)サンプル列の全てのサンプルを含み、かつ、(2)サンプル列のうちの音響信号の周期性または基本周波数に対応するサンプルを含む一つまたは連続する複数のサンプルおよび、サンプル列のうちの音響信号の周期性または基本周波数の整数倍に対応するサンプルを含む一つまたは連続する複数のサンプル、の全部または一部のサンプルが集まるようにサンプル列に含まれる少なくとも一部のサンプルを並べ替えたもの、を並べ替え後のサンプル列として出力する。つまり、音響信号の周期性または基本周波数に対応するサンプルを含む一つまたは連続する複数のサンプルおよび、当該音響信号の周期性または基本周波数の整数倍に対応するサンプルを含む一つまたは連続する複数のサンプルが集まるように、入力されたサンプル列に含まれる少なくとも一部のサンプルが並べ替えられる。
 この理由は、基本周波数や高調波(基本周波数の整数倍波)に対応するサンプルとそれらの近傍のサンプルの振幅の絶対値やパワーは、基本周波数と高調波を除く周波数領域に対応するサンプルの振幅の絶対値やパワーよりも大きいという音響信号、特に音声や楽音などに顕著な特徴に基づく。ここで、音声や楽音などの音響信号から抽出される音響信号の周期性の特徴量(例えばピッチ周期)は、基本周波数と等価なものであるから、音響信号の周期性の特徴量(例えばピッチ周期)やその整数倍に対応するサンプルとそれらの近傍のサンプルの振幅の絶対値やパワーは、周期性特徴量やその整数倍を除く周波数領域に対応するサンプルの振幅の絶対値やパワーよりも大きいという特徴も認められる。
 そして、音響信号の周期性または基本周波数に対応するサンプルを含む一つまたは連続する複数のサンプルおよび、当該音響信号の周期性または基本周波数の整数倍に対応するサンプルを含む一つまたは連続する複数のサンプルは、低周波側に一まとまりになるように集められる。以下、音響信号の周期性または基本周波数に対応するサンプルと当該音響信号の周期性または基本周波数の整数倍に対応するサンプルとの間隔(以下、単に間隔という)を表す記号をTとする。
 具体例として、並べ替え部5は、入力されたサンプル列から、間隔Tの整数倍に対応するサンプルF(nT)の前後のサンプルF(nT-1),F(nT+1)を含めた3個のサンプルF(nT-1),F(nT),F(nT+1)を選択する。F(j)は、周波数に対応するサンプルインデックスを表す番号jに対応するサンプルである。nは、1からnT+1が予め設定した対象サンプルの上限Nを超えない範囲の各整数とする。n=1は基本周波数に対応し、n>1は高調波に対応する。周波数に対応するサンプルインデックスを表す番号jの最大値をjmaxとする。nに応じて選択されたサンプルの集まりをサンプル群と呼称する。上限Nは、jmaxと一致させてもよいが、音声や楽音などの音響信号では高域におけるサンプルの指標は一般的に十分に小さいことが多いので、後述する符号化効率の向上のために大きい指標を有するサンプルを低周波側に集めるという観点から、Nはjmaxよりも小さい値であってもよい。例えば、Nはjmaxの半分程度の値であってもよい。上限Nに基づいて定まるnの最大値をnmaxとすると、入力されたサンプル列に含まれるサンプルのうち、最低の周波数から第1の所定の周波数nmax*T+1までの各周波数に対応するサンプルが並べ替えの対象となる。なお、記号*は乗算を表す。
 並べ替え部5は、選択されたサンプルF(j)を、元の番号jの大小関係を保ったままサンプル列の先頭から順に配置してサンプル列Aを生成する。例えば、nが1から5までの各整数を表す場合、並べ替え部5は、第1のサンプル群F(T-1),F(T),F(T+1)、第2のサンプル群F(2T-1),F(2T),F(2T+1)、第3のサンプル群F(3T-1),F(3T),F(3T+1)、第4のサンプル群F(4T-1),F(4T),F(4T+1)、第5のサンプル群F(5T-1),F(5T),F(5T+1)をサンプル列の先頭から並べる。つまり、15個のサンプルF(T-1),F(T),F(T+1),F(2T-1),F(2T),F(2T+1),F(3T-1),F(3T),F(3T+1),F(4T-1),F(4T),F(4T+1),F(5T-1),F(5T),F(5T+1)がこの順番でサンプル列の先頭から並べられ、これら15個のサンプルがサンプル列Aを構成する。
 さらに、並べ替え部5は、選択されなかったサンプルF(j)を、元の番号の大小関係を保ったままサンプル列Aの最後から順に配置する。選択されなかったサンプルF(j)は、サンプル列Aを構成するサンプル群の間に位置するサンプルであり、このような連続した一まとまりのサンプルをサンプルセットと呼称する。つまり、上述の例であれば、第1のサンプルセットF(1),…,F(T-2)、第2のサンプルセットF(T+2),…,F(2T-2)、第3のサンプルセットF(2T+2),…,F(3T-2)、第4のサンプルセットF(3T+2),…,F(4T-2)、第5のサンプルセットF(4T+2),…,F(5T-2)、第6のサンプルセットF(5T+2),…F(jmax)がサンプル列Aの最後から順に並べられ、これらのサンプルがサンプル列Bを構成する。
 要するに、この例であれば、入力されたサンプル列F(j)(1≦j≦jmax)は、F(T-1),F(T),F(T+1),F(2T-1),F(2T),F(2T+1),F(3T-1),F(3T),F(3T+1),F(4T-1),F(4T),F(4T+1),F(5T-1),F(5T),F(5T+1),F(1),…,F(T-2),F(T+2),…,F(2T-2),F(2T+2),…,F(3T-2),F(3T+2),…,F(4T-2),F(4T+2),…,F(5T-2),F(5T+2),…F(jmax)に並べ替えられることになる(図3参照)。
 なお、低周波数帯域では、音響信号の周期性や基本周波数に対応するサンプルやその整数倍のサンプル以外のサンプルでも、各サンプルは振幅やパワーが大きな値を持つことが多い。そこで、最低の周波数から所定の周波数fまでの各周波数に対応するサンプルの並べ替えを行わないようにしてもよい。例えば、所定の周波数fをnT+αとすれば、並べ替え前のサンプルF(1),…,F(nT+α)を並べ替えず、並べ替え前のF(nT+α+1)以降のサンプルを並べ替えの対象とする。αは0以上かつTよりもある程度小さい整数(例えばT/2を超えない整数)に予め設定されている。ここでnは2以上の整数であってもよい。あるいは、並べ替え前の最低周波数に対応するサンプルから連続するP個のサンプルF(1),…,F(P)を並べ替えないようにして、並べ替え前のF(P+1)以降のサンプルを並べ替えの対象としてもよい。この場合、所定の周波数fはPである。並べ替えの対象となるサンプルの集まりに対する並べ替えの基準は上述のとおりである。なお、第1の所定の周波数が設定されている場合、所定の周波数f(第2の所定の周波数)は第1の所定の周波数よりも小さい。
 例えば、並べ替え前のサンプルF(1),…,F(T+1)を並べ替えず、並べ替え前のF(T+2)以降のサンプルを並べ替えの対象とする場合、上述の並べ替えの基準に従うと、入力されたサンプル列F(j)(1≦j≦jmax)は、F(1),…,F(T+1),F(2T-1),F(2T),F(2T+1),F(3T-1),F(3T),F(3T+1),F(4T-1),F(4T),F(4T+1),F(5T-1),F(5T),F(5T+1),F(T+2),…,F(2T-2),F(2T+2),…,F(3T-2),F(3T+2),…,F(4T-2),F(4T+2),…,F(5T-2),F(5T+2),…F(jmax)に並べ替えられることになる(図4参照)。
 並べ替えの対象となる番号jの最大値を決定付ける上限Nあるいは第1の所定の周波数を全てのフレームに共通の値とせずに、フレーム毎に異なる上限Nあるいは第1の所定の周波数を設定してもよい。この場合、フレームごとに上限Nあるいは第1の所定の周波数を指定する情報を復号側へ送ればよい。また、並べ替えの対象となる番号jの最大値を指定するのではなく、並べ替えるサンプル群の個数を指定してもよく、この場合、サンプル群の個数をフレーム毎に設定して、サンプル群の個数を指定する情報を復号側へ送ってもよい。もちろん、並べ替えるサンプル群の個数を全てのフレームに共通としてもよい。また、第2の所定の周波数fについても、全てのフレームに共通の値とせずに、フレーム毎に異なる第2の所定の周波数fを設定してもよい。この場合、フレームごとに第2の所定の周波数を指定する情報を復号側へ送ればよい。
 このように並べ替えられた後のサンプル列は、周波数を横軸とし、サンプルの指標を縦軸とした場合に、サンプルの指標の包絡線が周波数の増大に伴って下降傾向を示すことになる。この理由として、周波数領域のサンプル列は音響信号、特に音声信号や楽音信号の特徴として、一般的に高周波成分が少ないという事実が挙げられる。換言すれば、並べ替え部5は、サンプルの指標の包絡線が周波数の増大に伴って下降傾向を示すように入力されたサンプル列に含まれる少なくとも一部のサンプルを並べ替えると言ってもよい。なお、図3および図4では、サンプルの並べ替えによって低域側に、より大きな振幅を持つサンプルが偏ることを分かりやすく図示するため、周波数領域のサンプル列に含まれる全てのサンプルが正の値である場合の例を図示してある。実際には、周波数領域のサンプル列に含まれる各サンプルは正または負またはゼロの値である場合も多いが、このような場合であっても、上述の並べ替え処理あるいは後述の並べ替え処理を実行すればよい。
 さらに、この実施形態では低域側に、周期性または基本周波数に対応するサンプルを含む一つまたは連続する複数のサンプルおよび、周期性または基本周波数の整数倍に対応するサンプルを含む一つまたは連続する複数のサンプルを集める並べ替えを行ったが、逆に高域側に、周期性または基本周波数に対応するサンプルを含む一つまたは連続する複数のサンプルおよび、周期性または基本周波数の整数倍に対応するサンプルを含む一つまたは連続する複数のサンプルを集める並べ替えを行ってもよい。この場合、サンプル列Aではサンプル群が逆順で並べられ、サンプル列Bではサンプルセットが逆順で並べられ、低域側にサンプル列Bが配置されサンプルBの後ろにサンプル列Aが配置される。つまり、上述の例であれば、低域側から、第6のサンプルセットF(5T+2),…F(jmax)、第5のサンプルセットF(4T+2),…,F(5T-2)、第4のサンプルセットF(3T+2),…,F(4T-2)、第3のサンプルセットF(2T+2),…,F(3T-2)、第2のサンプルセットF(T+2),…,F(2T-2)、第1のサンプルセットF(1),…,F(T-2)、第5のサンプル群F(5T-1),F(5T),F(5T+1)、第4のサンプル群F(4T-1),F(4T),F(4T+1)、第3のサンプル群F(3T-1),F(3T),F(3T+1)、第2のサンプル群F(2T-1),F(2T),F(2T+1)、第1のサンプル群F(T-1),F(T),F(T+1)の順番でサンプルが並べられる。
 このように並べ替えられた後のサンプル列は、周波数を横軸とし、サンプルの指標を縦軸とした場合に、サンプルの指標の包絡線が周波数の増大に伴って増大傾向を示すことになる。換言すれば、並べ替え部5は、サンプルの指標の包絡線が周波数の増大に伴って増大傾向を示すように入力されたサンプル列に含まれる少なくとも一部のサンプルを並べ替えると言ってもよい。
 間隔Tは整数ではなく小数(たとえば5.0、5.25、5.5、5.75)であってもよい。この場合、例えば、R(nT)をnTを四捨五入した値として、F(R(nT-1)),F(R(nT)),F(R(nT+1))が選択されることになる。
[間隔Tの決定方法]
 間隔Tは、入力されたサンプル列に応じて、つまりフレームごとに、値を設定することが好ましい。フレームごとに間隔Tを決定する方法として、例えば、サンプルの指標(絶対値や二乗値)の周期性を探索し、平均絶対値や平均二乗値の偏りが大きくなるように間隔Tを設定する方法を採用してもよい。
 間隔Tの決定方法として種々考えられるが、ここでは間隔Tを決定する具体的手順の一例を説明する。Tを周波数領域の周期(間隔)の候補パラメータとし、Tに対応して選択されるサンプル群に含まれる全てのサンプルの指標を加算してE(T)を求める。ここではサンプルの指標を|F(j)|と表す。Tに対応して選択されるサンプル群に含まれる全てのサンプルの番号jの集合をMとすると、E(T)=Σj∈M|F(j)|である。上述の具体例であれば、E(T)=Σj∈M|F(j)|=F(T-1)+F(T)+F(T+1)+F(2T-1)+F(2T)+F(2T+1)+F(3T-1)+F(3T)+F(3T+1)+F(4T-1)+F(4T)+F(4T+1)+F(5T-1)+F(5T)+F(5T+1)である。他方、全てのサンプルの指標の和Dを求める。つまり、D=Σj=1 jmax|F(j)|である。そして、間隔Tの決定基準として、サンプルの平均絶対値振幅AVE_E=E(T)/card(M)と、サンプル列全体の平均絶対値振幅AVE_D=D/jmaxを求める。ここでcard(M)は集合Mの要素数(濃度)を表す。そして、AVE_Eが最大となるようなT_MAXを探し、さらにAVE_Eの最大値AVE_E_MAXがAVE_E_MAX>AVE_D*2を満足する場合に、周期性成分への集中が明確であると判断して、このときのT_MAXを間隔Tとする。
 このような方法に限定されず、例えば、周波数領域の周期(間隔)Tを、符号化装置100内の図示しない別の手段によって求めた基本周波数や時間領域のピッチ周期を変換して求めてもよい。また、上述のような周期性を利用する間隔Tの決定に限らず、サンプル群を低域側に集める場合にはサンプル列Bの後半に、サンプル群を高域側に集める場合にはサンプル列Bの前半に、0の振幅を持つサンプルが長く続くように間隔Tを決定する方法を採用してもよい。
 また、並べ替え部5では予め設定された複数のTの値のそれぞれに基づいてサンプル列の並べ替えを実施し、後述する符号化部6では各Tの値に対応する符号列の符号量を得て、最も符号量が小さい間隔Tを選択するという方法を採用してもよい。この場合は、後述するサンプル列の並べ替えを特定する補助情報は並べ替え部5からではなく符号化部6から出力される。さらには、全てのフレームについて間隔Tを予め定めた1つの値とすることも可能である。
[サンプル列の並べ替えを特定する補助情報]
 並べ替え部5または符号化部6は、サンプル列の並べ替えを特定する補助情報(第1補助情報)、すなわち、音響信号の周期性を表す情報、または基本周波数を表す情報、または音響信号の周期性または基本周波数に対応するサンプルと音響信号の周期性または基本周波数の整数倍に対応するサンプルとの間隔Tを表す情報を出力する。例えば間隔Tをフレーム毎に決定する場合は、サンプル列の並べ替えを特定する補助情報もフレーム毎に出力されることになる。サンプル列の並べ替えを特定する補助情報は、周期性、基本周波数または間隔Tをフレーム毎に符号化して得られる。この符号化は固定長符号化であってもよいし、可変長符号化して平均符号量を削減してもよい。可変長符号化する場合は、前フレームの間隔Tと現フレームの間隔Tの差分を可変長符号化した情報を間隔Tを表す情報としてもよい。同様に、前フレームの基本周波数と現フレームの基本周波数の差分を可変長符号化した情報を基本周波数を表す情報としてもよい。なお、符号化装置100内の図示しない別の手段によって基本周波数を表す情報が得られている場合は、並べ替え部5ではなく、当該別の手段によって得られた基本周波数を表す情報をサンプル列の並べ替えを特定する補助情報として用いてもよい。また、nを複数の選択肢から選択可能な場合には、nの上限値あるいは上述の上限Nをサンプル列の並べ替えを特定する補助情報に含めてもよい。
[集めるサンプルの個数]
 また、この実施形態では、各サンプル群に含まれるサンプルの個数が、周期性や基本周波数ないしその整数倍に対応するサンプル(以下、中心サンプルという)とその前後1サンプルの計3サンプルであるという固定された個数の例を示したが、サンプル群に含まれるサンプルの個数やサンプルインデックスを可変とする場合には、サンプル群に含まれるサンプルの個数とサンプルインデックスの組み合わせが異なる複数の選択肢の中から選択された一つを表す情報もサンプル列の並べ替えを特定する補助情報に含める。
 例えば、選択肢として、
(1)中心サンプルのみ、F(nT)
(2)中心サンプルとその前後1サンプルの計3サンプル、F(nT-1),F(nT),F(nT+1)
(3)中心サンプルとその前2サンプルの計3サンプル、F(nT-2),F(nT-1),F(nT)
(4)中心サンプルとその前3サンプルの計4サンプル、F(nT-3),F(nT-2),F(nT-1),F(nT)
(5)中心サンプルとその後2サンプルの計3サンプル、F(nT),F(nT+1),F(nT+2)
(6)中心サンプルとその後3サンプルの計4サンプル、F(nT),F(nT+1),F(nT+2),F(nT+3)
が設定されている場合に、(4)が選択されたならば、この(4)が選択されたことを表す情報がサンプル列の並べ替えを特定する補助情報に含められる。この例であれば、選択された選択肢を表す情報として3ビットあれば十分である。
 なお、このような選択肢の中からどれを選択すればよいか決める方法として、並べ替え部5では各選択肢に対応する並べ替えを実施し、後述する符号化部6で各選択肢に対応する符号列の符号量を得て、最も符号量が小さい選択肢を選択するという方法を採用すればよい。この場合は、サンプル列の並べ替えを特定する補助情報は並べ替え部5からではなく符号化部6から出力される。この方法は、nを選択可能な場合にも妥当する。
 ただし、選択肢としては、例えば、間隔Tに関する選択肢、サンプル群に含まれるサンプルの個数とサンプルインデックスの組み合わせに関する選択肢、nに関する選択肢があり、これらの選択肢の全ての組み合わせは相当の数になることが予想される。これらの選択肢の全ての組み合わせについて最終的な符号量を計算するには処理量がかかり、効率の観点から問題となる場合があるかもしれない。このような観点から処理量を削減するために、下記のような近似処理を用いることが好ましい。つまり、符号化部6では、選択肢の全ての組み合わせについて簡易で近似的な方法で符号量を推定し、例えば推定符号量が最小のものから所定の複数の候補を選択する等にて好ましいと推定される複数の候補を絞り込み、絞り込まれた候補(選択された候補)中で最小の符号量を与えた選択肢を選択すれば、少ない処理量で最終的な符号量をほぼ最適に小さくできる。
 一つの例として、まず、サンプル群に含まれるサンプル数を“3サンプル”に固定した上で間隔Tの候補を少数に絞り込み、各候補に対して、サンプル群に含まれるサンプル数を組み合わせて、最も好ましい選択肢を選択するようにしてもよい。
 あるいは、近似的にサンプルの指標の和を測定し、サンプルの指標の低域への集中度や、周波数軸で最高周波数から低域側に向かってゼロの振幅を持つサンプルの連続数で選択肢を決定してもよい。具体的には、並べ替え後のサンプル列の振幅の絶対値の和を全体のサンプル列の低域側から1/4の領域について求め、その総和が予め定められた閾値と比較して大きければ、好ましい並べ替えであることが想定される。また、並べ替え後のサンプル列の最高周波数から低域側に向かってゼロの振幅を持つサンプルの連続数が最長となる選択肢を選択する方法に拠ると、低域に指標の大きいサンプルが集中していることを意味しており、これも好ましい並べ替えであることが想定される。
 上述のような近似処理で選択肢を決定すると、処理量は少ないが、必ずしも最終的な符号量を最小とするサンプル列の並べ替えが選択できない場合が生じる。このため、上述のような近似処理で複数の候補を選択し、これら少数の候補だけについて最終的に符号量を正確に計算して最も好ましい(符号量が小さくなる)ものを選択すればよい。
「符号化部6」
 次に、符号化部6が、並べ替え部5が出力したサンプル列を符号化し、得られた符号列を出力する(ステップS6)。例えば、符号化部6は、並べ替え部5が出力したサンプル列に含まれるサンプルの振幅の偏りに応じて可変長符号化の方法を切り替えて符号化する。つまり、並べ替え部5によってフレーム内で、低域側(あるいは高域側)に振幅の大きなサンプルが集められているので、符号化部6はその偏りに適した方法による可変長符号化を行う。並べ替え部5が出力したサンプル列のように、局所的な領域ごとに同等か同程度の振幅を持つサンプルが集まっていると、例えば領域ごとに異なるライスパラメータでライス符号化することによって平均符号量を削減できる。以下、フレーム内で低域側(フレームの先頭に近い側)に振幅の大きなサンプルが集められている場合を例に採って説明する。
[符号化の具体例]
 具体例として、符号化部6は、大きな振幅を持つサンプルが集まっている領域ではサンプルごとにライス符号化(ゴロム-ライス符号化ともいう)を適用する。この領域以外の領域では、符号化部6は、複数のサンプルをまとめたサンプルの集合に対する符号化にも適するエントロピー符号化(ハフマン符号化や算術符号化など)を適用する。ライス符号化の適用に関して、ライス符号化の適用領域とライスパラメータが固定されていてもよいし、あるいは、ライス符号化の適用領域とライスパラメータの組み合わせが異なる複数の選択肢の中から一つ選択できる構成であってもよい。このような複数の選択肢から一つを選択する際、ライス符号化の選択情報として、例えば下記のような可変長符号(記号""で囲まれたバイナリ値)を使うことができ、符号化部6は選択情報も出力する。
"1":ライス符号化を適用しない
"01":ライス符号化を先頭から1/32の領域にライスパラメータを1として適用する。
"001":ライス符号化を先頭から1/32の領域にライスパラメータを2として適用する。
"0001":ライス符号化を先頭から1/16の領域にライスパラメータを1として適用する。
"00001":ライス符号化を先頭から1/16の領域にライスパラメータを2として適用する。
"00000":ライス符号化を先頭から1/32の領域にライスパラメータを3として適用する。
 なお、このような選択肢の中からどれを選択すればよいかを決める方法として、符号化処理で得られる各ライス符号化に対応する符号列の符号量を比較し、最も符号量が小さい選択肢を選択するという方法を採用すればよい。
 また、並べ替え後のサンプル列に0の振幅を持つサンプルが長く続く領域が現れると、0の振幅を持つサンプルの連続数を例えばランレングス符号化することにより平均符号量を削減できる。このような場合、符号化部6は、(1)大きな振幅を持つサンプルが集まっている領域ではサンプルごとにライス符号化を適用し、(2)この領域以外の領域では、(a)0の振幅を持つサンプルが連続する領域では、0の振幅を持つサンプルの連続数を表す符号を出力する符号化を行い、(b)残りの領域では、複数のサンプルをまとめたサンプルの集合に対する符号化にも適するエントロピー符号化(ハフマン符号化や算術符号化など)を適用する。このような場合であっても、上述のようなライス符号化の選択を行ってもよい。また、このような場合、どの領域にランレングス符号化が適用されたかを表す情報も復号側へ伝送される必要があり、例えばこの情報は上記選択情報に含められる。さらに、エントロピー符号化に属する複数の符号化方法を選択肢として用意してある場合には、いずれの符号化を選択したかを特定するための情報も復号側へ伝送される必要があり、例えばこの情報は上記選択情報に含められる。
 なお、サンプル列に含まれるサンプルの並べ替えによる利点が無い場合も考えられる。このような場合には並べ替え前のサンプル列を符号化すべきである。そこで、並べ替え部5からは並べ替え前のサンプル列(並べ替えを行っていないサンプル列)も出力し、符号化部6は、並べ替え前のサンプル列と並べ替え後のサンプル列をそれぞれ可変長符号化し、並べ替え前のサンプル列を可変長符号化して得られる符号列の符号量と、並べ替え後のサンプル列を領域ごとに可変長符号化を切り替えて符号化して得られる符号列の符号量とを比較し、並べ替え前のサンプル列の符号量が最小である場合には、並べ替え前のサンプル列を可変長符号化して得られた符号列を出力する。この場合は、符号列に対応するサンプル列がサンプルの並べ替えを行ったサンプル列であるか否かを表す補助情報(第2補助情報)も出力する。この第2補助情報として1ビットを使えば十分である。なお、第2補助情報が符号列に対応するサンプル列がサンプルの並べ替えを行なっていないサンプル列を特定するものである場合は、第1補助情報は出力しなくてもよい。
 また、予め予測利得またはその推定値がある定められた閾値より大きい場合のみサンプル列の並べ替えを適用することに決めておくこともできる。これは予測利得が大きいときには声帯振動や楽器の振動が強く、周期性も高い場合が多いという音声や楽音の性質を利用するものである。予測利得は原音のエネルギーを予測残差のエネルギーで割ったものである。線形予測係数やPARCOR係数をパラメータとして使う符号化においては、量子化済みのパラメータを符号化装置と復号装置で共通に使うことができる。そこで、例えば、符号化部6は、符号化装置100内の図示しない別の手段によって求めたi次の量子化済PARCOR係数k(i)を用いて、(1-k(i)*k(i))を次数ごとに乗算したものの逆数で表わされる予測利得の推定値を計算し、計算された推定値がある定められた閾値より大きい場合は並べ替え後のサンプル列を可変長符号化して得られた符号列を出力し、そうでない場合は並べ替え前のサンプル列を可変長符号化して得られた符号列を出力する。この場合は、符号列に対応するサンプル列が並べ替えを行ったサンプル列であるか否かを表す第2補助情報を出力する必要は無い。すなわち、予測がきかない雑音的音声や無音時には効果が小さい可能性が高いので並べ替えをしないと決めておくほうが第2補助情報や計算の無駄が少ない。
 なお、並べ替え部5において、予測利得または予測利得の推定値の計算を行い、予測利得または予測利得の推定値がある定められた閾値より大きい場合はサンプル列に対する並べ替えを行って並べ替え後のサンプル列を符号化部6に出力し、そうでない場合はサンプル列に対する並べ替えを行なわずに並べ替え部5に入力されたサンプル列そのものを符号化部6に出力し、符号化部6では並べ替え部5から出力されたサンプル列を可変長符号化する構成としてもよい。
 なお、この構成の場合には、閾値を符号化側と復号側とで共通の値として予め設定しておくこととする。
 なお、ここで例示したライス符号化、算術符号化、ランレングス符号化はいずれも周知であるからその詳細な説明を省略する(例えば参考文献1参照)。
(参考文献1)David Salomon, "Data Compression : The Complete Reference," 3rd edition, Springer-Verlag, ISBN-10: 0-387-40697-2, 2004.
 上述の符号化処理では、並べ替え部5が出力したサンプル列に含まれるサンプルの振幅の偏りに応じて可変長符号化方法を切り替えて符号化する例を説明したが、このような符号化処理に限定されるものではない。例えば、一つまたは複数のサンプルを1シンボル(符号化単位)とし、その1つまたは複数のシンボルによる系列(以下、シンボル系列、と呼ぶ)の直前のシンボル系列に依存して割り当て符号を適応的に制御する符号化処理を採用することもできる。このような符号化処理として、例えばJPEG2000にも採用されている適応型算術符号を例示できる。適応型算術符号化ではモデリング処理と算術符号化が行われる。モデリング処理では直前のシンボル系列から算術符号化のためのシンボル系列の頻度表が選択される。そして、選択されたシンボル系列の出現確率に応じて閉区間半直線[0,1]を区分し、区分された区間内の位置を示す2進小数値にそのシンボル系列に対する符号を割り当てる算術符号化が行われる。本発明の実施形態においては、モデリング処理として、並べ替え後の周波数領域のサンプル列(上述の例では量子化MDCT係数列)を低域から順次シンボルに分け、算術符号化のための頻度表を選択し、さらに算術符号化として、選択されたシンボル系列の出現確率に応じて閉区間半直線[0,1]を区分し、区分された区間内の位置を示す2進小数値にそのシンボル系列に対する符号を割り当てる。上述のように、並べ替え処理によって、既にサンプル列がサンプルの大きさを反映する指標(例えば振幅の絶対値)が同等か同程度のサンプルが集まるように並べ替えられていることから、サンプル列内での隣接するサンプル間でのサンプルの大きさを反映する指標の変動が小さくなり、シンボルの頻度表の精度が高まり、シンボルに対する算術符号化によって得られる符号の総符号量を抑制できる。
「復号処理」
 続いて図5~図6を参照して復号処理を説明する。
 復号装置200では、符号化装置100による符号化処理と逆順の処理でMDCT係数が再構成される。復号装置200には、少なくとも、上記利得情報と、上記補助情報と、上記符号列と、上記予測係数符号が入力される。なお、符号化装置100から選択情報が出力された場合にはこの選択情報も復号装置200に入力される。
「線形予測係数復号部10」
 線形予測係数復号部10は、フレームごとに、入力された予測係数符号を従来的な復号技術によって復号してパワースペクトル包絡係数列の各係数W(1),・・・,W(N)を求める(ステップS10)。後記の回復部12でPARCOR係数を用いる場合は、線形予測係数復号部10は、線形予測係数に対応するPARCOR係数も得る。従来的な復号技術とは、例えば、予測係数符号が線形予測係数に対応する符号である場合に予測係数符号を復号して線形予測係数を得る技術、予測係数符号がLSPパラメータに対応する符号である場合に予測係数符号を復号してLSPパラメータを得る技術、予測係数符号がPARCOR係数に対応する符号である場合に予測係数符号を復号してPARCOR係数を得る技術、などである。また、線形予測係数、LSPパラメータ、PARCOR係数、パワースペクトル包絡係数列は互いに変換可能なものであり、入力された予測係数符号と後段での処理において必要な情報に応じて、変換処理を行なえばよいのは周知である。以上から、上記の予測係数符号の復号処理と必要に応じて行なう上記の変換処理とを包含したものが「従来的な復号技術による復号」ということになる。
「復号部11」
 復号部11が、フレームごとに、入力された符号列を復号して周波数領域のサンプル列を出力する(ステップS11)。復号装置200に符号化装置100から選択情報が入力された場合には、復号部11は入力された符号列に対して選択情報に応じた復号方法で復号処理を実行する。当然であるが、符号列を得るために実行された符号化方法に対応する復号方法が実行される。復号部11による復号処理の詳細は符号化装置100の符号化部6による符号化処理の詳細に対応するので、当該符号化処理の説明をここに援用し、実行された符号化に対応する復号が復号部11の行う復号処理であることを明記し、これをもって復号処理の詳細な説明とする。なお、選択情報が入力された場合には、どのような符号化方法が実行されたかは当該選択情報によって特定される。選択情報に、例えば、ライス符号化の適用領域とライスパラメータを特定する情報と、ランレングス符号化の適用領域を表す情報と、エントロピー符号化の種類を特定する情報が含まれている場合には、これらの符号化方法に応じた復号方法が入力された符号列の対応する領域に適用される。ライス符号化に対応する復号処理、エントロピー符号化に対応する復号処理、ランレングス符号化に対応する復号処理はいずれも周知であるから説明を省略する(例えば上記参考文献1参照)。
「回復部12」
 次に、回復部12が、フレームごとに、入力された補助情報に含まれるサンプル列の並べ替えを特定する補助情報(第1補助情報)に従って、復号部11が出力した周波数領域のサンプル列から元のサンプルの並びを得る(ステップS12)。ここで「元のサンプルの並び」とは、符号化装置100の並べ替え部5に入力された「周波数領域のサンプル列」に相当する。上述のとおり、符号化装置100の並べ替え部5による並べ替え方法や並べ替え方法に対応する並べ替えの選択肢は種々あるが、並べ替えが実行された場合には実行された並べ替えは一つであり、その並べ替えを特定する情報は第1補助情報として補助情報に含まれている。よって、回復部12は第1補助情報に基づいて復号部11が出力した周波数領域のサンプル列を元のサンプルの並びに戻すことができる。
 なお、補助情報に並べ替えを行ったか否かを表す補助情報(第2補助情報)が含まれる構成も有り得る。この構成では、回復部12は、並べ替えを行ったか否かを表す補助情報が並べ替えを行ったことを示すものである場合は復号部11が出力した周波数領域のサンプル列を元のサンプルの並びに戻して出力し、並べ替えを行っていないことを示すものである場合は復号部11が出力した周波数領域のサンプル列をそのまま出力する。
 また、予測利得または予測利得の推定値の大小により並べ替えを行ったか否かを判断する構成も有り得る。この構成では、回復部12は、例えば、復号装置200内の線形予測係数復号部10から入力されたi次の量子化済PARCOR係数k(i)を用いて、(1-k(i)*k(i))を次数ごとに乗算したものの逆数で表わされる予測利得の推定値を計算し、計算された推定値がある定められた閾値より大きい場合は復号部11が出力した周波数領域のサンプル列を元のサンプルの並びに戻して出力し、そうでない場合は復号部11が出力した周波数領域のサンプル列をそのまま出力する。
 回復部12による回復処理の詳細は符号化装置100の並べ替え部5による並べ替え処理の詳細に対応するので、当該並べ替え処理の説明をここに援用し、その並べ替え処理の逆順の処理(逆の並べ替え)が回復部12の行う回復処理であることを明記し、これをもって回復処理の詳細な説明とする。なお、理解の一助のため、上述の並べ替え処理の具体例に対応する回復処理の一例を説明する。
 例えば、並べ替え部5がサンプル群を低域側に集めてF(T-1),F(T),F(T+1),F(2T-1),F(2T),F(2T+1),F(3T-1),F(3T),F(3T+1),F(4T-1),F(4T),F(4T+1),F(5T-1),F(5T),F(5T+1),F(1),…,F(T-2),F(T+2),…,F(2T-2),F(2T+2),…,F(3T-2),F(3T+2),…,F(4T-2),F(4T+2),…,F(5T-2),F(5T+2),…F(jmax)を出力した上述の例であると、回復部12には復号部11が出力した周波数領域のサンプル列F(T-1),F(T),F(T+1),F(2T-1),F(2T),F(2T+1),F(3T-1),F(3T),F(3T+1),F(4T-1),F(4T),F(4T+1),F(5T-1),F(5T),F(5T+1),F(1),…,F(T-2),F(T+2),…,F(2T-2),F(2T+2),…,F(3T-2),F(3T+2),…,F(4T-2),F(4T+2),…,F(5T-2),F(5T+2),…F(jmax)が入力される。そして、補助情報には、例えば、間隔Tに関する情報や、nが1以上5以下の各整数であることを表す情報や、サンプル群には3サンプルが含まれることを特定する情報などが含められている。従って、回復部12は、この補助情報に基づいて、入力されたサンプル列F(T-1),F(T),F(T+1),F(2T-1),F(2T),F(2T+1),F(3T-1),F(3T),F(3T+1),F(4T-1),F(4T),F(4T+1),F(5T-1),F(5T),F(5T+1),F(1),…,F(T-2),F(T+2),…,F(2T-2),F(2T+2),…,F(3T-2),F(3T+2),…,F(4T-2),F(4T+2),…,F(5T-2),F(5T+2),…F(jmax)を元のサンプルの並びF(j)(1≦j≦jmax)に戻すことができる。
「逆量子化部13」
 次に、逆量子化部13が、フレームごとに、回復部12が出力した元のサンプルの並びを逆量子化する(ステップS13)。上述の例に対応させて述べれば、逆量子化によって、符号化装置100の量子化部4に入力された「利得で正規化された重み付け正規化MDCT係数列」が得られる。
「利得乗算部14」
 次に、利得乗算部14が、フレームごとに、逆量子化部13が出力した「利得で正規化された重み付け正規化MDCT係数列」の各係数に、上記利得情報で特定される利得を乗じて、「正規化された重み付け正規化MDCT係数列」を得る(ステップS14)。
「重み付け包絡逆正規化部15」
 次に、重み付け包絡逆正規化部15が、フレームごとに、利得乗算部14が出力した「正規化された重み付け正規化MDCT係数列」の各係数に、線形予測係数復号部10で得られたパワースペクトル包絡係数列から得られる補正係数を適用することで「MDCT係数列」を得る(ステップS15)。符号化装置100で実行された重み付け包絡正規化処理の例に対応させて具体例を説明すると、重み付け包絡逆正規化部15は、利得乗算部14が出力した「正規化された重み付け正規化MDCT係数列」の各係数に、当該各係数に対応するパワースペクトル包絡係数列の各係数のβ乗(0<β<1)の値W(1)β,・・・,W(N)βを乗算することによって、MDCT係数列の各係数X(1),・・・,X(N)を得る。
「時間領域変換部16」
 次に、時間領域変換部16が、フレームごとに、重み付け包絡逆正規化部15が出力した「MDCT係数列」を時間領域に変換してフレーム単位の音声音響ディジタル信号を得る(ステップS16)。
 ステップS13からS16の各処理は従来的処理であるから詳細な説明を省略したが、例えば、上記各非特許文献や参考文献1,2などに詳しい。
(参考文献2)守谷健弘著、「音声符号化」第9章、社団法人電子情報通信学会、1998.
 実施形態から明らかなように、例えば基本周波数が明瞭である場合には、基本周波数に応じてサンプル列を並べ替えたものを符号化することによって、効率の高い符号化ができる(すなわち平均符号長を小さくできる)。また、サンプル列の並べ替えによって局所領域ごとに同等か同程度の指標を有するサンプルが集中するので、可変長符号化の効率化だけでなく、量子化歪の軽減や符号量の削減が可能となっている。
<符号化装置/復号装置のハードウェア構成例>
 上述の実施形態に関わる符号化装置/復号装置は、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、CPU(Central Processing Unit)〔キャッシュメモリなどを備えていてもよい。〕、メモリであるRAM(Random Access Memory)やROM(Read Only Memory)と、ハードディスクである外部記憶装置、並びにこれらの入力部、出力部、CPU、RAM、ROM、外部記憶装置間のデータのやり取りが可能なように接続するバスなどを備えている。また必要に応じて、符号化装置/復号装置に、CD-ROMなどの記憶媒体を読み書きできる装置(ドライブ)などを設けるとしてもよい。
 符号化装置/復号装置の外部記憶装置には、符号化/復号を実行するためのプログラム並びにこのプログラムの処理において必要となるデータなどが記憶されている〔外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくなどでもよい。〕。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。以下、データやその格納領域のアドレスなどを記憶する記憶装置を単に「記憶部」と呼ぶことにする。
 符号化装置の記憶部には、音声音響信号に由来する周波数領域のサンプル列の並べ替えを行うためのプログラム、並べ替えで得られたサンプル列の符号化のためのプログラムなどが記憶されている。
 復号装置の記憶部には、入力された符号列を復号するためのプログラム、復号で得られたサンプル列を符号化装置で並べ替えが行われる前のサンプル列に回復するためのプログラムなどが記憶されている。
 符号化装置では、記憶部に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてRAMに読み込まれて、CPUで解釈実行・処理される。この結果、CPUが所定の機能(並べ替え部、符号化部)を実現することで符号化が実現される。
 復号装置では、記憶部に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてRAMに読み込まれて、CPUで解釈実行・処理される。この結果、CPUが所定の機能(復号部、回復部)を実現することで復号が実現される。
<補記>
 本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。例えば、上述の復号処理において、線形予測係数復号部10による処理と復号部11による処理とは、並列に実行することができる。
 また、上記実施形態において説明したハードウェアエンティティ(符号化装置/復号装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
 この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP-ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
 また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
 このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
 また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (26)

  1.    所定の時間区間の音響信号に由来する周波数領域のサンプル列の符号化方法であって、
       (1)上記サンプル列の全てのサンプルが含まれ、かつ、
       (2)上記サンプル列のうちの上記音響信号の周期性または基本周波数に対応するサンプルを含む一つまたは連続する複数のサンプルおよび、上記サンプル列のうちの上記音響信号の周期性または基本周波数の整数倍に対応するサンプルを含む一つまたは連続する複数のサンプル、の全部または一部のサンプルが集まるように上記サンプル列に含まれる少なくとも一部のサンプルを並べ替えたもの、
    を並べ替え後のサンプル列として出力する並べ替えステップと、
       上記並べ替えステップで得られたサンプル列を符号化する符号化ステップと
    を有する符号化方法。
  2.    請求項1に記載の符号化方法であって、
       上記音響信号の周期性を表す情報、上記音響信号の基本周波数を表す情報、上記並べ替えステップにおける上記音響信号の周期性または基本周波数に対応するサンプルと上記音響信号の周期性または基本周波数の整数倍に対応するサンプルとの間隔を表す情報、のいずれかを補助情報として出力するステップを有する
    ことを特徴とする符号化方法。
  3.    請求項1または請求項2に記載の符号化方法であって、
       上記並べ替えステップでは、
       最低の周波数から第1の所定の周波数までの各周波数に対応するサンプルの並べ替えを行う
    ことを特徴とする符号化方法。
  4.    請求項1または請求項2に記載の符号化方法であって、
       上記並べ替えステップでは、
       最低の周波数から所定の周波数までの各周波数に対応するサンプルの並べ替えを行わない
    ことを特徴とする符号化方法。
  5.    請求項3に記載の符号化方法であって、
       上記並べ替えステップでは、
       最低の周波数から上記第1の所定の周波数より小さい第2の所定の周波数までの各周波数に対応するサンプルの並べ替えを行わない
    ことを特徴とする符号化方法。
  6.    請求項1から請求項5のいずれかに記載の符号化方法であって、
       上記並べ替えステップでは、
       上記所定の時間区間の音響信号に対応する予測利得またはその推定値が予め定めた閾値以下である場合は、上記サンプル列を並べ替え後のサンプル列として出力する
    ことを特徴とする符号化方法。
  7.    所定の時間区間の音響信号に由来する周波数領域のサンプル列の符号化方法であって、
       (1)上記サンプル列の全てのサンプルが含まれ、かつ、
       (2)サンプルの大きさを反映する指標が同等か同程度のサンプルが集まるように上記サンプル列に含まれる少なくとも一部のサンプルを並べ替えたもの、
    を並べ替え後のサンプル列として出力する並べ替えステップと、
       上記並べ替えステップで得られたサンプル列を符号化する符号化ステップと
    を有する符号化方法。
  8.    請求項7に記載の符号化方法であって、
       上記並べ替えステップでは、
       上記指標は、サンプルの振幅の絶対値またはパワーであり、
       並べ替え後のサンプル列の上記指標の包絡線が周波数の増大に伴って増大傾向または下降傾向を示すように、上記サンプル列に含まれる少なくとも一部のサンプルを並べ替える
    ことを特徴とする符号化方法。
  9.    請求項1から請求項8のいずれかに記載の符号化方法であって、
       上記符号化ステップでは、
       上記並べ替えステップで得られたサンプル列のうち、(1)サンプルの大きさを反映する指標に関する予め定められた条件を満たす範囲に含まれるサンプルの集まりについて一つのサンプルごとに第1の可変長符号化を行い、(2)それ以外のサンプルの集まりの少なくとも一部について複数のサンプルごとに第2の可変長符号化を行う
    ことを特徴とする符号化方法。
  10.    請求項1から請求項8のいずれかに記載の符号化方法であって、
       上記符号化ステップでは、
       上記並べ替えステップで得られたサンプル列のうち、(1)サンプルの大きさを反映する指標に関する予め定められた条件を満たす範囲に含まれるサンプルの集まりについて一つのサンプルごとに第1の可変長符号化を行い、(2)ゼロの大きさに対応する上記指標を有するサンプルの連続数を表す符号を出力する符号化を行い、(3)それ以外のサンプルの集まりの少なくとも一部について複数のサンプルごとに第2の可変長符号化を行う
    ことを特徴とする符号化方法。
  11.    入力された符号列を復号する復号方法であって、
       所定の時間区間ごとに、
       入力された符号列を復号して、周波数領域のサンプル列を得る復号ステップと、
       上記復号ステップで得られたサンプル列に含まれる少なくとも一部のサンプルを、当該サンプル列への並べ替えを特定する情報(以下、補助情報という)に基づいて並べ替えて音響信号に由来するサンプル列を得る回復ステップと
    を有し、
       上記復号ステップで得られたサンプル列は、(1)上記音響信号に由来するサンプル列を構成する全てのサンプルを含み、かつ、(2)上記音響信号の周期性または基本周波数に対応するサンプルを含む一つまたは連続する複数のサンプルおよび、上記音響信号の周期性または基本周波数の整数倍に対応するサンプルを含む一つまたは連続する複数のサンプル、の全部または一部のサンプルが集まるように、周波数領域のサンプルが並べられたものである
    ことを特徴とする復号方法。
  12.    請求項11に記載の復号方法であって、
       上記補助情報は、上記音響信号の周期性を表す情報、上記音響信号の基本周波数を表す情報、上記音響信号の周期性または基本周波数に対応するサンプルと上記音響信号の周期性または基本周波数の整数倍に対応するサンプルとの間隔を表す情報、のいずれかである
    ことを特徴とする復号方法。
  13.    請求項11または請求項12に記載の復号方法であって、
       上記復号ステップで得られたサンプル列は、最低の周波数から第1の所定の周波数までの各周波数に対応するサンプルの並べ替えが行われたサンプル列である
    ことを特徴とする復号方法。
  14.    請求項11または請求項12に記載の復号方法であって、
       上記復号ステップで得られたサンプル列は、最低の周波数から所定の周波数までの各周波数に対応するサンプルの並べ替えが行われていないサンプル列である
    ことを特徴とする復号方法。
  15.    請求項13に記載の復号方法であって、
       上記復号ステップで得られたサンプル列は、最低の周波数から上記第1の所定の周波数より小さい第2の所定の周波数までの各周波数に対応するサンプルの並べ替えが行われていないサンプル列である
    ことを特徴とする復号方法。
  16.    請求項11から請求項15のいずれかに記載の復号方法であって、
       上記回復ステップでは、
       入力された量子化済PARCOR係数から計算される予測利得の推定値が予め定めた閾値以下である場合は、上記復号ステップで得られたサンプル列をそのまま音響信号に由来するサンプル列とする
    ことを特徴とする復号方法。
  17.    入力された符号列を復号する復号方法であって、
       所定の時間区間ごとに、
       入力された符号列を復号して、周波数領域のサンプル列を得る復号ステップと、
       上記復号ステップで得られたサンプル列に含まれる少なくとも一部のサンプルを、当該サンプル列への並べ替えを特定する情報(以下、補助情報という)に基づいて並べ替えて音響信号に由来するサンプル列を得る回復ステップと
    を有し、
       上記復号ステップで得られたサンプル列は、(1)上記音響信号に由来するサンプル列を構成する全てのサンプルを含み、かつ、(2)サンプルの大きさを反映する指標が同等か同程度のサンプルが集まるように、周波数領域のサンプルが並べられたものである
    ことを特徴とする復号方法。
  18.    請求項17に記載の復号方法であって、
       上記指標は、サンプルの振幅の絶対値またはパワーであり、
       上記復号ステップで得られたサンプル列は、並べ替えた後のサンプル列の上記指標の包絡線が周波数の増大に伴って増大傾向または下降傾向を示すように周波数領域のサンプルが並べられたものである
    ことを特徴とする復号方法。
  19.    請求項11から請求項18のいずれかに記載の復号方法であって、
       上記復号ステップでは、
       入力された符号列のうち、(1)サンプルの大きさを反映する指標に関する予め定められた条件を満たす範囲に含まれるサンプルの集まりについて一つのサンプルごとに第1の可変長符号化で得られた符号を復号し、(2)それ以外のサンプルの集まりの少なくとも一部について複数のサンプルごとに第2の可変長符号化で得られた符号を復号する
    ことを特徴とする復号方法。
  20.    請求項11から請求項18のいずれかに記載の復号方法であって、
       上記復号ステップでは、
       入力された符号列のうち、(1)サンプルの大きさを反映する指標に関する予め定められた条件を満たす範囲に含まれるサンプルの集まりについて一つのサンプルごとに第1の可変長符号化で得られた符号を復号し、(2)ゼロの大きさに対応する上記指標を有するサンプルの連続数を表す符号を復号し、(3)それ以外のサンプルの集まりの少なくとも一部について複数のサンプルごとに第2の可変長符号化で得られた符号を復号する
    ことを特徴とする復号方法。
  21.    所定の時間区間の音響信号に由来する周波数領域のサンプル列の符号化装置であって、
       (1)上記サンプル列の全てのサンプルが含まれ、かつ、
       (2)上記サンプル列のうちの上記音響信号の周期性または基本周波数に対応するサンプルを含む一つまたは連続する複数のサンプルおよび、上記サンプル列のうちの上記音響信号の周期性または基本周波数の整数倍に対応するサンプルを含む一つまたは連続する複数のサンプル、の全部または一部のサンプルが集まるように上記サンプル列に含まれる少なくとも一部のサンプルを並べ替えたもの、
    を並べ替え後のサンプル列として出力する並べ替え部と、
       上記並べ替え部によって得られたサンプル列を符号化する符号化部と
    を有する符号化装置。
  22.    所定の時間区間の音響信号に由来する周波数領域のサンプル列の符号化装置であって、
       (1)上記サンプル列の全てのサンプルが含まれ、かつ、
       (2)サンプルの大きさを反映する指標が同等か同程度のサンプルが集まるように上記サンプル列に含まれる少なくとも一部のサンプルを並べ替えたもの、
    を並べ替え後のサンプル列として出力する並べ替え部と、
       上記並べ替え部によって得られたサンプル列を符号化する符号化部と
    を有する符号化装置。
  23.    入力された符号列を復号する復号装置であって、
       所定の時間区間ごとに、
       入力された符号列を復号して、周波数領域のサンプル列を得る復号部と、
       上記復号部によって得られたサンプル列に含まれる少なくとも一部のサンプルを、当該サンプル列への並べ替えを特定する情報に基づいて並べ替えて音響信号に由来するサンプル列に戻す回復部と
    を有し、
       上記復号部によって得られたサンプル列は、(1)上記音響信号に由来するサンプル列を構成する全てのサンプルを含み、かつ、(2)上記音響信号の周期性または基本周波数に対応するサンプルを含む一つまたは連続する複数のサンプルおよび、上記音響信号の周期性または基本周波数の整数倍に対応するサンプルを含む一つまたは連続する複数のサンプル、の全部または一部のサンプルが集まるように、周波数領域のサンプルが並べられたものである
    ことを特徴とする復号装置。
  24.    入力された符号列を復号する復号装置であって、
       所定の時間区間ごとに、
       入力された符号列を復号して、周波数領域のサンプル列を得る復号部と、
       上記復号部によって得られたサンプル列に含まれる少なくとも一部のサンプルを、当該サンプル列への並べ替えを特定する情報に基づいて並べ替えて音響信号に由来するサンプル列に戻す回復部と
    を有し、
       上記復号部によって得られたサンプル列は、(1)上記音響信号に由来するサンプル列を構成する全てのサンプルを含み、かつ、(2)サンプルの大きさを反映する指標が同等か同程度のサンプルが集まるように、周波数領域のサンプルが並べられたものである
    ことを特徴とする復号装置。
  25.    請求項1から請求項10のいずれかに記載された符号化方法または請求項11から請求項20のいずれかに記載された復号方法の各ステップをコンピュータに実行させるためのプログラム。
  26.    請求項1から請求項10のいずれかに記載された符号化方法または請求項11から請求項20のいずれかに記載された復号方法の各ステップをコンピュータに実行させるためのプログラムを記録した、コンピュータが読み取り可能な記録媒体。
PCT/JP2011/072752 2010-10-05 2011-10-03 符号化方法、復号方法、符号化装置、復号装置、プログラム、記録媒体 WO2012046685A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012537696A JP5612698B2 (ja) 2010-10-05 2011-10-03 符号化方法、復号方法、符号化装置、復号装置、プログラム、記録媒体

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2010225949 2010-10-05
JP2010-225949 2010-10-05

Publications (1)

Publication Number Publication Date
WO2012046685A1 true WO2012046685A1 (ja) 2012-04-12

Family

ID=45927681

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/072752 WO2012046685A1 (ja) 2010-10-05 2011-10-03 符号化方法、復号方法、符号化装置、復号装置、プログラム、記録媒体

Country Status (2)

Country Link
JP (1) JP5612698B2 (ja)
WO (1) WO2012046685A1 (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012128022A (ja) * 2010-12-13 2012-07-05 Nippon Telegr & Teleph Corp <Ntt> 符号化方法、復号方法、符号化装置、復号装置、プログラム、記録媒体
WO2012137617A1 (ja) 2011-04-05 2012-10-11 日本電信電話株式会社 符号化方法、復号方法、符号化装置、復号装置、プログラム、記録媒体
WO2014054556A1 (ja) 2012-10-01 2014-04-10 日本電信電話株式会社 符号化方法、符号化装置、プログラム、および記録媒体
WO2014118175A1 (en) 2013-01-29 2014-08-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Noise filling concept
WO2015008783A1 (ja) * 2013-07-18 2015-01-22 日本電信電話株式会社 線形予測分析装置、方法、プログラム及び記録媒体
CN104321814A (zh) * 2012-05-23 2015-01-28 日本电信电话株式会社 编码方法、解码方法、编码装置、解码装置、程序以及记录介质
WO2015053109A1 (ja) * 2013-10-09 2015-04-16 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
WO2015146224A1 (ja) * 2014-03-24 2015-10-01 日本電信電話株式会社 符号化方法、符号化装置、プログラム、および記録媒体
JP2016045462A (ja) * 2014-08-26 2016-04-04 日本電信電話株式会社 周波数領域パラメータ列生成方法、周波数領域パラメータ列生成装置及びプログラム
WO2016121826A1 (ja) * 2015-01-30 2016-08-04 日本電信電話株式会社 符号化装置、復号装置、これらの方法、プログラム及び記録媒体
US10553231B2 (en) 2012-11-15 2020-02-04 Ntt Docomo, Inc. Audio coding device, audio coding method, audio coding program, audio decoding device, audio decoding method, and audio decoding program

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09106299A (ja) * 1995-10-09 1997-04-22 Nippon Telegr & Teleph Corp <Ntt> 音響信号変換符号化方法および復号化方法
JP2009501943A (ja) * 2005-07-15 2009-01-22 マイクロソフト コーポレーション 適応コーディングおよびデコーディングでの複数のエントロピモデルの選択的使用

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09106299A (ja) * 1995-10-09 1997-04-22 Nippon Telegr & Teleph Corp <Ntt> 音響信号変換符号化方法および復号化方法
JP2009501943A (ja) * 2005-07-15 2009-01-22 マイクロソフト コーポレーション 適応コーディングおよびデコーディングでの複数のエントロピモデルの選択的使用

Cited By (73)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012128022A (ja) * 2010-12-13 2012-07-05 Nippon Telegr & Teleph Corp <Ntt> 符号化方法、復号方法、符号化装置、復号装置、プログラム、記録媒体
US10515643B2 (en) 2011-04-05 2019-12-24 Nippon Telegraph And Telephone Corporation Encoding method, decoding method, encoder, decoder, program, and recording medium
WO2012137617A1 (ja) 2011-04-05 2012-10-11 日本電信電話株式会社 符号化方法、復号方法、符号化装置、復号装置、プログラム、記録媒体
US11024319B2 (en) 2011-04-05 2021-06-01 Nippon Telegraph And Telephone Corporation Encoding method, decoding method, encoder, decoder, program, and recording medium
US11074919B2 (en) 2011-04-05 2021-07-27 Nippon Telegraph And Telephone Corporation Encoding method, decoding method, encoder, decoder, program, and recording medium
EP3441967A1 (en) 2011-04-05 2019-02-13 Nippon Telegraph and Telephone Corporation Decoding method, decoder, program, and recording medium
CN109147827A (zh) * 2012-05-23 2019-01-04 日本电信电话株式会社 编码方法、编码装置、程序以及记录介质
EP3385950A1 (en) * 2012-05-23 2018-10-10 Nippon Telegraph and Telephone Corporation Audio decoding methods, audio decoders and corresponding program and recording medium
CN104321814A (zh) * 2012-05-23 2015-01-28 日本电信电话株式会社 编码方法、解码方法、编码装置、解码装置、程序以及记录介质
US9947331B2 (en) 2012-05-23 2018-04-17 Nippon Telegraph And Telephone Corporation Encoding method, decoding method, encoder, decoder, program and recording medium
US10096327B2 (en) 2012-05-23 2018-10-09 Nippon Telegraph And Telephone Corporation Long-term prediction and frequency domain pitch period based encoding and decoding
EP2830057A4 (en) * 2012-05-23 2016-01-13 Nippon Telegraph & Telephone ENCRYPTION METHOD, DECOMPOSITION METHOD, ENCRYPTION DEVICE, DECOMPOSITION DEVICE, PROGRAM AND RECORDING MEDIUM
JPWO2013176177A1 (ja) * 2012-05-23 2016-01-14 日本電信電話株式会社 符号化方法、復号方法、符号化装置、復号装置、プログラム、および記録媒体
CN109147827B (zh) * 2012-05-23 2023-02-17 日本电信电话株式会社 编码方法、编码装置以及记录介质
EP3576089A1 (en) * 2012-05-23 2019-12-04 Nippon Telegraph And Telephone Corporation Encoding of an audio signal
US10083703B2 (en) 2012-05-23 2018-09-25 Nippon Telegraph And Telephone Corporation Frequency domain pitch period based encoding and decoding in accordance with magnitude and amplitude criteria
CN104704559B (zh) * 2012-10-01 2017-09-15 日本电信电话株式会社 编码方法以及编码装置
KR20150041090A (ko) 2012-10-01 2015-04-15 니폰 덴신 덴와 가부시끼가이샤 부호화 방법, 부호화 장치, 프로그램 및 기록 매체
WO2014054556A1 (ja) 2012-10-01 2014-04-10 日本電信電話株式会社 符号化方法、符号化装置、プログラム、および記録媒体
US9524725B2 (en) 2012-10-01 2016-12-20 Nippon Telegraph And Telephone Corporation Encoding method, encoder, program and recording medium
CN107316646B (zh) * 2012-10-01 2020-11-10 日本电信电话株式会社 编码方法、编码装置以及记录介质
JP5893153B2 (ja) * 2012-10-01 2016-03-23 日本電信電話株式会社 符号化方法、符号化装置、プログラム、および記録媒体
EP3525208A1 (en) 2012-10-01 2019-08-14 Nippon Telegraph and Telephone Corporation Encoding method, encoder, program and recording medium
EP3252762A1 (en) 2012-10-01 2017-12-06 Nippon Telegraph and Telephone Corporation Encoding method, encoder, program and recording medium
CN104704559A (zh) * 2012-10-01 2015-06-10 日本电信电话株式会社 编码方法、编码装置、程序、以及记录介质
CN107316646A (zh) * 2012-10-01 2017-11-03 日本电信电话株式会社 编码方法、编码装置、程序、以及记录介质
US20200126578A1 (en) 2012-11-15 2020-04-23 Ntt Docomo, Inc. Audio coding device, audio coding method, audio coding program, audio decoding device, audio decoding method, and audio decoding program
US11211077B2 (en) 2012-11-15 2021-12-28 Ntt Docomo, Inc. Audio coding device, audio coding method, audio coding program, audio decoding device, audio decoding method, and audio decoding program
US11749292B2 (en) 2012-11-15 2023-09-05 Ntt Docomo, Inc. Audio coding device, audio coding method, audio coding program, audio decoding device, audio decoding method, and audio decoding program
US11195538B2 (en) 2012-11-15 2021-12-07 Ntt Docomo, Inc. Audio coding device, audio coding method, audio coding program, audio decoding device, audio decoding method, and audio decoding program
US11176955B2 (en) 2012-11-15 2021-11-16 Ntt Docomo, Inc. Audio coding device, audio coding method, audio coding program, audio decoding device, audio decoding method, and audio decoding program
US10553231B2 (en) 2012-11-15 2020-02-04 Ntt Docomo, Inc. Audio coding device, audio coding method, audio coding program, audio decoding device, audio decoding method, and audio decoding program
RU2660605C2 (ru) * 2013-01-29 2018-07-06 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Концепция заполнения шумом
US11031022B2 (en) 2013-01-29 2021-06-08 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Noise filling concept
WO2014118175A1 (en) 2013-01-29 2014-08-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Noise filling concept
WO2014118176A1 (en) 2013-01-29 2014-08-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Noise filling in perceptual transform audio coding
EP3761312A1 (en) 2013-01-29 2021-01-06 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Noise filling in perceptual transform audio coding
EP3693962A1 (en) 2013-01-29 2020-08-12 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Noise filling concept
US9524724B2 (en) 2013-01-29 2016-12-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Noise filling in perceptual transform audio coding
US9792920B2 (en) 2013-01-29 2017-10-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Noise filling concept
US10410642B2 (en) 2013-01-29 2019-09-10 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Noise filling concept
EP3471093A1 (en) 2013-01-29 2019-04-17 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Noise filling in perceptual transform audio coding
EP3451334A1 (en) 2013-01-29 2019-03-06 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Noise filling concept
RU2631988C2 (ru) * 2013-01-29 2017-09-29 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Заполнение шумом при аудиокодировании с перцепционным преобразованием
JPWO2015008783A1 (ja) * 2013-07-18 2017-03-02 日本電信電話株式会社 線形予測分析装置、方法、プログラム及び記録媒体
CN109979471B (zh) * 2013-07-18 2022-12-02 日本电信电话株式会社 线性预测分析装置、线性预测分析方法以及记录介质
CN109887520B (zh) * 2013-07-18 2022-12-02 日本电信电话株式会社 线性预测分析装置、线性预测分析方法以及记录介质
CN105378836A (zh) * 2013-07-18 2016-03-02 日本电信电话株式会社 线性预测分析装置、方法、程序以及记录介质
CN110085243B (zh) * 2013-07-18 2022-12-02 日本电信电话株式会社 线性预测分析装置、线性预测分析方法以及记录介质
WO2015008783A1 (ja) * 2013-07-18 2015-01-22 日本電信電話株式会社 線形予測分析装置、方法、プログラム及び記録媒体
CN109887520A (zh) * 2013-07-18 2019-06-14 日本电信电话株式会社 线性预测分析装置、方法、程序以及记录介质
CN109979471A (zh) * 2013-07-18 2019-07-05 日本电信电话株式会社 线性预测分析装置、方法、程序以及记录介质
CN110085243A (zh) * 2013-07-18 2019-08-02 日本电信电话株式会社 线性预测分析装置、方法、程序以及记录介质
US9781539B2 (en) 2013-10-09 2017-10-03 Sony Corporation Encoding device and method, decoding device and method, and program
WO2015053109A1 (ja) * 2013-10-09 2015-04-16 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
JPWO2015053109A1 (ja) * 2013-10-09 2017-03-09 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
RU2677597C2 (ru) * 2013-10-09 2019-01-17 Сони Корпорейшн Способ и устройство кодирования, способ и устройство декодирования и программа
KR20160122257A (ko) 2014-03-24 2016-10-21 니폰 덴신 덴와 가부시끼가이샤 부호화 방법, 부호화 장치, 프로그램 및 기록 매체
US10290310B2 (en) 2014-03-24 2019-05-14 Nippon Telegraph And Telephone Corporation Gain adjustment coding for audio encoder by periodicity-based and non-periodicity-based encoding methods
JP2017227904A (ja) * 2014-03-24 2017-12-28 日本電信電話株式会社 符号化方法、符号化装置、プログラム、および記録媒体
KR101848898B1 (ko) 2014-03-24 2018-04-13 니폰 덴신 덴와 가부시끼가이샤 부호화 방법, 부호화 장치, 프로그램 및 기록 매체
KR101826237B1 (ko) 2014-03-24 2018-02-13 니폰 덴신 덴와 가부시끼가이샤 부호화 방법, 부호화 장치, 프로그램 및 기록 매체
KR101848899B1 (ko) 2014-03-24 2018-04-13 니폰 덴신 덴와 가부시끼가이샤 부호화 방법, 부호화 장치, 프로그램 및 기록 매체
US9911427B2 (en) 2014-03-24 2018-03-06 Nippon Telegraph And Telephone Corporation Gain adjustment coding for audio encoder by periodicity-based and non-periodicity-based encoding methods
JPWO2015146224A1 (ja) * 2014-03-24 2017-04-13 日本電信電話株式会社 符号化方法、符号化装置、プログラム、および記録媒体
WO2015146224A1 (ja) * 2014-03-24 2015-10-01 日本電信電話株式会社 符号化方法、符号化装置、プログラム、および記録媒体
EP3385948A1 (en) 2014-03-24 2018-10-10 Nippon Telegraph and Telephone Corporation Encoding method, encoder, program and recording medium
CN106133830A (zh) * 2014-03-24 2016-11-16 日本电信电话株式会社 编码方法、编码装置、程序以及记录介质
US10283132B2 (en) 2014-03-24 2019-05-07 Nippon Telegraph And Telephone Corporation Gain adjustment coding for audio encoder by periodicity-based and non-periodicity-based encoding methods
EP3413306A1 (en) 2014-03-24 2018-12-12 Nippon Telegraph and Telephone Corporation Encoding method, encoder, program and recording medium
JP2016045462A (ja) * 2014-08-26 2016-04-04 日本電信電話株式会社 周波数領域パラメータ列生成方法、周波数領域パラメータ列生成装置及びプログラム
JPWO2016121826A1 (ja) * 2015-01-30 2017-11-02 日本電信電話株式会社 符号化装置、復号装置、これらの方法、プログラム及び記録媒体
WO2016121826A1 (ja) * 2015-01-30 2016-08-04 日本電信電話株式会社 符号化装置、復号装置、これらの方法、プログラム及び記録媒体

Also Published As

Publication number Publication date
JPWO2012046685A1 (ja) 2014-02-24
JP5612698B2 (ja) 2014-10-22

Similar Documents

Publication Publication Date Title
JP5612698B2 (ja) 符号化方法、復号方法、符号化装置、復号装置、プログラム、記録媒体
US11074919B2 (en) Encoding method, decoding method, encoder, decoder, program, and recording medium
JP5596800B2 (ja) 符号化方法、周期性特徴量決定方法、周期性特徴量決定装置、プログラム
US10083703B2 (en) Frequency domain pitch period based encoding and decoding in accordance with magnitude and amplitude criteria
JP5893153B2 (ja) 符号化方法、符号化装置、プログラム、および記録媒体
JP5694751B2 (ja) 符号化方法、復号方法、符号化装置、復号装置、プログラム、記録媒体
JP2013120225A (ja) 符号化方法、符号化装置、プログラム、記録媒体
JP5579932B2 (ja) 符号化方法、装置、プログラム及び記録媒体

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11830617

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2012537696

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 11830617

Country of ref document: EP

Kind code of ref document: A1