WO2019008700A1 - Audio decoding device for digital broadcasting - Google Patents

Audio decoding device for digital broadcasting Download PDF

Info

Publication number
WO2019008700A1
WO2019008700A1 PCT/JP2017/024652 JP2017024652W WO2019008700A1 WO 2019008700 A1 WO2019008700 A1 WO 2019008700A1 JP 2017024652 W JP2017024652 W JP 2017024652W WO 2019008700 A1 WO2019008700 A1 WO 2019008700A1
Authority
WO
WIPO (PCT)
Prior art keywords
scale factor
bit allocation
sub
correction
band
Prior art date
Application number
PCT/JP2017/024652
Other languages
French (fr)
Japanese (ja)
Inventor
忠俊 大久保
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to DE112017007504.1T priority Critical patent/DE112017007504B4/en
Priority to PCT/JP2017/024652 priority patent/WO2019008700A1/en
Publication of WO2019008700A1 publication Critical patent/WO2019008700A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition

Definitions

  • Patent Document 1 describes an audio reproduction apparatus that detects an abnormal frame included in audio data and replaces data of the detected abnormal frame with data of normal frames before and after.
  • the audio reproduction device is configured to perform processing for muting the abnormal frame when the abnormal frame continues.
  • Patent No. 3596978 gazette
  • the present invention has been made to solve the above-described problems, and it is an object of the present invention to provide an audio decoding device for digital broadcast that can suppress the influence of an error causing abnormal noise while leaving the original audio component. With the goal.
  • FIG. 18 is a block diagram showing a configuration of a speech decoding apparatus according to a fourth embodiment. It is a flowchart which shows the process of the speech decoding apparatus of Embodiment 4.
  • FIG. 18 is a block diagram showing the configuration of a speech decoding apparatus according to a fifth embodiment. It is a block diagram which shows the structure of the audio
  • Embodiment 1 First, the decoding process of MPEG Audio Layer 2 will be briefly described using the audio decoding apparatus 100 for digital broadcast shown in FIG.
  • MPEG Audio it is desirable to use it as a reference, since it is described in a general book.
  • “Point-up-to-date latest MPEG textbook (Pages 167-187)” published by ASCII Corporation on August 1, 1994, etc. is a reference.
  • the frame separator 11 separates the bit allocation information, the scale factor information, and the quantized sample data from the bit stream synchronized by the synchronization detector 10, and outputs the bit allocation information to the bit allocation decoder 12 for scale
  • the factor information is output to the scale factor decoder 14, and the quantized sample data is output to the inverse quantizer 13.
  • the bit allocation decoder 12 decodes the number of allocated bits of quantized sample data of each subband from the bit allocation information, and outputs the decoded bit data to the inverse quantizer 13.
  • the inverse quantizer 13 separates the quantized sample data into individual sample data for each subband, using the number of allocated bits output from the bit allocation decoder 12.
  • the dequantizer 13 outputs the separated individual sample data to the denormalizer 15.
  • the data frame format of MPEG Audio Layer 2 is shown in FIG.
  • the bit stream is composed of a series of a plurality of frames, and one frame is composed of a header, bit allocation information, cyclic redundancy check (CRC), scale factor information, quantized sample data, and additional data.
  • CRC cyclic redundancy check
  • a bit stream shown in FIG. 3 is used as an example as an example of a data frame that can be decoded normally without noise.
  • the header, the bit allocation information, the scale factor information, and the delimitation of the quantization sample data are indicated by dashed lines.
  • the quantized sample data is 58 bytes of data for each group.
  • the header is 32 bits (4 bytes) of FF FD C400, and the meaning of this header is as shown in FIG. 2B.
  • time domain data of one frame is 32 times in the frequency direction from the number of samples 1152, and 1/32 in the time direction to 32 (the number of subbands, 32 in the frequency direction Pieces) ⁇ 36 (the number of samples of each subband, 36 in the time direction). That is, each subband in one frame has 36 pieces of data.
  • the sub-band synthesizer 16 combines data of 32 sub-bands ⁇ 36 samples to restore audio data of 1152 samples in the time domain.
  • Lower frequency components that is, four bits for subbands 0 to 10, three bits for subbands 11 to 22, two bits for subbands 23 to 26, and subbands 27 to 31 in ascending order of subband numbers.
  • 0 bits of information are separately provided to Lch and Rch of Stereo respectively, and a total of 22 bytes of information is transmitted.
  • the bit allocation index is up to 4 bits, the bit allocation index can take values from 0 to up to 15. Note that the sub-bands 27-31 do not substantially transmit information.
  • each value of the quantization sample data is quantized as a value of 0 to N-1. Since the values shown in FIG. 6A are 2 n -1 (n is an integer of 2 or more), the number of bits allocated to each value is n.
  • Equation (3) corresponds to the case where the quantization level is 3 (that is, 0 to 2)
  • equation (4) corresponds to the case where the quantization level is 5 (that is, 0 to 4)
  • equation (5) corresponds to the case where the quantization level is 9 (that is, 0 to 8).
  • FIG. 6A shows the possible maximum value + 1 value of sample data (three sample values) of each subband.
  • FIG. 6B shows the number of bits allocated to sample data (three sample values) of each subband.
  • the bit allocation is always in integer units. Conversely, for granulated samples, the bit allocation is 1/3 bit per sample. Therefore, the number of bits allocated to a group of one quantized sample data of 32 subbands ⁇ 3 samples in the example of FIG. 7 is 464 bits, ie, 58.0 bytes, three times the number of bits of each sample of all 32 subbands. This is 12 times in the entire quantized sample data.
  • the scale factor information is composed of two, scale factor selection information and scale factor index information.
  • both the scale factor selection information and the scale factor index information only the information of the sub-band for which the bit allocation is made available by the bit allocation index is transmitted.
  • the scale factor selection information is assigned to each ch of Lch and Rch and to each sub-band.
  • the scale factor index information is allocated three to each ch and each subband of Lch and Rch respectively.
  • scale factor index information shares one or two of the three values with other scale factor index information according to the value of scale factor selection information.
  • the same data is used as an example at the time of normal, and the data amount of one frame in this case is as shown in the following equation (6).
  • the amount of data of one frame can be calculated using bit allocation information and scale factor information as shown in equation (6).
  • the outline of the MPEG Audio Layer 2 decoding process has been described above using an example of data that can be decoded normally.
  • speech decoding apparatus 1 according to Embodiment 1 will be described.
  • the audio decoding device 1 decodes audio of digital broadcasting.
  • bit allocation and the scale factor value become large at low frequencies because major information is present at low frequency components, and The bit allocation and the scale factor values tend to be smaller as they are.
  • the bit allocation shown in FIG. 15 is different from such a general tendency, and it is estimated that an error is introduced into the component of the high frequency sub-band in the bit allocation information.
  • the sub A correction is made so as not to allocate bits in the band.
  • This correction indicates that, for the data frame of FIG. 13, for example, the bit allocation index information shown in FIG. 15 is corrected as shown in FIG.
  • correction may be performed too much, so subbands with bit allocation 0 are continuous.
  • FIGS. 17A to 17C are diagrams showing sample data of subbands when bit allocation correction is not performed on the data frame of FIG. 18A to 18C are diagrams showing sample data of sub-bands when bit allocation correction is performed on the data frame of FIG.
  • FIG. 19 is a block diagram showing the configuration of speech decoding apparatus 1 of the first embodiment that performs such correction.
  • the speech decoding apparatus 1 includes a synchronization detector 10, a frame separator 11, a bit allocation decoder 12, an inverse quantizer 13, a scale factor decoder 14, an inverse normalizer 15, a subband synthesizer 16, and bit allocation error correction.
  • a vessel 20 The speech decoding apparatus 1 includes a synchronization detector 10, a frame separator 11, a bit allocation decoder 12, an inverse quantizer 13, a scale factor decoder 14, an inverse normalizer 15, a subband synthesizer 16, and bit allocation error correction.
  • the synchronization detector 10, the frame separator 11, the bit allocation decoder 12, the dequantizer 13, the scale factor decoder 14, the denormalizer 15 and the subband synthesizer 16 have already been described with reference to FIG. Do the same process as
  • the bit allocation error corrector 20 includes a detection unit 20a and a correction unit 20b.
  • the detection unit 20a detects a subband of a frequency where the bit allocation value is 0, that is, the bit allocation is 0, for the bit allocation information of each subband separated by the frame separator 11 and decoded by the bit allocation decoder 12. Do. Then, the detection unit 20a notifies the correction unit 20b of the subband of the lowest frequency among the subbands in which the detected bit allocation value is 0.
  • the correction unit 20 b corrects the bit allocation of the subband of a frequency higher than the subband of the lowest frequency for which the bit allocation value is 0 notified from the detection unit 20 a to 0.
  • the correction unit 20 b outputs the bit allocation information after correction to the frame separator 11. Thereby, the correction unit 20b causes the frame separator 11 to perform separation again.
  • the processing by the bit allocation decoder 12 to the subband synthesizer 16 is performed again, and the audio data is output from the subband synthesizer 16.
  • the synchronization detector 10, the frame separator 11, the bit allocation decoder 12, the dequantizer 13, the scale factor decoder 14, the denormalizer 15, the subband synthesizer 16 and the bit allocation error corrector of the speech decoding apparatus 1 Each function of 20 is realized by a processing circuit.
  • the processing circuit may be dedicated hardware or a CPU (Central Processing Unit) that executes a program stored in the memory.
  • the CPU is also called a central processing unit, a processing unit, a computing unit, a microprocessor, a microcomputer, a processor or a DSP (Digital Signal Processor).
  • Functions of parts of synchronization detector 10, frame separator 11, bit allocation decoder 12, dequantizer 13, scale factor decoder 14, denormalizer 15, subband synthesizer 16 and bit allocation error corrector 20 May be realized by combining separate processing circuits 101, or the function of each part may be realized by one processing circuit 101.
  • the CPU 103 reads out and executes the program stored in the memory 102, whereby the synchronization detector 10, the frame separator 11, the bit allocation decoder 12, the dequantizer 13, the scale factor decoder 14, the denormalizer 15, implement the functions of the sub-band synthesizer 16 and each part of the bit allocation error corrector 20. That is, the speech decoding apparatus 1 has a memory 102 for storing a program or the like that results in the execution of steps ST1 to 13 shown in the flowchart of FIG. 21 described later. Also, these programs include a synchronization detector 10, a frame separator 11, a bit allocation decoder 12, an inverse quantizer 13, a scale factor decoder 14, an inverse normalizer 15, a subband synthesizer 16 and a bit allocation error.
  • each part of the synchronization detector 10, the frame separator 11, the bit allocation decoder 12, the dequantizer 13, the scale factor decoder 14, the denormalizer 15, the subband synthesizer 16 and the bit allocation error corrector 20 Some of the functions of the above may be realized by dedicated hardware, and some may be realized by software or firmware.
  • the synchronization detector 10, the frame separator 11, the bit allocation decoder 12 and the dequantizer 13 are realized by processing circuits as dedicated hardware, and the scale factor decoder 14 and the denormalizer are realized.
  • the sub-band synthesizer 16 and the bit allocation error corrector 20 can realize their functions by the processing circuit reading and executing the program stored in the memory.
  • the processing circuit may be the above-mentioned synchronization detector 10, frame separator 11, bit allocation decoder 12, dequantizer 13, scale factor decoder 14, by hardware, software, firmware or a combination thereof.
  • the functions of the inverse normalizer 15, the subband synthesizer 16 and the parts of the bit allocation error corrector 20 can be realized.
  • the process shown in FIG. 21 is started when a bit stream of compressed speech is input to the speech decoding apparatus 1.
  • the synchronization detector 10 detects synchronization of the input compressed voice bit stream and outputs the bit stream to the frame separator 11 (step ST1).
  • the frame separator 11 separates the bit allocation information, the scale factor information, and the quantized sample data from the bit stream synchronized by the synchronization detector 10 and outputs the bit allocation information to the bit allocation decoder 12
  • the scale factor information is output to the scale factor decoder 14, and the quantized sample data is output to the inverse quantizer 13 (step ST2).
  • the bit allocation decoder 12 decodes the number of allocated bits of the quantized sample data of each subband from the bit allocation information (step ST3).
  • the bit allocation decoder 12 outputs the decoded allocation bit number to the bit allocation error corrector 20.
  • step ST6 If a subband with a bit allocation of 0 exists in a lower subband than subband i (step ST6; YES), the correction unit 20b corrects the bit allocation of subbands of frequencies higher than subband i to 0. (Step ST9). In this case, the processing from step ST2 is performed again using the corrected bit allocation, and finally time-series audio data is output.
  • the speech decoding apparatus 1 performs correction so as to delete only the high frequency sub-band data estimated to have an error, thereby reducing the low frequency not including the error causing the offending noise.
  • the data of the sub-bands of are directly decoded. Therefore, the speech decoding device 1 can suppress abnormal noise while reducing the loss of the original speech component.
  • the entire frame in which an error is detected is replaced with a normal frame before or after, or when the entire frame in which an error is detected is muted, as in the conventional case, no error is included. Even subband data will be lost.
  • the speech decoding apparatus 1 keeps bit allocation information of low frequency components while removing an error included in bit allocation information of high frequency components. Thereby, the audio
  • Second Embodiment If there is bit allocation information in which bit allocation is 0 in the middle part of subbands 0 to 31, speech decoding apparatus 1 of Embodiment 1 can detect as a frequency estimated to contain an error. it can. However, on the other hand, if there is no bit allocation information in which bit allocation is 0 in the middle part of subbands 0 to 31, speech decoding apparatus 1 of Embodiment 1 estimates the frequency estimated to contain an error. It can not be detected. Therefore, in the second embodiment, the size of a frame is calculated using bit allocation information and scale factor information, and the presence or absence of necessity of correction is determined based on whether or not the size of one frame determined by the bit rate is exceeded. The determination form will be described. The size of one frame determined by the bit rate is 768 bytes when the bit rate is 256 kbps.
  • FIG. 22 is a block diagram showing a configuration of speech decoding apparatus 1A according to Embodiment 2.
  • symbol is attached
  • the bit allocation error corrector 20 includes a determination unit 20c and a correction unit 20d.
  • the determination unit 20 c acquires bit allocation information from the bit allocation decoder 12. Further, the determination unit 20 c acquires scale factor information from the scale factor decoder 14. Also, the determination unit 20 c acquires header information from the frame separator 11 via, for example, the bit allocation decoder 12.
  • the speech decoding device 1A of the second embodiment can be realized by the processing circuit 101 shown in FIG. 20A or the memory 102 and the CPU 103 shown in FIG. 20B.
  • the determination unit 20c obtains the header information to calculate the maximum data amount N of one frame from the bit rate (step ST20).
  • the determination unit 20c calculates the data amount of the quantized sample data using the bit allocation information (step ST21), and calculates the data amount of the scale factor information using the scale factor information. (Step ST22). Then, using the amount of data calculated in step ST21 and the amount of data calculated in step ST22, the determination unit 20c calculates a total data amount n of one frame as in equation (6) (step ST23).
  • step ST24 if the total data amount n is less than or equal to the maximum data amount N (step ST24; NO), the bit allocation error corrector 20 ends the processing without performing correction by the correction unit 20d.
  • time-series audio data is output by the processes of steps ST10, 12, and 13.
  • the error check is performed by the error detector 21 shown in FIG. FIG. 25 is a block diagram showing a configuration of speech decoding apparatus 1B according to Embodiment 3.
  • symbol is attached
  • the error detector 21 performs an error check using scale factor information obtained from the frame separator 11 after the correction. Do. Specifically, as described above, the error detector 21 detects that the same scale factor index value is continuous in one and the same ch and the same sub-band. When the channel configuration is not stereo but monaural, the error detector 21 may simply detect that the same scale factor index value is continuous in the same subband.
  • the error detector 21 When the error detector 21 detects that the same scale factor index value is continuous in one and the same ch and the same sub-band, the error detector 21 determines that there is an error, and sets the frame as an error frame. The error detector 21 notifies the mute controller 18 that the frame is an error frame.
  • the mute controller 18 mutes the entire frame regarded as an error frame.
  • the audio decoding device 1B may have a configuration in which audio output is performed by replacing the frame regarded as an error frame with another frame before and after the frame, instead of the mute controller 18.
  • the speech decoding device 1B of the third embodiment can be realized by the processing circuit 101 shown in FIG. 20A or the memory 102 and the CPU 103 shown in FIG. 20B.
  • FIG. 26 is started when a bit stream of compressed speech is input to the speech decoding device 1B.
  • the same or corresponding processing as that described with reference to FIG. 21 is denoted by the same reference numeral, and the description thereof is omitted or simplified. It is assumed that the correction by the bit allocation error corrector 20 as described in the first and second embodiments is performed after the steps ST1 to ST3 (step ST30).
  • the audio decoding device 1B according to the third embodiment can suppress the generation of the abnormal noise even when the abnormal noise can not be suppressed only by the correction in the first and second embodiments.
  • bit stream of FIG. 3 shown as an example of a data frame that can be decoded normally without noise and the bit stream of FIG. 13 shown as an example of a data frame that generates noise are adjacent bit streams in time. is there.
  • the result of decoding the bit stream of FIG. 3 as it is is shown in FIG. 27, and the result of decoding the bit stream of FIG. 13 is shown in FIG.
  • the decoding result shown in FIG. 29 shows improvement in the magnitude of the abnormal sound and the length of the abnormal sound generation section in Rch.
  • strong components of abnormal noise and suspicious high frequency are still seen.
  • the scale factor index value when the decoding result of FIG. 29 is obtained is shown in FIG.
  • the actual scale factor value is as shown in FIG. 31 according to FIG.
  • the scale factors of Lch subbands 3 and 11 and the scale factor of the top of Rch subband 10 (the left end of Rch in FIG. 31) are clearly larger singular values than the adjacent subband scale factors. It has become.
  • Subband 0 has a larger value than the others, but subbands 0 to 2 are main voices, as can be seen from the use of the thickest bit allocation table as shown in FIG. 6A. It is a sub-band that gives features. Therefore, comparisons with adjacent subbands are not performed for these subbands.
  • FIG. 32 The result of having calculated the ratio of the magnitude
  • the ratio of subband 3 of (Lch) [0] is the scale factor value of subband 3 of (Lch) [0] in FIG. 31 and the scale factor value of subband 2 of (Lch) [0] in FIG. (Lch)
  • a setting sub-band is a sub-band which gives the main feature of speech like sub-band 0-2
  • the scale factor index value (index) of FIG. 10 when the scale factor index value (index) of FIG. 10 is taken as an X axis, the scale factor value (value) of FIG. 10 is taken as a Y axis, the Y axis is taken as a logarithmic axis.
  • the scale factor value is halved with each increase of the scale factor index value by 3.
  • the ratio of a scale factor value to a scale factor value of an adjacent subband is proportional to the relationship between a scale factor index value and a scale factor index value of the adjacent subband.
  • scale factor index values are often around 20 except for very low frequency components, whether a certain scale factor value is extremely large compared to the scale factor value of an adjacent subband.
  • bits 4 and 5 are both 0, that is, when the scale factor index value is less than 16, the difference from the scale factor index value of the adjacent subband is larger than when the bit 4 is 1
  • bit4 refers to 2 4-position when a represents the scale factor index value in binary
  • bit5 refers to 2 5-position when representing the scale factor index value in binary.
  • the speech decoding device 1C of the fourth embodiment can be realized by the processing circuit 101 shown in FIG. 20A or the memory 102 and the CPU 103 shown in FIG. 20B.
  • FIG. 39 is started when a bit stream of compressed speech is input to the speech decoding device 1C.
  • the same or corresponding processing as that described with reference to FIG. 21 is denoted by the same reference numeral, and the description thereof is omitted or simplified. It is assumed that the correction by the bit allocation error corrector 20 as described in the first and second embodiments is performed after the steps ST1 to ST3 (step ST40).
  • the scale factor error corrector 22 corrects the scale factor index value as needed, as described above, using the scale factor information obtained from the scale factor decoder 14 (step ST41). Then, time-series audio data is output by the processes of steps ST10, 12, and 13.
  • the audio decoding device 1C according to the fourth embodiment can suppress the generation of the abnormal noise even when the abnormal noise can not be suppressed only by the correction in the first and second embodiments.
  • Embodiment 5 Data correction at the time of decoding as shown in the first to fourth embodiments is to estimate and correct an error based on whether or not a feature that is generally considered to cause abnormal noise is observed. Therefore, it may be considered that the original sound component is corrected by mistake. Therefore, in the fifth embodiment, the correction processing as shown in the first to fourth embodiments is performed only when the reception state of the digital broadcast is bad.
  • FIG. 40 is a block diagram showing a configuration of speech decoding apparatus 1D according to Embodiment 5.
  • the components having the same or corresponding functions as those described in the first to fourth embodiments are designated by the same reference numerals, and the description thereof will be omitted or simplified.
  • the demodulator 23 demodulates the received signal of the digital broadcast wave input via the antenna, and outputs a bit stream to the synchronization detector 10. Further, the demodulator 23 outputs information indicating the reception state of the digital broadcast to the reception state determination unit 24.
  • the information indicating the reception status of the digital broadcast is a reception signal level, a carrier to noise ratio, an error rate or the like.
  • the correction controller 25 controls the bit allocation error corrector 20 and the scale factor error corrector 22 to make corrections when the reception state determiner 24 determines that the reception state is lower than the set level and is bad. Specifically, the correction controller 25 outputs a control signal instructing correction to the bit allocation error corrector 20 and the scale factor error corrector 22. On the other hand, the correction controller 25 is controlled such that the bit allocation error corrector 20 and the scale factor error corrector 22 do not perform correction when the reception state determiner 24 determines that the reception state is better than the set level. Do. Specifically, the correction controller 25 outputs a control signal for inhibiting correction to the bit allocation error corrector 20 and the scale factor error corrector 22.
  • the speech decoding device 1D can suppress erroneous correction processing when the reception state is good.
  • the audio decoding device for digital broadcast according to the present invention can suppress the influence due to an error causing abnormal noise while leaving the original audio component, it is suitable for being mounted on a vehicle etc. ing.
  • 1 to 1D speech decoder 10 sync detectors, 11 frame separators, 12 bit allocation decoders, 13 inverse quantizers, 14 scale factor decoders, 15 inverse normalizers, 16 subband synthesizers, 17 error detection 18 mute controller 20 bit allocation error corrector 20a detector 20b corrector 20c determiner 20d corrector 21 error detector 22 scale factor error corrector 23 demodulator 24 receive status , 25 correction controller, 100 speech decoders, 101 processing circuits, 102 memories, 103 CPUs.

Abstract

A detection unit (20a) detects a frequency sub-band to which zero bits are allocated in bit allocation information for each sub-band. A correction unit (20b) corrects the bit allocation to zero for a sub-band of higher frequencies than a sub-band of the lowest frequency in sub-bands to which zero bits are allocated.

Description

デジタル放送の音声復号装置Audio decoding device for digital broadcasting
 この発明は、デジタル放送の音声を復号する装置に関するものである。 The present invention relates to an apparatus for decoding digital broadcast audio.
 デジタル放送では、音声コーデックにより圧縮された音声を受信して、音声デコードが行われる。デジタル放送の受信状態が悪い場合、デコード前データ、つまり、デコードされようとしているデータに、エラーが含まれる。特に、欧州のデジタルラジオ放送(DAB;Digital Audio Broadcast)及びデジタルテレビ放送(DVB-T;Digital Video Broadcasting-Terrestrial)等で使用されている古い音声コーデックであるMPEG Audio Layer2は、エラー耐性が弱く、ビットアロケーション情報及びスケールファクタ情報等の重要な情報が、むき出しで圧縮後のデータフレームに含まれている。このため、これら重要な情報の部位にエラーが入り込むと、大きく耳障りな異音となることが多い。
 そこで、例えば特許文献1には、音声データに含まれる異常フレームを検出し、検出した異常フレームのデータを前後の正常フレームのデータに置き換える音声再生装置が記載されている。また、当該音声再生装置は、異常フレームが連続する場合に、異常フレームにミュートをかける処理を行うようにもなっている。
In digital broadcasting, voice decoding is performed by receiving voice compressed by a voice codec. If the digital broadcast reception condition is poor, the pre-decoding data, that is, the data to be decoded contains an error. In particular, the old audio codec MPEG Audio Layer 2 used in digital radio broadcast (DAB; Digital Audio Broadcast) and digital television broadcast (DVB-T; Digital Video Broadcasting-Terrestrial) etc. in Europe is less resistant to errors. Important information such as bit allocation information and scale factor information is included in the bare and compressed data frame. For this reason, if an error gets into the part of such important information, it will often become a big unpleasant noise.
Therefore, for example, Patent Document 1 describes an audio reproduction apparatus that detects an abnormal frame included in audio data and replaces data of the detected abnormal frame with data of normal frames before and after. In addition, the audio reproduction device is configured to perform processing for muting the abnormal frame when the abnormal frame continues.
特許第3596978号公報Patent No. 3596978 gazette
 しかしながら、上記特許文献1の音声再生装置のように、前後の正常フレームを用いた置き換え、また、ミュート処理を行った場合、異常とされたフレームのデータは、全く再生に使われないことになる。つまり、異常とされたフレーム内でエラーのある部位だけでなく、エラーの無い部位も全く再生に使われないことになる。したがって、元の音声成分をできるだけ残すということができなかった。 However, as in the case of the audio reproduction device of Patent Document 1 described above, when the replacement using the normal frames before and after or mute processing is performed, the data of the frame determined to be abnormal is not used at all for reproduction. . In other words, not only the errored part in the abnormal frame but also the part without error will not be used at all for reproduction. Therefore, it was not possible to leave the original speech component as much as possible.
 この発明は、上記のような課題を解決するためになされたもので、元の音声成分を残しつつ異音の原因となるエラーによる影響を抑えることができる、デジタル放送の音声復号装置を得ることを目的とする。 The present invention has been made to solve the above-described problems, and it is an object of the present invention to provide an audio decoding device for digital broadcast that can suppress the influence of an error causing abnormal noise while leaving the original audio component. With the goal.
 この発明に係るデジタル放送の音声復号装置は、各サブバンドのビットアロケーション情報について、ビット割り当てが0となる周波数のサブバンドのうち、最も低い周波数のサブバンドを検出する検出部と、検出部により検出されたビット割り当てが0となるサブバンドのうちの最も低い周波数のサブバンドよりも、高い周波数のサブバンドのビット割り当てを0に補正する補正部とを備えることを特徴とするものである。 The audio decoding apparatus for digital broadcast according to the present invention comprises a detection unit for detecting the lowest frequency sub-band among the sub-bands for which the bit allocation is 0 for the bit allocation information of each sub-band, and a detection unit And a correction unit that corrects the bit allocation of higher frequency sub-bands to 0 than the lowest frequency sub-band out of detected sub-band sub-bands.
 また、この発明に係るデジタル放送の音声復号装置は、ビットアロケーション情報とスケールファクタ情報とを用いて算出した1フレームの総データ量が、ビットレートにより特定される1フレームの最大データ量を超えるかを判定する判定部と、総データ量が最大データ量を超える場合、ビット割り当てが0ではない周波数のサブバンドのうち、最も高い周波数のサブバンドのビット割り当てを0にする補正を繰り返す補正部とを備えることを特徴とするものである。 Further, in the audio decoding device for digital broadcast according to the present invention, is it possible that the total data amount of one frame calculated using the bit allocation information and the scale factor information exceeds the maximum data amount of one frame specified by the bit rate? And a correction unit that repeats correction to set the bit allocation of the highest frequency sub-band among the sub-bands whose frequency is not 0 when the total data amount exceeds the maximum data amount. And the like.
 この発明によれば、元の音声成分を残しつつ異音の原因となるエラーによる影響を抑えることができる。 According to the present invention, it is possible to suppress the influence of an error that causes abnormal noise while leaving the original voice component.
MPEG Audio Layer2のデータフレームフォーマットを示す図である。It is a figure which shows the data frame format of MPEG Audio Layer2. ヘッダの構造を示す図である。It is a figure which shows the structure of a header. ヘッダの一例の意味を示す図である。It is a figure which shows the meaning of an example of a header. 異音無く正常にデコード可能なビットストリームの一例である。It is an example of the bit stream which can be decoded normally without noise. グループ0のサブバンドのサンプルデータの構造を示す図である。It is a figure which shows the structure of the sample data of the sub band of group 0. FIG. グループ1のサブバンドのサンプルデータの構造を示す図である。It is a figure which shows the structure of the sample data of the sub band of group 1. FIG. グループ11のサブバンドのサンプルデータの構造を示す図である。It is a figure which shows the structure of the sample data of the sub band of group 11. FIG. ビットアロケーションインデックスを示したデータの構造を示す図である。It is a figure which shows the structure of the data which showed the bit allocation index. 各サブバンドのサンプルデータが取りうる最大値+1の値を示す図である。It is a figure which shows the value of the maximum value +1 which the sample data of each sub-band can take. 各サブバンドのサンプルデータへの割り当てビット数を示す図である。It is a figure which shows the bit number allocated to the sample data of each sub-band. 図3に対応したビットアロケーションインデックス情報を示す図である。It is a figure which shows the bit allocation index information corresponding to FIG. 図3に対応したグループ0のサブバンドのサンプルデータを示す図である。It is a figure which shows the sample data of the sub-band of the group 0 corresponding to FIG. 図3に対応したグループ1のサブバンドのサンプルデータを示す図である。It is a figure which shows the sample data of the sub band of the group 1 corresponding to FIG. 図3に対応したグループ11のサブバンドのサンプルデータを示す図である。It is a figure which shows the sample data of the sub band of the group 11 corresponding to FIG. スケールファクタ選択情報の意味を示す図である。It is a figure which shows the meaning of scale factor selection information. スケールファクタインデックスとスケールファクタとの関係を示す図である。It is a figure which shows the relationship between a scale factor index and a scale factor. スケールファクタ情報の構造を示す図である。It is a figure which shows the structure of scale factor information. 図3に対応したスケールファクタ情報を示す図である。It is a figure which shows the scale factor information corresponding to FIG. 異音が発生するビットストリームの一例である。It is an example of the bit stream which noise generate | occur | produces. 異音が発生するビットストリームの図13とは異なる一例である。It is an example different from FIG. 13 of the bit stream which noise generate | occur | produces. 図13に対応したビットアロケーションインデックス情報を示す図である。It is a figure which shows the bit allocation index information corresponding to FIG. 図15のビットアロケーションインデックス情報を補正した図である。It is the figure which correct | amended the bit allocation index information of FIG. 図13に対応したグループ0のサブバンドのサンプルデータを示す図である。It is a figure which shows the sample data of the sub-band of the group 0 corresponding to FIG. 図13に対応したグループ1のサブバンドのサンプルデータを示す図である。It is a figure which shows the sample data of the sub band of the group 1 corresponding to FIG. 図13に対応したグループ11のサブバンドのサンプルデータを示す図である。It is a figure which shows the sample data of the sub band of the group 11 corresponding to FIG. 図13に対して補正を行った場合のグループ0のサブバンドのサンプルデータを示す図である。It is a figure which shows the sample data of the sub-band of the group 0 at the time of performing correction | amendment with respect to FIG. 図13に対して補正を行った場合のグループ1のサブバンドのサンプルデータを示す図である。It is a figure which shows the sample data of the sub-band of group 1 at the time of performing correction | amendment with respect to FIG. 図13に対して補正を行った場合のグループ11のサブバンドのサンプルデータを示す図である。It is a figure which shows the sample data of the sub band of the group 11 at the time of performing correction | amendment with respect to FIG. 実施の形態1の音声復号装置の構成を示すブロック図である。FIG. 1 is a block diagram showing a configuration of a speech decoding apparatus according to a first embodiment. 図20A及び図20Bは、実施の形態1の音声復号装置のハードウェア構成例を示す図である。20A and 20B are diagrams showing an example of a hardware configuration of the speech decoding apparatus according to the first embodiment. 実施の形態1の音声復号装置の処理を示すフローチャートである。5 is a flowchart showing processing of the speech decoding apparatus according to the first embodiment. 実施の形態2の音声復号装置の構成を示すブロック図である。FIG. 7 is a block diagram showing the configuration of a speech decoding apparatus according to a second embodiment. 実施の形態2の音声復号装置の処理を示すフローチャートである。7 is a flowchart showing processing of the speech decoding apparatus according to the second embodiment. 図13に対応したスケールファクタを示す図である。It is a figure which shows the scale factor corresponding to FIG. 実施の形態3の音声復号装置の構成を示すブロック図である。FIG. 16 is a block diagram showing the configuration of a speech decoding apparatus according to a third embodiment. 実施の形態3の音声復号装置の処理を示すフローチャートである。It is a flowchart which shows the process of the audio | voice decoding apparatus of Embodiment 3. FIG. 図3のビットストリームのデコード結果である。It is a decoding result of the bit stream of FIG. 図13のビットストリームのデコード結果である。It is a decoding result of the bit stream of FIG. 図13のビットストリームに対してビット割り当て補正を適用した後のデコード結果である。It is a decoding result after applying bit allocation correction | amendment with respect to the bit stream of FIG. 図29のデコード結果が得られた時のスケールファクタインデックス値を示す図である。FIG. 30 is a diagram showing scale factor index values when the decoding result of FIG. 29 is obtained. 図30に対応したスケールファクタ値を示す図である。It is a figure which shows the scale factor value corresponding to FIG. 図31のスケールファクタ値について、隣接するサブバンドのスケールファクタ値との大きさの比率を示す図である。FIG. 32 is a diagram showing a ratio of magnitudes to scale factor values of adjacent subbands for the scale factor values of FIG. 31. 図10をグラフ化した図である。It is the figure which graphed FIG. 補正後のスケールファクタインデックスを示す図である。It is a figure which shows the scale factor index after correction | amendment. 図34に対応したスケールファクタ値を示す図である。It is a figure which shows the scale factor value corresponding to FIG. 図35のスケールファクタ値について、隣接するサブバンドのスケールファクタ値との大きさの比率を示す図である。FIG. 36 is a diagram showing a ratio of magnitudes to scale factor values of adjacent sub-bands for the scale factor values of FIG. 35. スケールファクタインデックス値を補正した場合のデコード結果である。It is a decoding result at the time of correcting a scale factor index value. 実施の形態4の音声復号装置の構成を示すブロック図である。FIG. 18 is a block diagram showing a configuration of a speech decoding apparatus according to a fourth embodiment. 実施の形態4の音声復号装置の処理を示すフローチャートである。It is a flowchart which shows the process of the speech decoding apparatus of Embodiment 4. FIG. 実施の形態5の音声復号装置の構成を示すブロック図である。FIG. 18 is a block diagram showing the configuration of a speech decoding apparatus according to a fifth embodiment. 参考例としての音声復号装置の構成を示すブロック図である。It is a block diagram which shows the structure of the audio | voice decoding apparatus as a reference example.
 以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
 まず、MPEG Audio Layer2のデコード処理について、図41に示すデジタル放送の音声復号装置100を用いて簡単に説明する。なお、MPEG Audioの処理に関しては、一般書籍での解説が行われているため、参考とすることが望ましい。例えば、1994年8月1日に株式会社アスキーから発行された「ポイント図解式最新MPEG教科書(第167頁~第187頁)」等が参考となる。
Hereinafter, in order to explain the present invention in more detail, a mode for carrying out the present invention will be described according to the attached drawings.
Embodiment 1
First, the decoding process of MPEG Audio Layer 2 will be briefly described using the audio decoding apparatus 100 for digital broadcast shown in FIG. In addition, regarding the processing of MPEG Audio, it is desirable to use it as a reference, since it is described in a general book. For example, "Point-up-to-date latest MPEG textbook (Pages 167-187)" published by ASCII Corporation on August 1, 1994, etc. is a reference.
 音声復号装置100は、MPEG Audio Layer2のデコード処理を行うものであり、図41に示すように、同期検出器10、フレーム分離器11、ビットアロケーション復号器12、逆量子化器13、スケールファクタ復号器14、逆正規化器15、サブバンド合成器16、エラー検出器17及びミュート制御器18を有する。
 音声復号装置100に入力された圧縮音声のビットストリームは、同期検出器10で同期検出され、フレーム分離器11へ出力される。
The audio decoding apparatus 100 performs processing for decoding MPEG Audio Layer 2 and, as shown in FIG. 41, the synchronization detector 10, the frame separator 11, the bit allocation decoder 12, the inverse quantizer 13, the scale factor decoding as shown in FIG. , An inverse normalizer 15, a subband synthesizer 16, an error detector 17, and a mute controller 18.
The bit stream of compressed speech input to the speech decoding apparatus 100 is detected by the synchronization detector 10 in synchronization and output to the frame separator 11.
 フレーム分離器11は、同期検出器10が同期検出したビットストリームからビットアロケーション情報、スケールファクタ情報及び量子化サンプルデータの3つを分離し、ビットアロケーション情報をビットアロケーション復号器12へ出力し、スケールファクタ情報をスケールファクタ復号器14へ出力し、量子化サンプルデータを逆量子化器13へ出力する。 The frame separator 11 separates the bit allocation information, the scale factor information, and the quantized sample data from the bit stream synchronized by the synchronization detector 10, and outputs the bit allocation information to the bit allocation decoder 12 for scale The factor information is output to the scale factor decoder 14, and the quantized sample data is output to the inverse quantizer 13.
 ビットアロケーション復号器12は、ビットアロケーション情報から各サブバンドの量子化サンプルデータの割り当てビット数を復号し、逆量子化器13へ出力する。
 逆量子化器13は、ビットアロケーション復号器12が出力した割り当てビット数を用いて、量子化サンプルデータをサブバンドごとの個別のサンプルデータに分離する。逆量子化器13は、分離した個別のサンプルデータを逆正規化器15へ出力する。
The bit allocation decoder 12 decodes the number of allocated bits of quantized sample data of each subband from the bit allocation information, and outputs the decoded bit data to the inverse quantizer 13.
The inverse quantizer 13 separates the quantized sample data into individual sample data for each subband, using the number of allocated bits output from the bit allocation decoder 12. The dequantizer 13 outputs the separated individual sample data to the denormalizer 15.
 スケールファクタ復号器14は、スケールファクタ情報から各サブバンドのスケールファクタインデックス値を復号し、逆正規化器15へ出力する。
 逆正規化器15は、スケールファクタインデックス値に応じたスケールファクタ値を用いて、逆量子化器13が出力したサンプルデータを逆正規化する。逆正規化器15は、逆正規化したサンプルデータをサブバンド合成器16へ出力する。
The scale factor decoder 14 decodes the scale factor index value of each subband from the scale factor information, and outputs the value to the denormalizer 15.
The denormalizer 15 denormalizes the sample data output from the dequantizer 13 using a scale factor value corresponding to the scale factor index value. The denormalizer 15 outputs the denormalized sample data to the subband synthesizer 16.
 サブバンド合成器16は、逆正規化された各サブバンドのサンプルデータを合成し、時系列のオーディオデータとして出力する。
 なお、図41の音声復号装置100は、エラー検出器17でエラーが検出された場合、ミュート制御器18によりオーディオデータの出力が停止されて、ミュート状態となる構成になっている。
The subband synthesizer 16 synthesizes the denormalized sample data of each subband and outputs it as time-series audio data.
In the audio decoding device 100 of FIG. 41, when an error is detected by the error detector 17, the output of audio data is stopped by the mute controller 18, and the audio decoding device 100 is in the mute state.
 以下では、説明の分かりやすさと単純化のために、サンプリング周波数を48kHz、ビットレートを256kbps、チャンネル構成をStereoとした場合を例に説明する。
 MPEG Audio Layer2のデータフレームフォーマットを図1に示す。ビットストリームは、複数のフレームの連なりにより構成されており、1フレームは、ヘッダ、ビットアロケーション情報、CRC(Cyclic Redundancy Check)、スケールファクタ情報、量子化サンプルデータ及び付加データで構成される。
In the following, for the sake of easy understanding of the description and simplification, the case where the sampling frequency is 48 kHz, the bit rate is 256 kbps, and the channel configuration is Stereo will be described as an example.
The data frame format of MPEG Audio Layer 2 is shown in FIG. The bit stream is composed of a series of a plurality of frames, and one frame is composed of a header, bit allocation information, cyclic redundancy check (CRC), scale factor information, quantized sample data, and additional data.
 ヘッダは、4バイトの固定長である。ビットアロケーション情報は、ビットレートが256kbpsの場合、22バイトとなる。CRCは、ヘッダにより有無が指定され、有りの場合は2バイト、無しの場合は0バイトとなる。付加データは、パディングデータとも言われる。 The header is a fixed length of 4 bytes. The bit allocation information is 22 bytes when the bit rate is 256 kbps. The presence or absence of the CRC is designated by the header, and is 2 bytes if it is present, and 0 bytes if it is absent. The additional data is also referred to as padding data.
 1フレームは、24ms分のデータを持ち、サンプリング周波数を48kHzとしているため、1フレームのデコード後の、つまり、時間領域の連続サンプルとして表される離散オーディオデータの数は、以下の式(1)の通りとなる。
24×10-3×48=1152[samples]  ・・・(1)
 なお、Stereoなので、離散オーディオデータの数は、左側のLchと右側のRchそれぞれで、1152サンプルとなる。
 ヘッダの構造は、図2Aに示す通りである。
 ビットレートが256kbpsの場合、1フレームのデコード前のデータバイト数は、以下の式(2)の通りとなる。
256×10×24×10-3×1/8
=768[bytes]        ・・・(2)
Since one frame has data for 24 ms and the sampling frequency is 48 kHz, the number of discrete audio data after decoding of one frame, that is, represented as continuous samples in the time domain, is the following equation (1) It will be.
24 × 10 -3 × 48 3 = 1152 [samples] (1)
Since it is Stereo, the number of discrete audio data is 1152 samples for each of Lch on the left and Rch on the right.
The structure of the header is as shown in FIG. 2A.
When the bit rate is 256 kbps, the number of data bytes before decoding one frame is as shown in the following equation (2).
256 × 10 3 × 24 × 10 -3 × 1/8
= 768 [bytes] ... (2)
 以下では、具体例を説明するときに、異音無く正常にデコード可能なデータフレームの例として、図3に示すビットストリームを一例として使用する。図3では、ヘッダ、ビットアロケーション情報、スケールファクタ情報及び量子化サンプルデータの区切りをそれぞれ波線で示している。量子化サンプルデータについては、各グループごとに58バイトのデータとなっている。
 図3に示すビットストリームでは、ヘッダは、FF FD C4 00の32ビット(4バイト)となっており、このヘッダの意味は図2Bに示す通りである。
In the following, when describing a specific example, a bit stream shown in FIG. 3 is used as an example as an example of a data frame that can be decoded normally without noise. In FIG. 3, the header, the bit allocation information, the scale factor information, and the delimitation of the quantization sample data are indicated by dashed lines. The quantized sample data is 58 bytes of data for each group.
In the bit stream shown in FIG. 3, the header is 32 bits (4 bytes) of FF FD C400, and the meaning of this header is as shown in FIG. 2B.
 MPEG Audio Layer2では、エンコード時に、サブバンドフィルタバンクによって、オーディオデータが32個のサブバンドに分割され、各サブバンドの信号から不要なデータを削除して、サブバンドごとのビット割り当てが最適化及び削減されている。
 エンコード時のサブバンド分割フィルタにおいて、1フレームの時間領域データはサンプル数1152から、周波数方向に32倍、また、時間方向に1/32されて、32(サブバンド数であり、周波数方向に32個)×36(各サブバンドのサンプル数であり、時間方向に36個)のデータとなる。つまり、1フレーム中の各サブバンドはそれぞれ、36個のデータを持つ。
In MPEG Audio Layer 2, at the time of encoding, audio data is divided into 32 subbands by the subband filter bank, unnecessary data is removed from the signal of each subband, and bit allocation for each subband is optimized and It has been reduced.
In the subband division filter at the time of encoding, time domain data of one frame is 32 times in the frequency direction from the number of samples 1152, and 1/32 in the time direction to 32 (the number of subbands, 32 in the frequency direction Pieces) × 36 (the number of samples of each subband, 36 in the time direction). That is, each subband in one frame has 36 pieces of data.
 デコード時は、32サブバンド×36サンプルのデータをサブバンド合成器16が合成することで、時間領域の1152サンプルのオーディオデータが復元される。 At the time of decoding, the sub-band synthesizer 16 combines data of 32 sub-bands × 36 samples to restore audio data of 1152 samples in the time domain.
 量子化サンプルデータは、図1に示すようにグループ0~グループ11という12個のグループが並んだ構成となっている。各グループは、時間方向にそれぞれ3サンプル分のデータを持つ。具体的には、グループ0はサンプル0,1,2を持ち、グループ1は3,4,5を持ち、グループ2~グループ11も同様である。図4A~図4Cには、サブバンドのサンプルデータの基本構造を示している。図4Aではグループ0、図4Bではグループ1、図4Cではグループ11について示しているが、他のグループについても同様である。 The quantized sample data has a configuration in which 12 groups of groups 0 to 11 are arranged as shown in FIG. Each group has data for three samples in the time direction. Specifically, group 0 has samples 0, 1, 2 and group 1 has 3, 4, 5 and so forth. 4A to 4C show the basic structure of sample data of subbands. Although FIG. 4A shows group 0, FIG. 4B shows group 1 and FIG. 4C shows group 11, the same applies to other groups.
 実際の各サブバンドの量子化サンプルデータの各サンプルへのビット割り当て情報は、ビットアロケーション情報により与えられる。また、量子化サンプルデータでは、各サブバンドの振幅が正規化されており、実際の各サブバンドの振幅は、別途スケールファクタ情報により与えられる。 The bit allocation information to each sample of the quantized sample data of each actual subband is given by bit allocation information. Further, in the quantized sample data, the amplitude of each subband is normalized, and the actual amplitude of each subband is separately given by scale factor information.
 以下に、デコード時に必要なこれらビットアロケーション情報及びスケールファクタ情報のデータ構造と処理について説明する。
 まず、ビットアロケーション情報について説明する。
 ビットアロケーション情報では、ビットアロケーションインデックスとして、図5に示す構造のデータが伝送される。
The data structure and processing of these bit allocation information and scale factor information necessary for decoding will be described below.
First, bit allocation information will be described.
In the bit allocation information, data having a structure shown in FIG. 5 is transmitted as a bit allocation index.
 低い周波数成分つまり、サブバンドの番号が小さいものから順に、サブバンド0~10には4ビット、サブバンド11~22には3ビット、サブバンド23~26には2ビット、サブバンド27~31には0ビットの情報がStereoのLchとRchそれぞれに別個に与えられ、合計22バイトの情報が伝送される。ビットアロケーションインデックスは最大4ビットなので、ビットアロケーションインデックスは0から最大で15の値をとることができる。なお、サブバンド27~31は実質的に情報を伝送しない。 Lower frequency components, that is, four bits for subbands 0 to 10, three bits for subbands 11 to 22, two bits for subbands 23 to 26, and subbands 27 to 31 in ascending order of subband numbers. 0 bits of information are separately provided to Lch and Rch of Stereo respectively, and a total of 22 bytes of information is transmitted. As the bit allocation index is up to 4 bits, the bit allocation index can take values from 0 to up to 15. Note that the sub-bands 27-31 do not substantially transmit information.
 0~31のサブバンド番号と0~15のビットアロケーションインデックス値の組合せにより、図6Aに示す各サブバンドの量子化レベル値が与えられる。この値は、MPEG Audio Layer2の規格であるISO-IEC 11172-3で定められている。図6A中のnbalは、図5中のビット数に対応する。また、図6A中のindexは、ビットアロケーションインデックスを示す。 The combination of subband numbers 0 to 31 and bit allocation index values of 0 to 15 gives quantization level values for each subband shown in FIG. 6A. This value is defined by ISO-IEC 11172-3 which is a standard of MPEG Audio Layer 2. Nbal in FIG. 6A corresponds to the number of bits in FIG. Also, index in FIG. 6A indicates a bit allocation index.
 図6Aに示す量子化レベルをNとして、量子化サンプルデータの各値は0~N-1の値として量子化されている。図6Aに示す値は、2-1となっているため(nは2以上の整数)、各値への割り当てビット数はnとなる。ただし、量子化レベルが3,5,9の場合には、3つのサンプル値を下記の式(3)~(5)によってグラニュールとして1つにまとめたうえでビット割り当てを行い、所要ビット数の削減が図られているため、これに従う。式(3)は、量子化レベルが3(つまり0~2)の場合に対応し、式(4)は、量子化レベルが5(つまり0~4)の場合に対応し、式(5)は、量子化レベルが9(つまり0~8)の場合に対応する。
Figure JPOXMLDOC01-appb-I000001

Figure JPOXMLDOC01-appb-I000002

Figure JPOXMLDOC01-appb-I000003
 図6Aは、各サブバンドのサンプルデータ(3つのサンプル値)の取りうる最大値+1の値を示している。また、図6Bは、各サブバンドのサンプルデータ(3つのサンプル値)への割り当てビット数を示している。
Assuming that the quantization level shown in FIG. 6A is N, each value of the quantization sample data is quantized as a value of 0 to N-1. Since the values shown in FIG. 6A are 2 n -1 (n is an integer of 2 or more), the number of bits allocated to each value is n. However, when the quantization level is 3, 5 or 9, the three sample values are combined into one granule as a granule by the following equations (3) to (5), and then bit allocation is performed, and the required number of bits Follow this as the reduction of Equation (3) corresponds to the case where the quantization level is 3 (that is, 0 to 2), equation (4) corresponds to the case where the quantization level is 5 (that is, 0 to 4), and equation (5) Corresponds to the case where the quantization level is 9 (that is, 0 to 8).
Figure JPOXMLDOC01-appb-I000001

Figure JPOXMLDOC01-appb-I000002

Figure JPOXMLDOC01-appb-I000003
FIG. 6A shows the possible maximum value + 1 value of sample data (three sample values) of each subband. Also, FIG. 6B shows the number of bits allocated to sample data (three sample values) of each subband.
 ビットアロケーションインデックスの値と各サブバンドの量子化サンプルデータへのビット割り当ての関係については、異音無く正常にデコード可能な具体的な例を図7に示す。
 図7では、Lchのサブバンド17以降、及び、Rchのサブバンド18以降の高い周波数成分のビットアロケーションインデックス値が0となっている。このとき、サブバンドのサンプルデータについて示した図8A~図8Cに示すように、サブバンドサンプルデータはLchのサブバンド17以降、Rchのサブバンド18以降が伝送されない。また、Lchのサブバンド16以前、Rchのサブバンド17以前については、図6Aから図7に示す量子化レベル値及びサンプルのビット数となる。
The relationship between the value of the bit allocation index and the bit allocation to the quantized sample data of each sub-band is shown in FIG. 7 as a specific example that can be normally decoded without abnormal noise.
In FIG. 7, bit allocation index values of high frequency components of the Lch sub-band 17 and subsequent Rch sub-bands 18 are zero. At this time, as shown in FIGS. 8A to 8C showing sample data of subbands, subband sample data of Lch after subband 17 and subbands of Rch after 18 are not transmitted. Further, with respect to the Lch subband 16 and before the Rch subband 17, the quantization level value and the number of bits of samples shown in FIGS. 6A to 7 are obtained.
 量子化サンプルデータは、グラニュールとしてビット割り当てされるものもあるため、3サンプルを1つのグループとして、ビット割り当てが必ず整数単位となる。逆の言い方では、グラニュール化されたサンプルについては、1サンプルあたり1/3ビット単位のビット割り当てとなる。したがって、図7の例における32サブバンド×3サンプルのひとつの量子化サンプルデータのグループへの割り当てビット数は、32サブバンド全体の各サンプルのビット数の3倍で464ビットつまり58.0バイトとなり、量子化サンプルデータ全体ではこの12倍となる。 Since some of the quantized sample data are bit-allocated as granules, 3 samples are one group, and the bit allocation is always in integer units. Conversely, for granulated samples, the bit allocation is 1/3 bit per sample. Therefore, the number of bits allocated to a group of one quantized sample data of 32 subbands × 3 samples in the example of FIG. 7 is 464 bits, ie, 58.0 bytes, three times the number of bits of each sample of all 32 subbands. This is 12 times in the entire quantized sample data.
 続いて、スケールファクタ情報について説明する。
 スケールファクタ情報は、スケールファクタ選択情報とスケールファクタインデックス情報の2つから構成される。スケールファクタ選択情報とスケールファクタインデックス情報は、いずれも、ビットアロケーションインデックスによりビット割り当て有りとされたサブバンドの情報のみが伝送される。
 スケールファクタ選択情報は、Lch,Rchそれぞれの各ch、各サブバンドに1つ割り当てられる。スケールファクタインデックス情報は、Lch,Rchそれぞれの各ch、各サブバンドに3つ割り当てられる。
 ただし、スケールファクタインデックス情報は、スケールファクタ選択情報の値により、3つの値のうち1つまたは2つの値を他のスケールファクタインデックス情報と共用する。
Subsequently, scale factor information will be described.
The scale factor information is composed of two, scale factor selection information and scale factor index information. As for both the scale factor selection information and the scale factor index information, only the information of the sub-band for which the bit allocation is made available by the bit allocation index is transmitted.
The scale factor selection information is assigned to each ch of Lch and Rch and to each sub-band. The scale factor index information is allocated three to each ch and each subband of Lch and Rch respectively.
However, scale factor index information shares one or two of the three values with other scale factor index information according to the value of scale factor selection information.
 スケールファクタ選択情報(ScFsi)は、各2ビットの値であり、図9に示す意味を持つ。スケールファクタインデックス情報(ScFi)は、各6ビットの値であり、0~62のインデックス値を持ち、各インデックス値に応じて図10に示すスケールファクタ値が使用される。図10において、valueがスケールファクタ値に対応する。 The scale factor selection information (ScFsi) is a value of 2 bits each and has the meaning shown in FIG. The scale factor index information (ScFi) is a value of 6 bits each, has an index value of 0 to 62, and the scale factor value shown in FIG. 10 is used according to each index value. In FIG. 10, value corresponds to the scale factor value.
 スケールファクタ情報についても、異音無く正常にデコード可能な具体的な例を図12に示す。なお、図11は、スケールファクタ情報の構造を示したものである。
 ビット割り当て有りの各ch及びサブバンドについて、スケールファクタ選択情報(ScFsi)により1~3個のスケールファクタインデックス情報が伝送される。
 スケールファクタ選択情報(ScFsi)の所要データ量は、ビット割り当て有りのch及びサブバンドごとに2ビットであり、図12の例では70ビット(8バイト+6ビット)となる。
 スケールファクタインデックス情報(ScFi)の所要データ量は、ビット割り当て有りのch及びサブバンドごとのスケールファクタ選択情報(ScFsi)によって定まり、図12の例では294ビット(36バイト+6ビット)である。
FIG. 12 shows a specific example of the scale factor information that can be decoded normally without noise. FIG. 11 shows the structure of scale factor information.
The scale factor selection information (ScFsi) transmits one to three pieces of scale factor index information for each channel and sub-band with bit allocation.
The required data amount of the scale factor selection information (ScFsi) is 2 bits for each channel and sub-band with bit allocation, and 70 bits (8 bytes + 6 bits) in the example of FIG.
The required data amount of the scale factor index information (ScFi) is determined by ch with bit allocation and scale factor selection information (ScFsi) for each sub-band, and is 294 bits (36 bytes + 6 bits) in the example of FIG.
 ここで、図7と図12とでは正常時の例として同じデータを使用しており、この場合の1フレームのデータ量は、以下の式(6)の通りとなる。
32+176+0+(70+294)+464×12
=6140[bits]
=767[Bytes]+4[bits]   ・・・(6)
 式(6)のように、ビットアロケーション情報とスケールファクタ情報とを用いて、1フレームのデータ量を算出することができる。
Here, in FIG. 7 and FIG. 12, the same data is used as an example at the time of normal, and the data amount of one frame in this case is as shown in the following equation (6).
32 + 176 + 0 + (70 + 294) + 464 x 12
= 6140 [bits]
= 767 [Bytes] + 4 [bits] ... (6)
The amount of data of one frame can be calculated using bit allocation information and scale factor information as shown in equation (6).
 以上、正常にデコード可能な場合のデータ例を用いて、MPEG Audio Layer2のデコード処理の概要について説明した。次に、実施の形態1に係る音声復号装置1について説明する。音声復号装置1は、デジタル放送の音声を復号するものである。 The outline of the MPEG Audio Layer 2 decoding process has been described above using an example of data that can be decoded normally. Next, speech decoding apparatus 1 according to Embodiment 1 will be described. The audio decoding device 1 decodes audio of digital broadcasting.
 図13は、図3とは異なり、上記した図41の音声復号装置100によるデコード処理では、異音が発生するデータフレームの一例である。図13では、ヘッダ、ビットアロケーション情報、スケールファクタ情報及び量子化サンプルデータの区切りをそれぞれ波線で示している。量子化サンプルデータについては、各グループごとに73バイト+2ビットのデータとなっている。なお、参考までに、異音が発生するデータフレームとしては他にも、図14に示すような例も考えられる。
 図13に示すデータフレームでは、ビットアロケーションインデックス情報が図15に示す値となる。図15から分かるように、Lchのサブバンド16以上の周波数、及び、Rchのサブバンド17以上の周波数で一旦ビット割り当てが0となった後、より高域のサブバンド23~26で再びサブバンドへの0ではないビット割り当てが現れている。
FIG. 13 is an example of a data frame in which abnormal noise occurs in the decoding process by the speech decoding apparatus 100 in FIG. 41 described above, unlike FIG. 3. In FIG. 13, the header, the bit allocation information, the scale factor information, and the delimitation of the quantized sample data are indicated by dashed lines. The quantized sample data is data of 73 bytes + 2 bits for each group. For reference, another example as shown in FIG. 14 can be considered as a data frame in which abnormal noise occurs.
In the data frame shown in FIG. 13, the bit allocation index information has the values shown in FIG. As can be seen from FIG. 15, once the bit allocation becomes 0 at the frequency of Lch subband 16 or higher and the frequency of Rch 17 or higher, the subbands of high frequency subbands 23 to 26 are again generated. There is a non-zero bit allocation to appear.
 実際のオーディオデータに対してMPEG Audio Layer2に従いエンコード処理を行った場合、一般的には低い周波数成分に主要な情報が存在するために低い周波数でビット割り当て及びスケールファクタ値が大きくなり、高い周波数になるほどビット割り当て及びスケールファクタ値は小さくなる傾向を持つ。
 図15に示されるビット割り当ては、このような一般的な傾向と異なっており、ビットアロケーション情報において高い周波数のサブバンドの成分に、エラーが入り込んだものであることが推定される。
When encoding processing of actual audio data according to MPEG Audio Layer 2, generally, the bit allocation and the scale factor value become large at low frequencies because major information is present at low frequency components, and The bit allocation and the scale factor values tend to be smaller as they are.
The bit allocation shown in FIG. 15 is different from such a general tendency, and it is estimated that an error is introduced into the component of the high frequency sub-band in the bit allocation information.
 そこで、実施の形態1では、ビットアロケーション情報が一旦0となったサブバンドよりも高い周波数のサブバンドに0以外の値、つまり、ビット割り当て有りを示す値が現れた場合、当該高い周波数のサブバンドのビット割り当てを行わないような補正が行われる。
 この補正は、例えば図13のデータフレームに対しては、図15に示すビットアロケーションインデックス情報を、図16に示すように補正することを示す。
 なお、このような補正が、ビット割り当てが0となったサブバンドが1つでもあると行われるようにした場合、補正がかかりすぎる恐れもあるので、ビット割り当てが0のサブバンドが連続して出現しているかを検知し、ビット割り当てが0の連続するサブバンドの周波数のうち最も高い周波数のサブバンドよりも高い周波数のサブバンドについて、ビット割り当てを行わない、つまり、ビット割り当てを0とするようにしてもよい。
 図17A~図17Cは、図13のデータフレームに対してビット割り当ての補正を行わない場合のサブバンドのサンプルデータについて示した図である。一方、図18A~図18Cは、図13のデータフレームに対してビット割り当ての補正を行った場合のサブバンドのサンプルデータについて示した図である。
Therefore, in the first embodiment, when a value other than 0, that is, a value indicating the presence of bit allocation appears in a subband higher in frequency than a subband in which bit allocation information has once become 0, the sub A correction is made so as not to allocate bits in the band.
This correction indicates that, for the data frame of FIG. 13, for example, the bit allocation index information shown in FIG. 15 is corrected as shown in FIG.
In addition, if such correction is performed so that even if there is at least one subband in which bit allocation is 0, correction may be performed too much, so subbands with bit allocation 0 are continuous. Detecting occurrence, do not perform bit allocation for sub-bands of higher frequency than the highest frequency sub-band among bit frequencies of continuous sub-bands of 0, that is, set bit allocation to 0 You may do so.
FIGS. 17A to 17C are diagrams showing sample data of subbands when bit allocation correction is not performed on the data frame of FIG. 18A to 18C are diagrams showing sample data of sub-bands when bit allocation correction is performed on the data frame of FIG.
 図19は、このような補正を行う実施の形態1の音声復号装置1の構成を示すブロック図である。
 音声復号装置1は、同期検出器10、フレーム分離器11、ビットアロケーション復号器12、逆量子化器13、スケールファクタ復号器14、逆正規化器15、サブバンド合成器16及びビットアロケーションエラー補正器20を有する。
FIG. 19 is a block diagram showing the configuration of speech decoding apparatus 1 of the first embodiment that performs such correction.
The speech decoding apparatus 1 includes a synchronization detector 10, a frame separator 11, a bit allocation decoder 12, an inverse quantizer 13, a scale factor decoder 14, an inverse normalizer 15, a subband synthesizer 16, and bit allocation error correction. A vessel 20.
 同期検出器10、フレーム分離器11、ビットアロケーション復号器12、逆量子化器13、スケールファクタ復号器14、逆正規化器15及びサブバンド合成器16については、図41を用いて既に述べたのと同様の処理を行う。 The synchronization detector 10, the frame separator 11, the bit allocation decoder 12, the dequantizer 13, the scale factor decoder 14, the denormalizer 15 and the subband synthesizer 16 have already been described with reference to FIG. Do the same process as
 ビットアロケーションエラー補正器20は、検出部20aと補正部20bとを有する。
 検出部20aは、フレーム分離器11で分離されてビットアロケーション復号器12で復号された各サブバンドのビットアロケーション情報について、ビットアロケーション値が0、つまりビット割り当てが0となる周波数のサブバンドを検出する。そして、検出部20aは、検出したビットアロケーション値が0となるサブバンドのうち、最も低い周波数のサブバンドを補正部20bに通知する。
The bit allocation error corrector 20 includes a detection unit 20a and a correction unit 20b.
The detection unit 20a detects a subband of a frequency where the bit allocation value is 0, that is, the bit allocation is 0, for the bit allocation information of each subband separated by the frame separator 11 and decoded by the bit allocation decoder 12. Do. Then, the detection unit 20a notifies the correction unit 20b of the subband of the lowest frequency among the subbands in which the detected bit allocation value is 0.
 補正部20bは、検出部20aから通知された、ビットアロケーション値が0となる最も低い周波数のサブバンドよりも高い周波数のサブバンドのビット割り当てを0に補正する。補正部20bは、補正後のビットアロケーション情報をフレーム分離器11へ出力する。これにより、補正部20bは、フレーム分離器11での分離をやり直させる。 The correction unit 20 b corrects the bit allocation of the subband of a frequency higher than the subband of the lowest frequency for which the bit allocation value is 0 notified from the detection unit 20 a to 0. The correction unit 20 b outputs the bit allocation information after correction to the frame separator 11. Thereby, the correction unit 20b causes the frame separator 11 to perform separation again.
 フレーム分離器11でのやり直しを受け、再度ビットアロケーション復号器12~サブバンド合成器16による処理が行われて、サブバンド合成器16からオーディオデータが出力される。 After being reworked in the frame separator 11, the processing by the bit allocation decoder 12 to the subband synthesizer 16 is performed again, and the audio data is output from the subband synthesizer 16.
 ここで、音声復号装置1のハードウェア構成例について、図20A及び図20Bを用いて説明する。
 音声復号装置1の同期検出器10、フレーム分離器11、ビットアロケーション復号器12、逆量子化器13、スケールファクタ復号器14、逆正規化器15、サブバンド合成器16及びビットアロケーションエラー補正器20の各機能は、処理回路により実現される。当該処理回路は、専用のハードウェアであっても、メモリに格納されるプログラムを実行するCPU(Central Processing Unit)であってもよい。CPUは、中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、プロセッサ又はDSP(Digital Signal Processor)とも呼ばれる。
Here, a hardware configuration example of the speech decoding device 1 will be described using FIGS. 20A and 20B.
The synchronization detector 10, the frame separator 11, the bit allocation decoder 12, the dequantizer 13, the scale factor decoder 14, the denormalizer 15, the subband synthesizer 16 and the bit allocation error corrector of the speech decoding apparatus 1 Each function of 20 is realized by a processing circuit. The processing circuit may be dedicated hardware or a CPU (Central Processing Unit) that executes a program stored in the memory. The CPU is also called a central processing unit, a processing unit, a computing unit, a microprocessor, a microcomputer, a processor or a DSP (Digital Signal Processor).
 図20Aは、同期検出器10、フレーム分離器11、ビットアロケーション復号器12、逆量子化器13、スケールファクタ復号器14、逆正規化器15、サブバンド合成器16及びビットアロケーションエラー補正器20の各部の機能を、専用のハードウェアである処理回路101で実現した場合のハードウェア構成例を示す図である。処理回路101は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC(Application Specific Integrated Circuit)、若しくはFPGA(Field Programmable Gate Array)、又はこれらを組み合わせたものが該当する。同期検出器10、フレーム分離器11、ビットアロケーション復号器12、逆量子化器13、スケールファクタ復号器14、逆正規化器15、サブバンド合成器16及びビットアロケーションエラー補正器20の各部の機能を別個の処理回路101を組み合わせて実現してもよいし、各部の機能を1つの処理回路101で実現してもよい。 FIG. 20A shows a synchronization detector 10, a frame separator 11, a bit allocation decoder 12, an inverse quantizer 13, a scale factor decoder 14, an inverse normalizer 15, a subband synthesizer 16 and a bit allocation error corrector 20. It is a figure which shows the example of a hardware configuration at the time of implement | achieving the function of each part of with the processing circuit 101 which is exclusive hardware. The processing circuit 101 may be, for example, a single circuit, a complex circuit, a programmed processor, a parallel programmed processor, an application specific integrated circuit (ASIC), a field programmable gate array (FPGA), or a combination thereof. Do. Functions of parts of synchronization detector 10, frame separator 11, bit allocation decoder 12, dequantizer 13, scale factor decoder 14, denormalizer 15, subband synthesizer 16 and bit allocation error corrector 20 May be realized by combining separate processing circuits 101, or the function of each part may be realized by one processing circuit 101.
 図20Bは、同期検出器10、フレーム分離器11、ビットアロケーション復号器12、逆量子化器13、スケールファクタ復号器14、逆正規化器15、サブバンド合成器16及びビットアロケーションエラー補正器20の各部の機能を、メモリ102に格納されるプログラムを実行するCPU103で実現した場合のハードウェア構成例を示す図である。この場合、同期検出器10、フレーム分離器11、ビットアロケーション復号器12、逆量子化器13、スケールファクタ復号器14、逆正規化器15、サブバンド合成器16及びビットアロケーションエラー補正器20の各部の機能は、ソフトウェア、ファームウェア、又はソフトウェアとファームウェアとの組合せにより実現される。ソフトウェア及びファームウェアはプログラムとして記述され、メモリ102に格納される。CPU103は、メモリ102に格納されたプログラムを読み出して実行することにより、同期検出器10、フレーム分離器11、ビットアロケーション復号器12、逆量子化器13、スケールファクタ復号器14、逆正規化器15、サブバンド合成器16及びビットアロケーションエラー補正器20の各部の機能を実現する。すなわち、音声復号装置1は、後述する図21のフローチャートで示すステップST1~13が結果的に実行されることになるプログラム等を格納するためのメモリ102を有する。また、これらのプログラムは、同期検出器10、フレーム分離器11、ビットアロケーション復号器12、逆量子化器13、スケールファクタ復号器14、逆正規化器15、サブバンド合成器16及びビットアロケーションエラー補正器20の各部の手順又は方法をコンピュータに実行させるものであるとも言える。ここで、メモリ102は、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ、EPROM(Erasable Programmable ROM)、若しくはEEPROM(Electrically Erasable Programmable ROM)等の、不揮発性若しくは揮発性の半導体メモリ、又は、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、若しくはDVD(Digital Versatile Disc)等のディスク状の記録媒体等及びその組合せが該当する。 FIG. 20B shows synchronization detector 10, frame separator 11, bit allocation decoder 12, dequantizer 13, scale factor decoder 14, denormalizer 15, subband synthesizer 16 and bit allocation error corrector 20. FIG. 6 is a diagram illustrating an example of a hardware configuration in the case where the functions of the respective units are realized by the CPU 103 that executes a program stored in the memory 102. In this case, synchronization detector 10, frame separator 11, bit allocation decoder 12, dequantizer 13, scale factor decoder 14, denormalizer 15, subband synthesizer 16 and bit allocation error corrector 20 are used. The function of each unit is realized by software, firmware, or a combination of software and firmware. The software and the firmware are described as a program and stored in the memory 102. The CPU 103 reads out and executes the program stored in the memory 102, whereby the synchronization detector 10, the frame separator 11, the bit allocation decoder 12, the dequantizer 13, the scale factor decoder 14, the denormalizer 15, implement the functions of the sub-band synthesizer 16 and each part of the bit allocation error corrector 20. That is, the speech decoding apparatus 1 has a memory 102 for storing a program or the like that results in the execution of steps ST1 to 13 shown in the flowchart of FIG. 21 described later. Also, these programs include a synchronization detector 10, a frame separator 11, a bit allocation decoder 12, an inverse quantizer 13, a scale factor decoder 14, an inverse normalizer 15, a subband synthesizer 16 and a bit allocation error. It can also be said that the procedure or method of each part of the corrector 20 is to be executed by a computer. Here, the memory 102 is, for example, nonvolatile or volatile, such as a random access memory (RAM), a read only memory (ROM), a flash memory, an erasable programmable ROM (EPROM), or an electrically erasable programmable ROM (EEPROM). A semiconductor memory or a disc-shaped recording medium such as a magnetic disc, a flexible disc, an optical disc, a compact disc, a mini disc, a DVD (Digital Versatile Disc), or the like, and a combination thereof are applicable.
 なお、同期検出器10、フレーム分離器11、ビットアロケーション復号器12、逆量子化器13、スケールファクタ復号器14、逆正規化器15、サブバンド合成器16及びビットアロケーションエラー補正器20の各部の機能について、一部を専用のハードウェアで実現し、一部をソフトウェア又はファームウェアで実現するようにしてもよい。例えば、同期検出器10、フレーム分離器11、ビットアロケーション復号器12及び逆量子化器13については専用のハードウェアとしての処理回路でその機能を実現し、スケールファクタ復号器14、逆正規化器15、サブバンド合成器16及びビットアロケーションエラー補正器20については処理回路がメモリに格納されたプログラムを読み出して実行することによってその機能を実現することが可能である。 Note that each part of the synchronization detector 10, the frame separator 11, the bit allocation decoder 12, the dequantizer 13, the scale factor decoder 14, the denormalizer 15, the subband synthesizer 16 and the bit allocation error corrector 20 Some of the functions of the above may be realized by dedicated hardware, and some may be realized by software or firmware. For example, the synchronization detector 10, the frame separator 11, the bit allocation decoder 12 and the dequantizer 13 are realized by processing circuits as dedicated hardware, and the scale factor decoder 14 and the denormalizer are realized. The sub-band synthesizer 16 and the bit allocation error corrector 20 can realize their functions by the processing circuit reading and executing the program stored in the memory.
 このように、処理回路は、ハードウェア、ソフトウェア、ファームウェア又はこれらの組合せによって、上記の同期検出器10、フレーム分離器11、ビットアロケーション復号器12、逆量子化器13、スケールファクタ復号器14、逆正規化器15、サブバンド合成器16及びビットアロケーションエラー補正器20の各部の機能を実現することができる。 Thus, the processing circuit may be the above-mentioned synchronization detector 10, frame separator 11, bit allocation decoder 12, dequantizer 13, scale factor decoder 14, by hardware, software, firmware or a combination thereof. The functions of the inverse normalizer 15, the subband synthesizer 16 and the parts of the bit allocation error corrector 20 can be realized.
 次に、上記のように構成された音声復号装置1の処理の一例について、図21に示すフローチャートを用いて説明する。図21に示す処理は、音声復号装置1に圧縮音声のビットストリームが入力されると開始される。
 まず、同期検出器10が、入力された圧縮音声のビットストリームを同期検出し、フレーム分離器11へ出力する(ステップST1)。
 続いて、フレーム分離器11が、同期検出器10が同期検出したビットストリームからビットアロケーション情報、スケールファクタ情報及び量子化サンプルデータの3つを分離し、ビットアロケーション情報をビットアロケーション復号器12へ出力し、スケールファクタ情報をスケールファクタ復号器14へ出力し、量子化サンプルデータを逆量子化器13へ出力する(ステップST2)。
Next, an example of the process of the speech decoding device 1 configured as described above will be described using the flowchart shown in FIG. The process shown in FIG. 21 is started when a bit stream of compressed speech is input to the speech decoding apparatus 1.
First, the synchronization detector 10 detects synchronization of the input compressed voice bit stream and outputs the bit stream to the frame separator 11 (step ST1).
Subsequently, the frame separator 11 separates the bit allocation information, the scale factor information, and the quantized sample data from the bit stream synchronized by the synchronization detector 10 and outputs the bit allocation information to the bit allocation decoder 12 Then, the scale factor information is output to the scale factor decoder 14, and the quantized sample data is output to the inverse quantizer 13 (step ST2).
 ビットアロケーション復号器12は、ビットアロケーション情報から各サブバンドの量子化サンプルデータの割り当てビット数を復号する(ステップST3)。ビットアロケーション復号器12は、復号した割り当てビット数をビットアロケーションエラー補正器20へ出力する。 The bit allocation decoder 12 decodes the number of allocated bits of the quantized sample data of each subband from the bit allocation information (step ST3). The bit allocation decoder 12 outputs the decoded allocation bit number to the bit allocation error corrector 20.
 検出部20aは、処理の対象とするサブバンドiを、まずi=0に設定する(ステップST4)。
 続いて、検出部20aは、サブバンドiのビット割り当てが0以外であるかを判定する(ステップST5)。
 サブバンドiのビット割り当てが0以外である場合(ステップST5;YES)、処理は、ステップST7の処理に移る。
 一方、サブバンドiのビット割り当てが0である場合(ステップST5;NO)、検出部20aは、ビット割り当てが0のサブバンドがサブバンドiより低いサブバンドに存在するかを判定する(ステップST6)。
The detection unit 20a first sets a subband i to be processed as i = 0 (step ST4).
Subsequently, the detection unit 20a determines whether the bit allocation of subband i is other than 0 (step ST5).
If the bit allocation of subband i is other than 0 (step ST5; YES), the process proceeds to the process of step ST7.
On the other hand, when the bit allocation of subband i is 0 (step ST5; NO), detection unit 20a determines whether a subband of bit allocation 0 is present in a subband lower than subband i (step ST6). ).
 ビット割り当てが0のサブバンドがサブバンドiより低いサブバンドに存在しない場合(ステップST6;NO)、検出部20aは、i=i+1とするインクリメント処理を行う(ステップST7)。
 続いて、検出部20aは、iが32よりも小さいかを判定する(ステップST8)。
 iが32よりも小さい場合(ステップST8;YES)、処理は、ステップST6の処理に戻る。
 一方、iが32以上の場合(ステップST8;NO)、ビットアロケーションエラー補正器20は補正部20bによる補正を行わずに処理を終える。この場合、逆量子化器13は、補正無しの割り当てビット数を用いて、量子化サンプルデータをサブバンドごとの個別のサンプルデータに分離する逆量子化を行う(ステップST10)。また、スケールファクタ復号器14は、スケールファクタ情報から各サブバンドのスケールファクタインデックス値を復号する(ステップST11)。そして、逆正規化器15は、スケールファクタインデックス値に応じたスケールファクタ値を用いて、逆量子化器13が出力したサンプルデータを逆正規化する(ステップST12)。最後に、サブバンド合成器16は、逆正規化された各サブバンドのサンプルデータを合成し、時系列のオーディオデータとして出力する(ステップST13)。
If a subband with a bit allocation of 0 does not exist in a subband lower than subband i (step ST6; NO), the detection unit 20a performs an increment process to set i = i + 1 (step ST7).
Subsequently, the detection unit 20a determines whether i is smaller than 32 (step ST8).
If i is smaller than 32 (step ST8; YES), the process returns to the process of step ST6.
On the other hand, when i is 32 or more (step ST8; NO), the bit allocation error corrector 20 ends the process without performing correction by the correction unit 20b. In this case, the dequantizer 13 dequantizes the quantized sample data into individual sample data for each sub-band using the allocated number of bits without correction (step ST10). Further, the scale factor decoder 14 decodes the scale factor index value of each sub-band from the scale factor information (step ST11). Then, the denormalizer 15 denormalizes the sample data output from the dequantizer 13 using a scale factor value corresponding to the scale factor index value (step ST12). Finally, the sub-band synthesizer 16 synthesizes the denormalized sample data of each sub-band and outputs it as time-series audio data (step ST13).
 ビット割り当てが0のサブバンドがサブバンドiよりも低いサブバンドに存在する場合(ステップST6;YES)、補正部20bは、サブバンドiよりも高い周波数のサブバンドのビット割り当てを0に補正する(ステップST9)。この場合、補正したビット割り当てを用いて、再度ステップST2から処理が行われ、最終的に時系列のオーディオデータが出力される。 If a subband with a bit allocation of 0 exists in a lower subband than subband i (step ST6; YES), the correction unit 20b corrects the bit allocation of subbands of frequencies higher than subband i to 0. (Step ST9). In this case, the processing from step ST2 is performed again using the corrected bit allocation, and finally time-series audio data is output.
 このように、音声復号装置1は、エラーが発生したと推定した高い周波数のサブバンドのデータに限って削除する補正を行うことで、耳障りな異音の原因となるエラーを含んでいない低い周波数のサブバンドのデータについてはそのままデコードを行う。したがって、音声復号装置1は、元の音声成分の欠落を減らしつつ、異音を抑えることができる。
 これに対し、従来のように、エラーが検出されたフレームの全体を前後の正常なフレームで置き換えた場合、又は、エラーが検出されたフレーム全体にミュートをかけた場合は、エラーを含んでいないサブバンドのデータまでも欠落してしまうことになる。
As described above, the speech decoding apparatus 1 performs correction so as to delete only the high frequency sub-band data estimated to have an error, thereby reducing the low frequency not including the error causing the offending noise. The data of the sub-bands of are directly decoded. Therefore, the speech decoding device 1 can suppress abnormal noise while reducing the loss of the original speech component.
On the other hand, when the entire frame in which an error is detected is replaced with a normal frame before or after, or when the entire frame in which an error is detected is muted, as in the conventional case, no error is included. Even subband data will be lost.
 以上のように、この実施の形態1に係る音声復号装置1は、高い周波数成分のビットアロケーション情報に含まれるエラーを取り除きながら、低い周波数成分のビットアロケーション情報は保ったままとする。これにより、音声復号装置1は、元の音声成分を残しつつ異音の原因となるエラーによる影響を抑えたデコードを行うことができる。 As described above, the speech decoding apparatus 1 according to the first embodiment keeps bit allocation information of low frequency components while removing an error included in bit allocation information of high frequency components. Thereby, the audio | voice decoding apparatus 1 can perform the decoding which suppressed the influence by the error which causes abnormal noise, leaving an original audio | voice component.
実施の形態2.
 実施の形態1の音声復号装置1は、サブバンド0~31の中間部分にビット割り当てが0となるビットアロケーション情報がある場合には、エラーを含んでいると推定される周波数として検出することができる。しかし一方で、実施の形態1の音声復号装置1は、サブバンド0~31の中間部分にビット割り当てが0となるビットアロケーション情報が無い場合には、エラーを含んでいると推定される周波数を検出することができない。
 そこで、実施の形態2では、ビット割り当て情報とスケールファクタ情報とを用いてフレームのサイズを算出し、ビットレートにより定まる1フレームのサイズを超えているか否かに基づき、補正の必要性の有無を判定する形態について説明する。なお、ビットレートにより定まる1フレームのサイズは、ビットレートが256kbpsの場合は、768バイトである。
Second Embodiment
If there is bit allocation information in which bit allocation is 0 in the middle part of subbands 0 to 31, speech decoding apparatus 1 of Embodiment 1 can detect as a frequency estimated to contain an error. it can. However, on the other hand, if there is no bit allocation information in which bit allocation is 0 in the middle part of subbands 0 to 31, speech decoding apparatus 1 of Embodiment 1 estimates the frequency estimated to contain an error. It can not be detected.
Therefore, in the second embodiment, the size of a frame is calculated using bit allocation information and scale factor information, and the presence or absence of necessity of correction is determined based on whether or not the size of one frame determined by the bit rate is exceeded. The determination form will be described. The size of one frame determined by the bit rate is 768 bytes when the bit rate is 256 kbps.
 図22は、実施の形態2に係る音声復号装置1Aの構成を示すブロック図である。なお、実施の形態1で既に説明した構成と同一又は相当する機能を有する構成については、同一の符号を付し、その説明を省略又は簡略化する。 FIG. 22 is a block diagram showing a configuration of speech decoding apparatus 1A according to Embodiment 2. In addition, about the structure which has a function the same as that of the structure already demonstrated in Embodiment 1, or equivalent, the same code | symbol is attached | subjected, and the description is abbreviate | omitted or simplified.
 ビットアロケーションエラー補正器20は、判定部20cと補正部20dとを有する。
 判定部20cは、ビットアロケーション復号器12からビットアロケーション情報を取得する。また、判定部20cは、スケールファクタ復号器14からスケールファクタ情報を取得する。また、判定部20cは、例えばビットアロケーション復号器12を介してフレーム分離器11からヘッダ情報を取得する。
The bit allocation error corrector 20 includes a determination unit 20c and a correction unit 20d.
The determination unit 20 c acquires bit allocation information from the bit allocation decoder 12. Further, the determination unit 20 c acquires scale factor information from the scale factor decoder 14. Also, the determination unit 20 c acquires header information from the frame separator 11 via, for example, the bit allocation decoder 12.
 判定部20cは、上記の式(6)を用いて説明したように、ビットアロケーション復号器12が復号したビットアロケーション情報とスケールファクタ復号器14が復号したスケールファクタ情報とを用いて、1フレームの総データ量を算出する。また、判定部20cは、ヘッダ情報からビットレートを特定し、特定したビットレートから1フレームの最大データ量を算出する。そして、判定部20cは、ビットアロケーション情報とスケールファクタ情報とを用いて算出した1フレームの総データ量と、ビットレートを用いて特定した1フレームの最大データ量とを比較し、比較した結果を補正部20dへ出力する。 The determination unit 20 c uses the bit allocation information decoded by the bit allocation decoder 12 and the scale factor information decoded by the scale factor decoder 14 as described with reference to Equation (6) above. Calculate the total data volume. Further, the determination unit 20c specifies a bit rate from the header information, and calculates the maximum data amount of one frame from the specified bit rate. Then, the determination unit 20 c compares the total data amount of one frame calculated using the bit allocation information and the scale factor information with the maximum data amount of one frame specified using the bit rate, and compares the comparison result. Output to the correction unit 20d.
 補正部20dは、ビットアロケーション情報とスケールファクタ情報とを用いて算出された1フレームの総データ量が、ビットレートを用いて算出された1フレームの最大データ量を超えている場合、高い周波数のビットアロケーション情報を削除する補正を行う。具体的には、補正部20dは、ビット割り当てが0ではない周波数のサブバンドのうち、最も高い周波数のサブバンドのビット割り当てを0に補正して、補正後のビットアロケーション情報をフレーム分離器11へ出力する。これにより、補正部20dは、フレーム分離器11での分離をやり直させる。このような補正処理は、式(6)のようにして算出される1フレームの総データ量が、ビットレートを用いて算出された1フレームの最大データ量以下になるまで繰り返される。これにより、高い周波数のサブバンド成分の間違ったビット割り当てによる異音の発生を抑える。 If the total data amount of one frame calculated using the bit allocation information and the scale factor information exceeds the maximum data amount of one frame calculated using the bit rate, the correction unit 20d detects a high frequency Perform correction to delete bit allocation information. Specifically, the correction unit 20 d corrects the bit allocation of the highest frequency sub-band among the sub-bands of non-zero bit allocations to 0 and sets the corrected bit allocation information to the frame separator 11. Output to Thereby, the correction unit 20d causes the frame separator 11 to perform separation again. Such correction processing is repeated until the total data amount of one frame calculated as shown in Equation (6) becomes equal to or less than the maximum data amount of one frame calculated using the bit rate. This suppresses the generation of abnormal noise due to incorrect bit allocation of high frequency sub-band components.
 実施の形態2の音声復号装置1Aについても、実施の形態1の音声復号装置1と同様に、図20Aに示す処理回路101、又は、図20Bに示すメモリ102及びCPU103で実現することができる。 Similarly to the speech decoding device 1 of the first embodiment, the speech decoding device 1A of the second embodiment can be realized by the processing circuit 101 shown in FIG. 20A or the memory 102 and the CPU 103 shown in FIG. 20B.
 次に、上記のように構成された音声復号装置1Aの処理の一例について、図23に示すフローチャートを用いて説明する。図23に示す処理は、音声復号装置1Aに圧縮音声のビットストリームが入力されると開始される。また、図21で説明した処理と同一又は相当する処理については、同一の符号を付し、その説明を省略又は簡略化する。
 ステップST1,2の後、判定部20cは、ヘッダ情報を取得することで、ビットレートから1フレームの最大データ量Nを算出する(ステップST20)。また、ステップST3,11の後、判定部20cは、ビットアロケーション情報を用いて量子化サンプルデータのデータ量を算出し(ステップST21)、スケールファクタ情報を用いてスケールファクタ情報のデータ量を算出する(ステップST22)。
 そして、判定部20cは、ステップST21で算出したデータ量とステップST22で算出したデータ量とを用いて、式(6)の通り1フレームの総データ量nを算出する(ステップST23)。
Next, an example of the process of the speech decoding device 1A configured as described above will be described using the flowchart shown in FIG. The process shown in FIG. 23 is started when a bit stream of compressed speech is input to the speech decoding apparatus 1A. The same or corresponding processing as that described with reference to FIG. 21 is denoted by the same reference numeral, and the description thereof is omitted or simplified.
After steps ST1 and ST2, the determination unit 20c obtains the header information to calculate the maximum data amount N of one frame from the bit rate (step ST20). In addition, after steps ST3 and 11, the determination unit 20c calculates the data amount of the quantized sample data using the bit allocation information (step ST21), and calculates the data amount of the scale factor information using the scale factor information. (Step ST22).
Then, using the amount of data calculated in step ST21 and the amount of data calculated in step ST22, the determination unit 20c calculates a total data amount n of one frame as in equation (6) (step ST23).
 続いて、判定部20cは、総データ量nが最大データ量Nを超えるかを判定する(ステップST24)。
 総データ量nが最大データ量Nを超える場合(ステップST24;YES)、補正部20dは、ビット割り当てが0ではない最も周波数の高いサブバンドのビット割り当てを0に補正して、補正後のビットアロケーション情報をフレーム分離器11へ出力する(ステップST25)。この場合、補正したビット割り当てを用いて、再度ステップST2から処理が行われ、最終的に時系列のオーディオデータが出力される。
Subsequently, the determination unit 20c determines whether the total data amount n exceeds the maximum data amount N (step ST24).
If the total data amount n exceeds the maximum data amount N (step ST24; YES), the correction unit 20d corrects the bit allocation of the highest frequency sub-band whose bit allocation is not 0 to 0, and the corrected bit Allocation information is output to the frame separator 11 (step ST25). In this case, the processing from step ST2 is performed again using the corrected bit allocation, and finally time-series audio data is output.
 一方、総データ量nが最大データ量N以下の場合(ステップST24;NO)、ビットアロケーションエラー補正器20は補正部20dによる補正を行わずに処理を終える。この場合、ステップST10,12,13の処理により、時系列のオーディオデータが出力される。 On the other hand, if the total data amount n is less than or equal to the maximum data amount N (step ST24; NO), the bit allocation error corrector 20 ends the processing without performing correction by the correction unit 20d. In this case, time-series audio data is output by the processes of steps ST10, 12, and 13.
 以上のように、この実施の形態2に係る音声復号装置1Aは、高い周波数成分のビットアロケーション情報に含まれるエラーを取り除きながら、低い周波数成分のビットアロケーション情報は保ったままとする。これにより、音声復号装置1Aは、元の音声成分を残しつつ異音の原因となるエラーによる影響を抑えたデコードを行うことができる。 As described above, the speech decoding apparatus 1A according to the second embodiment keeps bit allocation information of low frequency components while removing an error included in bit allocation information of high frequency components. As a result, the speech decoding device 1A can perform decoding while leaving the original speech component and suppressing the influence of an error that causes abnormal noise.
実施の形態3.
 実施の形態1及び実施の形態2では、エラーを含んでいると推定される高い周波数のサブバンドのビット割り当てを0とする補正について示したが、エラーの存在を推定できないケースも考えられる。したがって、ビットアロケーション情報の補正後もエラーを含んでいると疑われる場合には、フレーム全体をミュートするなどの最終的なエラー処理を行うことが望ましい。
 そこで、実施の形態3では、実施の形態1及び実施の形態2で示したようなビットアロケーション情報の補正を行った後のスケールファクタインデックス値についてエラーチェックを行い、エラーが検出されたフレームをエラーフレームとする形態について説明する。
Third Embodiment
In the first embodiment and the second embodiment, although the correction for setting the bit allocation of the high frequency sub-band assumed to contain an error to 0 is shown, there may be a case where the presence of an error can not be estimated. Therefore, if it is suspected that an error is included even after correction of bit allocation information, it is desirable to perform final error processing such as muting the entire frame.
Therefore, in the third embodiment, an error check is performed on a scale factor index value after correction of bit allocation information as described in the first embodiment and the second embodiment, and a frame in which an error is detected is an error. The form of the frame will be described.
 スケールファクタインデックスが、ひとつの同じchかつ同じサブバンドに2~3個与えられる場合、つまり、スケールファクタ選択情報ScFsiが0,1,3の場合、隣接する別のスケールファクタインデックスが同じ値となることは、一般的にはありえない。
 これは、例えば、図13に示した異音が発生するデータフレームに対応するビット割り当て補正前のスケールファクタを示す図24において、Rchのサブバンド2,10,13に与えられている2つのスケールファクタインデックスが同じ値となっているようなケースが該当する。音声符号化装置は、このような場合には通常、スケールファクタ選択情報を2としてスケールファクタインデックスの値をひとつだけ送るので、ひとつの同じchかつ同じサブバンドにおいて、隣接する別のスケールファクタインデックスが同じ値となる場合には、ビット割り当てが間違っている可能性が高い。
When scale factor index is given to one and the same ch and the same sub-band two to three, that is, when scale factor selection information ScFsi is 0, 1, 3, adjacent scale factor indices have the same value. Things generally can not happen.
This corresponds to, for example, the two scales given to Rch subbands 2, 10, and 13 in FIG. 24 showing the scale factor before bit allocation correction corresponding to the data frame in which abnormal noise occurs as shown in FIG. The case where factor index becomes the same value corresponds. In such a case, the speech coding apparatus normally sends only one scale factor index value with the scale factor selection information as 2, so that another adjacent scale factor index in one same ch and the same sub-band is If the values are the same, it is likely that the bit allocation is incorrect.
 以上のことを踏まえ、実施の形態3では、実施の形態1,2でのビット割り当て補正後に得られるスケールファクタインデックスに関し、ひとつの同じchかつ同じサブバンドにおいて隣接するスケールファクタインデックス値が同じであるかのエラーチェックを行う。 Based on the above, in the third embodiment, with regard to scale factor indexes obtained after bit allocation correction in the first and second embodiments, adjacent scale factor index values in one same channel and in the same subband are the same. Do some error checking.
 エラーチェックは、図25に示すエラー検出器21により行われる。図25は、実施の形態3に係る音声復号装置1Bの構成を示すブロック図である。なお、実施の形態1,2で既に説明した構成と同一又は相当する機能を有する構成については、同一の符号を付し、その説明を省略又は簡略化する。
 エラー検出器21は、実施の形態1,2で示したようなビットアロケーションエラー補正器20による補正が行われた場合、補正後にフレーム分離器11から得られるスケールファクタ情報を用いて、エラーチェックを行う。具体的には、上記したように、エラー検出器21は、ひとつの同じchかつ同じサブバンドにおいて、同じスケールファクタインデックス値が連続していることを検出する。なお、チャンネル構成がStereoではなくmonauralの場合は、エラー検出器21は、単に同じサブバンドにおいて、同じスケールファクタインデックス値が連続していることを検出すればよい。
The error check is performed by the error detector 21 shown in FIG. FIG. 25 is a block diagram showing a configuration of speech decoding apparatus 1B according to Embodiment 3. In addition, about the structure which has a function the same as that of the structure already demonstrated by Embodiment 1, 2 or corresponds, the same code | symbol is attached | subjected, and the description is abbreviate | omitted or simplified.
When the correction by the bit allocation error corrector 20 as described in the first and second embodiments is performed, the error detector 21 performs an error check using scale factor information obtained from the frame separator 11 after the correction. Do. Specifically, as described above, the error detector 21 detects that the same scale factor index value is continuous in one and the same ch and the same sub-band. When the channel configuration is not stereo but monaural, the error detector 21 may simply detect that the same scale factor index value is continuous in the same subband.
 そして、エラー検出器21は、ひとつの同じchかつ同じサブバンドにおいて、同じスケールファクタインデックス値が連続していることを検出した場合、エラーが有ると判定し、フレームをエラーフレームとする。エラー検出器21は、フレームをエラーフレームとしたことをミュート制御器18へ通知する。 When the error detector 21 detects that the same scale factor index value is continuous in one and the same ch and the same sub-band, the error detector 21 determines that there is an error, and sets the frame as an error frame. The error detector 21 notifies the mute controller 18 that the frame is an error frame.
 ミュート制御器18は、エラーフレームとされたフレーム全体をミュートする。なお、音声復号装置1Bは、ミュート制御器18に代えて、エラーフレームとされたフレームを当該フレームの前後の別のフレームに置き換えて音声出力が行われるような構成を備えてもよい。 The mute controller 18 mutes the entire frame regarded as an error frame. The audio decoding device 1B may have a configuration in which audio output is performed by replacing the frame regarded as an error frame with another frame before and after the frame, instead of the mute controller 18.
 実施の形態3の音声復号装置1Bについても、実施の形態1の音声復号装置1と同様に、図20Aに示す処理回路101、又は、図20Bに示すメモリ102及びCPU103で実現することができる。 Similarly to the speech decoding device 1 of the first embodiment, the speech decoding device 1B of the third embodiment can be realized by the processing circuit 101 shown in FIG. 20A or the memory 102 and the CPU 103 shown in FIG. 20B.
 次に、上記のように構成された音声復号装置1Bの処理の一例について、図26に示すフローチャートを用いて説明する。図26に示す処理は、音声復号装置1Bに圧縮音声のビットストリームが入力されると開始される。また、図21で説明した処理と同一又は相当する処理については、同一の符号を付し、その説明を省略又は簡略化する。
 ステップST1~3の後、実施の形態1,2で示したようなビットアロケーションエラー補正器20による補正が行われたとして(ステップST30)、以下説明する。
Next, an example of the process of speech decoding apparatus 1B configured as described above will be described using the flowchart shown in FIG. The process shown in FIG. 26 is started when a bit stream of compressed speech is input to the speech decoding device 1B. The same or corresponding processing as that described with reference to FIG. 21 is denoted by the same reference numeral, and the description thereof is omitted or simplified.
It is assumed that the correction by the bit allocation error corrector 20 as described in the first and second embodiments is performed after the steps ST1 to ST3 (step ST30).
 エラー検出器21は、スケールファクタインデックス値に関しての上記のエラーチェックを行い、エラーが無いかを判定する(ステップST31)。
 エラーが無い場合(ステップST31;YES)、ミュート制御器18でミュートされることなく、ステップST10~13の処理により時系列のオーディオデータが出力される。
The error detector 21 performs the above-described error check on the scale factor index value, and determines whether there is an error (step ST31).
If there is no error (step ST31; YES), time-series audio data is output by the processing of steps ST10 to 13 without being muted by the mute controller 18.
 一方、エラーが有る場合(ステップST31;NO)、エラー検出器21によりフレームがエラーフレームとされ、ミュート制御器18は、当該エラーフレーム全体をミュートする(ステップST32)。 On the other hand, when there is an error (step ST31; NO), the frame is determined as an error frame by the error detector 21, and the mute controller 18 mutes the entire error frame (step ST32).
 以上のように、この実施の形態3に係る音声復号装置1Bは、実施の形態1,2の補正だけでは異音を抑えきれない場合でも、異音の発生を抑えることができる。 As described above, the audio decoding device 1B according to the third embodiment can suppress the generation of the abnormal noise even when the abnormal noise can not be suppressed only by the correction in the first and second embodiments.
実施の形態4.
 異音無く正常にデコード可能なデータフレームの例として示した図3のビットストリームと、異音が発生するデータフレームの例として示した図13のビットストリームとは、時間的に隣接したビットストリームである。この図3のビットストリームをそのままデコードした結果を図27に示し、図13のビットストリームをそのままデコードした結果を図28に示す。
Fourth Embodiment
The bit stream of FIG. 3 shown as an example of a data frame that can be decoded normally without noise and the bit stream of FIG. 13 shown as an example of a data frame that generates noise are adjacent bit streams in time. is there. The result of decoding the bit stream of FIG. 3 as it is is shown in FIG. 27, and the result of decoding the bit stream of FIG. 13 is shown in FIG.
 一方、図13のビットストリームに対して、実施の形態1で示したビット割り当て補正を適用した後に、デコードした結果を図29に示す。図29に示すデコード結果は、図28に示すデコード結果と比べると、異音の大きさ及びRchでの異音発生区間の長さ等の改善が見られる。しかしながら、図29に示すデコード結果においても、異音と疑わしい高い周波数の強い成分が依然として見られる。 On the other hand, after applying the bit allocation correction described in Embodiment 1 to the bit stream of FIG. 13, the result of decoding is shown in FIG. As compared with the decoding result shown in FIG. 28, the decoding result shown in FIG. 29 shows improvement in the magnitude of the abnormal sound and the length of the abnormal sound generation section in Rch. However, even in the decoding result shown in FIG. 29, strong components of abnormal noise and suspicious high frequency are still seen.
 このような強い成分は、スケールファクタの異常値により発生する。したがって、実施の形態4では、スケールファクタの値をチェックして異常値を補正することで、異音の発生を抑える形態について説明する。 Such strong components are caused by outliers of the scale factor. Therefore, in the fourth embodiment, an embodiment will be described in which the occurrence of abnormal noise is suppressed by checking the value of the scale factor and correcting the abnormal value.
 以下、具体的なデータ例を用いてスケールファクタの異常値の検出とその補正方法について説明する。
 図29のデコード結果が得られた時のスケールファクタインデックス値は、図30に示される。そして、図10により実際のスケールファクタ値は図31に示す通りとなる。
Lchのサブバンド3,11のスケールファクタ、及び、Rchのサブバンド10の先頭(図31においてRchの左端)のスケールファクタは、隣接するサブバンドのスケールファクタと比較して明らかに大きな特異値となっている。
Hereinafter, detection of an abnormal value of a scale factor and a correction method thereof will be described using a specific data example.
The scale factor index value when the decoding result of FIG. 29 is obtained is shown in FIG. Then, the actual scale factor value is as shown in FIG. 31 according to FIG.
The scale factors of Lch subbands 3 and 11 and the scale factor of the top of Rch subband 10 (the left end of Rch in FIG. 31) are clearly larger singular values than the adjacent subband scale factors. It has become.
 なお、サブバンド0においても他より大きな値となっているが、サブバンド0~2は、図6Aで示されるように最も手厚いビット割り当てテーブルが用いられることからも分かるように、音声の主要な特徴を与えるサブバンドである。したがって、これらのサブバンドについては、隣接サブバンドとの比較は行わない。 Subband 0 has a larger value than the others, but subbands 0 to 2 are main voices, as can be seen from the use of the thickest bit allocation table as shown in FIG. 6A. It is a sub-band that gives features. Therefore, comparisons with adjacent subbands are not performed for these subbands.
 図31に示す各スケールファクタ値について、隣接するサブバンドのスケールファクタ値との大きさの比率を算出した結果を図32に示す。図32では、図31の各スケールファクタ値について、前後のサブバンドの合計値で割った値を更に2で割って、比率として示している。例えば、(Lch)[0]のサブバンド3の比率は、図31の(Lch)[0]のサブバンド3のスケールファクタ値を、(Lch)[0]のサブバンド2のスケールファクタ値と(Lch)[0]のサブバンド4のスケールファクタ値の合計値で割った値を更に2で割って得られる値である。
 図32に示されるように、設定サブバンドよりも高い周波数のサブバンドのスケールファクタについて、隣接するサブバンドのスケールファクタとの比率を取ることにより、特異に大きな値を検出することができる。なお、設定サブバンドとは、サブバンド0~2のような音声の主要な特徴を与えるサブバンドのことである
The result of having calculated the ratio of the magnitude | size with the scale factor value of an adjacent sub-band about each scale factor value shown in FIG. 31 is shown in FIG. In FIG. 32, for each scale factor value in FIG. 31, the value obtained by dividing the sum of the preceding and succeeding sub-bands is further divided by 2 and shown as a ratio. For example, the ratio of subband 3 of (Lch) [0] is the scale factor value of subband 3 of (Lch) [0] in FIG. 31 and the scale factor value of subband 2 of (Lch) [0] in FIG. (Lch) A value obtained by dividing the sum of the scale factor values of the sub-band 4 of [0] by 2 and dividing the sum by two.
As shown in FIG. 32, with respect to scale factors of subbands of frequencies higher than the setting subbands, singularly large values can be detected by taking a ratio to scale factors of adjacent subbands. In addition, a setting sub-band is a sub-band which gives the main feature of speech like sub-band 0-2
 また、図33に示すように、図10のスケールファクタインデックス値(index)をX軸とし、図10のスケールファクタ値(value)をY軸として、Y軸を対数軸としたグラフで表すと明らかな通り、スケールファクタインデックス値が3大きくなるごとにスケールファクタ値が1/2となる関係となっている。
 このため、あるスケールファクタ値と隣接するサブバンドのスケールファクタ値との比率は、あるスケールファクタインデックス値と隣接するサブバンドのスケールファクタインデックス値との関係に比例する。また、スケールファクタインデックス値は、ごく低い周波数成分を除いて20前後の値であることが多いため、あるスケールファクタ値が隣接するサブバンドのスケールファクタ値に比べて極端に大きな値かどうかは、スケールファクタインデックス値のbit4,5がともに0である場合、つまり、スケールファクタインデックス値が16より小さい場合に、隣接するサブバンドのスケールファクタインデックス値との差がbit4を1にした場合よりも大きいかで判定することができる。なお、bit4とは、スケールファクタインデックス値を二進法で表した際の2の位を指し、bit5は、スケールファクタインデックス値を二進法で表した際の2の位を指す。
Also, as shown in FIG. 33, when the scale factor index value (index) of FIG. 10 is taken as an X axis, the scale factor value (value) of FIG. 10 is taken as a Y axis, the Y axis is taken as a logarithmic axis. As is apparent, the scale factor value is halved with each increase of the scale factor index value by 3.
Thus, the ratio of a scale factor value to a scale factor value of an adjacent subband is proportional to the relationship between a scale factor index value and a scale factor index value of the adjacent subband. In addition, since scale factor index values are often around 20 except for very low frequency components, whether a certain scale factor value is extremely large compared to the scale factor value of an adjacent subband, When the scale factor index value bits 4 and 5 are both 0, that is, when the scale factor index value is less than 16, the difference from the scale factor index value of the adjacent subband is larger than when the bit 4 is 1 It can be determined by Note that the bit4, refers to 2 4-position when a represents the scale factor index value in binary, bit5 refers to 2 5-position when representing the scale factor index value in binary.
 図30におけるサブバンド3以上のスケールファクタインデックス値について、この判定を行うと、図31と同様にLchのサブバンド3,11のスケールファクタインデックス、及び、Rchのサブバンド10の先頭のスケールファクタインデックスが異常値として検出され、検出された異常値についてはbit4を1にする、つまり、16を足すことで補正を行う。この時の補正結果は、図34に示す通りとなる。実際のスケールファクタ値についても、図35に示すスケールファクタ値、及び、図36に示す隣接するサブバンドのスケールファクタ値との大きさの比率から分かるように、隣接するサブバンドとの差が小さく、特異値として検出されないようになる。
 図34に示すようにスケールファクタインデックス値を補正した場合のデコード結果は、図37に示すようになり、図27に示す隣接フレームの波形と類似した、異音のない波形となっている。
When this determination is performed for scale factor index values of subband 3 and higher in FIG. 30, the scale factor index of Lch subbands 3 and 11 and the scale factor index of the beginning of Rch subband 10 as in FIG. Is detected as an abnormal value, and bit 4 is set to 1 for the detected abnormal value, that is, correction is performed by adding 16. The correction result at this time is as shown in FIG. As for the actual scale factor values, as can be seen from the scale factor values shown in FIG. 35 and the scale factor values of adjacent subbands shown in FIG. 36, the difference from adjacent subbands is small. , Will not be detected as a singular value.
As shown in FIG. 34, the decoding result when the scale factor index value is corrected is as shown in FIG. 37, which is a waveform without abnormal noise similar to the waveform of the adjacent frame shown in FIG.
 以上のようなスケールファクタインデックス値の補正は、図38に示すスケールファクタエラー補正器22により行われる。図38は、実施の形態4に係る音声復号装置1Cの構成を示すブロック図である。なお、実施の形態1~3で既に説明した構成と同一又は相当する機能を有する構成については、同一の符号を付し、その説明を省略又は簡略化する。
 スケールファクタエラー補正器22は、実施の形態1,2で示したようなビットアロケーションエラー補正器20による補正が行われた場合、スケールファクタ復号器14から得られるスケールファクタ情報を用いて、スケールファクタインデックス値の補正を行う。具体的には、上記したように、スケールファクタエラー補正器22は、設定サブバンドよりも高い周波数のサブバンドのスケールファクタインデックス値について、特定ビットを1に変更した方が隣接するサブバンドのスケールファクタインデックス値との差が小さくなる場合、当該特定ビットを1に変更する補正を行う。特定ビットは、スケールファクタインデックスの平均的な値に応じて決まるものであり、上記の説明では、当該平均的な値が20前後であり、bit4が特定ビットに該当する。
The correction of the scale factor index value as described above is performed by the scale factor error corrector 22 shown in FIG. FIG. 38 is a block diagram showing a configuration of speech decoding apparatus 1C according to Embodiment 4. The components having the same or corresponding functions as those described in the first to third embodiments are designated by the same reference numerals, and the description thereof will be omitted or simplified.
Scale factor error corrector 22 uses the scale factor information obtained from scale factor decoder 14 when correction is performed by bit allocation error corrector 20 as described in the first and second embodiments. Correct the index value. Specifically, as described above, scale factor error corrector 22 changes the scale factor index value of the sub-band higher in frequency than the setting sub-band when the specific bit is changed to 1, the scale of the adjacent sub-band. If the difference with the factor index value becomes smaller, correction is performed to change the specific bit to one. The specific bit is determined according to the average value of the scale factor index, and in the above description, the average value is around 20, and bit 4 corresponds to the specific bit.
 実施の形態4の音声復号装置1Cについても、実施の形態1の音声復号装置1と同様に、図20Aに示す処理回路101、又は、図20Bに示すメモリ102及びCPU103で実現することができる。 Similarly to the speech decoding device 1 of the first embodiment, the speech decoding device 1C of the fourth embodiment can be realized by the processing circuit 101 shown in FIG. 20A or the memory 102 and the CPU 103 shown in FIG. 20B.
 次に、上記のように構成された音声復号装置1Cの処理の一例について、図39に示すフローチャートを用いて説明する。図39に示す処理は、音声復号装置1Cに圧縮音声のビットストリームが入力されると開始される。また、図21で説明した処理と同一又は相当する処理については同一の符号を付し、その説明を省略又は簡略化する。
 ステップST1~3の後、実施の形態1,2で示したようなビットアロケーションエラー補正器20による補正が行われたとして(ステップST40)、以下説明する。
Next, an example of the process of speech decoding apparatus 1C configured as described above will be described using the flowchart shown in FIG. The process shown in FIG. 39 is started when a bit stream of compressed speech is input to the speech decoding device 1C. The same or corresponding processing as that described with reference to FIG. 21 is denoted by the same reference numeral, and the description thereof is omitted or simplified.
It is assumed that the correction by the bit allocation error corrector 20 as described in the first and second embodiments is performed after the steps ST1 to ST3 (step ST40).
 スケールファクタエラー補正器22は、スケールファクタ復号器14から得られるスケールファクタ情報を用いて、上記したように必要に応じてスケールファクタインデックス値の補正を行う(ステップST41)。そして、ステップST10,12,13の処理により時系列のオーディオデータが出力される。 The scale factor error corrector 22 corrects the scale factor index value as needed, as described above, using the scale factor information obtained from the scale factor decoder 14 (step ST41). Then, time-series audio data is output by the processes of steps ST10, 12, and 13.
 以上のように、この実施の形態4に係る音声復号装置1Cは、実施の形態1,2の補正だけでは異音を抑えきれない場合でも、異音の発生を抑えることができる。 As described above, the audio decoding device 1C according to the fourth embodiment can suppress the generation of the abnormal noise even when the abnormal noise can not be suppressed only by the correction in the first and second embodiments.
実施の形態5.
 実施の形態1~4で示したようなデコード時のデータ補正は、一般的に異音を引き起こすと考えられる特徴が見られるか否かを基に、エラーの推定及び補正を行うものである。このため、オリジナルの音声成分を誤って補正してしまうことも考えられる。
 そこで、実施の形態5では、デジタル放送の受信状態が悪い場合に限って実施の形態1~4で示したような補正処理を行うものとする。
Embodiment 5
Data correction at the time of decoding as shown in the first to fourth embodiments is to estimate and correct an error based on whether or not a feature that is generally considered to cause abnormal noise is observed. Therefore, it may be considered that the original sound component is corrected by mistake.
Therefore, in the fifth embodiment, the correction processing as shown in the first to fourth embodiments is performed only when the reception state of the digital broadcast is bad.
 図40は、実施の形態5に係る音声復号装置1Dの構成を示すブロック図である。なお、実施の形態1~4で既に説明した構成と同一又は相当する機能を有する構成については、同一の符号を付し、その説明を省略又は簡略化する。
 復調器23は、アンテナを介して入力されるデジタル放送波の受信信号を復調し、同期検出器10へビットストリームを出力する。また、復調器23は、デジタル放送の受信状態を示す情報を受信状態判定器24へ出力する。デジタル放送の受信状態を示す情報は、受信信号レベル、CN比(Carrier to Noise Ratio)、又は、エラーレート等である。
FIG. 40 is a block diagram showing a configuration of speech decoding apparatus 1D according to Embodiment 5. The components having the same or corresponding functions as those described in the first to fourth embodiments are designated by the same reference numerals, and the description thereof will be omitted or simplified.
The demodulator 23 demodulates the received signal of the digital broadcast wave input via the antenna, and outputs a bit stream to the synchronization detector 10. Further, the demodulator 23 outputs information indicating the reception state of the digital broadcast to the reception state determination unit 24. The information indicating the reception status of the digital broadcast is a reception signal level, a carrier to noise ratio, an error rate or the like.
 受信状態判定器24は、デジタル放送の受信状態を示す情報を用いて、デジタル放送の受信状態が設定レベルよりも良いかを判定する。受信状態判定器24は、判定結果を補正制御器25へ出力する。なお、設定レベルは、例えば、フレームにエラーが入り込み始める受信状態の程度に設定される。 The reception state determination unit 24 determines whether the reception state of the digital broadcast is better than the set level, using the information indicating the reception state of the digital broadcast. The reception state determiner 24 outputs the determination result to the correction controller 25. The setting level is set to, for example, the degree of the reception state in which an error starts to enter the frame.
 補正制御器25は、受信状態判定器24により、受信状態が設定レベル以下であり悪いと判定された場合、ビットアロケーションエラー補正器20及びスケールファクタエラー補正器22が補正を行うように制御する。具体的には、補正制御器25は、補正を指示する制御信号をビットアロケーションエラー補正器20及びスケールファクタエラー補正器22へ出力する。
 一方、補正制御器25は、受信状態判定器24により、受信状態が設定レベルよりも良いと判定された場合、ビットアロケーションエラー補正器20及びスケールファクタエラー補正器22が補正を行わないように制御する。具体的には、補正制御器25は、補正を禁止する制御信号をビットアロケーションエラー補正器20及びスケールファクタエラー補正器22へ出力する。
The correction controller 25 controls the bit allocation error corrector 20 and the scale factor error corrector 22 to make corrections when the reception state determiner 24 determines that the reception state is lower than the set level and is bad. Specifically, the correction controller 25 outputs a control signal instructing correction to the bit allocation error corrector 20 and the scale factor error corrector 22.
On the other hand, the correction controller 25 is controlled such that the bit allocation error corrector 20 and the scale factor error corrector 22 do not perform correction when the reception state determiner 24 determines that the reception state is better than the set level. Do. Specifically, the correction controller 25 outputs a control signal for inhibiting correction to the bit allocation error corrector 20 and the scale factor error corrector 22.
 なお、実施の形態5の音声復号装置1Dについても、実施の形態1の音声復号装置1と同様に、図20Aに示す処理回路101、又は、図20Bに示すメモリ102及びCPU103で実現することができる。 As with the speech decoding apparatus 1 of the first embodiment, the speech decoding apparatus 1D of the fifth embodiment can be realized by the processing circuit 101 shown in FIG. 20A or the memory 102 and the CPU 103 shown in FIG. 20B. it can.
 以上のように、この実施の形態5に係る音声復号装置1Dは、受信状態が良い場合に、誤って補正処理が行われてしまうのを抑えることができる。 As described above, the speech decoding device 1D according to the fifth embodiment can suppress erroneous correction processing when the reception state is good.
 なお、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態においての任意の構成要素の省略が可能である。 In the scope of the invention, the present invention allows free combination of each embodiment, modification of any component of each embodiment, or omission of any component in each embodiment. is there.
 以上のように、この発明に係るデジタル放送の音声復号装置は、元の音声成分を残しつつ異音の原因となるエラーによる影響を抑えることができるので、車両等に搭載して用いるのに適している。 As described above, since the audio decoding device for digital broadcast according to the present invention can suppress the influence due to an error causing abnormal noise while leaving the original audio component, it is suitable for being mounted on a vehicle etc. ing.
 1~1D 音声復号装置、10 同期検出器、11 フレーム分離器、12 ビットアロケーション復号器、13 逆量子化器、14 スケールファクタ復号器、15 逆正規化器、16 サブバンド合成器、17 エラー検出器、18 ミュート制御器、20 ビットアロケーションエラー補正器、20a 検出部、20b 補正部、20c 判定部、20d 補正部、21 エラー検出器、22 スケールファクタエラー補正器、23 復調器、24 受信状態判定器、25 補正制御器、100 音声復号装置、101 処理回路、102 メモリ、103 CPU。 1 to 1D speech decoder, 10 sync detectors, 11 frame separators, 12 bit allocation decoders, 13 inverse quantizers, 14 scale factor decoders, 15 inverse normalizers, 16 subband synthesizers, 17 error detection 18 mute controller 20 bit allocation error corrector 20a detector 20b corrector 20c determiner 20d corrector 21 error detector 22 scale factor error corrector 23 demodulator 24 receive status , 25 correction controller, 100 speech decoders, 101 processing circuits, 102 memories, 103 CPUs.

Claims (5)

  1.  各サブバンドのビットアロケーション情報について、ビット割り当てが0となる周波数のサブバンドのうち、最も低い周波数のサブバンドを検出する検出部と、
     前記検出部により検出されたビット割り当てが0となるサブバンドのうちの最も低い周波数のサブバンドよりも、高い周波数のサブバンドのビット割り当てを0に補正する補正部とを備えることを特徴とするデジタル放送の音声復号装置。
    A detection unit that detects the lowest frequency sub-band among the sub-bands of the frequency at which the bit allocation is 0 for bit allocation information of each sub-band;
    And a correction unit that corrects, to 0, the bit allocation of a subband of a higher frequency than a subband of the lowest frequency among subbands in which the bit allocation detected by the detection unit is 0. Audio decoding device for digital broadcasting.
  2.  ビットアロケーション情報とスケールファクタ情報とを用いて算出した1フレームの総データ量が、ビットレートにより特定される1フレームの最大データ量を超えるかを判定する判定部と、
     前記総データ量が前記最大データ量を超える場合、ビット割り当てが0ではない周波数のサブバンドのうち、最も高い周波数のサブバンドのビット割り当てを0にする補正を繰り返す補正部とを備えることを特徴とするデジタル放送の音声復号装置。
    A determination unit that determines whether the total data amount of one frame calculated using bit allocation information and scale factor information exceeds the maximum data amount of one frame specified by the bit rate;
    A correction unit that repeats correction to set the bit allocation of the highest frequency sub-band among the sub-bands of non-zero bit allocations to 0 when the total data amount exceeds the maximum data amount; Audio decoding device for digital broadcasting.
  3.  前記補正部による補正後に、同じサブバンドで同じスケールファクタインデックス値が連続していることを検出した場合、フレームをエラーフレームとするエラー検出器を備えることを特徴とする請求項1または請求項2記載のデジタル放送の音声復号装置。 3. The apparatus according to claim 1, further comprising an error detector that sets a frame as an error frame when it is detected that the same scale factor index value continues in the same sub-band after the correction by the correction unit. Audio decoding device for digital broadcast according to the description.
  4.  前記補正部による補正後に、設定サブバンドよりも高い周波数のサブバンドのスケールファクタインデックス値について、特定ビットを1に変更した方が隣接するサブバンドのスケールファクタインデックス値との差が小さくなる場合、前記特定ビットを1に変更する補正を行うスケールファクタエラー補正器を備えることを特徴とする請求項1または請求項2記載のデジタル放送の音声復号装置。 After the correction by the correction unit, the difference between the scale factor index value of the adjacent sub-band and the scale factor index value of the sub-band higher in frequency than the setting sub-band is smaller if the specific bit is changed to 1. The voice decoding apparatus for digital broadcast according to claim 1 or 2, further comprising a scale factor error corrector that performs correction to change the specific bit to one.
  5.  デジタル放送の受信状態を示す情報を用いて、デジタル放送の受信状態が設定レベルよりも良いかを判定する受信状態判定器と、
     前記受信状態判定器により受信状態が設定レベルよりも良いと判定された場合に、前記補正部による補正が行われないように制御する補正制御器とを備えることを特徴とする請求項1または請求項2記載のデジタル放送の音声復号装置。
    A reception state determination unit that determines whether the reception state of the digital broadcast is better than the set level using information indicating the reception state of the digital broadcast;
    2. The apparatus according to claim 1, further comprising: a correction controller configured to control the correction by the correction unit not to be performed when the reception state determiner determines that the reception state is better than the set level. The audio | voice decoding apparatus of the digital broadcast of claim 2.
PCT/JP2017/024652 2017-07-05 2017-07-05 Audio decoding device for digital broadcasting WO2019008700A1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE112017007504.1T DE112017007504B4 (en) 2017-07-05 2017-07-05 Audio decoding device for digital broadcasting
PCT/JP2017/024652 WO2019008700A1 (en) 2017-07-05 2017-07-05 Audio decoding device for digital broadcasting

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2017/024652 WO2019008700A1 (en) 2017-07-05 2017-07-05 Audio decoding device for digital broadcasting

Publications (1)

Publication Number Publication Date
WO2019008700A1 true WO2019008700A1 (en) 2019-01-10

Family

ID=64950712

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/024652 WO2019008700A1 (en) 2017-07-05 2017-07-05 Audio decoding device for digital broadcasting

Country Status (2)

Country Link
DE (1) DE112017007504B4 (en)
WO (1) WO2019008700A1 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0787031A (en) * 1993-09-16 1995-03-31 Matsushita Electric Ind Co Ltd Decoder for coded signal
JPH08328599A (en) * 1995-06-01 1996-12-13 Mitsubishi Electric Corp Mpeg audio decoder

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4831624A (en) * 1987-06-04 1989-05-16 Motorola, Inc. Error detection method for sub-band coding
US5761636A (en) * 1994-03-09 1998-06-02 Motorola, Inc. Bit allocation method for improved audio quality perception using psychoacoustic parameters
JPH10233692A (en) * 1997-01-16 1998-09-02 Sony Corp Audio signal coder, coding method, audio signal decoder and decoding method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0787031A (en) * 1993-09-16 1995-03-31 Matsushita Electric Ind Co Ltd Decoder for coded signal
JPH08328599A (en) * 1995-06-01 1996-12-13 Mitsubishi Electric Corp Mpeg audio decoder

Also Published As

Publication number Publication date
DE112017007504T5 (en) 2020-04-02
DE112017007504B4 (en) 2021-05-06

Similar Documents

Publication Publication Date Title
EP0746116B1 (en) MPEG audio decoder
AU2018204110B2 (en) Signal processing apparatus and method, and program
US6807528B1 (en) Adding data to a compressed data frame
US7003448B1 (en) Method and device for error concealment in an encoded audio-signal and method and device for decoding an encoded audio signal
EP1041766A2 (en) Apparatus for communicating multiple digital representations of a signal
WO2004027368A1 (en) Audio decoding apparatus and method
US20130144631A1 (en) Audio signal processing apparatus and audio signal processing method
JP6812442B2 (en) Level control method and equipment for mixing audio signals in an in-band on-channel wireless system
US10255926B2 (en) Method and apparatus for automatic audio alignment in a hybrid radio system
CN103443855A (en) Encoding apparatus and method, and program
US8812923B2 (en) Error concealment for sub-band coded audio signals
US9076440B2 (en) Audio signal encoding device, method, and medium by correcting allowable error powers for a tonal frequency spectrum
JP2012113318A (en) Method for decoding digital audio data
US8660851B2 (en) Stereo signal decoding device and stereo signal decoding method
US20050060146A1 (en) Method of and apparatus to restore audio data
JP5775637B2 (en) Improved FM stereo radio receiver using parametric stereo
WO2019008700A1 (en) Audio decoding device for digital broadcasting
US10896684B2 (en) Audio encoding apparatus and audio encoding method
JP2008158301A (en) Signal processing device, signal processing method, reproduction device, reproduction method and electronic equipment
US8510121B2 (en) Multiple description audio coding and decoding method, apparatus, and system
US8533551B2 (en) Audio error detection and processing
JPH11355145A (en) Acoustic encoder and acoustic decoder
KR100930484B1 (en) Digital audio broadcasting receiver
JP2005148539A (en) Audio signal encoding device and audio signal encoding method
JP4539180B2 (en) Acoustic decoding device and acoustic decoding method

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17917074

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 17917074

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP