WO1995015032A1 - Procedes et appareils de compression et decompression d'informations, appareils d'enregistrement/emission et de reception d'informations comprimees, et support d'enregistrement - Google Patents

Procedes et appareils de compression et decompression d'informations, appareils d'enregistrement/emission et de reception d'informations comprimees, et support d'enregistrement Download PDF

Info

Publication number
WO1995015032A1
WO1995015032A1 PCT/JP1994/002005 JP9402005W WO9515032A1 WO 1995015032 A1 WO1995015032 A1 WO 1995015032A1 JP 9402005 W JP9402005 W JP 9402005W WO 9515032 A1 WO9515032 A1 WO 9515032A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
processing block
input signal
signal
block
Prior art date
Application number
PCT/JP1994/002005
Other languages
English (en)
French (fr)
Inventor
Makoto Mitsuno
Original Assignee
Sony Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corporation filed Critical Sony Corporation
Priority to EP95901611A priority Critical patent/EP0691751B1/en
Priority to KR1019950703186A priority patent/KR100339325B1/ko
Priority to US08/491,973 priority patent/US5717670A/en
Publication of WO1995015032A1 publication Critical patent/WO1995015032A1/ja

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/00007Time or data compression or expansion
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form

Definitions

  • the present invention relates to a digital audio signal.
  • Information compression method and apparatus for bit-compressing information, compression information decompression method and apparatus, compressed information recording and transmitting apparatus for recording or transmitting compressed information, recording medium on which compression information is recorded, and compression information from recording medium The present invention relates to a compressed information reproducing device for reproducing and a compressed information receiving device, and in particular, to change a temporal size of a processing block according to a change in amplitude of a waveform on a time axis of an input signal.
  • the applicant first bit-compresses an input digital audio signal, and records the predetermined amount of data as a recording unit in a burst manner on a recording medium.
  • Such a technique is proposed in, for example, the specification and drawings of US Patent Nos. P5, 243, 588.
  • This technology uses a magneto-optical disk as a recording medium and is defined in the so-called CD-I (CD-interactive) and CD-R0 MXA audio format.
  • AD Adaptive Difference
  • PCM The audio data is recorded on a magneto-optical disc, and the ADPCM audio data is reproduced from the magneto-optical disc. For example, 32 sectors of the ADPCM audio data and the interleave processing are performed.
  • the ADPCM audio is recorded on the magneto-optical disk in bursts with several linking sectors as recording units.
  • the reproduction time of a normal CD can be selected.
  • a sampling rate of 18.9 kHz is specified at a compression ratio of 1 kHz. That is, for example, in the case of the above level B, the digital audio data is compressed to approximately 1/4, and the playback time (play time) of a disc recorded in this level B mode is a standard time. It is four times that of the CD format (CD-DA format). This means that the same recording / reproducing time can be obtained with a smaller disk than that of a standard 12 cm disk, so that the device can be downsized.
  • the rotation speed of the disc in this recording / reproducing device is the same as that of a standard CD.
  • level B compressed data for a reproduction time four times as long as a predetermined time is obtained. Will be obtained.
  • the same compressed data is read out four times in units of time, such as in a sector or classroom, and only one of the compressed data is used for audio playback.
  • a track jump is performed to return to the original track position for each rotation, and the same track is used.
  • the playback operation proceeds in such a way that tracking is repeated four times at a time. This means that, for example, normal compressed data needs to be obtained at least once out of, for example, four duplicate readings, and is resistant to errors due to disturbances and the like. It is a new thing.
  • IC cards and the like using such semiconductor memory are expected to have increased storage capacity and lower prices with the advancement of semiconductor technology.
  • capacity is running short and expensive. Therefore, it is sufficiently conceivable that the contents are transferred from an inexpensive and large-capacity recording medium such as the above-mentioned magneto-optical disk to an IC card or the like and frequently rewritten and used.
  • an inexpensive and large-capacity recording medium such as the above-mentioned magneto-optical disk
  • a desired song is dubbed to the IC card, and replaced with another song when unnecessary. In this way, by frequently rewriting the contents of the IC card, various songs can be enjoyed outdoors or the like with a small number of hand-held IC cards.
  • transform coding which uses orthogonal transform in the high-efficiency compression method
  • this technique is particularly effective for pre-echo that occurs when a signal with a large amplitude change is input.
  • the pre-echo described here means that when compression and decompression are performed in a state where a large amplitude change occurs in a block (hereinafter, referred to as an orthogonal transformation block) that is a unit of the orthogonal transformation.
  • an orthogonal transformation block a block that is a unit of the orthogonal transformation.
  • the length of the orthogonal transform block of one channel may be shortened and the length of the other channel may be lengthened.
  • DISCLOSURE OF THE INVENTION The present invention has been made in view of the above-described circumstances, and an object of the present invention is to provide a quadrature transform block size that is better adapted to an actual complex input signal.
  • the purpose of the present invention is to provide a method capable of determining the sound quality, prevent sound quality degradation at a low bit rate, and improve sound quality at the same bit rate.
  • the present invention has been proposed to achieve the above-mentioned object, and the information compression method of the present invention adapts each input signal of at least two channels to the input signal of each channel.
  • This is an information compression method in which information blocks are divided into processing blocks of variable length and information is compressed in units of processing blocks, and the length of the above processing blocks of each channel at the same time is the same. It is characterized by the following.
  • the information compression apparatus of the present invention when dividing each input signal of at least two channels into processing blocks, varies the length of the processing block in accordance with the input signal of each channel. And a block dividing means for making the lengths of the processing blocks of the respective channels at the same time the same, and-a predetermined information compression processing is performed on the signal of the processing block unit. And information compression means for applying.
  • the information compression method and apparatus of the present invention are as follows. Have been. In other words, at least two channels have the same processing block length in all channels. Further, in the information compression method and apparatus of the present invention, at least the correlation of signals between two channels is checked, and only when it is determined that the correlation is high, the above processing block on each corresponding channel is determined. The length of the lock is the same. This correlation may be based on the change in the input signal of the relevant processing block and the change in the input signal of Z or other processing blocks and / or the power or energy or peak information, or on the relevant processing block.
  • the information compression method and apparatus of the present invention calculate the degree of a predetermined masking effect according to an input signal, and determine the processing block length of each channel.
  • the degree of this masking effect can be calculated based on the change in the input signal of the relevant processing block and / or the input signal of the other processing block, and / or the power, energy or peak information, or can be assigned to the relevant processing block. Changes in the input signal of the adjacent processing process, and Z or power or energy or peak Calculated based on the information of the processing block, and further based on the change of the input signal of the processing block and the Z or the power or the energy or the peak information, which are simultaneously related to the processing block concerned. calculate.
  • the ratio involved in determining the element that determines the length of the corresponding processing block is used as a fixed or ratio adapted to the input signal, and the corresponding processing block is used.
  • the ratio involved in the determination of the element that determines the length of the signal is made variable according to the frequency.
  • orthogonal transform is used to divide a time-axis signal into a plurality of bands on the frequency axis, and the orthogonal transform is used together with the variable orthogonal transform size. The shape of the window function is also changed.
  • the signal is divided into a plurality of bands, and a block including a plurality of samples is formed for each of the divided bands. Perform orthogonal transformation for each block to obtain coefficient data.
  • the division frequency width in the division of the time-axis signal before the orthogonal transformation into a plurality of bands on the frequency axis is set to be broader in the higher frequency range, and is the same in two continuous bands in the lowest frequency range.
  • the assignment of main information and compression information or sub-information to a signal component in a band substantially equal to or higher than the signal pass band is prohibited.
  • a compressed information decompression method of the present invention decompresses information compressed by the information compression method or the information compression device of the present invention.
  • orthogonal transform is performed at the time of information compression
  • a signal on a time axis is extracted from a plurality of bands on a frequency axis.
  • Inverse orthogonal transform is used for the conversion to the frequency domain, and when converting from multiple bands on the frequency axis to the time axis signal, the inverse orthogonal transform is used for each block of each band, and the output of each inverse orthogonal transform is synthesized. To obtain a synthesized signal on the time axis.
  • synthesized frequency widths from the plurality of bands on the frequency axis after the inverse orthogonal transform into the time-axis signal are broadened to substantially higher frequency bands, and the synthesized frequency widths are continuous in the lowest band. It is the same in two bands.
  • the compression information decompression device of the present invention can change the length of a processing block in accordance with at least two channels of input signals, and can use the same length for each channel at the same time.
  • a compression information decompression device that decompresses the compressed information of each channel that has been subjected to a predetermined compression process on a per-process block basis, and performs a decompression process corresponding to the predetermined compression process on each channel.
  • the compressed information decompression method and device of the present invention decompress the compressed information compressed by the above-described information compression method or information compression device of the present invention.
  • the information compression method and device and the compressed information decompression method and device (high-efficiency coding method and compression or decompression device) of the present invention adapt the orthogonal transformation block of the compression process to adapt to the amplitude change of the input signal. It is characterized in that the temporal size of the block is variable, and the amplitude change of the signal on the time axis of the frequency band of the corresponding block and / or the energy of the other frequency band By determining the temporal size of the orthogonal transform block based on the energy or power of the frequency band of the other channel in addition to the power, the signal is highly correlated between channels.
  • the compressed information recording Z transmission apparatus of the present invention when dividing each input signal of at least two channels into processing blocks, processes the input signal of each channel adaptively.
  • a block dividing means that varies the block length and sets the same length of the processing block for each channel at the same time, and a predetermined value for the signal for each processing block.
  • compressed information compressed by the information compression method and apparatus of the present invention is recorded on a recording medium or transmitted to a transmission medium.
  • the processing blocks of at least two channels vary the length of the processing blocks according to the input signal and are the same for each corresponding channel.
  • the compression information of each channel that has been subjected to a predetermined compression process is recorded in units of processing blocks having the same length as that of the present invention. It records the compressed information compressed by the information compression method or the information compression device.
  • the compressed information reproducing apparatus of the present invention expands and reproduces the compressed information from a recording medium on which the compressed information is recorded by the compressed information recording apparatus of the present invention.
  • the compressed information receiving device of the present invention receives and decompresses the compressed information transmitted from the compressed information transmitting device of the present invention. It is to be played together with.
  • the correlation between the channels is high to some extent. If it is determined that the time length of the orthogonal transform blocks of each channel is the same, the occurrence of sound quality differences between channels is suppressed, and the sound image localization is improved. In order to obtain good sound quality.
  • FIG. 1 is a block circuit diagram showing a specific configuration of a compressed data recording / reproducing apparatus to which the present invention is applied.
  • FIG. 2 is a block circuit diagram showing a specific configuration of a high efficiency compression encoding apparatus to which the present invention is applied.
  • Fig. 3 is a diagram showing the structure of the orthogonal transform block at the time of bit compression.
  • FIG. 4 is a block circuit diagram showing a configuration example of the orthogonal transform block size determination circuit.
  • FIG. 5 is a diagram showing a relationship between a change in the temporal length of the orthogonal transform block adjacent in time and a window shape used in the orthogonal transform.
  • FIG. 6 is a diagram showing a detailed example of a window shape used at the time of orthogonal transformation.
  • FIG. 7 is a diagram for explaining the masking effect of the pre-echo in the block determination circuit.
  • FIG. 8 is a diagram for explaining the determination of the orthogonal transform block size in the block determination circuit and the correlation between the channels.
  • FIG. 9 is a block circuit diagram showing a specific configuration of the bit allocation calculation circuit.
  • FIG. 10 is a diagram illustrating the spectrum of each critical band and a band divided in consideration of block floating.
  • FIG. 11 is a diagram showing a masking spectrum.
  • FIG. 1 is a block circuit diagram showing a configuration of an embodiment of a compressed data recording / reproducing apparatus to which an information compression method and apparatus and a compressed information expansion method and apparatus according to the present invention are applied.
  • a magneto-optical disc 1 which is driven to rotate by a spindle motor 51 is used as a recording medium.
  • a modulated magnetic field corresponding to the recorded data is irradiated with laser light by an optical head 53.
  • a magnetic field modulation recording By applying a so-called magnetic field modulation recording by applying a magnetic head 54, the data is recorded along the recording track of the magneto-optical disk 1.
  • the recording track of the magneto-optical disc 1 is traced by a laser beam using an optical head 53, and the data is magneto-optically reproduced. It is intended to be played back in a dynamic manner.
  • the optical head 53 is, for example, a laser light source such as a laser diode, a collimating lens, an objective lens, a polarizing beam splitter, or a cylindrical lens. And a photodetector having a light receiving section of a predetermined pattern.
  • the optical head 53 is provided at a position facing the magnetic head 54 via the magneto-optical disk 1.
  • a magnetic head 54 When data is recorded on the magneto-optical disk 1, a magnetic head 54 is driven by a head drive circuit 66 of a recording system, which will be described later, and a modulation magnetic field corresponding to the recording data is generated. Is applied to the magneto-optical disk 1 and the target track of the magneto-optical disk 1 is irradiated with laser light by the optical head 53, that is, by the magnetic field modulation method. Perform thermomagnetic recording.
  • the optical head 53 detects the reflected light of the laser beam applied to the target track, detects a focus error by, for example, a so-called astigmatism method, and detects a focus error by, for example, a so-called Bush-bull method. More traffic error is detected.
  • the optical head 53 When reproducing data from the magneto-optical disc 1, the optical head 53 detects the above-mentioned focus error and tracking error and simultaneously reflects the reflected light of the laser beam from the target track. It detects the difference in the polarization angle (Kerr rotation angle) and generates a reproduced signal.
  • the output of the optical head 53 is supplied to an RF circuit 55.
  • the RF circuit 55 extracts the above-mentioned focus error signal and tracking error signal from the output of the optical head 53, supplies the extracted signal to the servo control circuit 56, and binarizes the reproduction signal. To the playback decoder 71 described later. Supply.
  • the servo control circuit 56 includes, for example, a focus servo control circuit, a tracking support control circuit, a spindle motor servo control circuit, a thread support control circuit, and the like.
  • the focus servo control circuit performs focus control of the optical system 53 so that the focus error signal becomes zero.
  • the above tracking servo control circuit performs tracking control of the optical system of the optical head 53 so that the above tracking error signal becomes zero.
  • the spindle motor servo control circuit controls the spindle motor 51 so as to rotate the magneto-optical disc 1 at a predetermined rotation speed (for example, a constant linear speed).
  • the above-mentioned thread servo control circuit includes an optical head 53 and a magnetic head at a target track position of the magneto-optical disk 1 specified by the system controller 57. 5 Move 4.
  • the servo control circuit 56 that performs such various control operations sends information indicating the operation state of each unit controlled by the servo control circuit 56 to the system controller 57.
  • the key input operation unit 58 and the display unit 59 are connected to the system controller 57.
  • the system controller 57 controls the recording system and the reproduction system in the operation mode specified by the operation input information from the key input operation unit 58. Further, the system controller 57 converts the recording track of the magneto-optical disc 1 into address information in sector units which is reproduced as so-called Q data of a so-called header sub-code. Based on this, the optical head 53 and the magnetic head 54 manage the recording position and the reproduction position on the above-mentioned recording track where the optical head 53 and the magnetic head 54 are traced. In addition, the system controller 57 provides the data compression ratio and the reproduction on the recording track. Control is performed to display the playback time on the display unit 59 based on the positional information and.
  • This playback time display corresponds to address information (absolute time information) in sector units, which is played back from the recording track of the magneto-optical disk 1 to Q data of the header time or subcode. Then, by multiplying the reciprocal of the data compression ratio (for example, 4 in the case of 1Z4 compression), actual time information is obtained, and this is displayed on the display unit 59. Even when recording, for example, if absolute time information is recorded (preformatted) in advance on a recording track such as a magneto-optical disk, this preformat is not performed. By reading the absolute time information and multiplying by the reciprocal of the data compression ratio, it is possible to display the current position with the actual recording time.
  • the analog audio input signal AIN from the input terminal 60 is supplied to the A / D converter 62 via the single-pass filter 61, and the A / D converter 62 is connected to the analog audio converter 62.
  • the input signal A IN is quantized, that is, converted into, for example, a 16-bit digital audio signal.
  • the digital audio signal from the AZD converter 62 is supplied to an ATC (Adaptive Transform Coding) encoder 63.
  • ATC Adaptive Transform Coding
  • a digital audio input signal D IN from an input terminal 67 is supplied to the ATC encoder 63 via a digital input interface circuit 68.
  • the 1 "encoder 603 performs bit compression (de-compression) on a digital audio signal having a predetermined transfer rate obtained by quantizing the analog audio input signal AIN by the AZD converter 62 above.
  • the compression ratio is set to 4 times.
  • this embodiment has a configuration that does not depend on the magnification, and can be arbitrarily selected depending on the application example.
  • the memory 64 is controlled by a system controller 57 to control the writing and reading of data overnight, and receives a compressed digital audio signal from the ATC encoder 63 (hereinafter referred to as ATC audio data). ) Is temporarily stored and used as buffer memory for recording on the magneto-optical disc 1 as needed. That is, for example, the ATC audio data supplied from the ATC encoder 63 has a data transfer rate of 14 which is the data transfer rate of a standard CD-DA format (75 sector nosec), that is, 1 This is reduced to 8.75 sectors / sec, and this ATC audio data is continuously written to memory 64. As described above, this ATC audio data only needs to be recorded in one sector for every four sectors.
  • Continuous recording is performed.
  • the overall data transfer speed including the recording pause period is as low as 18.75 sectors Z seconds, but it is bursty.
  • the instantaneous data transfer rate in the above is the above standard 75 segutanoseconds. Therefore, when the disk rotation speed is the same speed (constant linear velocity) as that of the standard CD-DA format, the same recording density and storage pattern as those of the CD-DA format are recorded. And.
  • the ATC audio data ie, the recorded data, which is burst-read from the memory 64 at the above (instantaneous) transfer rate of 75 sectors / sec is supplied to the encoder 65.
  • a unit continuously recorded in one recording is a cluster composed of a plurality of sectors (for example, 32 sectors) and a cluster composed of 32 sectors.
  • This class setting connection sector is set to be longer than the length of the overnight setting in the encoder 65, so that even if the setting is changed, data in other classes will be affected. I try not to give it.
  • the encoder 65 performs coding processing for error correction (for example, parity addition and interleaving processing) and EFM coding of the recording data supplied in a burst manner from the memory 64 as described above. Perform processing.
  • the recording data that has been encoded by the encoder 65 is supplied to the magnetic head drive circuit 66.
  • the magnetic head drive circuit 66 is connected to a magnetic head 54, and applies a modulation magnetic field corresponding to the recording data to the magneto-optical disk 1 so that the magnetic head 54 is connected to the magnetic head 54. Drive.
  • the system controller 57 performs the above-described memory control on the memory 64 and also executes the above-described recording data read out from the memory 64 by this memory control.
  • the recording position is controlled so that recording is continuously performed on the recording track of the magneto-optical disk 1.
  • This record is controlled by controlling the recording position of the above-mentioned recording data which is read out from the memory 64 in a burst manner by the system controller 57 and recording the recording track of the magneto-optical disc 1. This is performed by supplying a control signal for specifying the recording position on the servo control circuit 56 to the servo control circuit 56.
  • This reproducing system is for reproducing the recorded data continuously recorded on the recording track of the magneto-optical disk 1 by the recording system described above, and is provided by the optical head 53.
  • a decoder 71 1 for In addition, this playback system can read not only magneto-optical discs, but also the same read-only optical discs as CDs (Compact Discs).
  • the decoder 71 corresponds to the encoder 65 in the above-described recording system, and performs decoding processing for error correction and EFM on the reproduced signal binarized by the RF circuit 55. Performs decoding and other processing to reproduce ATC audio data at a transfer rate of 75 sectors / sec, which is faster than the normal transfer rate.
  • the reproduction data obtained by the decoder 71 is supplied to the memory 72.
  • the writing and reading of data are controlled by the system controller 57, and the reproduced data supplied from the decoder 71 at a transfer rate of 75 sectors / second is supplied to the memory 72.
  • the data is written in a burst at a transfer speed of 75 sectorsnoseconds.
  • the reproduction data written in burst at the transfer speed of 75 sectornoseconds is continuously read out at the normal transfer speed of 75 sectornoseconds. That is, the system controller 57 writes the reproduced data into the memory 72 at a transfer rate of 75 sectors Z seconds, and writes the reproduced data from the memory 72 into the above-mentioned 18.75 sectors. Performs memory control such that data is read continuously at a transfer rate of / sec.
  • the system controller 57 performs the above-described memory control on the memory 72, and the memory controller writes data in a burst manner from the memory 72 by this memory control.
  • the playback position is controlled so that the playback data is played back continuously from the recording track of the magneto-optical disc 1.
  • the reproduction position is controlled by managing the reproduction position of the reproduction data read out from the memory 72 in a burst manner by the system controller 57, and recording the data on the magneto-optical disk 1. This is performed by supplying a control signal specifying the upper reproduction position to the servo control circuit 56.
  • Playback data read continuously at a transfer rate of memory 72 to 18.75 sections / sec that is, ATC audio data
  • ATC decoder 73 expands the ATC audio data by four times (bit expansion), for example, a 16-bit digital audio signal (digital audio data). To play overnight).
  • the digital audio data from the ATC decoder 73 is supplied to an A-converter 74.
  • the DZA converter 74 converts the digital audio data supplied from the ATC decoder 73 into an analog signal, and forms an analog audio output signal AOUT.
  • the analog audio signal A0UT obtained by the D / A converter 74 is output from the output terminal 76 via the low-pass filter 75.
  • this compressed data recording / reproducing device uses 1-encoder 63
  • the ATC audio data is converted into a predetermined transmission format by a modulator 77 so that the data can be transmitted via an antenna 78.
  • the input digital signal is divided into multiple frequency bands, and the lowest two adjacent bands have the same bandwidth. Then, the higher the frequency band, the wider the bandwidth is selected, the orthogonal transform is performed for each frequency band, and the obtained spectral data on the frequency axis is taken into account.In the low frequency band, human auditory characteristics described later are considered. Bits are adaptively allocated and coded for each so-called critical bandwidth, and for the middle and high bands, for each band obtained by subdividing the critical bandwidth in consideration of the block floating efficiency. ing. Usually, this block is the quantization noise generation block.
  • FIG. 2 shows a circuit configuration for encoding an input digital signal for one channel. That is, in FIG. 2, for example, when the sampling frequency is 44.1 kHz, audio PCM signals for a plurality of channels from 0 to 22 kHz are supplied to the input terminal 200. I have.
  • This input signal is, for example, a band division filter composed of filters such as a so-called QMF.
  • QMF filters
  • the band is divided into 0 to 5.5 kHz band signal and 5.5 kHz to l 1 kHz band signal by the band dividing filter 202 .
  • the signal in the 1 lk Hz to 22 kHz band from the band division filter 201 is supplied to an MDCT (Modified Discrete Cosine Transform) circuit 203 which is an example of an orthogonal transformation circuit.
  • the 5.5 kHz to 11 kHz band signal from the band dividing filter 202 is supplied to the MDCT circuit 204, and the signal from 0 to 5.5 from the band dividing filter 202 is supplied to the MDCT circuit 204.
  • the signal in the kHz band is supplied to the MDCT circuit 205, where it is subjected to MDCT processing.
  • a filter such as the above-mentioned QMF, and 1976 REC rochiere Digital coding of speech in subbands Bell Syst. J. Vol.55, No.8, 1976.
  • ICASSP 83.B0ST ON Polyphase Quadrature filters-A new subband coding technique Joseph H. Eothweiler describes a filter splitting method with an equal band width.
  • an input audio signal is blocked in a predetermined unit time (frame), and a fast Fourier transform (FFT),
  • FFT fast Fourier transform
  • DCT discrete cosine transform
  • FIG. 3 shows a specific example of a block for each band with respect to a standard input signal supplied to each of the circuits 203, 204, and 205.
  • the signal divided into three bands has a plurality of orthogonal transform block sizes independently for each band, and the time is determined by the time characteristic and frequency distribution of the signal. The resolution can be switched. If the signal is quasi-stationary in time, the block size of the orthogonal transform is set to 11.6 ms, that is, as shown in Fig. If it is stationary, the orthogonal transform block size is further divided into two and four. As shown in ShortMode shown in FIG. 3B, the orthogonal transformation block size is 2.9 ms, which is obtained by dividing the whole into four parts, or Middle shown in FIG. 3C.
  • the orthogonal transform block size is 5.8 ms, which is divided into two parts, 2.9 ms when the-part is divided into four parts. With a time resolution of, it is adapted to actual complex input signals.
  • the division of the orthogonal transform block size can be performed more adaptively on the input signal by increasing the number of divisions and the division pattern.
  • the determination of the orthogonal transform block size is performed by the block size determining circuits 206, 207 and 208 in FIG. 2, and the determined orthogonal transform block size is 1 ⁇ 001 1 It is supplied to the circuits 203, 204, and 205, and is output from the output terminals 211, 211, and 218 as the block size information of the corresponding block. You.
  • FIG. 2 shows the block size determination circuit 206
  • Figure 4 shows the block size determination circuit 206
  • a specific circuit configuration will be described.
  • signals in the band llk Hz to 22 kHz are supplied to the power calculation circuit 404 via the input terminal 401 shown in FIG. Is done.
  • signals in the 5.5 kHz to 11 kHz band are transmitted through the input terminal 402 shown in FIG.
  • the signal is supplied to the power calculation circuit 405, and the signal in the 0 to 5.5 kHz band is supplied to the power calculation circuit 406 via the input terminal 403 shown in FIG.
  • the block size determination circuits 207 and 208 shown in FIG. 2 are arranged so that the signals input to the input terminals 401, 402 and 403 shown in FIG. The operation is the same except for the case of 06. That is, in the case of the block decision circuit 207 of FIG. 2, the input terminal 401 of FIG. 4 is connected to the 5.5 kHz from the band division filter 202 of FIG. The signal in the Hz band is input to the input terminal 402 in Fig. 4 and the signal in the 11 kHz to 22 kHz band from the band division filter 201 in Fig. 2 is input to the input terminal 402 in Fig. 4. The signal in the 0 to 5.5 kHz band from the band division filter 202 in FIG.
  • the input terminal 401 of FIG. 4 is connected to the 0 to 5.5 kHz band from the band division filter 202 of FIG.
  • the signal of 1 lk Hz to 22 kHz from the band division filter 201 of FIG. 2 is input to the input terminal 402 of FIG. 4, and the input terminal of FIG.
  • the signal of 5.5 kHz from the band division filter 202 in FIG. 2: Llk Hz band is input to 4003.
  • the block size determination circuits 206, 107, and 208 are provided for each channel. Note that the block size determination circuits 206, 206, and 208 are Only the channels may be provided, and the orthogonal transform block sizes for a plurality of channels may be determined.
  • each of the power calculation circuits 404, 405, and 406 calculates the power of each frequency band by integrating the input time waveform for a certain period of time. At this time, the integration time width must be equal to or smaller than the minimum of the orthogonal transform block sizes described above. In addition to the above calculation method, for example, the absolute value or the average value of the maximum amplitude within the minimum time width of the orthogonal transform block size may be used as the representative power.
  • the power information output from the power calculation circuit 404 includes the memory 410, the inter-channel correlation coefficient calculation circuit 411, the change extraction circuit 407, and the power comparison circuit 410. 9, and the respective power information from the power calculation circuits 405 and 406 are supplied to a power comparison circuit 409. Power calculation circuits 404, 405, and 406 are provided for each channel, and the power calculation circuits 404, 405, and 406 for each channel calculate the power information of each channel. You may do so.
  • the change extraction circuit 407 obtains a differential coefficient by differentiating the power information supplied from the power calculation circuit 404, and uses the differential coefficient as power change information to obtain a process size primary judgment circuit 41. 2 and memory 408.
  • the memory 408 accumulates the power change information supplied from the change extraction circuit 407 for the maximum time of the orthogonal transform block size described above. This is because the temporally adjacent orthogonal transform blocks exert influence on each other by window processing during orthogonal transform, so that the power change of the immediately preceding temporally adjacent block. This is because the information is required in the block size primary judgment circuit 412.
  • the block size primary judgment circuit 412 is temporally adjacent to the power change information of the corresponding block supplied from the change extraction circuit 407 and supplied from the memory 408.
  • the orthogonal transform block size of the corresponding frequency band is determined from the temporal change of the power in the corresponding frequency band based on the phase change information of the block immediately before the corresponding block. Specifically, the process size primary judgment circuit 412 selects an orthogonal transform process size that is shorter in time when, for example, a displacement equal to or more than a certain M value is recognized. Although this threshold value is effective even if it is fixed, the threshold value is proportional to the frequency.In the high frequency band, the orthogonal transform block size is short in time due to large displacement, and in the low frequency band. It is more effective to select an orthogonal transform block size that is shorter in time with a smaller displacement than in the case of a higher frequency band.
  • the orthogonal transform block size determined as described above is supplied to the block size secondary determination circuit 413.
  • the power comparison circuit 409 compares the power information of each frequency band supplied from each power calculation circuit 404, 405, 406 with the time width at which the masking effect occurs at the same time. Then, the influence of the other frequency bands on the output frequency band of the power calculation circuit 404 is determined, and the obtained masking information is supplied to the secondary program size determination circuit 413.
  • the block size secondary judgment circuit 413 uses the masking information supplied from the power comparison circuit 409 to perform the orthogonal transformation process supplied from the block size primary judgment circuit 412. The block size is corrected so as to have a longer block size in time, and the corrected orthogonal transform block size is supplied to the block size tertiary decision circuit 4 14. That is, the block size secondary judgment circuit 413 is used for the corresponding frequency band.
  • the orthogonal transform block size is modified by taking advantage of the fact that the effect of pre-echo may be reduced or not.
  • Masking is a phenomenon in which a certain signal masks another signal and makes it inaudible due to human auditory characteristics.
  • the masking effect includes a time-axis masking effect by a signal on time and a simultaneous masking effect by a signal on the frequency axis.
  • the above-mentioned block size secondary judgment circuit 4 13 utilizes the same time masking effect. Due to these masking effects, even if there is noise in the masked part, this noise is inaudible to humans. For this reason, in an actual audio signal, the noise within the masked range is considered to be a noise having no audible problem.
  • the inter-channel correlation coefficient calculation circuit 411 uses the power information of the plurality of channels from the power calculation circuit 404 and the memory 410 to determine the phase relationship between the powers of the plurality of channels. Calculate the number.
  • the memory 410 is used to supply power information for a plurality of channels at the same time as the corresponding block to the inter-channel correlation coefficient calculation circuit 411. That is, power information for a plurality of channels is continuously transmitted to the memory 410 from the power calculating circuit 404 in time.
  • the power calculation circuit 404 stores the power information for the left channel of the corresponding block in the memory 410, followed by the right channel of the corresponding block. Minutes of power information is supplied, followed by one of the blocks that is temporally adjacent to the block. The power information for the left channel of the subsequent block, and the power information for the right channel of the next block that is temporally adjacent to the block are supplied.
  • the memory 410 is used to output the power information of the blocks on each channel having the same time relationship as the relevant block to the inter-channel correlation coefficient calculating circuit 4111. And retains the channel information for each channel. Therefore, the memory 410 has a storage capacity of a size proportional to the number of channels. For example, assuming that the capacity of the memory 410 when the number of channels is 2 is C, the capacity Cn of the memory 410 when the number of channels is n is represented by the following equation (1). More
  • the inter-channel correlation coefficient calculation circuit 411 uses the power information of a plurality and / or a single channel stored in the memory 4 10. Input the power information for one channel, which is not stored in the memory 410 from the bar calculation circuit 404, to the multiple channels having the same time relationship with the corresponding block.
  • the correlation coefficient of the power information of each block is calculated. For example, when the number of channels is two, the correlation coefficient r is defined as the following equation (2).
  • the value of the correlation coefficient r is in the range of 1 l ⁇ r + l. If the correlation between X i and Y i is high, the value is close to +1. If the correlation is low, the value is close to -1. Obviously, B in Equation (2) is an integer, which determines the number of blocks to be added, that is, the time range. Even if this value is fixed, the effect can be obtained, but the value is proportional to the frequency, that is, the difference between b and n is large in the low frequency band and small in the high frequency band. The more effective it is, the more effective it becomes.
  • a X and A y are average values of power information included in the range from b to n.
  • the correlation coefficients are calculated for all the assumed pairs, and the average value thereof is represented as the output of the inter-channel correlation coefficient calculation circuit 411.
  • the number of all pairs assumed is ⁇ N (N-1) ⁇ Z 2 where N is the number of channels.
  • the block size tertiary judgment circuit 414 includes the correlation coefficient r obtained by the inter-channel correlation coefficient calculation circuit 411, the masking information obtained by the power comparison circuit 409, and the memo. Based on the power information of the orthogonal transform block immediately preceding the temporally adjacent orthogonal transform block held in memory 408, the block size secondary decision circuit 413 decides. Review the orthogonal transform block size, and finally determine the relevant orthogonal transform block size.
  • the correlation coefficient r sent from the inter-channel correlation coefficient calculation circuit 4 11 is a value from 11 to +1 as described above. High correlation between channels. Therefore, the block size tertiary decision circuit 414 is provided with a certain M value, a correlation coefficient exceeding the ⁇ value is input, the same time masking effect can be expected, and the memory 408 If the power information from ⁇ ⁇ ⁇ has a value larger than the ⁇ value, all the orthogonal transform block sizes of multiple channels having the same time relationship are made longer. For example, set to 11.6 ms, that is, the same size as the Long Mode shown in Fig. 3A.
  • the block size tertiary decision circuit 414 makes all orthogonal transform block sizes of a plurality of channels having the same time relationship shorter. For example, the size is the same as the Short Mode shown in Fig. 3B. It should be noted that although each of the above joint values can be effective even if it is fixed, it is more effective if it is variable according to the frequency.
  • the value of the power information of each channel may be compared instead of obtaining the correlation coefficient. For example, if the number of channels is two, the absolute value of the difference between each piece of information is determined. In the case of three or more channels, the absolute value of the difference is calculated for every possible pair, and the average value is calculated. Then, this value is supplied to the block size tertiary judgment circuit 414.
  • the block size tertiary determination circuit 4 14 stores the difference value of the power information obtained by the inter-channel correlation coefficient calculation circuit 4 11, the masking information obtained by the power comparison circuit 4 09, and the memory 408. Based on the stored power information of the immediately preceding block in time, the corresponding orthogonal transform block size is determined.
  • the block size The size tertiary determination circuit 4 14 determines all the orthogonal transform block sizes of a plurality of channels having the same time relation longer. For example, the size should be the same as the Long Mode shown in Fig. 3A.
  • the difference value of the power information takes a value lower than a certain W value, the masking effect at the same time cannot be sufficiently expected, and the power information of the immediately preceding orthogonal transform block exists.
  • the block size tertiary judgment circuit 4 14 makes all the orthogonal transform block sizes of a plurality of channels having the same time relationship smaller.
  • the size is the same as the Short Mode shown in Fig. 3B.
  • the above-mentioned respective M values can obtain the effect even if they are fixed, it is more effective to make them variable according to the frequency.
  • the corresponding orthogonal transform process size BS determined by the process size determination circuit 414 is output to the MDCT circuit 203 shown in FIG. 2 via the output terminal 416 and the window
  • the window shape determination circuit 415 is supplied to the window shape determination circuit 415, and determines the window shape based on the orthogonal transformation process size BS.
  • Fig. 5 shows the state of adjacent windows and window shapes.
  • the window used for orthogonal transformation has a portion that overlaps between blocks that are temporally adjacent to each other, and this embodiment employs a shape that overlaps to the center of adjacent blocks. . Therefore, the window shape changes depending on the orthogonal transform block size of the adjacent block.
  • FIG. 6 shows the details of the window shape.
  • window functions f (n) and s (n + N) satisfy the following equations (3) and (4).
  • Cf (n) f (L-1-n) s (n) s (L-1-n) given as a function
  • L is the orthogonal transform block size as long as the adjacent orthogonal transform block sizes are the same, but L is the adjacent orthogonal transform block size.
  • the orthogonal transform block size is shorter in terms of time and L is longer, and the orthogonal transform block size that is longer in terms of time is K, in the region where the windows do not overlap, the following equation is used.
  • the shape of the window used for the orthogonal transform is three orthogonal transform blockers that are continuous in time. Determined after the size is fixed.
  • the block size determination circuits 206, 207 and 208 shown in FIG. 2 are omitted, and the power calculation circuits 405 and 406 and the power comparison circuit 409 shown in FIG. 4 are omitted. May be configured.
  • the block size determination circuits 206, 107, and 208 are replaced with the block size secondary determination circuit 413 shown in FIG. 4 and / or the block size tertiary determination circuit 414. May be omitted.
  • the configuration having a small delay described above can be adopted, which is effective.
  • the W value is set to a low value, so that the time lengths of all the processing blocks at the same time are the same. You can do it. This is particularly effective for input signals with high correlation between channels.
  • block size primary determination circuit 4 12 block size secondary determination circuit 4 13
  • block size tertiary determination circuit 4 14 block size tertiary determination circuit 4 14, and the like will be described.
  • the signal in each band is a sine wave, and the level (amplitude) of the signal in the 11 kHz to 22 kHz band of the input signal shown in Fig. 7A It is assumed that the input signal shown in FIG. 7B has the same signal level in the llk Hz to 22 kHz band.
  • the orthogonal transform block size of the corresponding block N is determined only by the amplitude change of the corresponding frequency
  • the same orthogonal signal is used for the input signal shown in Fig. 7A and the input signal shown in Fig. 7B.
  • Conversion block size is determined. However, focusing on signals in the band of 0 to 5.5 kHz or 5.5 kHz: Llk Hz, the input signal shown in FIG. Since the power of the signals in other bands is lower than the power (energy) of the signals in the ⁇ 22 kHz band, the pre-echo generated in the 1 lk Hz ⁇ 22 kHz band is In this implementation, for the input signal shown in Fig. 7A, the block N in the llk Hz to 22 kHz band is shorter than that for the input signal shown in Fig. 7A. The width is assumed to be the orthogonal transform block size.
  • the power of the signal in the 0 to 5.5 kHz or 5.5 kHz to l 1 kHz band is 1 lk Hz to 22 kHz. Since this value is sufficient to mask the yellow echo compared to the power of the signal in the band, the pre-economy that occurs in the band from 11 kHz to 22 kHz is masked, which causes hearing problems. It's hard to do. Therefore, in this embodiment, the frequency resolution is given priority to the input signal shown in FIG. 7B, and the orthogonal transform block size having a longer time width than that of the input signal shown in FIG. 7A is determined. You.
  • the power calculation circuits 404, 405, 406, the power comparison circuit 409, and the block size secondary judgment circuit 413 shown in FIG. In each case of the input signal shown in A and the input signal shown in FIG. 7B, different orthogonal transform block sizes are determined.
  • a signal in a certain band for example, a 1 kHz to 22 kHz band is a sine wave, and the input at which the level at which the level increases becomes different from each other.
  • a signal is input.
  • the input signal shown in FIG. 8A is a left channel signal
  • the input signal shown in FIG. 8B is a right channel signal
  • a two-channel stereo signal is input.
  • a slight phase difference is often found in actually stereo-recorded tone signals.
  • the orthogonal transform block size of the corresponding block N is determined only by the amplitude change of the signal, the orthogonal transform block size of a shorter time width is obtained for the input signal shown in Fig. 8A. Is determined, and for the input signal shown in FIG. 8B, the orthogonal transform block size having a longer time width is determined.
  • This is the absolute value of the difference between the maximum amplitude values existing in block N-1 and block N, that is, the magnitude of D a in FIG. 8A and D b in FIG.
  • the relationship of Da> T> Db was established, albeit with a small difference, so that the orthogonal transform block size as described above was determined.
  • each channel determines the orthogonal transformation block size with a longer time span. If the simultaneous masking effect and / or the time axis masking effect cannot be obtained, each channel has a shorter time span.
  • the block size tertiary decision circuit 4 14 makes the orthogonal transform block size of each channel equal to the input signal with high correlation between channels as shown in FIG. It can be What It is effective even if the processing blocks on at least two of the channels have the same time length.
  • the spectrum data or MDCT coefficient data on the frequency axis obtained by the MDCT processing in each MDCT circuit 203, 204, 205 is the so-called critical band in the low band. (Critical band), and the middle and high frequencies are divided into critical bandwidths in consideration of the effectiveness of block-floating, and adaptive bit allocation coding circuits 2 Supplied to 10, 2 11, 2 12.
  • the critical band is a frequency band divided in consideration of human auditory characteristics, and the pure tone is masked by the narrow band noise of the same strength near the frequency of a pure tone. This is the bandwidth of the noise when it is performed. In this critical band, the higher the frequency, the wider the bandwidth, and the entire frequency band from 0 to 22 kHz is divided into, for example, 25 critical bands.
  • the bit allocation calculation circuit 209 performs a clearing process in consideration of the so-called masking effect and the like based on the spectrum data divided in consideration of the above-described critical band and the process flow. Calculate the masking amount for each divided band in consideration of the technical band and block floating, and calculate the energy or peak for each divided band in consideration of the masking amount and the critical band and block floating. The number of allocated bits for each band is determined based on the values, etc., and the bits allocated to each band by the adaptive bit allocation coding circuits 210, 211, and 212. Each spectrum data (or MDCT coefficient data) is requantized according to the number. The data encoded in this manner is taken out via output terminals 2 13, 2 14, and 2 15.
  • FIG. 9 is a block circuit diagram showing a configuration of a specific example of the bit allocation calculation circuit 209.
  • each of the above 1 ⁇ 10 ⁇ ⁇ ! The spectrum on the frequency axis or the MDCT coefficient data from the circuits 203, 204, and 205 is converted to the energy calculation circuit 900 for each band via the input terminal 900.
  • the energy calculation circuit 901 calculates the energy of each divided band in consideration of the masking amount and the critical band and the peak floating, for example, for each amplitude value in the band. It is obtained by calculating the sum, etc. Instead of the energy for each band, a peak value or an average value of the amplitude value may be used.
  • the spectrum of the total value of each band is shown as SB in FIG.
  • the number of sub-bands considering the masking amount and critical band and block floating is 12 nodes (B 1 to: B 1 2).
  • the convolution filter circuit 102 includes a plurality of delay elements for sequentially delaying input data and a plurality of delay elements for multiplying an output from these delay elements by a filter coefficient (weighting function). It is composed of a multiplier (for example, 25 multipliers corresponding to each band) and a sum adder that calculates the sum of the outputs of the multipliers.
  • a multiplier for example, 25 multipliers corresponding to each band
  • a sum adder that calculates the sum of the outputs of the multipliers.
  • the coefficient of the multiplier M corresponding to an arbitrary band is represented by
  • the coefficient 0.15 is applied to the multiplier M — 1
  • the coefficient 0.000 19 is applied to the multiplier M-2
  • the coefficient 0.00 0 0 0 8 6 is applied to the multiplier M-3.
  • M is any integer from 1 to 25.
  • the output of the convolution filter circuit 902 is sent to a subtractor 905.
  • the subtractor 905 obtains a level ⁇ corresponding to an allowable noise level described later in the convolved region.
  • the level ⁇ corresponding to the permissible noise level is determined by performing inverse composition processing, as will be described later, on each band of the critical band. This is a level that gives an acceptable noise level for each node.
  • an allowance function (a function expressing a masking level) for obtaining the level ⁇ is supplied to the subtractor 905.
  • the level ⁇ is controlled by increasing or decreasing the permissible function.
  • the permissible function is supplied from an ( ⁇ -ai) function generating circuit 904 described below.
  • the level ⁇ corresponding to the allowable noise level can be obtained by the following equation (7), where i is a number sequentially given from the low band of the critical band.
  • a S-(n-ai)
  • n and a are constants and a> 0
  • S is the intensity of the convolution-processed bark spectrum
  • (n-ai) in equation (7) is an allowable function.
  • the level ⁇ is obtained, and this data is supplied to the subtractor 905.
  • the level ⁇ in the convolved region is inversely convolved. Therefore, a masking spectrum can be obtained from the level ⁇ by performing the inverse convolution processing. That is, this masking spectrum becomes the allowable noise spectrum.
  • the above-described inverse convolution processing requires a complicated operation, in the present embodiment, the inverse convolution is performed using a simplified subtractor 905. I have.
  • the masking spectrum is supplied to a subtracter 907 via a synthesis circuit 906.
  • the output from the energy calculation circuit 901 for each band that is, the spectrum SB described above, is supplied to the subtracter 907 via the delay circuit 908. I have. Therefore, the subtractor 907 performs a subtraction operation between the masking spectrum and the spectrum SB, as shown in FIG. Is masked below the level indicated by the level of the masking vector MS.
  • the output from the subtracter 907 is taken out via the permissible noise correction circuit 911 and the output terminal 912.
  • a ROM or the like in which information on the number of allocated bits is stored in advance (see FIG. (Not shown).
  • the ROM and the like are obtained from the output obtained from the subtracter 907 via the allowable noise correction circuit 911. According to the force (the level of the difference between the energy of each band and the output of the noise level setting means), information on the number of bits assigned to each band is output.
  • the information on the number of allocated bits is sent to the adaptive bit allocation coding circuits 210, 211, and 212, so that 1 ⁇ 0 ⁇ 1 circuits 203, 204, 205
  • Each spectrum data on the frequency axis from is quantized by the number of bits assigned to each band.
  • the adaptive bit allocation coding circuits 210, 211, and 212 have the above-described masking amount and the energy of each divided band in consideration of the critical band and the peak floating.
  • the spectrum data for each band is quantized by the number of bits assigned according to the level of the difference from the output of the noise level setting means.
  • the delay circuit 908 is provided to delay the spectrum SB from the energy calculation circuit 901 per band in consideration of the amount of delay in each circuit before the synthesis circuit 906. ing.
  • the so-called minimum audible curve which is a human auditory characteristic supplied from the minimum audible curve generation circuit 909 as shown in FIG.
  • the data indicating RC and the masking vector MS can be synthesized. In this minimum audible curve, if the absolute noise level is below this minimum audible curve, the noise will not be heard.
  • This minimum audible curve will differ depending on the playback volume during playback, for example, even if the coding is the same, but in a realistic digital system, for example, the 16-bit dynamic range Since there is not much difference in the way music is entered, if for example the quantization noise in the most audible frequency band around 4 kHz is not audible, this minimum audible It is considered that quantization noise below the level of the curve is not exceeded.
  • the minimum audible curve RC and the masking vector MS are both used. If an allowable noise level is obtained by synthesis, the allowable noise level in this case can be up to the shaded portion in FIG. In this embodiment, the 4 kHz level of the minimum audible curve is adjusted to the lowest level corresponding to, for example, 20 bits.
  • FIG. 12 also shows the signal spectrum SS.
  • the allowable noise correction circuit 911 outputs the allowable noise level at the output from the subtracter 907 based on, for example, information on the equal loudness curve sent from the correction information output circuit 910. Is corrected.
  • the equal loudness curve is a characteristic curve relating to human auditory characteristics, for example, a curve obtained by calculating the sound pressure of sound at each frequency that sounds as loud as a pure tone of 1 kHz. This is also called the loudness iso-sensitivity curve. This equal loudness curve is similar to the minimum audible curve RC shown in Fig. 12.
  • the sound pressure is 8 ⁇ from 1 kHz: the loudness sounds the same as 1 kHz even when the LO dB decreases. In the vicinity of 50 Hz, the same magnitude is not heard unless the sound pressure at 1 kHz is higher by about 15 dB. Therefore, it is clear that noise exceeding the level of the minimum audible curve (allowable noise level) should have a frequency characteristic given by a curve corresponding to the equal loudness curve. For this reason, correcting the above-mentioned allowable noise level in consideration of the above-mentioned equal loudness curve is not suitable for human hearing characteristics. You can see that.
  • the correction information output circuit 910 the output information amount at the time of quantization by the adaptive bit allocation coding circuits 210, 211, and 212 (de-night) is used.
  • the allowable noise level may be corrected based on information on an error between the detection output of the amount (amount) and the target bit rate of the final encoded data. This is because the total number of bits obtained by performing temporary adaptive bit allocation for all bit allocation unit blocks in advance is determined by the bit rate of the final encoded output data. In some cases, there is an error with respect to a fixed number of bits (target value), and the bits are allocated again so that the error is set to zero.
  • the difference bit number is allocated to each unit block and added, and the total allocated number of bits is smaller than the target value.
  • the difference bits are allocated to each unit block so as to reduce the number of bits.
  • the correction information output circuit 910 detects the error of the total allocated bits from the target value and corrects each allocated bit according to the error data. Output the correction data for this.
  • the error data indicates that the number of bits is insufficient, a larger number of bits are used per unit block, so that the amount of data becomes larger than the target value. Can be considered.
  • the error data is data indicating a bit number excess, the number of bits per unit block is small, and the data amount is smaller than the target value. Can be considered.
  • the permissible noise level in the output from the subtractor 907 according to the error data is calculated. For example, data of the above-mentioned correction value for correcting the same based on the information data of the above-mentioned equal loudness curve is output.
  • the correction value as described above is supplied to the allowable noise correction circuit 911 so that the allowable noise level from the subtracter 907 is corrected.
  • the scale factor indicating the state of the block floating as data obtained by processing the orthogonal transform output spectrum with sub-information as main information and sub-information. Then, a single word indicating the word length is obtained and sent from the encoder to the decoder.
  • FIG. 13 shows a specific configuration of the 1 "(decoder 73 shown in FIG. 1, that is, the decoding circuit for decoding the signal which has been encoded with high efficiency as described above again.
  • the quantized MDCT coefficients that is, the data equivalent to the output signals of the output terminals 2 13, 2 14, and 2 15 in FIG. 2 are input through the input terminals 3 0 0, 3 0 2, and 3 0 4.
  • the used process size information that is, data equivalent to the output signals of the output terminals 2 16, 2 17, and 2 18 in FIG. 2 are supplied to the input terminals 301, 303, and 305. Is supplied to the decoding circuits 303, 307, and 308.
  • the decoding circuits 306, 307, and 308 are used to bite using the adaptive bit allocation information.
  • 11 ⁇ 0 ⁇ > 1 circuit 309, 310, 311 converts the signal on the frequency axis to the signal on the time axis.
  • the on-axis signal is 1 01 ⁇ 1 1 circuit 3 1 2,
  • the signal is decoded into a full-band signal and output to DZA converter 74 shown in FIG. 1 via output terminal 3 14.
  • the present invention is not limited to only the above-described embodiment.
  • the recording / reproducing medium and the other recording / reproducing medium do not need to be integrated, and a data transfer line is provided between them. It is also possible to connect You.
  • the present invention can be applied not only to audio PCM signals but also to signal processing devices for digital audio (speech) signals, digital video signals, and the like.
  • a configuration in which the above-described minimum audible curve synthesizing process is not performed may be adopted. In this case, the minimum audible curve generating circuit 909 and the synthesizing circuit 906 in FIG. 9 are not required, and the output from the subtracter 905 is immediately subtracted by the subtractor 905. 7 will be supplied.
  • bit allocation methods there are various bit allocation methods, most simply fixed bit allocation, simple bit allocation by energy of each band of the signal, or a combination of fixed and variable components. It can be used for bit allocation.
  • the temporal size and the window shape of the orthogonal transform block are changed in response to a sudden change in the amplitude of the input signal.
  • the time length of the orthogonal transform blocks of each channel is set to be the same, thereby suppressing the occurrence of sound quality differences between the channels.
  • the sound image localization feeling can be improved, and good sound quality can be obtained. This makes it possible to obtain better sound quality at the same bit rate. In addition, in order to obtain the same sound quality, it can be performed at a lower bit rate.
  • the present invention it is possible to provide a method for deciding the temporal length of a processing block that is also desirable from the viewpoint of hearing for the compression of an information signal that fluctuates over time. High-efficiency compression and decompression with high sound quality can be performed.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

明 細 書 情報圧縮方法及び装置、 圧縮情報伸張方法及び装置、 圧縮情報記録 ノ伝送装置、 圧縮情報再生装置、 圧縮情報受信装置、 並びに記録媒 体 技 術 分 野 本発明は、 ディ ジタルオーディ オ信号等を ビッ ト圧縮する情報圧 縮方法及び装置、 圧縮情報伸張方法及び装置、 圧縮情報を記録又は 伝送する圧縮情報記録 伝送装置、 圧—縮情報が記録された記録媒体、 記録媒体から圧縮情報を再生する圧縮情報再生装置、 及び圧縮情報 受信装置に関する ものであ り、 特に、 入力信号の時間軸上の波形の 振幅変化に応じて、 その処理ブロ ックの時間的大きさ を変化させる よ う に したものに関する。 背 景 技 術 本件出願人は、 先に、 入力されたディ ジタルオーディ オ信号を ビ ッ ト圧縮し、 所定のデ一夕量を記録単位と して記録媒体にバ"ス 卜 的に記録するよう な技術を、 例えば米国特許番号 P 5 , 2 4 3 , 5 8 8の明細書及び図面等にお いて提案 している。
この技術は、 記録媒体と して光磁気ディ ス ク を用い、 いわゆる C D— I ( C D —イ ンタラ クテ ィブ) や C D— R 0 M X Aのオーデ ィ ォデ一夕フ ォーマ ヅ 卜 に規定さ れて いる A D (適応差分) P C M オーディ オデータ を、 光磁気ディ スク に記録 し、 また光磁気デイ ス クから A D P C Mオーディ オデータを再生するものであ り、 この A D P C Mオーディ オデ一夕の例えば 3 2セクタ分とィ ンター リ ーブ 処理のための リ ンキング用の数セクタ とを記録単位と して、 A D P C Mオーディ オデ一夕 を光磁気ディ ス クにバース ト的に記録するよ う になつている。
この光磁気ディ スク を用いた記録再生装置における A D P C Mォ 一ディ ォデータ には、 い く つかのモ一 ドが選択可能になってお り、 例えば通常の C D ( コ ンパク トディ ス ク) の再生時間に比較 して、 2倍の圧縮率でサンプリ ング周波数が 3 7. 8 k H zの レベル A、 4倍の圧縮率でサンプ リ ング周波数が 3 7. 8 k H zの レベル B、 8倍の圧縮率でサンプリ ング周波数が 1 8. 9 k H zの レベルじが 規定されている。 すなわち、 例えば上記レベル Bの場合には、 ディ ジタルオーディ オデータが略々 1 /4 に圧縮され、 この レベル Bの モー ドで記録されたディ スクの再生時間 (プレイ タイ ム ) は、 標準 的な C Dフォーマッ ト ( C D — D Aフ ォーマッ ト ) の場合の 4倍と なっている。 これは、 よ り小型のディ スクで標準 1 2 c mのデイ ス ク と同 じ程度の記録再生時間が得られるこ とから、 装置の小型化が 図れる こ と になる。
と ころで、 この記録再生装置におけるディ ス クの回転速度は標準 的な C Dと同 じであるため、 例えば上記レベル Bの場合、 所定時間 当た り その 4倍の再生時間分の圧縮データが得られる こ と になる。 このため、 例えばセクタやクラス夕等の時間単位で同 じ圧縮データ を重複 して 4回読み出すよう に し、 そのうちの 1 回分の圧縮データ のみをオーディ オの再生にまわすよう に している。 具体的には、 ス パイ ラル状の記録 トラ ッ クを走査 ( ト ラ ッキ ング) する際に、 1 回 転毎に元の ト ラ ヅ ク位置に戻るよ うな トラ ッ クジャ ンプを行って、 同 じ ト ラ ヅ ク を 4 回ずつ繰り 返し トラ ッキングするよ う な形態で再 生動作を進めるこ とになる。 これは、 例えば 4回の重複読み取り の 内、 少な く と も 1 回だけ正常な圧縮データが得られればよいこ と に な り、 外乱等によるエラーに強く、 特に携帯用小型機器に適用 して 好ま しいものである。
さ ら に、 半導体メ モ リ を記録媒体と して用いる こ とが考え られる。 具体的には、 いわゆる I Cカー ド を用 いてオーディ オ信号を記録再 生する こ とが考え られ、 この I Cカー ドに対 して、 ビッ ト圧縮処理 された圧縮データ を記録し、 再生する。 また、 圧縮効率をさ ら に高 めるためには、 追加のビヅ ト圧縮が行われる こ とが望ま しい。
このよ うな半導体メ モ リ を用いた I Cカー ド等は、 半導体技術の 進歩に伴って記録容量の増大や低価格化が実現されてゆ く ものであ るが、 市場に供給され始めた初期段階では容量が不足気味で、 ま た 高価である。 従って、 例えば上記光磁気ディ ス ク等のよ うな他の安 価で大容量の記録媒体から I Cカー ド等に内容を転送して頻繁に書 き換えて使用する こ とが充分考え られる。 具体的には、 例えば上記 光磁気ディ ス ク に収録されて いる複数の曲の内、 好みの曲を I C力 一ド にダビングするよ う に し、 不要になれば他の曲と入れ換える。 このよ う に して、 I Cカー ドの内容書換えを頻繁に行う こ と によ り、 少ない手持ち枚数 I cカー ドで種々の曲を戸外等で楽 しむこ とが できる。
さ ら に、 本件出願人は、 米国特許番号 P 5 , 1 9 7 , 0 8 7 にお いて、 入力信号の大きな振幅変化に適応して圧縮処理における処理 ブロ ッ ク を可変とする こ とで、 時間的分解能な らびに応答性を改善 する技術を開示している。
この技術は、 時間分解能と周波数分解能の両特性を、 入力信号の 性質に応じて変化させるこ と によ り、 入力信号への適応性を高め、 聴感上の良質な音質を得るものである。 高能率圧縮法の中で直交変 換を用いる、 いわゆる トランスフ ォームコーディ ングでは、 この技 術は、 振幅変化が激しい信号が入力された場合に生じるプリ エコー に対して特に有効な手法である。 ここで述べているプリ エコー とは、 直交変換の単位であるブロ ッ ク (以下、 直交変換ブロ ッ ク と いう。 ) 中に大きな振幅変化が生 じた状態で圧縮、 伸長を行なった場合、 そ の直交変換ブロ ッ ク内に時間的に均一な量子化ノ イ ズが発生 し、 元 の信号の振幅の小さい部分において量子化ノ イ ズが聴感上問題とな る現象である。
と ころで、 上述の ト ラ ンス フォーム コーディ ングにおいては、 そ の直交変換の性質から、 直交変換プロ ックの時間的長さ を長く する と時間分解能が低下し、 短く する と周波数分解能が低下 して しま う。 例えば、 同一の信号を異なる長さの直交変換プロ ッ クで直交変換を 行なった場合、 得られるスぺク トル又は直交変換係数の状態は大き く 異なって く る。 当然、 その差は圧縮 · 伸長された信号にも反映さ れる。 例えば、 2 チャ ンネルのステレオ音楽信号が入力される と仮 定した場合、 一般に各チャンネルの直交変換プロ ッ クの長さは独立 して決定されるが、 両チャンネル間の相関がある程度高いのにもか かわ らず、 片方のチャ ンネルの直交変換ブロ ックの長さ を短く、 も う一方のチャ ンネルを長く して しま う こ とがある。 この場合、 チヤ ンネル間においてスペク トル又は直交変換係数の状態に大きな差が 生 じて しま い、 結果的にチャ ンネル間の音質差が顕著になって しま う。 これは、 伸長された音楽信号の音像定位感が不明瞭になるなど の原因とな り、 音質の劣化を引き起こす。 発 明 の 開 示 本発明は上述のよう な実情に鑑みてなされたものであ り、 本発明 の目的は、 実際の複雑な入力信号に対 し、 よ り良好に適応した直交 変換ブロ ックサイ ズを決定するこ とができる手法の提供を行ない、 ま た、 低ビッ ト レー ト における音質劣化防止、 及び同一ビヅ ト レー ト における音質の向上を図る こ とである。
本発明は上述した目的を達成するために提案されたものであ り、 本発明の情報圧縮方法は、 少な く とも 2つのチャ ンネルの各入力信 号を、 各チャ ンネルの入力信号に適応 して可変 した長さの処理ブロ ッ ク に分割し、 この処理ブロ ック単位で情報圧縮を行う情報圧縮方 法であ り、 同時刻における各チャ ンネルの上記処理ブロ ッ クの長さ を同一のもの とするこ と を特徴とする ものである。
また、 本発明の情報圧縮装置は、 少な く と も 2つのチャンネルの 各入力信号を処理プロ ッ クに分割する に際し、 各チャンネルの入力 信号に適応して処理ブロ ックの長さを可変する と共に同時刻におけ る各チャ ンネルの上記処理ブロ ッ クの長さ については同一とするブ 口 ヅ ク分割手段と、 -上記処理プロ ック単位の信号に対して所定の情 報圧縮処理を施す情報圧縮手段と を有するこ とを特徴とするもので ある。
こ こで、 本発明の情報圧縮方法及び装置では、 以下のよ う になさ れている。 すなわち、 全チャ ンネル中の少な く と も 2つのチャンネ ルの処理ブロ ッ クの長さは同一のもの と して いる。 また、 本発明の 情報圧縮方法及び装置では、 少な く と も 2つのチャンネル間の信号 の相関関係を調べ、 当該相関が高いと判断したと きにのみ、 対応す る各チャンネル上の上記処理ブロ ックの長さ を同一のものとする。 この相関関係は、 該当処理ブロ ッ クの入力信号の変化及び Z又は他 の処理ブロ ッ クの入力信号の変化及び/又はパワー又はエネルギ又 はピーク情報に基づいて、 若 し く は、 該当処理プロ ヅ ク と同時刻の 関係にある各処理ブロ ッ クの入力信号の変化及び 又は他の処理ブ ロ ッ クの入力信号の変化及び/又はパワー又はエネルギ又はピーク 情報に基づいて、 或いは、 該当処理ブロ ッ ク と該当処理ブロ ッ ク に 隣接する少な く と も 1 つの処理ブロ ッ クの入力信号の変化及び Z又 はパワー又はエネルギ又はピーク情報に基づいて、 又は、 チャンネ ル間の相関係数を用いて調べる。 また、 相関係数は、 各チャ ンネル の該当処理ブロ ッ ク及び 又は処理ブロ ックの入力信号の変化及び Z又はパワー又はエネルギ又はピーク情報に基づいて、 若 し く は、 各チャ ンネルの該当処理ブロ ック及び 又は処理ブロ ッ クの入力信 号の変化及びノ又はパワー又はエネルギ又はピーク情報の各チャ ン ネル間の差分値に基づいて調べる。 さ らに、 本発明の情報圧縮方法 及び装置は、 入力信号に応じた所定のマスキング効果の度合いを算 出 し、 各チャ ンネルの処理ブロ ヅ クの長さ を決定する。 このマスキ ング効果の度合いは、 該当処理ブロ ッ ク及び 又は他の処理ブロ ッ クの入力信号の変化、 及びノ又は、 パワー又はエネルギ又はピーク 情報に基づいて算出 した り、 該当処理ブロ ッ ク に隣接する処理プロ ヅ クの入力信号の変化、 及び Z又は、 パワー又はエネルギ又はピー ク情報に基づいて算出 した り、 さ らには、 該当処理プロ ヅ ク と同時 刻の関係にある処理ブロ ックの入力信号の変化、 及び Z又は、 パヮ 一又はエネルギ又はピーク情報に基づいて算出する。 ま た、 本発明 の情報圧縮方法及び装置では、 該当処理ブロ ッ クの長さ を決定する 要素の決定に関与する割合を、 固定又は入力信号に適応 した割合で 用い、 この該当処理ブロ ックの長さを決定する要素の決定に関与す る割合を、 周波数に応じて可変とする よう に している。 さ ら に、 本 発明の情報圧縮方法及び装置では、 時間軸信号か ら周波数軸上の複 数の帯域への分割に直交変換を用 いる こ と、 及び直交変換サイズの 可変と共に直交変換時に用いる窓関数の形状も変化させるよ う に し て いる。 上記時間軸信号から周波数軸上の複数の帯域への分割の際 には、 先ず複数の帯域に分割 し、 分割された帯域毎に複数のサンプ ルからなるブロ ッ クを形成 し、 各帯域のブロ ック毎に直交変換を行 い、 係数データを得る。 また、 このと き、 直交変換前の時間軸信号 から周波数軸上の複数の帯域への分割における分割周波数幅は、 略 高域程広く し、 最低域の連続 した 2帯域で同一とする。 その他、 本 発明の情報圧縮方法及び装置では、 略信号通過帯域以上の帯域の信 号成分に圧縮符号のメ イ ン情報及びノ又はサブ情報の割 り 当てを禁 止する。 また、 該当処理ブロ ックの入力信号の変化を用いて処理ブ 口 ッ クの時間的長さを決定する際には、 境界値が入力信号の振幅、 周波数に応じて可変とする。
また、 本発明の圧縮情報伸張方法は、 上記本発明の情報圧縮方法 又は情報圧縮装置によって圧縮された情報を伸張するものである。 こ こで、 情報圧縮の際に直交変換が行われた場合には、 本発明の圧 縮情報伸張方法において、 周波数軸上の複数帯域から時間軸上信号 への変換に逆直交変換を用い、 周波数軸上の複数帯域から時間軸信 号への変換の際には各帯域のプロ ック毎に逆直交変換を用い、 各逆 直交変換出力を合成 して時間軸上合成信号を得るよう にする。 ま た、 逆直交変換後の周波数軸上の複数の帯域から時間軸信号への合成に おける複数の帯域からの合成周波数幅を略高域程広く し、 前記合成 周波数幅を最低域の連続した 2帯域で同一とする。
さ ら に、 本発明の圧縮情報伸張装置は、 少な く とも 2つチャ ンネ ルの入力信号に適応して処理プロ ックの長さ を可変する と共に、 同 時刻の各チャ ンネルでは同一の長さ となされた処理ブロ ック単位で、 所定の圧縮処理が施された各チャ ンネルの圧縮情報を伸張する圧縮 情報伸張装置であって、 上記各チャンネルで所定の圧縮処理に対応 する伸張処理を行う伸張処理手段と、 上記伸張処理手段からの可変 長の処理ブロ ック を各チャンネルで合成する合成手段と を有する も のである。 さちに、 本発明の圧縮情報伸張方法及び装置は、 上述 し た本発明の情報圧縮方法又は情報圧縮装置によって圧縮された圧縮 情報を伸張するものである。
言い換えれば、 本発明の情報圧縮方法及び装置、 圧縮情報伸張方 法及び装置 (高能率符号化手法及び圧縮又は伸長装置) は、 入力信 号の振幅変化に適応して、 圧縮過程の直交変換ブロ ッ クの時間的な 大きさ を可変とするこ とを特徴とする ものであ り、 該当ブロ ッ クの 周波数帯域の時間軸上の信号の振幅変化、 及び/又は他の周波数帯 域のエネルギ又はパワーに加え、 他チャンネルの周波数帯域のエネ ルギ又はパワーを基に、 上記の直交変換ブロ ックの時間的サイ ズを 決定するこ と によ り、 チャンネル間において信号の相関が高い場合 には該当直交変換ブロ ッ クに対するマスキング効果を算出 し、 マス キング効果が得られる場合には各チャ ンネル全ての直交変換ブロ ッ クサイ ズを時間的に長く かつ同一の長さに、 マスキング効果が得ら れない場合には各チャ ンネル全ての直交変換ブロ ッ クサイ ズを時間 的に短 く かつ同一の長さ にするこ とによ り、 上述の問題を解決する。
また、 本発明の圧縮情報記録 Z伝送装置は、 少な く と も 2つのチ ヤ ンネルの各入力信号を処理プロ ック に分割する に際 し、 各チャ ン ネルの入力信号に適応 して処理ブロ ッ クの長さを可変する と共に同 時刻における各チャンネルの上記処理ブロ ッ クの長さ については同 — とするブロ ック分割手段と、 上記処理ブロ ッ ク単位の信号に対 し て所定の情報圧縮処理を施す情報圧縮手段と、 上記情報圧縮手段に よる圧縮情報を記録媒体に記録若 し く は伝送媒体に伝送する記録ノ 伝送手段とを有するこ と を特徴と する ものであ り、 本発明の情報圧 縮方法及び装置によって圧縮された圧縮情報を記録媒体に記録若 し く は伝送媒体に伝送するものである。
さ ら に、 本発明の記録媒体は、 少な く とも 2つのチャ ンネルの処 理ブロ ックは、 入力信号に適応して上記処理ブロ ッ クの長さ を可変 する と共に対応する各チャンネルでは同一の長さ となされた処理ブ 口 ッ ク単位で、 所定の圧縮処理が施された各チャ ンネルの圧縮情報 を記録 してなるこ とを特徴と する ものである と共に、 上述した本発 明の情報圧縮方法又は情報圧縮装置によって圧縮された圧縮情報を 記録 してなるものである。
さ ら に、 本発明の圧縮情報再生装置は、 本発明の圧縮情報記録装 置によ り圧縮情報が記録された記録媒体から当該圧縮情報を伸長す る と共に再生するものであ り、 本発明の圧縮情報受信装置は、 本発 明の圧縮情報伝送装置から伝送された圧縮情報を受信 して伸張する と共に再生するものである。
そ して、 本発明によれば、 入力信号の急激な振幅変化に対して、 直交変換プロ ッ クの時間的サイズ及びウイ ン ド ウ形状を変化させる 際に、 チャ ンネル間においてある程度相関が高い と判断 した場合に は、 各チャンネルの直交変換ブロ ヅクの時間的長さを同一のもの と するこ と によ り、 チャ ンネル間における音質差の発生を抑制 し、 音 像定位感などを向上させ、 良好な音質を得るよう に して いる。
このこ と によ り、 同一のビッ ト レー ト において、 よ り 良好な音質 を得るこ とが可能となる。 ま た、 同等の音質を得るために、 よ り低 ぃ ビヅ ト レー 卜 で実施可能となる。 図 面 の 簡 単 な 説 明 図 1 は、 本発明を適用 した圧縮デ一夕記録再生装置の具体的な構 成を示すプロ ッ ク回路図である。
図 2 は、 本発明を適用 した高能率圧縮符号化装置の具体的な構成 を示すブロ ヅ ク回路図である。
図 3 は、 ビッ ト圧縮の際の直交変換ブロ ッ クの構造を表す図であ る。
図 4 は、 直交変換ブロ ックサイ ズ決定回路の構成例を示すブロ ヅ ク回路図である。
図 5 は、 時間的に隣接する直交変換ブロ ッ クの時間的長さの変化 と直交変換時に用いるウイ ン ドウ形状の関係を示す図である。
図 6 は、 直交変換時に用いるウ イ ン ドウの形状の詳細例を示す図 である。 図 7 は、 ブロ ヅ ク決定回路にお けるプリ エコーのマスキング効果 について説明するための図である。
図 8 は、 ブロ ッ ク決定回路における直交変換ブロ ッ クサイ ズの判 定とチャ ンネル間の相関につ いて説明するための図である。
図 9 は、 ビッ 卜配分算出回路の具体的な構成を示すブロ ッ ク回路 図である。
図 1 0 は、 各臨界帯域及びブロ ック フ ローティ ングを考慮 して分 割された帯域のスぺク トルを示す図である。
図 1 1 は、 マスキングスペク トルを示す図である。
図 1 2 は、 最小可聴カーブ、 マスキ ングスペク トルを合成 した図 である。 発明を実施するための最良の形態 以下、 本発明の一実施例について図面を参照 しながら説明する。 先ず、 図 1 は、 本発明に係る情報圧縮方法及び装置、 圧縮情報伸 張方法及び装置を適用 した圧縮データ記録再生装置の一実施例の構 成を示すブロ ッ ク回路図である。
図 1 に示す圧縮デ一夕記録再生装置では、 記録媒体と して、 ス ピ ン ドルモータ 5 1 によ り 回転駆動される光磁気ディ スク 1 が用い ら れる。 そ して、 この圧縮データ記録再生装置では、 光磁気ディ ス ク 1 に対するデータの記録時には、 例えば光学へヅ ド 5 3 によ り レー ザ光を照射した状態で記録データ に応 じた変調磁界を磁気へッ ド 5 4 によ り 印加する、 いわゆる磁界変調記録によ り、 光磁気ディ ス ク 1 の記録 トラ ック に沿ってデ一夕 を記録するよう になっている。 ま た、 この圧縮データ記録再生装置では、 データの再生時には、 光磁 気ディ スク 1 の記録 ト ラ ヅク を光学へヅ ド 5 3 によ り レーザ光で ト レース して、 デ一夕 を磁気光学的に再生するよ う になっている。 具体的には、 光学ヘッ ド 5 3 は、 例えば、 レーザダイ オー ド等の レーザ光源、 コ リ メ一夕 レンズ、 対物 レンズ、 偏光ビ一ムスプリ ヅ 夕、 シ リ ン ド リ カルレ ンズ等の光学部品及び所定パターンの受光部 を有するフ ォ トディ テクタ等から構成されている。 この光学へヅ ド 5 3 は、 光磁気ディ ス ク 1 を介して上記磁気へヅ ド 5 4 と対向する 位置に設けられている。 光磁気ディ ス ク 1 にデ一夕を記録する と き には、 後述する記録系のへッ ド駆動回路 6 6 によ り磁気へヅ ド 5 4 を駆動 して記録データ に応じた変調磁界を光磁気ディ ス ク 1 に印加 する と共に、 光学へヅ ド 5 3 によ り光磁気ディ ス ク 1 の目的 トラ ヅ ク にレーザ光を照射するこ と によ り、 すなわち磁界変調方式によ り 熱磁気記録を行う。 また、 この光学へヅ ド 5 3 は、 目的 トラ ッ ク に 照射した レーザ光の反射光を検出 し、 例えばいわゆる非点収差法に よ り フ ォーカスエラーを検出 し、 例えばいわゆるブヅ シュブル法に よ り ト ラ ヅキングエラ一を検出する。 また、 光学へヅ ド 5 3 は、 光 磁気ディ スク 1 からデ一夕を再生する とき、 上記フ ォーカスエラー や ト ラ ッキングエラーを検出する と同時に、 レーザ光の目的 ト ラ ヅ クからの反射光の偏光角 (カー回転角 ) の違いを検出 して再生信号 を生成する。
光学ヘッ ド 5 3 の出力は、 R F 回路 5 5 に供給される。 この R F 回路 5 5 は、 光学へヅ ド 5 3 の出力か ら上記フ ォーカスエラー信号 や トラ ッキングエラー信号を抽出 してサ一ボ制御回路 5 6 に供給す る と共に、 再生信号を 2値化 して後述する再生系のデコーダ 7 1 に 供給する。
サーボ制御回路 5 6 は、 例えばフォーカスサーボ制御回路、 ト ラ ヅキングサ一ポ制御回路、 ス ピン ドルモータサーボ制御回路、 ス レ ッ ドサーポ制御回路等から構成される。 上記フォーカスサ一ボ制御 回路は、 上記フ ォーカスエラー信号がゼロ になるよ う に、 光学へヅ 5 3 の光学系のフォーカス制御を行う。 また上記 トラ ヅキングサ ーボ制御回路は、 上記 ト ラ ヅ キングエラー信号がゼロ になるよ う に 光学へッ ド 5 3の光学系の ト ラ ッ キング制御を行う。 さ ら に上記ス ピン ドルモータサーボ制御回路は、 光磁気ディ ス ク 1 を所定の回転 速度 (例えば一定線速度) で回転駆動するよ う にス ピン ドルモー夕 5 1 を制御する。 また、 上記ス レ ッ ドサ一ボ制御回路は、 システム コ ン ト ローラ 5 7 によ り指定される光磁気ディ ス ク 1 の目的 トラ ヅ ク位置に光学へッ ド 5 3及び磁気へッ ド 5 4 を移動させる。 このよ う な各種制御動作を行うサーボ制御回路 5 6 は、 該サーボ制御回路 5 6 によ り制御される各部の動作状態を示す情報をシス テムコ ン ト ロ ーラ 5 7 に送る。
システム コ ン 卜 ロ ーラ 5 7 にはキー入力操作部 5 8 や表示部 5 9 が接続されて いる。 このシステム コ ン ト ローラ 5 7 は、 キー入力操 作部 5 8 による操作入力情報によ り指定される動作モー ドで記録系 及び再生系の制御を行う。 ま たシステムコ ン ト ローラ 5 7 は、 光磁 気ディ スク 1 の記録 ト ラ ヅクから いわゆるヘッダー夕ィ ムゃサブコ 一ドの Qデータ等と して再生されるセクタ単位のァ ド レス情報に基 づいて、 光学へヅ ド 5 3及び磁気へヅ ド 5 4が ト レース している上 記記録 トラ ッ ク上の記録位置や再生位置を管理する。 さ ら にシステ ムコ ン 卜 ローラ 5 7 は、 データ圧縮率と上記記録 トラ ヅ ク上の再生 位置情報と に基づいて表示部 5 9 に再生時間を表示させる制御を行 。
この再生時間表示は、 光磁気ディ ス ク 1の記録 ト ラ ッ クからへヅ ダータイ ムやサブコー ドの Qデータ等と して再生されるセクタ単位 のア ド レス情報 (絶対時間情報) に対 し、 データ圧縮率の逆数 (例 えば 1 Z4圧縮の と き には 4 ) を乗算する こ と によ り、 実際の時間 情報を求め、 これを表示部 5 9 に表示させるものである。 なお、 記 録時においても、 例えば光磁気ディ ス ク等の記録 ト ラ ッ ク に予め絶 対時間情報が記録されている (プ リ フ ォーマッ ト きれて いる ) 場合 に、 このプリ フ ォーマ ヅ 卜 さ れた絶対時間情報を読み取ってデータ 圧縮率の逆数を乗算するこ と によ り、 現在位置を実際の記録時間で 表示させるこ とも可能である。
つぎに、 この圧縮データ記録再生装置の記録系について説明する。 入力端子 6 0からのアナロ グオーディオ入力信号 AINが口一パス フ ィルタ 6 1 を介 して A/D変換器 6 2に供給され、 この A/D変 換器 6 2は、 上記アナログオーディ オ入力信号 A INを量子化、 すな わち例えば 1 6 ビヅ トのディ ジタルオーディ オ信号に変換する。 A ZD変換器 6 2からのディ ジタルオーディ オ信号は、 A T C ( Adap tive Transform Coding ) エンコーダ 6 3 に供給される。
また、 この A T Cエンコーダ 6 3には、 入力端子 6 7からのディ ジタルオーディ オ入力信号 D INがディ ジタル入カイ ンターフェース 回路 6 8を介 して供給されて いる。 1"〇ェンコーダ 6 3は、 上記 アナログオーディ オ入力信号 AINを上記 AZD変換器 6 2 によ り量 子化した所定転送速度のディ ジ夕ルオーディ オ信号について、 ビッ ト圧縮 (デ一夕圧縮) 処理を行う。 こ こではその圧縮率を 4倍と し て説明するが、 本実施例はこの倍率には依存 しない構成となってお り、 応用例によ り任意に選択可能である。
メモ リ 6 4は、 デ一夕の書き込み及び読み出 しがシステムコ ン ト ローラ 5 7 によ り 制御され、 A T Cエンコーダ 6 3からの圧縮され たディ ジタルオーディ オ信号 (以下、 A T Cオーディ オデータ と い う ) を一時的に記憶しておき、 必要に応じて光磁気ディ スク 1上に 記録するためのバッフ ァメモ リ と して用い られて いる。 すなわち、 例えば A T Cエンコーダ 6 3から供給される A T Cオーディ オデ一 夕 は、 そのデ一夕転送速度が、 標準的な C D— D Aフォーマヅ トの データ転送速度 ( 7 5セクタノ秒) の 1 4、 すなわち 1 8. 7 5 セクタ /秒に低減されてお り、 この A T Cオーディ オデータがメ モ リ 6 4 に連続的に書き込まれる。 この A T Cオーディ オデータは、 前述したよう に 4セクタ につ き 1セク タの記録を行えば足り るが、 このよ うな 4セクタおきの記録は事実上不可能に近いため、 後述す るようなセクタ連続の記録を行う よう に している。 この記録は、 休 止期間を介して、 所定の複数セクタ (例えば 3 2セクタ 十数セクタ) か ら成るクラス夕 を記録単位と して、 標準的な C D— D Aフォーマ V 卜 と同 じデータ転送速度 ( 7 5セクタ 秒) でバース 卜的に行わ れる。 すなわちメ モ リ 6 4においては、 上記ビヅ ト圧縮レー ト に応 じた 1 8. 7 5 ( = 7 5 4 ) セ クタ /秒の低い転送速度で連続的 に書き込まれた A T Cオーディ オデータが、 記録データ と して上記 7 5セクタ 秒の転送速度でパース ト 的に読み出される。 この読み 出されて記録される A T Cオーディ オデ一夕 について、 記録休止期 間を含む全体的なデータ転送速度は、 上記 1 8. 7 5セクタ Z秒の 低い速度となっているが、 バース 卜的に行われる記録動作の時間内 での瞬時的なデータ転送速度は上記標準的な 7 5 セグタノ秒となつ ている。 従って、 ディ ス ク回転速度が標準的な C D— D Aフォーマ V ト と同 じ速度 (一定線速度) の とき、 該 C D— D Aフォーマッ ト と同 じ記録密度、 記憶パター ンの記録が行われる こ と になる。
メ モ リ 6 4から上記 7 5セ クタ /秒の (瞬時的な) 転送速度でバ ース ト的に読み出された A T Cオーディ オデータすなわち記録デー 夕は、 エンコーダ 6 5 に供給される。 ここで、 メ モ リ 6 4からェン コーダ 6 5 に供給されるデ一夕列にお いて、 1 回の記録で連続記録 される単位は、 複数セクタ (例えば 3 2セクタ ) から成るクラスタ 及び該クラスタの前後位置に配さ れたクラスタ接続用の数セクタ と している。 このクラス夕接続用セ クタ は、 エンコーダ 6 5 でのイ ン 夕一リ ーブ長よ り長く 設定してお り、 イ ン夕一リ ーブされても他の クラス夕のデータ に影響を与えないよ う に している。
エンコーダ 6 5 は、 メ モ リ 6 4 から上述したよ う にバース ト的に 供給される記録データ について、 エラー訂正のための符号化処理 ( 例えばパ リティ付加及びイ ンター リーブ処理) や E F M符号化処理 などを施す。 このエンコーダ 6 5 によ る符号化処理が施された記録 データが磁気へッ ド駆動回路 6 6 に供給される。 この磁気へッ ド駆 動回路 6 6 は、 磁気ヘッ ド 5 4が接続されてお り、 上記記録データ に応じた変調磁界を光磁気ディ ス ク 1 に印加するよう に磁気へッ ド 5 4 を駆動する。
システムコ ン ト ローラ 5 7 は、 メ モ リ 6 4 に対する上述の如きメ モ リ制御を行う と共に、 このメモ リ制御によ り メ モ リ 6 4からパー ス ト的に読み出される上記記録データ を光磁気ディ ス ク 1 の記録 ト ラ ッ ク に連続的に記録するよ う に記録位置の制御を行う。 この記録 位置の制御は、 システムコン 卜 ロ ーラ 5 7 によ り メ モ リ 6 4からバ ース ト的に読み出される上記記録データの記録位置を管理 して、 光 磁気ディ スク 1の記録 トラ ッ ク上の記録位置を指定する制御信号を サーボ制御回路 5 6 に供給するこ とによって行われる。
つぎに、 この圧縮データ記録再生装置の再生系について説明する。 この再生系は、 上述の記録系 によ り光磁気ディ ス ク 1の記録 トラ ッ ク上に連続的に記録された記録データ を再生するためのものであ り、 光学へヅ ド 5 3 によって光磁気ディ ス ク 1の記録 卜 ラ ッ クを レーザ 光で ト レースする こ と によ り得られる再生出力を 2値化する R F回 路 5 5 と、 2値化された再生信号をデコー ドするデコーダ 7 1 と を 備えている。 なお、 この再生系では、 光磁気ディ スクのみではな く、 C D ( Compact Disc) と同 じ再生専用光ディ スクの読み出 しも行な う こ とができる。
デコーダ 7 1は、 上述の記録系 におけるエンコーダ 6 5 に対応す るものであって、 R F回路 5 5 によ り 2値化された再生信号につい て、 エラ一訂正のための復号化処理や E F M復号化処理などの処理 を行い、 A T Cオーディ オデータ を、 正規の転送速度よ り も早い 7 5セクタ /秒の転送速度で再生する。 このデコーダ 7 1 によ り得ら れる再生データは、 メ モ リ 7 2に供給される。
メ モ リ 7 2は、 デ一夕の書き込み及び読み出 しがシステムコ ン ト ローラ 5 7 によ り 制御され、 デコーダ 7 1から 7 5セクタ /秒の転 送速度で供給される再生データが、 その 7 5セクタノ秒の転送速度 でパ一ス ト的に書き込まれる。 ま た、 このメ モ リ 7 2は、 上記 7 5 セクタノ秒の転送速度でバース ト 的に書き込まれた上記再生データ が正規の 7 5セクタノ秒の転送速度で連続的に読み出される。 すなわち、 システムコ ン ト ローラ 5 7は、 再生データ をメ モ リ 7 2 に 7 5セクタ Z秒の転送速度で書き込むと共に、 メ モ リ 7 2から 上記再生データを上記 1 8. 7 5セク タ /秒の転送速度で連続的に 読み出すよう なメ モ リ制御を行う。 ま た、 システムコ ン ト ローラ 5 7は、 メ モ リ 7 2 に対する上述の如きメモ リ 制御を行う と共に、 こ のメ モ リ制御によ り メ モ リ 7 2か らバース ト的に書き込まれる上記 再生データを光磁気ディ スク 1の記録 トラ ッ クから連続的に再生す るよう に再生位置の制御を行う。 この再生位置の制御は、 システム コ ン ト ローラ 5 7 によ り メモ リ 7 2か らバース ト 的に読み出される 上記再生データの再生位置を管理 して、 光磁気ディ スク 1の記録 卜 ラ ヅク上の再生位置を指定する制御信号をサーボ制御回路 5 6 に供 給する こ と によって行われる。
メモ リ 7 2から 1 8. 7 5セク夕/秒の転送速度で連続的に読み 出された再生データ、 すなわち A T Cオーディ オデータは、 A T C デコーダ 7 3 に供給される。 この A T Cデコーダ 7 3は、 A T Cォ 一ディ ォデ一夕を 4倍にデータ伸長 ( ビッ ト伸長) する こ とで、 例 えば 1 6 ビヅ 卜のディ ジタルオーディ オ信号 (ディ ジタルオーディ ォデ一夕 ) を再生する。 この A T Cデコーダ 7 3からのディ ジタル オーディ オデータ は、 A変換 74 に供給される。
DZ A変換器 7 4は、 A T Cデコーダ 7 3から供給されるデイ ジ 夕ルオーディ オデータ をアナログ信号に変換して、 アナログオーデ ィ ォ出力信号 A OUT を形成する。 この D/A変換器 7 4 によ り得ら れるアナログオーディ オ信号 A0UT は、 ローパス フ ィ ル夕 7 5 を介 して出力端子 7 6から出力される。
なお、 この圧縮データ記録再生装置は、 1じェン コーダ 6 3か らの A T Cオーディ オデータ を、 変調器 7 7 によ り所定の伝送フ ォ —マツ 卜 に変換して、 アンテナ 7 8 を介して伝送できる よう にもな つている。
つぎに、 本発明に係る情報圧縮方法を適用 した高能率圧縮符号化 について詳述する。 すなわち、 オーディ オ P C M信号等の入力ディ ジタル信号を、 帯域分割符号化 ( S B C ) 、 適応変換符号化 ( A T C ) 及び適応ビッ ト割当ての各技術を用いて高能率符号化する技術 について、 図 2以降を参照しなが ら説明する。
図 2 に示す具体的な高能率符号化装置では、 入力ディ ジ夕ル信号 を複数の周波数帯域に分割する と共に、 最低域の隣接 した 2帯域の 帯域幅は同 じで、 よ り高い周波数帯域では高い周波数帯域ほどバン ド幅を広く 選定し、 各周波数帯域毎に直交変換を行って、 得られた 周波数軸のスペク トルデ一夕 を、 低域では、 後述する人間の聴覚特 性を考慮したいわゆる臨界帯域幅 (ク リティ カルバン ド ) 毎に、 中 高域ではブロ ッ ク フ ローティ ング効率を考慮 して臨界帯域幅を細分 化 した帯域毎に、 適応的にビッ ト割当 して符号化 している。 通常こ のブロ ッ クが量子化雑音発生ブロ ック となる。 さ ら に、 この実施例 においては、 直交変換 ©前に入力信号に応じて適応的に直交変換ブ ロ ッ クサイ ズ (ブロ ッ ク長) を変化させる と共に、 該ブロ ヅ ク単位 でフ ローティ ング処理を行っている。 なお、 この図 2 には、 1 チヤ ンネル分の入力ディ ジタル信号を符号化する回路構成を示している。 すなわち、 図 2 において、 入力端子 2 0 0 には例えばサンブリ ン グ周波数が 4 4. 1 k H z の時、 0 〜 2 2 k H z の複数チャ ンネル 分のオーディ オ P C M信号が供給されている。 この入力信号は、 例 えばいわゆる Q M F等のフ ィ ル夕からなる帯域分割フ ィ ルタ 2 0 1 によ り 0〜 1 1 k H z帯域の信号と 1 l k H z〜 2 2 k H z帯域の 信号と に分割され、 0〜 1 1 k H z帯域の信号は、 同 じ く Q M F等 のフ ィ ル夕からなる帯域分割フ ィ ル夕 2 0 2 によ り 0 ~ 5. 5 k H z帯域の信号と 5. 5 k H z 〜 l 1 k H z帯域の信号と に分割され る。 帯域分割フ ィ ルタ 2 0 1からの 1 l k H z〜 2 2 k H z帯域の 信号は直交変換回路の一例である M D C T (モディ ファイ ド離散コ サイ ン変換) 回路 2 0 3 に供給され、 帯域分割フ ィル夕 2 0 2から の 5. 5 k H z ~ 1 1 k H z帯域の信号は M D C T回路 2 0 4 に供 給され、 帯域分割フィルタ 2 0 2からの 0〜 5. 5 k H z帯域の信 号は M D C T回路 2 0 5 に供給され、 そこでそれぞれ M D C T処理 される。
こ こで、 入力ディ ジタル信号を複数の周波数帯域に分割する手法 と しては、 例えば上述した Q M F等のフィ ル夕があ り、 1976 R.E.C rochiere Digital coding of speech in subbands Bell Syst .Tec h . J. Vol.55,No.8 1976に述べられて いる。 また、 ICASSP 83.B0ST ON Polyphase Quadrature filters - A new subband coding techn iq ue Joseph H. Eothweiler には、 等パン ド幅のフ ィルタ分割手法が 述べられている。 また、 直交変換と しては、 上述 した M D C Tの他、 例えば、 入力オーディ オ信号を所定単位時間 ( フ レーム ) でブロ ッ ク化し、 当該ブロ ッ ク毎に高速フー リ エ変換 ( F F T ) 、 離散コサ イ ン変換 ( D C T ) 等を行う こ とで時間軸を周波数軸に変換するよ う な直交変換がある。 上記 M D C Tについては、 ICASSP 1987 Subb and/Transform Coding Using Filter Bank Designs Based on Time
Domain Aliasing Cancellation J . P . Princen A.B.Bradley Univ. of Surrey Royal Melbourne Inst .of Tech. に述べられてレ、る.。 こ こ で、 図 3 に、 各\10じ 丁回路 2 0 3、 2 0 4、 2 0 5 に供給 される標準的な入力信号に対する各帯域毎のブロ ッ クの具体例を示 す。
この図 3の具体例においては、 3つの帯域に分割された信号は、 各帯域毎に独立に各々の複数の直交変換ブロ ックサイ ズを持ち、 信 号の時間特性、 周波数分布等によ り時間分解能を切 り換えられる よ う に している。 信号が時間的に準定常的である場合には、 直交変換 ブロ ッ クサイ ズを 1 1. 6 m S、 すなわち図 3 Aに示すよ う に、 L o n g M o d e と大き く し、 信号が非定常的である場合には、 直 交変換ブロ ッ クサイ ズを更に 2分割、 4分割とする。 図 3 Bに示す S h o r t M o d eのごと く、 直交変換ブロ ヅ クサイ ズを、 全て を 4分割 した 2. 9 m S とする場合や、 図 3 Cに示す M i d d l e
M o d e A、 図 3 Dに示す M i d d l e M o d e Bのごと く、 直交変換ブロ ッ クサイズを、 一部を 2分割 した 5. 8 m S, ― 部を 4分割 した場合の 2. 9 m Sの時間分解能とするこ とで、 実際 の複雑な入力信号に適応する よう になっている。 なお、 この直交変 換ブロ ッ クサイ ズの分割は、 分割数及び分割パターンを増すこ と に よって、 入力信号に対 してさ らに適応的に処理を行なう こ とができ る。 この直交変換ブロ ッ クサイズの決定は、 図 2のブロ ッ クサイ ズ 決定回路 2 0 6、 2 0 7、 2 0 8で行なわれ、 決定された直交変換 ブロ ヅ クサイ ズは、 各1^ 0011回路 2 0 3、 2 0 4、 2 0 5 に供給 される と共に、 該当ブロ ックのブロ ッ クサイ ズ情報と して、 出力端 子 2 1 6、 2 1 7、 2 1 8か ら出力される。
つぎに、 図 2 に示すブロ ヅ クサイズ決定回路 2 0 6、 2 0 7、 2 0 8 について説明する。 図 4 に、 ブロ ックサイ ズ決定回路 2 0 6の 具体的な回路構成を示す。 図 2に示す帯域分割フ ィルタ 2 0 1の出 力のうち、 l l k H z〜 2 2 k H z帯域の信号は、 図 4 に示す入力 端子 4 0 1 を介してパワー算出回路 4 04に供給される。 さ ら に、 図 2 に示す帯域分割フ ィルタ 2 0 2の出力のうち、 5. 5 k H z〜 1 1 k H z帯域の信号は、 図 4に示す入力端子 4 0 2を介 してパヮ 一算出回路 4 0 5 に供給され、 0 ~ 5. 5 k H z帯域の信号は、 図 4に示す入力端子 4 0 3を介 してパワー算出回路 4 0 6 に供給され る。
と ころで、 図 2 に示すブロ ックサイ ズ決定回路 2 0 7、 2 0 8は、 図 4に示す入力端子 4 0 1、 40 2、 40 3 に入力される信号がブ ロ ヅ クサイズ決定回路 2 0 6の場合と異なるだけで、 動作は同一で ある。 すなわち、 図 2のブロ ック決定回路 2 0 7の場合は、 図 4の 入力端子 40 1 に、 図 2の帯域分割フ ィ ル夕 2 0 2からの 5. 5 k H z〜 : L l k H z帯域の信号が、 図 4の入力端子 4 0 2 には、 図 2 の帯域分割フ ィルタ 2 0 1か らの 1 1 k H z〜 2 2 k H z帯域の信 号が、 図 4の入力端子 4 0 3 には、 図 2の帯域分割フ ィ ルダ 2 0 2 からの 0〜 5. 5 k H z帯域の信号が、 それぞれ入力される。 図 2 に示すプロ ヅ ク決定回路 2 0 8の場合は、 図 4の入力端子 4 0 1 に、 図 2の帯域分割フ ィ ル夕 2 0 2か らの 0〜 5. 5 k H z帯域の信号 が、 図 4の入力端子 4 0 2 には、 図 2の帯域分割フ ィル夕 2 0 1か らの 1 l k H z〜 2 2 k H z帯域の信号が、 図 4の入力端子 4 0 3 には、 図 2の帯域分割フ ィル夕 2 0 2からの 5. 5 k H z〜 : L l k H z帯域の信号が、 それぞれ入力される。 また、 ブロ ッ クサイ ズ決 定回路 2 0 6、 2 0 7、 2 0 8は、 各チャ ンネル毎に設けられてい る。 なお、 ブロ ッ クサイ ズ決定回路 2 0 6、 2 0 7、 2 0 8を、 1 チャンネル分のみ設け、 複数のチャンネル分の直交変換ブロ ッ クサ ィ ズを決定するよ う に しても よい。
図 4 において、 各パワー算出回路 4 04、 4 0 5、 4 0 6は、 入 力された時間波形を一定時間積分する こ と によ り、 各周波数帯域の パワーを算出する。 この際、 積分する時閭幅は、 上述の直交変換ブ ロ ヅ クサイ ズのう ち最小のもの以下である必要がある。 また、 上述 の算出法以外、 例えば直交変換ブロ ッ クサイ ズの最小時間幅内の最 大振幅の絶対値あるいは振幅の平均値を代表パワー と して用いるよ う に してもよ い。 そ して、 パワー算出回路 4 0 4の出力であるパヮ 一情報は、 メ モ リ 4 1 0、 チャンネル間相関係数算出回路 4 1 1、 変化分抽出回路 4 0 7及びパワー比較回路 4 0 9 に供給され、 パヮ 一算出回路 4 0 5、 4 0 6か らの各パワー情報はパワー比較回路 4 0 9 に供給される。 なお、 チャンネル毎にパワー算出回路 4 0 4、 4 0 5、 4 0 6 を設け、 各チャンネルのパワー算出回路 4 0 4、 4 0 5、 4 0 6 において、 それぞれのチャンネルのパワー情報を算出 するよ う に しても よい。
変化分抽出回路 4 0 7は、 パワー算出回路 4 0 4から供給される パワー情報を微分 して微分係数を求め、 この微分係数をパワー変化 情報と してプロ ヅ クサイ ズ 1次判定回路 4 1 2及びメ モ リ 4 0 8 に 供給する。 メ モ リ 4 0 8は、 変化分抽出回路 4 0 7から供給される パワー変化情報を上述の直交変換ブロ ックサイ ズの最大時間以上蓄 積する。 これは時間的に隣接する直交変換ブロ ッ クが直交変換の際 のウィ ン ドウ処理によ り、 互いに影藝を及ぼ し合うため、 時間的に 隣接する 1つ前のブロ ヅ クのパワー変化情報をブロ ッ クサイ ズ 1次 判定回路 4 1 2 において必要とするためである。 ブロ ッ クサイ ズ 1次判定回路 4 1 2 は、 変化分抽出回路 4 0 7 か ら供給される該当ブロ ックのパワー変化情報とメ モ リ 4 0 8 から供 給される時間的に隣接する該当ブロ ッ クの 1 つ前のブロ ッ クのパヮ 一変化情報に基づいて、 該当する周波数帯域内のパワーの時間的変 位から該当する周波数帯域の直交変換ブロ ッ クサイ ズを決定する。 具体的には、 プロ ヅ クサイ ズ 1次判定回路 4 1 2 は、 例えば、 ある M値以上の変位が認め られた場合、 よ り時間的に短い直交変換プロ ッ クサイ ズを選択する。 この閾値は、 固定に して も効果が得られる が、 周波数に比例 した値と し、 高い周波数帯域においては、 大きな 変位によって時間的に短い直交変換ブロ ッ クサイ ズと し、 低い周波 数帯域においては、 高い周波数帯域の場合と比較して、 小さな変位 によって時間的に短い直交変換ブロ ッ クサイ ズを選択するよ う にす る とよ り効果的である。 以上のよ う に して判定された直交変換ブロ ヅ クサイ ズは、 ブロ ヅ クサイ ズ 2次判定回路 4 1 3 に供給される。
—方、 パワー比較回路 4 0 9 は、 各パワー算出回路 4 0 4、 4 0 5、 4 0 6 から供給される各周波数帯域のパワー情報を同時刻上で マスキング効果が発生する時間幅で比較し、 パワー算出回路 4 0 4 の出力周波数帯域に及ぼす他の周波数帯域の影饗を求め、 得られる マスキング情報をプロ ヅクサイズ 2次判定回路 4 1 3 に供給する。 ブロ ッ クサイ ズ 2次判定回路 4 1 3 は、 パワー比較回路 4 0 9 か ら供給されるマスキング情報に基づいて、 ブロ ッ クサイ ズ 1 次判定 回路 4 1 2から供給される直交変換プロ ヅ クサイ ズを、 よ り 時間的 に長いブロ ッ クサイ ズとなるよう に修正し、 修正 した直交変換ブロ ヅ クサイ ズをブロ ッ クサイ ズ 3次判定回路 4 1 4 に供給する。 すな わち、 ブロ ッ クサイズ 2次判定回路 4 1 3 は、 該当周波数帯域にお いてプリ エコーが問題となる場合でも、 他の周波数帯域、 特に該当 周波数帯域よ り低い帯域にお いて大きな振幅を持つ信号が存在 した 場合、 マスキング効果によ り プリ エコーが聴感上問題とな らない、 又はプリ エコーが及ぼす影響が軽減さ れる場合がある と いう特性を 利用 して、 直交変換ブロ ックサイ ズの修正を行っている。 なお、 マ スキングとは、 人間の聴感上の特性によ り、 ある信号によって他の 信号がマスク されて閬こえな く なる現象のこ とである。 このマスキ ング効果には、 時間上の信号によ る時間軸マスキ ング効果と、 周波 数軸上の信号による同時刻マスキ ング効果とがある。 上述のブロ ヅ クサイ ズ 2次判定回路 4 1 3 では、 同時刻マスキング効果を利用 し ている。 これらのマスキング効果によ り、 マスキングされる部分に ノ イ ズが存在 した と しても、 この ノイ ズは人間には閬こえないこ と になる。 このため、 実際のオーディ オ信号では、 このマスキングさ れる範囲内のノ イ ズは聴感上問題のないノ イ ズと される。
—方、 チャ ンネル間相関係数算出回路 4 1 1 は、 パワー算出回路 4 0 4及びメ モ リ 4 1 0からの複数チャンネルのパワー情報を用 い て、 複数チャ ンネル間のパワーの相関係数の算出を行う。
具体的には、 メ モ リ 4 1 0 は、 該当ブロ ッ ク と同時刻の複数チヤ ンネル分のパワー情報をチャ ンネル間相関係数算出回路 4 1 1 に供 給するために用い られる。 すなわち、 メモ リ 4 1 0 には、 パワー算 出回路 4 0 4から複数チャンネル分のパワー情報が時間的に連続 し て送られて く る。 例えば、 2 チャ ンネルのステレオ信号の場合、 メ モ リ 4 1 0 にパワー算出回路 4 0 4か ら、 該当ブロ ヅ クの左チャ ン ネル分のパワー情報の後に該当ブロ ッ クの右チャ ンネル分のパワー 情報が供給され、 その後に、 該当ブロ ック に時間的に隣接する一つ 後のブロ ックの左チャ ンネル分のパワー情報、 該当ブロ ッ ク に時間 的に隣接する一つ後のブロ ッ クの右チャンネル分のパワー情報と続 いて供給される。 そ して、 メ モ リ 4 1 0は、 該当ブロ ッ ク と同時刻 の関係にある各チャンネル上のブロ ッ クのパワー情報をチャ ンネル 間相関係数算出回路 4 1 1へ出力するために、 各チャ ンネル分のパ ヮ一情報を保持する。 したがって、 メ モ リ 4 1 0は、 チャンネル数 に比例 した大きさの記憶容量を有する。 例えば、 チャ ンネル数が 2 チャ ンネルの場合のメ モ リ 4 1 0の容量を C とする と、 nチャンネ ルの場合のメ モ リ 4 1 0の容量 C nは、 下記式 ( 1 ) によ り 求め ら
C n = ( n - 1 ) C —— ' ( 1 ) チャ ンネル間相関係数算出回路 4 1 1 は、 メ モ リ 4 1 0 に記憶さ れている複数及び又は単数チャンネル分のパワー情報と、 バヮ一算 出回路 4 0 4からのメ モ リ 4 1 0 には記憶されて いない 1チャンネ ル分のパワー情報を入力 し、 該当ブロ ック と同時刻の関係にある複 数チャ ンネル分の各ブロ ックのパワー情報の相関係数を求めている。 例えばチャンネル数が 2チャ ンネルの場合、 相関係数 rは下記式 ( 2 ) のよう に定義される。
1
r― ∑(Xi - AxXYi - Ay) ( 2 )
{n一 l)SxSy «=* こ こで、 X i は左チャンネルのパワー情報、 Y i は右チャ ンネル のパワー情報、 A X は X i の平均値、 A y は Y i の平均値、 S x は X i の標準偏差、 S y は Y i の標準偏差である。
この相関係数 r の値は、 一 l ≤ r + l の範囲にあ り、 X i と Y i の相関が高けば + 1 に近い値とな り、 相関が低ければ— 1 に近い 値となる。 式 ( 2 ) 中の bは整数であ り、 加味させるブロ ッ クの数、 つま り 時間的な範囲を決定するものである。 この値は、 固定に して も効果が得られるが、 周波数に比例した値、 すなわち低い周波数帯 域においては b と nの差が大き く なる よう に、 高い周波数帯域にお いては差が小さ く なるよ う にする と、 よ り効果的である。 A X 、 A y は、 bから nまでの範囲に含ま れるパワー情報の平均値である。 チャンネル数が 3 チャ ンネル以上の場合には、 想定される全ての対 に対し相関係数を求め、 それ らの平均値を代表させ、 チャンネル間 相関係数算出回路 4 1 1 の出力とする。 想定される全ての対の数は、 チャ ンネル数を N とする と、 { N ( N - 1 ) } Z 2である。
次に、 ブロ ッ クサイ ズ 3次判定回路 4 1 4 は、 チャ ンネル間相関 係数算出回路 4 1 1 で求められた相関係数 r、 パワー比較回路 4 0 9 で求められたマスキング情報及びメ モ リ 4 0 8 で保持されている 時間的に隣接する該当直交変換ブロ ッ クの 1 つ前の直交変換ブロ ッ クのパワー情報を基に、 ブロ ヅクサイ ズ 2次判定回路 4 1 3で判定 された直交変換ブロ ッ クサイ ズを再検討し、 最終的に該当直交変換 ブロ ッ クサイ ズを決定する。
具体的には、 チャンネル間相関係数算出回路 4 1 1 から送られて く る相関係数 r は、 上述したよう に一 1 から + 1 までの数値であ り、 + 1 に近い値ほどチャ ンネル間の相関が高い。 したがって、 ブロ ッ クサイ ズ 3次判定回路 4 1 4は、 ある M値を 設け、 その Μ値を越える相関係数が入力され、 かつ同時刻マスキ ン グ効果が期待でき、 かつメモ リ 4 0 8からのパワー情報がある Μ値 よ り大きい値を持つ場合、 同時刻の関係にある複数チャ ンネルの各 直交変換ブロ ックサイ ズを全て、 よ り 長く する。 例えば 1 1. 6 m S、 すなわち図 3 Aに示す L o n g M o d e と同 じ大きさ にする。 また、 例えば相関係数がある 値よ り 大きい値を持ち、 かつ同時刻 マスキ ング効果が充分期待できない、 かつメ モ リ 4 0 8からのパヮ —情報がある閼値よ り小さい値を持つ場合は、 ブロ ックサイ ズ 3次 判定回路 4 1 4は、 同時刻の関係にある複数チャ ンネルの各直交変 換ブロ ッ クサイ ズを全て、 よ り短 く する。 例えば図 3 B に示す S h o r t M o d e と同 じ大きさにする。 なお、 上記の各閼値は、 固 定に しても効果が得られるが、 周波数に応じて可変にすると、 よ り 効果的である。
なお、 チャ ンネル間相関係数算出回路 4 1 1 において、 相関係数 を求める代わ り に、 各チャンネルのパワー情報の値を比較するよ う に してもよい。 例えばチャンネル数が 2チャ ンネルの場合は、 各パ ヮ一情報の差の絶対値を求める。 3チャンネル以上の場合は、 想定 される全ての対毎に差の絶対値を求め、 それらの平均値を求める。 そ して、 この値はブロ ッ クサイズ 3次判定回路 4 1 4に供給される。 ブロ ックサイズ 3次判定回路 4 1 4は、 チャンネル間相関係数算 出回路 4 1 1で求められたパワー情報の差分値、 パワー比較回路 4 0 9で求められたマスキング情報及びメモ リ 40 8 に保持されてい る時間的に 1つ前のブロ ックのパワー情報を基に、 該当直交変換ブ ロ ヅクサイズの決定を行なう。 例えばパワー情報の差分値がある M 値よ り低い値を取 り、 かつ同時刻マス キング効果が期待でき、 かつ 時間的に 1つ前の直交変換ブロ ッ クのパワー情報がある H値よ り 大 きい値を取る場合、 ブロ ックサイ ズ 3次判定回路 4 1 4は、 同時刻 の関係にある複数チャ ンネルの各直交変換ブロ ッ クサイ ズを全て、 よ り長く 判定する。 例えば図 3 Aに示す L o n g M o d e と同 じ 大きさ にする。 ま た、 例えばパワー情報の差分値がある W値よ り低 い値を取り、 かつ同時刻マスキング効果が充分期待できない、 かつ 時間的に 1つ前の直交変換ブロ ッ クのパワー情報がある閼値よ り小 さ い値を取る場合、 ブロ ックサイ ズ 3次判定回路 4 1 4は、 同時刻 の関係にある複数チャ ンネルの各直交変換ブロ ッ クサイ ズを全て、 よ り小さ く する。 例えば図 3 Bに示す S h o r t M o d e と同 じ 大きさ にする。 なお、 上記の各 M値は、 固定に しても効果が得られ るが、 周波数に応 じて可変にする とよ り効果的である。
プロ ッ クサイ ズ決定回路 4 1 4で決定された該当直交変換プロ ッ クサイ ズ B Sは、 出力端子 4 1 6 を介 して図 2 に示す M D C T回路 2 0 3 に出力される と共に、 ウィ ン ド ウ形状決定回路 4 1 5 に供給 され、 ウ ィ ン ドウ形状決定回路 4 1 5 は、 直交変換プロ ヅ クサイ ズ B S に基づいて、 ウ ィ ン ドウ形状を決定する。
図 5 に隣接するプロ ヅ ク と ウイ ン ド ウ形状の様子を示す。 直交変 換に用い られるウ ィ ン ドウは、 時間的に隣接するブロ ッ ク間で重複 する部分があ り、 本実施例では隣接するブロ ッ クの中心まで重複す る形状を採用 して いる。 したがって、 隣接するブロ ッ クの直交変換 ブロ ッ クサイ ズに依存 してウ ィ ン ドウ形状が変化する。
図 6 に上記ウィ ン ド ウ形状の詳細を示す。 図 6 において、 ウ ィ ン ド ウ関数 f ( n ) 、 s ( n + N ) は、 次式 ( 3 ) 、 ( 4 ) を満たす 関数と して与え られる c f ( n ) f ( L - 1 - n ) = s ( n ) s ( L - 1 - n )
( 3 ) f ( n ) f ( n ) + s ( n ) g ( n ) = 1 ( 4 )
0≤ n≤ L - 1 この式 ( 3 ) における Lは、 隣接する直交変換ブロ ヅ クサイ ズが 同一であればそのま まの直交変換プロ ックサイ ズとなるが、 隣接す る直交変換ブロ ッ クサイ ズが異なる場合、 時間的によ り短い直交変 換ブロ ヅ クサイズを L、 時間的によ り長い直交変換ブロ ヅ クサイ ズ を Kとする と、 ウ ィ ン ドウが重複 しない領域では、 次式 ( 5 )、 ( 6 ) のよう に、 f ( n ) = s ( n ) = 1 ( 5 )
K≤ n≤ 3 K / 2 - L / 2 f ( n ) = g ( n ) = 0 ( 6
3 K/ 2 + L ≤ n≤ 2 K と して与えられる。 このよう にウ ィ ン ドウの重複部分をできるだけ 長く 取るこ と によ り、 直交変換における周波数分解能を向上させる こ とができる。 以上の説明か ら明 らかなよう に、 直交変換に使用す るウ イ ン ドウの形状は時間的に連続する 3つの直交変換ブロ ックサ ィ ズが確定した後に決定される。
と ころで、 図 2 に示すブロ ックサイ ズ決定回路 2 0 6、 2 0 7、 2 0 8 を、 図 4に示すパワー算出回路 40 5、 4 0 6及びパワー比 較回路 4 0 9 を省略して構成 して もよい。 さ ら に、 ブロ ッ クサイ ズ 決定回路 2 0 6、 2 0 7、 2 08 を、 図 4に示すブロ ヅ クサイ ズ 2 次判定回路 4 1 3及び又はブロ ッ クサイ ズ 3次判定回路 4 1 4を省 略して構成するよ う に しても よい。 特に、 処理時間の遅延を好まな い応用例においては、 上述の遅延の少ない構成を取るこ とができ、 有効である。
また、 図 4のブロ ヅ クサイ ズ 3次判定回路 4 1 4 において、 W値 を低めに設定する こ と によ り、 全ての同時刻上の処理ブロ ッ クの時 間的長さを同一にする こ ともでき る。 特に、 チャ ンネル間の相関が 高い入力信号の場合において有効である。
こ こで、 上述のブロ ッ クサイズ 1次判定回路 4 1 2、 ブロ ヅ クサ ィ ズ 2次判定回路 4 1 3、 ブロ ッ クサイズ 3次判定回路 4 1 4等の 具体的な動作について説明する。
例えば図 7 A、 Bに示すよ う に、 各帯域の信号が正弦波であ り、 図 7 Aに示す入力信号の 1 1 k H z ~ 2 2 k H z帯域における信号 の レベル (振幅) と、 図 7 Bに示す入力信号の l l k H z〜 2 2 k H z帯域における信号のレベルとが同一である とする。
先ず、 該当ブロ ッ ク Nの直交変換ブロ ッ クサイ ズを該当周波数の 振幅変化のみで決定した場合、 図 7 Aに示す入力信号と図 7 Bに示 す入力信号に対して、 共に同一の直交変換ブロ ッ クサイ ズが決定さ れる。 しか し、 0 ~ 5. 5 k H z又は 5. 5 k H z〜 : L l k H zの 帯域の信号に注目する と、 図 7 Aに示す入力信号では、 1 1 k H z 〜 2 2 k H z帯域の信号のパワー (エネルギ) と比較 して、 他の帯 域の信号のパワーが低いため、 1 l k H z ~ 2 2 k H z帯域に発生 するプ リ エコーはマス クされず、 聴感上の問題となるため、 本実施 では、 図 7 Aに示す入力信号に対 しては、 l l k H z〜 2 2 k H z 帯域のブロ ッ ク Nは、 よ り短い時間幅の直交変換ブロ ッ クサイ ズと される。
—方、 図 7 Bに示す入力信号では、 0〜 5. 5 k H z又は 5. 5 k H z〜 l 1 k H z帯域の信号のパワーが、 1 l k H z 〜 2 2 k H z帯域の信号のパワー と比較 してブリ エコーをマスクするに足り う る値であるため、 1 1 k H z ~ 2 2 k H zの帯域に発生するプリ エ コ一はマスクされ、 聴感上問題と はな り に く い。 従って、 本実施で は、 図 7 Bに示す入力信号に対しては、 周波数分解能を優先 し、 図 7 Aに示す入力信号の場合よ り も長い時間幅の直交変換ブロ ックサ ィ ズが決定される。
すなわち、 本実施例では、 図 4 に示すパワー算出回路 4 0 4、 4 0 5、 4 0 6及びパワー比較回路 40 9及びブロ ッ クサイ ズ 2次判 定回路 4 1 3 によ り、 図 7 Aに示す入力信号及び図 7 B に示す入力 信号のそれぞれの場合において、 異なる直交変換ブロ ヅ クサイ ズが 決定される。
つぎに、 例えば図 8 A、 B に示すよ う に、 ある帯域、 例えば 1 k H z〜 2 2 k H z帯域の信号が正弦波であ り、 レベルが大き く な る位相が互いに異なる入力信号が入力される とする。 また、 例えば、 図 8 Aに示す入力信号を左チャンネルの信号と し、 図 8 Bに示す入 力信号を右チャンネルの信号と して、 2チャ ンネルのステ レオ信号 が入力されている とする。 なお、 このようなチャ ンネル間における 若干の位相差は、 実際にステ レオ録音された楽音信号においても し ば しば見受けられる。
先ず、 該当ブロ ッ ク Nの直交変換ブロ ッ クサイ ズを信号の振幅変 化のみで決定した場合、 図 8 Aに示す入力信号に対しては、 よ り短 い時間幅の直交変換ブロ ックサイ ズが決定され、 図 8 B に示す入力 信号に対しては、 よ り長い時間幅の直交変換ブロ ックサイ ズが決定 される。 これはプロ ヅ ク N— 1及びブロ ッ ク N内に存在する各最大 振幅値の差分値の絶対値、 すなわち図 8 Aの D a及び図 8 Bの D b と、 ある 値 T との大小比較を行なった結果、 微小な差ではあるが D a > T > D b と いう閬係が成立 したため、 上述のよう な直交変換 ブロ ッ クサイ ズが決定される。 この結果、 入力信号のチャ ンネル間 における相関が髙ぃにも拘らず、 直交変換によって得られる各チヤ ンネルのスぺク トル又は直交変換係数値の差が大き く 異な り、 チヤ ンネル間における音質差が顕著になる。 このよう な信号が入力され た場合、 上記の音質差を発生させないよう にするため、 該当ブロ ッ ク N に対し、 同時刻マスキング効果及び又は時間軸マスキング効果 が得られる場合には、 各チャ ンネル共に、 よ り長い時間幅の直交変 換ブロ ッ クサイ ズを決定し、 また、 同時刻マスキング効果及び又は 時間軸マスキング効果が得られな い場合には、 各チャンネル共に、 よ り短い時間幅の直交変換ブロ ッ クサイズを決定するこ と によ り、 上述のよ うなチャ ンネル間における音質差の発生を防止する こ とが できる。
本実施例では、 ブロ ッ クサイズ 3次判定回路 4 1 4 によ り、 図 8 のようなチャ ンネル間において相関が高い入力信号に対 して、 各チ ヤ ンネルの直交変換ブロ ックサイ ズを同等にする こ とができる。 な お、 全チャ ンネル中、 少な く とも 2つチャ ンネル上の処理ブロ ヅ ク の時間的長さを同一に しても、 有効である。
再び図 2において、 各M D C T回路 2 0 3、 2 0 4、 2 0 5 にて M D C T処理されて得られた周波数軸上のスペク トルデ一夕 あるい は M D C T係数データは、 低域はいわゆる臨界帯域 ( ク リ ティ カル バン ド ) 毎にま とめ られて、 中高域はブロ ッ クフ ローテ ィ ングの有 効性を考慮して、 臨界帯域幅を細分化 して適応ビッ 卜割当符号化回 路 2 1 0、 2 1 1、 2 1 2に供給される。 このク リ ティ カルパン ド とは、 人間の聴覚特性を考慮 して分割された周波数帯域であ り、 あ る純音の周波数近傍の同 じ強さの狭帯域バン ド ノ イ ズによって当該 純音がマスク される と きのそのノ イズの持つ帯域のこ とである。 こ のク リ ティ カルパン ドは、 高域ほど帯域幅が広く なつてお り、 上記 0〜 2 2 k H zの全周波数帯域は例えば 2 5のク リ ティ カルバン ド に分割されている。
ビヅ 卜配分算出回路 2 0 9 は、 上記ク リ ティ カルバン ド及びプロ ヅ クフ ローティ ングを考慮して分割されたスぺク トルデータ に基づ き、 いわゆるマスキング効果等を考慮 してク リ テ ィ カルパン ド及び ブロ ッ クフローティ ングを考慮した各分割帯域毎のマスキング量を 求め、 このマスキング量とク リテ ィ カルパン ド及びブロ ッ クフロー ティ ングを考慮した各分割帯域毎のエネルギある いはピーク値等に 基づいて、 各帯域毎に割当ビッ ト数を求めて、 適応ビッ ト割当符号 化回路 2 1 0、 2 1 1、 2 1 2によ り 各帯域毎に割り 当て られた ビ ヅ ト数に応じて各スぺク トルデータ ( あるいは M D C T係数データ) を再量子化するよ う になって いる。 このよう に して符号化されたデ 一夕は、 出力端子 2 1 3、 2 1 4、 2 1 5 を介して取り 出される。 つぎに、 図 9は上記ビッ ト配分算出回路 2 0 9の一具体例の構成 を示すブロ ッ ク回路図である。
この図 9 において、 上記各1^10 〇 !" 回路 2 0 3、 2 0 4、 2 0 5 からの周波数軸上のスぺク トル又は M D C T係数デ一夕が、 入力端 子 9 0 0を介 して帯域毎のエネルギ算出回路 9 0 1 に供給される。 エネルギ算出回路 9 0 1 は、 上記マスキング量と ク リ テ ィ カルパン ド及びプロ ヅ クフ ローティ ングを考慮 した各分割帯域のエネルギを、 例えば当該バン ド内での各振幅値の総和を計算するこ と等によって、 求める。 この各バン ド毎のエネルギの代わ り に、 振幅値のピーク値、 平均値等を用いるよう に して もよ い。
このエネルギ算出回路 9 0 1か らの出力と して、 例えば各バン ド の総和値のスぺク トルを図 1 0に図中 S B と して示して いる。 ただ し、 この図 1 0では、 図示を簡略化するため、 上記マスキング量と ク リ ティ カルパン ド及びブロ ック フロ ーティ ングを考慮 した分割帯 域数を 1 2ノ ン ド ( B 1〜: B 1 2 ) で表現 している。
こ こで、 上記スぺク トル S Bのいわゆるマスキングに於ける影饗 を考慮するために、 該スぺク トル S B に所定の重み付け関数を掛け て加算するような畳込み ( コ ンボ リ ューシ ヨ ン) 処理を施す。 この ため、 上記帯域毎のエネルギ算出回路 9 0 1の出力すなわち該スぺ ク トル S Bの各値は、 畳込みフィ ルタ回路 9 0 2 に送られる。 畳込 みフ ィ ル夕回路 9 0 2は、 例えば、 入力データ を順次遅延させる複 数の遅延素子と、 これ ら遅延素子からの出力にフ ィ ルタ係数 (重み 付け関数) を乗算する複数の乗算器 (例えば各バン ド に対応する 2 5個の乗算器) と、 各乗算器出力の総和を と る総和加算器とから構 成されるものである。 この畳込み処理によ り、 図 1 0中点線で示す 部分の総和がと られる。
こ こで、 上記畳込みフ ィル夕回路 9 0 2の各乗算器の乗算係数 ( フ ィ ル夕係数) の一具体例を示すと、 任意のパン ド に対応する乗算 器 Mの係数を 1 とする と き、 乗算器 M — 1 で係数 0. 1 5 を、 乗算 器 M - 2で係数 0. 0 0 1 9 を、 乗算器 M - 3で係数 0. 0 0 0 0 0 8 6 を、 乗算器 M + 1 で係数 0. 4 を、 乗算器 M + 2 で係数 0. 0 6 を、 乗算器 M + 3 で係数 0. 0 0 7 を各遅延素子の出力に乗算 するこ と によ り、 上記スペク トル S Bの畳込み処理が行われる。 た だ し、 Mは 1 ~ 2 5の任意の整数である。
次に、 上記畳込みフ ィルタ回路 9 0 2の出力は引算器 9 0 5 に送 られる。 該引算器 9 0 5 は、 上記畳込んだ領域での後述する許容可 能なノ イ ズレベルに対応する レベル α を求めるものである。 なお、 当該許容可能なノ イ ズレベル (許容ノ イズレベル) に対応する レべ ル αは、 後述するよう に、 逆コンポ リ ューシ ョ ン処理を行う こ と に よって、 ク リ ティ カルバン ドの各バン ド毎の許容ノ イズレベルとな るようなレベルである。 こ こで、 上記引算器 9 0 5 には、 上記レべ ル αを求めるための許容関数 (マスキ ングレベルを表現する関数) が供給される。 この許容関数を増減させる こ とで上記レベル αの制 御を行っている。 当該許容関数は、 次に説明するような ( η — a i ) 関数発生回路 9 0 4から供給される。
すなわち、 許容ノ イ ズレベルに対応する レベル αは、 ク リ ティ カ ルバン ドのバン ドの低域から順に与え られる番号を i とする と、 次 の式 ( 7 ) で求めるこ とができる。 a = S - ( n - a i ) · · · · ( 7 ) この式 ( 7 ) において、 n, aは定数で a〉 0、 Sは畳込み処理 されたバークスペク トルの強度であ り、 式 ( 7 ) 中 ( n— a i ) が 許容関数である。 本実施例では n = 3 8、 a = l と してお り、 この 時の音質劣化はな く、 良好な符号化が行えた。
このよ う に して、 上記レベル αが求められ、 このデータは、 引算 器 9 0 5 に供給される。 当該引算器 9 0 5では、 上記畳込みされた 領域での上記レベル αを逆コ ンボ リ ューシ ョ ンするためのものであ る。 したがって、 この逆コ ンボ リ ューシヨ ン処理を行う こ と によ り、 上記レベル αからマスキングスペク トルが得られる。 すなわち、 こ のマスキングスペク トルが許容ノ イズスペク トルとなる。 なお、 上 記逆コ ンボ リ ューシ ヨ ン処理は、 複雑な演算を必要とするが、 本実 施例では簡略化した引算器 9 0 5 を用 いて逆コ ンボ リ ューシ ヨ ンを 行って いる。
次に、 上記マスキングスペク ト ルは、 合成回路 9 0 6 を介して減 算器 9 0 7 に供給される。 こ こで、 当該減算器 9 0 7 には、 上記帯 域毎のエネルギ算出回路 9 0 1か らの出力、 すなわち前述したスぺ ク トル S Bが、 遅延回路 9 0 8を介して供給されている。 したがつ て、 この減算器 9 0 7で上記マスキングスぺク トルとスぺク トル S B との減算演算が行われるこ とで、 図 1 1 に示すよ う に、 上記スぺ ク トル S Bは、 該マスキングスぺク トル M Sのレベルで示すレベル 以下がマスキングされる。
当該減算器 9 0 7からの出力は、 許容雑音補正回路 9 1 1及び出 力端子 9 1 2 を介 して取 り 出され、 例えば割当て ビッ 卜数情報が予 め記憶された R O M等 (図示せず) に送られる。 この R O M等は、 上記減算器 9 0 7から許容雑音補正回路 9 1 1 を介して得られた出 力 (上記各パン ドのエネルギ と上記ノ イズレベル設定手段の出力 と の差分のレベル) に応じ、 各パン ド毎の割当 ビッ ト数情報を出力す る。 この割当 ビッ ト数情報が上記適応ビッ ト割当符号化回路 2 1 0、 2 1 1、 2 1 2 に送られるこ とで、 1^ 0 〇 1 回路 2 0 3、 2 0 4、 2 0 5 からの周波数軸上の各スぺク トルデータがそれぞれのパン ド 毎に割 り 当て られた ビッ ト数で量子化される。
すなわち要約すれば、 適応ビッ ト割当符号化回路 2 1 0、 2 1 1、 2 1 2 は、 上記マスキ ング量 とク リテ ィ カルバン ド及びプロ ヅ クフ ローテイ ングを考慮した各分割帯域のエネルギー と上記ノ イ ズレべ ル設定手段の出力との差分の レベルに応じて割当て られた ビッ ト数 で、 上記各パン ド毎のスペク トルデータを量子化する。 なお、 遅延 回路 9 0 8 は上記合成回路 9 0 6以前の各回路での遅延量を考處 し て帯域毎エネルギ算出回路 9 0 1 からのスぺク トル S B を遅延させ るために設けられている。
と ころで、 上述 した合成回路 9 0 6 での合成の際には、 最小可聴 カーブ発生回路 9 0 9 から供給される図 1 2 に示すよ う な人間の聴 覚特性であるいわゆる最小可聴カーブ R Cを示すデータ と、 上記マ スキングスぺク トル M S とを合成する こ とができる。 この最小可聴 カーブにおいて、 雑音絶対レベルがこの最小可聴カーブ以下な らば 該雑音は聞こえないこ と になる。 この最小可聴カーブは、 コーディ ングが同 じであっても例えば再生時の再生ボ リ ュームの違いで異な るもの となるが、 現実的なディ ジタルシステムでは、 例えば 1 6 ビ ヅ トダイ ナミ ヅク レンジへの音楽のはい り方にはさほど違いがない ので、 例えば 4 k H z付近の最も耳に聞こえやすい周波数帯域の量 子化雑音が聞こえない とすれば、 他の周波数帯域ではこの最小可聴 カーブのレベル以下の量子化雑音は閬こえないと考えられる。 した がって、 このよう に例えばシステムの持つワー ド レングスの 4 k H z付近の雑音が閬こえない使い方をすると仮定し、 この最小可聴力 ーブ R Cとマスキングスぺク トル M S とを共に合成する こ とで許容 ノ イ ズレベルを得るよ う にすると、 この場合の許容ノ イ ズレベルは、 図 1 2中の斜線で示す部分までとする こ とができ るよう になる。 な お、 本実施例では、 上記最小可聴カーブの 4 k H zの レベルを、 例 えば 2 0 ビヅ ト相当の最低レベル に合わせている。 また、 この図 1 2は、 信号スペク トル S Sも同時に示 して いる。
また、 上記許容雑音補正回路 9 1 1 は、 補正情報出力回路 9 1 0 から送られて く る例えば等ラ ウ ドネスカーブの情報に基づいて、 上 記減算器 9 0 7からの出力における許容雑音レベルを補正する。 こ こで、 等ラウ ドネスカーブと は、 人間の聴覚特性に関する特性曲線 であ り、 例えば 1 k H zの純音と同じ大きさ に聞こえる各周波数で の音の音圧を求めて曲線で結んだもので、 ラ ウ ドネスの等感度曲線 と も呼ばれる。 またこの等ラ ウ ドネス曲線は、 図 1 2 に示 した最小 可聴カーブ R Cと略同 じ曲線を描 く ものである。 この等ラウ ドネス 曲線においては、 例えば 4 k H z付近では 1 k H zの と ころよ り音 圧が 8〜 : L O d B下がっても 1 k H z と同 じ大きさ に聞こえ、 逆に、 5 0 H z付近では 1 k H zでの音圧よ り も約 1 5 d B高 く ないと同 じ大きさ に聞こえない。 このため、 上記最小可聴カーブのレベルを 越えた雑音 (許容ノ イ ズレベル) は、 該等ラ ウ ドネス曲線に応じた カーブで与え られる周波数特性を持つよう にするのが良いこ とがわ かる。 このよ うなこ とから、 上記等ラ ウ ドネス曲線を考慮して上記 許容ノ イ ズレベルを補正する こ と は、 人間の聴覚特性に適合 して い る こ とがわかる。
こ こで、 補正情報出力回路 9 1 0 と して、 上記適応ビ ヅ ト割当符 号化回路 2 1 0、 2 1 1、 2 1 2 での量子化の際の出力情報量 (デ 一夕量) の検出出力と、 最終符号化データの ビッ ト レー ト 目標値と の間の誤差の情報に基づいて、 上記許容ノ イ ズレベルを補正するよ う に してもよい。 これは、 全ての ビヅ ト割当単位ブロ ッ ク に対して 予め一時的な適応ビッ ト割当 を行って得られた総ビッ ト数が、 最終 的な符号化出力データのビヅ ト レー ト によって定ま る一定の ビヅ 卜 数 ( 目標値) に対 して誤差を持つ こ とがあ り、 その誤差分を 0 とす るよ う に再度ビッ ト割当をするものである。 すなわち、 目標値よ り も総割当 ビッ ト数が少ないと きには、 差のビヅ 卜数を各単位ブロ ヅ ク に割 り振って付加するよう に し、 目標値よ り も総割当 ビヅ ト数が 多いと きには、 差のビヅ ト数を各単位ブロ ヅ ク に割り振って削るよ う にするわけである。
このようなこ と を行うため、 補正情報出力回路 9 1 0 は、 上記総 割当 ビッ ト数の上記目標値か らの誤差を検出 し、 この誤差データ に 応 じて各割当 ビッ ト数を補正するための補正データを出力する。 こ こで、 上記誤差データがビッ ト数不足を示す場合は、 上記単位プロ ッ ク当た り多く の ビッ ト数が使われる こ とで上記データ量が上記目 標値よ り も多く なつて いる場合を考えるこ とができる。 また、 上記 誤差データが、 ビッ ト数余り を示すデ一夕 となる場合は、 上記単位 ブロ ッ ク当た り少ない ビッ ト数で済み、 上記デ一夕量が上記目標値 よ り も少な く なつている場合を考える こ とができ る。
したがって、 上記補正情報出力回路 9 1 0 からは、 この誤差デー 夕 に応じて、 上記減算器 9 0 7か らの出力における許容ノ イ ズレべ ルを、 例えば上記等ラ ウ ドネス曲線の情報データ に基づいて補正さ せるための上記補正値のデータが出力される よう になる。 上述のよ う な補正値が、 上記許容雑音補正回路 9 1 1 に供給されるこ とで、 上記減算器 9 0 7からの許容ノ イ ズレベルが補正される。 以上説明 したよ うなシステムでは、 メ イ ン情報と して直交変換出カスペク ト ルをサブ情報によ り処理したデータ とサブ情報と してブロ ッ クフ ロ 一ティ ングの状態を示すスケールファ クタ、 語長を示すヮ一 ド レ ン グスが得られ、 エンコーダか らデコーダに送られる。
図 1 3 に、 図 1 にぉける 1" ( デコーダ 7 3、 即ち、 上述のごと く 高能率符号化された信号を再び復号化するための復号回路の具体 的な構成を示す。 各帯域の量子化された M D C T係数、 すなわち図 2 における出力端子 2 1 3、 2 1 4、 2 1 5の出力信号と等価なデ 一夕が入力端子 3 0 0、 3 0 2、 3 0 4を介 して、 使用されたプロ ヅ クサイ ズ情報、 すなわち図 2における出力端子 2 1 6、 2 1 7、 2 1 8の出力信号と等価のデータが入力端子 3 0 1、 3 0 3、 3 0 5 を介 して復号化回路 3 0 6、 3 0 7、 3 0 8 に供給される。 復号 化回路 3 0 6、 3 0 7、 3 0 8は、 適応ビヅ ト割当情報を用いて ビ ヅ ト割当を解除する。 次に、 11^ 0〇 >1回路 3 0 9、 3 1 0、 3 1 1 は、 周波数軸上の信号を時間軸上の信号に変換する。 これらの部 分帯域の時間軸上信号は、 1 01^ 11回路 3 1 2、 3 1 3 によ り、 全 帯域信号に復号化され、 出力端子 3 1 4を介 して、 図 1 に示す D Z A変換器 7 4へ出力される。
なお、 本発明は上記実施例のみに限定されるものではな く、 例え ば、 上記の記録再生媒体と上記他の記録再生媒体とは一体化されて いる必要はな く その間をデータ転送用回線等で結ぶこ と も可能であ る。 更に例えば、 オーディ オ P C M信号のみな らず、 ディ ジタル音 声 (ス ピーチ) 信号やディ ジタル ビデオ信号等の信号処理装置にも 適用可能である。 また、 上述 した最小可聴カーブの合成処理を行わ ない構成と しても よい。 この場合には、 図 9 中の最小可聴カーブ発 生回路 9 0 9、 合成回路 9 0 6が不要とな り、 上記引算器 9 0 5 か らの出力は、 直ち に減算器 9 0 7 に供給されるこ と になる。
また、 ビッ ト配分手法は多種多様であ り、 最も簡単には固定の ビ ッ ト配分も し く は信号の各帯域エネルギによる簡単な ビッ ト配分も し く は固定分と可変分を組み合わせた ビッ ト配分など使う こ とがで きる。
以上の説明から も明 らかなよう に、 本発明においては、 入力信号 の急激な振幅変化に対 して、 直交変換ブロ ッ クの時間的サイ ズ及び ウ イ ン ドウ形状を変化させる際に、 チャンネル間においてある程度 相関が高いと判断 した場合には、 各チャンネルの直交変換ブロ ッ ク の時間的長さを同一のものとする こ と によ り、 チャンネル間におけ る音質差の発生を抑制 し、 音像定位感などを向上でき、 良好な音質 を得る こ とができる。 このこ とによ り、 同一のビヅ ト レー ト におい て、 よ り良好な音質を得るこ とが可能となる。 また、 同等の音質を 得るために、 よ り低い ビッ ト レー トで実施可能となる。
すなわち、 本発明においては、 時間的に変動する情報信号の圧縮 に対して、 聴感的にも望ま しい処理ブロ ックの時間的長さの決定手 法の提供を可能と し、 聴感上、 良好な音質での高能率圧縮、 伸張を 行なう こ とが可能となる。

Claims

請 求 の 範 囲
1 . 少な く とも 2つのチャ ンネルの各入力信号を、 各チャ ンネル の入力信号に適応 して可変した長さの処理ブロ ッ ク に分割し、 この 処理ブロ ック単位で情報圧縮を行う情報圧縮方法であって、
同時刻における各チャンネルの上記処理ブロ ッ クの長さを同一の ものとするこ とを特徴とする情報圧縮方法。
2 . 全チャ ンネル中の少な く と も 2 つのチャ ンネルの処理ブロ ヅ クの長さを同一のもの とする こ と を特徴とする請求項 1 に記載の情 報圧縮方法。
3 . 少な く とも 2つのチャ ンネル間の信号の相関関係を調べ、 当 該相関が高い と判断したとき にのみ、 対応する各チャ ンネル上の上 記処理ブロ ッ クの長さ を同一のものと する こ と を特徴とする請求項 1 又は 2 に記載の情報圧縮方法。
4 . 該当処理ブロ ッ クの入力信号の変化及び Z又は他の処理ブロ ヅ クの入力信号の変化、 及び Z又は、 パワー又はエネルギ又はピー ク情報に基づいて、 上記相関関係を調べる こ と を特徴とする請求項 3 に記載の情報圧縮方法。
5 . 該当処理ブロ ッ ク と同時刻の関係にある各処理ブロ ッ ク との 上記相関関係を調べる こ とを特徴とする請求項 4 に記載の情報圧縮 方法。
6 . 該当処理ブロ ッ ク と該当処理ブロ ッ ク に隣接する少な く と も 1 つの処理ブロ ッ クの入力信号の変化、 及び 又は、 パワー又はェ ネルギ又はビーク情報に基づいて、 上記相関関係を調べる こ と を特 徴とする請求項 4 に記載の情報圧縮方法。
7 . 該当処理ブロ ッ ク と該当処理ブロ ッ ク に隣接する少な く と も 1 つの処理ブロ ッ ク と、 同時刻の閧係にある他のチャンネルの各処 理ブロ ッ ク との上記相関関係を镧ベる こ と によ り、 処理ブロ ッ クの 長さを同一のもの とするこ と を特徴とする請求項 4 に記載の情報圧 ta方法。
8 . チャンネル間の相関係数を用いて相関関係を調べるこ とを特 徴とする請求項 3乃至 7のう ちのいずれかに記載の情報圧縮方法。
9 . 各チャ ンネルの該当処理ブロ ッ ク及び Z又は処理ブロ ヅクの 入力信号の変化、 及び 又は、 パワー又はエネルギ又はピーク情報 に基づいて、 上記相関係数を求めるこ とを特徴とする請求項 8 に記 載の情報圧縮方法。
1 0 . 各チャンネルの該当処理ブロ ック及び/又は処理ブロ ッ ク の入力信号の変化、 及び 又は、 パワー又はエネルギ又はピーク情 報の各チャンネル間の差分値に基づいて、 上記相関関係を調べる こ と を特徴とする請求項 3乃至 7の うちのいずれかに記載の情報圧縮 方法。
1 1 . 請求項 9 に記載の上記相関係数と請求項 1 0 に記載の上記 差分値と によ り、 上記相関関数を調べるこ と を特徴とする請求項 8 に記載の情報圧縮方法。
1 2 . 入力信号に応じた所定のマスキング効果の度合いを算出 し、 各チャ ンネルの処理ブロ ックの長さを決定するこ とを特徴とする請 求項 3乃至 1 1 のうちのいずれかに記載の情報圧縮方法。
1 3 . 該当処理ブロ ック及び 又は他の処理ブロ ッ クの入力信号 の変化、 及び/又は、 パワー又はエネルギ又はピーク情報に基づい て、 上記マスキング効果の度合い を算出する こ と を特徴とする請求 項 1 2 に記載の情報圧縮方法。
1 4 . 該当処理ブロ ッ クに隣接する処理ブロ ッ クの入力信号の変 化、 及び/又は、 パワー又はエネルギ又はピーク情報に基づいて、 上記マスキング効果の度合いを算出するこ と を特徴とする請求項 1 2 に記載の情報圧縮方法。
1 5 . 該当処理ブロ ッ ク と同時刻の閼係にある処理ブロ ッ クの入 力信号の変化、 及び 又は、 パワー又はエネルギ又はピーク情報に 基づいて、 上記マスキ ング効果の度合いを算出する こ と を特徴とす る請求項 1 2 に記載の情報圧縮方法。
1 6 . 請求項 1 4 に記載の情報圧縮方法及び請求項 1 5 に記載の 情報圧縮方法の両機能を合わせ持つこ とを特徴とする情報圧縮方法。
1 7 . 該当処理ブロ ッ クの長さ を決定する要素の決定に関与する 割合を、 固定又は入力信号に適応 した割合で用いるこ と を特徴とす る請求項 3乃至 1 6 のうちのいずれかに記載の情報圧縮方法。
1 8 . 該当処理ブロ ッ クの長さ を決定する要素の決定に関与する 割合を、 周波数に応じて可変 とするこ とを特徴とする請求項 1 7 に 記載の情報圧縮方法。
1 9 . 時間軸信号か ら周波数軸上の複数の帯域への分割に直交変 換を用いるこ と、 及び直交変換サイ ズの可変と共に直交変換時に用 いる窓関数の形状も変化させるこ とを特徴とする請求項 1乃至 1 8 のうちのいずれかに記載の情報圧縮方法。
2 0 . 時間軸信号から周波数軸上の複数の帯域への分割の際には、 先ず複数の帯域に分割 し、 分割された帯域毎に複数のサンブルから なるブロ ッ ク を形成 し、 各帯域のブロ ック毎に直交変換を行い、 係 数データ を得るこ とを特徴と する請求項 1 9 に記載の情報圧縮方法。
2 1 . 直交変換前の時間軸信号から周波数軸上の複数の帯域への 分割における分割周波数幅を、 略高域程広く する こ と を特徴とする 請求項 2 0 に記載の情報圧縮方法。
2 2 . 前記分割周波数幅を最低域の連続した 2帯域で同一とする こ とを特徴とする請求項 2 1 に記載の情報圧縮方法。
2 3 . 略信号通過帯域以上の帯域の信号成分に対しては圧縮符号 のメ イ ン情報及び Z又はサブ情報の割 り 当てを禁止する こ と を特徴 とする請求項 2 2 に記載の情報圧縮方法。
2 4 . 該当処理ブロ ッ クの入力信号の変化を用いて処理ブロ ッ ク の時間的長さ を決定する際、 境界値が入力信号の振幅、 周波数に応 じて可変となるこ とを特徴とする請求項 1乃至 2 5 のう ちのいずれ かに記載の情報圧縮方法。
2 5 . 少な く と も 2つのチャンネルの処理ブロ ックは、 入力信号 に適応して上記処理ブロ ックの長さを可変する と共に対応する各チ ヤ ンネルでは同一の長さ となされた処理ブロ ッ ク単位で、 所定の圧 縮処理が施された各チャンネルの圧縮情報を記録 してなるこ とを特 徴とする記録媒体。
2 6 . 請求項 2乃至 2 4の うちのいずれかに記載の情報圧縮方法 による圧縮情報を記録してなるこ とを特徴とする記録媒体。
2 7 . 請求項 1 乃至 2 4の うちのいずれかに記載の情報圧縮方法 による圧縮情報を伸張するこ とを特徴とする圧縮情報伸張方法。
2 8 . 請求項 1 乃至 1 8の うちのいずれかに記載の情報圧縮方法 による圧縮情報を伸張する と共に、 周波数軸上の複数帯域から時間 軸上信号への変換に逆直交変換を用いるこ と を特徴とする圧縮情報 伸張方法。
2 9 . 周波数軸上の複数帯域か ら時間軸信号への変換の際には、 各帯域のブロ ッ ク毎に逆直交変換を用 い、 各逆直交変換出力を合成 して時間軸上合成信号を得る こ と を特徴とする請求項 2 8 に記載の 情報伸張方法。
3 0 . 逆直交変換後の周波数軸上の複数の帯域から時間軸信号へ の合成における複数の帯域か らの合成周波数幅を、 略髙域程広く す る こ と を特徴とする請求項 2 9 に記載の情報伸張方法。
3 1 . 前記合成周波数幅を最低域の連続した 2帯域で同一とする こ とを特徴とする請求項 3 0 に記載の情報伸張方法。
3 2 . 少な く と も 2つのチャンネルの各入力信号を処理ブロ ッ ク に分割するに際し、 各チャンネルの入力信号に適応して処理ブロ ヅ クの長さ を可変する と共に同時刻における各チャ ンネルの上記処理 ブロ ヅ クの長さ については同一と するブロ ヅ ク分割手段と、
上記処理ブロ ッ ク単位の信号に対して所定の情報圧縮処理を施す 情報圧縮手段と
を有する こ と を特徴とする情報圧縮装置。
3 3 . 全チャ ンネル中の少な く とも 2つのチャ ンネルの処理ブロ ッ クの長さを同一のものとするこ とを特徴とする請求項 3 2 に記載 の情報圧縮装置。
3 4 . チャ ンネル間の信号の相関関係を算出する相関算出手段を 設け、
上記ブロ ッ ク分割手段は、 上記相関算出手段で算出 した相関が高 い と判断した と き にのみ、 同時刻における各チャ ンネル上の上記処 理ブロ ッ クの長さ を同一のものとする こ と を特徴とする請求項 3 2 又は 3 3 に記載の情報圧縮装置。
3 5 . 該当処理ブロ ックの入力信号の変化及び/又は他の処理ブ ロ ッ クの入力信号の変化、 及び Z又は、 パワー又はエネルギ又はピ ーク情報を算出する演算手段を設け、
上記相閬算出手段は、 上記演算手段の演算結果に基づいて、 上記 相関関係を調べる こ とを特徴とする請求項 3 4 に記載の情報圧縮装 爨。
3 6 . 上記演算手段は、 該当処理ブロ ッ クの入力信号の変化及び ノ又は他の処理ブロ ッ クの入力信号の変化と して、 該当処理ブロ ッ ク と同時刻の関係にある各処理ブロ ッ クの入力信号の変化及び Z又 は他の処理ブロ ッ クの入力信号の変化、 及び 又は、 該当処理プロ ヅ ク及び 又は該当処理ブロ ック に隣接する処理ブロ ッ クの入力信 号の変化を用いる こ とを特徴とする請求項 3 5 に記載の情報圧縮装 置。
3 7 . 上記相関算出手段は、 各チャ ンネルの該当処理ブロ ッ ク及 び Z又は処理ブロ ックの入力信号の変化、 及び Z又は、 パワー又は エネルギ又はピーク情報及びノ又はこれら情報の各チャ ンネル間の 差分値に基づいて、 各チャンネル間の相関係数を求め、 当該各チヤ ンネル間の相関係数を用いて相関関係を調べるこ とを特徴とする請 求項 3 4乃至 3 6 のう ちのいずれかに記載の情報圧縮 ^置。
3 8 . 上記ブロ ック分割手段は、 該当処理ブロ ッ ク及び/又は他 の処理ブロ ッ クの入力信号の変化、 及び 又は、 パワー又はエネル ギ又はピーク情報に基づいて、 入力信号に応 じたマスキング効果の 度合いを算出 し、 各チャンネルの処理ブロ ッ クの長さ を決定する こ とを特徴とする請求項 3 4乃至 3 7のうちのいずれかに記載の情報 圧縮装置。
3 9 . 上記他の処理ブロ ッ クの入力信号の変化は、 該当処理プロ ッ ク に隣接する処理ブロ ックの入力信号の変化、 及び Z又は、 該当 処理ブロ ック と同時刻の関係にある処理ブロ ッ クの入力信号の変化 である こ とを特徴とする請求項 3 8 に記載の情報圧縮装置。
4 0 . 上記ブロ ッ ク分割手段は、 該当処理ブロ ッ クの長さ を決定 する要素の決定に閼与する割合を、 固定又は入力信号に適応 した割 合、 及び 又は、 周波数に応じて可変 した割合とする こ とを特截と する請求項 3 4乃至 3 9 のう ちの いずれかに記載の情報圧縮装置。
4 1 . 時間軸信号を複数の帯域に分割する時間軸信号帯域分割手 段と、
上記時間軸信号帯域分割手段か らの各帯域の時間軸信号を周波数 軸上の複数の帯域に変換する直交変換手段と を設け、
上記ブロ ッ ク分割手段は上記時間軸信号帯域分割手段で分割され た帯域毎に複数のサンプルか らな る処理ブロ ッ ク を形成 し、 上記直 交変換手段は当該処理ブロ ッ ク毎に直交変換を行って係数データ を 得て、 上記情報圧縮手段は当該処理ブロ ッ ク毎の係数デ一夕 を圧縮 するこ と を特徴とする請求項 3 2乃至 4 0のうちのいずれかに記載 の情報圧縮装置。
4 2 . 上記時間軸信号帯域分割手段における分割周波数幅は略高 域程広 く する と共に最低域の連続 した 2帯域で同一 と し、 上記情報 圧縮手段は略信号通過帯域以上の帯域の信号成分に圧縮符号のメ イ ン情報及び/又はサブ情報の割り 当て を禁止する こ とを特徴とする 請求項 4 1 に記載の情報圧縮装置。
4 3 . 上記時間軸信号帯域分割手段での複数の帯域への分割にク ヮ ドラチヤ · ミ ラー · フ ィル夕を用い、 上記直交変換手段での直交 変換と してモディ ファイ ド離散コサイ ン変換を用いるこ とを特徴と する請求項 4 1又は 4 2 に記載の情報圧縮装置。
4 4 . 上記ブロ ック分割手段は、 該当処理ブロ ッ クの入力信号の 変化を用いて処理ブロ ッ クの時間的長さを決定する際に、 境界値を 入力信号の振幅、 周波数に応 じて可変とする こ と を特徴とする請求 項 3 2乃至 4 3のうちのいずれかに記載の情報圧縮装置。
4 5 . 少な く と も 2つのチャンネルの入力信号に適応 して処理ブ 口 ッ クの長さ を可変する と共に、 同時刻の各チャ ンネルでは同一の 長さ となされた処理ブロ ック単位で、 所定の圧縮処理が施された各 チャンネルの圧縮情報を伸張する圧縮情報伸張装置であって、 上記各チャンネルで所定の圧縮処理に対応する伸張処理を行う伸 張処理手段と、
上記伸張処理手段からの可変長の処理ブロ ッ ク を各チャンネルで 合成する合成手段と
を有するこ とを特徴とする圧縮情報伸張装置。
4 6 . 請求項 3 2乃至 4 4 のう ちのいずれかに記載の情報圧縮装 置における圧縮情報を伸張するこ とを特徴とする圧縮情報伸張装置。
4 7 . 少な く と も 2つのチャンネルの各入力信号を処理ブロ ッ ク に分割するに際し、 各チャンネルの入力信号に適応して処理ブロ ヅ クの長さを可変する と共に同時刻における各チャ ンネルの上記処理 ブロ ッ クの長さ については同一とするブロ ッ ク分割手段と、
上記処理ブロ ッ ク単位の信号に対して所定の情報圧縮処理を施す 情報圧縮手段と、
上記情報圧縮手段による圧縮情報を記録媒体に記録若 し く は伝送 媒体に伝送する記録 伝送手段と を有するこ と を特徴とする圧縮情報記録 伝送装 g。
4 8 . 請求項 3 2乃至 4 4 のう ちの いずれかに記載の情報圧縮装 gにおける圧縮情報を記録媒体に記録若し く は伝送媒体に伝送する こ とを特徴とする圧縮情報記録ノ伝送装置。
4 9 . 請求項 3 2乃至 4 4のう ちの いずれかに記載の情報圧縮装 gにおける圧縮情報が記録された記録媒体から圧縮情報を伸張する と共に再生するこ とを特徴と する圧縮情報再生装置。
5 0 . 請求項 3 2乃至 4 4 のう ちの いずれかに記載の情報圧縮装 置における圧縮情報を受信して当該圧縮情報を伸張する と共に再生 するこ とを特徴とする圧縮情報受信装置。
PCT/JP1994/002005 1993-11-29 1994-11-29 Procedes et appareils de compression et decompression d'informations, appareils d'enregistrement/emission et de reception d'informations comprimees, et support d'enregistrement WO1995015032A1 (fr)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP95901611A EP0691751B1 (en) 1993-11-29 1994-11-29 Method and device for compressing information, and device for recording/transmitting compressed information
KR1019950703186A KR100339325B1 (ko) 1993-11-29 1994-11-29 신호처리방법,정보압축용장치,압축정보신장장치,압축정보기록/전송장치
US08/491,973 US5717670A (en) 1993-11-29 1994-11-29 Information compacting method and apparatus, compacted information expanding method and apparatus, compacted information recording/transmitting apparatus, compacted information receiving apparatus and recording medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP29830493A JP3175446B2 (ja) 1993-11-29 1993-11-29 情報圧縮方法及び装置、圧縮情報伸張方法及び装置、圧縮情報記録/伝送装置、圧縮情報再生装置、圧縮情報受信装置、並びに記録媒体
JP5/298304 1993-11-29

Publications (1)

Publication Number Publication Date
WO1995015032A1 true WO1995015032A1 (fr) 1995-06-01

Family

ID=17857917

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP1994/002005 WO1995015032A1 (fr) 1993-11-29 1994-11-29 Procedes et appareils de compression et decompression d'informations, appareils d'enregistrement/emission et de reception d'informations comprimees, et support d'enregistrement

Country Status (6)

Country Link
US (1) US5717670A (ja)
EP (1) EP0691751B1 (ja)
JP (1) JP3175446B2 (ja)
KR (1) KR100339325B1 (ja)
ES (1) ES2313718T3 (ja)
WO (1) WO1995015032A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1995034956A1 (fr) * 1994-06-13 1995-12-21 Sony Corporation Procede et dispositif de codage de signal, procede et dispositif de decodage de signal, support d'enregistrement et dispositif de transmission de signaux

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3152109B2 (ja) * 1995-05-30 2001-04-03 日本ビクター株式会社 オーディオ信号の圧縮伸張方法
US6741965B1 (en) * 1997-04-10 2004-05-25 Sony Corporation Differential stereo using two coding techniques
JPH1132399A (ja) * 1997-05-13 1999-02-02 Sony Corp 符号化方法及び装置、並びに記録媒体
US6356211B1 (en) * 1997-05-13 2002-03-12 Sony Corporation Encoding method and apparatus and recording medium
EP0887958B1 (en) * 1997-06-23 2003-01-22 Liechti Ag Method for the compression of recordings of ambient noise, method for the detection of program elements therein, devices and computer program therefor
US6178147B1 (en) * 1997-08-22 2001-01-23 Sony Corporation Recording method, recording apparatus, reproducing method and reproducing apparatus
US6578169B1 (en) * 2000-04-08 2003-06-10 Advantest Corp. Data failure memory compaction for semiconductor test system
JP2002272736A (ja) * 2001-03-21 2002-09-24 Fuji Photo Film Co Ltd 超音波診断装置
JP4625709B2 (ja) * 2005-03-25 2011-02-02 株式会社東芝 ステレオオーディオ信号符号化装置
US7411528B2 (en) 2005-07-11 2008-08-12 Lg Electronics Co., Ltd. Apparatus and method of processing an audio signal
KR100790362B1 (ko) * 2006-12-08 2008-01-03 한국전자통신연구원 공간지각 단서에 의한 서라운드 음장 시각화 장치 및 그방법
EP2717262A1 (en) 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for signal-dependent zoom-transform in spatial audio object coding
JP6721977B2 (ja) * 2015-12-15 2020-07-15 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声音響信号符号化装置、音声音響信号復号装置、音声音響信号符号化方法、及び、音声音響信号復号方法
JP6881931B2 (ja) * 2016-09-30 2021-06-02 株式会社モバイルテクノ 信号圧縮装置、信号伸長装置、信号圧縮プログラム、信号伸長プログラム及び通信装置
CN110870006B (zh) 2017-04-28 2023-09-22 Dts公司 对音频信号进行编码的方法以及音频编码器

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63182700A (ja) * 1987-01-26 1988-07-27 株式会社日立製作所 音響信号処理回路
JPH0352332A (ja) * 1989-07-19 1991-03-06 Sony Corp 信号符号化装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3134455B2 (ja) * 1992-01-29 2001-02-13 ソニー株式会社 高能率符号化装置及び方法
DE4345611B4 (de) * 1992-04-16 2011-06-16 Mitsubishi Denki K.K. Wiedergabe-Gerät
JP3230319B2 (ja) * 1992-07-09 2001-11-19 ソニー株式会社 音響再生装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63182700A (ja) * 1987-01-26 1988-07-27 株式会社日立製作所 音響信号処理回路
JPH0352332A (ja) * 1989-07-19 1991-03-06 Sony Corp 信号符号化装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
See also references of EP0691751A4 *
SUZUKI J: "ANALYSIS OF STERE SPEECH SIGNAL BY OPTIMUM ORTHOGONAL TRANSFORM", IEICE THESIS JOURNAL, vol. J71-A, no. 2, 1988, pages 443 - 452, XP009035887 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1995034956A1 (fr) * 1994-06-13 1995-12-21 Sony Corporation Procede et dispositif de codage de signal, procede et dispositif de decodage de signal, support d'enregistrement et dispositif de transmission de signaux
US6061649A (en) * 1994-06-13 2000-05-09 Sony Corporation Signal encoding method and apparatus, signal decoding method and apparatus and signal transmission apparatus

Also Published As

Publication number Publication date
EP0691751A1 (en) 1996-01-10
EP0691751B1 (en) 2008-10-01
US5717670A (en) 1998-02-10
JPH07154265A (ja) 1995-06-16
KR960700571A (ko) 1996-01-20
JP3175446B2 (ja) 2001-06-11
KR100339325B1 (ko) 2002-11-18
ES2313718T3 (es) 2009-03-01
EP0691751A4 (en) 2005-06-22

Similar Documents

Publication Publication Date Title
JP3123286B2 (ja) ディジタル信号処理装置又は方法、及び記録媒体
JP3173218B2 (ja) 圧縮データ記録方法及び装置、圧縮データ再生方法、並びに記録媒体
JP3123290B2 (ja) 圧縮データ記録装置及び方法、圧縮データ再生方法、記録媒体
US6741965B1 (en) Differential stereo using two coding techniques
JP3186307B2 (ja) 圧縮データ記録装置及び方法
JPH06180948A (ja) ディジタル信号処理装置又は方法、及び記録媒体
JP3531177B2 (ja) 圧縮データ記録装置及び方法、圧縮データ再生方法
JP3175446B2 (ja) 情報圧縮方法及び装置、圧縮情報伸張方法及び装置、圧縮情報記録/伝送装置、圧縮情報再生装置、圧縮情報受信装置、並びに記録媒体
JP3185415B2 (ja) 圧縮データ再生記録装置及び方法
JPH08162964A (ja) 情報圧縮装置及び方法、情報伸張装置及び方法、並びに記録媒体
JP4470304B2 (ja) 圧縮データ記録装置、記録方法、圧縮データ記録再生装置、記録再生方法および記録媒体
JP3334374B2 (ja) ディジタル信号圧縮方法及び装置
JP3304717B2 (ja) ディジタル信号圧縮方法及び装置
JP3186489B2 (ja) ディジタル信号処理方法及び装置
JP3175456B2 (ja) ディジタル信号処理装置
JP3334375B2 (ja) ディジタル信号圧縮方法及び装置
JPH06338861A (ja) ディジタル信号処理装置及び方法、並びに記録媒体
JP3477735B2 (ja) 圧縮データ変換装置及び方法
JP3552239B2 (ja) 圧縮データ記録装置及び方法、並びに圧縮データ再生方法
JP3134368B2 (ja) 圧縮データ記録再生装置
JP3084815B2 (ja) データ記録方法及び装置
JPH0590973A (ja) 信号処理方法及び圧縮データ記録再生装置
JPH10261265A (ja) データダビング装置
JPH07231259A (ja) ディジタル信号処理方法及び装置、並びに記録媒体

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): KR US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): ES FR GB IT

WWE Wipo information: entry into national phase

Ref document number: 1995901611

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 08491973

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 1019950703186

Country of ref document: KR

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWP Wipo information: published in national office

Ref document number: 1995901611

Country of ref document: EP

WWG Wipo information: grant in national office

Ref document number: 1995901611

Country of ref document: EP