WO1994030013A1 - Encoder and encoding method - Google Patents

Encoder and encoding method Download PDF

Info

Publication number
WO1994030013A1
WO1994030013A1 PCT/JP1994/000921 JP9400921W WO9430013A1 WO 1994030013 A1 WO1994030013 A1 WO 1994030013A1 JP 9400921 W JP9400921 W JP 9400921W WO 9430013 A1 WO9430013 A1 WO 9430013A1
Authority
WO
WIPO (PCT)
Prior art keywords
circuit
video signal
signal
digital video
output
Prior art date
Application number
PCT/JP1994/000921
Other languages
English (en)
French (fr)
Inventor
Tetsujiro Kondo
Original Assignee
Sony Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corporation filed Critical Sony Corporation
Priority to KR1019950700518A priority Critical patent/KR100289854B1/ko
Priority to DE1994623072 priority patent/DE69423072T2/de
Priority to JP50157195A priority patent/JP3442783B2/ja
Priority to US08/379,558 priority patent/US5627581A/en
Priority to EP19940917169 priority patent/EP0654947B1/en
Publication of WO1994030013A1 publication Critical patent/WO1994030013A1/ja

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/24Systems for the transmission of television signals using pulse code modulation
    • H04N7/52Systems for transmission of a pulse code modulated video signal with one or more other pulse code modulated signals, e.g. an audio signal or a synchronizing signal
    • H04N7/54Systems for transmission of a pulse code modulated video signal with one or more other pulse code modulated signals, e.g. an audio signal or a synchronizing signal the signals being synchronous
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/12Selection from among a plurality of transforms or standards, e.g. selection between discrete cosine transform [DCT] and sub-band transform or selection between H.263 and H.264
    • H04N19/122Selection of transform size, e.g. 8x8 or 2x4x8 DCT; Selection of sub-band transforms of varying structure or type
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/14Coding unit complexity, e.g. amount of activity or edge presence estimation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/142Detection of scene cut or scene change
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/149Data rate or code amount at the encoder output by estimating the code amount by means of a model, e.g. mathematical model or statistical model
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/98Adaptive-dynamic-range coding [ADRC]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/152Data rate or code amount at the encoder output by measuring the fullness of the transmission buffer

Definitions

  • the present invention relates to an encoding apparatus and method for encoding video signals and audio signals with high efficiency.
  • Background Art Various methods have been proposed for transmitting video signals and audio signals after compressing and encoding them with high efficiency.
  • compression coding is performed on each of the video signal and the audio signal based on the respective masking effects so that signal deterioration is not noticeable.
  • the above-mentioned compression coding method is adapted to the sensitivity characteristics (masking characteristics) of the human auditory sense and the visual sense. In each case, only the reproduced image or the reproduced sound is evaluated, and the compression process is independently performed. Is going.
  • human audiovisual sensitivity is different when images and sounds exist independently of each other, and when images and sounds exist in relation to each other as in movies. And have completely different characteristics. Therefore, when images and sounds are associated with each other, as in movies, etc., optimal compression encoding is performed if the images and sounds are compressed independently, as in the past. Can not have been.
  • the present invention has been made in view of the above-described circumstances, and has as its object to provide an encoding apparatus and method capable of performing more optimal compression encoding on images and sounds. It is.
  • the encoding apparatus of the present invention is an encoding apparatus that compresses and transmits a digital video signal and a digital audio signal related thereto, and transmits the digital video signal. No. to detect
  • a characteristic detecting means for detecting the characteristic of the digital audio signal; (2) characteristic combining means, combining means for combining the outputs of the first and second characteristic detecting means, and assignment information for compression encoding of the digital video signal and digital audio signal based on the output of the combining means.
  • Control means for controlling the amount.
  • the first and second characteristic detecting means detect activities of the video signal and the audio signal, respectively.
  • the above activity is detected by detecting the space and the time or the temporal change of the signal.
  • the synthesizing means multiplies each output of the first and second characteristic detecting means by a predetermined coefficient, and then synthesizes.
  • the encoding apparatus of the present invention is provided with a buffer memory for temporarily storing the compression-encoded signal and then outputting the output signal as an output signal, wherein the control means determines the amount of information stored in the buffer memory and the amount of information stored in the buffer memory.
  • the amount of information allocated for compression encoding of the digital video signal and digital audio signal is controlled in accordance with the combined output of the combining means.
  • the first characteristic detecting means includes: a frame memory for delaying a digital video signal by a frame; a line memory for delaying a digital video signal by a line; a sample memory for delaying a sample of a digital video signal; First difference calculating means for calculating a difference between the frame-delayed digital video signal from the memory and the input digital video signal; and a line-delayed digital video signal from the line memory and the input digital video signal. And second difference calculating means for calculating the difference between the sampled digital video signal from the sample memory and the input digital video signal.
  • the first characteristic detecting means nonlinearly combines the outputs of the first, second, and third difference calculating means.
  • a non-linear synthesizing means is provided.
  • the second characteristic detecting means includes amplitude information generating means for generating amplitude information of the input digital audio signal; energy detecting means for detecting energy based on an amplitude value from the amplitude information generating means; Convolution operation means for performing a convolution operation on the output of the energy detection means.
  • the first characteristic detecting means and the second characteristic detecting means compare a large change amount detecting means for detecting a large change amount of the signal and an output of the large change amount detecting means with a predetermined threshold value.
  • Each of the comparison means of 2 and the determination means of determining whether or not the activity is possible may be provided.
  • an encoding method is an encoding method in which a digital video signal and a digital audio signal related thereto are compression-encoded and transmitted, respectively. Detecting the characteristic of the digital audio signal, synthesizing the characteristic detection output of the digital video signal and the characteristic detection output of the digital audio signal, and based on the composite output, the digital video signal and the digital audio signal. It is characterized in that the amount of information allocated for compression encoding of signals is controlled.
  • the activities of the video signal and the audio signal are detected, respectively. Also at this time, the above activity is detected by detecting the space and Z of the signal or the change in time. Therefore, according to the encoding apparatus and method of the present invention, the amount of information to be assigned for compression encoding of a digital video signal is determined by taking into account the characteristics of the audio signal detected by the second characteristic detecting means. The amount of information allocated for digital audio signal compression encoding is based on the characteristics of the video signal detected by the first characteristic detecting means.
  • FIG. 1 is a block circuit diagram showing a schematic configuration of an encoding device according to an embodiment of the present invention.
  • FIG. 2 is a block circuit diagram showing a configuration of a specific example of a video signal compression encoding circuit.
  • FIG. 3 is a block circuit diagram showing a configuration of a specific example of the audio signal compression encoding circuit.
  • FIG. 4 is a diagram for explaining a critical band.
  • FIG. 5 is a block circuit diagram showing a configuration of a specific example of a bit distribution calculation circuit of the audio signal compression encoding circuit.
  • FIG. 6 is a diagram for explaining the bark spectrum.
  • FIG. 7 is a block circuit diagram showing the configuration of the FIR filter.
  • FIG. 8 is a diagram for explaining the bark spectrum and the masking spectrum.
  • Figure 9 is a composite diagram of the minimum audible curve and the masking spectrum.
  • FIG. 10 is a block circuit diagram showing the configuration of a specific example of the encoding control circuit.
  • FIG. 11 is a block diagram showing a configuration of a specific example of the amplitude information generating circuit.
  • FIG. 12 is a block circuit diagram showing a configuration of a specific example of the bark spectrum forming circuit.
  • Fig. 13 is a diagram for explaining the transmission rate of the video signal and the transmission rate of the audio signal in consideration of the transmission rate and the activity and masking of the transmission path.
  • FIG. 14 is a block diagram for explaining another specific example of the video signal compression encoding circuit.
  • FIG. 15 is a block diagram showing a configuration of another specific example of the activity detection circuit.
  • BEST MODE FOR CARRYING OUT THE INVENTION will be described with reference to the drawings.
  • an instruction code of 10 V indicates a digital video signal compression encoding system
  • an instruction code of 10 A indicates a digital audio signal compression encoding system
  • the digital video signal through the input terminal 11 V is supplied to the compression encoding circuit 12 V, and compression encoding suitable for the video signal is performed.
  • compression encoding suitable for the video signal is performed.
  • DCT Discrete Coding
  • ADRC adaptive 'dynamic range, coding
  • the above-mentioned ADRC is defined in Japanese Patent Application Laid-Open No. 61-144,899 and Japanese Patent Application Laid-Open No.
  • the dynamic range (difference between the maximum and minimum levels in a block) and the minimum level are calculated for multiple pixels included in a two-dimensional block in one field, and the dynamic range is equalized by the number of compressed quantization bits. And encodes each pixel in the block to the closest level code. That is, for example, a video signal such as a television signal has a correlation in the horizontal direction and the vertical direction. Therefore, in a steady portion, the variation width of the level of the pixel data included in the same block is small.
  • the video signal compression coding circuit 12 V is configured to perform compression coding using the ADRRC as shown in FIG.
  • the compression encoding circuit 12 V shown in FIG. 2 blocks the digital video signal, and the dynamic range defined by the maximum value MAX and the minimum value MIN of a plurality of pixel data included in the block. DR and obtain the dynamic Each pixel data in the block is encoded (re-quantized) with the number of bits assigned to the DR.
  • a digital video signal for example, a digital television signal
  • This digital video signal is supplied to the blocking circuit 402.
  • the output signal of the blocking circuit 402 is supplied to a dynamic range detection circuit 403 and an addition circuit 404 operating as a subtraction circuit.
  • the dynamic range detection circuit 403 detects the dynamic range DR, the minimum value MIN, and the maximum value MAX for each block, and outputs the values of the dynamic range DR and the minimum value MIN (or the maximum value MAX). I do.
  • the minimum value M IN is sent to the addition circuit 404 as a subtraction signal. Further, the pixel data PD from the blocking circuit 402 is supplied to the addition circuit 404 as an addition signal. Therefore, in the addition circuit 404, the pixel from which the minimum value MIN has been removed is removed. Data PDI is formed.
  • the dynamic range DR detected by the dynamic range detection circuit 403 is sent to the bit length determination circuit 406.
  • the bit length determination circuit 406 determines the block and the like based on a control signal supplied from a coding control circuit 15 V, which will be described later, supplied via a terminal 420, and the dynamic range DR.
  • Division by compression coding unit Determine the number of applied bits (the number of allocated bits for quantization).
  • the number of allocated bits determined by the bit length determination circuit 406 is supplied to the quantization circuit 405.
  • the quantization circuit 405 is supplied with the pixel data PDI after the removal of the minimum value from the addition circuit 404.
  • the pixel data PDI is quantized by the number of allocated bits described above.
  • the bit length determining circuit 406 when determining the number of bits to be allocated, does not use a linear number of allocated bits to keep the maximum distortion constant with respect to the dynamic range, but instead uses the human visual characteristic. It is also possible to determine the number of allocated bits such that the maximum distortion can be changed by the nonlinear characteristics that match the parameters. That is, in general, when there is a sharp change in the luminance level within a block (when the dynamic range is large), a small change in the luminance level is hardly noticeable. Therefore, for example, in a block having a large dynamic range, the number of allocated bits is reduced. As described above, the bit length determination circuit 406 determines the variable number of allocated bits according to the dynamic range, so that when the dynamic range is large, even if the maximum distortion is large, the block distortion is large. This does not occur, so that the compression ratio can be increased.
  • the encoded code DT from the quantization circuit 405 is sent to the framing circuit 407.
  • the dynamic range DR for example, 8 bits
  • the minimum value MIN for example, 8 bits
  • the framing circuit 407 performs error correction coding processing on the coded code DT and the above-described additional code, and adds a synchronization signal.
  • the output of the framing circuit 407 is sent to the buffer memory 13 V via the terminal 408 as a compression-encoded digital video signal, and the output terminal 14 V via the buffer memory 13 V Output from.
  • the digital audio signal through the input terminal 11A is supplied to the compression / encoding circuit 12A, and the audio signal is converted into a human signal as described later.
  • the compression encoding process taking into account the auditory characteristics is performed.
  • the compression encoding process in consideration of human auditory characteristics is performed by converting an input digital signal of an audio signal into a plurality of frequency bands.
  • the allowable noise level for each band is set based on the energy for each band, and the level of the difference between the energy for each band and the set allowable noise level The components of each band are requantized with the number of bits corresponding to.
  • the audio signal compression encoding circuit 12A has a configuration as shown in FIG.
  • an audio PCM signal of 0 to 22 kHz is supplied to the input terminal 310.
  • This input signal is divided into a band of 0 to 11 kHz and a band of 1 lk to 22 kHz by a band division filter 311 composed of a filter such as a so-called QMF (Quadrature Mirror filter).
  • the signal in the 11 kHz band is also divided into a band of 0 to 5.5 kHz and a band of 5.5 kHz to 11 kHz by a band dividing filter 312 composed of a filter such as a so-called QMF.
  • Band division filter 3 The 11 k to 22 kHz band signal from 11 is sent to the MDCT circuit 3 13 which is an example of an orthogonal transformation circuit, and the 5.5 k to 1 kHz band from the band division filter 3 12 Is sent to the MDCT circuit 3 14, and the signal in the 0 to 5.5 kHz band from the band division filter 3 12 is sent to the MD CT circuit 3 15 to be subjected to MDCT processing.
  • the spectrum data or MDCT coefficient data on the frequency axis obtained by the MDCT processing in each of the MDCT circuits 313, 314, and 315 is called a critical band (critical band). ) Are sent to the adaptive bit allocation coding circuit 318.
  • the critical band is a frequency band divided in consideration of human auditory characteristics (frequency analysis capability), and the pure sound is masked by narrow band noise of the same strength near the frequency of a certain pure sound. It is the band that the noise has when it is performed.
  • this critical band the higher the frequency band, the wider the bandwidth, and the entire frequency band of 0 to 22 kHz is divided into, for example, 25 critical bands. That is, for example, in FIG. 4, the number of bands is represented by 12 bands (B, to B 12 ) for simplicity, but the bandwidth of the critical band increases as the frequency increases.
  • human hearing has characteristics like a kind of bandpass filter, and the band divided by each filter is called a critical band.
  • the bit allocation calculating circuit 320 assigns each compression coding unit such as a block or a frame based on a control signal supplied from a coding control circuit 15A, which is supplied via a terminal 430.
  • the number of bits is determined, and the number of bits allocated to each band is determined in consideration of a so-called masking effect based on the spectrum data divided in consideration of the critical band.
  • the adaptive bit allocation coding circuit 318 converts each spectrum data (or MDCT coefficient data) according to the number of bits allocated to each band. Requantization is performed.
  • the data encoded in this way is sent to the buffer memory 13A via the output terminal 319, and is output from the output terminal 14A via the buffer memory 13A.
  • FIG. 5 shows a schematic configuration of a specific example of the bit distribution calculation circuit 320.
  • spectrum data on the frequency axis from the above-mentioned MDCT circuits 313, 314, and 315 is supplied to an input terminal 3221.
  • the input data on the ⁇ frequency axis is sent to the energy calculation circuit 3 22 for each band, and the energy of each divided band in consideration of the critical band is, for example, the sum of the respective amplitude values in the band. It can be obtained by calculating Instead of the energy for each band, a peak value or an average value of the amplitude value may be used.
  • a bark spectrum which is a total value of each band is shown as SB in FIG.
  • the number of divided bands is represented by 12 bands (B i to B 12 ) to simplify the illustration.
  • the convolution filter circuit 323 can be composed of, for example, an FIR filter as shown in FIG. That is, the convolution filter As shown in Figure 7, the circuit 3 2 3 is a delay element (Z- 1 ) that sequentially delays the input data from the input terminal 100 1 0 1 1. 1 0 1 2 m -. 2 ⁇ 1 0 1 m + 3 ⁇ 1 0 1 23 1 0 1 24, filled evening coefficient (function weighting) to the output from these delay elements 1 0 1 i ⁇ 1 0 1 24 For example, 25 multipliers 1 0 2 1 0 2 2 1 0 2 m - 3 to 10 2 m + 3 1 0 224.1 0 2 25 It is composed of an adder 104.
  • each of the multipliers 10 2 m ⁇ 3 to 10 2 m + 3 of the convolution filter circuit 3 2 for example, when the coefficient of the multiplier M corresponding to an arbitrary band is 1, the filter coefficient 0.0000086 at 3, the multiplier 1 0 2 m - - vessel 1 0 2 m filter coefficients 0.0019 in 2, the filter coefficient 0.15 at multiplier 1 0 2m, the multiplier 1 0 2 »in Phil evening coefficient 1 Multiplier 10 2 m + 1 multiplies filter coefficient 0.4, multiplier 10 2 m + 2 multiplies filter coefficient 0.06, and multiplier 10 2 m + 3 multiplies filter coefficient 0.007 by delay element
  • the convolution of the bark spectrum SB is performed by multiplying the output of By this convolution processing, the sum of the parts shown by the dotted lines in FIG. 6 is obtained.
  • the voice masking referred to here is a phenomenon in which a certain signal masks another signal and becomes inaudible due to human auditory characteristics. There is a time-axis masking effect by the sound signal and a simultaneous masking effect by the signal on the frequency axis. Due to these masking effects, even if noise is applied to the masked part, this noise will not be heard. For this reason, in an actual sound signal, noise within this masked range is regarded as acceptable noise.
  • the output of the convolution filter circuit 3 23 is sent to the subtractor 3 24.
  • the subtracter 324 finds a leveler corresponding to an allowable noise level described later in the convolved region.
  • the level 7 corresponding to the permissible noise level becomes the permissible noise level of each critical band by performing inverse convolution processing as described later.
  • an allowance function (a function expressing a masking level) for obtaining the level 7 is supplied to the subtractor 3 2 4.
  • Level 7 control is performed by increasing or decreasing the allowable function.
  • the permissible function is supplied from an (n-ai) function generation circuit 325 described below.
  • the level 7 corresponding to the allowable noise level can be obtained by the following equation (1), where i is a number sequentially given from the low end of the critical band.
  • n and a are constants, a> 0, S is the strength of the convolved bark spectrum, and (n-ai) is an allowable function in equation (1). .
  • the level 7 is obtained, and this data is transmitted to the divider 326.
  • the divider 326 is used for inverse convolution of the level 7 in the convolved area. Therefore, by performing the inverse convolution processing, a masking spectrum can be obtained from the level 7. That is, this masking spectrum is the allowable noise spectrum. Becomes Note that the above inverse convolution process requires a complicated operation, but in this embodiment, the inverse convolution is performed using a simplified divider 326.
  • the masking spectrum is transmitted to the subtractor 328 via the synthesis circuit 327.
  • the output from the energy detection circuit 322 for each band that is, the spectrum SB described above, is supplied to the subtracter 328 via the delay circuit 329. Accordingly, by performing the subtraction operation between the masking spectrum and the spectrum SB in the subtracter 328, as shown in FIG. Masking below the level indicated by the level of the masking spectrum MS is performed.
  • the output from the subtracter 328 is sent to the ROM 331 in which, for example, information on the number of assigned bits is stored in advance through the allowable noise correction circuit 330.
  • the ROM 331 is used in accordance with the output (the level of the difference between the energy of each band and the output of the noise level setting means) obtained from the subtraction circuit 328 via the permissible noise correction circuit 330. Then, information on the number of bits assigned to each band is output.
  • This allocated bit number information is further sent to the bit number correction circuit 334.
  • the bit number correction circuit 334 outputs the bit output from the ROM 331 based on a control signal from an encoding control circuit 15A described later supplied via the terminal 430. Correct the number information.
  • the bit number information from the bit number correction circuit 334 is sent to the adaptive bit allocation coding circuit 318 via a terminal 335, whereby the adaptive bit allocation coding circuit 318 is transmitted.
  • each spectrum data on the frequency axis from MDCT circuit 3 13, 3 14, 3 15 It is quantized with the number of bits assigned to each band.
  • the delay circuit 329 is provided for delaying the spectrum SB from the energy detection circuit 322 in consideration of the amount of delay in each circuit before the synthesis circuit 327.
  • a so-called minimum audible curve RC which is a human auditory characteristic and is supplied from the minimum audible force generation circuit 3 32 as shown in FIG. 9, is shown.
  • the data and the masking spectrum MS can be synthesized.
  • This minimum audible curve if the absolute noise level is below this minimum audible curve, the noise will not be heard.
  • This minimum audible curve may differ with the same coding, for example, due to differences in playback volume during playback, but in a realistic digital system, for example, how to enter music into the 16-bit dynamic range. For example, if quantization noise in the most audible frequency band around 4 kHz is not audible, then in other frequency bands quantization noise below the level of this minimum audible curve Is not considered
  • the allowable noise can be obtained. If the level is obtained, the allowable noise level in this case can be set to the shaded portion in FIG. In this embodiment, the 4 kHz level of the minimum audible curve is adjusted to the lowest level corresponding to, for example, 20 bits.
  • FIG. 9 also shows the signal spectrum S S at the same time.
  • the correction information output circuit 33 For example, the allowable noise level in the output from the subtracter 328 is corrected based on the information of the equal loudness curve sent from the third unit.
  • the equal loudness curve is a characteristic curve relating to human auditory characteristics.
  • the loudness curve is obtained by calculating the sound pressure of sound at each frequency that sounds as loud as a pure tone of 1 kHz. It is also called the loudness iso-sensitivity curve. This equal loudness curve is almost the same as the minimum audible carp RC shown in Fig. 9.
  • the coding apparatus of the present embodiment when determining the number of bits to be allocated in the above-described compression coding of the video signal and the audio signal, the following is performed, and regarding the image and the sound, More optimal compression coding can be performed.
  • the encoding control circuit 15 V performs compression encoding so as to take into consideration not only the characteristics of the digital video signal but also the characteristics of the digital audio signal at that time.
  • Circuit 12 Determines the number of bits to be allocated for encoding processing at V.
  • the buffer memory 13 V It is also considered that the transmission rate of the digital video signal output from the terminal is set to a predetermined target value.
  • the output of the buffer memory 13 V is supplied to the terminal 4 10 of the encoding control circuit 15 V having the configuration shown in FIG.
  • the data amount output from the buffer memory 13 V is calculated by the data amount calculation circuit 4 12, and the transmission rate based on this is calculated.
  • the transmission rate it is determined whether or not the transmission rate has reached the target value (the transmission rate of the transmission path connected after terminal 14 V). If the target value is not attained, the correction value determination circuit 414 of the next stage compares the error amount with a digital video signal and a digital audio signal to be described later supplied via the terminal 415. Based on these characteristics (the relationship between the two), the optimum number of allocated bits in the compression coding circuit 12 V is determined.
  • the signal from the correction value determination circuit 4 14 is sent to the compression encoding circuit 12 V via the terminal 4 20 as the control signal.
  • the encoding control circuit 15A has the same configuration as that of FIG. 10, and the buffer memory 1 supplied to the terminal 4 11 of the encoding control circuit 15A
  • the amount of data from 3 A is calculated to determine the transmission rate, the amount of error between this transmission rate and the target value, and the characteristics of both the digital audio signal and the digital video signal supplied via terminals 416 Based on the characteristics taking into account (the relationship between the two), the optimal number of allocated bits in the encoding process in the compression encoding circuit 12A is determined.
  • the signal from the correction value determining circuit 4 14 of the encoding control circuit 15 A is supplied to a compression code as the control signal via a terminal 4 30. Sent to the encoding circuit 12 A.
  • the characteristics of the digital video signal and the digital audio signal are detected by obtaining the respective activities.
  • reference numeral 20 indicates a circuit for determining the activity of the video signal as the first characteristic detecting means
  • reference numeral 30 indicates the activating function of the audio signal as the second characteristic detecting means.
  • the circuit for finding the brightness is shown.
  • the video signal activity detection circuit 20 for determining the activity of the video signal detects a spatial and temporal change of the video signal. That is, the digital video signal supplied to the input terminal 11 V is supplied to the subtraction circuit 22, is delayed by one frame by the frame memory 21, and is then supplied to the arithmetic circuit 22. As a result, a change between two frames is obtained from the subtraction circuit 22, and the change over time is supplied to the nonlinear circuit 27.
  • the digital video signal supplied to the input terminal 11 V is supplied to the subtraction circuit 24 and, after being delayed by one line by the line memory 23, is supplied to the subtraction circuit 24. Then, a change between the two lines is obtained from the subtraction circuit 24, and the spatial change is supplied to the nonlinear circuit 27.
  • the digital video signal supplied to the input terminal 11 V is supplied to the subtraction circuit 26 and, after being delayed by one pixel by the sample memory 25, is supplied to the subtraction circuit 26. Then, a change between two pixels is obtained from the subtraction circuit 24, and the spatial change is supplied to the nonlinear circuit 27.
  • the non-linear circuit 27 has, for example, a ROM table that holds a non-linear coefficient determined in advance according to an empirical rule, and uses the non-linear coefficient to calculate a spatial change from the subtraction circuits 22, 24, and 26 and The temporal changes are combined with nonlinear weights. Then, the composite output is obtained from the activity detection circuit 20 as a detection output of the activity of the video signal.
  • the detection output of the activity of the video signal from the activity detection circuit 20 is supplied to a synthesizing circuit 44 as the synthesizing means, and a weighting circuit 41 outputs a predetermined weighting coefficient from a terminal 46 to the synthesizing circuit.
  • a synthesizing circuit 44 as the synthesizing means
  • a weighting circuit 41 outputs a predetermined weighting coefficient from a terminal 46 to the synthesizing circuit.
  • the audio signal activity detection circuit 30 for determining the activity of the audio signal as the second characteristic detecting means takes into account the human auditory characteristics, and also obtains the spatial and temporal change of the audio signal. Things. Note that the activity detection circuit 30 detects the activity of the audio signal using the fact that human hearing is sensitive to the amplitude in the frequency domain, but rather insensitive to the phase. .
  • the amplitude information generating circuit 31 includes a fast Fourier transform circuit 2 1 1 for performing a fast Fourier transform (FFT) on the digital audio signal fed to the terminal 2 41, A digital audio signal is obtained from the real component value Re and the imaginary component value Im of the FFT coefficients obtained as a result of the fast Fourier transform processing in the conversion circuit 2 1 1. And an amplitude / phase information generating circuit 2 12 which forms amplitude value information Am of the signal.
  • FFT fast Fourier transform
  • the amplitude value information Am output from the terminal 241 of the amplitude information generating circuit 31 is supplied to a bark spectrum forming circuit 32 as the energy detecting means.
  • the bark spectrum forming circuit 32 has a configuration as shown in FIG. 12, and first divides the amplitude value information Am into the critical band by a band dividing circuit 213.
  • the energy for each band (each spectrum intensity in each band) divided by the band division circuit 2 13 is calculated as It is obtained by calculating the sum of the amplitude values Am in the band (the peak or average of the amplitude values Am or the energy sum).
  • the output of the bark spectrum forming circuit 32 is supplied to a convolution circuit 33 via a terminal 24 3.
  • the output of the bark spectrum In order to consider the effect of masking (speech masking), a predetermined weighting function is convolved with the above-mentioned bark spectrum SB.
  • the convolution circuit 33 can be composed of, for example, an FIR filter similar to that shown in FIG.
  • the output of the convolution circuit 33 is obtained from the audio signal activity detection circuit 30 as a detection output of the activity of the audio signal.
  • the detection output of the activity of the audio signal from the detection circuit 30 is supplied to the synthesizing circuit 43 as the synthesizing means and multiplied by a predetermined weighting coefficient / 5 supplied from the terminal 45.
  • the output of the combining circuit 43 is supplied to the encoding control circuit 15 V, and the output of the combining circuit 44 is supplied to the encoding control circuit 15 A.
  • the compression encoding circuits 12 V and 12 A receive the control signals from the encoding control circuits 15 V and 15 A, and allocate bits when compression encoding the digital video signal and the digital audio signal. Number is controlled. That is, in the compression encoding circuits 12 V and 12 A, the characteristics of both the digital video signal and the digital audio signal, in this example, the activity of both signals are comprehensively determined, and the digital video signal is determined. Optimum compression encoding processing has not been performed for each of the signal and digital audio signal.
  • the compression encoding circuits 12 V and 12 A receive the control signals from the encoding control circuits 15 V and 15 A, and receive the control signals from the buffer memories 13 V and 13 A.
  • the number of allocated bits is controlled so that the transmission rates of video signal transmission and audio signal transmission are adjusted to target values.
  • compression encoding is performed based on the amount of data in the buffer memories 13 V and 13 A and the characteristics of both the digital video signal and the digital audio signal. By optimizing the number of allocated bits at the time, the amount of transmission information as shown in Fig. 13 can be optimized.
  • the transmission rate (transmission information amount) on the transmission path after the output terminals 14 V and 14 A in FIG. 1 is usually a constant transmission rate as shown by R in the figure in FIG. Figure 1 shows the breakdown of video signals.
  • the video signal transmission is performed within the constant transmission rate indicated by R in the above-described figure in consideration of the activity detection result and masking.
  • the ratio between the rate rV and the transmission rate ra of the audio signal is changed.
  • the human attention at this time is directed to the audio, so the amount of transmitted information for the video signal can be reduced as shown by C 3 in the figure.
  • the overall transmission rate can be kept constant as shown by R in Fig. 13 and a large amount of information is allocated to the video signal during a period when the video signal requires a large amount of information. Therefore, even if the amount of information for the audio signal is reduced, the deterioration of the audio signal can be made less noticeable, and a larger amount of information is allocated to the audio signal during a period when the amount of information is required in the audio signal. Thus, even if the amount of information on the video signal is reduced, deterioration of the video signal can be made inconspicuous.
  • FIG. 14 employs the MPEG (accumulation moving image coding) method as a typical moving image coding method. This was discussed at ISO-IEC / JTC 1 / SC 2 / WG 11 and proposed as a standard, combining motion-compensated predictive coding and DCT (Discrete Cosine Transform) coding. The hybrid system is used.
  • MPEG accumulation moving image coding
  • the image data to be coded supplied to the input terminal 11 V of FIG. 1 is input to the motion vector detection circuit 350 via the input terminal 349 in units of macro blocks.
  • the motion vector detection circuit 350 converts the image data of each frame into an I-picture (Intra-coded picture) and a P-picture (forward prediction coded image) according to a predetermined sequence set in advance. : Perdictive-coded picture) or B picture (Bidirectionally coded picture). It is determined in advance whether an image of each sequentially input frame is processed as one of I, P, and B pictures.
  • the image data of the frame processed as an I picture is transferred and stored from the motion vector detection circuit 350 to the front original image area in the frame memory 351 and the image data of the frame processed as a B picture is the original image.
  • the image data of the frame that is transferred and stored in the area (reference original image area) and processed as a P-picture is transferred to the rear original image area, Self-consideration.
  • the image data of the first ⁇ picture which has been stored in the rear original image area up to that time is input to the front original.
  • the image data is transferred to the image area, and the image data of the next ⁇ picture is stored (overwritten) in the original image area, and the image data of the next ⁇ picture is stored (overwritten) in the rear original image area.
  • the signal of each picture stored in the frame memory 351 is read therefrom, and the prediction mode switching circuit 352 performs frame prediction mode processing or field prediction mode processing. Further, under the control of the prediction determination circuit 354, the calculation unit 353 performs a calculation in the intra coding mode, the forward prediction mode, the backward prediction mode, or the bidirectional prediction mode. Which of these processes is to be performed is determined on a macroblock basis in accordance with the prediction error signal (the difference between the reference image to be processed and the predicted image corresponding thereto). For this reason, the motion vector detection circuit 350 calculates the sum of the absolute value of the prediction error signal used for this determination (or the sum of squares) and the evaluation value of the intra-coding mode corresponding to the prediction error signal. Is generated in units of macro blocks.
  • the prediction mode switching circuit 352 uses the four luminance blocks supplied from the motion vector detection circuit 350 as it is in the subsequent calculation. Output to part 3 5 3. In this frame prediction mode, four luminance blocks
  • Macroblock is predicted as a unit, and four luminance blocks are One motion vector corresponds to one motion vector.
  • the prediction mode switching circuit 352 converts the signal input from the motion vector detection circuit 350 into two of the four luminance blocks.
  • a luminance block is constituted only by dots of odd-numbered fields, and the other two luminance blocks are constituted by data of lines of even-numbered fields.
  • one motion vector corresponds to two luminance blocks composed of odd fields, and another one corresponds to two luminance blocks composed of other even fields.
  • a motion vector is supported.
  • the chrominance signal is supplied to the calculation unit 353 in a state where the data of the odd field lines and the data of the even field lines are mixed.
  • the upper half (4 lines) of each chrominance block is used as the color difference signal of the odd field corresponding to the luminance block of the odd field, and the lower half (4 lines) is used as the luminance block of the even field. Is the color difference signal of the even field corresponding to.
  • the motion vector detection circuit 350 outputs, in the prediction judgment circuit 354, an intra coding mode, a forward prediction mode, a backward prediction mode, or a bidirectional prediction Macro-block evaluation value of the intra-coding mode and the sum of the absolute value of each prediction error to determine which prediction mode to use and which frame prediction mode or field prediction mode to process. Generated in units.
  • the absolute sum ⁇ IA ij — (average of ⁇ )) I of the difference between the macroblock signal AU of the reference image and the average value is calculated.
  • a difference (A ij ⁇ ) between a macroblock signal A ij of a reference image and a signal B ij of a macroblock of a predicted image in each of the frame prediction mode and the field prediction mode is calculated.
  • the absolute value sum of the prediction error between the backward prediction and the bidirectional prediction is calculated in the same manner as in the forward prediction (by changing the predicted image to a different predicted image from that in the forward prediction) and the frame prediction mode and the field prediction. Ask for each of the modal cases.
  • the prediction judgment circuit 354 determines the smallest sum of the absolute values of the prediction errors of the forward prediction, the backward prediction, and the bidirectional prediction in the frame prediction mode and the field prediction mode, respectively, in the prediction of the inter prediction. Select as the absolute value sum of the error. Furthermore, the sum of the absolute value of the prediction error of the inter prediction and the evaluation value of the intra coding mode are compared, and the smaller one is selected, and the mode corresponding to the selected value is set to the prediction mode and frame Z. Select as field prediction mode. That is, if the evaluation value of the intra coding mode is smaller, the intra coding mode is set. If the sum of the absolute values of the prediction errors in inter prediction is smaller, the mode with the smallest absolute value sum among the forward prediction, backward prediction, and bidirectional prediction modes is used as the prediction mode and frame Z field prediction mode. Is set.
  • the prediction mode switching circuit 352 converts the macroblock signal of the reference image into the frame or field prediction mode.
  • the data corresponding to the mode selected by the prediction judgment circuit 354 is supplied to the calculation unit 353.
  • the motion vector detection circuit 350 outputs a motion vector between a predicted image corresponding to the prediction mode selected by the prediction determination circuit 354 and the reference image, and a variable-length code described later.
  • a motion compensating circuit 364. The motion vector that minimizes the sum of the absolute values of the corresponding prediction errors is selected.
  • the prediction determination circuit 354 sets the prediction mode to intra coding mode (no motion compensation is performed). Mode) is set, and the image data of the I picture is input to the DCT mode switching circuit 355 from the calculation unit 355.
  • the DCT mode switching circuit 355 stores the data of the four luminance blocks in a state where the odd field lines and the even field lines are mixed (frame DCT mode) or separated (field DCT mode). Mode), and output to the DCT circuit 356.
  • the DCT mode switching circuit 355 compares the coding efficiency when DCT processing is performed by mixing data of odd and even fields with the coding efficiency when DCT processing is performed in a separated state. Then, select a mode with good coding efficiency.
  • the input signal has a configuration in which the odd field and even field lines are mixed, and the difference between the signal of the odd field line and the signal of the even field line that are vertically adjacent to each other is calculated.
  • the input signal is The odd field and the even field lines are separated, and the signal difference between the adjacent odd field lines above and below and the signal difference between the even field lines are calculated, and their absolute values are calculated.
  • the data having the configuration corresponding to the selected DCT mode is output to the DCT circuit 356, and the DCT flag indicating the selected DCT mode is output to the variable length encoding circuit 358.
  • the luminance block is different in each of the two modes.
  • the data structure is substantially the same.
  • the frame prediction mode (mode in which odd lines and even lines are mixed) is selected in the prediction mode switching circuit 355
  • the frame DCT mode (odd lines and even numbers) is also used in the DCT mode switching circuit 355. It is highly probable that the mode where lines are mixed) is likely to be selected, and the field prediction mode (mode in which the odd and even fields are separated) is selected in the prediction mode switching circuit 352 In this case, it is highly possible that the DCT mode switching circuit 355 selects the field DCT mode (mode in which the data of the odd field and the data of the even field are separated).
  • the prediction mode switching circuit 352 the sum of absolute values of the prediction errors is The mode is determined so as to be smaller, and in the DCT mode switching circuit 355, the mode is determined such that the coding efficiency is improved.
  • the I-picture image data output from the DCT mode switching circuit 365 is input to the DCT circuit 356, subjected to DCT processing, and converted into DCT coefficients.
  • the DCT coefficient is input to the quantization circuit 357, where the transmission buffer corresponding to the buffer memory 13V is transmitted.
  • a quantization step is performed in a quantization step based on the control signal in consideration of the activity obtained by the coding control circuit 15 V, which receives the signal from the terminal 4 through a terminal 380. After that, it is input to the variable length coding circuit 358.
  • variable-length encoding circuit 358 corresponds to the quantization step (scale) supplied from the quantization circuit 357, and the image data supplied from the quantization circuit 357 (in this case, I).
  • the picture is converted into a variable-length code such as a Huffman code and output to the transmission buffer 359.
  • the variable length coding circuit 358 also has a quantization step (scale) from the quantization circuit 357 and a prediction mode (intra coding mode, forward prediction mode, backward prediction mode, Or a mode that indicates which of the bidirectional prediction modes has been set), the motion vector from the motion vector detection circuit 350, and the prediction flag (frame prediction mode or field) from the prediction judgment circuit 354. A flag indicating which of the prediction modes has been set), and the DCT mode switching circuit 3
  • 5 DCT flag output by 5 (frame DCT mode or field (Which indicates which of the DCT modes has been set) is also input, and these are also variable-length coded.
  • the transmission buffer 359 temporarily stores the input data, and outputs data corresponding to the storage amount to the quantization circuit 357 via the encoding control circuit 15V.
  • the data stored in the transmission buffer 359 is read at a predetermined timing and output to the transmission path via the output terminal 369.
  • the I-picture data output from the quantization circuit 357 is input to the inverse quantization circuit 360, and is inversely quantized according to the quantization step supplied from the quantization circuit 357.
  • the output of the inverse quantization circuit 360 is input to the IDCT (inverse DCT) circuit 361, subjected to inverse DCT processing, and then forward-processed to the frame memory 365 via the arithmetic unit 362. Provided to the area and stored.
  • the motion vector detection circuit 350 processes the sequentially input image data of each frame as, for example, I, B, P, B, P, B,.
  • the image data of the next input frame is further processed as a P picture.
  • a B picture may involve backward prediction and bidirectional prediction, and cannot be decoded unless a P picture as a backward prediction image is prepared first.
  • the motion vector detection circuit 350 starts processing the image data of the P picture stored in the rear original image area of the frame memory 365 after the processing of the I picture. And 'the case described above Similarly to the above, the sum of the absolute value of the intra-coding mode evaluation value and the inter-frame difference (prediction error) in macroblock units is supplied from the motion vector detection circuit 350 to the prediction determination circuit 354. .
  • the prediction determination circuit 354 may perform any of the frame prediction mode, the field prediction mode, and the intra-coding mode in accordance with the evaluation value of the intra-coding mode of the macroblock of the P picture and the absolute value sum of the prediction error. Set the prediction mode in the forward prediction mode in macroblock units.o
  • the arithmetic unit 355 sends this data to the DCT mode switching circuit 355 in the same manner as the I-picture data, and thereafter, the DCT circuit 356,
  • the signal is transmitted to the transmission line via the quantization circuit 357, the variable-length coding circuit 358, and the transmission buffer 359.
  • This data is supplied to the backward prediction image area of the frame memory 365 through the inverse quantization circuit 360, the IDCT circuit 361, and the computing unit 362, and is stored.
  • the motion compensation circuit 364 In the forward prediction mode, the image stored in the forward prediction image area of the frame memory 363 (in this case, the image of the I picture) is read out, and the motion compensation circuit 364 outputs the image.
  • the motion is compensated in accordance with the motion vector output by the motion vector detection circuit 350.
  • the motion compensation circuit 364 reads the read address of the forward prediction image area of the frame memory 363 and sets the The vector detection circuit 350 reads out the data from the position corresponding to the macroblock position that is currently being output by shifting by the amount corresponding to the motion vector, and generates predicted image data.
  • the predicted image data output from the motion compensation circuit 364 is supplied to a computing unit 353.
  • the arithmetic unit 355 subtracts the prediction image data corresponding to the macroblock supplied from the motion compensation circuit 364 from the macroblock data of the reference image supplied from the prediction mode switching circuit 352. And outputs the difference (prediction error). This difference is transmitted to the transmission line via the DCT mode switching circuit 355, the DCT circuit 356, the quantization circuit 357, the variable length coding circuit 358, and the transmission buffer 359. You.
  • the difference data is locally decoded by the inverse quantization circuit 360 and the IDCT circuit 361, and is input to the arithmetic unit 362.
  • the same data as the predicted image data supplied to the computing unit 353 is supplied to the computing unit 362.
  • the arithmetic unit 362 adds the prediction image data output from the motion compensation circuit 364 to the difference data output from the IDCT circuit 361.
  • image data of the original (decoded) P picture is obtained.
  • the image data of the P picture is supplied to the backward prediction image area of the frame memory 363 and stored.
  • the frame field prediction mode is used. de frame / / field DCT mode, it is necessary circuit to perform reordering of Isseki de in case different, it is omitted for simplicity.
  • the prediction decision circuit 3 5 4 The frame field prediction mode is set according to the evaluation value of the coding mode and the magnitude of the sum of absolute values of the differences between frames, and the prediction mode is set to the intra coding mode, the forward prediction mode, or the backward prediction. Mode or bidirectional prediction mode.
  • the same processing as in the case of the P picture is performed, and data is transmitted.
  • the image data (in this case, the P picture) stored in the backward prediction image area of the frame memory 363 is read out, and the motion compensation circuit 364
  • motion compensation is performed corresponding to the motion vector output by the motion vector detection circuit 350.
  • the motion compensation circuit 365 4 reads the read address of the backward predicted image area of the frame memory 365 3 from the motion vector detection circuit. Data is read out from the position corresponding to the position of the macroblock that is currently being output, corresponding to the motion vector, and predicted image data is generated.
  • the predicted image data output from the motion compensation circuit 364 is supplied to a computing unit 353.
  • the arithmetic unit 355 subtracts the predicted image data supplied from the motion compensation circuit 364 from the macroblock data of the reference image supplied from the prediction mode switching circuit 352, and outputs the difference. .
  • This difference data is transmitted to the transmission path via the DCT mode switching circuit 355, the DCT circuit 356, the quantization circuit 357, the variable length coding circuit 358, and the transmission buffer 359. You.
  • the forward prediction image area of the frame memory Image (in this case, an I-picture image) and the image stored in the backward prediction image area (in this case, a P-picture image) are read out.
  • the motion compensation circuit 364 compensates for motion in accordance with the motion vector output by the motion vector detection circuit 350. That is, when the setting of the bidirectional prediction mode is instructed by the prediction determination circuit 354, the motion compensation circuit 364 moves the read addresses of the forward predicted image area and the backward predicted image area of the frame memory 363 to a motion.
  • the motion vector from the position corresponding to the macroblock position currently output by the vector detection circuit 350 (the motion vector in this case is the frame for the forward prediction image and the (For prediction image, two for field prediction mode, two for forward prediction image, two for backward prediction image) I do.
  • the predicted image data output from the motion compensation circuit 364 is supplied to a computing unit 353.
  • the arithmetic unit 355 subtracts the average value of the predicted image data supplied from the motion compensation circuit 364 from the macroblock data of the reference image supplied from the motion vector detection circuit 350, and calculates Output the difference.
  • This difference data is transmitted to the transmission path via the DCT mode switching circuit 355, the DCT circuit 356, the quantization circuit 357, the variable length coding circuit 358, and the transmission buffer 359.
  • the picture of the B picture is not stored in the frame memory 363 because it is not regarded as a predicted picture of another picture.
  • the forward prediction image area and the backward prediction image area are switched between banks as necessary, and the one stored in one or the other for a predetermined reference image is Previous It can be switched and output as a forward prediction image or a backward prediction image.
  • the luminance block has been mainly described.
  • the color difference block is processed and transmitted in units of the macro block.
  • the motion vector used when processing the chrominance block is the motion vector of the corresponding luminance block in the vertical and horizontal directions, each of 1Z2.
  • the stimulus amount of the video signal and the audio signal is detected as the activity of these signals.However, since these stimuli change depending on the content of the image or sound, the content is not changed. Accordingly, it may be determined when the characteristics of the signal increase or decrease the allocation information amount. For example, when an annoying sound such as a song of a bird in silence appears, human attention is directed to the song of the bird and the amount of stimulation is considered to be large, so the amount of image information at that time is Not noticeable even if reduced. Note that this allocation information amount is also set in advance based on an empirical rule.
  • the activity detection circuit 20 for the video signal and the activity detection circuit 30 for the audio signal in FIG. 1 can be configured as shown in FIG. 15, for example.
  • the configuration of FIG. 15 will be described by taking a video signal as an example. Since the basic operation is the same in the case of an audio signal, the description is omitted.
  • a terminal 500 is supplied with a video signal from an input terminal 11 V, and this video signal is supplied to a large change detection circuit 501.
  • the large change detecting circuit 501 obtains the difference value and sends only the difference value equal to or greater than the first predetermined value to the arithmetic circuit 502 for calculating the sum of the outputs. Calculation
  • the sum of the difference values obtained by the circuit 502 is sent to a comparison circuit 503, where it is compared with a predetermined threshold value.
  • the signal indicating the comparison result from the comparison circuit 503 is sent to the judgment circuit 504.
  • the video signal supplied to the terminal 500 is also sent to the small change detection circuit 506.
  • the minute change detection circuit 506 finds a small difference smaller than the second predetermined value smaller than the first predetermined value of the supplied video signal, and the next arithmetic circuit 507 sums up the small differences. Ask for.
  • the latter comparison circuit 508 compares the sum of the minute differences with a predetermined threshold value, and sends a signal indicating the comparison result to the determination circuit 504.
  • the determination circuit 504 determines whether or not the activity exists based on the signals from the two comparison circuits 503 and 508, and outputs a signal indicating the presence or absence of the activity. Output from terminal 505.
  • the threshold comparison circuit 503 determines that the input signal of the threshold comparison circuit is equal to or less than the threshold
  • the threshold comparison circuit 508 determines that the threshold comparison circuit 508
  • the determination circuit 504 determines that the activity is large.
  • the above condition indicates, for example, a case where there is a bird's singing in the above-mentioned stillness.
  • the derivative can be found.
  • large change detection circuit 501 and small change detection The circuit 506 finds the differentiation, and the arithmetic circuits 503 and 507 perform the integral operation.
  • the number of allocated bits is made variable and the amount of allocated information is made variable.However, the compression encoding method is changed and The allocation information amount may be made variable so that the allocated number of bits becomes the same.
  • each signal is independently compression-encoded based on the characteristics of its own signal. Instead, compression encoding is performed in consideration of the characteristics of both the video signal and the audio signal at that time, so that the video signal and the audio signal related to Thus, compression encoding can be performed more efficiently with little deterioration.
  • the audio signal may have a small amount of information.
  • the image information is at least inconspicuous even if the amount of information is small, and good image and sound information can be transmitted with a small amount of information. become able to.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Discrete Mathematics (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

明 細 書 符号化装置及び方法 技 術 分 野 本発明は、 映像信号と音声信号とを高能率で圧縮符号化する符号 化装置及び方法に関する。 背 景 技 術 映像信号や音声信号を高能率に圧縮符号化して伝送する方式が、 従来から種々提案されている。 これらの従来の圧縮符号化方式では、 映像信号及び音声信号のそれぞれの信号について、 それぞれのマス キング効果に基づいて信号劣化が目立たないように圧縮符号化を行 つている。
ところで、 上記圧縮符号化方式は、 人間の聴覚、 視覚のそれぞれ の感度特性 (マスキング特性) に合わせたものであるが、 いずれも 再生画像のみ或いは再生音のみを評価対象として、 独立に圧縮処理 を行っている。
例えば、 音を遮断して画像だけを評価するときは、 画像のジャー キネスゃブ口ック歪み等の目立つ劣化を如何に少なくするかが重要 であるので、 その点をポイントとして圧縮符号化処理を行う。
しかしながら、 映像やビデオソフト等のエンターティメントでは、 画像と音とが同時に再生されて、 総合的に人間に刺激を与えている。 このため、 例えば画像に関連する音が同時に存在する場合には、 上 記画像のジャーキネスのような画像のシビアな劣化は、 殆どマスク されて感じられないことが多い。 特に、 人間の興味 (注意) が主と して音に向けられる部分 (音の刺激量 (ァクティ ビティ) が多い部 分) では、 画像に対する注意が散漫になり、 上記のような画像のシ ビアな劣化は感じられないことが多い。
上記のことは、 音についても同様のことが言え、 例えば画像が動 いている場合など、 画像からの刺激量が多い場合には、 音がマスク されてその劣化は感じられないことが多い。
以上のように、 人間の視聴覚の感度は (マスキング特性は) 、 画 像や音がそれぞれ独立に存在する場合と、 映画などのように画像と 音とが相互に関連して存在しているときとでは、 特性が全く異なる。 したがって、 映画等のように、 画像と音とが関連して存在している 場合に、 従来のように画像と音とをそれぞれ独立に圧縮処理をした のでは、 最適の圧縮符号化が行われていない可能性があった。
そこで、 本発明は上述したような実情に鑑みてなされたものであ つて、 画像及び音に関して、 より最適な圧縮符号化を行えるように した符号化装置及び方法を提供することを目的とするものである。 発 明 の 開 示 本発明の符号化装置は、 ディジタル映像信号と、 これに関連する ディジタル音声信号とをそれぞれ圧縮符号化して伝送するようにし た符号化装置であり、 上記ディジタル映像信号の特性を検出する第
1の特性検出手段と、 上記ディジタル音声信号の特性を検出する第 2の特性検出手段と、 上記第 1及び第 2の特性検出手段の出力を合 成する合成手段と、 上記合成手段の出力に基づいて上記ディジタル 映像信号及びディジタル音声信号の圧縮符号化の割り当て情報量を 制御する制御手段とを有することを特徴とするものである。
ここで、 上記第 1及び第 2の特性検出手段は、 それぞれ映像信号 及び音声信号のァクティ ビティを検出するものである。 上記ァクテ ィ ビティは、 信号の空間及びノ又は時間変化分を検出することによ り検出する。 さらに、 合成手段は、 上記第 1 , 第 2の特性検出手段 の各出力にそれぞれ所定の係数を乗算した後に合成を行う。
また、 本発明の符号化装置には、 圧縮符号化された信号を一時保 持した後に出力信号として出力するバッファメモリを設け、 上記制 御手段は、 上記バッファメモリに蓄えられた情報量と上記合成手段 の合成出力とに応じて上記ディジタル映像信号及びディジタル音声 信号の圧縮符号化の割り当て情報量を制御する。
さらに、 上記第 1の特性検出手段は、 ディジタル映像信号をフレ ーム遅延するフレームメモリと、 ディジ夕ル映像信号をライン遅延 するラインメモリと、 ディジタル映像信号をサンプル遅延するサン プルメモリと、 上記フレームメモリからのフレーム遅延されたディ ジ夕ル映像信号と入力ディジタル映像信号との差分を求める第 1の 差分演算手段と、 上記ラインメモリからのライン遅延されたディジ タル映像信号と入力ディジタル映像信号との差分を求める第 2の差 分演算手段と、 上記サンプルメモリからのサンプル遅延されたディ ジタル映像信号と入力ディジタル映像信号との差分を求める第 3の 差分演算手段とを有してなる。 このときの第 1の特性検出手段は、 上記第 1 , 第 2, 第 3の差分演算手段の出力を非線形的に合成する 非線形合成手段を備えている。
また、 上記第 2の特性検出手段は、 入力ディジタル音声信号の振 幅情報を発生する振幅情報発生手段と、 上記振幅情報発生手段から の振幅値に基づいてエネルギを検出するエネルギ検出手段と、 上記 エネルギ検出手段の出力に対して畳み込み演算を施す畳み込み演算 手段とからなる。
或いは、 上記第 1の特性検出手段と第 2の特性検出手段は、 信号 の大変化量を検出する大変化量検出手段と、 上記大変化量検出手段 の出力を所定のしきい値と比較する第 1の比較手段と、 信号の微小 変化を検出する微小変化量検出手段と、 上記微小変化量検出手段の 出力を所定のしきい値と比較する第 2の比較手段と、 上記第 1 , 第 2の比較手段からァクティ ビティか否かを判定する判定手段とをそ れぞれ有するものとすることもできる。
次に、 本発明の符号化方法は、 ディジタル映像信号と、 これに関 連するデイジ夕ル音声信号とをそれぞれ圧縮符号化して伝送するよ うにした符号化方法であり、 上記ディジタル映像信号の特性を検出 し、 上記ディジタル音声信号の特性を検出し、 上記ディジタル映像 信号の特性検出出力とディジタル音声信号の特性検出出力とを合成 し、 当該合成出力に基づいて上記ディジタル映像信号及びディジ夕 ル音声信号の圧縮符号化の割り当て情報量を制御することを特徴と するものである。
ここで、 上記ディジタル映像信号及びディジタル音声信号の特性 検出では、 それぞれ映像信号及び音声信号のァクティ ビティを検出 する。 このときも上記アクティ ビティは、 信号の空間及び Z又は時 間変化分を検出することにより検出する。 したがって、 本発明の符号化装置及び方法によれば、 ディジタル 映像信号の圧縮符号化の割り当て情報量は、 第 2の特性検出手段で 検出された音声信号の特性が加味されたものとなり、 また、 デイジ タル音声信号の圧縮符号化の割り当て情報量は、 第 1の特性検出手 段で検出された映像信号の特性が加味されたものとなる。
このため、 映像信号と音声信号の両者の関係から最適な情報量配 分が決められて、 圧縮符号化が行われる。 図 面 の 簡 単 な 説 明 図 1は本発明実施例の符号化装置の概略構成を示すプロック回路 図である。
図 2は映像信号の圧縮符号化回路の一具体例の構成を示すプロッ ク回路図である。
図 3は音声信号の圧縮符号化回路の一具体例の構成を示すプロッ ク回路図である。
図 4はクリティカルバンドについて説明するための図である。 図 5は音声信号圧縮符号化回路のビッ ト配分算出回路の一具体例 の構成を示すプロック回路図である。
図 6はバークスぺク トラムについて説明するための図である。 図 7は F I Rフィル夕の構成を示すプロック回路図である。
図 8はバークスぺク トラムとマスキングスぺク トラムについて説 明するための図である。
図 9は最小可聴カーブ、 マスキングスぺク トラムを合成した図で めな o 図 1 0は符号化制御回路の一具体例の構成を示すプロック回路図 でめる。
図 1 1は振幅情報発生回路の一具体例の構成を示すプロック回路 図である。
図 1 2はバークスぺク トラム形成回路の一具体例の構成を示すブ 口ック回路図である。
図 1 3は伝送路の伝送レートとアクティ ビティ及びマスキングを 考慮した映像信号の伝送レートと音声信号の伝送レートについて説 明するための図である。
図 1 4は映像信号の圧縮符号化回路の他の具体例について説明す るためのプロック回路図である。
図 1 5はァクティ ビティ検出回路の他の具体例の構成を示すプロ ック回路図である。 発明を実施するための最良の形態 以下、 本発明の好ましい実施例について図面を参照しながら説明 する。
図 1において、 指示符号の 1 0 Vはディジタル映像信号の圧縮符 号化処理系を示し、 指示符号の 1 0 Aはディジタル音声信号の圧縮 符号化処理系を示している。
ディジタル映像信号の圧縮符号化処理系 1 0 Vにおいては、 入力 端子 1 1 Vを通じたディジタル映像信号が、 圧縮符号化回路 1 2 V に供給されて、 映像信号に適した圧縮符号化が行われる。 この映像 信号に適した圧縮符号化には、 例えば D C T (ディスクリート · コ サイン ' トランスフォーム) を用いた手法、 いわゆる A D R C (ァ ダブティブ ' ダイナミ ックレンジ, コーディ ング) を用いた手法な どを使用することができる。
なお、 上記 A D R Cとは、 日本国特許出願公開の特開昭 6 1一 1 4 4 9 8 9号公報及び特開昭 6 2 - 2 6 6 9 8 9号公報に記載され ているように、 1フィールド内の 2次元プロックに含まれる複数の 画素に関して、 ダイナミ ックレンジ (ブロック内の最大レベルと最 小レベルの差) と最小レベルとを求め、 圧縮された量子化ビッ ト数 によりダイナミ ックレンジを均等に分割し、 プロック内の各画素を 最も近いレベルのコードに符号化するものである。 すなわち、 例え ばテレビジョン信号のような映像信号は、 水平方向及び垂直方向に 相関を有しているので、 定常部では同一のプロックに含まれる画素 データのレベルの変化幅は小さい。 したがって、 ブロック内の画素 データが共有する最小レベルを除去した後のデータのダイナミ ック レンジを元の量子化ビッ ト数より少ない量子化ビッ ト数により量子 化しても、 量子化歪みは殆ど生じない。 このようにして量子化ビッ ト数を少なくすることにより、 データの伝送帯域幅を元のものより 狭くすることができる。
本実施例では、 上記映像信号の圧縮符号化回路 1 2 Vは、 図 2に 示すような上記 A D R Cを用いて圧縮符号化を行う構成となされて いる。
すなわちこの図 2に示す圧縮符号化回路 1 2 Vは、 ディジタル映 像信号をプロック化し、 このプロック内に含まれる複数の画素デー 夕の最大値 M A X及び最小値 M I Nにより規定されるダイナミ ック レンジ D Rを求め、 このプロック単位で求めた上記ダイナミ ックレ ンジ D Rに適応した割り当てビッ ト数で当該プロック内の各画素デ —夕を符号化 (再量子化) するようにしている。
この図 2において、 入力端子 4 0 1には、 例えば 1サンプルが 8 ビッ トに量子化されたディジタル映像信号 (例えばディジタルテレ ビジョン信号) が入力される。 このディジタル映像信号がブロック 化回路 4 0 2に供給される。
上記プロック化回路 4 0 2では、 上記入力ディジタル映像信号を 符号化の単位である 2次元プロック毎に連続する信号に変換する。 本実施例では、 1プロックが 8ライン 8画素 = 6 4画素の大きさ とされている。 ブロック化回路 4 0 2の出力信号はダイナミ ックレ ンジ検出回路 4 0 3及び減算回路として動作する加算回路 4 0 4に 供給される。 上記ダイナミ ックレンジ検出回路 4 0 3は、 ブロック 毎にダイナミ ックレンジ D R及び最小値 M I N及び最大値 MA Xを 検出すると共に、 上記ダイナミックレンジ D Rと最小値 M I N (或 いは最大値 M A X ) の値を出力する。
上記最小値 M I Nは上記加算回路 4 0 4に減算信号として送られ る。 また、 この加算回路 4 0 4には、 上記ブロック化回路 4 0 2か らの画素データ P Dが加算信号として供給され、 したがって当該加 算回路 4 0 4では、 上記最小値 M I Nが除去された画素データ P D Iが形成される。
また、 上記ダイナミックレンジ検出回路 4 0 3で検出されたダイ ナミ ックレンジ D Rはビッ ト長決定回路 4 0 6に送られる。 当該ビ ッ ト長決定回路 4 0 6は、 端子 4 2 0を介して供給される後述する 符号化制御回路 1 5 Vからの制御信号と、 上記ダイナミ ックレンジ D Rとに基づいて、 上記ブロックなどの圧縮符号化単位ごとの割り 当てビッ ト数 (量子化の際の割り当てビッ ト数) を決定する。
上記ビッ ト長決定回路 4 0 6によって決定された割り当てビッ ト 数が量子化回路 4 0 5に供給される。 この量子化回路 4 0 5には、 上記加算回路 4 0 4からの最小値除去後の画素データ P D Iが供給 される。 量子化回路 4 0 5では、 上述の割り当てビッ ト数でもって 画素データ P D Iの量子化が行われる。
ここで、 上記ビッ ト長決定回路 4 0 6では、 割り当てビッ ト数を 決定する時に、 ダイナミ ックレンジに対して最大歪みを一定にする ような線形な割り当てビッ ト数とせずに、 人間の視覚特性にマッチ ングした非線形な特性で最大歪みが変えられるような割り当てビッ ト数を決定することもできる。 すなわち、 一般に、 ブロック内で例 えば急峻な輝度レベルの変化がある場合 (ダイナミ ックレンジが大 きい時) には、 輝度レベルの小さな変化が目につき難い。 したがつ て、 例えば、 ダイナミ ックレンジの大きいプロックでは、 割り当て ビッ ト数を少なくする。 このように、 ビッ ト長決定回路 4 0 6にお いて、 ダイナミ ックレンジに適応した可変な割り当てビッ ト数を決 定することで、 ダイナミ ックレンジが大きい時には最大歪みが大き くても、 ブロック歪みが生じず、 したがって、 圧縮率を高めること が可能となる。
この量子化回路 4 0 5からの符号化コード D Tはフレーム化回路 4 0 7に送られる。 フレーム化回路 4 0 7には、 ブロック毎の付加 コードとして、 ダイナミックレンジ D R (例えば 8 ビッ ト) 及ぴ最 小値 M I N (例えば 8 ビッ ト) も供給される。 また、 当該フレーム 化回路 4 0 7は、 符号化コード D T及び上述の付加コードに誤り訂 正符号化の処理を施すと共に、 同期信号を付加する。 このフレーム化回路 4 0 7の出力が圧縮符号化されたディジタル 映像信号として端子 4 0 8を介して、 バッファメモリ 1 3 Vに送ら れ、 当該バッファメモリ 1 3 Vを介して出力端子 1 4 Vから出力さ れる。
一方、 ディジタル音声信号の圧縮符号化処理系 1 O Aにおいては、 入力端子 1 1 Aを通じたディジタル音声信号が、 圧縮符号化回路 1 2 Aに供給され、 ここで後述するように音声信号を人間の聴覚特性 を考慮した圧縮符号化処理が行われる。
なお、 この人間の聴覚特性を考慮した圧縮符号化処理とは、 米国 特許番号第 5 1 5 1 9 4 1号に記載されるように、 オーディオ信号 の入力ディジ夕ル信号を複数の周波数帯域に分割すると共に、 高い 周波数帯域ほど帯域幅を広く選定し、 各帯域毎のエネルギに基づい て各帯域単位の許容ノイズレベルを設定し、 各帯域のエネルギと設 定された許容ノイズレベルの差のレベルに応じたビッ ト数で各帯域 の成分を再量子化するものである。
本実施例では、 上記音声信号の圧縮符号化回路 1 2 Aとして、 図 3に示すような構成を有している。
この図 3において、 入力端子 3 1 0には、 例えばサンプリング周 波数が 4 4. 1 kHzの時、 0〜2 2 kHzのオーディオ P CM信 号が供給されている。 この入力信号は、 例えばいわゆる QMF(Qua drature Mirror filter)等のフィル夕からなる帯域分割フィル夕 3 1 1により 0〜 1 1 kHz帯域と 1 l k〜2 2 kH z帯域とに分割 され、 0〜 1 1 kHz帯域の信号は同じくいわゆる QMF等のフィ ル夕からなる帯域分割フィルタ 3 1 2により 0〜 5. 5 kH z帯域 と 5. 5 k〜 1 1 kH z帯域とに分割される。 帯域分割フィルタ 3 1 1からの 1 1 k〜22 kH z帯域の信号は直交変換回路の一例で ある MD CT回路 3 1 3に送られ、 帯域分割フィル夕 3 1 2からの 5. 5 k〜l 1 kHz帯域の信号は MDCT回路 3 1 4に送られ、 帯域分割フィルタ 3 1 2からの 0〜5. 5 kHz帯域の信号は MD CT回路 3 1 5に送られることにより、 それぞれ MDCT処理され る
ここで上述した入力ディジタル信号を複数の周波数帯域に分割す る手法としては、 例えば上記 QMF等のフィルタによる分割手法が ある。 この分割手法は文献 「ディジタル . コーディ ング .ォブ 'ス ピーチ ·イン ·サブノ'ンズ j ("Digital coding of speech in subb ands" R.E.Crochiere, Bell Syst.Tech. J., Vol.55, No.8 1976) に述べられている。
また文献 「ポリフェイズ ' クア ドラチユア · フィルタ一ズ 一新 しい帯域分割符号化技術 j ("Polyphase Quadrature filters -A ne w subband coding technique", Joseph H. Rothweiler ICASSP 83, BOSTON)には、 等帯域幅のフィルタ分割手法が述べられている。 さらに、 上述した直交変換としては、 例えば入力オーディオ信号 を所定単位時間でプロック化し、 前記プロック毎に高速フーリェ変 換 (FFT) 、 離散コサイン変換 (DCT) 、 変更離散コサイン変 換 (MDCT) 等を行うことで時間軸を周波数軸に変換するような 直交変換がある。 上記 MDCTについては、 文献 「時間領域エリア シング ·キャンセルを基礎とするフィル夕 ·バンク設計を用いたサ ブバンド/変換符号化」 ("Subband/Transform Coding Using Filte r Bank Designs Based on Time Domain Aliasing Cancellation, " J. P. Princen A. B. Bradley. Univ. of Surrey Royal Melbourne Ins t. of Tech. ICASSP 1987)に述べられている。
上記各 MD CT回路 3 1 3、 3 1 4、 3 1 5にて MD CT処理さ れて得られた周波数軸上のスぺク トラムデ一夕あるいは MDCT係 数データは、 いわゆる臨界帯域 (クリティカルバンド) 毎にまとめ られて、 適応ビッ ト割当符号化回路 3 1 8に送られている。
なお、 このクリティカルバンドとは、 人間の聴覚特性 (周波数分 析能力) を考慮して分割された周波数帯域であり、 ある純音の周波 数近傍の同じ強さの狭帯域バンドノイズによって当該純音がマスク されるときのそのノイズの持つ帯域のことである。 このクリティカ ルバンドは、 高域ほど帯域幅が広くなつており、 上記 0〜2 2 kH zの全周波数帯域は例えば 2 5のクリティカルバンドに分割されて いる。 すなわち、 例えば図 4には図示を簡略化してバンド数を 1 2 バンド (B , 〜B12) で表現しているが、 当該クリティカルバンド は、 高域ほど帯域幅が広くなるものである。 また、 人間の聴覚は、 一種のバンドパスフィル夕のような特性を有していて、 各フィル夕 によって分けられたバンドを臨界帯域と呼んでいる。
ビッ ト配分算出回路 3 2 0は、 端子 4 3 0を介して供給される後 述する符号化制御回路 1 5 Aからの制御信号に基づいて、 ブロック やフレームなどの圧縮符号化単位ごとの割り当てビッ ト数が決定さ れ、 さらに上記クリティカルバンドを考慮して分割されたスぺク ト ラムデータに基づいたいわゆるマスキング効果を考慮して各帯域毎 に割り当てビッ ト数を求める。
この情報を適応ビッ ト割当符号化回路 3 1 8に送る。 当該適応ビ ッ ト割当符号化回路 3 1 8では、 各帯域毎に割り当てられたビッ ト 数に応じて各スぺク トラムデータ (或いは MDCT係数デ一夕) を 再量子化するようにしている。 このようにして符号化されたデータ は、 出力端子 3 1 9を介してバッファメモリ 1 3 Aに送られ、 当該 バッファメモリ 1 3 Aを介して出力端子 1 4 Aから出力される。
ここで、 図 5には上記ビッ ト配分算出回路 3 2 0の一具体例の概 略構成を示す。
この図 5において、 入力端子 3 2 1には、 上記各 M D C T回路 3 1 3、 3 1 4、 3 1 5からの周波数軸上のスぺク トラムデータが供 給されている。
次にこ φ周波数軸上の入力データは、 帯域毎のエネルギ算出回路 3 2 2に送られて、 上記クリティカルバンドを考慮した各分割帯域 のエネルギが、 例えば当該バンド内での各振幅値の総和を計算する こと等により求められる。 この各バンド毎のエネルギの代わりに、 振幅値のピーク値、 平均値等が用いられることもある。 このエネル ギ算出回路 3 2 2からの出力として、 例えば各バンドの総和値であ るバークスぺク トラムを図 6の図中 S Bとして示している。 ただし、 この図 6では、 図示を簡略化するため、 分割帯域数を 1 2バンド ( B i 〜B 1 2) で表現している。
ここで、 上記バークスぺク トラム S Bのいわゆるマスキングに於 ける影響を考慮するために、 該バークスぺク トラム S Bに所定の重 み付け関数を掛けて加算するような畳込み (コンボリューション) 処理を施す。 このため、 上記帯域毎のエネルギ算出回路 3 2 2の出 力すなわち該バークスぺク トラム S Bの各値は、 畳込みフィルタ回 路 3 2 3に送られる。
この畳込みフィルタ回路 3 2 3は、 例えば図 7に示すような F I Rフィル夕で構成することができる。 すなわち当該畳込みフィルタ 回路 3 2 3は、 図 7に示すように、 入力端子 1 0 0からの入力デー 夕を順次遅延させる遅延素子 (Z -1) 1 0 1 1. 1 0 1 2 ·'·· 1 0 1 m-2 〜 1 0 1 m+3 ···· 1 0 1 23. 1 0 1 24と、 これら遅延素子 1 0 1 i 〜 1 0 1 24からの出力にフィル夕係数 (重みづけの関数) を乗 算する例えば 2 5個の乗算器 1 0 2 1 0 22 ···· 1 0 2m-3 〜 1 0 2m+3 ···· 1 0 224. 1 0 225と、 総和加算器 1 0 4とから構成 されるものである。
ここで、 上記畳込みフィルタ回路 3 2 3の各乗算器 1 0 2m-3 〜 1 0 2m+3 において、 例えば、 任意のバンドに対応する乗算器 Mの 係数を 1 とするとき、 乗算器 1 0 2m-3 でフィルタ係数 0.0000086 を、 乗算器 1 0 2m-2 でフィルタ係数 0.0019を、 乗算器 1 0 2m でフィルタ係数 0.15を、 乗算器 1 0 2» でフィル夕係数 1を、 乗算 器 1 0 2m+1 でフィルタ係数 0.4 を、 更に乗算器 1 0 2m+2 でフィ ル夕係数 0.06を乗算し、 乗算器 1 0 2m+3 でフィルタ係数 0.007 を 各遅延素子の出力に乗算することにより、 バークスペク トラム S B の畳込み処理が行われる。 この畳込み処理により、 図 6の図中点線 で示す部分の総和がとられる。
なお、 ここで言う音声のマスキングとは、 人間の聴覚上の特性に より、 ある信号によって他の信号がマスクされて聞こえなくなる現 象をいうものであり、 このマスキング効果には、 時間軸上の音の信 号による時間軸マスキング効果と、 周波数軸上の信号による同時刻 マスキング効果とがある。 これらのマスキング効果により、 マスキ ングされる部分にノイズがあつたとしても、 このノイズは聞こえな いことになる。 このため、 実際の音の信号では、 このマスキングさ れる範囲内のノイズは許容可能なノイズとされる。 次に、 上記畳込みフィル夕回路 3 2 3の出力は引算器 3 2 4に送 られる。 該引算器 3 2 4は、 上記畳込んだ領域での後述する許容可 能なノイズレベルに対応するレベルァを求めるものである。 なお、 当該許容可能なノイズレベル (許容ノイズレベル) に対応するレべ ル 7は、 後述するように、 逆コンボリューシヨン処理を行うことに よって、 クリティカルバンドの各バンド毎の許容ノイズレベルとな るようなレベルである。 ここで、 上記引算器 3 2 4には、 上記レべ ル 7を求めるための許容関数 (マスキングレベルを表現する関数) が供給される。 この許容関数を増減させることで上記レベル 7の制 御を行っている。 当該許容関数は、 次に説明するような (n— a i ) 関数発生回路 3 2 5から供給されているものである。
すなわち、 許容ノイズレベルに対応するレベル 7は、 クリティカ ルバンドの低域から順に与えられる番号を i とすると、 次の ( 1 ) 式で求めることができる。
r = S - ( n - a i ) · · · ( 1 )
この ( 1 ) 式において、 n , aは定数で a > 0、 Sは畳込み処理さ れたバークスぺク トラムの強度であり、 ( 1 ) 式中(n- ai)が許容関 数となる。 本実施例では n = 3 8, a = 1 としており、 この時の音 質劣化はなく、 良好な符号化が行える。
このようにして、 上記レベル 7が求められ、 このデータは、 割算 器 3 2 6に伝送される。 当該割算器 3 2 6では、 上記畳込みされた 領域での上記レベル 7を逆コンボリューションするためのものであ る。 したがって、 この逆コンボリューシヨン処理を行うことにより、 上記レベル 7からマスキングスぺク トラムが得られるようになる。 すなわち、 このマスキングスぺク トラムが許容ノイズスぺク トラム となる。 なお、 上記逆コンボリューシヨン処理は、 複雑な演算を必 要とするが、 本実施例では簡略化した割算器 3 2 6を用いて逆コン ボリユーショ ンを行っている。
次に、 上記マスキングスぺク トラムは、 合成回路 3 2 7を介して 減算器 3 2 8に伝送される。 ここで、 当該減算器 3 2 8には、 上記 帯域毎のエネルギ検出回路 3 2 2からの出力、 すなわち前述したス ぺク トラム S Bが、 遅延回路 3 2 9を介して供給されている。 した がって、 この減算器 3 2 8で上記マスキングスぺク トラムとスぺク トラム S Bとの減算演算が行われることで、 図 8に示すように、 上 記スぺク トラム S Bは、 該マスキングスぺク トラム M Sのレベルで 示すレベル以下がマスキングされることになる。
当該減算器 3 2 8からの出力は、 許容雑音補正回路 3 3 0を介し、 例えば割り当てビッ ト数情報が予め記憶された R O M 3 3 1に送ら れる。 この R O M 3 3 1は、 上記減算回路 3 2 8から許容雑音補正 回路 3 3 0を介して得られた出力 (上記各バンドのエネルギと上記 ノイズレベル設定手段の出力との差分のレベル) に応じ、 各バンド 毎の割り当てビッ ト数情報を出力する。
この割り当てビッ ト数情報は、 さらにビッ ト数補正回路 3 3 4に 送られる。 当該ビッ ト数補正回路 3 3 4は、 前記端子 4 3 0を介し て供給される後述する符号化制御回路 1 5 Aからの制御信号に基づ いて、 上記 R O M 3 3 1から出力されたビッ ト数情報を補正する。
このビッ ト数補正回路 3 3 4からのビッ ト数情報が、 端子 3 3 5 を介して前記適応ビッ ト割当符号化回路 3 1 8に送られることで、 この適応ビッ ト割当符号化回路 3 1 8において M D C T回路 3 1 3、 3 1 4、 3 1 5からの周波数軸上の各スぺク トラムデータがそれぞ れのバンド毎に割り当てられたビッ ト数で量子化される。
なお、 遅延回路 3 2 9は上記合成回路 3 2 7以前の各回路での遅 延量を考慮してエネルギ検出回路 3 2 2からのスペク トラム S Bを 遅延させるために設けられている。
また、 上述した合成回路 3 2 7での合成の際には、 最小可聴力一 ブ発生回路 3 3 2から供給される図 9に示すような人間の聴覚特性 であるいわゆる最小可聴カーブ R Cを示すデータと、 上記マスキン グスぺク トラム M Sとを合成することができる。 この最小可聴カー ブにおいて、 雑音絶対レべルがこの最小可聴カーブ以下ならば該雑 音は聞こえないことになる。 この最小可聴カーブは、 コーディ ング が同じであっても例えば再生時の再生ボリユームの違いで異なるも のとなるが、 現実的なディジタルシステムでは、 例えば 1 6 ビッ ト ダイナミ ックレンジへの音楽のはいり方にはさほど違いがないので、 例えば 4 k H z付近の最も耳に聞こえやすい周波数帯域の量子化雑 音が聞こえないとすれば、 他の周波数帯域ではこの最小可聴カーブ のレベル以下の量子化雑音は閬こえないと考えられる。
したがって、 このように例えばシステムの持つヮードレングスの 4 k H z付近の雑音が聞こえない使い方をすると仮定し、 この最小 可聴カーブ R Cとマスキングスぺク トラ厶 M Sとを共に合成するこ とで許容ノイズレベルを得るようにすると、 この場合の許容ノイズ レベルは、 図 9の図中の斜線で示す部分までとすることができるよ うになる。 なお、 本実施例では、 上記最小可聴カーブの 4 k H zの レベルを、 例えば 2 0ビッ ト相当の最低レベルに合わせている。 ま た、 この図 9は、 信号スペク トラム S Sも同時に示している。
また、 上記許容雑音補正回路 3 3 0では、 補正情報出力回路 3 3 3から送られてくる例えば等ラウドネスカーブの情報に基づいて、 上記減算器 3 2 8からの出力における許容雑音レベルを補正してい る。 ここで、 等ラウドネスカーブとは、 人間の聴覚特性に関する特 性曲線であり、 例えば 1 k H zの純音と同じ大きさに聞こえる各周 波数での音の音圧を求めて曲線で結んだもので、 ラウドネスの等感 度曲線とも呼ばれる。 またこの等ラウドネス曲線は、 図 9に示した 最小可聴カープ R Cと略同じ曲線を描く ものである。 この等ラウド ネス曲線においては、 例えば 4 k H z付近では 1 k H zのところよ り音圧が 8〜 1 0 d B下がっても 1 k H zと同じ大きさに聞こえ、 逆に、 5 0 k H z付近では 1 k H zでの音圧よりも約 1 5 d B高く ないと同じ大きさに閬こえない。 このため、 上記最小可聴カーブの レベルを越えた雑音 (許容ノイズレベル) は、 該等ラウドネス曲線 に応じたカーブで与えられる周波数特性を持つようにするのが良い ことがわかる。 このようなことから、 上記等ラウドネス曲線を考慮 して上記許容ノイズレベルを補正することは、 人間の聴覚特性に適 合していることがわかる。
ところで、 本実施例の符号化装置では、 上述した映像信号及び音 声信号の圧縮符号化の際の割り当てビッ ト数の決定の際に、 以下の ようなことを行って、 画像及び音に関して、 より最適な圧縮符号化 を行えるようにしている。
すなわち本発明実施例の符号化装置においては、 符号化制御回路 1 5 Vは、 ディジタル映像信号の特性だけでなく、 そのときのディ ジ夕ル音声信号の特性を加味するように、 圧縮符号化回路 1 2 Vで の符号化処理の際の割り当てビッ ト数を定める。 また、 さらに、 こ の割り当てビッ ト数の決定に当たっては、 バッファメモリ 1 3 Vか ら出力されるディジタル映像信号の伝送レートが、 予め定められた 目標値になるようにすることも考慮されている。
先ず、 上記ディジタル映像信号の伝送レートを考慮するために、 バッファメモリ 1 3 Vの出力は、 図 1 0に示す構成の符号化制御回 路 1 5 Vの端子 4 1 0に供給される。
当該符号化制御回路 1 5 Vでは、 データ量演算回路 4 1 2によつ て上記バッファメモリ 1 3 Vから出力されるデータ量が演算され、 これによる伝送レートが求められ、 誤差検出回路 4 1 3ではその伝 送レートが目標値 (端子 1 4 V後に接続される伝送路の伝送レー ト) になっているか否か判定される。 そして、 目標値になっていな ければ、 次段の補正値決定回路 4 1 4において、 その誤差量と、 端 子 4 1 5を介して供給される後述するディジタル映像信号とディジ タル音声信号との両者の特性 (両者の関係) とに基づいて、 圧縮符 号化回路 1 2 Vでの最適な割り当てビッ ト数を定める。 この補正値 決定回路 4 1 4からの信号が、 端子 4 2 0を介して前記制御信号と して圧縮符号化回路 1 2 Vに送られる。
ディジタル音声信号についても同様であり、 符号化制御回路 1 5 Aは図 1 0と同様の構成を有しており、 当該符号化制御回路 1 5 A の端子 4 1 1に供給されたバッファメモリ 1 3 Aからのデータ量を 演算してその伝送レートを求め、 この伝送レートと目標値との誤差 量と、 端子 4 1 6を介して供給されるディジタル音声信号とデイジ タル映像信号の両者の特性 (両者の関係) を加味した特性とに基づ いて、 圧縮符号化回路 1 2 Aでの符号化処理の際の最適な割り当て ビッ ト数を定める。 この符号化制御回路 1 5 Aの補正値決定回路 4 1 4からの信号が、 端子 4 3 0を介して前記制御信号として圧縮符 号化回路 1 2 Aに送られる。
ここで、 本実施例では、 上記ディジタル映像信号及びディジタル 音声信号の特性は、 それぞれのァクティ ビティを求めることにより 検出する。
図 1に戻って、 指示符号の 2 0は第 1の特性検出手段としての映 像信号のァクティ ビティを求める回路を示し、 指示符号の 3 0は第 2の特性検出手段としての音声信号のァクティ ビティを求める回路 を示している。
映像信号のァクティ ビティを求める映像信号ァクティ ビティ検出 回路 2 0は、 映像信号の空間的及び時間的変化を検出する。 すなわ ち、 入力端子 1 1 Vに供給されたディジタル映像信号は、 減算回路 2 2に供給されると共に、 フレームメモリ 2 1により 1 フレーム遅 延された後、 演算回路 2 2に供給され、 これによつて当該減算回路 2 2から 2フレーム間の変化が得られ、 その時間的な変化が非線形 回路 2 7に供給される。
また、 入力端子 1 1 Vに供給されたディジタル映像信号は、 減算 回路 2 4に供給されると共に、 ラインメモリ 2 3により 1 ライン分 遅延された後、 減算回路 2 4に供給され、 これによつて減算回路 2 4から 2ライン間の変化が得られ、 その空間的な変化が非線形回路 2 7に供給される。
さらに 入力端子 1 1 Vに供給されたディジタル映像信号は、 減 算回路 2 6に供給されると共に、 サンプルメモリ 2 5により 1画素 分遅延された後、 減算回路 2 6に供給され、 これによつて減算回路 2 4から 2画素間の変化が得られ、 その空間的な変化が非線形回路 2 7に供給される。 非線形回路 2 7は、 例えば経験則に応じて予め決定された非線形 係数を保持する R O Mテーブルを有し、 この非線形係数を用いて減 算回路 2 2、 2 4及び 2 6からの空間的変化及び時間的変化に非線 形の重みを付けて合成する。 そして、 その合成出力が映像信号のァ クティ ビティの検出出力として当該ァクティ ビティ検出回路 2 0か ら得られる。
このァクティ ビティ検出回路 2 0からの映像信号のァクティ ビテ ィの検出出力は、 前記合成手段としての合成回路 4 4に供給される と共に、 重み付け回路 4 1によって端子 4 6から所定の重み付け係 数ひが乗算されて同じく合成手段としての合成回路 4 3に供給され る。
一方、 第 2の特性検出手段としての音声信号のァクティ ビティを 求める音声信号ァクティ ビティ検出回路 3 0は、 人間の聴覚特性を 考慮したもので、 これも音声信号の空間的及び時間的変化を求める ものである。 なお、 当該ァクティ ビティ検出回路 3 0では、 人間の 聴覚は、 周波数領域の振幅には敏感であるが、 位相についてはかな り鈍感であることを利用して音声信号のァクティ ビティを検出して いる。
すなわち、 この音声信号ァクティ ビティ検出回路 3 0では、 先ず 入力端子 1 1 Aを通じたディジタル音声信号が、 振幅情報発生回路 3 1に供給される。 この振幅情報発生回路 3 1は、 図 1 1に示すよ うに、 端子 2 4 1に洪給されたディジタル音声信号を高速フーリエ 変換 (F F T ) する高速フーリエ変換回路 2 1 1 と、 当該高速フー リエ変換回路 2 1 1での高速フーリエ変換処理の結果得られる F F T係数の実数成分値 R eと虚数成分値 I mとからディジタル音声信 号の振幅値情報 A mを形成する振幅位相情報発生回路 2 1 2とから る。
この振幅情報発生回路 3 1 の端子 2 4 1から出力される振幅値情 報 A mは、 前記エネルギ検出手段としてのバークスぺク トラム形成 回路 3 2に供給される。 このバークスぺク トラム形成回路 3 2は、 図 1 2に示すような構成からなり、 先ず、 上記振幅値情報 A mを帯 域分割回路 2 1 3によって前記クリティカルバンドに分割する。 上記帯域分割回路 2 1 3の次の帯域毎エネルギ総和検出回路 2 1 4では、 上記帯域分割回路 2 1 3によって分割した各バンド毎のェ ネルギ (各バンドでの各スペク トラム強度) が、 各バンド内の振幅 値 A mの総和 (振幅値 A mのピーク又は平均或いはエネルギ総和) を計算することより求められる。
上記バークスぺク トラム形成回路 3 2の出力は、 端子 2 4 3を介 してコンボリューシヨン回路 3 3に供給される、 このコンボリュー ション回路 3 3では、 上記バークスぺク トラ厶 S Bのいわゆるマス キング (音声のマスキング) における影響を考慮するため、 上記バ ークスぺク トラム S Bに所定の重み付けの関数を畳み込む。
当該コンボリユーション回路 3 3は、 例えば前記図 7と同様の F I Rフィル夕で構成することができる。
そして、 上記コンボリユーション回路 3 3の出力が、 音声信号の ァクティ ビティの検出出力として当該音声信号ァクティ ビティ検出 回路 3 0から得られる。 この検出回路 3 0からの音声信号のァクテ ィ ビティの検出出力は、 前記合成手段としての合成回路 4 3に供給 されると共に、 端子 4 5から供給される所定の重み付け係数 /5を乗 算する重み付けを行う重み付け回路 4 2を介して前記合成回路 4 4 に供給される。
そして、 上記合成回路 4 3の出力が符号化制御回路 1 5 Vに供給 されると共に、 上記合成回路 4 4の出力が符号化制御回路 1 5 Aに 供給される。
圧縮符号化回路 1 2 V及び 1 2 Aは、 この符号化制御回路 1 5 V 及び 1 5 Aからの制御信号を受けて、 ディジタル映像信号及びディ ジタル音声信号を圧縮符号化する際の割り当てビッ ト数が制御され る。 すなわち、 圧縮符号化回路 1 2 V及び 1 2 Aにおいては、 ディ ジタル映像信号とディジタル音声信号との両信号の特性、 この例で は両信号のァクティ ビティが総合的に判断されて、 ディジタル映像 信号及びディジタル音声信号のそれぞれに最適の圧縮符号化処理が 订われな。
圧縮符号化回路 1 2 V及び 1 2 Aでは、 また、 前述したように、 符号化制御回路 1 5 V及び 1 5 Aからの制御信号を受けて、 バッフ ァメモリ 1 3 V及び 1 3 Aからの映像信号デ一夕及び音声信号デ一 夕の伝送レートを目標値になるように調整するように割り当てビッ ト数を制御することも行われる。
本発明実施例の符号化装置では、 上述のようなバッファメモリ 1 3 V及び 1 3 Aのデ一夕量と、 ディジタル映像信号及びディジタル 音声信号の両信号の特性とに基づいて圧縮符号化の際の割り当てビ ッ ト数を最適化することで、 図 1 3のような伝送情報量の最適化が 可能となる。
すなわち、 図 1の出力端子 1 4 V及び 1 4 A以降の伝送路での伝 送レート (伝送情報量) は、 図 1 3の図中 Rで示すように通常は一 定の伝送レートとなされ、 この内訳として映像信号に関しては図 1 3の図中 r v、 音声信号に関しては図 1 3の図中 r aとなされる。 これに対して、 本発明実施例の符号化装置によれば、 上記ァクティ ビティの検出結果及びマスキングを考慮して、 上記図中 Rで示す一 定伝送レ一卜の内で、 映像信号の伝送レート r Vと音声信号の伝送 レート r aの比を変えるようにしている。
例えば映像信号のァクティ ビティが大きい期間 T 1や T 2では当 該映像信号に対する伝送情報量は必然的に増加することになるが、 当該映像信号自身がマスクされるので映像信号の圧縮率を高めて伝 送情報量を減らすことができると共に、 このときの人間の注意は映 像に向けられるので、 音声信号については図中 C 1やじ 2に示すよ うに伝送情報量を減らすことができる。 逆に音声信号のァクティ ビ ティが大きい期間 T 3では当該音声信号に対する伝送情報量は増加 するが、 当該音声信号自身のマスキング効果によって音声信号の圧 縮率を高めて伝送情報量を減らすことができると共に、 このときの 人間の注意は音声に向けられるので、 映像信号については図中 C 3 に示すように伝送情報量を減らすことができる。 結果として、 全体 の伝送レートは図 1 3の図中 Rで示すように一定にすることができ ると共に、 映像信号において情報量を多く必要とする期間には当該 映像信号に情報量を多く割り当てて、 音声信号に対する情報量を減 らしても、 音声信号の劣化を目立たせないようにすることができ、 また、 音声信号において情報量を多く必要とする期間では音声信号 に情報量を多く割り当てて、 映像信号に対する情報量を減らしても 映像信号の劣化を目立たなくさせることができる。 したがって、 人 間の視聴覚の特性から、 映像が注目されているときには映像の画質 を上げることができると共に音声の劣化を人間に感じさせなくでき、 逆に音声が注目されているときには音質を上げることができると共 に映像の劣化を人間に感じさせなくすることができる。
次に、 上記映像信号の圧縮符号化の他の例について図 1 4を用い て説明する。 この図 1 4の例は、 動画像の代表的な符号化方式とし て、 MPEG (蓄積用動画像符号化) 方式を採用している。 これは、 I SO- I EC/JTC 1/SC 2/WG 1 1にて議論され標準案 として提案されたものであり、 動き補償予測符号化と DCT (Disc rete Cosine Transform ) 符号化を組み合わせたハイブリ ッ ド方式 が採用されている。
この図 1 4において、 図 1の入力端子 1 1 Vに供給された符号化 されるべき画像データは、 入力端子 349を介してマクロブロック 単位で動きべク トル検出回路 350に入力される。 動きべク トル検 出回路 350は、 予め設定されている所定のシーケンスに従って、 各フレームの画像データを、 Iピクチャ (イントラ符号化画像: In tra-coded picture). Pピクチャ (前方予測符号化画像: Perdict ive-coded picture)または Bピクチャ (両方向予測符号化画像: Bi directional ly-coded picture)の 3種類のピクチャのいずれかのピ クチャとして処理する。 シーケンシャルに入力される各フレームの 画像を、 I, P, Bのいずれのピクチャとして処理するかは、 予め 定められている。
Iピクチャとして処理されるフレームの画像データは動きべク ト ル検出回路 350からフレームメモリ 35 1内の前方原画像領域に 転送、 記憶され、 Bピクチャとして処理されるフレームの画像デー 夕は原画像領域 (参照原画像領域) に転送、 記憶され、 Pピクチャ として処理されるフレームの画像データは後方原画像領域に転送、 言己 '慮される。
また、 次のタイミングにおいて、 さらに Βピクチャ又は Ρピクチ ャとして処理すべきフレームの画像が入力されたとき、 それまで後 方原画像領域に記憶されていた最初の Ρピクチャの画像データが前 方原画像領域に転送され、 次の Βピクチャの画像データが原画像領 域に記憶 (上書き) され、 次の Ρピクチャの画像データが後方原画 像領域に記憶 (上書き) される。 このような動作が順次繰り返され る ο
フレームメモリ 3 5 1に記憶された各ピクチャの信号は、 そこか ら読み出され、 予測モード切り換え回路 3 5 2において、 フレーム 予測モ一ド処理、 またはフィ一ルド予測モード処理が行なわれる。 さらにまた予測判定回路 3 5 4の制御の下に、 演算部 3 5 3におい て、 イントラ符号化モード、 前方予測モード、 後方予測モード、 ま たは両方向予測モードによる演算が行なわれる。 これらの処理のう ち、 いずれの処理を行なうかは、 予測誤差信号 (処理の対象とされ ている参照画像と、 これに対する予測画像との差分) に対応してマ クロプロック単位で決定される。 このため、 動きべク トル検出回路 3 5 0は、 この判定に用いられる予測誤差信号の絶対値和 (自乗和 でもよい) 及び、 その予測誤差信号に対応するイントラ符号化モ一 ドの評価値をマクロプロック単位で生成する。
ここで、 フレーム予測モードが設定された場合においては、 予測 モ一ド切り換え回路 3 5 2は、 動きべク トル検出回路 3 5 0より供 給される 4個の輝度ブロックを、 そのまま後段の演算部 3 5 3に出 力する。 このフレーム予測モードにおいては、 4個の輝度ブロック
(マクロブロック) を単位として予測が行われ、 4個の輝度ブロッ クに対して 1個の動きべク トルが対応される。
これに対して、 予測モード切り換え回路 3 5 2は、 フィールド予 測モードが設定された場合、 動きべク トル検出回路 3 5 0より入力 される信号を、 4個の輝度プロックのうち 2個の輝度プロックを例 えば奇数フィールドのラインのドッ トによりのみ構成させ、 他の 2 個の輝度プロックを偶数フィ一ルドのラインのデ一夕により構成さ せて、 演算部 3 5 3に出力する。 この場合においては、 奇数フィー ルドからなる 2個の輝度プロックに対して、 1個の動きべク トノレが 対応され、 他の偶数フィールドからなる 2個の輝度プロックに対し て、 他の 1個の動きべク トルが対応される。
尚、 色差信号は、 フレーム予測モー ドの場合、 奇数フィールドの ラインのデータと偶数フィールドのラインのデ一夕とが混在する状 態で、 演算部 3 5 3に供給される。 また、 フィールド予測モードの 場合、 各色差ブロックの上半分 ( 4ライン) が奇数フィールドの輝 度プロックに対応する奇数フィールドの色差信号とされ、 下半分 ( 4ライン) が偶数フィ一ルドの輝度プロックに対応する偶数フィ ールドの色差信号とされる。
また、 動きべク トル検出回路 3 5 0は、 次のようにして、 予測判 定回路 3 5 4において、 各マクロブロックに対し、 ィントラ符号化 モード、 前方予測モード、 後方予測モード、 または両方向予測モー ドのいずれの予測を行なうか及びフレーム予測モード、 フィ一ルド 予測モ一ドのどちらで処理するかを決定するためのィントラ符号化 モードの評価値及び各予測誤差の絶対値和をマクロプロック単位で 生成する。
即ち、 イントラ符号化モードの評価値として、 これから符号化さ れる参照画像のマクロプロックの信号 A Uとその平均値との差の絶 対値和∑ I A i j— (Α Πの平均値) I を求める。 また、 前方予測の 予測誤差の絶対値和として、 フレーム予測モード及びフィールド予 測モードそれぞれにおける、 参照画像のマクロプロックの信号 A i j と、 予測画像のマクロブロックの信号 B i jの差 (A i j— B i j) の絶 対値 I Α ϋ— B i j I の和∑ I A i j— B i j I を求める。 また、 後方予 測と両方向予測の予測誤差の絶対値和も、 前方予測における場合と 同様に (その予測画像を前方予測における場合と異なる予測画像に 変更して) フレーム予測モード及びフィ一ルド予測モ一ドの場合の それぞれに対して求める。
これらの絶対値和は、 予測判定回路 3 5 4に供給される。 予測判 定回路 3 5 4は、 フレーム予測モード、 フィールド予測モードそれ ぞれにおける前方予測、 後方予測及び両方向予測の予測誤差の絶対 値和のうち、 最も小さいものを、 インター(inter) 予測の予測誤差 の絶対値和として選択する。 さらに、 このインタ一予測の予測誤差 の絶対値和と、 イントラ符号化モードの評価値とを比較し、 その小 さい方を選択し、 この選択した値に対応するモードを予測モード及 びフレーム Zフィールド予測モードとして選択する。 即ち、 イント ラ符号化モードの評価値の方が小さければ、 イントラ符号化モード が設定される。 インター予測の予測誤差の絶対値和の方が小さけれ ば、 前方予測、 後方予測または両方向予測モードのうち、 対応する 絶対値和が最も小さかったモードが予測モ一ド及びフレーム Zフィ ールド予測モードとして設定される。
上述したように、 予測モード切り換え回路 3 5 2は、 参照画像の マクロブロックの信号を、 フレームまたはフィ一ルド予測モードの うち、 予測判定回路 3 5 4により選択されたモードに対応するデー 夕を演算部 3 5 3に供給する。 また動きべク トル検出回路 3 5 0は、 予測判定回路 3 5 4により選択された予測モードに対応する予測画 像と参照画像との間の動きべク トルを出力し、 後述する可変長符号 化回路 3 5 8と動き補償回路 3 6 4に供給する。 なお、 この動きべ ク トルとしては、 対応する予測誤差の絶対値和が最小となるものが 選択される。
予測判定回路 3 5 4は、 動きべク トル検出回路 3 5 0が前方原画 像領域より I ピクチャの画像データを読み出しているとき、 予測モ 一ドとして、 イントラ符号化モード (動き補償を行わないモード) を設定し、 演算部 3 5 3から I ピクチャの画像データが D C Tモ一 ド切り換え回路 3 5 5に入力される。
この D C Tモード切り換え回路 3 5 5は、 4個の輝度プロックの データを、 奇数フィ一ルドのラインと偶数フィールドのラインが混 在する状態 (フレーム D C Tモード) 、 または、 分離された状態 (フィールド D C Tモード) 、 のいずれかの状態にして、 D C T回 路 3 5 6に出力する。
即ち、 D C Tモード切り換え回路 3 5 5は、 奇数フィールドと偶 数フィ一ルドのデータを混在して D C T処理した場合における符号 化効率と、 分離した状態において D C T処理した場合の符号化効率 とを比較し、 符号化効率の良好なモードを選択する。
例えば、 入力された信号を、 奇数フィールドと偶数フィールドの ラインが混在する構成とし、 上下に隣接する奇数フィ一ルドのライ ンの信号と偶数フィールドのラインの信号の差を演算し、 さらにそ の絶対値の和 (または自乗和) を求める。 また、 入力された信号を、 奇数フィ一ルドと偶数フィールドのラインが分離した構成とし、 上 下に隣接する奇数フィールドのライン同士の信号の差と、 偶数フィ —ルドのライン同士の信号の差を演算し、 それぞれの絶対値の和 (または自乗和) を求める。 さらに、 両者 (絶対値和) を比較し、 小さい値に対応する DCTモー ドを設定する。 即ち、 前者の方が小 さければ、 フレーム DCTモードを設定し、 後者の方が小さければ、 フィ一ルド DCTモードを設定する。
そして、 選択した DCTモードに対応する構成のデータを DCT 回路 3 5 6に出力するとともに、 選択した DC Tモードを示す DC Tフラグを、 可変長符号化回路 3 5 8に出力する。
予測モード切り換え回路 3 5 2におけるフレームノフィールド予 測モードと、 この DC Tモード切り換え回路 3 5 5における DC T モードを比較して明らかなように、 輝度ブロックに関しては、 両者 の各モ一ドにおけるデータ構造は実質的に同一である。
予測モード切り換え回路 3 5 2において、 フレーム予測モード (奇数ラインと偶数ラインが混在するモード) が選択された場合、 DCTモ一ド切り換え回路 3 5 5においても、 フレーム DCTモー ド (奇数ラインと偶数ラインが混在するモード) が選択される可能 性が高く、 また予測モード切り換え回路 3 5 2において、 フィール ド予測モード (奇数フィールドと偶数フィ一ルドのデ一夕が分離さ れたモード) が選択された場合、 DCTモード切り換え回路 3 5 5 において、 フィールド D CTモード (奇数フィ一ルドと偶数フィ一 ルドのデータが分離されたモード) が選択される可能性が高い。
しかしながら、 必ずしも常にそのようになされるわけではなく、 予測モード切り換え回路 3 5 2においては、 予測誤差の絶対値和が 小さくなるようにモードが決定され、 D C Tモード切り換え回路 3 5 5においては、 符号化効率が良好となるようにモードが決定され る ο
D C Tモード切り換え回路 3 5 5より出力された I ピクチャの画 像データは、 D C T回路 3 5 6に入力され、 D C T処理され、 D C T係数に変換される。 この D C T係数は、 量子化回路 3 5 7に入力 され、 ここで、 前記バッファメモリ 1 3 Vに対応する送信バッファ
3 5 9のデータ蓄積量 (バッファ蓄積量) と、 前記図 1の合成回路
4 4からの信号が端子 3 8 0を介して供給される前記符号化制御回 路 1 5 Vによって求められた前記ァクティ ビティを考慮した制御信 号とに基づく量子化ステップで、 量子化が施された後、 可変長符号 化回路 3 5 8に入力される。
可変長符号化回路 3 5 8は、 量子化回路 3 5 7より供給される量 子化ステップ (スケール) に対応して、 量子化回路 3 5 7より供給 される画像データ (いまの場合、 I ピクチャのデ一夕) を、 例えば ハフマン(Huffman) 符号などの可変長符号に変換し、 送信バッファ 3 5 9に出力する。
可変長符号化回路 3 5 8にはまた、 量子化回路 3 5 7より量子化 ステップ (スケール) 、 予測判定回路 3 5 4より予測モード (イン トラ符号化モード、 前方予測モード、 後方予測モード、 または両方 向予測モードのいずれが設定されたかを示すモ一ド) 、 動きべク ト ル検出回路 3 5 0より動きベク トル、 予測判定回路 3 5 4より予測 フラグ (フレーム予測モードまたはフィ一ルド予測モードのいずれ が設定されたかを示すフラグ) 、 及び D C Tモード切り換え回路 3
5 5が出力する D C Tフラグ (フレーム D C Tモードまたはフィー ルド D C Tモードのいずれが設定されたかを示すフラグ) が入力さ れており、 これらも可変長符号化される。
送信バッファ 3 5 9は、 入力されたデータを一時蓄積し、 蓄積量 に対応するデータを前記符号化制御回路 1 5 Vを介して量子化回路 3 5 7に出力する。
そして、 送信バッファ 3 5 9に蓄積されたデータは、 所定のタイ ミングで読み出され、 出力端子 3 6 9を介して伝送路に出力される。 一方、 量子化回路 3 5 7より出力された I ピクチャのデータは、 逆量子化回路 3 6 0に入力され、 量子化回路 3 5 7より供給される 量子化ステップに対応して逆量子化される。 逆量子化回路 3 6 0の 出力は、 I D C T (逆 D C T ) 回路 3 6 1 に入力され、 逆 D C T処 理された後、 演算器 3 6 2を介してフレームメモリ 3 6 3の前方予 測画像領域に供給され、 記憶される。
ところで動きべク トル検出回路 3 5 0は、 シーケンシャルに入力 される各フレームの画像データを、 例えば I , B, P, B, P, B • · 'のピクチャとしてそれぞれ処理する場合、 最初に入力された フレームの画像データを I ピクチャとして処理した後、 次に入力さ れたフレームの画像を Bピクチャとして処理する前に、 さらにその 次に入力されたフレームの画像データを Pピクチヤとして処理する。 Bピクチャは、 後方予測及び両方向予測を伴う可能性があるため、 後方予測画像としての Pピクチャが先に用意されていないと、 復号 することができないからである。
そこで、 上記動きべク トル検出回路 3 5 0は、 I ピクチャの処理 の次に、 フレームメモリ 3 6 3の後方原画像領域に記憶されている Pピクチャの画像データの処理を開始する。 そして、' 上述した場合 と同様に、 マクロプロック単位でのィントラ符号化モードの評価値 及びフレーム間差分 (予測誤差) の絶対値和が、 動きべク トル検出 回路 3 5 0から予測判定回路 3 5 4に供給される。 予測判定回路 3 5 4は、 この Pピクチャのマクロブロックのイントラ符号化モード の評価値及び予測誤差の絶対値和に対応して、 フレーム予測モード、 フィールド予測モードの何れか、 及びィントラ符号化モード、 前方 予測モードのいずれの予測モ一ドかをマクロプロック単位で設定す る o
演算部 3 5 3はイントラ符号化モ一ドが設定されたとき、 このデ 一夕を I ピクチャのデ一夕と同様に D C Tモード切り換え回路 3 5 5に送り、 以後、 D C T回路 3 5 6、 量子化回路 3 5 7、 可変長符 号化回路 3 5 8、 送信バッファ 3 5 9を介して伝送路に伝送される。 また、 このデータは、 逆量子化回路 3 6 0、 I D C T回路 3 6 1、 演算器 3 6 2を介してフレームメモリ 3 6 3の後方予測画像領域に 供給され、 記憶される。
—方、 前方予測モードの時、 フレームメモリ 3 6 3の前方予測画 像領域に記憶されている画像 (いまの場合 I ピクチャの画像) デ一 夕が読み出され、 動き補償回路 3 6 4により、 動きべク トル検出回 路 3 5 0が出力する動きべク トルに対応して動き補償される。 すな わち、 動き補償回路 3 6 4は、 予測判定回路 3 5 4より前方予測モ 一ドの設定が指令されたとき、 フレームメモリ 3 6 3の前方予測画 像領域の読み出しァドレスを、 動きべク トル検出回路 3 5 0がいま 出力しているマクロプロックの位置に対応する位置から動きべク ト ルに対応する分だけずらしてデータを読み出し、 予測画像データを 生成する。 動き補償回路 3 6 4より出力された予測画像データは、 演算器 3 5 3に供給される。 演算器 3 5 3は、 予測モード切り換え回路 3 5 2より供給された参照画像のマクロプロックのデータから、 動き補 償回路 3 6 4より供給された、 このマクロブロックに対応する予測 画像データを減算し、 その差分 (予測誤差) を出力する。 この差分 デ一夕は、 D C Tモード切り換え回路 3 5 5、 D C T回路 3 5 6、 量子化回路 3 5 7、 可変長符号化回路 3 5 8、 送信バッファ 3 5 9 を介して伝送路に伝送される。 また、 この差分データは、 逆量子化 回路 3 6 0、 I D C T回路 3 6 1により局所的に復号され、 演算器 3 6 2に入力される。
この演算器 3 6 2にはまた、 演算器 3 5 3に供給されている予測 画像データと同一のデータが供給されている。 演算器 3 6 2は、 I D C T回路 3 6 1が出力する差分データに、 動き補償回路 3 6 4が 出力する予測画像データを加算する。 これにより、 元の (復号し た) Pピクチャの画像データが得られる。 この Pピクチャの画像デ —夕は、 フレームメモリ 3 6 3の後方予測画像領域に供給され、 記 憶される。 尚、 実際には、 演算器 3 6 2に供給される、 I D C T回 路の出力する差分データのデータ構造と予測画像データのデータ構 造とは、 同じである必要があるため、 フレーム フィール予測モー ドとフレーム / /フィールド D C Tモードが、 異なる場合に備えてデ 一夕の並べ換えを行う回路が必要であるが、 簡単のため省略する。 動きベク トル検出回路 3 5 0は、 このように、 I ピクチャと Pピ クチャのデータがフレームメモリ 3 6 3の前方予測画像領域と後方 予測画像領域にそれぞれ記憶された後、 次に Bピクチャの処理を実 行する。 予測判定回路 3 5 4は、 マクロプロック単位でのィントラ 符号化モードの評価値及びフレーム間差分の絶対値和の大きさに対 応して、 フレーム フィールド予測モードを設定し、 また、 予測モ —ドをイントラ符号化モー ド、 前方予測モード、 後方予測モード、 または両方向予測モードのいずれかに設定する。
上述したように、 イントラ符号化モードまたは前方予測モードの 時、 Pピクチャにおける場合と同様の処理が行われ、 データが伝送 される。
これに対して、 後方予測モードの時は、 フレームメモリ 3 6 3の 後方予測画像領域に記憶されている画像 (いまの場合、 Pピクチャ の画像) データが読み出され、 動き補償回路 3 6 4により、 動きべ ク トル検出回路 3 5 0が出力する動きべク トルに対応して動き補償 される。 すなわち、 動き補償回路 3 6 4は、 予測判定回路 3 5 4よ り後方予測モードの設定が指令されたとき、 フレームメモリ 3 6 3 の後方予測画像領域の読み出しァドレスを、 動きべク トル検出回路 3 5 0がいま出力しているマクロブロックの位置に対応する位置か ら動きべク トルに対応する分だけずらしてデータを読み出し、 予測 画像データを生成する。
動き補償回路 3 6 4より出力された予測画像データは、 演算器 3 5 3に供給される。 演算器 3 5 3は、 予測モード切り換え回路 3 5 2より供給された参照画像のマクロプロックのデータから、 動き補 償回路 3 6 4より供給された予測画像データを減算し、 その差分を 出力する。 この差分デ一夕は、 D C Tモード切り換え回路 3 5 5、 D C T回路 3 5 6、 量子化回路 3 5 7、 可変長符号化回路 3 5 8、 送信バッファ 3 5 9を介して伝送路に伝送される。
両方向予測モードの時、 フレームメモリ 3 6 3の前方予測画像領 域に記憶されている画像 (いまの場合、 I ピクチャの画像) デ一夕 と、 後方予測画像領域に記憶されている画像 (いまの場合、 Pピク チヤの画像) デ一夕が読み出され、 動き補償回路 3 6 4により、 動 きべク トル検出回路 3 5 0が出力する動きべク トルに対応して動き 補償される。 すなわち、 動き補償回路 3 6 4は、 予測判定回路 3 5 4より両方向予測モードの設定が指令されたとき、 フレームメモリ 3 6 3の前方予測画像領域と後方予測画像領域の読み出しアドレス を、 動きべク トル検出回路 3 5 0がいま出力しているマクロブロッ クの位置に対応する位置から動きべク トル (この場合の動きべク ト ルは、 フレーム予測モードの場合、 前方予測画像用と後方予測画像 用の 2つ、 フィールド予測モードの場合は、 前方予測画像用に 2つ、 後方予測画像用の 2つの計 4つとなる) に対応する分だけずらして データを読み出し、 予測画像データを生成する。
動き補償回路 3 6 4より出力された予測画像データは、 演算器 3 5 3に供給される。 演算器 3 5 3は、 動きべク トル検出回路 3 5 0 より供給された参照画像のマクロプロックのデータから、 動き補償 回路 3 6 4より供給された予測画像データの平均値を減算し、 その 差分を出力する。 この差分データは、 D C Tモード切り換え回路 3 5 5、 D C T回路 3 5 6、 量子化回路 3 5 7、 可変長符号化回路 3 5 8、 送信バッファ 3 5 9を介して伝送路に伝送される。
Bピクチャの画像は、 他の画像の予測画像とされることがないた め、 フレームメモリ 3 6 3には記憶されない。
なお、 上記フレームメモリ 3 6 3において、 前方予測画像領域と 後方予測画像領域は、 必要に応じてバンク切り換えが行われ、 所定 の参照画像に対して、 一方または他方に記憶されているものを、 前 方予測画像あるいは後方予測画像として切り換えて出力することが できる。
以上においては、 輝度ブロックを中心として説明をしたが、 色差 プロックについても同様に、 マクロプロックを単位として処理され、 伝送される。 尚、 色差ブロックを処理する場合の動きベク トルは、 対応する輝度プロックの動きべク トルを垂直方向と水平方向に、 そ れぞれ 1 Z 2にしたものが用いられる。
以上の例では、 映像信号及び音声信号の刺激量を、 これら信号の ァクティ ビティとして検出するようにしたが、 画像や音の内容によ つて、 これらの刺激は変わるものであるので、 その内容に応じて、 信号の特性がどのようなときに割り当て情報量を増減するかを決定 するようにしてもよい。 例えば、 静けさの中の小鳥の囀りなど、 気 になる音が現れた時には、 人間の注意はその小鳥の囀りに向けられ、 刺激量としては大きいと考えられるので、 そのときは画像情報量は、 減らしても目立たない。 なお、 この割り当て情報量も、 予め経験則 に基づいて設定しておく。
図 1の映像信号のァクティ ビティ検出回路 2 0及び音声信号のァ クティ ビティ検出回路 3 0は、 例えば図 1 5のような構成とするこ ともできる。 なお、 ここでは映像信号の場合を例に挙げて図 1 5の 構成について説明する。 音声信号の場合も基本的動作については同 様であるためその説明は省略する。
図 1 5において、 端子 5 0 0には入力端子 1 1 Vからの映像信号 が供給され、 この映像信号が大変化検出回路 5 0 1 に供給される。 この大変化検出回路 5 0 1では差分値を求め第 1の所定値以上の差 分値のみ、 その出力の総和を演算する演算回路 5 0 2に送る。 演算 回路 5 0 2で求めた上記差分値の総和は、 比較回路 5 0 3に送られ、 ここで所定のしきい値との比較が行われる。 該比較回路 5 0 3から の比較結果を示す信号は、 判定回路 5 0 4に送られる。 また、 上記 端子 5 0 0に供給された映像信号は、 微小変化検出回路 5 0 6にも 送られる。 当該微小変化検出回路 5 0 6は、 供給された映像信号の 上記第 1の所定値より小さい第 2の所定値よりも小さい微小差分を 求め、 次の演算回路 5 0 7ではその微小差分の総和を求める。 後段 の比較回路 5 0 8では上記微小差分の総和と所定のしきい値とを比 較し、 その比較結果を示す信号を判定回路 5 0 4に送る。 当該判定 回路 5 0 4では、 上記 2つの比較回路 5 0 3及び 5 0 8からの信号 に基づいてァクティ ビティが存在するか否かの判定を行い、 ァクテ ィ ビティの存在の有無を示す信号を端子 5 0 5から出力する。
ここでは、 しいき値比較回路 5 0 3でしきい値比較回路の入力信 号がしきい値以下と判断され、 かつ、 しきい値比較回路 5 0 8でし きい値比較回路 5 0 8の入力信号がしきい値以上であると判断され たとき、 判定回路 5 0 4はァクティ ビティが大きいと判定する。 具 体的には、 映像信号の場合、 上記条件のときは例えば霧の中で小動 物が動いているのが小さくぼんやり見えるような映像のような、 全 体的にはほとんど変化がないがー部動きのある映像であることを示 す。 このような場合、 視聴者は映像に注意を向けるので、 映像信号 の割り当てビッ ト数を増加させるようにする。 また、 音声信号の場 合には、 上記条件のときは、 例えば上述したような静けさの中に小 鳥の囀りがあるような場合を示す。
なお、 図 1 4では差分を求める例を挙げているが、 微分を求める こともできる。 この場合、 大変化検出回路 5 0 1及び微小変化検出 回路 5 0 6において微分を求め、 演算回路 5 0 3及び 5 0 7では積 分演算を行う。
また、 上記の例では、 圧縮符号化回路 1 2 V、 1 2 Aでは、 割り 当てビッ ト数を可変にして割り当て情報量を可変するようにしたが、 圧縮符号化方式を変えて、 それに応じた割り当てビッ ト数となるよ うにして、 割り当て情報量を可変にするようにしてもよい。
以上説明したように、 この発明によれば、 映像信号と、 これに関 連する音声信号の圧縮符号化に当たって、 それぞれの信号を独立に、 自己の信号の特性を基準にして圧縮符号化するのではなく、 映像信 号と音声信号の両者の、 そのときの特性を勘案して、 圧縮符号化を 行うようにしたので、 映像信号と、 これに関連する音声信号とを、 再生時の視聴覚上、 劣化が少ない状態で、 より高能率に圧縮符号化 することができる。
すなわち、 人間に対して映像信号についての視覚としての刺激が 音声信号により聴覚による刺激よりも比較的強い時には、 音声信号 のノイズはマスクされやすく、 音声信号は情報量が少なく ともよい。 逆に、 音による刺激が画像から与えられる刺激よりも少ないような 状態の時には、 画像情報は情報量が少なく とも目立たなくなり、 少 ない情報量で、 良好な画像及び音の情報伝送を行うことができるよ うになる。

Claims

請 求 の 範 囲
1 . ディジタル映像信号と、 これに関連するディジタル音声信号と をそれぞれ圧縮符号化して伝送するようにした符号化装置において、 上記ディジタル映像信号の特性を検出する第 1の特性検出手段と、 上記ディジタル音声信号の特性を検出する第 2の特性検出手段と、 上記第 1及び第 2の特性検出手段の出力を合成する合成手段と、 上記合成手段の出力に基づいて上記ディジ夕ル映像信号及びディ ジタル音声信号の圧縮符号化の割り当て情報量を制御する制御手段 と
を有することを特徴とする符号化装置。
2 . 上記第 1及び第 2の特性検出手段は、 それぞれ映像信号及び音 声信号のァクティ ビティを検出するものであることを特徴とする請 求項 1記載の符号化装置。
3 . 上記アクティ ビティは、 信号の空間及び Z又は時間変化分を検 出することにより検出することを特徴とする請求項 2記載の符号化
4 . 圧縮符号化された信号を一時保持した後に出力信号として出力 するバッファメモリを設け、
上記制御手段は、 上記バッファメモリに蓄えられた情報量と上記 合成手段の合成出力とに応じて上記ディジタル映像信号及びディジ タル音声信号の圧縮符号化の割り当て情報量を制御することを特徴 とする請求項 1記載の符号化装置。
5 . 上記第 1の特性検出手段は、 ディジタル映像信号をフレーム遅 延するフレームメモリと、 ディジ夕ル映像信号をライン遅延するラ インメモリと、 ディジタル映像信号をサンプル遅延するサンプルメ モリ と、 上記フレームメモリからのフレーム遅延されたディジ夕ル 映像信号と入力ディジタル映像信号との差分を求める第 1の差分演 算手段と、 上記ラインメモリからのライン遅延されたディジタル映 像信号と入力ディジタル映像信号との差分を求める第 2の差分演算 手段と、 上記サンプルメモリからのサンプル遅延されたディジ夕ル 映像信号と入力ディジタル映像信号との差分を求める第 3の差分演 算手段とを有してなることを特徴とする請求項 3記載の符号化装置。
6 . 上記第 1の特性検出手段は、 上記第 1 , 第 2 , 第 3の差分演算 手段の出力を非線形的に合成する非線形合成手段を備えてなること を特徴とする請求項 5記載の符号化装置。
7 . 上記第 2の特性検出手段は、 入力ディジタル音声信号の振幅情 報を発生する振幅情報発生手段と、 上記振幅情報発生手段からの振 幅値に基づいてエネルギを検出するエネルギ検出手段と、 上記エネ ルギ検出手段の出力に対して畳み込み演算を施す畳み込み演算手段 とからなることを特徴とする請求項 1記載の符号化装置。
8 . 上記合成手段は、 上記第 1 , 第 2の特性検出手段の各出力にそ れぞれ所定の係数を乗算した後に合成を行うことを特徴とする請求 項 1記載の符号化装置。
9 . 上記第 1の特性検出手段と第 2の特性検出手段は、 信号の大変 化量を検出する大変化量検出手段と、 上記大変化量検出手段の出力 を所定のしきい値と比較する第 1の比較手段と、 信号の微小変化を 検出する微小変化量検出手段と、 上記微小変化量検出手段の出力を 所定のしきい値と比較する第 2の比較手段と、 上記第 1 , 第 2の比 較手段の出力からァクティ ビティか否かを判定する判定手段とをそ れぞれ有することを特徴とする請求項 1記載の符号化装置。
1 0 . ディジタル映像信号と、 これに関連するディジタル音声信号 とをそれぞれ圧縮符号化して伝送するようにした符号化方法におい て、
上記ディジタル映像信号の特性を検出し、
上記ディジタル音声信号の特性を検出し、
上記ディジタル映像信号の特性検出出力とディジタル音声信号の 特性検出出力とを合成し、
当該合成出力に基づいて上記ディジタル映像信号及びディジタル 音声信号の圧縮符号化の割り当て情報量を制御する
ことを特徴とする符号化方法。
1 1 . 上記ディジタル映像信号及びディジタル音声信号の特性検出 では、 それぞれ映像信号及び音声信号のァクティ ビティを検出する ことを特徴とする請求項 1 0記載の符号化方法。
1 2 . 上記アクティ ビティは、 信号の空間及び 又は時間変化分を 検出することにより検出することを特徴とする請求項 1 1記載の符 号化方法。
PCT/JP1994/000921 1993-06-08 1994-06-07 Encoder and encoding method WO1994030013A1 (en)

Priority Applications (5)

Application Number Priority Date Filing Date Title
KR1019950700518A KR100289854B1 (ko) 1993-06-08 1994-06-07 인코딩 장치 및 방법
DE1994623072 DE69423072T2 (de) 1993-06-08 1994-06-07 Kodierer und verfahren zur kodierung
JP50157195A JP3442783B2 (ja) 1993-06-08 1994-06-07 符号化装置及び方法
US08/379,558 US5627581A (en) 1993-06-08 1994-06-07 Encoding apparatus and encoding method
EP19940917169 EP0654947B1 (en) 1993-06-08 1994-06-07 Encoder and encoding method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP5/164029 1993-06-08
JP16402993 1993-06-08

Publications (1)

Publication Number Publication Date
WO1994030013A1 true WO1994030013A1 (en) 1994-12-22

Family

ID=15785457

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP1994/000921 WO1994030013A1 (en) 1993-06-08 1994-06-07 Encoder and encoding method

Country Status (6)

Country Link
US (1) US5627581A (ja)
EP (1) EP0654947B1 (ja)
JP (1) JP3442783B2 (ja)
KR (1) KR100289854B1 (ja)
DE (1) DE69423072T2 (ja)
WO (1) WO1994030013A1 (ja)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5877814A (en) * 1994-04-20 1999-03-02 Thomson Consumer Electronics, Inc. Asynchronous control signal generating apparatus
JPH0865665A (ja) * 1994-08-25 1996-03-08 Hitachi Denshi Ltd 画像圧縮伝送方法および画像圧縮伝送システム
US6141032A (en) * 1995-05-24 2000-10-31 Priest; Madison E. Method and apparatus for encoding, transmitting, storing and decoding of data
GB9519921D0 (en) * 1995-09-29 1995-11-29 Philips Electronics Nv Graphics image manipulation
KR970057947A (ko) * 1995-12-28 1997-07-31 배순훈 영상 부호화기에서의 타입 결정 및 버퍼 제어 장치
US6256349B1 (en) * 1995-12-28 2001-07-03 Sony Corporation Picture signal encoding method and apparatus, picture signal transmitting method, picture signal decoding method and apparatus and recording medium
US5793416A (en) * 1995-12-29 1998-08-11 Lsi Logic Corporation Wireless system for the communication of audio, video and data signals over a narrow bandwidth
US6111863A (en) * 1995-12-29 2000-08-29 Lsi Logic Corporation Method and apparatus for the dynamic allocation of signal bandwidth between audio, video and data signals
US6006105A (en) * 1996-08-02 1999-12-21 Lsi Logic Corporation Multi-frequency multi-protocol wireless communication device
WO1998035500A1 (en) * 1997-02-11 1998-08-13 Sharp Kabushiki Kaisha Method and apparatus for optimizing quantizer values in an image encoder
CA2308220C (en) 1997-10-23 2007-08-14 Sony Electronics Inc. Apparatus and method for partial buffering transmitted data to provide robust error recovery in a lossy transmission environment
US6490250B1 (en) * 1999-03-09 2002-12-03 Conexant Systems, Inc. Elementary stream multiplexer
WO2000074388A1 (en) * 1999-05-26 2000-12-07 Koninklijke Philips Electronics N.V. Digital video signals coding method and corresponding coding or transcoding system
WO2001033862A1 (en) * 1999-10-29 2001-05-10 Sensormatic Electronics Corporation Method of and system for dynamic range compression and expansion
US7092774B1 (en) * 2000-02-29 2006-08-15 Prime Image, Inc. Multi-channel audio processing system with real-time program duration alteration
US6801246B2 (en) 2001-02-27 2004-10-05 Thomson Licensing, S.A. Method and apparatus for detecting change in video source material
GB2387055A (en) * 2002-03-28 2003-10-01 Sony Uk Ltd Data compression method including target data quantity allocation
JP4144598B2 (ja) * 2005-01-28 2008-09-03 三菱電機株式会社 画像処理装置、画像処理方法、画像符号化装置、画像符号化方法、および画像表示装置
US20100287083A1 (en) * 2007-12-28 2010-11-11 Mastercard International, Inc. Detecting modifications to financial terminals
KR101377703B1 (ko) * 2008-12-22 2014-03-25 한국전자통신연구원 광대역 인터넷 음성 단말 장치
US8724968B2 (en) 2011-04-07 2014-05-13 Prime Image Delaware, Inc. Embedded ancillary data processing method and system with program duration alteration
US9113133B2 (en) 2012-01-31 2015-08-18 Prime Image Delaware, Inc. Method and system for detecting a vertical cut in a video signal for the purpose of time alteration

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5961286A (ja) * 1982-09-29 1984-04-07 Fujitsu Ltd 音声多重化方式
JPH0358582A (ja) * 1989-07-27 1991-03-13 Toshiba Corp テレビジョン信号のパケット伝送システムとパケット送信装置及びパケット受信装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4541008A (en) * 1982-12-27 1985-09-10 Jones Futura Foundation, Ltd. Television signal bandwidth reduction using variable rate transmission
US4907087A (en) * 1987-06-10 1990-03-06 Massachusetts Institute Of Technology Transmission of signals through analog channels using adaptive frequency modulation
US4868653A (en) * 1987-10-05 1989-09-19 Intel Corporation Adaptive digital video compression system
EP0418396B1 (en) * 1989-03-16 1998-06-03 Fujitsu Limited Video/audio multiplex transmission system
JPH03117919A (ja) * 1989-09-30 1991-05-20 Sony Corp ディジタル信号符号化装置
US5159447A (en) * 1991-05-23 1992-10-27 At&T Bell Laboratories Buffer control for variable bit-rate channel
JP2766919B2 (ja) * 1991-06-07 1998-06-18 三菱電機株式会社 ディジタル信号記録再生装置、ディジタル信号記録装置、ディジタル信号再生装置
JP2785220B2 (ja) * 1992-09-22 1998-08-13 ソニー株式会社 データ符号化装置および方法、並びにデータ復号化装置および方法
JPH06261017A (ja) * 1993-03-08 1994-09-16 Matsushita Electric Ind Co Ltd マルチメディア通信装置
US5512939A (en) * 1994-04-06 1996-04-30 At&T Corp. Low bit rate audio-visual communication system having integrated perceptual speech and video coding

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5961286A (ja) * 1982-09-29 1984-04-07 Fujitsu Ltd 音声多重化方式
JPH0358582A (ja) * 1989-07-27 1991-03-13 Toshiba Corp テレビジョン信号のパケット伝送システムとパケット送信装置及びパケット受信装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
IEICE THESIS JOURNAL, J72-Vol. BI, No. 11, November 1989, YOICHI SATO, "Multiplicating Characteristics of Multimedia Signal in High-Speed Burst Multiple Transmitting System", p. 1112-1119. *
See also references of EP0654947A4 *

Also Published As

Publication number Publication date
EP0654947B1 (en) 2000-02-23
EP0654947A4 (en) 1996-04-03
EP0654947A1 (en) 1995-05-24
US5627581A (en) 1997-05-06
DE69423072T2 (de) 2000-07-06
DE69423072D1 (de) 2000-03-30
KR100289854B1 (ko) 2001-05-15
JP3442783B2 (ja) 2003-09-02
KR960700607A (ko) 1996-01-20

Similar Documents

Publication Publication Date Title
WO1994030013A1 (en) Encoder and encoding method
EP0714209B1 (en) Method and device for decoding image data
CA2456252C (en) Motion-adaptive noise reduction pre-processing for digital video signal
EP0618733B1 (en) Code amount control method and encoding apparatus for carrying it out.
US5568196A (en) Motion adaptive noise reduction filter and motion compensated interframe coding system using the same
JP2969867B2 (ja) ディジタル画像信号の高能率符号化装置
EP0629330B1 (en) Video companding method and system
US7787541B2 (en) Dynamic pre-filter control with subjective noise detector for video compression
US6904096B2 (en) Video data processing device and video data processing method
JPH0923423A (ja) 信号符号化方法、信号符号化装置及び信号記録媒体
RU2506711C2 (ru) Способ и устройство обработки изображения
US6185254B1 (en) Decoder, image encoding apparatus, image decoding apparatus, image transmitting method, and recording medium
EP0714210B1 (en) Method of reducing mosquito noise generated during decoding process of image data and device for decoding image data using the same
RU2494568C2 (ru) Способ и устройство обработки изображения
EP0680217B1 (en) Video signal decoding apparatus capable of reducing blocking effects
JP3651706B2 (ja) 動画像符号化装置
KR100229796B1 (ko) 열화영상에 대한 보상기능을 갖는 영상 복호화 시스템
KR20020001760A (ko) 영상 데이터 압축
US7593463B2 (en) Video signal coding method and video signal encoder
JP4028900B2 (ja) 動画像符号化装置及び動画像復号化装置
JP2004512784A (ja) エンベッドフィルタによるトランスコーディング方法及びトランスコーディング装置
JP2004023670A (ja) 画像符号化装置および同方式
JPH0998421A (ja) 画像符号化/復号化装置
JPS61288678A (ja) フレ−ム間符号化における量子化雑音抑圧方式
JP4185413B2 (ja) フリッカ低減量子化器、フリッカ低減量子化方法、及びそのプログラム

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): JP KR US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): CH DE FR GB NL

WWE Wipo information: entry into national phase

Ref document number: 1994917169

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 1019950700518

Country of ref document: KR

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 08379558

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 1994917169

Country of ref document: EP

WWG Wipo information: grant in national office

Ref document number: 1994917169

Country of ref document: EP