WO2001091467A1 - Method and device for encoding image - Google Patents

Method and device for encoding image Download PDF

Info

Publication number
WO2001091467A1
WO2001091467A1 PCT/JP2001/001828 JP0101828W WO0191467A1 WO 2001091467 A1 WO2001091467 A1 WO 2001091467A1 JP 0101828 W JP0101828 W JP 0101828W WO 0191467 A1 WO0191467 A1 WO 0191467A1
Authority
WO
WIPO (PCT)
Prior art keywords
video
encoding
shape
objects
coding
Prior art date
Application number
PCT/JP2001/001828
Other languages
English (en)
French (fr)
Inventor
Anthony Vetro
Huifang Sun
Original Assignee
Mitsubishi Denki Kabushiki Kaisha
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Denki Kabushiki Kaisha filed Critical Mitsubishi Denki Kabushiki Kaisha
Priority to JP2001586925A priority Critical patent/JP4786114B2/ja
Priority to EP01912202A priority patent/EP1289301B1/en
Publication of WO2001091467A1 publication Critical patent/WO2001091467A1/ja

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/20Contour coding, e.g. using detection of edges
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
    • H04N19/21Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding with binary alpha-plane coding for video objects, e.g. context-based arithmetic encoding [CAE]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
    • H04N19/29Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding involving scalability at the object level, e.g. video object layer [VOL]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/31Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the temporal domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/40Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video transcoding, i.e. partial or full decoding of a coded input stream followed by re-encoding of the decoded output stream

Definitions

  • the present invention relates generally to encoding and transcoding multiplexed video objects, and more particularly to a system for controlling the encoding and transcoding of multiplexed video objects using variable time resolution.
  • FDIS 14496-2 (MPEG4 Visual), see January 1998, can encode and decode objects of any shape as separate video object planes (VOPs) .
  • Objects can be visual, audio, natural, synthetic, primitive, composite, or a combination thereof.
  • Video objects are configured to form composite objects or "scenes.”
  • the emerging emerging MPEG-4 standard is intended to enable multimedia applications, such as interactive video, where natural and synthetic materials are integrated and universally accessible. MPEG-4 allows for content-based interactions. For example, you may want to “cut and paste” a person or object that moves from one video to another. In this type of application, it is assumed that the objects in the multimedia content have been identified using some type of segmentation process.
  • a network may represent a wireless channel or the Internet.
  • networks are limited in capacity and contention because resources must be decomposed when content needs to be transmitted.
  • Rate control is used to allocate the number of bits per coding time. Rate control ensures that the bitstream generated by the encoder satisfies the buffer constraints.
  • the rate control process provides a constant bit rate while trying to maximize the quality of the encoded signal.
  • frames such as MPEG-2
  • US Pat. No. 5, 847, 76 issued to Uz et al. No. 1 “Method for performing rate control in a video encoder which, provides a bit budget for each frame while employing virtual buffers and virtual buffer verifiersj.
  • Method for encoding based on an object such as MPEG-4 see 1 U.S. Pat. No. 5,969,764 issued to Sun and Vetro on Oct. 19, 1999
  • Bitstream conversion or “transcoding” can be categorized into bitrate conversion, resolution conversion, and syntax conversion. Bit rate conversion involves bit rate scaling and conversion between a constant bit rate (CBR) and a variable bitrate (VBR). The basic function of beat scaling is to take an incoming bit stream and generate a scaled output bit stream that meets the new load constraints of the receiver.
  • the bitstream scaler is a transcoder or filter that matches the source bitstream with the reception load. As shown in FIG. 7, usually, scaling can be accomplished by the transcoder 100.
  • the transcoder has a decoder 110 and an encoder 120.
  • the compressed input bit stream 101 is completely decoded at the input rate R in and is encoded at the new output rate R out 102 to generate the output bit stream 103.
  • the output rate is lower than the input rate
  • encoding the decoded bitstream is very complex. Due to the complexity, full decoding and full encoding at the transcoder is not performed, but instead transcoding is performed on the compressed or partially decoded bit stream.
  • Figure 8 shows an exemplary method, in which the video bitstream is simply partially decoded.
  • the macroblocks of the input bit stream 201 are subjected to variable length decoding (VLD) 210.
  • the input bit stream is also delayed 220 and inverse quantized (IQ) 230
  • VLD variable length decoding
  • IQ inverse quantized
  • the partially decoded data is analyzed 240 and a new quantizer is generated.
  • the set is applied to the DCT macroblocks with the code 250.
  • VLC variable length coding
  • the receiver may configure the object so that all pixels in the reconstructed scene are defined. Undefined pixels in the scene can result from background and foreground objects. Alternatively, overlapping objects are sampled at different temporal resolutions, and "ho 1 es" appear in the reconstructed scene. Therefore, it was important to maintain synchronization when changing the temporal resolution of multiple objects during encoding or transcoding. To further illustrate this point, consider a scene with relatively stationary background objects (eg, blank walls) and more active foreground objects, such as moving people. Background can be encoded at a relatively low temporal resolution (eg, 10 frames per second). Foreground objects are encoded with a higher temporal resolution of 30 frames per second.
  • relatively stationary background objects eg, blank walls
  • Foreground objects are encoded with a higher temporal resolution of 30 frames per second.
  • MPEG-7 The main application of MPEG-7 is expected to be search and retrieval applications. See "MPEG-7 Applicationsj ISO / IEC N2861, July 1999. For simple applications, the user specifies some attributes of a particular object. In this low-level representation, these attributes are May include descriptors that describe the texture, motion, and shape of a particular object.A method for representing and comparing shapes was submitted by Lin et al. On June 4, 1999. No. 09 / 326,759, “Method for Ordering Image Spaces to Represent Object Shapes”, a method for describing motion activity was submitted by Divakaran et al. On September 27, 1999. U.S. patent application Ser. No.
  • these properties may represent look-ahead information that the transcoder was supposed to be inaccessible to.
  • the encoder or transcoder has access to these properties because Only if the content is initially obtained from the content, i.e., the content is pre-processed and stored in a database with an associated media database.
  • the information itself has syntax or semantics. Syntax information describes the physical and logical signaling aspects of content. However, semantic information refers to the conceptual meaning of content. For video sequences, syntax elements can be related to the color, shape, and motion of a particular object, while semantic elements are Can refer to information that cannot be extracted from low-level descriptors, such as time and place, names of persons in a video sequence, etc.
  • Object-based encoder or transformer for video objects in scenes with variable temporal resolution It is desirable to maintain synchronization in the coder, and that such changes are desired to be identified using the video content menu.
  • the present invention provides a video coding apparatus and method. Coding according to the present invention can be accomplished by an encoder or transcoder.
  • the video is first divided into video objects. In the case of an encoder, this division is performed using a segmentation plane, and in the case of a transcoder, a demultiplexer is used. Used. Over time, shape features are extracted from each object. The shape feature can be obtained by measuring how the shape of each object evolves temporarily. Hamming or Hausdorff distance measurements may be used.
  • the extracted shape features are combined at a rate or transcoder control unit and the temporal resolution is determined over time for each object. Temporal resolution is used to encode various video objects. If necessary, motion features and coding complexity can also be considered and make trade-offs in temporal resolution determination.
  • FIG. 1 is a block diagram of a scene reconstructed from two video objects
  • FIG. 2 is a block diagram of a scene reconstructed from two video objects having different temporal resolutions.
  • FIG. 3 is a block diagram of the encoder according to the present invention.
  • FIG. 4 is a block diagram of a transcoder according to the present invention.
  • FIG. 5 is a flowchart of the encoding method according to the present invention.
  • FIG. 6 is a flowchart of an exemplary encoding method used by the method of FIG. 5
  • FIG. 7 is a block diagram of a conventional transcoder
  • FIG. 8 is a block diagram of a conventional partial decoder / encoder. BEST MODE FOR CARRYING OUT THE INVENTION
  • Temporal resolution controllers enable encoding, transcoding, and reconstruction of objects with variable and different temporal resolutions.
  • One of the main advantages of object-based coding schemes is that both the spatial and temporal resolution of an object can vary independently. It is desirable to provide higher spatial quality for more interesting objects such as human faces. The same applies to temporal resolution. However, there are significant subtleties in temporal resolution. That is, synchronization between objects in the scene must be maintained so that all pixels in the reconstructed scene are defined.
  • the video reconstruction of compressed video is specified by the normative part of most video standards (MPEG-1 / 2/4) and is processed by conventional decoders. Therefore, the decoder is not described herein.
  • the methods and apparatus described herein are applicable to object-based encoding and transcoding systems, as well as non-real-time and real-time applications.
  • the input video is not compressed during encoding, but is compressed during transcoding.
  • the output video is compressed during encoding and transcoding.
  • the mechanisms and approaches described herein can be seamlessly integrated into the architecture of conventional devices.
  • Figure 1 shows a scene 303 divided into two video objects, a foreground object 301 and a background object 302.
  • a scene can be reconstructed by combining two objects.
  • the foreground object is a moving person
  • the background object is a stationary wall.
  • the pixels of the background object and in the initial frame define all the pixels in the scene. If these two objects are encoded with the same temporal resolution, there is no problem with the object composition during image reconstruction in the receiver. All the pixels in the reconstructed scene 303 are defined.
  • problems arise when objects are encoded at different temporal resolutions.
  • the background is coded at a frame rate of 15 Hz
  • the foreground is coded at a frame rate of 30 Hz, twice the first rate.
  • foreground objects can also be relatively stationary, but have higher internal motion than background objects.
  • the foreground is rich in texture and has moving eyes, lips, and other moving facial features, while the background is a blank wall. Therefore, it is desirable to encode foreground with higher spatial and temporal resolution than background.
  • the foreground object is moving with respect to the background. In the sequences 401 to 403, time elapses from left to right.
  • sequence 4 0 1 is a background object encoded at a relatively low temporal resolution
  • sequence 4 0 2 is a foreground object encoded at a relatively high resolution
  • sequence 4 0 3 is It is a reconstructed scene.
  • Sequence 403 has a hole 404 in every other frame. These holes are caused by the movement of one object if you do not update adjacent or duplicate objects.
  • a hole is an uncovered area of the scene that cannot be associated with any object, and has no defined pixels. The hole disappears when the object is resynchronized (eg, every other frame).
  • Shape distortion metrics A method and apparatus for controlling and making decisions on the temporal resolution of an object according to the present invention indicates the amount of shape change (distortion) in a scene.
  • one shape feature measures the temporal shape difference of an object.
  • the encoder may determine the amount of temporal resolution used for each object during encoding or transcoding
  • the shape difference for each object is measured over time.
  • the shape difference is inversely proportional to the amount of variation in temporal resolution between objects. For a fixed amount of time, a small difference indicates a larger variation, while a large difference indicates a smaller variation. If the duration during which the objects are resynchronized is greater, the stored bits can be allocated to objects that need better quality.
  • the method for optimally synthesizing a time metric object works as follows. The video is sampled periodically, and the differences between the shapes of each object are found over time. If the shape difference of the object is small over time, increase the sampling period for measuring the difference. Continue increasing the sampling period until the difference is greater than the predetermined threshold D.
  • a frame is output to resynchronize the video object with the difference or to determine a new frequency at which the object should be synthesized.
  • the frequency may be based on an average, minimum, or intermediate time interval between synchronization frames. This frequency can be used to determine the optimal time rate for each of the various video objects.
  • Shape features based on differences For simplicity, only between two scenes, ie from one frame to the next Consider the difference in shape features to. However, such features may also be associated with scenes in various cue pelels. Kurepel is defined in US Patent Application No. 09 / 546,717, filed April 11, 2000 by Vetro et al., In the Adap table Bitstream Video Delivery Systemj.
  • the time controller can provide various ways to achieve the time resolution of the objects in the scene. These methods are applicable to both encoders and transcoders Hamming distance
  • the first difference considered in this application is the well-known Hamming distance
  • the Hamming distance is the difference between the two shapes. Measure the number of pixels First consider the binary shape, that is, the case where the segmentation (alpha) value can simply be zero or one. Refers to transparent pixels in the segmentation surface, 1 refers to the opaque pixels in the segment integrators one Chillon surface.
  • the Hamming distance d is defined by the following equation,
  • Hausdorff distance Another widely used shape difference measurement is the Hausdorff distance.
  • the Hausdorff distance is defined as the maximum function between two sets of pixels.
  • h (A, B) max x ⁇ min ⁇ d (a, b) ⁇
  • a and b are the sets of two video objects A and B respectively
  • d (a, b) is the Euclidean distance between these pixels.
  • the above metric indicates the maximum distance of a pixel in set A to the closest pixel in set B. Because this metric is not symmetric. That is, h (A, B) is not equal to h (B, A), and a more general definition is given by:
  • H (A, B) max ⁇ h (A, B), h (B, A) ⁇
  • the measurement of these differences is the most accurate when calculated in a pixel-domain, but an approximation from the compressed domain Note that data overnight can also be used in the above calculations. Pixel-domain data can be easily obtained in the encoder, but decoding of shape data cannot be realized by calculation for a transcoder. Instead, the data can be approximated in some computationally efficient way.
  • Shape features based on macro-programs For example, in MPEG-4, shapes are coded in various different modes and are performed at the macroblock level. For example, within a mode, a shape macroblock is coded as an opaque macroblock, a transparent macroblock, or a border macroblock.
  • FIG. 3 shows an object-based encoder 500 according to the present invention.
  • Encoders include switch 510, shape coder 520, motion estimator 530, motion compensator 540, motion coder 550, texture coder 560, VOP memory 570, multiplexer (MUX) 580, output buffer 590, and memory. It has an evening storage unit 591.
  • the encoder also has a rate control unit (RCU) 592 for performing a QP texture analyzer, a time analyzer, a shape analyzer, and a data analyzer 593-596.
  • the input to the encoder 500 is a video (input) 501 based on the object.
  • a video is composed of image sequence data and a segmentation (alpha) plane that defines the boundary (shape) of each video object.
  • Encoder Operation The shape coder 520 processes the shape of each object and writes the result of the shape coding to the output bit stream (output) 509 via the MUX 580 and the buffer 590.
  • Shape data may also be used for motion estimator 530, motion compensator 540, and texture coder 560.
  • shape data is used to extract the shape characteristics of each object.
  • the objects, and their associated shape and motion features, are stored in the memory 570.
  • motion estimator 530 a motion vector is determined for each macroblock.
  • the motion vectors are also coded and written to the output bitstream via MUX and buffer.
  • a motion compensated prediction is formed from the video object data stored in the VOP memory 570. This prediction is subtracted 541 from the input object to generate a set of residual macroblocks.
  • These residual macroblocks are subjected to a texture coder 560 and the corresponding data is written to the output bitstream. Texture coding follows the QP control signal provided by the RCU.
  • the RCU 592 quantization parameters (QP) is responsible for selecting the appropriate quantization parameters QP for each video object. This is done using the model This is done by estimating the corresponding quantization parameter QP according to the assigned rate budget.
  • the time analysis is described in detail below. Briefly, temporal analysis involves controlling the temporal resolution of each object during coding and transcoding. In the prior art, as described above with reference to FIG. 8, in order to avoid a configuration problem, the time resolution of all video objects is the same. Therefore, in the prior art, the time resolution for various objects has not been considered independently. Also, in the prior art, the temporal analysis provided a signal to skip all video objects if the output buffer was at risk of overflow. The present invention provides a better solution.
  • Shape analysis 5 955 extracts the shape features used by temporal analysis to see if variable time resolution can be achieved without problems, i.e. avoid holes even if the time coding rates of different objects are different Involved in deciding if they can do it. Shape analysis can work in real-time coding mode.
  • the data is obtained from the VOP memory 570.
  • FIG. 4 shows a high-level block diagram of an object-based transcoder 600 according to another embodiment of the present invention.
  • the input video is already compressed.
  • the transcoder 600 has a demultiplexer (DE-MUX) 601, a multiplexer (MUX) 602, and an output buffer 603.
  • DE-MUX demultiplexer
  • MUX multiplexer
  • the transcoder 600 also has a transcoder 630 based on one or more objects operated by a transcoding control unit (TCU) 610 according to the control information 604.
  • the unit TCU has a shape analyzer, a QO texture analyzer, a time analyzer, and a data analyzer 611-614.
  • the compressed input bit stream 605 is divided by a demultiplexer into elementary bit streams based on one or more objects.
  • the bitstream based on the object can be serial or parallel.
  • the total bit rate of bit stream 605 is R in .
  • the compressed output bit stream 606 from the transcoder 600 is full bit rate R. have ut , r. ut ⁇ Rin.
  • the demultiplexer 601 provides one or more elementary bitstreams to each of the object-based transcoders 630, and the object-based transcoder provides the object decoder 607 to the TCU 610.
  • the transcoder scales the elementary bitstream.
  • the scaled bit stream is formed by the multiplexer 602 before being passed to the output buffer 603, from where it is passed to the receiver.
  • Output buffer 603 also provides rate feedback information 608 to the TCU.
  • the control information 604 passed to each of the transcoders is
  • FIG. 5 shows the steps of a method 700 for encoding and transcoding a video input 700 according to the present invention.
  • the video input 701 used in this method is an uncompressed video in the case of the encoder 500, and is a compressed video in the case of the transcoder 600.
  • the video input 701 is divided into objects 711.
  • shape features 721 are extracted with time from each object.
  • Shape extraction may be based on distances or macroblocks, as described above.
  • the motion features are selectively extracted from each object over time.
  • Other features that can be extracted and considered to determine the optimal temporal resolution include coding complexity, eg, spatial complexity, DCT complexity, texture complexity, and so on.
  • the extracted features are combined to determine the temporal resolution 740 to be used while encoding or transcoding the various objects 711 in step 750. Is done.
  • Exemplary Encoding Scenarios FIG. 6 shows some exemplary encoding scenarios based on analyzing the evolution of a video object over time.
  • the inputs are the first and second extracted object sequences 81-802.
  • 0 plots shape features, for example, time-dependent (t) shape differences ( ⁇ ). Note that the object shape between times t and 2 is relatively constant. Graphs 811 and 821 selectively plot the internal motion characteristics of each of the effects over time. The first object has very high internal motion Note that the internal motion of the second object is very high, while small.
  • Combiner 850 (RCU 592 or TCU 610) considers the features extracted, possibly using a maximum, sum, comparison, or other combinational function, and considers how the resulting bits should be during actual coding. Decide whether to best distribute it across the various objects. In scenario 831, the first object is not coded at all in the event [tt 2 ], and all resulting bits are allocated to the second object.
  • the core of the object-based transcoder of the present invention is the adaptation of the MPEG-12 transcoder described above.
  • the main difference is that the shape information is included in the bit stream, and for texture coding, a rule is provided to predict DC and AC for the inside of the block. It is also important to note that the transcoding of the texture is actually dependent on the geometry. In other words, shape data cannot simply be analyzed and ignored.
  • the syntax of the standard bit stream depends on the decoding shape data. Obviously, input and output bit streams based on the object of the present invention
  • MPEG-2 also does not allow for dynamic frame skipping.
  • the G0P structure and the reference frame are usually fixed.
  • the content 651 and the corresponding content descriptor 652 are stored in the database 650 overnight.
  • the content descriptor is generated from a feature extractor 640, which receives a bitstream 605 based on the input object.
  • the input bit stream is provided to the demultiplexer 601 and the transcoder, as described above.
  • the message is sent to the message analyzer 614 in the TCU.
  • Temporal analysis functionality The main purpose of the time controller in an object-based encoder or transcoder is to avoid the configuration problems described above with reference to Figure 2 while maintaining the quality of the configuration scene at the receiver. Is to maximize. In order to maximize the quality under these constraints, it is necessary to utilize the time redundancy in the signal as much as possible. According to most video coding schemes, temporal redundancy is eliminated in the motion compensation process. However, specifying the motion vector for every coding unit or macroblock can be more than is actually needed. In addition to the bits for the motion vector, the rest of the motion compensation difference must also be coded. The important point is that not all objects need to be coded hourly to maximize quality. Thus, these stored bits can be used at different times for still other important objects.
  • the time controller uses the shape distortion metrics to indicate the amount of movement in the shape in the scene.
  • This measurement may relate to scenes at various cue pelels as defined in US patent application Ser. No. 09 / 546,711.
  • the time controller may provide various ways to impact the time resolution of the objects in the scene. These methods are applicable to encoders and transcoders.
  • the time controller works similarly. However, observations are limited due to potential limitations, so only causality is considered. Thus, the time coding decision is made immediately.
  • the extraction of the shape distortion metric can be performed on either the pixel or the compressed domain.
  • tolerances can be introduced into the time control decision process. In other words, if the gain in the defined area is significant, some applications may tolerate a small amount of undefined area. In this case, a weight between [0, 1] is defined. Here, 0 means that there is no movement at the shape boundary, and 1 means that the shape boundary is completely different.
  • the weights are a function of the shape distortion metrics defined above and may correspond to percentages or normalized values. On the other hand, in applications that do not consider the construction problem at all, this weighting does not exist. Rather, only overweighting (ie, 0 or 1) is valid
  • the time controller provides the following effects and advantages. Determines the instant at which an object can be encoded or transcoded using a variable temporal resolution. Assign a fixed, non-uniform frame rate to the video segment object. Extracts or headlines keyframes and enables content summarization. Improve bit allocation or save bits for parts of the image (frames) where the shape of the object changes significantly. Such frames require more bits than needed for shape information. Additional bits may be needed to maintain the quality of the texture information.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

明 細 書 映像をコード化するための方法及び装置 技術分野
この発明は、 一般に、 多重映像オブジェクトを符号化およびトランスコード化 することに関し、 特に、 可変時間解像度を用いた多重映像オブジェクトの符号化 およびトランスコード化を制御するシステムに関するものである。 背景技術
近年、 符号化された情報を通信するための多数の基準が開発されてきた。 映像 シーケンスについては、 最も広範囲に用いられている基準として、 M P E G— 1 (動画の格納および取り出し用) 、 M P E G— 2 (デジタルテレビ用) 、 および H . 2 6 3が挙げられる。 『ISO/IEC JTC1 CD 11172、MPEG、 「Information Tecnnology- Coding oi Moving Pictures and Associated Audio for Digital Storage Media up to about 1.5 Mbit/s-Part2:Coding of Moving Pictures Informationj 1 9 9 1年、 LeGall、 「MPEG:A Video Compression Standard for Multimedia Applicationsj Communications of the ACM、 3 4卷 4号、 4 6 から 5 8頁、 1 9 9 1年、 ISO/IEC DIS 13818-2、 MPEG-2、 「Information Technology- Generic Coding of Moving Pictures and Associated Audio
Information-Part2:Videoj 1 9 9 4年、 ITU-T SGXV、 DRAFT H.263、 「Video Coding for Low Bitrate Communicationj 1 9 9 6年、 ITU-T SGXVI、
DRAFT13 H.263+Q15-A-60rev.O, 「 Video Coding for Low Bitrate
Communicationj 1 9 9 7年』 を参照のこと。 これらの基準は、 映像シーケンスの空間および時間圧縮を主として取り扱う比 較的低レベルの規格である。 共通の特徴として、 これらの基準は、 フレーム毎の 圧縮を行う。 これらの基準を用いることによって、 広範囲な応用に対して高圧縮 比を成し遂げることができる。 M P E G— 4 (マルチメディア応用) などの新しい映像コーディング基準 ( 「 丄 niormation Technology Generic coding of auctio/visual objectsj ISO/IEC
FDIS 14496-2 (MPEG4 Visual) 、 1 9 9 8年 1 1月を参照) では、 任意の形 状のオブジェクトを別個の映像オブジェクト面 (V O P ) として符号化および復 号化することが可能である。 オブジェクトは、 視覚、 音声、 自然、 合成、 プリミ ティブ、 複合、 またはその組み合わせであり得る。 映像オブジェクトは、 複合ォ ブジェクトまたは 「シーン」 を形成するように構成される。 新しく浮上しつつある M P E G— 4基準は、 自然および合成材料が統合され、 アクセスが普遍的である、 イン夕ラクティブ映像などのマルチメディア応用を可 能にすることを意図している。 M P E G— 4は、 コンテンツに基づいた相互作用 を考慮している。 例えば、 1つの映像から他の映像に動く人物またはオブジェク トを 「切貼り」 したい場合がある。 このタイプの応用では、 マルチメディアコン テンヅにおけるオブジェクトは、 何らかのタイプのセグメンテ一シヨンプロセス を用いて識別されていると想定される。 例えば、 リン (Lin) らによって 1 9 9 9年 6月 4日に提出された米国特許出願第 0 9 Z 3 2 6 , 7 5 0号、 「Method tor Ordering Image Spaces to Search lor Object Surtaces」 を参,照のこと。 映像送信では、 これらの圧縮基準は、 ネットワークによって必要とされる帯域 幅 (利用可能なビットレート) の量を低減するために必要である。 ネットワーク は、 無線チャネルまたはインタ一ネットを表し得る。 いずれにせよ、 ネットヮ一 クは、 コンテンツを送信する必要があるときにリソースが分解されなければなら ないため、 容量およびコンテンションが限定される。 長年にわたって、 デバイスが映像コンテンツを安定して送信し、 コンテンツの 品質を利用可能なネットワークリソースに適用することを可能にするァ一キテク チヤおよびプロセスに多大な努力が払われてきた。 コーディング時間毎のビット' 数を割り付けるためにレート制御が用いられる。 レート制御は、 符号化器によつ て生成されるビヅトストリームがバッファ制約を満足することを確実にする。 レート制御プロセスは、 符号化された信号の品質を最大にすることを試みると 共に、 一定のビットレートを提供する。 M P E G— 2などのフレームに基づいた 符号化については、 1 9 9 8年 1 2月 8日付けでゥズ (Uz) らに発行された米 国特 S午第 5 , 8 4 7 , 7 6 1号 「Method for performing rate control in a video encoder which, provides a bit budget for each frame while employing virtual buffers and virtual buffer verifiersj を参照のこと。 M P E G— 4などのォブジ ェクトに基づいた符号化については、 1 9 9 9年 1 0月 1 9日付けでサン (Sun ) およびべト口 (Vetro) に発行された米国特許第 5 , 9 6 9 , 7 6 4号 「
Adaptive video coding methodj を参照、のこと。 コンテンヅがすでに符号化されている場合、 ストリームが、 例えば、 利用可能 なビットレートの減少に対処するためにネヅトワークを通して送信される前に、 すでに圧縮されたビッ トストリームをさらに変換する必要がある場合もある。 ビ ヅ トストリーム変換または 「トランスコーディング」 は、 ビットレ一ト変換、 解 像度変換、 およびシンタックス変換に分類することができる。 ビットレート変換 には、 一定のビットレ一ト (C B R ) と可変ビットレート (V B R ) との間のビ ヅトレ一トスケーリングおよび変換が含まれる。 ビヅトレートスケ一リングの基 本的な機能は、 入力ビヅトストリームを受け、 受信機の新しい負荷制約に合致す るスケーリングされた出力ビヅトストリームを生成することである。 ビヅトスト リームスケ一ラは、 ソースビヅトストリームと受信負荷とを一致させるトランス コーダ、 またはフィル夕である。 図 7に示すように、 通常、 スケーリングは、 トランスコーダ 1 0 0によって成 し遂げられ得る。 力ずくの場合、 トランスコーダは、 復号化器 1 1 0および符号 化器 1 2 0を有する。 圧縮された入力ビヅ トストリーム 1 0 1は、 入力レート R i nで完全に復号化され、 新しい出力レート R o u t 1 0 2で符号化され、 出力 ビットストリーム 1 0 3を生成する。 通常、 出力レートは入カレ一卜よりも低い
。 しかし、 実際には、 復号化されたビットストリームを符号化するのは非常に複 雑であるため、 トランスコーダにおける完全な復号化および完全な符号化は行わ れず、 その代わりに圧縮されたまたは部分的に復号化されたビットストリームに 対してトランスコ一ディングが行われる。
M P E G— 2に対する初期の研究は、 「 Architectures for MPEG compressed bitstream scalingj 、 IEEE Transactions on Circuits and Systems for Video Technology, 1 9 9 6年 4月においてサン (Sun) らによって公開されている。 この文献では、 複雑さおよびアーキテクチャを変化させた 4つのレート低減方法 が示されている。 図 8は、 例示的な方法を示している。 このアーキテクチャでは、 映像ビヅトス トリームは単に部分的に復号化されている。 具体的には、 入力ビットストリーム 2 0 1のマクロブロックは、 可変長復号化 (V L D ) 2 1 0される。 入力ビヅト ストリームはまた、 遅延 2 2 0され、 逆量子化 (I Q ) 2 3 0され、 離散コサイ ン変換 (D C T ) 係数を生成する。 所望の出力ビットレートが与えられると、 部 分的に復号化されたデ一夕は分析 2 4 0され、 新しい量子化器のセットは符号 2 5 0で D C Tマクロブロックに適用される。 これらの再量子化されたマクロブロ ヅクは、 次に、 可変長コード化 (V L C ) 2 6 0され、 より低いレートの新しい 出力ビットストリーム 2 0 3が形成され得る。 この方式は図 7に示す方式よりも はるかに簡単である。 なぜなら、 運動ベクトルが再使用され、 逆 D C T操作の必 要がないからである。 ァサンカオ (Assuncao) らのさらに最近の研究では、 「A frequency domain video transcoder lor dynamic bit-rate reduction of MPEG-2 bitstreamsj IEEE Transactions on Circuits and Systems for Video Technology、 9 5 3から
9 5 7頁、 1 9 9 8年 1 2月において、 同じタスクに対する簡略化されたァーキ テクチヤについて記載している。 ァサンカオ (Assuncao) らは、 ドリフト補償 のために周波数ドメインにおいて動作するモーション補償 (M C ) ループを用い ている。 近似マトリクスは、 周波数ドメイン内の M Cマクロブロックの迅速な計 算のために得られる。 ラグランジュ最適化は、 トランスコーディングのための最 良の量子化器スケールを計算するために用いられる。 ソリアル (Sorial) らの他の研究、 「 Joint transcoding of multiple MPEG video bitstreams」Proceedings of the International Symposium on Circuits and Systems, 1999年 5月は、 多重 MPEG— 2ビヅトストリームを共同で トランスコードする方法を示している。 ペトロ (Vetro) らによって 1999年 10月 1日付けで提出された米国特許出願第 09/410,552号 「
Estimating Rate-Distortion Characteristics oi Binary Shape Dataj も参照の こと。 従来の圧縮基準によると、 テクスチャ情報を符号化するために割り付けられる ビットの数は、 量子化パラメ一夕 (QP) によって制御される。 上記の文献も同 様である。 元のビットストリームに含まれる情報に基づいて QPを変更すること によって、 テクスチャビットのレートは低減される。 効率的な実施のために、 情 報は、 通常、 圧縮されたドメイン内で直接抽出され、 マクロブロックの運動また は D CTマクロブロックの残留エネルギーに関連する測度を含み得る。 このタイ プの分析は、 図 8のビット割り付け分析器 240において見出すことができる。 上記の従来のトランスコ一ディング法に加えて、 新しいトランスコーディング 法がいくつか記載されている。 例えば、 2000年 2月 14日にベトロ (Vetro ) らによって提出された米国特許出願第 09/504,323号「Object-Based Bitstream Transcoderj を参照のこと。 この文献では、 従来のトランスコーデ ィングシステムの制限を克服する情報搬送システムについて記載されている。 従 来のシステムは、 低減可能なレートの量においていくぶんか拘束される。 従来の システムはまた、 全体的な知覚品質を考慮せず、 むしろ、 PSNRなどの客観的 測度が支配していた。 ベトロ (Vetro) らによって記載されているシステムでは、 変換はより柔軟で 、 品質の測定は、 従来のビット毎の相違から逸脱している。 ベトロ (Vetro) は、 非常に特有な方法で映像コンテンツをまとめている。 ォ ブジェクトに基づいたフレーム構造内で、 個々の映像オブジェクトは異なる品質 でトランスコードされる。 品質の相違は、 空間品質または時間解像度 (品質) の いずれかに関連し得る。 時間解像度がシーン内のオブジェクト間で変化する場合、 すべてのオブジェク 卜が互いに何らかのタイプの時間同期を維持することが重要である。 時間同期が 維持されると、 受信機は、 再構築されたシーン内のすべての画素が規定されるよ うにォブジェクトを構成し得る。 シーン内で規定されていない画素は、 背景および前景ォブジェクトから生じ得 る。 あるいは、 重複するオブジェクトは、 異なる時間解像度でサンプリングされ 、 再構成されたシーン内で 「ホール (h o 1 e s ) 」 が現れる。 従って、 符号化 またはトランスコーディング中の多重ォプジェクトの時間解像度を変化させる場 合、 同期が維持されることは重要であった。 この点をさらに例示するために、 比較的静止した背景オブジェクト (例えば、 空白の壁) および動いている人などのさらに活動的な前景オブジェク卜があるシ —ンについて考えよう。 背景は、 比較的低い時間解像度 (例えば、 1秒当たり 1 0フレーム) で符号化され得る。 前景オブジェクトは、 1秒当たり 3 0フレーム のより高い時間解像度で符号化される。 これは、 前景オブジェクトがあまり動か ない限り良好である。 しかし、 万一前景オブジェクトが背景に対して動くと、 「 ホール」 が背景の部分に現れ、 前景オブジェクトによって塞ぐことはできない。 本発明の目的は、 上記の問題を解決し、 可変時間解像度を用いて多重オブジェ クトの符号化およびトランスコ一ディングを可能にすることである。 MPE G基準委員会によつて行われている最近の基準化に向けての取り組みは 、 正式には 「Multimedia Content Description Interfacej と呼ばれる MP EG 一 7である。 「MPEG-7 Context;、 Objectives and Tec inical Roadmapj 、 ISO/IEC N2861, 1999年 7月を参照のこと。 実質的には、 この基準は、 様々 なタイプのマルチメディアコンテンツを記述するために用いられ得る記述子のセ ットおよび記述方式を導入することを計画している。 記述子および記述方式は、 コンテンヅ自体と関連し、 特定のュ一ザに関心のあるマテリアルの迅速かつ効率 的な検索を考慮する。 この基準は、 以前のコーディング基準に置き換わるもので はなく、 むしろ、 他の基準表現 (特に、 MPEG— 4) の上に構築されることに 留意することが重要である。 これは、 マルチメディアコンテンツが異なるォブジ ヱク卜に分解され、 各ォプジヱクトには特有の記述子のセットが割り当てられる からである。 また、 この基準は、 コンテンヅが保存される形式とは独立している
MPEG- 7の主な応用は、 検索および取得の応用であることが期待される。 「MPEG-7 Applicationsj ISO/IEC N2861、 1999年 7月を参照のこと。 簡単 な応用では、 ュ一ザは特定オブジェクトのいくつかの属性を指定する。 この低レ ベルの表現では、 これらの属性は、 特定オブジェクトのテクスチャ、 モ一シヨン 、 および形状を記述する記述子を含み得る。 形状を表現し、 比較する方法は、 リ ン (Lin) らによって 1999年 6月 4日付けで提出された米国特許出願第 09 / 326, 759号「Method for Ordering Image Spaces to Represent Object Shapes」 に記載され、 モーションアクティビティを記述する方法は、 デバカラ ン (Divakaran) らによって 1999年 9月 27日付けで提出された米国特許出 願第 09/406,444号 ("Activity Descriptor for Video Sequencesj に記載 されている。 より高いレベルの表現を得るためには、 いくつかの低レベルの記述 子を組み合わせるさらに複雑な記述方式を考慮することができる。 事実、 これら の記述方式は、 他の記述方式を含み得る。 「MPEG-7 Multimedia Description Schemes WD(V1.0)」 ISO/IEC N3113、 1999年 12月およびリン (Lin) ら によって 1999年 8月 30日付けで提出された米国特許出願第 09 385, 1 6 9号「Method for representing and comparing multimedia contentj を参 照のこと。 これらの記述子および記述方式によって、 ユーザは、 符号化器またはトランス コーダによって従来では得られなかった映像コンテンヅの特性にアクセスするこ とができる。 例えば、 これらの特性は、 トランスコーダがアクセスできないと想 定されていたルックァへッド倩報を表し得る。 符号化器またはトランスコーダが これらの特性にアクセスするのは、 これらの特性が初期にコンテンツから得られ る、 即ち、 コンテンツが予め処理され、 関連するメ夕デ一夕を有するデ一夕べ一 スに格納される場合だけである。 情報自体は、 シンタックスまたはセマンティックスのいずれかであり得る。 シ ンタックス情報とは、 コンテンヅの物理的および論理的信号局面を指し、 セマン ティヅクス情報とは、 コンテンツの概念的な意味を指す。 映像シーケンスについ ては、 シンタックス要素は、 特定オブジェクトの色、 形状、 およびモーションに 関連し得る。 他方、 セマンティックス要素は、 事象の時間および場所、 映像シー ケンス内の人名などの、 低レベル記述子から抽出することができない情報を指し 得る。 可変時間解像度を有するシーンにおける映像オブジェクトのためのオブジェク トに基づいた符号化器またはトランスコーダにおける同期を維持することが望ま れる。 さらに、 このような変化は、 映像コンテンツメ夕デ一夕を用いて識別され ることが望まれる。 発明の開示
本発明は、 映像のコーディング装置および方法を提供する。 本発明によるコ一 デイングは、 符号化器または卜ランスコーダによって成し遂げられ得る。 映像は 、 まず、 映像オブジェクトに分割される。 符号化器の場合、 この分割は、 セグメ ンテ一シヨン面を用いて行われ、 トランスコーダの場合にはデマルチプレクサが 用いられる。 経時的に、 形状特徴は、 各オブジェクトから抽出される。形状特徴 は、 各オブジェクトの形状が絰時的にどのように展開するかを測定することによ つて得ることができる。 ハミングまたはハウスドルフ距離測定が用いられ得る。 抽出された形状特徴はレートまたはトランスコ一ダ制御ュニットで組み合わされ 、 各ォブジェクトに対して経時的に時間解像度が決定される。 時間解像度は、 様 々な映像オブジェクトを符号化するために用いられる。 必要に応じて、 モ一ショ ン特徴およびコ一ディング複雑さはまた、 時間解像度決定におけるトレードオフ を行うと共に考慮され得る。 映像が圧縮されていないデ一夕である場合、 分割、 組み合わせ、 およびコーデ イングは符号化器において行われる。 圧縮された映像については、 デマルチプレ クシング、 組み合わせ、 およびコーディングがトランスコーダにおいて行われる 。 後者の場合、 圧縮映像におけるオブジェクトの境界ブロックは、 形状特徴を抽 出するために用いられる。 本発明の 1つの態様では、 異なるオブジェクトは、 異 なる時間解像度またはフレームレートを有し得る。 図面の簡単な説明
図 1は、 2つの映像オブジェクト ら再構築されたシーンのブロック図、 図 2は、 異なる時間解像度を有する 2つの映像オブジェクトから再構築された シーンのブロヅク図、
図 3は、 本発明による符号化器のプロック図、
図 4は、 本発明によるトランスコーダのブロック図、
図 5は、 本発明による符号化法のフロ一チャート、
図 6は、 図 5の方法によって用いられる例示的な符号化法のフローチャート、 図 7は、 従来のトランスコーダのブロック図、
図 8は、 従来の部分復号化器/符号化器のプロック図である。 発明を実施するための最良の形態
可変時間解像度符号化およびトランスコーディングに関する概説 本発明は、 シーンにおける多重映像オブジェクトを符号化およびトランスコー ディングしながら時間解像度を制御するための方法および装置を提供する。 時間 解像度コントローラは、 可変時間解像度および異なる時間解像度を有するォプジ ェクトの符号化、 トランスコーディング、 および再構築を可能にする。 オブジェ クトに基づいたコ一ディング方式の主な利点の 1つは、 オブジェクトの空間およ び時間解像度の両方が独立して変化し得ることである。 人間の顔などのさらに興味深いォブジェクトにより高い空間品質を提供するこ とが望まれる。 同じことは時間解像度にも当てはまる。 しかし、 時間解像度では 、 重大な微妙さが存在する。 即ち、 シーン内でのオブジェクト間の同期は、 再構 築されたシーン内のすべての画素が規定されるように維持されなければならない 。 圧縮映像の映像再構築が大部分の映像基準 (M P E G - 1 / 2 /4 ) の規範部 分によって規定され、 従来の復号化器によって処理されることに留意されたい。 従って、 復号化器については、 本明細書には記載しない。 本明細書に記載する方法および装置は、 オブジェクトに基づいた符号化および トランスコーディングシステム、 ならびに非リアルタイムおよびリアルタイム応 用に適用可能である。 入力映像は、 符号化中には圧縮されず、 トランスコ一ディ ング中には圧縮される。 出力映像は、 符号化中およびトランスコーディング中に 圧縮される。 本明細書で記載する機構および手法は、 従来のデバイスのァ一キテ クチャにシ一ムレスに統合され得る。
図 1は、 2つの映像オブジェクト、 即ち、 前景オブジェクト 3 0 1および背景 オブジェクト 3 0 2に分割されたシーン 3 0 3を示す。 シーンは、 2つのォブジ ェクトを組み合わせることによって再構築され得る。 この簡単な例では、 前景ォ ブジェクトは、 動く人であり、 背景オブジェクトは、 静止した壁である。 前景お よび背景オブジェクトの画素は、 初期のフレームにおいて、 シーン内のすべての 画素を規定することに留意されたい。 これらの 2つのオブジェクトが同じ時間解 像度で符号化され場合、 受信機内での画像再構築中にはォブジェクト構成には問 題はない。 再構築されたシーン 3 0 3内の画素はすべて規定されている。 しかし、 オブジェク卜が異なる時間解像度で符号化される場合に問題が生じる 。例えば、 背景は 1 5 H zのフレームレートで符号化され、 前景は、 第 1のレー トの 2倍の 3 0 H zのフレームレートで符号化される。 一般に、 2つのオブジェ クトは、 独立したモーションを有し、 それぞれに関連する画素は各フレームにお いて変化する。 さらに、 前景オブジェクトはまた比較的静止し得るが、 背景ォプ ジェク卜よりも高い内部モーションを有することに留意されたい。 例えば、 前景 はテクスチャが豊富であり、 動く目、 唇、 および他の動く顔の特徴部を有するの に対して、 背景は空白の壁である。 従って、 背景よりも前景をより高い空間およ び時間解像度で符号化することが望まれる。 本実施例では、 図 2のシーケンスに示すように、 前景オブジェクトは、 背景に 対して動いている。 シーケンス 4 0 1から 4 0 3では、 時間は左から右へと経過 する。 ここで、 シーケンス 4 0 1は、 比較的低い時間解像度で符号化された背景 オブジェクトであり、 シーケンス 4 0 2は、 比較的高い解像度で符号化された前 景オブジェクトであり、 シーケンス 4 0 3は、 再構築されたシーンである。 シ一 ケンス 4 0 3には、 1つ置きのフレームにホール 4 0 4が生じる。 これらのホー ルは、 隣接したオブジェクトまたは重複したオブジェクトを更新しない場合に、 1つのオブジェクトの移動によって発生する。 ホールは、 いずれのオブジェクト とも関連し得ないシーンのカバ一されていない領域であり、 画素は規定されてい ない。 ホールはオブジェクトが (例えば、 フレーム置きに) 再同期されると消え る。 形状歪みメトリクス 本発明によるォブジヱク卜の時間解像度についての決定を制御および行うため の方法および装置は、 シーンにおける形状変化 (歪み) 量を示す。 本明細書では
、 この目的のために抽出され得る多数の形状特徴について記載する。 例えば、 1 つの形状特徴は、 絰時的なオブジェクトの形状差を測定する。 様々なォブジェク トの形状特徴が抽出および比較された後、 符号化器は、 符号化またはトランスコ —ディング中に各オブジェク卜に対して用いられる時間解像度の量を決定し得る
各オブジェクトについての形状差は、 経時的に測定される。 形状差は、 ォブジ ェクト間の時間解像度における変動量と逆比例する。 固定時間量では、 小さな差 は、 より大きな変動を示すのに対して、 大きな差は、 より小さな変動を示す。 ォ ブジェクトが再同期される間の持続時間がより大きくなれば、 保存されているビ ットは、 より良好な品質を必要とするオブジェク卜に割り付けられ得る。 時間メトリクス オブジェクトを最適に合成する方法は以下のように動作する。 映像を定期的に サンプリングし、 各ォブジェクトの形状間の差を経時的に見出す。 オブジェクト の形状差が経時的に小さい場合には、 差を測定するためのサンプリング期間を増 加させる。 差が所定の閾値 Dよりも大きくなるまでサンプリング期間を増加し続 ける。 この時点で、 フレームを出力して、 その差を有する映像オブジェクトを再 同期させるか、 またはオブジェクトが合成されるべき新しい周波数を決定する。 周波数は、 同期フレーム間の平均、 最小、 または中間時間間隔に基づき得る。 こ の周波数は、 様々な映像ォブジェク卜のそれぞれに対する最適な時間レ一トを决 定するために用いられ得る。 差に基づいた形状特徴 簡単のため、 2つのシーンのみの間、 即ち、 1つのフレームから次のフレーム への形状特徴における差を考える。 しかし、 このような形状特徴はまた、 様々な キューレペルでのシーンに関連し得る。 キューレペルは、 2 0 0 0年 4月 1 1日 付けでベトロ (Vetro) らによって提出された、 米国特許出願第 0 9 / 5 4 6,7 1 7号、 「Adap table Bitstream Video Delivery Systemj において定義されて いる。 この文献を本願では参照することで援用する。 形状特徴が抽出されるキューレペルによって、 時間コントローラは、 シーン内 のオブジェク卜の時間解像度を成し遂げるための様々な方法を提供し得る。 これ らの方法は、 符号化器およびトランスコーダの両方に適用可能である。 ハミング距離 本願で考慮する第 1の差は、 周知のハミング距離である。 ハミング距離は、 2 つの形状間の差である画素数を測定する。 まず、 バイナリ形状、 即ち、 セグメン テーシヨン (アルファ一ひ) 値が単にゼロまたは 1であり得る場合について考え る。 ここで、 ゼロはセグメンテーション面における透明画素を指し、 1はセグメ ンテ一シヨン面における不透明画素を指す。 この場合、 ハミング距離 dは、 以下 の式で定義され、
ここで、 ひ i (m, n) および α 2 (m, n) は、 異なる時間における対応する セグメンテ一シヨン面である。 ハウスドルフ距離 他の広範囲に用いられている形状差測定は、 ハウスドルフ距離である。 ハウス ドルフ距離は、 2つの画素セット間の最大関数として定義される。
h (A , B ) =m a x {m i n { d ( a , b ) } }
ここで、 aおよび bは、 2つの映像オブジェクトのセット Aおよび Bのそれぞれ の画素であり、 d (a, b) は、 これらの画素間のユークリッド距離である。 上 記のメトリヅクは、 セヅト Bにおける最近似画素までのセット Aにおける画素の 最大距離を示す。 なぜなら、 このメトリックは対称ではないからである。 即ち、 h (A, B) は、 h (B, A) とは等しくなく、 より一般的な定義は、 以下の式 によって表される。
H (A, B) =max {h (A, B) , h (B, A) } これらの差の測定は、 画素一ドメイン内で計算されるとき最も正確であるが、 圧縮ドメインからの近似デ一夕もまた上記の計算において用いられ得ることに留 意されたい。 画素一ドメインデ一夕は、 符号化器において容易に得られるが、 ト ランスコーダについては、 形状デ一夕を復号化することは計算上実現できない。 その代わりに、 デ一夕は何らかの計算上効率的な方法で近似され得る。 マクロプロヅクに基づいた形状特徴 例えば、 MPEG— 4において、 形状は、 様々に異なるモ一ドでコード化され 、 マクロブロックレベルで行われる。 例えば、 モ一ド内では、 形状マクロプロヅ クは、 不透明マクロプロック、 透明マクロブロック、 または境界マクロブロック としてコード化される。 言うまでもなく、 境界ブロックは、 オブジェクトの形状 を規定する。 これらのコーディングモードは、 バイナリ形状のマクロブロックレ ベルシルエットを再構築するために用いられ得る。 言うまでもなく、 画素レベル のメトリックほどは正確ではないが、 複雑さの観点では全く実現可能である。 符号化器の構造 図 3は、 本発明によるオブジェク卜に基づいた符号化器 500を示す。 符号化 器は、 スィツチ 510、 形状コーダ 520、 モーション推定器 530、 モ一ショ ン補償器 540、 モーションコーダ 550、 テクスチャコーダ 560、 VOPメ モリ 570、 マルチプレクサ (MUX) 580、 出力バッファ 590、 およびメ 夕デ一夕格納ユニット 591を有する。 符号化器はまた、 QPテクスチャ分析器 、 時間分析器、 形状分析器、 及びメ夕デ一夕分析器 593〜596を行うための レート制御ユニット (RCU) 592を有する。 符号化器 500への入力はォプ ジェクトに基づいた映像 (入力) 501である。 映像は、 画像シーケンスデータ 、 及び各映像オブジェクトの境界 (形状) を規定するセグメンテーション (アル ファ) 面で構成される。 符号化器の動作 形状コーダ 520は、 各ォブジェクトの形状を処理し、 形状コ一ディングの結 果を MUX 580およびバッファ 590を介して出力ビヅトストリーム (出力) 509に書き込む。形状データはまた、 モーション推定器 530、 モ一シヨン補 償器 540、 およびテクスチャコーダ 560に対しても用いられ得る。 特に形状 デ一夕は、 各オブジェクトについての形状特徴を抽出するために用いられる。 ォ ブジェクト、 ならびに関連する形状およびモーション特徴は、 0卩メモリ 57 0に格納される。 モーション推定器 530では、 モーションべクトルが各マクロプロックについ て決定される。 モーションベクトルはまたコード化され、 MUXおよびバッファ を介して出力ビットストリームに書き込まれる。 モーション推定から得られるモ ーシヨンべクトルを用いて、 モーションが補償された予測は VOPメモリ 570 に格納されている映像オブジェクトデータから形成される。 この予測は、 入カオ ブジェクトから減算 541され、 残留マクロプロックのセヅトを生成する。 これ らの残留マクロブロックは、 テクスチャコーダ 560にかけられ、 対応するデ一 夕は出力ビットストリームに書き込まれる。 テクスチャコーディングは、 RCU によって提供される QP制御信号に従う。
RCU 592の量子化パラメ一夕 (QP) は、 各映像オブジェクトに対して適 切な量子化パラメ一夕 QPを選択することに関与する。 これは、 モデルを用いて 、 割り当てられたレートバジェヅトに従って対応する量子化パラメ一夕 Q Pを推 定することによって行われる。 時間分析を以下に詳細に記載する。 簡単に言うと 、 時間分析は、 コーディングおよびトランスコーディング中に各オブジェクトの 時間解像度を制御することに関与する。 従来技術では、 図 8を参照しながら上述したように、 構成問題を避けるために 、 すべての映像オブジェクトの時間解像度は同一である。 従って、 従来技術では 、 様々なォブジェクトについての時間解像度は独立して考慮されていなかった。 また従来技術では、 時間分析は、 出力バッファがオーバフローの危険がある場合 にすベての映像オブジェクトをスキップするための信号を提供していた。 本発明 は、 さらに良好な解決法を提供する。 例えば、 比較的静止しているオブジェクト は、 より速い動くオブジェクトよりも遅いフレームレ一トで符号化され、 ビット レート全体を低減し得る。 本発明では、 可変時間品質を考慮する。 本発明では、 可変時間解像度を用いて 映像オブジェクトの符号化およびトランスコ一ディングを可能にする。 形状分析 5 9 5は、 時間分析によって用いられる形状特徴を抽出し、 可変時間 解像度が問題を生じずに成し遂げられ得るかどうか、 即ち、 様々なオブジェクト の時間符号化レートが異なる場合でもホールを避けることができるかどうかを決 定することに関与する。 形状分析は、 リアルタイム符号化モードにおいて作用し 得る。 ここで、 データは、 V O Pメモリ 5 7 0から取得される。 しかし、 符号化 器がまた形状特徴 (即ち、 すでに存在するコンテンヅの記述) に関連するメ夕デ 一夕格納ュニット 5 9 1からメ夕デ一夕を受信する場合、 このようなメ夕デ一夕 は、 V O Pメモリ 5 7 0からの形状デ一夕の代わりに、 または形状デ一夕と共に 用いられ得る。 メ夕デ一夕は、 メ夕デ一夕分析によって扱われ、 形状分析と同様 に、 メ夕デ一夕は、 各映像オブジェクトに対する最適な時間解像度を決定する際 の時間分析を助ける。 トランスコーダの構造 図 4は、 本発明の他の実施の形態によるォブジェクトに基づいたトランスコ一 ダ 600の高レベルブロック図を示す。 ここで、 入力映像はすでに圧縮されてい る。 トランスコーダ 600は、 デマルチプレクサ (DE— MUX) 601、 マル チプレクサ (MUX) 602、 および出力バッファ 603を有する。 トランスコ —ダ 600はまた、 制御情報 604に従ってトランスコ一ディング制御ュニヅト (TCU) 610によって作動される 1つまたはそれ以上のオブジェクトに基づ いたトランスコーダ 630を有する。 ユニット TCUは、 形状分析器、 QOテク スチヤ分析器、 時間分析器、 およびメ夕デ一夕分析器 611〜614を有する。 圧縮された入力ビヅトストリーム 605は、 デマルチプレクサによって 1つま たはそれ以上のォプジヱクトに基づいた基本ビヅトストリームに分割される。 ォ ブジェクトに基づいたビットス トリームは、 直列または並列であり得る。 ビット ストリーム 605の全ビヅト一レートは Rinである。 トランスコーダ 600か らの圧縮された出力ビットストリーム 606は全ビヅ トレ一卜 R。utを有し、 R 。ut<Rinである。 デマルチプレクサ 601は、 オブジェクトに基づいたトラン スコーダ 630のそれぞれに 1つまたはそれ以上の基本ピヅ トストリームを提供 し、 オブジェクトに基づいたトランスコーダは、 オブジェクトデ一夕 607を T CU610に与える。 トランスコーダは、 基本ビッ トストリームをスケーリングする。 スケーリング されたビヅトストリームは、 出力バッファ 603に渡される前にマルチプレクサ 602によって構成され、 そこから受信機に渡される。 出力バッファ 603はま た、 レートフィードバヅク情報 608を TCUに与える。 上記のように、 トランスコーダのそれぞれに渡される制御情報 604は、 TC
Uによって提供される。 図 4に示すように、 TCUは、 形状データおよびテクス チヤの分析 611、 612に関与する。 分析中、 TCUはまたネットワークデ一 夕 6 0 9を用いることができる。 T C Uはまた、 メ夕デ一夕分析 6 1 4を行う。 時間品質の分析によって、 可変時間解像度を用いたトランスコ一ディングが可能 になる。 符号化/トランスコ一ディング方法 図 5は、 本発明による映像入力 7 0 1を符号化およびトランスコード化するた めの方法 7 0 0のステップを示す。 この方法で用いられる映像入力 7 0 1は、 符 号化器 5 0 0の場合には、 圧縮されていない映像であり、 トランスコーダ 6 0 0 の場合には、 圧縮された映像である。 ステップ 7 1 0において、 映像入力 7 0 1 はォブジェクト 7 1 1に分割される。 ステップ 7 2 0において、 各ォブジェクト から形状特徴 7 2 1が経時的に抽出される。形状抽出は、 上記のように、 距離ま たはマクロブロックに基づき得る。 ステップ 7 3 0において、 モ一シヨン特徴が 経時的に各オブジェクトから選択的に抽出される。 最適な時間解像度を決定する ために抽出され、 考慮され得る他の特徴には、 コーディング複雑さ、 例えば、 空 間複雑さ、 D C T複雑さ、 テクスチャ複雑さなどが含まれる。 ステヅプ 7 4 0で は、 抽出された特徴が組み合わせられ、 ステップ 7 5 0において様々なオブジェ クト 7 1 1を符号化またはトランスコード化している間に、 用いられる時間解像 度 7 4 1が決定される。 例示的な符号化シナリオ 図 6は、 映像オブジェクトの展開形状を経時的に分析することに基づいた例示 的な符号化シナリオをいくつか示す。 ここでは、 入力は、 第 1および第 2の抽出 されたオブジェクトシ一ケンス 8 0 1〜8 0 2である。 グラフ 8 1 0および 8 2
0は、 形状特徴、 例えば、 経時的 (t ) な形状差 (Δ ) をプロッ卜している。 時 間 t と 2との間のォプジェクト形状は比較的一定していることに留意された い。 グラフ 8 1 1および 8 2 1は、 経時的な各ォフジエクトの内部モーション特 徴を選択的にプロヅトしている。 第 1のォブジェクトは内部モーションが非常に 少ないのに対して、 第 2のォブジェクトの内部モーションは非常に高いことに留 意されたい。 結合器 850 (RCU592または TCU610) は、 恐らく、 最 大、 合計、 比較、 または他の組み合わせ関数を用いて抽出された特徴を考慮し、 得られるビヅトを実際のコ一ディング中にどのようにして最良に様々なオブジェ ク卜にわたって分配するのかを決定する。 シナリオ 831において、 イン夕一バル [t t 2] では第 1のォブジェク トは全くコード化されず、 得られるすべてのビヅトは第 2のォブジェクトに割り 付けられる。 これは、 時間 t および t2において映像の品質が観察できるほど 顕著に突然変化するという効果を有し得る。 より良好なシナリオ 832では、 ィ ン夕一バル [t^ 12] 中により低い時間解像度を用い得るか、 またより良好 には解像度は次第に減少し、 その後次第に増加する。 シナリオ 833では、 時間 ィン夕一バル [t 0、 t J と [t 2、 t end] 中にさらに多くのビヅ卜が第 2の オブジェクトに割り付けられ、 次いで、 イン夕一バル [t^ t 2] 中に第 2の オブジェク卜のより高い内部モーションを反映する。 上記の新しい自由度はすべて、 オブジェクトに基づいたトランスコ一ディング フレームワークをネットワーク応用に関して非常に特有かつ望ましいものにする 。 MPEG— 2および H. 263コーディング基準のように、 MPEG— 4は、 モーション補償および DC Tを用いて映像の空間—時間冗長を活用する。 その結 果、 本発明のオブジェクトに基づいたトランスコーダの核心は、 上記の MPEG 一 2トランスコーダの適応である。 主な相違は、 形状情報がビヅトストリーム内 に含まれ、 テクスチャコーディングに関しては、 ブロック内についての D Cおよ び ACを予測するためにヅ一ルが設けられていることである。 テクスチャのトランスコ一ディングが実際には形状デ一夕に依存していること に留意することも重要である。 換言すれば、 形状データを単に解析し、 無視する ことはできない。 規格ビットストリームのシンタックスは、 復号化形状デ一夕に 依存する。 明らかに、 本発明のォブジェクトに基づいた入力および出力ビヅトストリーム
6 0 5、 6 0 6は、 従来のフレームに基づいた映像プログラムとは全く異なる。 また、 M P E G— 2は、 動的なフレ一ムスキッピングを可能にしない。 M P E G - 2では、 G 0 P構造および基準フレームが通常固定されている。 非リアルタイムシナリオの場合、 コンテンツ 6 5 1および対応するコンテンツ 記述子 6 5 2はデ一夕ペース 6 5 0に格納される。 コンテンツ記述子は特徴抽出 器 6 4 0から生成され、 この特徴抽出器 6 4 0は、 入力オブジェクトに基づいた ビットストリーム 6 0 5を受け取る。 コンテンヅを送信する時間になると、 入力 ビットストリームは、 上記のように、 デマルチプレクサ 6 0 1およびトランスコ —ダに与えられる。 メ夕デ一夕は、 T C U内でメ夕デ一夕分析器 6 1 4に送信さ れる。 時間分析の機能性 オブジェクトに基づいた符号化器またはトランスコーダにおける時間コント口 ーラの主な目的は、 図 2を参照しながら上述した構成問題を避けながら、 受信機 側での構成シーンの品質を最大にすることである。 これらの制約下で品質を最大 にするためには、 信号内の時間冗長をできるだけ活用する必要がある。 大部分の映像コ一ディング方式によると、 モーション補償プロセスにおいて、 時間冗長は除去される。 しかし、 すべてのコーディングユニットまたはマクロブ ロックに対してモーションべクトルを特定することは、 実際に必要とされている 以上のことであり得る。 モーションベクトルに対するビットに加えて、 モーショ ン補償差の残りもコード化されなければならない。 重要な点は、 品質を最大にす るために、 すべてのオブジェクトを時間毎にコード化する必要はないことである 。 このように、 これらの保存ビットは、 異なる時間において、 さらに他の重要な オブジェク トに用いられ得る。 非リアルタイムシナリオでは、 時間コントローラは、 形状歪みメトリクスを用 いて、 シーン内の形状における移動量を示す。 この測定は、 米国特許出願第 0 9 / 5 4 6 , 7 1 7号に規定されているような様々なキューレペルでのシーンに関 連し得る。 この特徴 (または測定) が抽出されるキューレベルに応じて、 時間コ ントロ一ラは、 シーン内のォプジヱクトの時間解像度に衝撃を与える様々な方法 を提供し得る。 これらの方法は、 符号化器およびトランスコーダに適用可能であ る。 リアルタイムシナリオでは、 時間コントローラは同様に作用する。 しかし、 潜 在制約のために観察は限定されているため、 因果デ一夕のみ考慮される。 従って 、 時間コーディング決定は、 即座に行われる。 上記のように、 形状歪みメトリックの抽出は、 画素または圧縮ドメインのいず れかにおいて行われ得る。 歪み情報がどこから抽出されるかに関係なく、 時間制 御の決定プロセスには許容誤差が導入され得ることに留意されたい。 換言すると 、 規定領域における利得がかなりのものである場合には、 応用によっては、 少量 の規定されていない領域を許容し得るものもある。 この場合、 [ 0 , 1 ] 間の重み付けが規定される。 ここで、 0は、 形状境界に 動きがないことを意味し、 1は、 形状境界が全く異なっていることを意味する。 重み付けは、 先に規定された形状歪みメトリクスの関数であり、 百分率または正 規化値に対応し得る。 他方、 構成問題を全く考慮しない応用では、 この重み付け は、 存在しない。 むしろ、 過剰重み付け (即ち、 0または 1 ) のみが有効である
ある許容可能な量の規定されていない画素が受信される状況では、 簡単な処理 後補間技術またはエラ一隠匿に基づいた他の技術を用いてこれらの画素を回収す ることが可能である。 可変時間解像度符号化の効果および利点 本発明による時間コントローラは以下の効果および利点を提供する。 オブジェクトが可変時間解像度を用いて符号化またはトランスコード化され得 る瞬間を決定する。 固定された不均一なフレームレートを映像セグメントのォブ ジェクトに割り当てる。 キーフレームを抽出または見出し、 コンテンツの要約を 可能にする。 ビット割り付けを向上させるか、 またはオブジェク卜の形状の変化が大きい映 像の部分 (フレーム) に対してビットを保存する。 このようなフレームは、 形状 情報について必要とされるよりもさらにビットを要求する。 テクスチャ情報の品 質を維持するためにさらなるビットが必要とされ得る。 上記実施の形態を例示することによって本発明を説明したが、 言うまでもなく 、 様々な適応および改変は、 本発明の精神および範囲内でなされ得る。 従って、 添付の請求の範囲の目的は、 本発明の真の精神および範囲内にあるこのようなす ベての変形および改変を網羅することである。

Claims

請 求 の 範 囲
1 . 映像をコード化するための方法であって、
前記映像を複数のオブジェクトに分割するステップと、
各オブジェク卜から形状特徴を経時的に抽出するステップと、
前記形状特徴を経時的に組み合わせて、 各ォブジェクトについての時間解像度 を経時的に決定するステップと、
前記オブジェクトの対応する時間解像度に応じて各ォブジェクトをコード化す るステップと
を含む映像をコード化するための方法。
2 . 前記映像は、 圧縮されていないデ一夕であり、
前記分割、 組み合わせ、 及びコード化は、 符号化器において行われる 請求項 1記載の映像をコ一ド化するための方法。
3 . 前記映像は、 圧縮されたデ一夕であり、
前記分割、 組み合わせ、 及びコード化は、 トランスコーダにおいて行われる 請求項 1記載の映像をコ一ド化するための方法。
4 . 少なくとも 2つのオブジェクトは、 異なる対応の時間解像度に従ってコー ド化される
請求項 1記載の映像をコ一ド化するための方法。
5 . 各オブジェクトの形状差を経時的に測定し、 各オブジェク卜の形状特徴を 抽出するステップ
をさらに含む請求項 1記載の映像をコード化するための方法。
6 . コード化されたオブジェクトの時間解像度は、 前記コード化されたォブジ ェク卜に関連する形状差と比例する 請求項 5記載の映像をコード化するための方法。
7 . 前記形状差は、 前記オブジェクト間の差である画素数を測定するハミング 距離である
請求項 5記載の映像をコ―ド化するための方法。
8 . 前記分割されたオブジェクトは、 バイナリ形状を有し、 ハミング距離 dは 以下の式で定義され、 d 二
Figure imgf000026_0001
ここで、 ひ i (m, n) およびひ 2 (m, n) は、 異なる時間における対応する セグメンテーション面である
請求項 3記載の映像をコード化するための方法。
9 . 前記形状差は、 前記オブジェク卜に関連する画素のセット間の最大関数と して定義されるハウスドルフ距離である
請求項 5記載の映像をコ一ド化するための方法。
1 0 . 前記最大関数は、
h (A, B ) =m a x {m ι n {d a , b ) } }
であり、 ここで、 a及び bは、 第 1及び第 2のオブジェクトのセット A及び Bの それぞれの画素であり、 d ( a , b ) は、 前記画素間のユークリッド距離である 請求項 9記載の映像をコ一ド化するための方法。
1 1 . 前記映像は、 複数のフレ一ムを含み、 各フレームは、 複数のマクロプロ ックを含み、 前記マクロプロヅクは、 不透明ブロヅク、 透明プロック、 及び境界 ブロヅクとしてコード化される
請求項 1記載の映像をコード化するための方法。
1 2 . 前記オブジェクトの形状特徴をメ夕デ一夕としてコード化するステップ をさらに含む請求項 1記載の映像をコード化するための方法。
1 3 . 各オブジェクトからのモーション特徴を経時的に抽出するステップと、 前記モーション特徴と前記形状特徴とを絰時的に組み合わせて、 各オブジェク トについての時間角军像度を絰時的に決定するステップと
をさらに含む請求項 1記載の映像をコ一ド化するための方法。
1 . 各ォブジェクトからコ一ディング複雑さを経時的に抽出するステップと 前記コ一ディング複雑さと前記形状特徴とを組み合わせて、 各ォブジェクトに ついての時間解像度を経時的に決定するステップと
をさらに含む請求項 1記載の映像をコ一ド化するための方法。
1 5 . 前記オブジェクトの前記形状特徴は、 前記映像の複数のキューレペルか ら抽出される
請求項 1記載の映像をコード化するための方法。
1 6 . 映像をコード化するための装置であって、
前記映像を複数のオブジェクトに分割する手段と、
各オブジェク卜から形状特徴を経時的に抽出する手段と、
前記形状特徴を絰時的に組み合わせて、 各オブジェクトについての時間解像度 を経時的に決定する手段と、
前記オブジェクトの対応する時間解像度に応じて各オブジェクトをコード化す る手段と
を備えた映像をコード化するための装置。
1 7 . 前記分割及び抽出する手段は、 形状コーダ、 モーション推定器、 モ一シ ヨン補償器、 及びテクスチャコーダを有する 請求項 1 6記載の映像をコード化するための装置。 8 . 前記オブジェクト及び形状特徴は、 メモリ内に格納される 請求項 1 6記載の映像をコード化するための装置。 9 . 前記映像は、 圧縮されず、
前記組み合わせる手段は、 レート制御ユニットである
請求項 1 6記載の映像をコ一ド化するための装置。 0 . 前記映像は、 圧縮され、
前記組み合わせる手段は、 トランスコーディング制御ュニヅトである 請求項; 6記載の映像をコード化するための装置。
PCT/JP2001/001828 2000-05-26 2001-03-08 Method and device for encoding image WO2001091467A1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2001586925A JP4786114B2 (ja) 2000-05-26 2001-03-08 映像をコード化するための方法及び装置
EP01912202A EP1289301B1 (en) 2000-05-26 2001-03-08 Method and device for encoding image

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/579,889 US6650705B1 (en) 2000-05-26 2000-05-26 Method for encoding and transcoding multiple video objects with variable temporal resolution
US09/579,889 2000-05-26

Publications (1)

Publication Number Publication Date
WO2001091467A1 true WO2001091467A1 (en) 2001-11-29

Family

ID=24318760

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2001/001828 WO2001091467A1 (en) 2000-05-26 2001-03-08 Method and device for encoding image

Country Status (5)

Country Link
US (1) US6650705B1 (ja)
EP (1) EP1289301B1 (ja)
JP (1) JP4786114B2 (ja)
CN (1) CN1199467C (ja)
WO (1) WO2001091467A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2842983A1 (fr) * 2002-07-24 2004-01-30 Canon Kk Transcodage de donnees
WO2008123568A1 (ja) * 2007-04-04 2008-10-16 Nec Corporation コンテンツ配信システム、コンテンツ配信方法及びそれらに用いる変換装置
JP2009501476A (ja) * 2005-07-13 2009-01-15 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ビデオ時間アップコンバージョンを用いた処理方法及び装置
JP2009253764A (ja) * 2008-04-08 2009-10-29 Fujifilm Corp 画像処理システム、画像処理方法、およびプログラム
US8054888B2 (en) 2003-12-24 2011-11-08 Lg Electronics Inc. Apparatus and method for converting a codec of image data
US8447128B2 (en) 2008-04-07 2013-05-21 Fujifilm Corporation Image processing system

Families Citing this family (68)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6711278B1 (en) * 1998-09-10 2004-03-23 Microsoft Corporation Tracking semantic objects in vector image sequences
US7260826B2 (en) * 2000-05-31 2007-08-21 Microsoft Corporation Resource allocation in multi-stream IP network for optimized quality of service
GB0014671D0 (en) * 2000-06-15 2000-08-09 Seos Displays Ltd Head slaved area of interest (HSAOI) using framestore demultiplexing
US7155067B2 (en) * 2000-07-11 2006-12-26 Eg Technology, Inc. Adaptive edge detection and enhancement for image processing
US7020335B1 (en) * 2000-11-21 2006-03-28 General Dynamics Decision Systems, Inc. Methods and apparatus for object recognition and compression
JP4534106B2 (ja) * 2000-12-26 2010-09-01 日本電気株式会社 動画像符号化システム及び方法
WO2002071736A2 (en) * 2001-03-05 2002-09-12 Intervideo, Inc. Systems and methods of error resilience in a video decoder
US7321624B1 (en) * 2001-03-16 2008-01-22 Objectvideo, Inc. Bit-rate allocation system for object-based video encoding
US6925501B2 (en) * 2001-04-17 2005-08-02 General Instrument Corporation Multi-rate transcoder for digital streams
US7734997B2 (en) * 2001-05-29 2010-06-08 Sony Corporation Transport hint table for synchronizing delivery time between multimedia content and multimedia content descriptions
US6757648B2 (en) * 2001-06-28 2004-06-29 Microsoft Corporation Techniques for quantization of spectral data in transcoding
US20040013198A1 (en) * 2001-08-31 2004-01-22 Haruo Togashi Encoding apparatus and method for encoding
US6950464B1 (en) * 2001-12-26 2005-09-27 Cisco Technology, Inc. Sub-picture level pass through
KR100850705B1 (ko) * 2002-03-09 2008-08-06 삼성전자주식회사 시공간적 복잡도를 고려한 적응적 동영상 부호화 방법 및그 장치
US8214741B2 (en) 2002-03-19 2012-07-03 Sharp Laboratories Of America, Inc. Synchronization of video and data
US7224731B2 (en) * 2002-06-28 2007-05-29 Microsoft Corporation Motion estimation/compensation for screen capture video
US7085420B2 (en) * 2002-06-28 2006-08-01 Microsoft Corporation Text detection in continuous tone image segments
US7072512B2 (en) * 2002-07-23 2006-07-04 Microsoft Corporation Segmentation of digital video and images into continuous tone and palettized regions
US7421129B2 (en) * 2002-09-04 2008-09-02 Microsoft Corporation Image compression and synthesis for video effects
US7292574B2 (en) * 2002-09-30 2007-11-06 Intel Corporation Automated method for mapping constant bit-rate network traffic onto a non-constant bit-rate network
US7558320B2 (en) * 2003-06-13 2009-07-07 Microsoft Corporation Quality control in frame interpolation with motion analysis
US7408986B2 (en) * 2003-06-13 2008-08-05 Microsoft Corporation Increasing motion smoothness using frame interpolation with motion analysis
KR100612852B1 (ko) * 2003-07-18 2006-08-14 삼성전자주식회사 GoF/GoP의 질감 표현 방법과, 이를 이용한GoF/GoP 검색 방법 및 장치
DE10335009A1 (de) * 2003-07-23 2005-02-10 Atmel Germany Gmbh Verfahren zur drahtlosen Datenübertragung zwischen einer Basisstation und einem Transponder
US7016409B2 (en) * 2003-11-12 2006-03-21 Sony Corporation Apparatus and method for use in providing dynamic bit rate encoding
US20050175099A1 (en) * 2004-02-06 2005-08-11 Nokia Corporation Transcoder and associated system, method and computer program product for low-complexity reduced resolution transcoding
EP1719346A1 (en) * 2004-02-20 2006-11-08 Koninklijke Philips Electronics N.V. Method of video decoding
US7983835B2 (en) 2004-11-03 2011-07-19 Lagassey Paul J Modular intelligent transportation system
US20050232497A1 (en) * 2004-04-15 2005-10-20 Microsoft Corporation High-fidelity transcoding
US7818444B2 (en) 2004-04-30 2010-10-19 Move Networks, Inc. Apparatus, system, and method for multi-bitrate content streaming
KR101042623B1 (ko) * 2004-11-17 2011-06-20 삼성전자주식회사 필드 가변분할방식을 이용한 디인터레이싱방법 및 장치
US20060233258A1 (en) * 2005-04-15 2006-10-19 Microsoft Corporation Scalable motion estimation
US20060291412A1 (en) 2005-06-24 2006-12-28 Naqvi Shamim A Associated device discovery in IMS networks
US7724753B2 (en) 2005-06-24 2010-05-25 Aylus Networks, Inc. Digital home networks having a control point located on a wide area network
US7864936B2 (en) 2005-06-24 2011-01-04 Aylus Networks, Inc. Method of avoiding or minimizing cost of stateful connections between application servers and S-CSCF nodes in an IMS network with multiple domains
US20070011718A1 (en) * 2005-07-08 2007-01-11 Nee Patrick W Jr Efficient customized media creation through pre-encoding of common elements
JP2007206644A (ja) * 2006-02-06 2007-08-16 Seiko Epson Corp 画像表示システム,画像表示方法,画像表示プログラム,記録媒体,データ処理装置,画像表示装置
US20070197227A1 (en) * 2006-02-23 2007-08-23 Aylus Networks, Inc. System and method for enabling combinational services in wireless networks by using a service delivery platform
US8155195B2 (en) * 2006-04-07 2012-04-10 Microsoft Corporation Switching distortion metrics during motion estimation
US8494052B2 (en) * 2006-04-07 2013-07-23 Microsoft Corporation Dynamic selection of motion estimation search ranges and extended motion vector ranges
US9026117B2 (en) * 2006-05-16 2015-05-05 Aylus Networks, Inc. Systems and methods for real-time cellular-to-internet video transfer
US8611334B2 (en) 2006-05-16 2013-12-17 Aylus Networks, Inc. Systems and methods for presenting multimedia objects in conjunction with voice calls from a circuit-switched network
US8432899B2 (en) 2007-02-22 2013-04-30 Aylus Networks, Inc. Systems and methods for enabling IP signaling in wireless networks
US20070268964A1 (en) * 2006-05-22 2007-11-22 Microsoft Corporation Unit co-location-based motion estimation
US9094686B2 (en) * 2006-09-06 2015-07-28 Broadcom Corporation Systems and methods for faster throughput for compressed video data decoding
US8380864B2 (en) * 2006-12-27 2013-02-19 Microsoft Corporation Media stream slicing and processing load allocation for multi-user media systems
KR100968204B1 (ko) * 2007-01-11 2010-07-06 전자부품연구원 다시점 비디오 코덱에서의 영상 예측 방법 및 이를 위한프로그램을 기록한 컴퓨터로 판독 가능한 기록매체
US7856226B2 (en) 2007-04-17 2010-12-21 Aylus Networks, Inc. Systems and methods for IMS user sessions with dynamic service selection
US8457958B2 (en) 2007-11-09 2013-06-04 Microsoft Corporation Audio transcoder using encoder-generated side information to transcode to target bit-rate
BRPI0820720A2 (pt) * 2007-12-11 2015-06-16 Thomson Licensing Métodos e sistemas para transcodificação dentro da cadeia de distribuição
WO2009109940A1 (en) * 2008-03-06 2009-09-11 Nxp B.V. Temporal fallback for high frame rate picture rate conversion
US8164862B2 (en) * 2008-04-02 2012-04-24 Headway Technologies, Inc. Seed layer for TMR or CPP-GMR sensor
FR2932055B1 (fr) * 2008-06-03 2010-08-13 Thales Sa Procede d'adaptation du debit de transmission de flux videos par pretraitement dans le domaine compresse et systeme en oeuvre le procede
US8311115B2 (en) 2009-01-29 2012-11-13 Microsoft Corporation Video encoding using previously calculated motion information
US8396114B2 (en) 2009-01-29 2013-03-12 Microsoft Corporation Multiple bit rate video encoding using variable bit rate and dynamic resolution for adaptive video streaming
US20100309987A1 (en) * 2009-06-05 2010-12-09 Apple Inc. Image acquisition and encoding system
US8270473B2 (en) 2009-06-12 2012-09-18 Microsoft Corporation Motion based dynamic resolution multiple bit rate video encoding
US8848802B2 (en) * 2009-09-04 2014-09-30 Stmicroelectronics International N.V. System and method for object based parametric video coding
US10178396B2 (en) 2009-09-04 2019-01-08 Stmicroelectronics International N.V. Object tracking
US8705616B2 (en) 2010-06-11 2014-04-22 Microsoft Corporation Parallel multiple bitrate video encoding to reduce latency and dependences between groups of pictures
US9094685B2 (en) * 2010-09-21 2015-07-28 Dialogic Corporation Efficient coding complexity estimation for video transcoding systems
US20120281748A1 (en) * 2011-05-02 2012-11-08 Futurewei Technologies, Inc. Rate Control for Cloud Transcoding
EP2716041A4 (en) * 2011-05-31 2014-10-15 Dolby Lab Licensing Corp VIDEO COMPRESSION WITH RESOLUTION COMPENSATION AND OPTIMIZATION
US9591318B2 (en) * 2011-09-16 2017-03-07 Microsoft Technology Licensing, Llc Multi-layer encoding and decoding
US11089343B2 (en) 2012-01-11 2021-08-10 Microsoft Technology Licensing, Llc Capability advertisement, configuration and control for video coding and decoding
EP3420726B1 (en) 2016-02-26 2021-05-19 Versitech Limited Shape-adaptive model-based codec for lossy and lossless compression of images
US10847048B2 (en) * 2018-02-23 2020-11-24 Frontis Corp. Server, method and wearable device for supporting maintenance of military apparatus based on augmented reality using correlation rule mining
EP3808086A1 (en) * 2018-08-14 2021-04-21 Huawei Technologies Co., Ltd. Machine-learning-based adaptation of coding parameters for video encoding using motion and object detection

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63157579A (ja) * 1986-12-22 1988-06-30 Nippon Telegr & Teleph Corp <Ntt> 疑似3次元撮像装置
JPH01228384A (ja) * 1988-03-09 1989-09-12 Kokusai Denshin Denwa Co Ltd <Kdd> 領域分割を用いた動画像符号化方式
JPH0232688A (ja) * 1988-07-22 1990-02-02 Hitachi Ltd 適応型変換符号化装置
JPH047989A (ja) * 1989-08-02 1992-01-13 Fujitsu Ltd 画像信号符号化制御方式
JPH04321391A (ja) * 1990-09-29 1992-11-11 Victor Co Of Japan Ltd 画像符号化装置
JPH04354489A (ja) * 1991-05-31 1992-12-08 Fujitsu Ltd 画像符号化装置
JPH05111015A (ja) * 1991-10-17 1993-04-30 Sony Corp 動き適応画像符号化装置
JPH0622292A (ja) * 1992-06-30 1994-01-28 Sony Corp ディジタル画像信号の伝送装置
JPH07222145A (ja) * 1994-01-31 1995-08-18 Mitsubishi Electric Corp 画像符号化装置
JPH07288806A (ja) * 1994-04-20 1995-10-31 Hitachi Ltd 動画像通信システム
JPH1185966A (ja) * 1997-07-18 1999-03-30 Sony Corp 画像信号多重化装置および方法、画像信号逆多重化装置および方法、並びに伝送媒体
JPH11196411A (ja) * 1997-10-27 1999-07-21 Mitsubishi Electric Corp 画像符号化装置、画像符号化方法、画像復号化装置、及び画像復号化方法
JP2000050254A (ja) * 1998-07-17 2000-02-18 Mitsubishi Electric Inf Technol Center America Inc 改良された適応性のあるビデオ符号化方法
JP2000078572A (ja) * 1998-08-31 2000-03-14 Toshiba Corp オブジェクト符号化装置およびオブジェクト符号化装置のコマ落し制御方法およびプログラムを記録した記憶媒体
JP2000092489A (ja) * 1998-09-09 2000-03-31 Toshiba Corp 画像符号化装置および画像符号化方法およびプログラムを記録した媒体

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5686963A (en) 1995-12-26 1997-11-11 C-Cube Microsystems Method for performing rate control in a video encoder which provides a bit budget for each frame while employing virtual buffers and virtual buffer verifiers
JP3263807B2 (ja) * 1996-09-09 2002-03-11 ソニー株式会社 画像符号化装置および画像符号化方法
US5969764A (en) 1997-02-14 1999-10-19 Mitsubishi Electric Information Technology Center America, Inc. Adaptive video coding method
US6005980A (en) * 1997-03-07 1999-12-21 General Instrument Corporation Motion estimation and compensation of video object planes for interlaced digital video
AU748947C (en) * 1998-05-04 2003-01-30 General Instrument Corporation Method and apparatus for inverse quantization of MPEG-4 video
US6167084A (en) * 1998-08-27 2000-12-26 Motorola, Inc. Dynamic bit allocation for statistical multiplexing of compressed and uncompressed digital video signals
US6295371B1 (en) * 1998-10-22 2001-09-25 Xerox Corporation Method and apparatus for image processing employing image segmentation using tokenization
US6192080B1 (en) * 1998-12-04 2001-02-20 Mitsubishi Electric Research Laboratories, Inc. Motion compensated digital video signal processing
US6411724B1 (en) * 1999-07-02 2002-06-25 Koninklijke Philips Electronics N.V. Using meta-descriptors to represent multimedia information

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63157579A (ja) * 1986-12-22 1988-06-30 Nippon Telegr & Teleph Corp <Ntt> 疑似3次元撮像装置
JPH01228384A (ja) * 1988-03-09 1989-09-12 Kokusai Denshin Denwa Co Ltd <Kdd> 領域分割を用いた動画像符号化方式
JPH0232688A (ja) * 1988-07-22 1990-02-02 Hitachi Ltd 適応型変換符号化装置
JPH047989A (ja) * 1989-08-02 1992-01-13 Fujitsu Ltd 画像信号符号化制御方式
JPH04321391A (ja) * 1990-09-29 1992-11-11 Victor Co Of Japan Ltd 画像符号化装置
JPH04354489A (ja) * 1991-05-31 1992-12-08 Fujitsu Ltd 画像符号化装置
JPH05111015A (ja) * 1991-10-17 1993-04-30 Sony Corp 動き適応画像符号化装置
JPH0622292A (ja) * 1992-06-30 1994-01-28 Sony Corp ディジタル画像信号の伝送装置
JPH07222145A (ja) * 1994-01-31 1995-08-18 Mitsubishi Electric Corp 画像符号化装置
JPH07288806A (ja) * 1994-04-20 1995-10-31 Hitachi Ltd 動画像通信システム
JPH1185966A (ja) * 1997-07-18 1999-03-30 Sony Corp 画像信号多重化装置および方法、画像信号逆多重化装置および方法、並びに伝送媒体
JPH11196411A (ja) * 1997-10-27 1999-07-21 Mitsubishi Electric Corp 画像符号化装置、画像符号化方法、画像復号化装置、及び画像復号化方法
JP2000050254A (ja) * 1998-07-17 2000-02-18 Mitsubishi Electric Inf Technol Center America Inc 改良された適応性のあるビデオ符号化方法
JP2000078572A (ja) * 1998-08-31 2000-03-14 Toshiba Corp オブジェクト符号化装置およびオブジェクト符号化装置のコマ落し制御方法およびプログラムを記録した記憶媒体
JP2000092489A (ja) * 1998-09-09 2000-03-31 Toshiba Corp 画像符号化装置および画像符号化方法およびプログラムを記録した媒体

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP1289301A4 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2842983A1 (fr) * 2002-07-24 2004-01-30 Canon Kk Transcodage de donnees
US7260264B2 (en) 2002-07-24 2007-08-21 Canon Kabushiki Kaisha Transcoding of data
US8054888B2 (en) 2003-12-24 2011-11-08 Lg Electronics Inc. Apparatus and method for converting a codec of image data
JP2009501476A (ja) * 2005-07-13 2009-01-15 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ビデオ時間アップコンバージョンを用いた処理方法及び装置
WO2008123568A1 (ja) * 2007-04-04 2008-10-16 Nec Corporation コンテンツ配信システム、コンテンツ配信方法及びそれらに用いる変換装置
JPWO2008123568A1 (ja) * 2007-04-04 2010-07-15 日本電気株式会社 コンテンツ配信システム、コンテンツ配信方法及びそれらに用いる変換装置
JP5013141B2 (ja) * 2007-04-04 2012-08-29 日本電気株式会社 コンテンツ配信システム、コンテンツ配信方法及びそれらに用いる変換装置
US8447128B2 (en) 2008-04-07 2013-05-21 Fujifilm Corporation Image processing system
JP2009253764A (ja) * 2008-04-08 2009-10-29 Fujifilm Corp 画像処理システム、画像処理方法、およびプログラム

Also Published As

Publication number Publication date
EP1289301A1 (en) 2003-03-05
US6650705B1 (en) 2003-11-18
JP4786114B2 (ja) 2011-10-05
CN1386376A (zh) 2002-12-18
EP1289301A4 (en) 2009-06-17
CN1199467C (zh) 2005-04-27
EP1289301B1 (en) 2011-08-24

Similar Documents

Publication Publication Date Title
JP4786114B2 (ja) 映像をコード化するための方法及び装置
JP4601889B2 (ja) 圧縮ビットストリームを変換するための装置及び方法
KR100763181B1 (ko) 기초계층과 향상계층의 데이터를 바탕으로 예측 정보를코딩하여 코딩율을 향상시키는 방법 및 장치
US6404814B1 (en) Transcoding method and transcoder for transcoding a predictively-coded object-based picture signal to a predictively-coded block-based picture signal
JP4650868B2 (ja) 圧縮ビデオのトランスコーディング方法
JP4576783B2 (ja) データ処理方法及びデータ処理装置
CN101189882B (zh) 用于视频压缩的编码器辅助帧率上变换(ea-fruc)的方法和装置
JP3979897B2 (ja) 映像圧縮ビットストリームのトランスコーディング方法
CN105721880B (zh) 用于降低视频编码和解码中的延迟的方法和系统
US6490320B1 (en) Adaptable bitstream video delivery system
KR100781525B1 (ko) 가중 평균합을 이용하여 fgs 계층을 인코딩 및디코딩하는 방법 및 장치
CN110740318A (zh) 用于视频处理和视频译码的自动自适应长期参考帧选择
US7088777B2 (en) System and method for low bit rate watercolor video
JP2005526457A (ja) ビデオ・トランスコーダ
JP2003533067A (ja) 基準レイヤ符号化情報の使用による改良された精細スケーラブル・ビデオに関するシステム及び方法
WO2003028380A1 (en) Method for generating a scalable encoded video bitstream with constant quality
JP2001112006A (ja) レート−歪み特性推定方法
Moura et al. Retrieving quality video across heterogeneous networks. Video over wireless
GB2371434A (en) Encoding and transmitting video data
KR20040048289A (ko) 트랜스코딩 장치 및 방법, 이에 사용되는 타겟비트할당 및픽처 복잡도 예측 장치 및 방법
JP4421734B2 (ja) 符号化データ変換方法,及びデータ記録媒体
KR20230053243A (ko) 분산형 병렬 인코딩 방법 및 장치
KR20030000310A (ko) 영상 변환 부호화 장치
JP2000092489A (ja) 画像符号化装置および画像符号化方法およびプログラムを記録した媒体
JP3652889B2 (ja) 映像符号化方法、映像符号化装置、記録媒体、及び映像通信システム

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref country code: JP

Ref document number: 2001 586925

Kind code of ref document: A

Format of ref document f/p: F

AK Designated states

Kind code of ref document: A1

Designated state(s): CN JP

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE TR

WWE Wipo information: entry into national phase

Ref document number: 2001912202

Country of ref document: EP

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 018021115

Country of ref document: CN

WWP Wipo information: published in national office

Ref document number: 2001912202

Country of ref document: EP