WO2001078399A1 - Method and apparatus for transcoding of compressed image - Google Patents

Method and apparatus for transcoding of compressed image Download PDF

Info

Publication number
WO2001078399A1
WO2001078399A1 PCT/JP2001/000662 JP0100662W WO0178399A1 WO 2001078399 A1 WO2001078399 A1 WO 2001078399A1 JP 0100662 W JP0100662 W JP 0100662W WO 0178399 A1 WO0178399 A1 WO 0178399A1
Authority
WO
WIPO (PCT)
Prior art keywords
transcoder
content
transcoding
bitstream
rate
Prior art date
Application number
PCT/JP2001/000662
Other languages
English (en)
French (fr)
Inventor
Anthony Vetro
Ajay Divakaran
Huifang Sun
Original Assignee
Mitsubishi Denki Kabushiki Kaisha
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Denki Kabushiki Kaisha filed Critical Mitsubishi Denki Kabushiki Kaisha
Priority to EP01902702A priority Critical patent/EP1248466A4/en
Priority to AU30548/01A priority patent/AU3054801A/en
Publication of WO2001078399A1 publication Critical patent/WO2001078399A1/ja

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/1066Session management
    • H04L65/1101Session protocols
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • H04L65/752Media network packet handling adapting media to network capabilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • H04L65/765Media network packet handling intermediate
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/80Responding to QoS
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/565Conversion or adaptation of application format or content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/04Protocols for data compression, e.g. ROHC
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/40Network security protocols
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • H04N19/126Details of normalisation or weighting functions, e.g. normalisation matrices or variable uniform quantisers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/152Data rate or code amount at the encoder output by measuring the fullness of the transmission buffer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/164Feedback from the receiver or from the transmission channel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/179Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scene or a shot
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/19Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding using optimisation based on Lagrange multipliers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
    • H04N19/25Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding with scene description coding, e.g. binary format for scenes [BIFS] compression
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
    • H04N19/29Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding involving scalability at the object level, e.g. video object layer [VOL]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/33Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the spatial domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/40Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video transcoding, i.e. partial or full decoding of a coded input stream followed by re-encoding of the decoded output stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • H04N19/436Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation using parallelised computational arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/587Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal sub-sampling or interpolation, e.g. decimation or subsequent interpolation of pictures in a video sequence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234318Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by decomposing into objects, e.g. MPEG-4 objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/24Monitoring of processes or resources, e.g. monitoring of server load, available bandwidth, upstream requests
    • H04N21/2402Monitoring of the downstream path of the transmission network, e.g. bandwidth available
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/258Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
    • H04N21/25808Management of client data
    • H04N21/25825Management of client data involving client display capabilities, e.g. screen resolution of a mobile phone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/258Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
    • H04N21/25808Management of client data
    • H04N21/25833Management of client data involving client hardware characteristics, e.g. manufacturer, processing or storage capabilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/266Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
    • H04N21/2662Controlling the complexity of the video stream, e.g. by scaling the resolution or bitrate of the video stream based on the client capabilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/564Enhancement of application control based on intercepted application data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/30Definitions, standards or architectural aspects of layered protocol stacks
    • H04L69/32Architecture of open systems interconnection [OSI] 7-layer type protocol stacks, e.g. the interfaces between the data link level and the physical level
    • H04L69/322Intralayer communication protocols among peer entities or protocol data unit [PDU] definitions
    • H04L69/329Intralayer communication protocols among peer entities or protocol data unit [PDU] definitions in the application layer [OSI layer 7]

Definitions

  • the present invention relates generally to information distribution systems, and more particularly to a distribution system that adapts information to bit rates available on a network.
  • VOPs Video object planes
  • the object can be visual data, audio data, natural data, synthetic data, basic data, composite data, or a combination thereof.
  • Image objects are assembled to form composite objects or "scenes: scenesj".
  • the emerging emerging MPEG-4 standard is intended to enable multimedia applications such as interactive images where natural and synthetic materials are integrated and universally accessible.
  • MPEG-4 enables content-based interaction.
  • Bit rate conversion includes bit rate scaling and conversion between a constant bit rate (CBR) and a variable bit rate (VBR).
  • CBR constant bit rate
  • VBR variable bit rate
  • the basic function of bit rate scaling is to take an input bit stream and generate a scaled output bit stream that meets the new load constraints of the receiver.
  • the bitstream scaler is a transcoder or filter that matches the source bitstream with the receive load.
  • scaling can be accomplished by the transcoder 100.
  • the transcoder has a decoder 110 and an encoder 120.
  • the compressed input bit stream 101 is completely decoded at the input rate R in and then encoded at the new output rate R out 102 to produce the output bit stream 103.
  • the output rate is lower than the input rate.
  • the encoding of the decoded bitstream is so complex that there is no complete decoding and encoding at the transcoder.
  • FIG. 2 illustrates an exemplary method.
  • the image bit stream is only partially decoded.
  • the macroblock of the input bit stream 201 is subjected to variable length decoding (VLD) 210.
  • the input bit stream is also delayed 220 and inverse quantized (IQ) 230 to form the discrete cosine transform (DCT) coefficients.
  • IQ inverse quantized
  • DCT discrete cosine transform
  • the partially decoded data is analyzed and at 240 and 250 a new set of quantizers is applied to the DCT block.
  • These requantized blocks can then be variable length coded (VLC) 260 to form a lower rate new output bit stream 203.
  • VLC variable length coded
  • the number of bits allocated to encode texture information is controlled by a quantization parameter (QP).
  • QP quantization parameter
  • the above documents are similar in that the rate of texture bits is reduced by changing QP based on information contained in the original bit stream.
  • the information is usually extracted directly in the compressed domain and may include measurements related to the motion of the macroblock or residual energy of the DCT block. This type of analysis can be found in bit allocation analyzers.
  • the bitstream may be pre-processed, but it is also important that the transcoder operates in real time. Therefore, a large processing delay on the bit stream cannot be tolerated.
  • a transcoder extracts information from a group of frames, and then triggers the content based on this leakhead information. Lance coding is not feasible. This does not work for live broadcasts or video conferences. With better bit allocation, it is possible to achieve better transcoding in terms of quality, but such real-time implementation is not practical.
  • Such a concept of a space-time trade-off can also be considered in the encoder.
  • not all image coding standards support frame skipping.
  • the group-of-victory (GOP) structure is predetermined. That is, the intra-frame period and distance between anchor frames are fixed. As a result, all pictures must be encoded.
  • syntax allows for skipping macroblocks. If all macroblocks in a frame are skipped, the frame is effectively skipped. At least one bit is used for each macroblock in the frame to indicate this skipping. This can be inefficient for some bit rates.
  • the H.263 and MPEG-4 standards allow for frame skipping. Both standards support a syntax that allows references to be specified. However, these frame skippings are mainly used to satisfy buffer constraints. In other words, the buffer occupancy is too high and the risk of overflow In some cases, the encoder skips frames, reduces the flow of bits to the buffer, and gives the buffer some time to send its current bit to the buffer.
  • this spatial one-hour trade-off control method has received minimal attention.
  • the information available in the transcoder to make such decisions is quite different from the encoder information.
  • the following describes how to make such a trade-off in the transcoder.
  • the transcoder has some alternative means of transmitting the information contained in the bitstream to adapt to the reduced available bit rate. Must be found.
  • MPEG-7 Multimedia Content Description System
  • this standard can be used to describe descriptor sets, and various types of multimedia content.
  • MPEG-7 The primary application of MPEG-7 is expected to be search and retrieval applications. See "MPEG-7 Applications, ISO / IEC N2861, July 1999.
  • the user can specify some attributes of a particular object. In this low-level representation, these attributes Can include descriptors that describe the texture, motion, and shape of a particular object.
  • a method for displaying and comparing shapes is described in US Patent Application No. 09 / 09,094, filed June 4, 1999 to / 3 2 6, 7 5 9 r Method for Ordering Image Spaces to Represent Object Shapesj.A method for describing motion activity is described in a U.S. patent application by Divakaran et al., Filed on September 27, 1999. No.
  • These descriptors and description schemes provided by the MPEG-7 standard allow access to properties of image content that cannot be retrieved by a transcoder. For example, these properties can display lookahead information that is presumed to be inaccessible to the transcoder. The only reason that transcoders access these properties is because This is because the properties were derived from the initial content (ie, the content was pre-processed and stored in the database along with its associated data).
  • syntactic information refers to the physical and logical aspects of the content signal
  • semantic information refers to the conceptual meaning of the content.
  • syntactic elements can relate to the color, shape, and motion of a particular object.
  • semantic elements can refer to information that cannot be extracted from low-level descriptors, such as the time and place of an event or the name of a person in an image sequence.
  • a generator simulates network constraints and user device constraints.
  • the classifier is connected to receive the input compressed image and the constraints.
  • the classifier generates content information from the features of the input compressed image.
  • the manager generates multiple conversion modes depending on constraints and content information, and the transcoder generates one output compressed image for each of the multiple conversion modes.
  • Figure 1 is a block diagram of a conventional transcoder.
  • Figure 2 is a block diagram of a conventional partial decoder / encoder
  • FIG. 3 is a block diagram of an adaptive bit stream distribution system according to the present invention.
  • Figure 4 shows a block diagram of the applicable transcoder and transcoder manager
  • FIG. 5 shows the traffic that can be used by the transcoder and manager of FIG. Graph of the sliding function
  • Figure 6 shows a block diagram of object-based bitstream scaling
  • Figure 7 shows the search space graph
  • FIG. 8 is a block diagram showing details of an object-based transcoder according to the present invention.
  • Fig. 9 is a block diagram of feature extraction by Kureppel
  • FIG. 10 is a block diagram of an image content classifier having three stages.
  • FIG. 11 is a block diagram of a descriptor scheme.
  • FIG. 12 is a block diagram of transcoding by the descriptor method shown in FIG.
  • Fig. 13 is a transcoding block diagram based on the descriptor method shown in Fig. 11 b.
  • Figure 14 is a block diagram of a system for generating content summaries and changes in content according to the content summaries
  • Figure 15 is a graph of the transcoding function based on the content summary and content changes of Figure 14, the best mode for carrying out the invention.
  • the compressed input bit stream can be converted or “scaled” to an output bit stream compressed at a target rate (ie, available bit rate (ABR) on the network).
  • ABR available bit rate
  • the evening bit rate of the output bit stream is less than the rate of the input bit stream.
  • our transcoder task is usually
  • This paper describes a transcoding technique that can maintain the quality of bitstream content and achieve an overnight get rate.
  • a conventional frame-based transcoding technique may be defined as a continuous transform.
  • the output is always the sequence of frames that best represents the input sequence, since conventional techniques continuously attempt to maintain the best trade-off in spatial versus temporal quality.
  • To meet rate constraints when a particular frame is skipped, the information contained in the skipped frame is not considered. If enough frames are skipped, the received bitstream will be meaningless to the user, or at best unsatisfactory.
  • distortion is usually dependent on the noise ratio, such as the beak signal (PSNR). Taken as an upcoming arbitrary distortion metric. In such a conversion, the distortion is not a measure of how well the bitstream content is transmitted, but rather the bit-to-bit between the original input bitstream and the reconstructed output bitstream. (Ie, quality).
  • PSNR beak signal
  • One embodiment for transcoding a bit sequence under low bit rate constraints summarizes the contents of a bit stream having a small number of frames. In this way, we do not use traditional distortion metrics that focus on quality. Rather, it employs a new measurement called fidelity. Fidelity takes into account the semantics and syntax of the content. Semantics and syntax do not mean bits or pixels, but rather concepts that are meaningful to humans represented by bits, such as words, sounds, levels of humor and image actions, image objects, etc. .
  • Fidelity can be defined in many ways. However, fidelity, as defined here, is not related to traditional quantitative quality, eg, differences between bits. Rather, fidelity measures the degree to which one frame or any number of frames conveys the information contained in the original image sequence, that is, the content or higher-level meaning of the conveyed information, It does not measure bits.
  • Fidelity is a more subjective or semantic measure than traditional distortion metrics.
  • fidelity is a useful measure to evaluate the performance of non-traditional transcoders. Because the output of our transcoder according to one embodiment is a limited set of relatively high quality frames that attempt to summarize the entire bit sequence, we call this type of transcoder a "discrete summary transcoder". Call.
  • the video can be lost because of the selective sampling of abundant frames.
  • the rate distortion performance of the continuous transform transcoder is severely degraded or the target rate cannot be met.
  • discrete digest transcoding is used.
  • conventional continuous transcoders lose smooth video (performance). This is because the frame rate is so low that the information delivery rate causes the image to be jerky (a phenomenon called jerky) and gives users discomfort.
  • the main advantage of discrete-summarizing transcoding over conventional continuous-transcoding is that continuous-transcoding transcoders, which are subject to severe rate constraints, drop information-rich frames, while discrete-summarizing transcoders have less information. Try to select abundant frames.
  • a content network device (CND) manager is described to control which transcoder is best for a given situation.
  • the purpose of the CND manager is to select which transcoder to use. The selection is based on data obtained from content, network and user device characteristics. We can also simulate these device characteristics in "offline” mode, alter the bitstream and deliver it later.
  • the adaptive bitstream distribution system 300 has four main components: a content classifier 310, a model predictor 320, and a It has a content network device manager 330 and a switchable transcoder 340.
  • the goal of the system 300 is to deliver the compressed bitstream 301 with the information content to the user device 360 through the network 350.
  • the bitstream content can be visual data, audio data, text data, natural data, synthetic data, basic data, compound data, or a combination thereof.
  • the network may be wireless, packet switched, or other network with unpredictable operating characteristics.
  • the user device may be an image receiver, a fixed or mobile radio receiver, or similar other user device with internal resource constraints that may make it difficult to receive the quality of the bitstream.
  • the system maintains the semantic fidelity of the content even when the bitstream needs to be further compressed to satisfy network and user device characteristics.
  • the input compressed bitstream is directed to transcoders and content classifiers.
  • the transcoder may eventually reduce the rate of the output compressed bitstream 309 directed to the user device through the network.
  • the content classifier 310 extracts content information (CI) 302 from the input bit stream for the manager.
  • the main function of the content classifier is to convert the semantic features of the content characteristics, such as motion activity, image change information and textures, into the parameters used by the content network manager to create rate-quality tradeoffs. Mapping to a set. To assist in this mapping function, the content classifier can also receive the message information 303.
  • Metadata can be low-level and high-level.
  • Metade includes descriptors and description schemes specified by the emerging MPEG-7 standard.
  • the model predictor 320 provides real-time feedback 321, relating to the dynamics of the network 350, and possibly constraining the characteristics of the user device 360.
  • the predictor is Report congestion and available bit rate (ABR).
  • ABR available bit rate
  • the predictor also receives and translates feedback about the packet loss ratio in the network.
  • the predictor estimates the current network conditions and long-term network predictions 3 2 1.
  • user devices may have limited resources. For example, processing power, memory, and display constraints. For example, if the user device is a cellular phone, its display may be constrained to textual information or low resolution images, or worse, just audio. These properties can also influence the choice of transcoding mode.
  • the manager 330 In addition to receiving the message, the manager 330 also receives inputs from both the content classifier 310 and the model predictor 320. CND combines the output data from these two sources so that the optimal transcoding strategy for the switchable transcoder 340 is determined.
  • CND Content Classifier:
  • classification can be achieved by extracting features from various levels of images. For example, program features, shot features, frame features, and features of sub-regions within a frame. The features themselves can be extracted using sophisticated transformations or simple mouth-to-mouth operations. Regardless of how the features are extracted, given a feature space of dimension N, each pattern can be represented as a point in this feature space.
  • the content classifier 310 operates in three stages (1, I I, and I I 3 1 1 to 3 13). First, classify the bitstream content so that higher-level semantics can be inferred, and second, adapt the classified content to network and user device characteristics.
  • the first stage (1) 311 extracts a number of low-level features (eg, motion activity, texture, or DCT coefficients) from the compressed bitstream using conventional techniques. Also, it is possible to access the metadata 303 such as the MPEG-7 descriptor and description method. Not much action is needed on compressed bitstreams if the media is available.
  • the end result of this first stage is that a predetermined set of content features is mapped to a semantic class or a limited set of high-level media. Furthermore, within each semantic class, a distinction is made based on coding complexity (ie, complexity is conditioned on semantic class and network characteristics, and possibly device characteristics).
  • CI 302 partially characterizes the potential performance of this embodiment of a switchable transcoder.
  • the content network device (CND) manager 330 and transcoder 340 are shown in more detail in FIG.
  • the CND manager has a discrete continuous control 431 and a content network device (CND) integrator 4432.
  • the transcoder 340 has a plurality of transcoders 441 to 443.
  • the control 431 uses a switch 450 to control the input compressed bitstream 3 0 1, for example, with a discrete digest transcoder 4 4 1, a continuous transform transcoder 4 4 2, or some other transcoder 4 4 3. Has the function of determining how to be transcoded.
  • the network content manager also dynamically adapts to the overnight gate rate for the transcoder and considers resources that constrain the characteristics of the network and user devices. These two very important items are determined by control 431.
  • Figure 5 shows several rate-quality functions graphically over the rate 501 and quality 502 scales. I have.
  • One write quality function of the continuous transform transcoder 4 4 2 is represented by the convex function 5 0 3.
  • the rate quality curve for the discrete summarization transcoder 4 4 1 is represented by a linear function 5 0 4.
  • Other transcoders may have different functions.
  • transcoding techniques produce crossover. For rates greater than ⁇ , it is best to use a continuous transform transcoder, and for rates less than ⁇ , use a discrete digest transcoder. Of course, crossover points change dynamically as content and network characteristics change.
  • a continuous transform transcoder typically assumes conventional distortion metrics such as PSNRR. Since such measurements do not apply to our discrete summarization transcoder, it is more reasonable to map traditional distortion metrics to “fidelity” measurements. Fidelity measures how well the content is semantically summarized, not the quantitative differences between bits. Given the same quality metrics, avoid inconsistencies in determining the best transcoding strategy.
  • the CND integrator 4 3 2 is a content classifier.
  • the CND manager uses the mapping from the content classifier.
  • bit rate feed pack 3 51 output from the CI and switchable transcoder 340. Using this information, the integrator selects the optimal modeling function 505 with the specific model parameters. Rate Feedback 3 51 is used to improve the parameters dynamically. If the integrator discovers that the selected model is not optimal, the integrator can make the decision to dynamically switch the rate-quality function. Also, Integre may track several functions for different objects or different bitstreams and consider the functions individually or together.
  • the network prediction 3 21 may affect these characteristic functions by modulating a particular part of the optimal curve 505 in one or the other direction. For example, where higher bit rates are available, the most care must be taken.
  • the network model allows a large number of bits to be consumed at a particular time, but the long-term effects show that it can quickly become congested, so our system is constrained to operate at a lower rate. You may choose to continue. In this way, the problem of a sudden drop in the available bit rate is avoided.
  • the emphasis in this embodiment is to enable dynamic selection of transcoding strategies that provide the best distribution of semantic content of the bitstream, and how the actual transcoding is It does not run. So far, the different types of trade-offs that can be made by switchable transcoders, including continuous transform transcoders and discrete summarization transcoders, have been described. For each of these transcoders, an optimal rate quality curve is assumed.
  • the novelty of our system is that it is possible to transcode a large number of objects of varying complexity and size, but more importantly, the overall quality of the image Is that a one-hour trade-off in space can be performed in order to optimize Focuses on object-based bitstreams due to the added flexibility. It also describes the various tools that can be used to manipulate the quality of a particular object.
  • the texture data of one object can be reduced without changing the shape information, while the shape information of another object is reduced without changing the texture information.
  • Many other combinations are also conceivable, including doping frames.
  • a news clip for example, it is possible to reduce the frame rate along with the texture and shape bits for the background without changing the information associated with the foreground newscaster.
  • the "quality" of a bitstream is measured as the difference between the bits between the input bitstream and the output bitstream.
  • object-based transcoding according to the present invention, there is no longer any restriction on manipulating the entire image. Transcode the bitstream decomposed into meaningful image objects. It is understood that the distribution of each object, together with the quality of each object, has a different effect on the quality as a whole. Because our object-based approach has such a finer level of access, the spatial-temporal quality level of an object can be reduced without significantly affecting the overall quality of the stream. It can be reduced. This is a completely different strategy than that used by traditional frame-based transcoders.
  • Perceived image quality in contrast to traditional bitstream quality, which measures the differences between bits in the entire image, regardless of content.
  • Perceived image quality is related to the quality of objects in the image that convey the desired information. For example, the image background can be completely lost without affecting the perceived image quality of the more important foreground objects.
  • FIG. 6 shows a high-level block diagram of an object-based transcoder 600 according to another embodiment of the present invention.
  • the transcoder 600 has a demultiplexer 601, a multiplexer 602, and an output buffer 603.
  • the transcoder 600 also has a transcoder 800 based on one or more objects operated by a transcoding control unit (TCU) 6100 according to the control information 604.
  • TCU transcoding control unit
  • the unit 610 has a shape, texture, time and space analyzer 611 to 614.
  • the input compressed bitstream 605 to the transcoder 600 has a basic bitstream based on one or more objects.
  • the bit stream based on objects can be serial or parallel. All bit rates of bit stream 605 are R in.
  • the output compressed bit stream 600 from the transcoder 600 is a full bit stream such that R out ⁇ R in. G has R out.
  • the demultiplexer 601 provides one or more elementary bitstreams to each of the object-based transcoders 800, and the object-based transcoder 800 converts the object Provide to 610.
  • Transcoder 800 scales the basic bit stream. Before being passed to the output buffer 603, the scaled bit stream is configured in the multiplexer 602, from where it is passed to the receiver. Buffer 606 also provides rate feedback information 608 to the TCU.
  • the control information 604 passed to each of the transcoders 800 is provided by the TCU.
  • the TCU has the function of analyzing not only time and space resolution but also texture and shape data. All of these new degrees of freedom make the object-based transcoding framework very specific and desirable for network applications.
  • MPEG-4 utilizes spatio-temporal image redundancy using motion compensation and DCT.
  • the core of the object-based transcoder 800 is the application of the MPEG-2 transcoder described above. The main difference is that the shape information is included in the bitstream, and tools for predicting DC and AC between blocks are provided for texture coding.
  • texture transcoding relies on shape data. In other words, the shape data is simply parsed and not ignored.
  • the compliant bit stream syntax depends on the decoded shape data.
  • the use of texture models for rate control in encoders has been extensively described in the prior art. See, e.g., "MPEG-4 rate control for multiple video objects," IEEE Trans, on Circuits and Systems for Video Technology, February 1999, and references therein by Vetro et al.
  • the variable R represents the texture bits consumed by the image object (VO)
  • the variable Q represents the quantization parameter QP
  • the variable (XX 2 ) The first and second order model parameters are shown
  • the variable S shows the coding complexity such as the average absolute difference.
  • the transcoding problem differs in that _g, the original set of QPs, and the actual number of bits are already given. Also, rather than computing the coding complexity S from the spatial domain, a new DCT-based complexity measurement tilde S must be defined. This measurement is
  • a macroblock index in the set M of coded blocks, M c is the number of proc in the set of that, / o (i) is the weighting der frequency dependent You.
  • the complexity measure shows the energy of the AC coefficient, where the contribution of the high frequency components is reduced by the weighting function.
  • the weighting function may be selected to mimic the function of the MPEG quantization matrix.
  • the model parameters can be determined and updated continuously. In fact, the model can be updated twice for each transcoded V OP. Once before transcoding with the data in the bitstream, and after encoding the texture with a new set of QPs, _0_. As the number of data points increases, the model parameters become more powerful and gather more quickly.
  • conditional distortion Can be defined as
  • k indicates a VOP index in the VOP set ⁇
  • k indicates the visual significance or priority of the object k.
  • D (Q) is not explicitly specified, but is known to be proportional to Q.
  • Visual significance can be a function of the object for size and complexity.
  • the solution space is limited to the effective solution space shown in FIG.
  • the X axis indicates the image object 701
  • the y axis indicates QP.
  • the figure also shows a valid search space 710, a restricted search space 711, a valid path 712, and an invalid path 713.
  • Q P are the nodes in the trellis, and each node is associated with an estimated rate and conditional distortion.
  • the problem can be described as:
  • skipping frames In general, the purpose of skipping frames is to reduce the buffer occupancy level so that the buffer overflows and ultimately prevents packet loss. Another reason for skipping frames is to allow a trade-off between spatial and temporal quality. In this way, fewer frames are coded, but they are coded with higher quality. As a result, if the buffer is not at risk of over-burping, the decision to skip a frame is
  • This space-time trade-off is achieved by constraining the solution space by searching for an effective solution space for the set of QPs, building from the proposed techniques for QP selection. As shown in Fig. 7, a valid route is one in which all elements of 'enter the restricted area. If one of these factors goes out of the area, the path is invalid in that it does not maintain a specified level of spatial quality. Spatial quality is implied by conditional distortion.
  • the maximum value may be a function of the complexity of the object, or may simply be a percentage of the input QP. If the maximum is based on complexity, the transcoder effectively limits the objects with higher complexity to smaller QPs. Because their effects on spatial quality are the most serious. On the other hand, limiting the complexity based on the input QP means that the transcoder maintains a similar QP distribution compared to the originally encoded bitstream. Both approaches are valid. Q for each object
  • the trade-off that determines the best way to limit P can depend on the trade-off between spatial and temporal quality.
  • V L D variable length decoding
  • MPEG-4 the shape data is coded block by block using a so-called context-based mathematical coding algorithm. See Brady, "MPEG-4 standardization methods for the compression of arbitrarily shaped objects", IEEE Trans Circuits and Systems for Video Technology, December 1999.
  • the context for each pixel is determined by the selected mode. The context is calculated based on a 9-bit or 10-bit causal template, depending on the probabilities. Used to access.
  • DRC Dynamic Resolution Conversion
  • FIG. 8 shows the components of an object-based transcoder 800 according to the present invention.
  • the syntax of the coding standard dictates some of the architecture of the transcoder 800.
  • the transcoder 800 includes a V0L / V0P parser 810, a shape scaler 820, an MB header parser 830, a motion parser 840, and a texture scaler 850.
  • the transcoder also has a bus 860 that transfers various parts of the elementary bit stream 801 to a bit stream memory 870. From this comprehensive storage, the basic bitstream composition unit 880 may form a reduced rate compressed bitstream according to the MPEG-4 standard.
  • the output basic bitstream 809 is provided to the multiplexer of FIG.
  • each object is associated with a picture object layer (VOL) and a picture object plane (VOP) header.
  • VOP header contains the quantum used to encode the object. Includes chemical parameters overnight (QP).
  • QP chemical parameters overnight
  • All other bits are stored in the bitstream memory 870 until the point of composing the output bitstream 606 of FIG.
  • MPEG-4 can encode the shape of an object. From the VOP layer, find out whether VOP contains shape information (binary) or not (square). If it is a square VOPP, the object is simply a square frame and there is no need to parse the shape bits. If it is a binary shape, it is necessary to determine whether the macroblock is transparent or not. A transparent block is inside the object's bounding box, but outside the object's bounds. Therefore, there is no motion or texture information associated with it.
  • the shape scaler 8 20 is composed of three sub-components: a shape decoder Z parser 8 21, a shape downsampler 8 22, and a shape encoder 8 23. If the bitstream shape information is not scaled, the shape decoder Z parser is simply a shape parser. This is indicated by the control information 6104 received from the RD shape analysis 611 of the transcoder control unit 610. In this case, the shape downsampler 82 2 and the shape encoder 8 23 are disabled. If the shape information is scaled, the shape decoder / parser 821 must first decode the shape information into a pixel domain representation.
  • the block can be downsampled by a factor of 2 or 4 using a shape downsampler 82 2 and re-encoded using a shape encoder 8 23.
  • the conversion ratio is determined by RD shape analysis 6 11. Regardless of whether the shape bits are simply parsed or scaled, the output of the shape scaler 820 is transferred to the bit stream memory 870 via the bit stream bus 860 Is done.
  • Layer has bits with coded block pattern (CBP) I do.
  • CBP is used to signal to the decoder which of the macroblocks contains at least one AC coefficient. Not only does CBP affect the structure of the bitstream, but it also affects AC and DC predictions. The reason the transcoder must be related to this parameter is that the CBP changes in response to the requantization of the DCT block. Therefore, CBP is recalculated after the block is requantized.
  • the Text Scaler CBP Recalculation Unit 856 accomplishes this.
  • the unit 856 transmits the variable length code (VLC) 855 to the bit stream memory 870 via the bit stream bus 860, and replaces the header existing in the input bit stream.
  • VLC variable length code
  • the texture block 851 is partially decoded.
  • the result of this process is the DCT block coefficients.
  • objects can be downsampled by a factor of two or four.
  • the ability to downsample the block is indicated by the downsampling factor from the transcoding control unit 610 and the spatial analysis 614.
  • this downsampling is performed in the DCT domain so that ID CTZD CT operation can be avoided. See U.S. Pat. No. 5,855,151, "Method and apparatus for down-converting a digital signal," filed Nov. 10, 1998, by Bao et al.
  • the DCT block is temporarily stored in the coefficient memory 853. From this memory, the blocks are sent to a quantizer 854.
  • Quantizer 854 quantizes the block according to the QP transmitted from RD texture analysis 612 using the techniques described in this invention that match the new target rate.
  • temporal analysis 613 indicates to bitstream configuration 880 which bits are to be configured and transmitted and which bits to drop.
  • bitstream configuration 880 which bits are to be configured and transmitted and which bits to drop.
  • the portion of the bitstream written to this memory is simply overwritten by the next image object's data.
  • an image can be partitioned into a coarse-to-fine hierarchy 900, as shown in FIG.
  • the image program or session 9100 is considered to be the highest level of the hierarchy 900. This level may represent 30 minutes of full-time programming from a news program or broadcast network.
  • Program 910 is shot S0t—1,..., Shot
  • the next level 920 is divided into shots.
  • a “shot” is a group of frames (G 0 F) or a group of image object planes (GOV). 2 1—9 2 9 This level represents a smaller image segment that starts when the camera is turned on and continues until the camera is turned off. To avoid confusion, we will simply call this level shot level 920.
  • a shot is composed of 0 0? Frame 930 and the most basic unit of GOV or image object plane (VOP) 931. Other lower levels can also be considered. This refers to the sub-regions 941 to 942 of the frame or VOP.
  • a feature extraction process 901-1904 is applied to the image data. It goes without saying that the data at each level is arranged in a different manner, and the relevant features vary from level to level, so different feature extraction techniques are applied to each level. That is, program-level features are extracted in a different manner than frame features.
  • these features represent "hints” or “queues” 905-908 that can be applied to the transcoding system.
  • hints are either semantic or syntactic, and can represent either a high-level or low-level metade.
  • messaging can be applied to transcoding at any given level.
  • the method for higher level data such as shot level is used for classification, bit allocation, and rate-quality considerations for that particular shot and among other shots. in this case
  • transcoders are limited to transcoders, but the CND manager in Figure 3 determines the transcoding strategy in all output content.
  • a message schedule for lower levels of data such as the object level may be more useful to the transcoder 340 itself in helping dynamic bit allocation. This is because it is difficult to classify and manage output content at such a low level.
  • hybrid discrete summarization and continuous transform transcoders Once again, we describe techniques that focus primarily on using high-level (shot-level) messaging in CND managers. However, such meta-descriptions in discrete summarization transcoders can also be considered. Finally, it describes how to use transcoding to guide transcoding. As noted above, this is equally applicable to both the management and transcoding stages.
  • Content Classifier 310 are content characteristics such as activity, image change information, and texture. Is to map the set of parameters used to make the trade-off trade-offs. To assist in this mapping function, the content classifier also accepts metadata information 303.
  • An example of a message is the descriptor and description system (DS) specified by the emerging MPEG-7 standard.
  • stage I I I 3 13 of the content classifier 310 such low-level media data is mapped to rate-quality characteristics that depend only on the content.
  • FIG. 10 illustrates this. Rate-quality characteristics affect the rate-quality function shown in Figure 5.
  • the content classifier 310 receives the low-level message 303.
  • Stage I311 extracts high-level metadata or class 1001.
  • Stage II 312 uses predictions 3 2 1 to determine content, network, and device dependent rate quality (RQ) characteristics.
  • the stage I I I 3 13 extracts the R-Q characteristic 100 3 that depends only on the low-level menu.
  • the spatial distribution parameters of motion activity descriptors in MPEG-7 are similar to how motion program And whether it can be classified into the category 1 of spatial and spatial distribution.
  • the news program includes several shots of the general moderator and various other shots related to the entire news story.
  • FIG. 11 and Figures 12 and 13 show three shots 1 201-123, namely, a general moderator's shot, an on-site repo overnight shot, and a police trail shot.
  • a news program 1 2 0 0 For the sake of simplicity, all news program shots are categorized into only one of the three categories, but it goes without saying that in a practical application the categories would be different in number and type.
  • the first class, 111 indicates shots where the temporal quality of the content is less important than the spatial quality.
  • the second class, 1102 shows shots where the spatial quality of the content is more important, and the third class, 1103, shows shots where the spatial and temporal quality of the shot is equally important. Is shown.
  • This set of classes is called S E T — 1 1 1 1 0.
  • Such classes are clearly characterized by rate and quality.
  • the purpose of the content classifier stages I I I 3 13 is to process low-level features and map these features to the most appropriate of these classes. Note that the importance of spatial and temporal quality can also be evaluated on a scale of 1 to 10 or on a real-time basis of 0.0 to 1.0.
  • the first class 1 1 2 1 indicates that shots can be compressed very easily, ie a large compression ratio can be easily achieved for a given distortion.
  • the third class, 1 1 2 3, represents the absolute opposite. In other words, it indicates that it is very difficult to compress the shot content due to dog / complex motion or spatially active scenes.
  • the second class 1 1 2 2 is about halfway between the first and third classes.
  • This set of classes is called SET—2 1 1 2 0.
  • these classes 110 are also managed by CND manager 330. It also illustrates the effect of content classification on the rate-quality decisions made, and how the switchable transcoder 340 may operate.
  • compression difficulties can be categorized by numerical values. Of course, other sets of classes can be defined for other types of imaging programs.
  • rate-quality classes 3 £ 1 and 3 £ 1-2.
  • Content is classified into these classes according to the features extracted from low-level media. The following describes how these classes can be extracted from motion activity.
  • FIG. 12 illustrates a transcoding strategy according to the SET-1 classification.
  • the general moderator shot 1 201 is transcoded using a discrete digest transcoder 1 210. See block 4 4 1 in FIG. This transcoder reduces the entire shot 1 201 into a single frame 1 2 1 1 (ie, a still image of the general moderator). During the duration of the shot, the full audio portion of the speaking host is provided.
  • the short-term shot of the field repo, 122 is continuously converted at 5 frames per second, with perfect sound, and the viewer feels some background motion. Hold.
  • Police chase shots 123 are also converted continuously at 30 frames 1231 per second.
  • the classification results can be interpreted differently than shown in FIG.
  • SET-2 the segment is very easily compressed due to the lack of motion in the general moderator's short 1201 and is therefore classified into the first class 1121 of Set-2.
  • This shot is continuously converted at a high compression rate of 1240 at 30 frames per second at 1241.
  • police chase shot 1203 is more difficult to compress because it contains high motion. Therefore, the police pursuit shot 1203 is classified into the third class 1123 of Set-2.
  • police chase shots 1203 are converted continuously at 7.5 frames per second 1261 1260. Again, according to the characteristics of Shot 1202 with a field reporter, it could fall into one of three classes. For illustration purposes, the in-field repo—evening shot 1202 is assigned to the second class 1122 and is continuously converted 1250 at 15 frames 1251 per second.
  • hints can generate either constant rate bitstreams or variable rate bitstreams (CBR or VBR). For example, if the classification is based on hard compression (SET 2), a CBR bitstream will be generated when a low frame rate is given to a hard-to-compress frame sequence, and a VBR bitstream will have more bits allocated. Can be generated when
  • these classifications suggest how the content can be manipulated. In fact, the classification can greatly reduce the number of scenarios considered. For example, if the CND manager has to consider a rate-quality trade-off for a large number of bitstreams (frames or objects) at a given time, the CND manager may decide between the continuous transform and the discrete digest transcoding. You can consider the best way to distribute transcoding responsibilities. Instead of choosing one method for all segments under consideration, it is possible to consider a hybrid approach. The priority of the program, or the difficulty of compression due to its low-level features, is an example of a useful parameter that could be used to make such a decision.
  • Figures 12 and 13 show how the classification in SET-1111 and SET2111 affects the strategy determined by the CND manager and the transcoder An example of how to operate the day and night is shown. Of particular interest in Fig. 12 is that a hybrid transcoding scheme is used.
  • the general moderator can be assigned a lower priority than police chase. If you are dealing with object-based images, another transcoding method is to assign a lower priority to the background of the shot 1221 than the general moderator in the foreground. All this can be achieved, for example, through the classification of the motion activity parameter (s) at the object level.
  • Low-level features are considered individually or in pairs Regardless of whether they are considered together, low-level features can be used to effectively collect and categorize image content into meaningful parameters that assist CND managers and transcoders.
  • CND classifier 310 and CND manager 330 appear to be inconsistent with TCU 610 in FIG. 6, but they are not.
  • the classifier and CND manager try to pre-select the best strategy for the transcoder 340. Given this strategy and instructions from the manager, the transcoder has the ability to manipulate the content in the best possible way. If the transcoder is unable to satisfy the request due to incorrect predictions or the strategy chosen by the CND manager, the transcoder will provide a mechanism to handle such situations (eg, time analysis). Need. Therefore, it can also be used in the TCU. However, the purpose of Metadata overnight for TCUs is different from that for classifiers and CND managers. [Effect of Meta-Data on Transcoding on Transcoding: Effects of Meta-Data on Transcoding]
  • the first method is performed in the CND manager 330, where the bit allocation derives a strategy and ultimately a decision on how to use the functions provided by the discrete digest and continuous transform transcoders 441-442. Used for Thus, the report quality function of FIG. 5 is used to make the decision.
  • the second method is performed in the transcoder 340 itself. Again, it is used for estimating, but rather than determining a strategy, a real-time determination of coding parameters that can be used to match bit-rate purposes. Used to Thus, the coding parameters were chosen such that the transcoder achieved the optimal rate-quality function of FIG.
  • low-level and high-level methods are used for discrete summarization and continuous transformation.
  • Semantic information can be associated with content automatically or by manual annotation.
  • the CND manager 330 In applications where a large number of users request various shots simultaneously, the CND manager 330 must determine how much to assign to each shot. For a discrete-summarizing transcoder 441, this rate may correspond to the number of frames transmitted, while for a continuous transform transcoder 4442, the rate may correspond to an acceptable evening get frame rate. I can do it. If the level of action indicates a particular level of temporal activity, bits may be assigned for each frame sequence according to the description of the content. For shots with high functions, the CND manager will indicate that frame rates below a certain level will not be tolerated by the continuous transform transcoder and that better quality shots will summarize the content with a discrete digest transcoder. Determines that it can be delivered.
  • action level
  • the process of generating high-level metadata from low-level metadata can be defined as evening encoding.
  • Such an encoding process may be considered in stage I 311 in the transcoding system content classifier.
  • this high-level generation process can be used in stand-alone systems.
  • An example of such a stand-alone system is a system that exemplifies a description method specified by the MPEG-7 standard. Such a system may be referred to as an MPEG-7 high-level meta-decoder.
  • the current proposal for MPEG-7 has a high-level description scheme, which is a placeholder for various types of messaging.
  • the normative part of this standard explicitly specifies important requirements for implementation, and the informative part merely suggests a potential technology or one way to do something. A note that was noted.
  • determining the appropriate motion vector or quantization parameter is considered an encoder issue, ie, the informative part of the standard.
  • the standard specifies a variable length coding (VLC) table for motion vectors and a 5-bit field for quantization parameters. How these fields are used is entirely a matter of the encoder and has nothing to do with the standard, ie the informative part.
  • VLC variable length coding
  • SummaryDS is used to identify visual abstracts of content that are primarily used for content search and navigation.
  • VariationDS is used to specify changes in content Can be.
  • changes can be formed in a number of ways and reflect revisions and manipulations of the original data.
  • description methods such as the Summary DS and Variati 0 n DS do not describe how to summarize or generate changes in content.
  • the first major problem is that these changes must have been generated before any requests for the original image. As a result, real-time transmission is not an option. This is because the delay associated with bringing about many changes in content is too long.
  • the second major problem is that network characteristics tend to change over time. Therefore, under current network conditions, selecting a particular pre-transcoded change at once is not applicable for the entire duration.
  • FIG. 14 shows such an encoder generating summarization and change data, along with the associated instance of the corresponding description scheme.
  • the components of the encoder are similar to those of the adaptive transcoding system 300 of FIG. However, the encoder differs in that it is not connected to a network to receive and transmit in real time during transcoding. Instead, the encoder is connected to a database where the images are stored. The encoder produces various offline image versions for later real-time distribution.
  • the adaptive bitstream image delivery system 1300 has five major components: a content classifier 1310, a network device (ND) generator 1320 It has a CND manager 133, a switchable transcoder 134, and a DS instantiator 135.
  • the system 1300 has its inputs and outputs connected to the database 1360.
  • the system 1300 is also based on network and data
  • the purpose of the distribution system 1303 is to generate a changing and / or summarizing bitstream 1308 from the original compressed bitstream (Vide0In) 1301.
  • Bitstream content can be visual, audio, This can be texture data, natural data, synthetic data, basic data, compound data, or a combination thereof.
  • the image distribution system 1300 is similar to the adaptive transcoder system 300. The main differences are that it is not connected to the user device 360 via the network 350 in FIG. 3, and that transcoding is not performed in real time.
  • the ND generator 1350 replaces devices and networks.
  • the generator has the ability to simulate network and device (ND) constraints that may exist in real-time operation.
  • the ND generator may simulate a CBR channel having 64 kbps, 128 kbps, and 512 kbps, or a VBR channel.
  • the generator can simulate channels that are experiencing a reduction in available bandwidth. This loss can be primary, secondary, or very sharp. Many other typical conditions may be considered, some of which may be related to user device constraints such as limited display capabilities.
  • the database stores a number of input bitstream transformations 1301 so that bitstreams for some real-time operating conditions will be readily available in downstream transcoders in the future.
  • the change bit stream can be both CBR and VBR.
  • the purpose of the ND generator 1320 is to simulate various network device conditions and automatically generate a change Z summary 1308 of the original content 1301 according to these conditions. While doing this, the system also illustrates the corresponding description scheme 1309.
  • the fields of the description scheme eg, Variant DS and Summar DS are the changing bitstreams.
  • the CND manager must pass this information to DS Instantly 1350. After the change is illustrated, the corresponding description scheme can be accessed and used, for example, by the real-time transcoder 300 as described above. [Rate-Quality functions]
  • the changes and / or summaries 1308 created by the system 1300 are calculated from the optimal rate—points V (1),...,. V (5) is a subset.
  • Figure 15 shows the limited number of points. These points indicate the optimal operating point for a particular change.
  • Each change has an associated exemplified description scheme (DS) 1309. Both the changing bitstream 13 08 and the illustrated description scheme 13 09 are stored in the database 13 60 together with the original image stream 13 01.
  • the selector 1370 of the system 1300 receives a request for a particular image program.
  • the selector provides information about the available changes and the associated DS stored in the data pace 1360.
  • the CND manager of the transcoder 300 utilizes this pre-transcoded data.
  • High-level metadata allows transcoders to correlate specific changes in the requested image with current real-time network and device constraints.
  • the CND manager requests that certain changes be sent by the selector over network 350.
  • transcoder 340 can operate in bypass mode. If a close match is found, transcoder 340 may operate more efficiently.
  • bitstreams 13 08 This is just one example of a practical application. It is also possible to further manipulate and modify already operated bitstreams 13 08 to increase compliance with current network and device constraints. This creates a large number of pre-transcoded bitstreams that cover a very wide range of conditions, while a small number of pre-transcoded bitstreams covers some of the most common conditions. Is a problem in generating Different levels of quality can be predicted from each approach. Because the distribution system under relaxed time constraints 1 3

Description

明 細 書 圧縮画像をトランスコード化するための装置及び方法 技術分野
この発明は、 一般に、 情報配信システムに関し、 特に、 ネットワークで利用 可能なビットレートに情報を適応させる配信システムに関する。 背景技術
近年、 符号化情報を通信するための数多くの規格が開発されてきた。 画像シ —ケンスで最も広範囲に用いられている規格としては、 M P E G—1 (動画の 格納および取り出し用) 、 M P E G— 2 (デジタルテレビ用) 、 および H . 2 6 3が挙げられる。 ISO/IEC JTC1 CD11172、 MPEGヽ ""Information Technology - Coding of Moving Pictures and Associated Auaio for Digital Storage Media up to about 1.5 Mbit/s - Part2: Coding of Moving Pictures Inform ationj 、 1991年、 LeGall、 「MPEG: A Video Compression Standard for Mult imedia Applicationsj 、 Communications of the ACM第 34卷 4号、 46〜58頁、 1991年、 ISO/IEC DIS 13818-2、 隱 -2、 r information Technology - Generi c Coding of Moving Pictures and Associated Audio Information - Part2: Video j 、 1994年、 ITU-T SG XV、 DRAFT H.263、 「Video Coding for Low Bitr ate Communicationj 1996年、 ITU-T SG XVI、 DRAFT13 H.263+ Q15-A-60 rev. O 、 「Video Coding for Low Bitrate Communicationj 、 1997年を参照下さい。 これらの規格は、 主に画像シーケンスの空間的および時間的圧縮を取り扱う 比較的低レベルの仕様である。 一般的な特徴として、 これらの規格は、 フレー ム毎の圧縮を行う。 これらの規格によると、 広範囲な応用で高い圧縮比を成し 遂げることができる。
M P E G— 4 (マルチメディア応用) などのさらに新しい画像コーディング 規格 ( r Information Technology -- Generic coding of audio/visual objec tsj ISO/IEC FDIS 14496-2 (MPEG4 Visual) 、 1998年 11月を参照) では、 任 意の形状のオブジェクトを個別の画像オブジェクトプレーン (V O P : Video Object Planes) として符号化および復号化することができる。 オブジェクト は、 視覚データ、 音声デ一夕、 自然デ一夕、 合成データ、 基本データ、 複合デ 一夕、 またはその組み合わせであり得る。 画像オブジェクトは、 複合オブジェ クトまたは 「シーン: scenesj を形成するように組み立てられる。
新しく浮上しつつある M P E G— 4規格は、 自然ぉよび合成マテリアルが統 合され、 アクセスが普遍的であるインタラクティブ画像などのマルチメディァ 応用を可能にすることを意図している。 M P E G— 4は、 コンテンツを基礎と した相互作用を可能にする。
例えば、 移動する像またはオブジェクトを 1つの画像から他の画像に 「カツ トアンドペースト : cut- and-paste」 したい場合がある。 このタイプの応用で は、 マルチメディアコンテンツ内のオブジェクトは、 何らかのタイプの分割プ 口セスを通して識別されてきたと想定される。 例えば、 1999年 6月 4日付けで出 願された、 Lin等による米国特許出願第 0 9 / 3 2 6 , 7 5 0号 「Method for Ordering Image Spaces to Search for Object Surfacesj を参照下さい。 画像伝送のコンテクストにおいて、 これらの圧縮規格は、 ネットワークで必 要とされる帯域幅 (利用可能なビットレート) の量を減少させるために必要で ある。 ネットワークは、 無線チャネルまたはインタ一ネットを表し得る。 いず れにせよ、 ネットワークは、 限定された容量を有し、 そのリソースに対するコ ンテンションは、 コンテンツを送信しなければならない場合に解決されなけれ ばならない。
長年の間、 デバイスにコンテンツをロバストに送信し、 コンテンツの品質を 利用可能なネットワークリソースに適応させることが可能なアーキテクチャお よびプロセスに対して多大な努力がなされてきた。 コンテンツがすでに符号化 されている場合、 ネットワークを通してストリームが送信される前に、 すでに 圧縮されたビットストリームをさらに変換し、 例えば、 利用可能なビットレー トを減少させなければならないことがある。
ビットストリーム変換または 「トランスコーディング (transcoding) 」 は
、 ビットレート変換、 レゾリューション変換、 およびシンタックス変換に分類 され得る。 ビットレート変換としては、 定数ビットレート ( C B R : constant bit rate) と可変ビットレ一ト (V B R : variable bit rate) との間のビヅ トレートスケ一リングおよび変換が挙げられる。 ビットレートスケ一リングの 基本的な機能は、 入力ビットストリームを受け、 受信機の新しい負荷制約に合 致するスケーリングされた出力ビットストリームを生成することである。 ビッ トストリームスケーラは、 トランスコーダまたはフィル夕であり、 ソースビッ トストリームと受信負荷とを合致させる。
図 1に示すように、 通常、 スケーリングは、 トランスコーダ 1 0 0によって 成し遂げられ得る。 力任せの場合、 トランスコーダは、 復号化器 1 1 0および 符号化器 1 2 0を有する。 圧縮された入力ビットストリーム 1 0 1は、 入カレ ート R i nで完全に復号化され、 次いで、 新しい出力レート R o u t 1 0 2で 符号化され、 出力ビットストリーム 1 0 3が生成される。 通常、 出力レートは 入力レートよりも低い。 しかし、 実際には、 復号化されたビットストリームの 符号化は非常に複雑であるため、 トランスコーダにおける完全な復号化および 完全な符号化はなされない。
M P E G - 2 トランスコーディングに関する初期の研究については、 Sim等 によって、 「Architectures for MPEG compressed bitstream scalingj 、 IEE E Transactions on Circuits and Systems for Video Techno logy 1996年 4月 において公開されている。 この文献では、 複雑度およびアーキテクチャが異な る、 レートを低下させるための 4つの方法が示されている。
図 2は、 例示的な方法を示している。 このアーキテクチャでは、 画像ビッ ト ストリームは、 一部のみが復号化される。 具体的には、 入力ビットストリーム 2 0 1のマクロブロックは、 可変長復号化 (V L D ) 2 1 0される。 入力ビッ トストリームはまた遅延され 2 2 0、 逆量子化 (I Q ) 2 3 0され、 離散コサ イン変換 (D C T ) 係数を形成する。 所望の出力ビヅトレ一卜が与えられると 、 部分的に復号化されたデータは分析され 2 4 0、 2 5 0において新しい集合 の量子化器が D C Tブロックに適用される。 次に、 これらの再量子化されたブ ロックは、 可変長コード化され (V L C ) 2 6 0、 より低いレートの新しい出 力ビットストリーム 2 0 3が形成され得る。 この方式は、 図 1に示す方式より もはるかに簡単である。 なぜなら、 動きベクトルが再使用され、 逆 D C Tオペ レーシヨンを必要としないからである。
Assuncao等 ίこよるさら ίこ最近の研究で ίま、 「A frequency domain video tra nscoder for dynamic bit-rate reduction of MPEG - 2 bitstreamj IEEE Tra nsactions on Circuits and Systems for Video Techno logy 953〜957頁、 19 98年 12月において、 同じタスクに関する簡略化されたアーキテクチャが記載さ れている。 ここでは、 ドリフト補償のために周波数ドメインにおいて動作する 動き補償 (M C ) ループが用いられる。 近似マトリクスは、 周波数ドメイン内 の M Cブロックを迅速に計算するために引き出される。 トランスコーディング のための最良の量子化器スケールを計算するためにラグランジュ最適化が用い られる。
Sorial等 Γ Joint transcoding of multiple MPEG video bitstreamsj、 Pro ceedings of the International Symposium on Circuits and Systems、 Can 1 999年による他の研究は、 多重 M P E G— 2ビヅトストリームを共にトランス コード化する方法を提示している。 Vetro等によって 1999年 10月 1日付けで提出 された、 米国特許出願第 0 9 4 1 0 , 5 5 2号 「Estimating Rate-Distorti on Characteristics of Binary Shape Dataj も参照下さい。
従来の圧縮規格によると、 テクスチャ情報を符号化するために割り付けられ たビットの数は、 定量化パラメ一夕 (Q P : quantization parameter) によつ て制御される。 上記の文献は、 元のビットストリームに含まれる情報に基づい て Q Pを変化させることによってテクスチャビットのレ一トを低下させるとい う点では同様である。 効率的なインプリメンテーションでは、 情報は、 通常、 圧縮されたドメイン内で直接抽出され、 D C Tブロックのマクロブロックまた は残留エネルギーのモーションに関連する測定を含み得る。 このタイプの分析 は、 ビット割り付け分析器において見出され得る。
場合によっては、 ビットストリームは予め処理され得るが、 トランスコーダ がリアルタイムで動作することも重要である。 従って、 ビットストリームに関 する大幅な処理遅延は許容できない。 例えば、 トランスコーダがフレーム群か ら情報を抽出し、 次いで、 このルヅクアヘッド情報に基づいてコンテンツをト ランスコード化することは実現可能ではない。 これは、 生放送またはビデオ会 議では作用しない。 より良好なビット割り付けにより、 品質に関してはより良 好なトランスコ一ディングを成し遂げることは可能であるが、 このようなリア ルタイム応用のィンプリメンテーションは実用的ではない。
従来のトランスコーディング方法では、 ビットレートを低下させる能力が限 定されていることに留意することも重要である。 換言すると、 出力画像の Q P のみが変化する場合、 どのくらいのレート低下が可能であるかには限界がある 。 低下は、 考慮されているビットストリームに依存して限定される。 Q Pから 最大値に変更すると、 通常、 ビッ トストリームのコンテンヅは大幅に低下する 。 空間的品質を低下させるものとしては、 この他に、 時間的品質の低下、 即ち フレームを落したりまたはスキップすることが挙げられる。 あまりに多くのフ レームをスキップすることも、 品質を大幅に低下させることになる。 空間的品 質および時間的品質の低下が共に考慮される場合、 トランスコーダは、 空間的 品質対時間的品質におけるトレードオフに直面する。
このような空間一時間トレードオフの概念はまた、 符号化器においても考慮 され得る。 しかし、 画像コーディング規格のすべてがフレームスキッピングを サポ一トしているわけではない。 例えば、 M P E G— 1および M P E G— 2で は、 グループォブビクチャ (G O P ) 構造は予め決定される。 即ち、 アンカー フレーム間のフレーム内期間および距離は固定される。 この結果、 すべてのピ クチャが符号化されなければならない。 この時間的制約を回避するために、 シ ンタックス (syntax) は、 マクロブロックのスキップを可能にする。 フレーム 内のすべてのマクロプロックがスキップされる場合、 そのフレームは実質的に スキップされている。 このスキッピングを示すために、 フレーム内の各マクロ ブロックに対して少なくとも 1つのビットが用いられる。 これは、 いくらかの ビットレートについては効率が悪くなり得る。
H . 2 6 3および M P E G— 4規格はフレームスキッピングを可能にする。 両規格は、 参照の特定を可能にするシンタックスをサポートする。 しかし、 こ れらのフレームスキッピングは、 主に、 バッファ制約を満足させるために用い られている。 換言すると、 バッファ占有率 高すぎ、 オーバ一フローの危険が ある場合、 符号化器は、 フレームをスキップして、 バッファへのビットの流れ を減少させ、 バッファにその現在のビットを送信するためのいくらかの時間を 与える。
このシンタックスのさらに高性能な使用によって、 緊急を要しない状況にお ける空間一時間トレードオフがなされ得る。 即ち、 より低い空間的品質でより 多くのフレームがコード化されるか、 またはより高い空間的品質でより少ない フレームがコード化される。 コンテンツの複雑度に応じて、 いずれかの方策を 用いることによって、 ともすれば、 全体としてより良好な品質となり得る。 M P E G— 4のォブジェクトを基礎とする符号化器におけるこのトレードオフの 制御方法は、 1999年 10月 19日付けで発行された、 Sun等の米国特許第 5、 9 6 9、 7 6 4号、 「Adaptive video coding methodj 、 および Vetro等による 「M PEG-4 rate control for multiple video objectsj、 IEEE Trans, on Circui ts and Systems for Video Technology、 1999年 2月に記載されている。 ここで は、 2つの動作モード、 即ち、 高モードおよび低モードが導入された。 出力時 間レゾリューションによって決定される現在の動作モードに従って、 ビットが 割り付けられたように調整がなされた。
上記で参照した研究を除くと、 この空間一時間トレ一ドオフの制御方法は最 小限の注目しか受けていない。 さらに、 このような決定をするためのトランス コーダ内で利用可能な情報は、 符号化器の情報とはかなり異なる。 以下では、 トランスコーダにおけるこのようなトレードオフをなす方法について記載する この結果、 トランスコーダは、 利用可能なビットレートの低下に適応するよ うに、 ビットストリームに含まれる情報を送信する何らかの代替手段を見出さ なければならない。
M P E G規格委員会によって努力が払われている最近の規格化は、 正式には
「マルチメディァコンテンツ記述ィン夕フエ一ス」 と呼ばれる M P E G— 7の 規格である。 「MPEG-7 Contexts Objectives and Technical Roadmapj、 ISO/
IEC N286K 1999年 7月を参照のこと。 実質的には、 この規格は、 記述子集合、 および様々なタイプのマルチメディァコンテンツを記述するために用いられ得 る記述方式を導入する計画である。 記述子および記述方式は、 コンテンツ自体 と関連し、 特定のユーザにとって関心のあるマテリアルの迅速かつ効率的な検 索を可能にする。 この規格は、 以前のコーディング規格の代わりをなすことを 意味せず、 むしろ、 他の規格表示、 特に、 M P E G— 4上に構築されることに 留意することが重要である。 これは、 マルチメディアコンテンツが異なるォブ ジェク卜に分解され、 各オブジェク卜には特有の集合の記述子が割り当てられ 得るためである。 また、 規格は、 コンテンツが格納されるフォーマットとは独 立している。
M P E G— 7の主な応用は、 検索および取り出しの応用であると予想される 。 「MPEG-7 Applicationsj 、 ISO/IEC N2861、 1999年 7月を参照のこと。 簡単 な応用環境では、 ユーザは、 特定オブジェクトのいくらかの属性を特定し得る 。 この低レペルの表示では、 これらの属性は、 特定オブジェクトのテクスチャ 、 モーション、 および形状を記述する記述子を含み得る。 形状を表示かつ比較 する方法は、 1999年 6月 4日付けで提出された、 Lin等による米国特許出願第 0 9 / 3 2 6 , 7 5 9号 rMethod for Ordering Image Spaces to Represent Ob ject Shapesj に記載され、 モーション活動を記述する方法は、 1999年 9月 27日 付けで提出された、 Divakaranらによる米国特許出願第 0 9 Z 4 0 6, 4 4 4 号 「Activity Descriptor for Video Sequencesj (こ言己載されて ヽる。 より高 いレベルの表示を得るには、 いくつかの低レベル記述子を組み合わせたより複 雑な記述方式が考えられ得る。 事実、 これらの記述方式は、 他の記述方式をも 含み得る。 「MPEG-7 Multimedia Description Schemes WD (V1.0)j 、 ISO/IEC N3113、 1999年 12月、 および 1999年 8月 30日付けで提出された、 Lin等による 「 Method for representing and comparing multimedia content j を参照のこと o
M P E G— 7規格によって提供されるこれらの記述子および記述方式は、 ト ランスコーダによって引き出すことができない画像コンテンツのプロパティへ のアクセスを可能にする。 例えば、 これらのプロパティは、 トランスコーダに アクセスできないと推定されたルックアヘッド情報を表示することができる。 トランスコーダがこれらのプロパティにアクセスする唯一の理由は、 これらの プロパティが初期のコンテンツから引き出されたものであるからである (即ち 、 コンテンヅは、 予め処理され、 その関連のメ夕デ一夕と共にデ一夕ベース内 に格納されている) 。
情報自体は、 構文論的または意味論的であり得る。 ここで、 構文論的情報と は、 コンテンツの物理的かつ論理的な信号の局面を指し、 意味論的情報とは、 コンテンツの概念上の意味を指す。 画像シーケンスに関しては、 構文論的要素 は、 特定オブジェクトの色、 形状、 およびモーションに関連し得る。 他方、 意 味論的要素は、 事象の時間および場所、 または画像シーケンスにおける人の名 前などの、 低レベルな記述子から抽出することができない情報を指し得る。 従来のトランスコーディング方法の背景、 および M P E G— 7規格の現在の 状態が与えらた場合、 両側から情報を用いる改良されたトランスコーディング システムを規定する必要がある。 発明の開示
圧縮画像をトランスコード化するための装置において、 生成器は、 ネットヮ ークの制約およびユーザデバイスの制約をシミュレートする。 分類器は、 入力 圧縮画像および制約を受信するように接続されている。 分類器は、 入力圧縮画 像の特徴からコンテンツ情報を生成する。 マネージャは、 制約およびコンテン ッ情報に応じて複数の変換モードを生成し、 トランスコーダは、 複数の変換モ ―ドのそれぞれに対して 1つの出力圧縮画像を生成する。 図面の簡単な説明
図 1は、 従来のトランスコーダのブロック図、
図 2は、 従来の部分復号化器/符号化器のプロック図、
図 3は、 この発明による適応可能なビットストリーム配信システムのブロッ ク図、
図 4は、 適応可能なトランスコーダおよびトランスコーダマネージャのブロ ック図、
図 5は、 図 4のトランスコーダおよびマネージャによって用いられ得るトラ ンスコ一ディング関数のグラフ、
図 6は、 オブジェクトを基礎とするビットストリームスケーリングのブロッ ク図、
図 7は、 検索空間のグラフ、
図 8は、 この発明によるオブジェクトを基礎とするトランスコーダの詳細を 示すブロック図、
図 9は、 キューレペルによる特徴抽出のブロック図、
図 1 0は、 3つのステージを有する画像コンテンツ分類器のブロック図、 図 1 1は、 記述子方式のブロック図、
図 1 2は、 図 1 1の aに示す記述子方式によるトランスコーディングのプロ ヅク図、
図 1 3は、 図 1 1の bに示す記述子方式によるトランスコ一ディングブ口ッ ク図、
図 1 4は、 コンテンツ要約、 およびコンテンツ要約に従ったコンテンツの変 化を生成するためのシステムのブロック図、
図 1 5は、 図 1 4のコンテンツ要約およびコンテンツ変化に基づいたトラン スコーディング関数のグラフ、 発明を実施するための最良の形態
圧縮された入力ビットストリームを、 ターゲットレート (即ち、 ネットヮ一 クで利用可能なビヅトレート (A B R : available bit rate) ) で圧縮された 出力ビットストリームに変換または 「スケ一リング: scalingj することが可 能な画像配信システムについて記載する。 また、 圧縮された入力ビッ トストリ ームの変化を配信する配信システムについても記載する。 さらに、 ビットスト リームの低レベル特徴および記述子方式に基づいたトランスコーディングにつ いて記載する。
通常、 出力ビットストリームの夕ーゲッ トレ一トは、 入力ビットストリーム のレートよりも小さい。 換言すると、 我々の卜ランスコーダのタスクは、 通常
、 ネットワークリソースにおける制約またはェンドユーザデバイスにおける受 信機負荷のために、 ビットストリームをさらに圧縮することである。 プログラ ムレベル、 ショットレベル、 フレームレベルおよび画像オブジェクトレベル、 ならびにサブ領域レベルを含む様々なレベルの画像に関するコンテンヅを基礎 としたトランスコーディング技術について記載する。 我々の目的は、 レート一 品質 (R Q ) 特性を最大にしながらトランスコーディングを行うことである。 我々のシステムは、 従来のトランスコーダの欠点、 即ち、 特にリアルタイム 応用におけるレート変換の制限を克服することができる。 従来のトランスコ一 ディング技術は十分にレートを低下させることができるものの、 コンテンツの 品質は通常、 激しく低下する。 大抵の場合、 ビットレートが低下したビッ トス トリームで伝達される情報は全く失われてしまう。 従来、 ビットス トリーム 「 品質」 は、 入力ビットストリームと出力ビットストリームとの間のビット毎の 差として測定されてきた。
ビットストリームのコンテンツの品質を維持すると共に、 夕一ゲットレート を成し遂げることができるトランスコーディング技術について記載する。
[連続変換: Continuous Conversion]
従来のフレームを基礎とするトランスコ一ディング技術は、 連続変換と定義 され得る。 従来の技術は、 空間対時間的品質において最良のトレードオフを連 続して維持することを試みるため、 出力は常に、 入力シーケンスを最良に表示 するフレームのシーケンスである。 レート上の制約を満たすため、 特定のフレ —ムがスキップされるとき、 スキップされたフレーム内に含まれる情報は考慮 されない。 十分なフレームがスキップされると、 受信されるビットストリーム は、 ユーザにとって意味のないものになるか、 良くても満足のいくものではな い。
[品質歪みメ トリクス : Quality Distortion Metrics]
従来の連続変換卜ランスコーダは、 空間および時間的品質におけるトレード オフに関して、 レート歪みの観点で最適な決定を下す。 このようなトランスコ
—ダでは、 歪みは、 通常、 ノイズ比に対するビーク信号 (P S N R ) などの従 来の任意の歪みメ トリクスとしてとられる。 このような変換では、 歪みは、 ビ ッ トストリームのコンテンツがどのくらい良好に伝達されているかの測定では なく、 むしろ元の入力ビッ トストリームと再構築された出力ビットストリーム との間のビッ ト間の差 (即ち、 品質) である。
[ビットストリームの忠実度: Fidelity of Bitstream]
低ビッ トレート制約下でビットシーケンスをトランスコ一ド化するための 1 つの実施の形態では、 少数のフレームを有するビットストリームのコンテンツ について要約する。 この方法において、 我々は品質に焦点を当てた従来の歪み メ トリクスを用いない。 むしろ、 「忠実度 (fidelity) 」 と呼ばれる新しい測 定を採用する。 忠実度は、 コンテンツの意味論およびシンタックスを考慮する 。 意味論およびシンタックスは、 ビットまたは画素を意味せず、 むしろビッ ト で表される人間にとって意味のある概念、 例えば、 単語、 音、 ュ一モアおよび 画像アクションのレベル、 画像オブジェクトなどを意味する。
忠実度は多くの方法で定義され得る。 しかし、 忠実度は、 ここで定義するよ うに、 従来の量的な品質、 例えば、 ビット間の差には関連しない。 むしろ、 忠 実度は、 1つのフレームまたは任意の数のフレームが元の画像シーケンスに含 まれる情報を伝達する程度、 即ち、 伝達される情報のコンテンツまたはより高 レベルな意味を測定し、 生ビットを測定するのではない。
[離散要約卜ランスコーダ: Discrete-Summary Transcoder]
忠実度は、 従来の歪みメ 卜リクスに比べ、 より主観的または意味論的な測定 である。 しかし、 我々のシステムでは、 忠実度は、 従来のものではないトラン スコーダの性能を評価するための有用な測定である。 一実施の形態による我々 のトランスコーダの出力は、 ビットシーケンス全体の要約を試みる比較的高い 品質のフレームの限定された集合であるため、 我々は、 このタイプのトランス コーダを 「離散要約トランスコーダ」 と呼ぶ。
例えば、 低ビットレートでは、 我々は、 画像を表示するために少数の高品質 なフレームを選択する。 このようにして、 ビットストリームの意味論上の 「意 味」 が保存される。 この離散要約トランスコーダが入力ビッ トストリームの高 レベルな意味論的サンプリングを成し遂げる一方、 連続したトランスコーダは 、 空間および時間ドメインにおいて画素を量的にサンプリングするだけである ことに留意されたい。 ビッ トレートがかなり限定されている状況では、 我々は 、 「豊富な (rich) 」 フレームをサンプリングし、 ビッ トストリーム内の符号 化されたコンテンツの忠実度を保存する。
豊富なフレームを選択的にサンプリングするため、 ビットストリームにおけ る 1つの局面、 即ち動画 (性能) を失い得る。 連続変換トランスコーダのレ一 ト歪み性能が激しく低下するか、 またはターゲットレートを満足することがで きない場合にのみ、 好ましくは、 離散要約トランスコーディングをとる。 これ らの条件下では、 従来の連続変換トランスコーダは、 滑らかな動画 (性能) を 失う。 なぜなら、 フレームレートが非常に低いため、 情報配信レートは画像が ぎく しゃくし (jerkyと呼ぶ現象をきたし) ユーザに不快感を与えるからであ る o
従来の連続変換トランスコーディングに対する離散要約トランスコ一ディン グの主な利点は、 厳しいレート制約下にある連続変換トランスコーダが、 情報 が豊富なフレームを落とすのに対して、 離散要約トランスコーダは情報が豊富 なフレームを選択するよう試みることである。
所定の状況に対してどのトランスコーダが最良であるかを制御するために、 コンテンツネットワークデバイス (C N D ) マネージャについて記載する。 C N Dマネージャの目的は、 どのトランスコーダを用いるかを選択することであ る。 選択は、 コンテンツ、 ネッ トワーク、 ユーザデバイス特性から得られるデ 一夕に基づいている。 我々はまた、 「オフライン」 モードにおけるこれらのデ バイス特性をシミュレートし、 ビットストリームを変化させ、 後に配信するこ とができる。
[適応可能なビッ トストリーム配信システム : Adaptable Bitstream Delivery System]
図 3に示すように、 適応可能なビットストリーム配信システム 3 0 0は、 4 つの主な構成要素、 即ち、 コンテンツ分類器 3 1 0、 モデル予測器 3 2 0、 コ ンテンツネッ トワークデバイスマネージャ 3 3 0、 および切り換え可能なトラ ンスコーダ 3 4 0を有する。
システム 3 0 0の目標は、 圧縮されたビットストリーム 3 0 1を情報コンテ ンヅと共にネヅ トワーク 3 5 0を通してユーザデバイス 3 6 0に配信すること である。 ビットストリームのコンテンツは、 視覚デ一夕、 音声デ一夕、 テキス トデ一夕、 自然デ一夕、 合成デ一夕、 基本デ一夕、 複合デ一夕、 またはその組 み合わせであり得る。 ネットワークは、 無線、 パケット切り換え型であるか、 または予測不可能な動作特性を有する他のネッ トワークであり得る。 ユーザデ バイスは、 画像受信機、 固定型または移動型無線受信機、 またはビッ トストリ —ムの品質受信を困難にし得る内部リソース制約を有する同様の他のユーザデ パイスであり得る。
利点として、 システムは、 ビットストリームがネットワークおよびュ一ザデ バイス特性を満足するようにさらに圧縮される必要があるときでさえ、 コンテ ンッの意味論的忠実度を維持する。
入力圧縮ビットストリームは、 トランスコーダおよびコンテンツ分類器に向 けられる。 トランスコーダは、 最終的には、 ネットワークを通してユーザデバ イスに向けられる出力圧縮ビットストリーム 3 0 9のレートを低下させ得る。 コンテンヅ分類器 3 1 0は、 マネージャ用の入力ビットストリームからコン テンッ情報 (C I ) 3 0 2を抽出する。 コンテンヅ分類器の主な機能は、 モー シヨン活動、 画像変化情報およびテクスチャなどのコンテンツ特性の意味論的 特徴を、 コンテンツネットワークマネージャにおいてレート一品質トレ一ドォ フをなすために用いられるパラメ一夕の集合にマップすることである。 このマ ッビング機能を補助するために、 コンテンツ分類器はまた、 メ夕デ一夕情報 3 0 3を受け得る。 メタデータは、 低レベルおよび高レベルであり得る。 メタデ 一夕の例としては、 新しく浮上しつつある M P E G— 7規格によって特定され る記述子および記述方式が含まれる。
このアーキテクチャでは、 モデル予測器 3 2 0は、 ネットワーク 3 5 0のダ イナミックスに関し、 恐らくはユーザデバイス 3 6 0の特性を制約するリアル タイムフィードバック 3 2 1を提供する。 例えば、 予測器は、 ネットワーク輻 輳および利用可能なビットレート (A B R ) を報告する。 予測器はまた、 ネヅ トワーク内でのパケット損失比に関するフィードバックを受信し、 翻訳する。 予測器は、 現在のネットワーク状態、 および長期ネットワーク予測 3 2 1を見 積もる。 典型的には、 ユーザデバイスは、 リソースが限定され得る。 例えば、 処理パワー、 メモリ、 および表示制約である。 例えば、 ュ一ザデバイスがセル ラー電話である場合、 その表示は、 テキスト情報または低レゾリューション画 像、 またはさらに悪い場合には、 単なる音声に制約され得る。 これらの特性は また、 トランスコーディング様式の選択にも影響を与え得る。
メ夕デ一夕 3 0 3の受信に加えて、 マネージャ 3 3 0はまた、 コンテンツ分 類器 3 1 0およびモデル予測器 3 2 0の両方から入力を受信する。 C N Dは、 切り換え可能なトランスコーダ 3 4 0に対して最適なトランスコ一ディング方 策が決定されるように、 これらの 2つの情報源からの出力デ一夕を組み合わせ o [コンテンツ分類器: Content Classifier]
パターン分析および認識の分野では、 分類は、 様々なレベルの画像から特徴 を抽出することによって成し遂げることができる。 例えば、 プログラム特徴、 ショット特徴、 フレーム特徴、 およびフレーム内のサブ領域の特徴である。 特 徴自体は、 高性能な変換または簡単口一カルオペレ一夕を用いて抽出され得る 。 特徴がどのように抽出されるかに関係なく、 寸法 Nの特徴空間が与えられる と、 各パターンは、 この特徴空間内のポイントとして表示され得る。
種々の異なるトレーニングパターンを入力としてこの抽出プロセスにかけ、 その結果を特徴空間内でプロッ卜することはよく行われている。 特徴集合およ びトレーニングパターンが適切である場合、 「クラス」 と呼ばれるいくつかの ポイントのクラス夕が観察される。 これらのクラスによって、 異なるパターン を識別し、 同様のパターンをグループ化することができ、 観察されたクラス間 の境界を画定することができる。 通常、 クラス間の境界は、 分類ミスのためい くらかのコストは免れないが、 全体としてのエラ一を最小限にするよう試みる 適切なクラスが識別され、 クラス間の適切な境界線が引かれると、 ビットス トリーム内の新しいパターンをすばやく分類することができる。 問題によって は、 これは、 ニューラルネットワークまたはサポートベクトル機械などの他の 公知の分類技術 (Cristianiniら、 「An Introduction to Support Vector Mac hines (および他の力-ネルを -スとした学習方法) 」 、 Cambridge University Pr ess、 2000を参照) を用いて成し遂げることができる。
コンテンツ分類器 3 1 0は、 3ステージ (1、 I I、 および I I I 3 1 1 〜3 1 3 ) において動作する。 第 1に、 より高レベルな意味論が推論され得る ようにビッ トストリームコンテンツを分類し、 第 2に、 分類されたコンテンツ をネットワークおよびユーザデバイス特性に適応する。
第 1のステージ (1 ) 3 1 1では、 従来の技術を用いて圧縮ビットストリ一 ムから多数の低レベルの特徴 (例えば、 モーション活動、 テクスチャ、 または D C T係数) を抽出する。 また、 MP E G— 7記述子および記述方式などのメ 夕データ 3 0 3にもアクセスすることができる。 メ夕デ一夕が利用可能である 場合、 圧縮ビットストリームに対してはそれほどの作用は必要ない。 この第 1 のステージの最終結果として、 予め決定されたコンテンツ特徴の集合が意味論 的クラスまたは高レベルのメ夕デ一夕の限定された集合にマップされる。 さら に、 各意味論的クラス内で、 コーディングの複雑度 (即ち、 複雑度は、 意味論 的クラスおよびネットワーク特性、 ならびに恐らくはデバイス特性を条件とす る) に基づいて区別する。
このコンテンツの高レベルの理解は、 コンテンツ情報 (C I ) 3 0 2として C N Dマネージャ 3 3 0に渡される。 C I 3 0 2は、 切り換え可能なトランス コーダの本実施の形態の潜在的な性能を部分的に特徴づける。
上記の分類は、 コンテンヅ理解、 および最終的には離散要約トランスコ一デ イングの観点から有用であるが、 中間ステージの結果としても有用である。 本 質的には、 分類の第 2ステージ I I 3 1 2への入力として作用する新しい集 合のクラスを有する。 分類の第 2ステージでは、 意味論的なクラスをネットヮ
—クの特徴およびデバイス特性にマップする。 これらの特徴によって、 システ ムがトランスコーディング方策を開発するのを補助するレ一ト—品質関数の特 性を決定するのを助ける。 換言すると、 特定の意味論的クラスが、 オブジェク 卜の移動または画像の変化のために、 バーストデータによって特徴づけられる 可能性がある場合、 このことは、 どのくらいのリソースをネットワークが提供 しなければならないかを見積もる際に考慮されなければならない。 第 3のステ —ジ 3 1 3については、 他の実施の形態に関して以下に記載する。
[コンテンツネヅトワークデバイスマネージャ : Content-Network-Device Man ager]
コンテンヅネットワークデバイス (C N D ) マネージャ 3 3 0およびトラン スコーダ 3 4 0は、 図 4にさらに詳細に示される。 C N Dマネージャは、 離散 連続制御 4 3 1およびコンテンツネットワークデバイス (C N D ) インテグレ 一夕 4 3 2を有する。 トランスコーダ 3 4 0は、 複数のトランスコーダ 4 4 1 ~ 4 4 3を有する。
制御 4 3 1は、 スィッチ 4 5 0を用いて、 例えば、 離散要約トランスコーダ 4 4 1、 連続変換トランスコーダ 4 4 2、 または何らかの他のトランスコーダ 4 4 3で、 入力圧縮ビットストリーム 3 0 1がどのようにトランスコード化さ れるべきかを決定する機能を有する。 ネットワークコンテンツマネージャはま た、 トランスコーダに対する夕一ゲヅトレートに動的に適応し、 ネットワーク およびユーザデバイスの特性を制約するリソースを考慮する。 これらの 2つの 非常に重要な項目は、 制御 4 3 1によって決定される。
どのように制御が最適な選択決定をなすかをより良く理解するために、 図 5 は、 複数のレート一品質関数をレート 5 0 1および品質 5 0 2のスケールに関 してグラフで示している。 連続変換トランスコーダ 4 4 2の 1つのレ一トー品 質関数は、 凸関数 5 0 3によって示される。 離散要約トランスコーダ 4 4 1に 対するレ一トー品質曲線は、 一次関数 5 0 4によって表される。 他のトランス コーダは異なる関数を有し得る。
これらの曲線が単に例示を目的として描かれたものであることに留意された い。 特定のトランスコーダに対する関数の真の形式は、 コンテンツ、 コンテン ヅがどのように分類されたか、 および恐らくはネットワークおよび特性を制約 するデバイスの現在の状態に応じて変化し得る。 明らかに、 低ビットレートで は、 上記の理由のために、 連続変換トランスコーダは品質が急速に劣化する。 最適な品質関数 5 0 5は太字で示される。 この関数は、 所定のビットレートお よびユーザデバイスに対して成し遂げられ得る最適な品質を最良にモデル化す る。
我々は、 レート = T 5 0 6においてトランスコーディング技術ではクロスォ ーバが発生することに留意する。 Τよりも大きなレートについては、 連続変換 トランスコーダを用い、 Τよりも小さいレートについては、 離散要約トランス コーダを用いることが最良である。 言うまでもなく、 クロスオーバポイントは 、 コンテンツおよびネヅ トワーク特性が変化するにつれて動的に変化する。 上述したように、 連続変換トランスコーダは、 通常、 P S N Rなどの従来の 歪みメ トリクスを想定する。 このような測定は、 我々の離散要約トランスコー ダには適用されないため、 従来の歪みメ トリクスを 「忠実度」 の測定にマップ することはより妥当である。 忠実度は、 コンテンツがどのくらい良好に意味論 的に要約されるかを測定し、 量的なビット間の差は測定しない。 同じ品質メ ト リクスが与えられると、 最適なトランスコ一ディング方策を決定する際の矛盾 を避ける。
[コンテンヅネットワークデバイスインテグレ一夕 : Content-Network-Device Integrator]
図 4を再び参照すると、 C N Dインテグレー夕 4 3 2は、 コンテンツ分類器
3 1 0からのコンテンツ情報 3 0 2と、 モデル予測器からのネットワークデバ イス予測 3 2 1とを共に組み合わせる C N Dマネージャの部分である。 図 5に 示されるレート一品質関数、 または他の同様の最適化関数として表されるモデ ルを生成するのはマネージャのこの部分である。 最適な動作モデル 3 2 1を形 成するために、 C N Dインテグレー夕は、 コンテンツ分類器からのマッピング
C Iおよび切り換え可能なトランスコーダ 3 4 0から出力されるビットレート フィードパック 3 5 1を調べる。 この情報を用いて、 インテグレー夕は、 特定 のモデルパラメ一夕を有する最適なモデリング関数 5 0 5を選択する。 レ一卜 フィードバック 3 5 1は、 パラメータを動的に改良するために用いられる。 ィ ンテグレー夕が、 選択されたモデルが最適でないことを発見する場合、 インテ グレー夕は、 レート一品質関数を動的に切り換える決定をすることができる。 また、 インテグレ一夕は、 異なるオブジェクトまたは異なるビットストリーム に対していくつかの関数を追跡し、 関数を個別にまたは一緒に考慮し得る。
[ネットワーク予測の影響: Impact of Network Predictions]
ネットワーク予測 3 2 1は、 最適曲線 5 0 5の特定部分を一方向または他方 向に変調することによってこれらの特性関数に影響を与え得る。 例えば、 より 高いビットレートが利用できる場合、 最も注意を払う必要がある。 ネットヮ一 クモデルによって、 特定時間で多数のビットを消費することができるが、 長期 の影響によって、 急速に混雑し易いことが分かるため、 我々のシステムは、 抑 制して、 より低いレートで動作を続けることを選択し得る。 このようにして、 利用可能なビットレートの突然の低下に関する問題を回避する。 これらのタイ プの特性は、 トランスコーダの曲線を変調することによって引き起こされ得る
[デバイス制約の影響: Impact of Device Constrains]
また、 デバイス特性を考慮する必要がある。 移動型デバイスは、 固定型デバ イスとは異なる動作特性を有する。 例えば、 ドップラースプレッドは、 利用可 能なビットレートが高いほど性能が低下し得る。 従って、 より低いビットレー トを選択しなければならない。 デバイスは、 トランスコーダに影響を与え得る 限定された処理、 格納、 および表示能力を有し得る。 例えば、 画像をオーディ ォのみのデバイスに配信することは意味がない。 事実、 切り換え可能なトラン スコーダは、 スピーチからテキストまたはデータからスピーチへの変換などを 行う他のトランスコーダ 4 4 3を有し得る。 重要な点は、 この発明の切り換え 可能なトランスコーダがビットストリ一ムコンテンツの意味論および目的地デ パイスを考慮するのに対して、 多くの従来のトランスコーダは利用可能なビッ トレ一トを考慮するだけであるということである。 [フレームを基礎とするトランスコーダ: Frame-Based Transcoder]
フレームを基礎とするトランスコーダのトランスコ一ディング数の詳細は、 従来技術において公知である。 例えば、 以下の任意の米国特許第 5, 9 9 1, 7 1 6号 (スピーチのタンデムコーティングを防止するトランスコーダ) 、 第 5, 9 4 0, 1 3 0号 (抽出された動き補償データをバイパス転送する画像ト ランスコーダ) 、 第 5, 7 6 8 , 2 7 8号 (N : l トランスコーダ) 、 第 5 , 7 6 4 , 2 9 8号 (緩和された内部復号化器/コーダイン夕フェースフレーム ジッ夕要件を有するデジタルデータトランスコーダ) 、 第 5 , 5 2 6 , 3 9 7 号 (切り換えトランスコーダ) 、 第 5, 3 3 4, 9 7 7号 (異なるビヅト数が コード変換に用いられる A D P C Mトランスコーダ) 、 または他の同様の特許 を参照のこと。 これらの特許のいずれも、 ビヅトストリームの意味論的コンテ ンッおよびネットワーク特性に応じて特定のトランスコーディング方策を選択 する我々の技術を記載していない。 以下、 選択され得るオブジェクトを基礎と するビヅトストリームトランスコーダについて記載する。
本実施の形態で強調されるのは、 ビットストリームの意味論的コンテンツの 最良の配信を提供するトランスコ一ディング方策の動的選択を可能にすること であり、 実際のトランスコ一ディングがどのように実行されるかではない。 これまで、 連続変換トランスコーダおよび離散要約トランスコーダを含む切 り換え可能なトランスコーダによってなされ得る異なるタイプのトレ一ドオフ について記載してきた。 これらのトランスコーダのそれぞれにおいて、 最適な レ一トー品質曲線が想定される。
[オブジェクトを基礎とするトランスコ一ディング: Object-Based Transcode r]
ここで、 連続変換トランスコーダに対するレート一品質曲線がどのように導 き出され、 Q Pおよびフレームスキップ量などの適切な符号化パラメ一夕がど のように決定されるかについて詳細に記載する。 また、 この研究を M P E G—
4のコンテクストにも広げる。 利用可能なビットレ一トおよび各画像オブジェ クトの複雑度に基づいて、 画像またはシーンにおいて適応するようにオブジェ クトをトランスコード化またはスケーリングするフレームワークについて記載 する。
我々の方式は、 出力レートに対する入力レートの比に応じて、 様々な技術を 用いてレートを低下させ得る点において適応できる。 我々の目標は、 複雑度が 変化するォブジェクトに対して最良の全体的な品質を提供することであるため 、 各オブジェクトの劣化は同じである必要はない。 上記のように、 ここでは、 フレームではなく、 オブジェクトをパースする点に留意されたい。
我々のシステムの新規性は、 複雑度およびサイズが変化する多数のオブジェ クトをトランスコード化することが可能なことであるが、 さらに重要なことは 、 我々のシステムが、 画像の全体的な品質を最適化するために、 空間一時間ト レ一ドオフを行うことができる点である。 柔軟性が加えられたために、 ォブジ ェクトを基礎とするビットストリームに焦点を当てる。 また、 特定のオブジェ クトの品質を操作するために利用できる様々な手段について記載する。
注目すべき主要な点は、 オブジェクト自体が等しい品質でトランスコード化 される必要がないことである。 例えば、 1つのオブジェクトのテクスチャデー 夕は、 形状情報に手をつけずに減少され得るのに対して、 他のオブジェクトの 形状情報はテクスチャ情報に手をつけずに減少される。 ド口ッピングフレーム を含む他の多くの組み合わせもまた考えられ得る。 ニュースクリップでは、 例 えば、 前景のニュースキャス夕一に関連する情報に手をつけずに、 背景に関す るテクスチャおよび形状ビットと共にフレームレートを低下させることが可能 である。
[オブジェクトを基礎とするトランスコ一ディングのためのビヅトストリーム の品質: Quality of a Bitstream for Object-Based Transcoder]
上記のように、 従来のフレームを基礎とするトランスコーダは、 ビットレー トを十分に低下させ得る。 しかし、 コンテンツの品質は激しく劣化し、 ビット レートが低下したビットストリームにおいて伝達される情報は全く失われ得る
。 従来、 ビヅトストリームの 「品質」 は、 入力ビットストリームと出力ビヅト ストリームとの間のビッ ト間の差として測定される。 しかし、 この発明によるオブジェクトを基礎とするトランスコーディングで は、 画像全体の操作に対してもはや制約はない。 意味のある画像オブジェクト に分解されたビットストリームをトランスコ一ド化する。 各ォブジェク卜の配 信は、 各オブジェクトの品質と共に、 全体として異なる影響を品質に与えるこ とが理解される。 我々のオブジェクトを基礎とする方式は、 このようなより繊 細なアクセスレベルを有するため、 ス卜リーム全体の品質にあまり影響を与え ずに、 1つのオブジェク 卜の空間—時間的品質のレベルを減少させることが可 能となる。 これは、 従来のフレームを基礎とするトランスコーダによって用い られるのとは全く異なる方策である。
コンテンツに関係なく画像全体のビット間の差を測定する従来のビッ トスト リーム品質とは対照的に、 我々は 「知覚画像品質」 の概念を導入する。 知覚画 像品質は、 目的の情報を伝達する画像内のオブジェクトの品質に関連する。 例 えば、 画像の背景は、 さらに重要な前景オブジェクトの知覚画像品質に影響を 与えずに完全に失われ得る。
[オブジェクトを基礎とするトランスコ一ディングフレームワーク : Object- B ased Transcoding Framework]
図 6は、 この発明の他の実施の形態によるォブジヱクトを基礎とするトラン スコーダ 6 0 0の高レベルブロック図を示す。 トランスコーダ 6 0 0は、 デマ ルチプレクサ 6 0 1、 マルチプレクサ 6 0 2、 および出力バッファ 6 0 3を有 する。 トランスコーダ 6 0 0はまた、 制御情報 6 0 4に従ってトランスコ一デ イング制御ユニット (T C U) 6 1 0によって動作する 1つ以上のオブジェク トを基礎とするトランスコーダ 8 0 0を有する。 ユニット 6 1 0は、 形状、 テ クスチヤ、 時間、 および空間分析器 6 1 1〜6 1 4を有する。
トランスコーダ 6 0 0への入力圧縮ビッ トストリーム 6 0 5は、 1つ以上の オブジェクトを基礎とする基本的なビットストリームを有する。 オブジェクト を基礎とするビットストリームは、 直列または並列であり得る。 ビットストリ ーム 6 0 5の全ビットレ一トは R i nである。 トランスコーダ 6 0 0からの出 力圧縮ビットストリーム 6 0 6は R o u t < R i nとなるような全ビヅトレー ト R o u tを有する。
デマルチプレクサ 601は、 1つ以上の基本的なビットストリームを、 ォブ ジェクトを基礎とするトランスコーダ 800のそれぞれに提供し、 オブジェク トを基礎とするトランスコーダ 800は、 オブジェクトデ一夕 607を TCU 610に提供する。 トランスコーダ 800は、 基本的なビットストリームをス ケ一リングする。 スケーリングされたビットストリームは、 出力バッファ 60 3に渡される前にマルチプレクサ 602で構成され、 そこから受信機に渡され る。 バッファ 606はまた、 レートフィードバック情報 608を TCUに提供 する。
上記のように、 トランスコーダ 800のそれぞれに渡される制御情報 604 は、 TCUによって提供される。 図 6に示すように、 TCUは、 時間および空 間レゾリューションだけでなく、 テクスチャおよび形状データを分析する機能 を有する。 これらの新しい自由度はすべて、 オブジェクトを基礎とするトラン スコ一ディングフレームワークを、 ネットワーク応用に対して非常に特有かつ 望ましいものにする。 MPEG— 2および H. 263コーディング規格のよう に、 MPEG— 4は、 動き補償および DCTを用いて、 空間—時間的な画像の 冗長性を利用する。 その結果、 オブジェクトを基礎とするトランスコーダ 80 0の中核は、 上記の MPEG— 2 トランスコーダの適用である。 主な相違は、 形状情報が、 ビットストリーム内に含まれ、 テクスチャコーディング関して、 ブロック間に対する DCおよび ACを予測するためのツールが設けられている 点である。
テクスチャのトランスコーディングが形状データに依存することに注目する ことも重要である。 換言すると、 形状デ一夕は、 単にパースされ無視されるこ とはない。 準拠したビットストリームのシンタックスは、 復号化形状データに 依存する。
明らかに、 我々のオブジェクトを基礎とする入力および出力ビットストリー ム 601〜602は、 従来のフレームを基礎とする画像プログラムと全く異な る。 また、 MPEG— 2は、 動的フレームスキッピングを許容しない。 ここで は、 GO P構造および参照フレームは通常固定される。 [テクスチャモデル: Texture Models]
符号化器におけるレート制御のためのテクスチャモデルの使用は、 従来技術 において広範囲に記載されている。 例えば、 Vetro等による 「MPEG-4 rate con trol for multiple video objectsj 、 IEEE Trans, on Circuits and Systems for Video Technology, 1999年 2月、 およびこの中の参考文献を参照のこと。 オブジェクトを基礎とするトランスコーダ 8 0 0において用いられるテクス チヤモデルでは、 変数 Rは、 画像オブジェクト (V O ) に消費されるテクスチ ャビットを表し、 変数 Qは、 量子化パラメ一夕 Q Pを示し、 変数 (X X 2 ) は、 第 1次および第 2次モデルパラメ一夕を示し、 変数 Sは、 平均絶対差な どの符号化複雑度を示す。 Rと Qとの間の関係は、
( X、 χΛ
' ο ο2 によって与えられる。 V Oに割り当てられるビッ トのターゲット量、 および S の現在値が当てられると、 Qの値は、 (Xい X 2 ) の現在値に依存する。 V 0が符号化された後、 実際に使用されたビットの数は既知であり、 モデルパラ メ一夕は更新され得る。 これは、 前回の nフレームの結果を用いて、 線形回帰 によってなされ得る。
[テクスチャ分析: Texture Analysis]
トランスコーディング問題は、 _g、 元の Q Pの集合、 および実際のビット数 がすでに与えられている点で異なる。 また、 空間ドメインから符号化複雑度 S を計算するよりも、 新しい D C Tを基礎とした複雑度の測定チルダ Sを定義し なければならない。 この測定は、
1 63
s - j^ ∑ ∑ ) (/)f として定義される。 ここで、 B m ( i ) は、 ブロックの A C係数であり、 mは
、 コード化ブロックの集合 Mにおけるマクロブロック指数であり、 Mcは、 そ の集合内のプロックの数であり、 /o ( i ) は、 周波数に依存する重み付けであ る。 複雑度測定は、 A C係数のエネルギーを示し、 ここで、 高周波成分の貢献 は、 重み付け関数によって減少する。 重み付け関数は、 M P E G量子化マトリ クスの関数を模倣するように選択され得る。
ビットストリームで送信されるデ一夕および過去の画像ォブジェクトからの デ一夕より、 モデルパラメ一夕は決定され、 連続して更新され得る。 実際、 ト ランスコード化された V O P毎にモデルを 2度更新し得る。 一度は、 ビットス トリーム内のデータを用いてトランスコード化する前、 次は、 Q Pの新しい集 合である _0_, を有するテクスチャをコード化した後である。 このデ一夕ポイン 卜の数が増加するにつれて、 モデルパラメ一夕はより強力になり、 より迅速に 集よ o
テクスチャ分析の主な目的は、 歪みを最小に抑えながら、 レート制約を満足 する を選択することである。 しかし、 最適性は _aに依存することに留意す ることは重要である。 従って、 歪みがどのように量子化されるかに注意を払わ なければならない。 この点から、 ^に対する依存性のために、 この歪みを条件 付き歪みと呼ぶ。
0.' を決定するための 1つの方法は、 レート制御問題で用いたのと同じ方法 を用いることである。 このように、 まず、 特定時間定数ですベての V O Pに対 する予算を見積もり、 ターゲットを調整して、 バッファの現在のレベルを考慮 し、 このビットの合計を各オブジェクトに分配する。 これらのオブジェクトを 基礎とするターゲットビットレートが与えられると、 Q Pの新しい集合は、 テ クスチヤモデルから決定され得る。 このアプローチの主な問題点は、 強力にな るビットの分配に依存していることである。 一般に、 分配は強力ではなく、 条 件付き歪みを制御する能力は失われてしまう。 なぜなら、 新しい Q Pは元の Q Pとは独立して計算されたからである。
[条件付き歪み: Conditional Distortion]
この問題を克服し、 _ に依存する を何らかの方法で解決するために、 動 的プログラミングに基づいた方法について記載する。 元の品質にできるだけ近 い品質を維持するには、 各オブジェクトの Q Pができるだけ変化しないことで ある。 この条件下で、 条件付き歪みを
Figure imgf000027_0001
として定義することができる。 ここで、 kは V O Pの集合 Κにおける V O P指 数を示し、 ひ kは、 オブジェクト kの視覚的意義または優先度を意味する。 D ( Q ) は明示的に特定されていないが、 Qに比例していることは既知であるこ とに留意されたい。 視覚的意義は、 サイズおよび複雑度に対するオブジェクト の関数であり得る。
[ Q Pサーチ空間: QP Search Space]
すべての k >に対して Q ' k Q kであることに留意することは重要である 。 従って、 解決空間は、 図 7に示される有効な解決空間に限定される。 図 7に おいて、 X軸は、 画像オブジェクト 7 0 1を示し、 y軸は Q Pを示す。 図はま た、 有効なサーチ空間 7 1 0、 制約されたサーチ空間 7 1 1、 有効な経路 7 1 2、 および無効な経路 7 1 3を示す。
条件付き歪みに対して上記の数量化が与えられると、 図 7のトレリスを通し て最良の経路を検索することによって我々の問題を解決する。 ここで、 有効な
Q Pはトレリス内のノードであり、 各ノードは、 見積りレートおよび条件付き 歪みと関連する。 正式には、 問題は次のように記載され得る。
mm
Figure imgf000027_0002
subiect to RT0TAL < RBUDGET
制約された問題を制約されていない問題に変換することによって、 この問題 は解決する。 ここで、 レートおよび歪みは、 ラグランジェ乗数人を通して合成 される。 すべてにえ≥0に対して、 最適な解決は常に見出され得る。 レート上 の制約を満足する人の値を決定するために、 周知の二分法 (bisection algori thm) が用いられ得る。 Ramchandran and Vetterli、 「Best wavelet packet b ases in the rate-distortion sensej、 IEEE Trans. Image Processing 199
3年 4月を参照のこと。
考慮されるサーチ空間が、 M P E G— 2 トランスコ一ディングアルゴリズム において見出されるものよりもはるかに小さいことを強調することは重要であ る。 ここで、 マクロプロック毎に量子化器の最良の集合を見出す試みがなされ る。 対照的に、 オブジェクトを基礎とする量子化器のみ検索する。 従って、 我 々のアプローチは非常に実用的である。 [時間分析: Temporal Analysis]
一般に、 フレームをスキップする目的は、 バッファがオーバ一フローし、 最 終的にパケットの損失が防止されるように、 バッファ占有レベルを減少させる ことである。 フレームをスキップする他の理由は、 空間的品質と時間的品質と の間のトレードオフを可能にすることである。 このように、 より少ないフレー ムがコード化されるが、 これらはより高い品質でコード化される。 その結果、 バッファがォ一バーフ口一の危険がない場合、 フレームをスキップする決定は
、 Q P選択プロセスに組み込まれる。
Q Pの集合のための有効な解決空間を検索する、 Q P選択のための提案され ている技術からの構築によって、 解決空間を制約することによってこの空間— 時間トレードオフを成し遂げる。 図 7に示すように、 有効な経路は、 ' のす ベての要素が制約エリアに入るものである。 これらの要素の 1つがエリア外に 入る場合、 経路は、 空間的品質の特定化されたレベルを維持しないという点で 無効である。 空間的品質は、 条件付き歪みによって暗示されている。
特定のォブジェクトに対する最大 Q Pを決定するために異なる規格が用いら れ得る。 例えば、 最大値は、 オブジェクトの複雑度の関数であるか、 または単 に入力 Q Pのパーセントであり得る。 最大値が複雑度に基づいている場合、 ト ランスコーダは、 より高い複雑度を有するォブジェクトをより小さな Q Pに実 質的に限定する。 なぜなら、 空間的品質に対するそれらの効果は最も深刻であ るからである。 一方、 入力 Q Pに基づいて複雑度を制限することは、 トランス コーダが元々符号化されたビットストリームと比較して同様の Q P分配を維持 することを意味する。 両アプローチは有効である。 各オブジェクトに対して Q
Pを限定する最良の方法を決定するトレードオフは、 空間的品質と時間的品質 との間のトレードオフに依存し得る。
言うまでもなく、 オブジェクトを基礎とするデ一夕を取り扱う際の利点の 1 つは、 一方のオブジェクトの時間的品質が他方のオブジェクトとは異なり得る ことである。 このように、 背景オブジェクト、 例えば、 固定壁をスキップする ことによって、 例えば、 ビットを節約することができる。 しかし、 オブジェク トは大抵の場合解体されるので、 1つのオブジェクトの時間的レゾリユーショ ンを減少させることは、 構成された画像に穴をあけ得る。 すべての V O Pが同 じ時間的レゾリューションを有するように制約を与えることによって、 この問 題は減少し得る。
[形状分析: Shape Analysis]
画像オブジェク卜の形状データをトランスコード化する際の問題を紹介する ために、 テクスチャ情報がどのようにしてトランスコ一ド化されるかについて 思い出してみょう。 テクスチャに対するレートがデ一夕を部分的に復号化する ことによって低下し得ることは周知である。 大抵の場合、 この部分的な復号化 には、 少なくとも可変長復号化 (V L D ) 動作が実行されなければならない。 逆量子化および逆 D C Tは省略され得る。
しかし、 形状デ一夕については、 これは当てはまらない。 M P E G— 4では 、 形状デ一夕は、 いわゆるコンテクストを基礎とした数学符号化アルゴリズム によってブロック毎にコード化される。 Brady、 「MPEG-4 standardization me thods for the compression of arbitrarily shaped objectsj 、 IEEE Trans Circuits and Systems for Video Techno logy 1999年 12月を参照のこと。 こ のアルゴリズムでは、 各画素に対するコンテクストは、 選択されたモードに応 じて、 9ビットまたは 1 0ビヅトの因果テンプレートに基づいて計算される。 このコンテクストは、 ブロック内の確率シーケンスが数学的符号化器を駆動す るように、 確率ルックアップテ一ブルにアクセスするために用いられる。
テクスチャとは対照的に、 形状の部分的復号化は可能ではない。 なぜなら、 画素ドメインとビットストリームとの間の中間表示はないからである。 従って
、 形状デ一夕のレゾリューションを操作するためには、 データは十分に復号化 されなければならない。 復号化の後、 1999年 10月 1日付けで提出された、 Vetro 等による米国特許出願第 0 9 / 4 1 0 , 5 5 2号 「Estimating Rate-Distorti on Characteristics of Binary Shape Dataj ίこ言 E!載されてレヽるようなモデノレ が、 形状のレート一歪み特性を評価するために用いられ得る。
[空間分析: Spatial Analysis]
レートを低下させる他の手段として、 サブサンプリングによってレゾリュー シヨンを減少させることが挙げられる。 MP EG— 4規格のバージョン 2では 、 動的レゾリューション変換 (DRC) と呼ばれるツールが MPEG— 4規格 に採用されている。 このヅ一ルにより、 1つのオブジェクトのレゾリュ一ショ ン (即ち、 空間的品質) を減少させると共に、 他のより重要なまたは空間的に 活発なオブジェクトのレゾリューションを維持することが可能である。
[アーキテクチャ : Architecture]
図 8は、 この発明によるオブジェクトを基礎とするトランスコーダ 800の 構成要素を示す。 従来技術におけるトランスコーディングアーキテクチャのよ うに、 符号化規格のシンタックスは、 トランスコーダ 800のアーキテクチャ をいくぶんか指図する。 ここで、 MPEG— 4規格に照らして我々のトランス コーダの主な特徴を記載し、 これらの特徴と従来のフレームを基礎とするトラ ンスコ一ディングとを対比させる。
トランスコーダ 800は、 V0L/V0Pパーザ 810、 形状スケ一ラ 82 0、 MBヘッダパ一サ 830、 モーションパ一サ 840、 およびテクスチャス ケ一ラ 850を有する。 トランスコーダはまた、 基本ビットストリーム 801 の様々な部分をビヅトストリームメモリ 870に転送するバス 860を有する 。 この包括的な格納から、 基本ビットストリーム構成ュニット 880は、 MP EG— 4規格に従った、 レートが低下した圧縮ビヅトストリームを形成し得る 。 出力基本ビットストリ一ム 809は図 6のマルチプレクサに与えられる。
MPEG— 4では、 各オブジェクトに対する基本ビヅトストリ一ムは、 他の ビットストリームとは独立している。 その結果、 各オブジェクトは、 画像ォブ ジェクト層 (VOL) および画像オブジェクトプレーン (VOP) ヘッダに関 連づけられる。 VOPヘッダは、 オブジェクトを符号化するために用いた量子 化パラメ一夕 (Q P ) を含む。 各オブジェクトに対する Q Pは、 テクスチャ情 報のモデル化および分析において後に用いられる。 他のビヅ トはすべて、 図 6 の出力ビットストリーム 6 0 6を構成する時点まで、 ビットストリームメモリ 8 7 0内に格納される。
他の規格との最も著しい差は、 M P E G— 4がオブジェクトの形状をコード 化できることである。 V O P層から、 V O Pが形状情報 (二進) 含んでいるか 否か (方形) 8 1 2を見出す。 方形 V O Pである場合には、 オブジェクトは単 に方形フレームであり、 形状ビットをパースする必要はない。 二進形状である 場合には、 マクロブロックが透明であるか否かを決定する 8 1 3必要がある。 透明なブロックは、 オブジェクトの境界ボックス内にあるが、 オブジェクトの 境界の外側にある。 このため、 それに関連するモーションまたはテクスチャ情 報は存在しない。
形状スケーラ 8 2 0は、 3つのサブ構成要素、 即ち、 形状復号化器 Zパーザ 8 2 1、 形状ダウンサンブラ 8 2 2、 および形状符号化器 8 2 3で構成される 。 ビットストリームの形状情報がスケーリングされていない場合には、 形状復 号化器 Zパーザは、 単に形状パーザである。 これは、 トランスコーダ制御ュニ ット 6 1 0の R— D形状分析 6 1 1から受信される制御情報 6 0 4によって示 される。 また、 この場合、 形状ダウンサンブラ 8 2 2および形状符号化器 8 2 3はディスェ一ブルされる。 形状情報がスケーリングされている場合には、 形 状復号化器/パーザ 8 2 1は、 まず、 形状情報を画素ドメイン表示に復号化し なければならない。 形状のレートを低下させるために、 プロックは形状ダウン サンブラ 8 2 2を用いて 2または 4の係数でダウンサンプリングされ、 形状符 号化器 8 2 3を用いて再符号化され得る。 変換比は、 R— D形状分析 6 1 1に よって決定される。 形状ビヅ卜が単にパースされているかまたはスケーリング されているかに関係なく、 形状スケ一ラ 8 2 0の出力は、 ビヅ トストリームバ ス 8 6 0を介してビットストリームメモリ 8 7 0に転送される。
形状ビッ ト以外に、 M P E G— 4シンタックスの残りは、 少数の例外はある ものの、 M P E G— 2のそれといくぶんか同様である。 マクロブロック (M B
) 層では、 コード化されたブロックパターン (C B P ) を有するビットが存在 する。 CBPは、 マクロブロックのうちのどのブロックが少なくとも 1つの A C係数を含むかを復号化器に信号で合図するために用いられる。 C BPはビッ トストリームの構造に影響を与えるだけでなく、 CBPはまた AC · DC内予 測にも影響を与える。 トランスコーダがこのパラメ一夕に関連していなければ ならない理由は、 CBPが DCTブロックの再量子化に応じて変化するからで ある。 このため、 ブロックが再量子化された後に CBPを再計算する。 テクス チヤスケ一ラの CBP再計算ュニヅト 856はこれを成し遂げる。 ュニヅ ト 8 56は、 可変長コード (VLC) 855を、 ビットストリームバス 860を介 してビッ トストリームメモリ 870に送信し、 入力ビットストリーム内に存在 していたヘッダを置き換える。
基本ビヅ トストリームをパースし、 関連の復号化パラメ一夕を抽出した後、 テクスチャブロック 851を部分的に復号化する。 このプロセスの結果は、 D CTブロック係数である。 空間 (再サイズ) 分析がイネ一ブルされると、 ォブ ジェクトは 2または 4の係数でダウンサンプリングされ得る。 プロックをダウ ンサンプリングする能力は、 トランスコーディング制御ユニット 610、 およ び空間分析 614によるダウンサンプリング係数によって示される。 さらに、 このダウンサンプリングは、 I D CTZD CT動作を避けることができるよう に、 DCTドメイン内で実行される。 1998年 11月 10日付けで提出された、 Bao らの米国特許第 5, 855, 151号 「Method and apparatus for down-conv erting a digital signal」 を参照のこと。 次に、 DCTブロックは、 係数メ モリ 853に一時的に格納される。 このメモリから、 ブロックは量子化器 85 4に送信される。 量子化器 854は、 新しいターゲットレートに合致するこの 発明に記載の技術を用いて、 R— Dテクスチャ分析 612から送信される QP に従ってブロックを量子化する。
オブジェクトをスキップするために、 時間的分析 613は、 どのビッ卜が構 成および送信され、 どのビットを落とすべきかをビットストリーム構成 880 に示す。 このように、 このメモリに書き込まれたビットストリームの部分は、 次の画像オブジェクトのデ一夕によって単に上書きされる。 [ィンプリメンテーシヨンおよび処理: Implementation & Processing] 特定の実施の形態に関して、 トランスコーダ 8 0 0のアーキテクチャが単一 のォブジェク卜に対する構成要素を例示することに留意されたい。 極端な場合 、 多数のオブジェクトは、 図 6に示すように、 多数のトランスコーダでスケー リングされ得る。 多重スレッド実行を考慮するソフトウェアインプリメンテ一 シヨンでは、 これは最も効率的な方法になり得る。 ソフトウェアインプリメン テーシヨンにおける課題は、 考慮される各ォブジヱクトに対して適切な量の C P U処理を割り付けることである。
しかし、 ハードウェアインプリメンテーションでは、 事情は大変異なる。 ノヽ —ドウエア設計者は、 通常、 特定の機能性を取り扱う 1ピースの論理を有する ことを好む。 例えば、 受信され得る Mオブジェクトの最大数に対して Mモ一シ ヨンバーサを実行するのではなく、 ハードウェア設計は、 多数のオブジェクト が所定時間にパースされ得るように、 特定の速度で動作する単一のモーション パ一サを有する。 言うまでもなく、 オブジェクトの数がパ一サのスループット を上回っている場合、 並列パーザは、 まだ使用できる。 主要な点は、 必要なパ 一ザの数が受信されるオブジェクトの合計よりも少なくてよく、 計算が並列パ —サ間で分配されることである。 この概念は、 トランスコーダ 8 0 0のすベて のサブブロックに適用される。 [階層的キュ レべノレ : Hierarchical Cue Levels]
ここで、 トランスコ一ディングが様々なレベルの画像から抽出される特徴に 従うシステムについて記載する。 一般に、 画像は、 図 9に示すように、 粗から 微細への階層 9 0 0に仕切られ得る。 画像プログラムまたはセッション 9 1 0 は、 階層 9 0 0の最も高いレベルであると考えられる。 このレベルは、 3 0分 間のニュースプログラムまたは放送ネットワークからの全日のプログラミング を表し得る。 プログラム 9 1 0は、 ショット S h 0 t— 1、 . . . 、 S h o t
- n 9 1 1一 9 1 9のシーケンスを含む。
次のレベル 9 2 0はショットに仕切られる。 「ショット」 は、 フレームのグ ループ (G 0 F ) 、 または画像オブジェクトプレーンのグループ (G O V) 9 2 1— 9 2 9であり得る。 このレベルは、 カメラがオンになった時点で開始し 、 カメラがオフになるまで継続するより小さな画像のセグメントを表す。 混乱 を避けるため、 このレベルを単にショットレベル 9 2 0と呼ぶ。
ショットは、 0 0 ?フレーム9 3 0、 および G O Vまたは画像オブジェクト プレーン (V O P ) 9 3 1の最も基本的なユニットで構成される。 また、 これ より低い他のレベルも考慮することができる。 これは、 フレームまたは V O P のサブ領域 9 4 1〜9 4 2を指す。
画像プログラム階層 9 0 0における各レベルでは、 レベルのそれぞれにおい て、 特徴抽出プロセス 9 0 1〜9 0 4を画像デ一夕に適用する。 言うまでもな く、 各レベルでのデ一夕は異なる様式で配置され、 関連の特徴はレベル毎に変 化するため、 異なる特徴抽出技術が各レベルに適用される。 即ち、 プログラム レベルの特徴は、 フレームの特徴とは異なる様式で抽出される。
我々のトランスコーダの文脈では、 これらの特徴は、 トランスコーディング システムに適用され得る 「ヒント」 または 「キュー」 9 0 5〜9 0 8を表す。 これらのヒントは、 意味論的または構文論的であり、 高レベルまたは低レベル のメタデ一夕の何れかを表し得る。
言うまでもなく、 メ夕デ一夕が任意の所定のレベルにおいてトランスコ一デ イングに適用され得る。 一般に、 ショッ トレベルなどのより高レベルなデ一夕 に対するメ夕デ一夕は、 分類、 ビット割り付け、 ならびにその特定のショット に対するおよび他のショット間でのレート—品質考慮に用いられる。 この場合
、 メ夕デ一夕は、 トランスコーダへの使用に限定されるが、 すべての出力コン テンヅの中でトランスコ一ディング方策を決定する図 3の C N Dマネージャ 3
3 0に非常に有用である。 対照的に、 オブジェクトレベルなどのより低いレべ ルのデ一夕に対するメ夕デ一夕は、 動的ビット割り付けを助ける点でトランス コーダ 3 4 0自体により有用であり得る。 なぜなら、 このような低レベルで出 力コンテンツを分類かつ管理することは困難であるからである。
以下、 低レベル特徴がどのように群をなし (分類され) 、 レート一品質トレ
―ドオフに関連する意味のあるパラメ一夕にマップされるかについて記載する
。 これらの群形成方法の記載において、 主にコンテンツのより高いレベルの分 類に焦点を当てるが、 低レベルの分類もまた含まれ得る。 次に、 ハイブリッ ド 離散要約および連続変換トランスコーダについて記載する。 再び、 C N Dマネ —ジャにおいて高レベル (ショットレベル) のメ夕デ一夕を用いることに主に 焦点を当てた技術について記載する。 しかし、 離散要約トランスコーダにおけ るこのようなメタデ一夕も考慮し得る。 最後に、 メ夕デ一夕を用いてトランス コーディングをどのように導くかについて記載する。 上記のように、 これは、 管理ステージおよびトランスコーディングステージの両方に等しく適用可能で ある。 [コンテンヅ分類器 (Content Classifier) :ステージ III (Stagelll) ] 図 3を参照しながら上述したように、 コンテンツ分類器 3 1 0の主な機能は 、 活動、 画像変化情報、 およびテクスチャなどのコンテンツ特性の特徴を、 レ —トー品質トレードオフをなすために用いられるパラメ一夕の集合にマップす ることである。 このマッピング機能を補助するために、 コンテンツ分類器はま た、 メタデータ情報 3 0 3を受け入れる。 メ夕デ一夕の例としては、 新たに浮 上しつつある M P E G— 7規格によつて特定される記述子および記述方式 ( D S ) が挙げられる。
コンテンツ分類器 3 1 0のステージ I I I 3 1 3では、 このような低レべ ルのメ夕データは、 コンテンツのみに依存するレート—品質特性にマップされ る。 図 1 0にこれを例示する。 レート一品質特性は、 図 5に示すレート一品質 関数に影響を与える。
コンテンツ分類器 3 1 0は、 低レベルメ夕デ一夕 3 0 3を受信する。 ステ一 ジ I 3 1 1は、 高レベルのメタデータまたはクラス 1 0 0 1を抽出する。 ス テ一ジ I I 3 1 2は、 予測 3 2 1を用いて、 コンテンツ、 ネヅトワーク、 お よびデバイスに依存するレ一トー品質 (R— Q ) 特性を決定する。 ステージ I I I 3 1 3は、 低レベルのメ夕デ一夕のみに依存する R— Q特性 1 0 0 3を 抽出する。
一例として、 M P E G— 7におけるモーション活動記述子の空間分布パラメ 一夕が、 どのようにプログラムの画像セグメントを同様のモーション活動およ び空間分布のカテゴリ一に分類することができるのかについて記載する。 ニュースプログラムについて検討する。 ニュースプログラムは、 総合司会者 のいくつかのショット、 およびさらにニューススト一リ一全体に関連する様々 な他のショットを含む。
図 1 1および図 1 2と図 1 3に示す例は、 3つのシヨット 1 2 0 1〜 1 2 0 3、 即ち、 総合司会者のショット、 現場レポ一夕のショット、 および警察の追 跡ショットを有するニュースプログラム 1 2 0 0について検討する。 例を簡単 にするため、 すべてのニュースプログラムショヅトを 3つのカテゴリ一のみに 分類するが、 言うまでもなく、 実際の応用では、 カテゴリ一は数も種類も異な る。
第 1のクラス 1 1 0 1は、 コンテンツの時間的品質が、 空間的品質ほど重要 でないショットを示す。 第 2のクラス 1 1 0 2は、 コンテンヅの空間的品質が より重要であるショットを示し、 第 3のクラス 1 1 0 3は、 ショットの空間お よび時間的品質が同様に重要であるショッ 卜を示す。
このクラスの集合を S E T— 1 1 1 1 0と呼ぶ。 このようなクラスは、 明 らかに、 レートおよび品質に特徴がある。 コンテンツ分類器のステージ I I I 3 1 3の目的は、 低レベル特徴を処理し、 これらの特徴をこれらのクラスの 中で最も適切なものにマップすることである。 空間および時間的品質の重要性 もまた、 1から 1 0のスケール、 または実数イン夕一パル 0 . 0から 1 . 0で 評価され得ることに留意されたい。
これらのレート一品質クラスをさらに例示するために、 図 1 1の bに示すよ うな 3つの別個のクラスの他の集合について検討する。 第 1のクラス 1 1 2 1 は、 ショットが非常に簡単に圧縮できる、 即ち、 大きな圧縮比が所定の歪みに 対して簡単に成し遂げられ得ることを示す。 第 3のクラス 1 1 2 3は、 全く反 対のものを表す。 即ち、 犬/複合モーション、 または空間的に活発なシーンの ために、 ショットのコンテンツの圧縮が非常に困難であることを示す。 第 2の クラス 1 1 2 2は、 第 1のクラスと第 3のクラスとの中間あたりである。 この クラスの集合を、 S E T— 2 1 1 2 0と呼ぶ。 クラス 1 1 1 0の他の集合に 関しては、 これらのクラス 1 1 2 0はまた、 C N Dマネージャ 3 3 0によって なされるレート—品質決定にコンテンヅ分類が与え得る影響、 および切り換え 可能なトランスコーダ 3 4 0がどのように動作し得るかについても例示する。 上記のように、 圧縮困難さは、 数値によって分類され得る。 言うまでもなく、 他のクラスの集合は他のタイプの画像プログラムに対して規定され得る。
これまで、 レート一品質クラスの 2つの例、 3 £丁ー 1ぉょび3 £ 1—2に ついて記載してきた。 コンテンツは、 低レベルメ夕デ一夕 3 0 3から抽出され る特徴に従って、 これらのクラスに分類される。 以下では、 これらのクラスが どのようにモーション活性から取り出され得るかについて記載する。
大部分のニュースプログラムでは、 総合司会者のすべてのショヅ卜の分析が 、 比較的低いモーションを推論する、 同様のモーション活性パラメ一夕を生成 することが予想される。 このデータが与えられ、 S E T— 1 1 1 1 0を想定 すると、 このようなコンテンツを第 2のクラス 1 1 0 2 (空間的品質 >時間的- 品質の重要性) に分類することができる。 さらに、 すべての警察追跡、 および それと同様のショットは、 第 1のクラス 1 1 0 1 (時間的品質 >空間的品質の 重要性) に分類ざれる。 最後に、 現場レポ一夕の背景活動に従って、 このタイ プのショットは、 3つの利用可能なクラスの任意の 1つに分類され得る。 例示 を目的として、 このショットは第 3のクラスに分類される。
図 1 2は、 S E T— 1の分類によるトランスコーディング方策を例示する。 総合司会者ショット 1 2 0 1は、 離散要約トランスコーダ 1 2 1 0を用いてト ランスコード化される。 図 4のブロック 4 4 1を参照のこと。 このトランスコ —ダは、 ショット 1 2 0 1全体を単一のフレーム 1 2 1 1 (即ち、 総合司会者 の静止像) に低減させる。 ショットが持続している間、 話をしている総合司会 者の全音声部分が提供される。
現場レポ一夕のショッ ト 1 2 0 2は、 1秒当たり 5フレーム 1 2 2 1で完全 な音声を有して連続的に変換され、 視聴者に対していくらかの背景のモ一ショ ン感覚を保持する。
警察追跡ショヅ ト 1 2 0 3はまた、 1秒当たり 3 0フレーム 1 2 3 1で連続 して変換される 1 2 3 0。
何れの場合においても、 コンテンツ分類器がコンテンツを記載したメタデー 夕へのアクセスを与えられるか、 または分類器がコンテンツ自体から直接デー 夕を得るかどうかに関係なく、 この情報の有用性は、 CNDマネージャが最終 的に行わなければならないレート一品質トレードオフを考慮して直接理解され 得る。
上記の例とは対照的に、 代わりに同じプログラム 1200および SET— 2 1120分類を想定すると、 分類結果は、 図 13に示すのとは異なって解釈 され得る。 SET— 2では、 総合司会者のショヅト 1201におけるモーショ ンの欠落によって、 セグメントは非常に簡単に圧縮されるので、 Set— 2の 第 1のクラス 1121に分類される。 このショットは、 1秒当たり 30フレー ム 1241で、 高圧縮で連続して変換される 1240。 しかし、 警察追跡ショ ッ ト 1203は、 高モーションを含むため、 圧縮がより困難である。 従って、 警察追跡ショット 1203は、 Set— 2の第 3のクラス 1123に分類され る。 警察追跡ショット 1203は、 1秒当たり 7. 5フレーム 1261で連続 して変換される 1260。 再び、 現場レポ一タを有するショット 1202の特 性によると、 3つのクラスのいずれかに入り得る。 例示目的のため、 現場レポ —夕ショット 1202は、 第 2のクラス 1122に割り当てられ、 1秒当たり 15フレーム 1251で連続して変換される 1250。
ヒントは、 定数レートビッ トストリームおよび可変レートビットストリーム (CBRまたは VBR) のいずれかを生成し得ることに留意されたい。 例えば 、 分類が圧縮困難さ (SET 2) に基づく場合、 CBRビットストリームは、 低フレームレートが圧縮の困難なフレームシーケンスに与えられるとき生成さ れ、 VBRビットストリームは、 より多くのビッ トが割り付けられるときに生 成され得る。
以下の段落では、 トランスコーディング方策を生成するために、 これらの異 なる分類がどのように用いられ得るかについて記載する。
[ハイプリッド連続変換および離散要約トランスコーディング: Hybrid Conti mious - Conversion and Discrete-Summary Transcoding]
各クラスによって暗示されているレート一品質マッピングが、 特定の応用に 応じて大幅に変化し得ることが強調されるべきである。 上記の実施例では、 空 間および時間的品質が、 画像の圧縮困難性、 または空間および時間的品質に割 り当てられる優先度のレベルによって影響され得ることを記載した。 両分類を 低レベル特徴から得た。
C NDマネージャ 3 3 0に対して、 これらの分類は、 コンテンヅが操作され 得る方法を示唆する。 事実、 分類によって、 考慮されるシナリオの数は大幅に 減少し得る。 例えば、 C N Dマネージャが、 所定時間における多数のビットス トリ一ム (フレームまたはオブジェクト) に対するレート一品質トレードオフ を考慮しなければならない場合、 C N Dマネージャは、 連続変換と離散要約ト ランスコーディングとの間のトランスコ一ディング責任を分配する最良の方法 を考慮することができる。 考慮中のすべてのセグメントに対して 1つの方法を 選択するのではなく、 ハイブリッド方式を考慮することも可能である。 プログ ラムの優先度、 またはその低レベル特徴による圧縮困難さは、 このような決定 をするために用いられ得る有用なパラメ一夕の例である。
図 1 2および図 1 3は、 S E T— 1 1 1 1 0および S E T— 2 1 1 2 0 における分類が、 C N Dマネージャによって決定される方策にどのように影響 を与えるか、 およびトランスコーダが元のデ一夕を操作する方法について例示 している。 図 1 2において特に興味深いのは、 ハイブリッ ドトランスコーディ ング方式が用いられることである。
ニュースプログラム 1 2 0 0の例に戻り、 S E T— 1分類について考慮する 。 総合司会者シヨットに警察追跡よりも低い優先度を割り当てることができる 。 オブジェクトを基礎とする画像を取り扱つている場合、 他のトランスコード 化方法として、 ショット 1 2 0 1の背景に、 前景における総合司会者よりも低 い優先度を割り当てることが挙げられる。 これはすべて、 例えば、 オブジェク トレベルのモーション活動パラメ一夕の分類 (単数または複数) を通して成し 遂げることができる。
これらの概念を例示するためにモーション活動を用いた。 しかし、 言うまで もなく、 形状パラメ一夕、 テクスチャ情報などの他の低レベル特徴または M P
E G - 7記述子も使用され得る。 低レベル特徴が個別に考慮されるかまたは組 み合わせて考慮されるかに関係なく、 低レベル特徴は、 画像コンテンツを、 C NDマネージャおよびトランスコーダを補助する意味のあるパラメ一夕に効果 的に集め、 分類するために用いることができる。
CND分類器 310および CNDマネージャ 330は、 図 6の TCU610 と矛盾しているようであるが、 そうではない。 分類器および CNDマネージャ は、 トランスコーダ 340にとつて最良の方策を予め選択しょうとする。 この 方策および命令がマネージャから与えられると、 トランスコーダは、 可能な限 り最良の方法でコンテンツを操作する機能を有する。 トランスコーダが、 誤つ た予測または CNDマネージャによって選択された方策のために、 リクエスト を満足することができない場合、 トランスコーダは、 このような状況に対処す るためのメカニズム (例えば、 時間分析) を必要とする。 従って、 メ夕デ一夕 はまた、 T CUにおいても用いることができる。 しかし、 TCUに対するメタ デ一夕の目的は、 分類器および CNDマネージャに対するものとは異なる。 [トランスコーディングに対するメ夕デ一夕の影響: Effects of Meta-Data o n Transcoding]
メ夕デ一夕がトランスコ一ディングに影響を与え得る方法としては 2つある 。 これらの方法は共に、 上記のビット割り付け問題に直接関連する。 第 1の方 法は、 CNDマネージャ 330において行われ、 ビット割り付けが方策および 最終的には離散要約および連続変換トランスコーダ 441〜442によって提 供される関数をどのように用いるかの決定を引き出すために用いられる。 この ように、 図 5のレ一トー品質関数は、 決定を下すために用いられる。 第 2の方 法は、 トランスコーダ 340自体において行われる。 再び、 メ夕デ一夕は、 見 積もりのために用いられるが、 方策を決定するよりもむしろ、 ビットレート目 的に合致するように用いられ得るコーディングパラメ一夕に対してリアルタイ ムの決定をするために用いられる。 このように、 コーディングパラメ一夕は、 トランスコーダが図 5の最適なレート―品質関数を成し遂げるように選択され
■O o
一般に、 低レベルおよび高レベルのメ夕デ一夕は、 離散要約および連続変換 トランスコーディングを実行するためのヒントを提供する。 これらのヒントは
、 C N Dマネージャおよびトランスコーダの両方に有用である。 例示のため、 まず、 コンテンツに関連する高レベルの意味論的情報について検討する。 意味 論的情報は、 コンテンツと自動的にまたは手動の注釈によって関連づけられ得 る。
データベースが多数の画像プログラムを格納する場合について考えよう。 画 像は、 様々なカテゴリー (例えば、 「アクション」 のレベル) に応じて評価さ れてきた。 多数のユーザが様々なショットを同時にリクエストする応用におい ては、 C N Dマネージャ 3 3 0は、 各ショットにどのくらいのレートを割り付 けるかを決定しなければならない。 離散要約トランスコーダ 4 4 1では、 この レートは、 送信されるフレームの数に対応し得るのに対して、 連続変換トラン スコーダ 4 4 2では、 レートは、 許容可能な夕一ゲットフレームレートに対応 し得る。 アクションのレベルが特定レベルの時間活動を示す場合、 ビットは、 コンテンツの記述に従って、 フレームシーケンス毎に割り付けられ得る。 高ァ クシヨンを有するショットに対しては、 C N Dマネージャは、 所定レベルより も低いフレームレートが連続変換トランスコーダには許容されず、 より良好な 品質のショッ 卜がコンテンツを離散要約トランスコーダで要約することによつ て配信され得ることを決定する。
離散要約トランスコーダ内では、 妥当なレベルの知覚品質を成し遂げるよう に許容できるフレームの数を考慮することができる。 低レベルモーション活性 記述子に戻る。 低モーション強度を暗示する関連の活性パラメ一夕を有する画 像シーケンスは、 高モーション強度を暗示する活性パラメ一夕を有するショヅ トよりも少ないフレームで要約され得ることはもつともであり得る。 この延長 として、 このようなビット割り付けが、 どのようにオブジェクトレベルで適用 され得るかは容易に理解され得る。
[低レベルメ夕デ一夕からの高レペルメ夕デ一夕の生成: Generating High-Le vel Meta-Data from Low-Level Meta - Dataj
低レベルメ夕デ一夕から高レベルメタデータを生成するプロセスは、 メ夕デ —夕符号化として定義され得る。 このような符号化プロセスは、 トランスコー デイングシステムのコンテンツ分類器において、 ステージ I 311で考慮さ れ得る。
さらに、 この高レベル生成プロセスは、 独立型システムにおいて用いられ得 る。 このような独立型システムの例としては、 MPEG— 7規格によって特定 される記述方式を例示するシステムが挙げられる。 このようなシステムは、 M P E G— 7高レベルメタデ一夕符号化器と呼ぶことができる。
現在の M P E G— 7の研究案には、 様々なタイプのメ夕デ一夕用のプレース ホルダである高レベル記述方式がある。 この規格の規範的部分は、 インプリメ ンテ一シヨンに重要な要件を明示的に規定し、 報知的部分は単に潜在的な技術 または何かをおこなう 1つの方法を示唆しているに過ぎないことに留意された レヽ。 MP EG— 2において、 適切な動きベクトルまたは量子化パラメ一夕の決 定は、 符号化器の問題、 即ち、 規格の報知的部分と見なされる。 規格は、 動き ベクトル用の可変長コーディング (VLC) テーブル、 および量子化パラメ一 夕用の 5ビットフィールドを特定している。 これらのフィールドがどのように 用いられるかは全く符号化器の問題であり、 規格、 即ち報知的部分には関係し ない。
MPEG-7において、 様々な記述方式の規範的および報知的フィ一ルドは 、 同様の状況にある。 フィールドは特定されているが、 これらのフィールドに 対するデータをどのように生成するかは報知的である。 トランスコーディング および要約について、 MPEG— 7 Working Draf t、 例えば、 SummaryDS、 Var iat ionDS、 Hierarchi calS ummaryDS、 Highl ight SegmentDS Clust er D S、 および C 1 a s s i f i e r D Sにおいて特定されている様々な記述方 式について考える。 さらなる記述子方式に関しては、 ISO/IEC JTC N3113、 「M
PEG - 7 Multimedia Descriptor Schemes WDj、 1999年 12月を参照のこと。
例えば、 SummaryDSは、 主としてコンテンツ検索およびナビゲ一シ ヨンのために用いられるコンテンツの視覚アブストラクトを特定するために用 いられる。 Var i a t i onDSは、 コンテンツの変化を指定するために用 いられる。 一般に、 変化は多数の方法で形成され、 元のデータの改訂および操 作を反映し得る。 しかし、 S u mm a r y D Sおよび V a r i a t i 0 n D S などの記述方式は、 コンテンツの変化をどのように要約または生成するかにつ いては記載していない。
これらの記述方式は、 単に、 コンテンツが 「どこで」 見出されるか、 および 「どの」 動作がコンテンツに対して実施されたかなどの、 要約コンテンツまた は変形デ一夕の 「プロパティ」 に関する情報をシステムに提供する情報のタグ またはフィールドを含む。 これは、 すべての操作が送信前に行われたことを喑 示する。 このようなフィールドが存在する場合には、 C N Dマネージャの夕ス クは、 簡略化される。 なぜなら、 マネージャには、 関連のプロパティを有する
、 利用可能な要約または予めトランスコード化されたデ一夕のリス卜が渡され ているからである。
この情報が得られることに対する利点 (簡略化された C N Dマネージャおよ びトランスコーダなど) はあるが、 2つの大きな問題がある。 第 1の大きな問 題は、 これらの変化が、 元の画像に対するあらゆるリクエストの前に生成され ていなければならないことである。 この結果、 リアルタイム送信はオプション ではない。 なぜなら、 コンテンツの多数の変化をもたらすことに関連する遅延 は長すぎるからである。 第 2の大きな問題は、 ネッワーク特性が経時的に変化 する傾向にあることである。 従って、 現在のネットワーク条件下で、 特定の予 めトランスコード化された変化を一度に選択することは、 全持続時間には適用 できない。
これらの欠点にもかかわらず、 規格は、 これらの記述方式におけるフィ一ル ドをどのように満たすかについて特定しない。 これらは、 M P E G— 7の規格 に対する符号化器の問題である。
非リアルタイム送信応用を想定して、 低レベル記述子を用いた記述方式シン 夕ヅクスにおける高レベルフィ一ルドのコンテンツを生成するためのシステム について記載する。
[コンテンツの変ィ匕 : Variations of Content] 本質的に、 リアルタイムトランスコーディングに用いられるのと同じ方法は また、 特定の画像の要約および変化を生成するためにも用いられ得る。 オフラ ィンの様々なネッ トワーク条件がシミュレートされ、 プログラムコンテンヅは 、 シミュレートされた様々な条件に従ってトランスコード化され得る。 結果と して得られるコンテンヅは、 データベース内に格納され得る。 この予備トラン スコーディングを実行するにあたって、 利用可能な帯域幅などのネットワーク 条件に留意するだけでなく、 データが操作される様式についても、 システムは 留意されるべきである。 このタイプの情報は、 記述方式のフィールドを占有す
•S3。
[画像プログラムのための高レベルメ夕デ一夕符号化器: High-Level Meta-Da ta Encoder for Video Program]
図 1 4は、 対応する記述方式の関連インス夕ンシェ一シヨンと共に、 要約お よび変化データを生成するこのような符号化器を示す。 符号化器の構成要素は 、 図 3の適応可能なトランスコーディングシステム 3 0 0の構成要素に類似す る。 しかし、 符号化器は、 トランスコーディング中にリアルタイムで受信およ び送信するためにネッ トワークに接続されない点で異なる。 その代わり、 符号 化器は、 画像が格納されるデータベースに接続される。 符号化器は、 後にリア ルタイム配信するための、 オフラインの様々な画像バージョンを生成する。 図 1 4に示すように、 適応可能なビットストリーム画像配信システム 1 3 0 0は、 5つの主な構成要素、 即ち、 コンテンツ分類器 1 3 1 0、 ネットワーク デバイス (N D ) 生成器 1 3 2 0、 C N Dマネージャ 1 3 3 0、 切り換え可能 なトランスコーダ 1 3 4 0、 および D Sインスタンシェ一夕 1 3 5 0を有する 。 システム 1 3 0 0は、 その入力および出力がデータベース 1 3 6 0に接続さ れている。 システム 1 3 0 0はまた、 ネットワークおよびデ一夕ベース 1 3 6
0に接続されたセレクタ 1 3 7 0を有する。
配信システム 1 3 0 0の目的は、 元の圧縮ビヅトストリ一ム (V i d e 0 I n ) 1 3 0 1から変化および/または要約ビットストリーム 1 3 0 8を生成す ることである。 ビットストリームのコンテンツは、 視覚デ一夕、 音声デ一夕、 テクスチャデ一夕、 自然データ、 合成デ一夕、 基本データ、 複合デ一夕、 また はその組み合わせであり得る。
上述したように、 画像配信システム 1300は、 適応可能なトランスコーダ システム 300と類似する。 主な相違は、 図 3のネットワーク 350を介して ユーザデバイス 360に接続されていないこと、 およびトランスコーディング がリアルタイムで実施されないことである。 ND生成器 1350は、 デバイス およびネッ トワークにとって代わる。
本質的に、 生成器は、 リアルタイム動作において存在するであろうネットヮ ークおよびデバイス (ND)制約をシミュレートする機能を有する。 例えば、 ND生成器は、 64kbps、 128 k b p s、 および 512 k b p sを有す る CBRチャネル、 または VBRチャネルをシミュレートし得る。 さらに、 生 成器は、 利用可能な帯域幅の減少に遭遇しているチャネルをシミュレ一トし得 る。 この損失は一次、 二次、 または非常に急峻 (sharp) である。 他の多くの 典型的な条件も考慮され得るが、 その中には、 表示能力の限定などのユーザデ バイス制約に関連し得るものもある。
これらの異なる条件のそれぞれは、 元の入力画像 1301の異なる変化をも たらし得る。 本質的には、 デ一夕べ一スは、 多数の入力ビットストリームの変 ィ匕 1301を格納するため、 何らかのリアルタイム動作条件に対するビットス トリ一ムは、 将来、 下流トランスコーダで容易に利用できるであろう。 変化ビ ッ トストリームは CBRおよび VBRの両方であり得る。
ND生成器 1320の目的は、 様々なネットワークデバイス条件をシミュレ ートし、 これらの条件に従って、 自動的にで元のコンテンツ 1301の変化 Z 要約 1308を生成することである。 これを行っている間、 システムはまた、 対応の記述方式 1309を例示する。 記述方式 (例えば、 Variat ion D Sおよび S umma r yD S) のフィールドは変化ビットストリーム 130
8およびそれを操作するための方法のプロパティで満たされる必要があるため
、 CNDマネージャは、 この情報を D Sインスタンシェ一夕 1350に渡さな ければならない。 変化が例示された後、 例えば、 上記のようにリアルタイムト ランスコーダ 300によって、 対応の記述方式はアクセスされ、 用いられ得る [レート一品質関数: Rate-Quality functions]
図 1 5に示すように、 システム 1 3 0 0によって作成される変化および/要 約 1 3 0 8は、 最適レート—品質関数 1 4 0 1上でのボイント V ( 1 ) 、 . . . 、 V ( 5 ) のサブ集合である。 図 1 5において、 ポイントの限定数が示され る。 これらのポイントは、 特定の変化に対する最適動作ポイントを示す。 各変 化は、 関連の例示された記述方式 (D S ) 1 3 0 9を有する。 変化ビッ トスト リーム 1 3 0 8および例示された記述方式 1 3 0 9は共に、 元の画像ストリー ム 1 3 0 1と共に、 データベース 1 3 6 0内に格納される。
典型的な応用では、 システム 1 3 0 0のセレクタ 1 3 7 0は、 特定の画像プ ログラムに対するリクエストを受信する。 これに応答して、 セレクタは、 デ一 夕ペース 1 3 6 0内に格納された利用可能な変化および関連の D Sに関する情 報を提供する。 トランスコーダ 3 0 0の C NDマネージャは、 この予めトラン スコード化されたデ一夕を利用する。 高レベルメタデータによって、 トランス コーダは、 リクエストされた画像の特定の変化と、 現在のリアルタイムネット ワークおよびデバイスの制約とを関連づけることができる。 適切な一致が見出 されると、 C N Dマネージャは、 特定の変化がセレクタによってネッ トワーク 3 5 0にわたつて送信されることを要求する。 適切な一致が見出されると、 ト ランスコーダ 3 4 0はバイパスモードで動作することができる。 近接な一致が 見出されると、 トランスコーダ 3 4 0はさらに効率的に動作し得る。
これは、 実際の応用例のほんの 1つに過ぎない。 すでに操作されたビットス トリ一ム 1 3 0 8をさらに操作および変更し、 現在のネットワークおよびデバ イス制約との適合を増加させることも可能である。 これは、 非常に広範囲な条 件をカバ一する多数の予めトランスコード化されたビッ トストリームの生成、 対、 最も一般的な条件のいくらかをカバーする少数の予めトランスコ一ド化さ れたビヅトストリームの生成の問題となる。 異なるレベルの品質は、 各ァプロ ーチから予測できる。 なぜなら、 緩和された時間制約下での配信システム 1 3
0 0によるトランスコーディングは、 一般に、 より良好な品質の画像となるか らである。
この発明を好ましい実施の形態の実施例により記載したが、 他の様々な適応 および改変は、 この発明の精神および範囲内であり得ることを理解されたい。 従って、 添付の請求の範囲の目的は、 このような変更および改変のすべてをこ の発明の真の精神および範囲内でカバ一することである。

Claims

請 求 の 範 囲
1 . 圧縮画像をトランスコード化するための装置であって、
ネットワークの複数の制約およびユーザデノ ィスの制約をシミュレートする ように構成された生成器と、
入力圧縮画像および前記複数の制約を受信するように接続され、 前記入力圧 縮画像の特徴からコンテンヅ情報を生成するように構成された分類器と、 前記分類器および前記生成器に接続され、 前記制約およびコンテンッ情報に 応じて、 複数の変換モードを生成するように構成されたマネージャと、 前記分類器および前記マネージャに接続され、 前記複数の変換モードのそれ それに対して 1つずつ複数の出力圧縮画像を生成するように構成されたトラン スコーダと
を備えた装置。
2 . 前記圧縮画像のコンテンツは、 視覚データ、 音声デ一夕、 テキスト データ、 自然デ一夕、 合成データ、 基本データ、 複合データ、 およびその組み 合わせからなる群から選択される請求項 1に記載の装置。
3 . 前記入力圧縮画像および前記複数の出力圧縮画像を格納するための データベースをさらに備えた請求項 1に記載の装置。
4 . 前記マネージャに接続され、 前記複数の出力圧縮画像のそれぞれに 対して記述子方式を生成するように構成されたィンスタシェ一夕をさらに備え た請求項 1に記載の装置。
5 . 前記ネットワークおよび前記データベースに接続され、 リクエスト に応答して、 前記出力圧縮画像の特定の 1つを選択するように構成されたセレ クタをさらに備えた請求項 1に記載の装置。
6 . 前記複数の出力圧縮画像は、 C B Rビットス トリームおよび V B R ビットストリームを含む請求項 1に記載の装置。
7 . 前記圧縮された画像を複数の階層レベルに仕切る手段と、 前記複数の階層レベルのそれぞれから特徴を抽出するように構成された特徴 抽出器と
をさらに備え、 前記特徴が前記記述子方式のそれぞれと組み合わせられる請 求項 4に記載の装置。
8 . 圧縮画像をトランスコード化するための方法であって、
ネットワークの複数の制約およびユーザデノ、'イスの制約をシミュレートする ステップと、
入力圧縮画像の特徴からコンテンヅ情報を生成するステツプと、
前記制約およびコンテンツ情報に応じて、 複数の変換モードを生成するステ ップと、
前記複数の変換モードのそれぞれに対して出力圧縮画像を生成するステップ とを含む方法。
PCT/JP2001/000662 2000-04-11 2001-01-31 Method and apparatus for transcoding of compressed image WO2001078399A1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP01902702A EP1248466A4 (en) 2000-04-11 2001-01-31 PROCESS AND DEVICE FOR TRANSCODING COMPRESSED IMAGE DATA
AU30548/01A AU3054801A (en) 2000-04-11 2001-01-31 Method and apparatus for transcoding of compressed image

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/546,717 US6490320B1 (en) 2000-02-02 2000-04-11 Adaptable bitstream video delivery system
US09/546,717 2000-04-11

Publications (1)

Publication Number Publication Date
WO2001078399A1 true WO2001078399A1 (en) 2001-10-18

Family

ID=24181700

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2001/000662 WO2001078399A1 (en) 2000-04-11 2001-01-31 Method and apparatus for transcoding of compressed image

Country Status (4)

Country Link
US (1) US6490320B1 (ja)
EP (1) EP1248466A4 (ja)
AU (1) AU3054801A (ja)
WO (1) WO2001078399A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006099565A (ja) * 2004-09-30 2006-04-13 Kddi Corp コンテンツ識別装置
JP2006246008A (ja) * 2005-03-03 2006-09-14 Ntt Docomo Inc 映像トランスコードシステム、映像取得装置、トランスコーダ装置、及び、映像トランスコーディング方法
JP2008521293A (ja) * 2004-11-15 2008-06-19 スミス マイクロ ソフトウエア,インコーポレイテッド 既圧縮ファイルのロスレス圧縮システムおよび方法

Families Citing this family (126)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8028314B1 (en) 2000-05-26 2011-09-27 Sharp Laboratories Of America, Inc. Audiovisual information management system
TW519840B (en) * 2000-06-02 2003-02-01 Sony Corp Image coding apparatus and method, image decoding apparatus and method, and recording medium
US20020120780A1 (en) * 2000-07-11 2002-08-29 Sony Corporation Two-staged mapping for application specific markup and binary encoding
EP1303987A1 (en) * 2000-07-13 2003-04-23 Koninklijke Philips Electronics N.V. Mpeg-4 encoder and output coded signal of such an encoder
US6697523B1 (en) * 2000-08-09 2004-02-24 Mitsubishi Electric Research Laboratories, Inc. Method for summarizing a video using motion and color descriptors
JP2002064802A (ja) * 2000-08-21 2002-02-28 Sony Corp データ伝送システム、データ伝送装置及び方法、シーン記述処理装置及び方法
US8020183B2 (en) 2000-09-14 2011-09-13 Sharp Laboratories Of America, Inc. Audiovisual management system
US6904094B1 (en) * 2000-09-20 2005-06-07 General Instrument Corporation Processing mode selection for channels in a video multi-processor system
US7039115B1 (en) * 2000-09-20 2006-05-02 General Instrument Corporation Processor allocation for channels in a video multi-processor system
US7398275B2 (en) * 2000-10-20 2008-07-08 Sony Corporation Efficient binary coding scheme for multimedia content descriptions
WO2002043396A2 (en) * 2000-11-27 2002-05-30 Intellocity Usa, Inc. System and method for providing an omnimedia package
JP4534106B2 (ja) * 2000-12-26 2010-09-01 日本電気株式会社 動画像符号化システム及び方法
US20030038796A1 (en) * 2001-02-15 2003-02-27 Van Beek Petrus J.L. Segmentation metadata for audio-visual content
US6520032B2 (en) * 2001-03-27 2003-02-18 Trw Vehicle Safety Systems Inc. Seat belt tension sensing apparatus
US6925501B2 (en) * 2001-04-17 2005-08-02 General Instrument Corporation Multi-rate transcoder for digital streams
US6895050B2 (en) * 2001-04-19 2005-05-17 Jungwoo Lee Apparatus and method for allocating bits temporaly between frames in a coding system
US7904814B2 (en) 2001-04-19 2011-03-08 Sharp Laboratories Of America, Inc. System for presenting audio-video content
US20030018599A1 (en) * 2001-04-23 2003-01-23 Weeks Michael C. Embedding a wavelet transform within a neural network
US7237033B2 (en) 2001-04-30 2007-06-26 Aol Llc Duplicating switch for streaming data units to a terminal
US8572278B2 (en) 2001-04-30 2013-10-29 Facebook, Inc. Generating multiple data streams from a single data source
US7124166B2 (en) * 2001-04-30 2006-10-17 Aol Llc Duplicating digital streams for digital conferencing using switching technologies
JP3866538B2 (ja) * 2001-06-29 2007-01-10 株式会社東芝 動画像符号化方法及び装置
US7474698B2 (en) 2001-10-19 2009-01-06 Sharp Laboratories Of America, Inc. Identification of replay segments
US6944616B2 (en) * 2001-11-28 2005-09-13 Pavilion Technologies, Inc. System and method for historical database training of support vector machines
US20030110297A1 (en) * 2001-12-12 2003-06-12 Tabatabai Ali J. Transforming multimedia data for delivery to multiple heterogeneous devices
WO2003052981A1 (en) * 2001-12-14 2003-06-26 The Texas A & M University System System for actively controlling distributed applications
US20030169816A1 (en) * 2002-01-22 2003-09-11 Limin Wang Adaptive universal variable length codeword coding for digital video content
FR2837330B1 (fr) * 2002-03-14 2004-12-10 Canon Kk Procede et dispositif de selection d'une methode de transcodage parmi un ensemble de methodes de transcodage
US8214741B2 (en) 2002-03-19 2012-07-03 Sharp Laboratories Of America, Inc. Synchronization of video and data
DE10218812A1 (de) * 2002-04-26 2003-11-20 Siemens Ag Generische Datenstrombeschreibung
US8028092B2 (en) 2002-06-28 2011-09-27 Aol Inc. Inserting advertising content
US7657907B2 (en) 2002-09-30 2010-02-02 Sharp Laboratories Of America, Inc. Automatic user profiling
KR100498332B1 (ko) * 2002-10-24 2005-07-01 엘지전자 주식회사 비디오 트랜스코더의 적응적 비트율 제어장치 및 방법
US7042943B2 (en) 2002-11-08 2006-05-09 Apple Computer, Inc. Method and apparatus for control of rate-distortion tradeoff by mode selection in video encoders
SG111978A1 (en) * 2002-11-20 2005-06-29 Victor Company Of Japan An mpeg-4 live unicast video streaming system in wireless network with end-to-end bitrate-based congestion control
JP2004178332A (ja) * 2002-11-28 2004-06-24 Satake Corp コンテンツ変換制御方法及びコンテンツ利用システム
AU2003303116A1 (en) * 2002-12-19 2004-07-14 Koninklijke Philips Electronics N.V. A residential gateway system having a handheld controller with a display for displaying video signals
KR20050087842A (ko) * 2002-12-20 2005-08-31 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오-비주얼 데이터의 스트림 기록 방법
US7194035B2 (en) * 2003-01-08 2007-03-20 Apple Computer, Inc. Method and apparatus for improved coding mode selection
EP1443776B1 (en) * 2003-01-29 2012-08-15 Sony Deutschland GmbH Video signal processing system
JP4539018B2 (ja) * 2003-03-04 2010-09-08 ソニー株式会社 送信制御装置および方法、記録媒体、並びにプログラム
US7142601B2 (en) * 2003-04-14 2006-11-28 Mitsubishi Electric Research Laboratories, Inc. Transcoding compressed videos to reducing resolution videos
FR2857198B1 (fr) * 2003-07-03 2005-08-26 Canon Kk Optimisation de qualite de service dans la distribution de flux de donnees numeriques
JP2005045357A (ja) * 2003-07-23 2005-02-17 Hitachi Ltd リモートディスプレイプロトコル、映像表示システム及び端末装置
US7898951B2 (en) * 2003-08-13 2011-03-01 Jones Farm Technology 2, Llc Encoding and transmitting variable bit streams with utilization of a constrained bit-rate channel
US7330509B2 (en) * 2003-09-12 2008-02-12 International Business Machines Corporation Method for video transcoding with adaptive frame rate control
US7535959B2 (en) * 2003-10-16 2009-05-19 Nvidia Corporation Apparatus, system, and method for video encoder rate control
TWI244323B (en) * 2003-10-31 2005-11-21 Benq Corp Method for transmitting video and the device thereof
TWI262660B (en) * 2003-11-19 2006-09-21 Inst Information Industry Video transcoder adaptively reducing frame rate
ES2445333T3 (es) * 2004-01-08 2014-03-03 Entropic Communications, Inc. Distribución de vectores candidatos basada en complejidad de movimiento local
US20050163378A1 (en) * 2004-01-22 2005-07-28 Jau-Yuen Chen EXIF-based imaged feature set for content engine
TWI230547B (en) * 2004-02-04 2005-04-01 Ind Tech Res Inst Low-complexity spatial downscaling video transcoder and method thereof
US8949899B2 (en) 2005-03-04 2015-02-03 Sharp Laboratories Of America, Inc. Collaborative recommendation system
US8356317B2 (en) 2004-03-04 2013-01-15 Sharp Laboratories Of America, Inc. Presence based technology
US20050201469A1 (en) * 2004-03-11 2005-09-15 John Sievers Method and apparatus for improving the average image refresh rate in a compressed video bitstream
US7983835B2 (en) 2004-11-03 2011-07-19 Lagassey Paul J Modular intelligent transportation system
KR100967125B1 (ko) * 2004-03-26 2010-07-05 노키아 코포레이션 네트워크 휴대용 장치에서의 특징 추출
US20050215239A1 (en) * 2004-03-26 2005-09-29 Nokia Corporation Feature extraction in a networked portable device
US8406293B2 (en) 2004-06-27 2013-03-26 Apple Inc. Multi-pass video encoding based on different quantization parameters
US8005139B2 (en) 2004-06-27 2011-08-23 Apple Inc. Encoding with visual masking
US20060015799A1 (en) * 2004-07-13 2006-01-19 Sung Chih-Ta S Proxy-based error tracking for real-time video transmission in mobile environments
US20060062312A1 (en) * 2004-09-22 2006-03-23 Yen-Chi Lee Video demultiplexer and decoder with efficient data recovery
US20060088105A1 (en) * 2004-10-27 2006-04-27 Bo Shen Method and system for generating multiple transcoded outputs based on a single input
US7945535B2 (en) * 2004-12-13 2011-05-17 Microsoft Corporation Automatic publishing of digital content
EP1832116A1 (en) 2004-12-22 2007-09-12 Koninklijke Philips Electronics N.V. Video stream modifier
US8780957B2 (en) 2005-01-14 2014-07-15 Qualcomm Incorporated Optimal weights for MMSE space-time equalizer of multicode CDMA system
AU2006223416A1 (en) 2005-03-10 2006-09-21 Qualcomm Incorporated Content adaptive multimedia processing
US20060235883A1 (en) * 2005-04-18 2006-10-19 Krebs Mark S Multimedia system for mobile client platforms
US8208536B2 (en) * 2005-04-28 2012-06-26 Apple Inc. Method and apparatus for encoding using single pass rate controller
US7548657B2 (en) * 2005-06-25 2009-06-16 General Electric Company Adaptive video compression of graphical user interfaces using application metadata
JP4839035B2 (ja) * 2005-07-22 2011-12-14 オリンパス株式会社 内視鏡用処置具および内視鏡システム
US20070074251A1 (en) * 2005-09-27 2007-03-29 Oguz Seyfullah H Method and apparatus for using random field models to improve picture and video compression and frame rate up conversion
US9113147B2 (en) 2005-09-27 2015-08-18 Qualcomm Incorporated Scalability techniques based on content information
US8149909B1 (en) 2005-10-13 2012-04-03 Maxim Integrated Products, Inc. Video encoding control using non-exclusive content categories
US8081682B1 (en) 2005-10-13 2011-12-20 Maxim Integrated Products, Inc. Video encoding mode decisions according to content categories
US8126283B1 (en) 2005-10-13 2012-02-28 Maxim Integrated Products, Inc. Video encoding statistics extraction using non-exclusive content categories
US8948260B2 (en) 2005-10-17 2015-02-03 Qualcomm Incorporated Adaptive GOP structure in video streaming
US8654848B2 (en) 2005-10-17 2014-02-18 Qualcomm Incorporated Method and apparatus for shot detection in video streaming
WO2007073616A1 (en) * 2005-12-28 2007-07-05 Intel Corporation A novel user sensitive information adaptive video transcoding framework
US20070160134A1 (en) * 2006-01-10 2007-07-12 Segall Christopher A Methods and Systems for Filter Characterization
US8014445B2 (en) * 2006-02-24 2011-09-06 Sharp Laboratories Of America, Inc. Methods and systems for high dynamic range video coding
US8689253B2 (en) 2006-03-03 2014-04-01 Sharp Laboratories Of America, Inc. Method and system for configuring media-playing sets
US8194997B2 (en) * 2006-03-24 2012-06-05 Sharp Laboratories Of America, Inc. Methods and systems for tone mapping messaging
US9131164B2 (en) 2006-04-04 2015-09-08 Qualcomm Incorporated Preprocessor method and apparatus
US8130822B2 (en) * 2006-07-10 2012-03-06 Sharp Laboratories Of America, Inc. Methods and systems for conditional transform-domain residual accumulation
US7535383B2 (en) * 2006-07-10 2009-05-19 Sharp Laboratories Of America Inc. Methods and systems for signaling multi-layer bitstream data
US7885471B2 (en) * 2006-07-10 2011-02-08 Sharp Laboratories Of America, Inc. Methods and systems for maintenance and use of coded block pattern information
US8422548B2 (en) * 2006-07-10 2013-04-16 Sharp Laboratories Of America, Inc. Methods and systems for transform selection and management
US8532176B2 (en) * 2006-07-10 2013-09-10 Sharp Laboratories Of America, Inc. Methods and systems for combining layers in a multi-layer bitstream
US8059714B2 (en) * 2006-07-10 2011-11-15 Sharp Laboratories Of America, Inc. Methods and systems for residual layer scaling
US7840078B2 (en) * 2006-07-10 2010-11-23 Sharp Laboratories Of America, Inc. Methods and systems for image processing control based on adjacent block characteristics
US8379733B2 (en) * 2006-09-26 2013-02-19 Qualcomm Incorporated Efficient video packetization methods for packet-switched video telephony applications
WO2008084424A1 (en) * 2007-01-08 2008-07-17 Nokia Corporation System and method for providing and using predetermined signaling of interoperability points for transcoded media streams
US8233536B2 (en) 2007-01-23 2012-07-31 Sharp Laboratories Of America, Inc. Methods and systems for multiplication-free inter-layer image prediction
US8503524B2 (en) * 2007-01-23 2013-08-06 Sharp Laboratories Of America, Inc. Methods and systems for inter-layer image prediction
US7826673B2 (en) * 2007-01-23 2010-11-02 Sharp Laboratories Of America, Inc. Methods and systems for inter-layer image prediction with color-conversion
US8665942B2 (en) 2007-01-23 2014-03-04 Sharp Laboratories Of America, Inc. Methods and systems for inter-layer image prediction signaling
US7760949B2 (en) 2007-02-08 2010-07-20 Sharp Laboratories Of America, Inc. Methods and systems for coding multiple dynamic range images
WO2008114306A1 (ja) * 2007-02-19 2008-09-25 Sony Computer Entertainment Inc. コンテンツ空間形成装置、その方法、コンピュータ、プログラムおよび記録媒体
US8767834B2 (en) 2007-03-09 2014-07-01 Sharp Laboratories Of America, Inc. Methods and systems for scalable-to-non-scalable bit-stream rewriting
US8175150B1 (en) * 2007-05-18 2012-05-08 Maxim Integrated Products, Inc. Methods and/or apparatus for implementing rate distortion optimization in video compression
US8893204B2 (en) 2007-06-29 2014-11-18 Microsoft Corporation Dynamically adapting media streams
KR101428671B1 (ko) 2007-11-02 2014-09-17 에꼴 드 테크놀로지 수페리에르 스케일링 및 퀄리티-컨트롤 파라미터의 변경에 의한 변환이 가능한 이미지의 파일 사이즈 예측 시스템 및 방법
US8270739B2 (en) * 2007-12-03 2012-09-18 Ecole De Technologie Superieure System and method for quality-aware selection of parameters in transcoding of digital images
US8155184B2 (en) * 2008-01-16 2012-04-10 Sony Corporation Video coding system using texture analysis and synthesis in a scalable coding framework
US9357233B2 (en) * 2008-02-26 2016-05-31 Qualcomm Incorporated Video decoder error handling
US8300961B2 (en) * 2008-12-12 2012-10-30 Ecole De Technologie Superieure Method and system for low complexity transcoding of images with near optimal quality
EP2227023A1 (en) * 2009-03-05 2010-09-08 BRITISH TELECOMMUNICATIONS public limited company Video streaming
US9131007B2 (en) * 2009-05-19 2015-09-08 Vitrual World Computing, Inc. System and method for dynamically transcoding data requests
EP2469795B1 (en) * 2010-02-25 2013-04-17 Ntt Docomo, Inc. Method and apparatus for rate shaping
US9691430B2 (en) 2010-04-01 2017-06-27 Microsoft Technology Licensing, Llc Opportunistic frame caching
EP2577489A4 (en) * 2010-06-02 2014-09-10 Onmobile Global Ltd METHOD AND APPARATUS FOR ADAPTING MULTIMEDIA CONTENT
US20120275511A1 (en) * 2011-04-29 2012-11-01 Google Inc. System and method for providing content aware video adaptation
JP6247286B2 (ja) * 2012-06-12 2017-12-13 コーヒレント・ロジックス・インコーポレーテッド ビデオコンテンツの符号化及び配信のための分散アーキテクチャ
US20140040496A1 (en) * 2012-08-06 2014-02-06 General Instrument Corporation On-demand http stream generation
US20140044197A1 (en) * 2012-08-10 2014-02-13 Yiting Liao Method and system for content-aware multimedia streaming
US9516305B2 (en) * 2012-09-10 2016-12-06 Apple Inc. Adaptive scaler switching
US9357213B2 (en) * 2012-12-12 2016-05-31 Imagine Communications Corp. High-density quality-adaptive multi-rate transcoder systems and methods
US10609405B2 (en) 2013-03-18 2020-03-31 Ecole De Technologie Superieure Optimal signal encoding based on experimental data
US9338450B2 (en) 2013-03-18 2016-05-10 Ecole De Technologie Superieure Method and apparatus for signal encoding producing encoded signals of high fidelity at minimal sizes
US9661331B2 (en) 2013-03-18 2017-05-23 Vantrix Corporation Method and apparatus for signal encoding realizing optimal fidelity
US9247315B2 (en) * 2013-11-07 2016-01-26 Hulu, Inc. Disabling of multiple bitrate algorithm for media programs while playing advertisements
JP6274067B2 (ja) * 2014-10-03 2018-02-07 ソニー株式会社 情報処理装置および情報処理方法
US10264273B2 (en) * 2014-10-31 2019-04-16 Disney Enterprises, Inc. Computed information for metadata extraction applied to transcoding
US10454989B2 (en) * 2016-02-19 2019-10-22 Verizon Patent And Licensing Inc. Application quality of experience evaluator for enhancing subjective quality of experience
WO2023241690A1 (en) * 2022-06-16 2023-12-21 Douyin Vision (Beijing) Co., Ltd. Variable-rate neural network based compression

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08237663A (ja) * 1994-12-22 1996-09-13 At & T Corp マルチメディア通信システム用ビデオ伝送レート整合
JPH08237621A (ja) * 1994-11-01 1996-09-13 At & T Corp マルチメディア通信システムのための符号化領域画像複合化
JPH10164143A (ja) * 1996-11-28 1998-06-19 Hitachi Ltd ゲートウェイ装置およびそれを用いた通信システム
JPH11252546A (ja) * 1998-02-27 1999-09-17 Hitachi Ltd 伝送速度変換装置
JP2000165436A (ja) * 1998-11-13 2000-06-16 Tektronix Inc マルチメディア・デ―タ・フロ―のネットワ―ク・トランスコ―ディング方法及び装置
JP2001069502A (ja) * 1999-08-25 2001-03-16 Toshiba Corp 映像送信端末、及び映像受信端末
JP2001086460A (ja) * 1999-09-14 2001-03-30 Nec Corp トランスコードの高速化方法及び装置
JP2001094994A (ja) * 1999-09-20 2001-04-06 Canon Inc 画像処理装置及び方法
JP2001094980A (ja) * 1999-09-21 2001-04-06 Sharp Corp データ処理装置
JP2001103425A (ja) * 1999-09-29 2001-04-13 Victor Co Of Japan Ltd 符号化データ蓄積出力装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5969764A (en) * 1997-02-14 1999-10-19 Mitsubishi Electric Information Technology Center America, Inc. Adaptive video coding method
US6345279B1 (en) * 1999-04-23 2002-02-05 International Business Machines Corporation Methods and apparatus for adapting multimedia content for client devices
US6307964B1 (en) * 1999-06-04 2001-10-23 Mitsubishi Electric Research Laboratories, Inc. Method for ordering image spaces to represent object shapes
US6400846B1 (en) * 1999-06-04 2002-06-04 Mitsubishi Electric Research Laboratories, Inc. Method for ordering image spaces to search for object surfaces
US6542546B1 (en) * 2000-02-02 2003-04-01 Mitsubishi Electric Research Laboratories, Inc. Adaptable compressed bitstream transcoder

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08237621A (ja) * 1994-11-01 1996-09-13 At & T Corp マルチメディア通信システムのための符号化領域画像複合化
JPH08237663A (ja) * 1994-12-22 1996-09-13 At & T Corp マルチメディア通信システム用ビデオ伝送レート整合
JPH10164143A (ja) * 1996-11-28 1998-06-19 Hitachi Ltd ゲートウェイ装置およびそれを用いた通信システム
JPH11252546A (ja) * 1998-02-27 1999-09-17 Hitachi Ltd 伝送速度変換装置
JP2000165436A (ja) * 1998-11-13 2000-06-16 Tektronix Inc マルチメディア・デ―タ・フロ―のネットワ―ク・トランスコ―ディング方法及び装置
JP2001069502A (ja) * 1999-08-25 2001-03-16 Toshiba Corp 映像送信端末、及び映像受信端末
JP2001086460A (ja) * 1999-09-14 2001-03-30 Nec Corp トランスコードの高速化方法及び装置
JP2001094994A (ja) * 1999-09-20 2001-04-06 Canon Inc 画像処理装置及び方法
JP2001094980A (ja) * 1999-09-21 2001-04-06 Sharp Corp データ処理装置
JP2001103425A (ja) * 1999-09-29 2001-04-13 Victor Co Of Japan Ltd 符号化データ蓄積出力装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP1248466A4 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006099565A (ja) * 2004-09-30 2006-04-13 Kddi Corp コンテンツ識別装置
JP4553300B2 (ja) * 2004-09-30 2010-09-29 Kddi株式会社 コンテンツ識別装置
JP2008521293A (ja) * 2004-11-15 2008-06-19 スミス マイクロ ソフトウエア,インコーポレイテッド 既圧縮ファイルのロスレス圧縮システムおよび方法
JP2012054940A (ja) * 2004-11-15 2012-03-15 Smith Micro Software Inc 既圧縮ファイルのロスレス圧縮システムおよび方法
JP2012054939A (ja) * 2004-11-15 2012-03-15 Smith Micro Software Inc 既圧縮ファイルのロスレス圧縮システムおよび方法
JP2006246008A (ja) * 2005-03-03 2006-09-14 Ntt Docomo Inc 映像トランスコードシステム、映像取得装置、トランスコーダ装置、及び、映像トランスコーディング方法

Also Published As

Publication number Publication date
AU3054801A (en) 2001-10-23
EP1248466A4 (en) 2006-06-07
US6490320B1 (en) 2002-12-03
EP1248466A1 (en) 2002-10-09

Similar Documents

Publication Publication Date Title
JP4650868B2 (ja) 圧縮ビデオのトランスコーディング方法
US6490320B1 (en) Adaptable bitstream video delivery system
JP4601889B2 (ja) 圧縮ビットストリームを変換するための装置及び方法
US8218617B2 (en) Method and system for optimal video transcoding based on utility function descriptors
US6542546B1 (en) Adaptable compressed bitstream transcoder
JP4786114B2 (ja) 映像をコード化するための方法及び装置
US6925120B2 (en) Transcoder for scalable multi-layer constant quality video bitstreams
Vetro et al. Object-based transcoding for adaptable video content delivery
Eleftheriadis et al. Meeting arbitrary QoS constraints using dynamic rate shaping of coded digital video
Kim et al. Content-adaptive utility-based video adaptation
CA2491522C (en) Efficient compression and transport of video over a network
Ortega Variable bit rate video coding
Kim et al. An optimal framework of video adaptation and its application to rate adaptation transcoding
Eleftheriadis et al. Dynamic rate shaping of compressed digital video
Auli-Llinas et al. Enhanced JPEG2000 quality scalability through block-wise layer truncation
KR100802180B1 (ko) 엠펙-4 비디오 신호의 비트율을 동적인 통신 용량 변화에따라 제어하는 방법
Suchomski et al. RETAVIC: using meta-data for real-time video encoding in multimedia servers
CN100366077C (zh) 基于实用函数描述的最优视频解码的方法和系统
Van Der Schaar et al. Real-time ubiquitous multimedia streaming using rate-distortion-complexity models
Vetro Object-based encoding and transcoding
Cha et al. Adaptive scheme for streaming MPEG-4 contents to various devices
Tao Video adaptation for stored video delivery over resource-constrained networks
Ortega et al. Mechanisms for adapting compressed multimedia to varying bandwidth conditions
Cucchiara et al. Semantic transcoding of videos by using adaptive quantization
Auli-Llinas et al. Research Article Enhanced JPEG2000 Quality Scalability through Block-Wise Layer Truncation

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref country code: JP

Ref document number: 2001 575723

Kind code of ref document: A

Format of ref document f/p: F

WWE Wipo information: entry into national phase

Ref document number: 2001902702

Country of ref document: EP

AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BY BZ CA CH CN CR CU CZ DE DK DM DZ EE ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NO NZ PL PT RO RU SD SE SG SI SK SL TJ TM TR TT TZ UA UG UZ VN YU ZA ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GH GM KE LS MW MZ SD SL SZ TZ UG ZW AM AZ BY KG KZ MD RU TJ TM AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE TR BF BJ CF CG CI CM GA GN GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWP Wipo information: published in national office

Ref document number: 2001902702

Country of ref document: EP