WO2001078398A1 - Transcoding of compressed video - Google Patents

Transcoding of compressed video Download PDF

Info

Publication number
WO2001078398A1
WO2001078398A1 PCT/JP2001/002354 JP0102354W WO0178398A1 WO 2001078398 A1 WO2001078398 A1 WO 2001078398A1 JP 0102354 W JP0102354 W JP 0102354W WO 0178398 A1 WO0178398 A1 WO 0178398A1
Authority
WO
WIPO (PCT)
Prior art keywords
content
transcoder
video
level
transcoding
Prior art date
Application number
PCT/JP2001/002354
Other languages
English (en)
French (fr)
Inventor
Anthony Vetro
Ajay Divakaran
Huifang Sun
Original Assignee
Mitsubishi Denki Kabushiki Kaisha
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Denki Kabushiki Kaisha filed Critical Mitsubishi Denki Kabushiki Kaisha
Priority to JP2001575722A priority Critical patent/JP4650868B2/ja
Priority to EP01915736A priority patent/EP1195992A1/en
Publication of WO2001078398A1 publication Critical patent/WO2001078398A1/ja

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/001Model-based coding, e.g. wire frame
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/1066Session management
    • H04L65/1101Session protocols
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • H04L65/752Media network packet handling adapting media to network capabilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • H04L65/765Media network packet handling intermediate
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/80Responding to QoS
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/04Protocols for data compression, e.g. ROHC
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/152Data rate or code amount at the encoder output by measuring the fullness of the transmission buffer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/19Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding using optimisation based on Lagrange multipliers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
    • H04N19/25Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding with scene description coding, e.g. binary format for scenes [BIFS] compression
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
    • H04N19/29Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding involving scalability at the object level, e.g. video object layer [VOL]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/33Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the spatial domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/40Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video transcoding, i.e. partial or full decoding of a coded input stream followed by re-encoding of the decoded output stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • H04N19/436Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation using parallelised computational arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234318Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by decomposing into objects, e.g. MPEG-4 objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/266Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
    • H04N21/2662Controlling the complexity of the video stream, e.g. by scaling the resolution or bitrate of the video stream based on the client capabilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/23439Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements for generating different versions

Definitions

  • the present invention relates to an information distribution system, and particularly to a distribution system that applies information to a usable bit rate of a network.
  • VOP can be encoded and decoded.
  • Objects can be visual, audio, natural, synthetic, primitive, composite, or a combination thereof.
  • Video objects are assembled to form composite objects or "scenes.”
  • the new MPEG-4 standard is intended to enable multimedia applications where natural and synthetic materials are integrated and access is universal, such as interactive video.
  • MPE G-4 enables content-based interactivity. For example, you may want to "cut and paste" moving shapes or objects from one video to another.
  • the objects in the multimedia content are presumed to have been identified through some type of segmentation process.
  • U.S. patent application Ser. No. 09 / 326,750 filed by Lin et al.
  • a network can represent a wireless channel or the Internet. In any case, the network is limited in capacity and contention for that resource must be resolved when content needs to be transmitted.
  • Bitstream conversion can be categorized as bitrate conversion, resolution conversion, and syntax conversion.
  • Bit rate conversion includes bit rate scaling and conversion between a fixed bit rate (CBR) and a variable bit rate (VBR).
  • CBR fixed bit rate
  • VBR variable bit rate
  • the basic function of bit rate scaling is to receive an input bit stream and produce a scaled output bit stream that meets the new load constraints of the receiver.
  • a bitstream-scaler is a transcoder or filter that matches the bitstream on the transmitting side with the load on the receiving side.
  • the transcoder includes a decoder 110 and an encoder 120.
  • the compressed input bitstream 101 is completely decoded at the input rate Rin, and then encoded at the new output rate Rout102, so that the output bitstream 103 is output.
  • the output rate is lower than the input rate.
  • the decoding complexity of the decoded bitstream is so high that a complete decoding and And no full encoding is performed.
  • FIG. 2 shows an example method.
  • the video bitstream is only partially decoded. More specifically, the macroblock of the input bitstream 201 is subjected to variable length decoding (VLD) 210. Also, the input bit stream is delayed 220 and inverse quantized (IQ) 230 to provide discrete cosine transform (DCT) coefficients. Given the desired output bit rate, the partially decoded data is analyzed 240 and at 250 a new set of quantizers is applied to the DCT block. These requantized blocks are then variable length coded (VLC) 260 to form a new output bitstream 203 at a lower rate.
  • VLC variable length coded
  • Section 8 describes a simplified architecture for the same task. They use a motion compensation (MC) loop to manipulate the drift compensation in the frequency domain. An approximate matrix is derived for fast calculation of the MC block in the frequency domain. Lagrangian optimization is used to calculate the optimal quantizer scale for transcoding. Other research by S.orial et al., ⁇ Joint transcoding of multiple MPEG video bitstreams j, Proceedings of the International Symposium on Circuits and Systems, Can
  • 199 9 proposes a method of jointly transcoding a plurality of MPEG-2 bit streams. 1 9 9 9 1 10
  • the number of bits allocated to encode texture information is controlled by the quantization parameter (QP).
  • QP quantization parameter
  • the above paper is similar in that it reduces the texture bit rate by changing the QP based on information contained in the original bitstream.
  • the information is usually extracted directly in the compressed domain and can include criteria related to the macroblock movement or the residual energy of the DCT block. This type of analysis is performed in a bit allocation analyzer.
  • the bitstream can be pre-processed, but it is still important that the transcoder operates in real time. Therefore, large processing delays on the bit stream cannot be tolerated. For example, it is not feasible for a transcoder to extract information from a group of frames and then transcode the content based on pre-fetched information. It cannot work on live broadcasts or video conferencing. With better bit allocation, it is possible to obtain better transcoding results in terms of quality, but such realization for real-time abridgement is impractical.
  • this concept of the space-time trade-off may be considered in the encoder.
  • the group of pictures Group of Picture (GOP)
  • the intraframe Intraframe
  • Period and distance are fixed.
  • macroblocks can be skipped by syntax. If all macroblocks are skipped in a frame, the frame is essentially skipped. At least one bit is used for each macroblock in the frame to indicate this skipping. This can be inefficient for some bit rates.
  • the H.263 and MPEG-4 standards allow for frame skipping. Both standards support a syntax that allows the specification of criteria.
  • frame skipping has been used primarily to satisfy buffer constraints. In other words, if the buffer occupancy is too high and there is a danger of overflow, the encoder will skip the frame and reduce the bit width of the bit to the buffer, sending the current bit when the buffer is appropriate.
  • transcoders must find some alternative means of transmitting the information contained in the bitstream in order to accommodate the reduction in available bit rates.
  • MPEG-7 formally the “Multimedia Content Description Interface”. It is. See MPEG-7 Context, Objects and Technical Roadmap, ISO / IEC N 2861, July 1999. In essence, this standard plans to incorporate a set of descriptors and a description scheme that can be used to describe various types of multimedia content. Descriptors and description schemes are associated with the content itself, allowing a specific user to quickly and efficiently search for important materials. This standard is intended to replace the preceding coding standard. Rather, it is possible to decompose multimedia content into various objects, and to assign each object to a unique set of descriptors. It is important to note that it is based on the EG-4 representation. This standard is independent of the format in which content is stored.
  • MPEG-7 The main application of MPEG-7 is expected to be search and search abrication. See MPEG-7 Applications, ISO / IEC N2861, July 1999.
  • the user can specify some attributes of a particular object. In this low-level representation, these attributes can include descriptors that describe the texture, motion, and shape of a particular object.
  • Methods for representing and comparing shapes are described in U.S. Patent Application Serial No. 09 / 326,759, filed June 4, 1999 by Lin et al., ⁇ Method for Ordering Image Space to Represent Object Shapesj.
  • a method of describing motion activity is described in U.S. Patent Application Serial No. 09/4, filed September 27, 1999 by Divakar an et al.
  • These descriptors and description schemes provided by the MPEG-7 standard allow access to characteristics of video content that cannot be derived by a transcoder. For example, these properties may represent preemption information that the transcoder was deemed inaccessible. The only reason that the transcoder can access these properties is that the properties are derived earlier from the content, i.e. the content is pre-processed and stored on a data base with its associated metadata. That's because.
  • syntactic information refers to the physical and logical signaling aspects of the content
  • semantic information refers to the conceptual meaning of the content.
  • syntactic elements can describe the color, shape, and movement of a particular object.
  • semantic elements can refer to information that cannot be extracted from low-level descriptors, such as the time and place of an event in a video sequence or the name of a person.
  • the method of transcoding compressed video divides the compressed video into hierarchical levels and extracts features from each of the hierarchical levels. Depending on the features extracted from the hierarchy level, one of the transcoder's many conversion modes is selected. The compressed video is then transcoded according to the selected conversion mode.
  • FIG. 1 is a block diagram of a conventional transcoder.
  • FIG. 2 is a block diagram of a prior art partial decoder / encoder
  • FIG. 3 is a block diagram of an adaptive bitstream distribution system according to the present invention
  • FIG. 4 is an adaptive transcoder and transcoder manager. Block diagram
  • FIG. 5 is a graph of transcoding functions that can be used by the transcoder and manager of FIG. 4,
  • Figure 6 shows a block diagram of object-based bitstream scaling
  • Figure 7 shows the search space graph
  • FIG. 8 is a block diagram showing details of an object-based transcoder according to the present invention.
  • Figure 10 is a block diagram of a three-stage video content classifier
  • Figure 11 is a block diagram of the descriptor method.
  • FIG. 12 is a block diagram of the transcoding by the descriptor scheme of FIG. 11 (a),
  • Fig. 13 is a block diagram of the transcoding by the descriptor scheme of Fig. 11 (b),
  • FIG. 14 is a block diagram of a system for generating a content summary and a content variation using the content summary.
  • FIG. 15 is a graph of a transcoding function based on the content summary and content variation of FIG. BEST MODE FOR CARRYING OUT THE INVENTION
  • a video By converting, or “scaling,” the compressed input bitstream, a video can be created that has a compressed output bitstream at the target rate, or available bit rate (ABR) of the network.
  • ABR available bit rate
  • the delivery system will be described.
  • transcoding based on the low-level features of the bitstream and the identifier scheme is described. It is an object of the present invention to perform transcoding while maximizing rate-quality (RQ) characteristics.
  • the target rate of the output bitstream is lower than the rate of the input bitstream.
  • the task of the transcoder according to the invention is to further compress the bitstream, usually due to constraints on network resources or the end user equipment's receiver load.
  • This paper describes a content-based transcoding technique for video in areas including the lower object level and the lower area level.
  • the system according to the invention can overcome the shortcomings of conventional transcoders, namely the limitations of rate conversion, especially in real-time applications.
  • Traditional transcoding techniques can reduce the rate satisfactorily, but the quality of the content is usually severely degraded. Often, the information transmitted in the reduced bit rate bitstream is lost.
  • bitstream “quality” is measured as the difference in bits between the input and output bitstreams. This paper describes a transcoding technique that can achieve the target rate while maintaining the quality of the bitstream content. Continuous conversion
  • Traditional frame-based transcoding techniques can be defined as continuous transforms.
  • the output is always the sequence of frames that best represents the input sequence, as conventional techniques attempt to continuously maintain the optimal trade-off between spatial and temporal quality. If a particular frame is skipped to meet rate constraints, the information contained in the skipped frame is not considered. If many frames are skipped, the received bitstream may be meaningless to the user or at best unsatisfactory. Quality distortion criteria
  • the content of a bitstream with a small number of frames is summarized.
  • fidelity fidelity
  • Semantics and syntax do not refer to bits or pixels, but to meaningful concepts represented by the bit, for example, words, sounds, levels of humor and action in video, video objects, etc. I do.
  • Fidelity can be defined in many ways. However, fidelity, as defined herein, is not related to traditional quantitative quality, eg, bit-by-bit differences. Rather, fidelity in the present invention refers to the information contained in the original image sequence, ie, the higher level meaning of the content or transmitted information rather than the raw bits, in one frame or multiple frames. Measure the degree to which the system transmits. Discrete summary transcoder
  • Fidelity is a more subjective or semantic measure than traditional distortion measures.
  • fidelity is a useful measure for measuring the performance of non-conventional transcoders.
  • the output of the transcoder of the present invention in one embodiment, is a finite set of relatively high quality frames that attempt to sum up the entire sequence of bits, so that a transcoder of this type Discrete Summary Transcoder ”.
  • One aspect of the bitstream, the motion, can be lost by selectively sampling rich frames.
  • relying on discrete summary transcoding is only used if the rate distortion performance of the continuous transform transcoder is severely degraded or the target rate cannot be achieved.
  • the conventional continuous transcoder loses fluidity because the information delivery rate is not stable and the frame rate is low enough to confuse the user.
  • discrete summary transcoding over traditional continuous transform transcoding is that while continuous transform transcoders in tight rate constraints drop information rich frames, discrete summary transcoders drop information rich frames. Is to choose.
  • a content network equipment (CND) manager is described.
  • the purpose of the CND manager is to choose which transcoder to use. The selection is based on data obtained from content, network and user equipment characteristics. It is also possible to simulate these device characteristics in an "off-line" mode to generate bitstream variations for later distribution.
  • CND content network equipment
  • the adaptive bitstream delivery system 300 has four main components: a content classifier (content classifier) 310, a model predictor (model predictor). ) 320, Includes Content Network Device Manager 330 and Switchable Transcoder 340.
  • a content classifier content classifier
  • model predictor model predictor
  • the purpose of the system 300 is to deliver a compressed bit stream 301 containing information content to a user device 360 through a network 350.
  • the bitstream content can be visual, audio, text, natural, synthetic, primitive, data, composite, or a combination thereof.
  • the network may be wireless, packet switched, or any other network with unpredictable operating characteristics.
  • the user equipment may be a video receiver, a stationary or mobile radio receiver, or other similar user equipment with internal resource constraints that may make it difficult to receive a high quality bitstream. Good.
  • the system maintains the semantic fidelity of the content even if the bitstream needs to be further compressed to meet network and user equipment characteristics.
  • the input compressed bitstream is directed to a transcoder and content classifier.
  • the transcoder can ultimately reduce the rate of the output compressed bitstream 309 directed to the user equipment over the network.
  • the content classifier 310 extracts content information (C I) 302 from the input bitstream for the manager.
  • the main function of the content classifier is to define the semantic features of the content characteristics, such as motion activity, video change information and textures, into a set of content network managers used to perform rate-quality trade-offs. It is to map (correspond to) the parameters overnight.
  • the content classifier can also accept metadata information 303. Metadata may be at low and high levels. Examples of metadata include descriptors and description schemes specified in the new MPEG-7 standard.
  • a model predictor (model predictor) 3 20 provides real-time feedback 32 1 about the dynamics of the network 350 and possible constraint characteristics of the user equipment 360. For example, predictors report network congestion and available bit rate (ABR). Further, the predictor receives and converts the feedback on the packet loss rate in the network. The predictor estimates the current network condition and the long-term network forecast 3 2 1.
  • user equipment may have limited resources. For example, processing power, memory and display constraints. For example, if the user device is a mobile phone, the display may be constrained to textual information or low resolution images, or worse, audio only. These characteristics can also influence the choice of transcoding modality.
  • manager 330 In addition to receiving metadata 3 Q 3, manager 330 also receives inputs from both content classifier 310 and model predictor 320. CND combines the output data from these two sources together so that the optimal transcoding strategy for switchable transcoder 340 is determined.
  • Content Classifier 310 In addition to receiving metadata 3 Q 3, manager 330 also receives inputs from both content classifier 310 and model predictor 320. CND combines the output data from these two sources together so that the optimal transcoding strategy for switchable transcoder 340 is determined.
  • classification can be achieved by extracting features from various levels of video. For example, program features, shot features, frame features, and features of sub-regions within a frame. The features themselves can be extracted using sophisticated transformations or simple local operators. Regardless of how the features are extracted, given a feature space of dimension N, each pattern can be represented as a point in this feature space.
  • the content classifier 310 operates in three stages (I, II, III31 1 to 313). First, classify the bitstream content so that high-level semantics can be inferred, and second, adapt the classified content to network and user equipment characteristics.
  • a number of low-level features are extracted from the compressed bitstream using conventional techniques, such as, for example, motion activity, texture or DCT coefficients. It is also possible to access the metadata 303, such as the MPEG-7 descriptor and description method. If a message is available, less work needs to be performed on the compressed bitstream.
  • the end result of this first step is that a predetermined set of content features is mapped to a semantic class or a finite set of high-level metadata. Furthermore, within each semantic class, identification is performed based on the complexity of the encoding. That is, complexity depends on semantic class and network characteristics, and possible device characteristics.
  • the above classifications are useful in terms of understanding content and ultimately discrete summary transcoding, but are also useful as an intermediate step result.
  • the second stage of classification maps the semantic classes of the present invention to features of network and device characteristics. These features help determine the characteristics of the late quality functions that support the system in developing a transcoding strategy.
  • a semantic class is characterized by explosive data due to object movement or video changes, this is how much network resources are used. It must be explained when estimating what should be provided.
  • the third stage 3 13 is described below with respect to other embodiments.
  • the content network equipment (CND) manager 330 and transcoder 340 are shown in more detail in FIG.
  • the CND manager includes a discrete continuous control 431 and a content network device (CND) Integra 432.
  • Transcoder 340 includes a plurality of transcoders 441-1443.
  • the control 431 uses the switch 450 to determine how the input compressed bitstream 310 should be transcoded, for example, by a discrete summary transcoder 441, It is responsible for deciding whether to use a transcoding transcoder 442 or another transcoder 443.
  • the network content manager dynamically adapts to the target rate of the transcoder and considers resources that constrain network and user equipment characteristics. These two very important items are determined by control 431.
  • FIG. 5 graphically illustrates the rate-quality function associated with the rate 501 and quality 502 scales.
  • One rate quality function of the continuous transform transcoder 4 4 2 is represented by a convex function 5 3.
  • the rate-quality curve of the discrete summary transcoder 441 is represented by a linear function 504.
  • Other transcoders may have different functions.
  • intersections change dynamically as content and network characteristics change.
  • a continuous transform transcoder usually assumes a classic distortion criterion such as PSNRR. Since such measures do not apply to the discrete summary transcoder according to the present invention, it makes more sense to map classical distortion measures to measures of "fidelity". Fidelity measures how well the content is semantically summarized, not a quantitative bit-by-bit difference. Given the same quality criterion, it prevents any inconsistencies in determining the optimal transcoding strategy.
  • the CND integr. 4 3 2 contains the content information 3 0 2 from the content classifier 3 10 and the model predictor. It is part of the CND manager that combines these network equipment predictions 321 together. It is this part of the manager that produces the model expressed as the rate-quality function shown in Figure 5, or as another similar optimization function.
  • CND Integral examines the mapping CI from the content classifier and the bitrate feedback 3 5 1 output from the switchable transcoder 3 4 0. . Using this information, Integre overnight selects an optimal modeling function 505 with some model parameters. Rate feedback 351 is used to refine the parameters more dynamically. INTEGRAY can decide to dynamically switch the report quality function if the selected model is found to be sub-optimal. Also, the integration can track several functions for different objects or different bitstreams and consider them separately or together. Impact of network forecasts
  • the network prediction 3 21 can work on these characteristic functions by adjusting some parts of the optimal curve 5 05 in some way. For example, when higher bit rates are available, the most care must be taken. The network model allows a large number of bits to be spent at a particular moment, but the long-term results show that congestion can build up quickly, so the system can You can choose to keep running at a lower rate. In this way, problems associated with a sharp drop in the available bit rate are prevented. These types of characteristics can be taken into account by adjusting the curves of the transcoder according to the invention. Impact of equipment restrictions
  • a mobile device is a stationary device It has different operating characteristics, and its performance may be degraded at a high available bit rate due to, for example, the spread of the dobbler. For this reason, a lower bit rate must be selected.
  • Equipment may have limited processing, storage and display capabilities, which may affect transcoders. For example, it makes no sense to deliver video to audio-only devices.
  • switchable transcoders can include other transcoders 443, such as converting spoken language to text or converting data to spoken language. The important point is that the switchable transcoder considers the semantics of the bitstream content and the destination device, and most prior art transcoders simply consider the available bit rate. It is. Frame-based transcoder
  • switchable transcoders including continuous transform transcoders and discrete summary transcoders, have been described above.
  • the optimal rate-quality curve is estimated.
  • the scheme according to the present invention is flexible in that various techniques can be employed to reduce the rate depending on the ratio of the input rate to the output rate.
  • the purpose of the present invention is to provide optimal overall quality for objects of varying complexity, so that the degradation of each object need not be the same. As described above, in this specification, objects are parsed instead of frames.
  • the novelty of the system is that it can transcode multiple objects of varying complexity and size, but more importantly, it optimizes the overall quality of the video. That is, it is possible to make a space-time trade-off to make Focus on object-based bitstreams for added flexibility. There are also various means available for manipulating the quality of a particular object. Is described.
  • bitstream PP for object-based transcoding
  • bitstream PP for object-based transcoding
  • conventional frame-based transcoders can significantly reduce the bit rate.
  • bitstream “quality” is measured as the bit-by-bit difference between the input and output bitstreams.
  • object-based transcoding according to the present invention is not constrained to manipulate the entire video. Transcode the bitstream into meaningful video objects. It is understood that the distribution of each object, along with the quality of each object, has a different overall impact on the quality.
  • the object base method according to the present invention has a finer access level and reduces the space-time quality level of one object without greatly affecting the quality of the entire stream. It becomes possible. This is a completely different strategy than that used by traditional frame-based transcoders Introduces the concept of “perceptua 1 videoqua 1 ity”, in contrast to the traditional bitstream quality, which measures the difference in the bits of the entire video, regardless of the content. Perceptual video quality is related to the quality of the objects in the video that carry the intended information. For example, the video background can be completely lost without affecting the perceptual video quality of the more important foreground objects.
  • Object-based transcoding framework is not constrained to manipulate the entire video. Transcode the bitstream into meaningful video objects. It is understood that the distribution of each object,
  • FIG. 6 shows a high-level block diagram of an object-based transcoder 600 according to an alternative embodiment of the present invention.
  • the transcoder 600 includes a demultiplexer 601, a multiplexer 602, and an output buffer 603.
  • the transcoder 600 also includes one or more object-based transcoders 800 operated by a transcoding control unit (TCU) 6100 according to the control information 604.
  • TCU transcoding control unit
  • the unit 610 includes shape, texture, temporal and spatial analyzers 611 to 614.
  • the input compressed bitstream 605 for the transcoder 600 includes one or more object-based elementary bitstreams.
  • the object base bit stream may be serial or parallel.
  • the total bit rate of the bit stream 605 is R in .
  • the output compressed bit stream 606 from the transcoder 600 is R. Total bit rate R such that ut ⁇ R in . with ut .
  • Multiplexer 601 provides one or more elementary bitstreams for each of object-based transcoders 800, and object-based transcoder 800 provides object data transcoders to TCU 610. 6 0 7 is provided.
  • the transcoder 800 scales the elementary bit stream.
  • the scaled bit stream is composed by multiplexer 602 before being passed to output buffer 603, and the output The message is sent from the receiver 603 to the receiver.
  • the buffer 606 provides rate feedback information 608 to the TCU.
  • the control information 604 passed to each of the transcoders 800 is provided by the TCU.
  • the TCU is responsible for analyzing texture and shape data as well as temporal and spatial resolution. All of these new degrees of freedom make the object-based transcoding framework very unique and desirable for network applications.
  • MPEG-4 exploits the spatial temporal temporal redundancy of video using motion compensation and DCT. Consequently, at the heart of the object-based transcoder 800 according to the present invention is the adaptation of the MPEG-2 transcoder described above. The main difference is that here the shape information is contained in the bitstream and, in connection with texture coding, tools are provided to predict DC and AC in blocks (Intra blocks) That is, it is.
  • texture transcoding actually depends on shape data. In other words, the shape-evening cannot be ignored simply by parsing it. That is, the syntax of the compliant bit stream is determined by the decoded shape data.
  • the object-based input and output bitstreams 601, 602 according to the present invention are completely different from conventional frame-based video programs.
  • MPEG-2 does not allow for dynamic frame skiving.
  • the GOP structure and reference frames are usually fixed. Texture model
  • the variable R represents the texture bits consumed for the video object (V0)
  • the variable Q represents the quantization parameter QP
  • the variable (XX 2 ) is the first- and second-order model parameters
  • the variable S indicates the encoding complexity such as the sum of absolute differences.
  • the value of Q is determined by the current value of (XX 2 ).
  • the actual number of bits consumed is known and the model parameters can be updated. This can be done by linear regression using the results of the previous n frames. Texture analysis
  • the transcoding problem is different in that 0., ie the original QP set and the actual number of bits are already given. Also, instead of calculating the coding complexity S from the spatial domain, a new DCT-based complexity measure S must be defined. This measure is defined as:
  • m C msM ⁇ 1
  • B m (i) is the AC coefficient of the block
  • m is the macroblock exponent in the set M of coded blocks
  • M c is the number of blocks in the set
  • p (i) is Frequency-dependent weight.
  • the complexity measure indicates the energy of the AC coefficient, where the contribution of high frequency components is reduced by the weight function. This weighting function can be chosen to mimic that of an MPEG quantization matrix.
  • the model parameters can be determined from the data transmitted in the bitstream and the data from the past video object, and can be updated continuously. In fact, twice for each transcoded VOP, once before transcoding using the bitstream data, and then again after encoding the texture with a new set of QPs The model can be updated. With this increase in the number of data points, the model parameters converge more robustly and faster.
  • the main purpose of the texture analysis according to the present invention is to select that satisfies the rate constraint while minimizing distortion. It is important to note, however, that optimality depends on. Therefore, care must be taken how distortion is quantized. From this point, this distortion is called conditional distortion because it depends on _QJ.
  • k denotes the V_ ⁇ P index in the set K of VOP
  • shed k represents the visual significance or priority of object k.
  • D (Q) is not explicitly specified, but is known to be proportional to Q.
  • Visual significance can be a function of the relative size and complexity of the objects.
  • the solution space is limited to the effective solution space shown in Figure 7.
  • the X-axis indicates the video object, 701, and the y-axis indicates the QP.
  • This figure also shows an effective search space 7110, a restricted search space 7111, an effective path 712, and an invalid path 713.
  • the problem can be stated as follows.
  • skipping frames In general, the purpose of skipping frames is to reduce the buffer occupancy level so that buffer overflow and eventually packet loss is prevented. Another reason for skipping frames is to allow for a trade-off between spatial and temporal quality. In this way, fewer frames are encoded, but they are encoded with higher quality. Thus, if there is no risk of buffer overflow, the decision to skip the frame is built into the QP selection process.
  • This space-time trade-off is achieved by constraining the solution space by constructing from a proposed technique for QP selection, searching for an effective solution space for a set of QPs.
  • the effective path is one in which all elements of are in the constrained region. If one of these elements goes outside of that area, the path is invalid because it does not maintain a specified level of spatial quality. Spatial quality is implied by conditional distortion.
  • Different criteria can be used to determine the maximum QP for a particular object. For example, the maximum value can be a function of the object complexity or just a percentage of the input QP. If the maximum is based on complexity, the transcoder limits those objects with intrinsically high complexity to smaller QPs because their impact on spatial quality is the most rigorous .
  • limiting the complexity based on the input QP means that the transcoder maintains the same QP variance as the originally encoded bitstream. Both methods are effective.
  • the trade-off to determine the best way to limit the QP for each object may depend on the trade-off between spatial and temporal quality.
  • one of the advantages of working with object-based data is that the spatial quality of some objects can be different from others. In this way, bits can be saved by skipping background objects, such as stationary walls.
  • background objects such as stationary walls.
  • reducing the temporal resolution of certain objects can introduce holes in the assembled video. This problem can be reduced by imposing the constraint that all VOPs have the same temporal resolution. Shape analysis
  • shape data is encoded in units of blocks by so-called context-based arithmetic coding.
  • MPEG-4 by Brady See standardization methods for the compression of arbitrarily shaped objects, IEEE Trans Circuits and Systems for Video Technoloy, December 1999.
  • the context for each pixel is calculated based on a 9-bit or 10-bit causal template, depending on the mode selected. This context is used to access the probability look-up table, whereby the sequence of probabilities in the block drives the arithmetic encoder.
  • DRC Dynamic Resolution Conversion
  • FIG. 8 shows the components of an object-based transcoder 800 according to the present invention. Same as transcoding architecture in the prior art As such, the syntax of the coding standard somewhat describes the architecture of the transcoder 800. Here, the main features of the transcoder according to the present invention will be described in view of the MPEG-4 standard, and these features will be compared with conventional frame-based transcoding.
  • the transcoder 800 includes a VOL / VOP parser 810, a shape scaler 820, an MB header parser 830, a motion parser 840, and a texture scaler 850.
  • the transcoder also includes a bus 860 that transfers all parts of the basic bitstream 801 to the bitstream memory 870. From this global storage, the basic bitstream configuration unit 880 can form a reduced rate compressed bitstream according to the MPEG-4 standard. Output basic bitstream 809 is provided to the multiplexer of FIG.
  • each object is associated with a video object layer (VOL) and a video object plane (VOP) header.
  • VOL video object layer
  • VOP video object plane
  • the V ⁇ P header contains the quantization parameters (QP) used to encode the object.
  • QP quantization parameters
  • the QP for each object is later used for modeling and analyzing texture information. All other bits are stored in bitstream memory 870 until it is time to make up output bitstream 606 of FIG.
  • the VOP layer indicates whether the VOP contains shape information (binary) or not (rectangle) 812. If rectangle V ⁇ P, the object is simply a rectangular frame and there is no need to parse the shape bits. If it is a binary shape, it is necessary to determine whether the macroblock is transparent or not. A transparent block is within the bounding box of the object, but has no associated motion or texture information because it is outside the object boundaries.
  • the shape scaler 820 has three sub-components: a shape decoder. / Parser 82 1, shape downsampler 822 and shape encoder 823. If the shape information of the bitstream is not scaled, the shape decoder / passer is simply a shape verser. This is indicated by the control information 604 received from the R-D shape analysis 611 of the transcoder control unit 6110. In this case, the shape downsampler 822 and the shape encoder 823 are disabled. When the shape information is scaled, the shape decoder / parser 821 must first decode the shape information into its pixel area representation.
  • the blocks can be downsampled by a factor of 2 or 4 using shape downsampler 822 and then re-encoded using shape encoder 823.
  • the rate of conversion is determined by the RD shape analysis 6 11. Regardless of whether the shape bits are simply parsed or scaled, the output of shape scaler 820 is transferred to bit stream memory 870 via bit stream bus 860.
  • CBP coded block pattern
  • the spatial analysis 61 3 determines which bits are to be composed and sent out and which bits are to be dropped. Shown in unit. In this way, the portion of the bitstream that can be written to this memory is simply overwritten by the next video object's data stream.
  • transcoder 800 represents a component for one object.
  • multiple transcoders can scale multiple objects, as shown in Figure 6. This can be the most effective method for software implementation that considers multi-thread execution.
  • the challenge in software implementation is to allocate an appropriate amount of CPU processing for each object considered.
  • the case is very different for hardware implementation.
  • Knowware designers usually prefer to have one piece of logic that operates on a particular functionality. For example, the hardware design allows multiple objects to be parsed at a given moment, rather than implementing M motion parser for the maximum number of M objects that can be received , Including one motion pulser operating at a certain speed.
  • the video can be partitioned into our company-to-file hierarchy 900.
  • the video program or session 910 is considered the highest level of the hierarchy 900. This level can represent a 30 minute news program from the broadcast network or a full day of programming.
  • the program 910 includes a sequence of Shots Shot-1,..., Shot-n91 1 to 919.
  • the next level 920 is divided into shots.
  • a “short” can be a group-of-frames (G0F) or a group-of-videos object plane (GOV) 921-929. This level represents a smaller segment of the video that starts when the camera is turned and continues until the camera is turned off. To avoid any confusion, we will simply call this level Shot Level 920.
  • a shot consists of the most basic unit: frame 930 for G ⁇ F and video object plane (V ⁇ P) 931 for GOV. You can also consider other levels below this, either frames or
  • V ⁇ P The lower region of V ⁇ P is 941 to 942.
  • a feature extraction process 91-1 to 904 is applied to the video data at each of the levels.
  • the data of each level is arranged in a different way, and the appropriate features change for each level, so different feature extraction techniques are applied to each level. That is, program-level features are extracted differently than frame features.
  • these features represent "hints” or “queues” 905-908 that can be applied to transcoding systems.
  • hints can be semantic or syntactic, and can represent either high-level or low-level metadata.
  • the method can be applied to transcoding at any given level.
  • higher levels of meta-data such as shot levels, are used to consider the classification, bit allocation and rate-quality for that particular shot and among other shots.
  • the metadata is of limited use to the transcoder, but is very useful to the CND manager 330 of FIG. 3, which determines the transcoding strategy between all output content.
  • low-level metadata such as at the object level, is difficult to classify and manage output content at such low levels, so transcoders 3 support dynamic bit allocation. It can be more useful for 40 itself.
  • the main function of the content classifier 310 is to use features of the content characteristics, such as activity, video change information and texture, to provide a rate-quality trade-off. This is to map to a set of parameters. To support this mapping function, the content classifier also accepts metadata information 303.
  • An example of a message-and-description includes the descriptor and description scheme (DS) specified by the new MPEG-7 standard.
  • this low-level metade map is mapped to a rate-quality characteristic that depends only on the content. This is shown in FIG.
  • the rate-quality characteristics affect the rate-quality function shown in Figure 5 sequentially.
  • the content classifier 310 receives the low-level metadata 303.
  • Stage I 311 extracts high-level media or class 1001.
  • Stage II 312 uses the prediction 3 21 to determine content, network and device dependent rate-quality (R-Q) characteristics.
  • Stage II 13 extracts the R-Q characteristic 1003 that depends only on the low-level metadata.
  • the news program includes the general moderator and various other shots related to the news as a whole.
  • Fig. 11 (&) to (1) Fig. 12 and Fig. 13 are three shots 1201 to 1203, that is, a general moderator's shot and a lip-on-shot on the scene.
  • a news program 1200 including police tracking shorts.
  • all news program shots are categorized into only three categories, with the understanding that the number and type of categories will differ when applied.
  • Class 1 101 represents a shot where the temporal quality of the content is less important than the spatial quality.
  • the second class 1102 represents shots where the spatial quality of the content is more important, and the third class 1103 represents shots where the spatial and temporal quality of the shot are equally important.
  • This set of classes is called SET — 1 1 1 10.
  • Such classes are clearly rate and quality characteristics.
  • the purpose of the content classifier phase III 313 is to process low-level features and map these features to the most appropriate of these classes. It should be noted that the importance of spatial and temporal quality can also be evaluated on a scale of 1 to 10 or a real interval of 0.0 to 1.0.
  • Figure 11 (b) To further illustrate these rate-quality classes, consider another set of three distinct classes, as shown in Figure 11 (b).
  • the first class 1 121 indicates that the shots are very simple to compress, ie a large compression ratio can easily be achieved for a given distortion.
  • the third class, 1123 shows the exact opposite, that is, the content of the shot is very difficult to compress, either due to large / complex motion or spatially active scenes.
  • the second class 1122 is somewhere between the first and third classes.
  • the set of this class is called SET-2-1120.
  • these classes 1 120 also have a content classification It shows the possible effects on the rate-quality decision made by the switch, and how the switchable transcoder 340 can operate.
  • compression difficulties can be categorized by numerical evaluation criteria.
  • other sets of classes can be defined for other types of video programs. So far, we have described two examples of rate-quality classes, SET-1 and SET-2. Content is categorized into these classes according to features extracted from the low-level metadata 303. The following describes how these classes can be derived from movement activities.
  • FIG. 12 shows a transcoding strategy according to the SET-1 classification.
  • the general moderator shot 2012 is transcoded using a discrete summary transcoder. See block 4 4 1 in FIG. This transcoder reduces the entire shot 1 201 into one frame 1 2 1 1, a still image of the general moderator. The duration of the shot, the full audio portion of the speaking host, is provided.
  • 1 2 0 2 on the scene shot is continuous with 1 2 2 1 full audio at 5 frames / sec so that the viewer does not lose the meaning of the background movement. Is converted.
  • the police tracking shot 1203 is converted to 123 1 continuously at 30 frames / sec 1 230.
  • the classification results could be interpreted differently, as shown in Figure 13.
  • the general moderator shot 1 201 With no motion, the segment can be compressed very easily, so it is the first class of SET-2 1 1 2 Classified as 1.
  • This shot is continuously converted at a high compression rate of 1 240 at 30 frames / sec 1 240.
  • police Pursuit Shortship 1203 involves high movement and is more difficult to compress. Therefore, it is classified into the third class 1 123 of SET-2. It is continuously converted at 7.5 frames / sec 1 260 1 260. Again, depending on the characteristics of the shot 1202, including the lipo scene on the scene, it can fall into any one of three classes.
  • the second class 1 1 2 2 is assigned to the second class 1 1 2 2 and is converted continuously 1 2 5 1 at 15 frames / s 1 2 5
  • the hints can be fixed or variable rate bits
  • any stream (CBR or VBR) can be created.
  • SET 2 compression difficulties
  • a CBR bitstream can be generated if the difficulty of compressing a sequence of frames is imposed at a low frame rate. If more bits are allocated, a VBR bit stream can be generated.
  • SET 2 compression difficulties
  • VBR bit stream can be generated.
  • the rate-quality matting implied by each class can be widely varied by a particular application.
  • the spatial and temporal quality may be affected by the difficulty of compressing the video or the level of priority assigned to the spatial and temporal quality. Both classifications were derived from low-level features.
  • classifications suggest ways in which the content can be manipulated. In practice, classification can greatly reduce the number of scenarios to consider. For example, if the CND manager has to consider the reputation quality trade-off for multiple bitstreams (frames or objects) at a given instant, the CND manager should consider the continuous transform and the discrete summary transcoding. Optimal ways of distributing transcoding responsibilities between the two can be considered. It is also possible to consider the hybrid method instead of choosing one method for all segments considered. The difficulty of compression due to the priority of the program or its low-level features is an example of a useful parameter that can be used to make such a determination.
  • Figures 12 and 13 show that the classification in SET—1111 and 0—SET affects the strategy determined by the CND manager and the way the transcoder manipulates the original data. Is given. What is particularly important in Fig. 12 is that the hybrid transcoding method is adopted.
  • Low-level features are used to effectively cluster and classify video content into meaningful parameters that support CND managers and transcoders can do.
  • the C N D classifier 310 and the C N D manager 330 appear to contradict TCU 610 in Figure 6, but this is not the case.
  • the classifier and CND manager will try to pre-select the optimal strategy for the transcoder 340. Given this strategy and instructions from the manager, the transcoder is responsible for manipulating the content in the best possible way. Eventually, transcoders may not meet their needs due to mispredictions or the strategy chosen by the CND manager, and require a mechanism to address such situations, such as spatial analysis. Therefore, in TCU, the main menu can be used again.
  • the purpose of the metadata for the TCU is different from that for the classifier and CND manager. Impact of metadata on transcoding
  • the first method uses bit allocation to derive a strategy and, ultimately, a decision on how to use the functionality provided by the discrete summary and continuous transform transcoders 441-142.
  • the CND Manager is the one in the 330.
  • Figure 5 we use Figure 5 to make decisions.
  • a rate-quality function is used.
  • the second method is in the transcoder 340 itself.
  • Metadata is used for estimation, but rather than making a strategic decision, it makes a real-time decision on the coding parameters that can be used to meet the bitrate objectives. To do so, metadata is used.
  • the coding parameters are selected so that the transcoder achieves the optimal rate-quality function of FIG.
  • low-level and high-level metadata provide hints for performing discrete summaries and continuous transform transcoding. These hints are useful for both CND managers and transcoders.
  • Semantic information can be associated with content either automatically or by manual annotation.
  • the CND manager 330 In applications where multiple users request different shots at the same time, the CND manager 330 must determine how much rate is assigned to each shot. For a discrete summary transcoder 441, this rate can correspond to the number of frames transmitted, and for a continuous transform transcoder 44, the rate corresponds to an acceptable target frame rate. be able to. If the level of action indicates a level of temporal activity, bits can be assigned for each frame sequence according to the description of the content. For high-action shots, the CND manager can improve by using a continuous transform transcoder that frame rates below a predetermined level are unacceptable and by summarizing the content with a discrete summary transcoder. Determine that it is possible to deliver quality shots.
  • the process of generating high-level metadata from low-level metadata can be defined as medium-time encoding.
  • Such an encoding process can be considered in stage I 311 in the content classifier of the transcoding system according to the invention.
  • this high-level generation process can be used in standalone systems.
  • An example of such a stand-alone system is a system that instantiates the description scheme specified by the MPE G-7 standard. Such a system can be referred to as an MPEG-7 high-level encoder.
  • Additional descriptor schemes include various descriptive schemes specified in the MPEG-7 working draft, such as Summary DS, Variation DS, Hierarchical Summary. Consider (Hierarchical Summation) DS, Highlight Segment (Highlight Segment) DS, Cluster (Cluster) DS and Classifier (Classifier) DS. See ISO / IECJTCN 313, “MP EG—7 Multimedia Descriptor Schemes WD”, December 1999.
  • a summary DS is used to specify the visual abstraction of the content that is initially used for content browsing and navigation
  • a variation DS is used to specify the variation of the content.
  • variations can be generated in a number of ways, reflecting corrections and manipulations of the original data.
  • description schemes such as Summary DS and Variation DS do not describe how to summarize or generate content variations.
  • the first major problem is that these variations must be generated prior to any request for the original video. As a result, real-time transmission is not an option because the delay associated with generating multiple variations of content is too long.
  • the second major problem is that network characteristics can change over time. Thus, selecting a particular pre-transcoded variation at the moment that is the source of the current network state cannot be sustained over the entire duration.
  • encoders differ in that they are not connected to a network to transmit and receive in real time during transcoding. Instead, the encoder is connected to a database where the videos are stored. The encoder generates various versions of the video off-line for later real-time distribution.
  • the adaptive bitstream video distribution system 130 has five main components: a content classifier 1310, a network equipment (ND) generator. 1320, CND Manager 1330, Switchable Transcoder 1340, and DS Installation 1350.
  • System 1 3 0 0 is database 1 3
  • the system 1303 has inputs and outputs connected to 60. Also, the system 1303 has a selector 130 connected to a network and a database 1306.
  • the purpose of the distribution system 1303 is to generate a variation and / or summary bitstream 13008 from the original compressed bitstream (video-in) 1301.
  • the content of the bitstream may be visual, audio, text, natural, synthetic, primitive, data, composite, or a combination thereof.
  • the video distribution system 130 is similar to the adaptive transcoder system 300.
  • the main difference is that it is not connected to the user equipment 360 via the network 350 of FIG. 3, and transcoding is not performed in real time.
  • ND Genera 1350 will replace equipment and networks.
  • the generator is responsible for simulating network and equipment (ND) constraints that exist in real-time operation.
  • ND network and equipment
  • the ND generator has 64 kbps, 128 kbps and 512 kbps You can simulate either a CBR channel or a VBR channel.
  • the generator can simulate channels with reduced available bandwidth. This loss can be linear, rectangular, or very sharp. Many other typical situations can be considered as well, and some can be related to user equipment limitations, such as limited display capabilities.
  • the Nomination Bitstream can be both CBR and VBR.
  • the purpose of the ND generator 1320 is to simulate various network device states and to automatically restore the original content according to these states.
  • the variation and / or summary 1308 generated by the system 1300 is the optimal rate-quality function.
  • the selector 1370 of the system 1300 receives a request for a particular video program.
  • the selector provides information about the available variations and the associated DS stored in database 1360.
  • the CND manager of the transcoder 300 utilizes this pre-transcoded data.
  • High-level metadata allows transcoders to associate current real-time network and equipment constraints with specific variations of the requested video. If a suitable match is found, the CND manager requests that a particular variation be sent over network 350 by the selector. If a proper match is found, transcoder 340 can operate in bypass mode. If an approximate match is found, the transcoder 340 can operate more efficiently.
  • bitstreams 1308 This is just one practical example application. It is also possible to further manipulate and modify already operated bitstreams 1308 to increase the match with current network and equipment constraints. This is a large number of pre-transcoded bits that cover a very wide range of conditions, versus generating a small number of pre-transcoded bit streams that cover some of the most common conditions. Creating a stream. In general, transcoding with delivery system 1303 under relaxed time constraints will result in better quality Because of the resulting video, different levels of quality can be expected from each method.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Business, Economics & Management (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

明 細 書 圧縮ビデオのトランスコーディング方法 技術分野
本発明は情報配信システムに関し、 特に情報をネヅトワークの利用可能なビヅ トレートに適用させる配信システムに関する。 背景技術
関連出願の相互参照
これは、 Ve t r o等により 2000年 2月 14日に出願された米国特許出願 第 09/504, 323号 「Object- Based Bitstream Transcode::」 の一 部継続米国特許出願、 Ve t r o等により 2000年 2月 2日に出願された米国 特許出願第 09/496, 706号 「Adaptable Compressed Bitsream Tr anscoder」 の一部継続米国特許出願である。 発明の背景
近年、 符号化された情報を通信するために多数の規格が開発されてきた。 ビデオシーケンスに対し、 最も広く使用されている規格には、 MPEG— 1 (動画像の格納および検索用) 、 MPEG— 2 (デジタルテレビジョン 用) および H . 2 6 3力 sある。 ISO/IEC JTC1 CD 11172 , MPEG、 1 Information Technology-Coding of Moving Pictures and Associated Audio for Digital Storage Media up to about 1.5 Mbit/s-Part 2: Coding of Moving Pictures Inf ormation」、 1991、LeGall による「MPEG:A Video Compression Standard for Multimedia Applications 」 、 Communications of the ACM, Vol.34, No.4, pp.46 - 58, 1991、 ISO/IEC DIS 13818 - 2 ,MPEG-2、 「 Inf orrmation Technology-Generic Coding of Moving Pictures and Associated Audio Information-Part 2:Video」、 1994 、 ITU-T SG XV, DRAFT H.263 、 「 Video Coding for Low Bitrate Communication 」 、 1996 、 ITU-T SG XVI, DRAF 13 H.263+Q15-A-60 rev.0 、 「 Video Coding for Low Bitrate Communicationj 、 1 997を参'照のこと。
これらの規格は、 本来、 ビデオシーケンスの空間旳および時間的圧縮を 扱う比較的低レベルの仕様である。 共通の特徴として、 これら規格は、 各 フレーム単位で圧縮を実行する。 これら規格により、 広範囲のアプリケ一 シヨンに対し高圧縮率を達成することができる。
M P E G — 4 ( マルチ メ デ ィ ア ア プ リ ケー シ ョ ン用 ) 等
、 Information Technology-Generic codina of audio/visual ob jects」、 ISO/IEC FDIS 14496-2 (MP E G 4 V i s u a l ) , No v. 1 99 8を参照) 、 より新しいビデオ符号化規格 により、 任意形状のオブジェク トを別々のビデオオブジェク トプレーン
(VOP) として符号化し復号化することができる。 オブジェク トは、 ビ ジュアル、 オーディオ、 自然、 合成、 プリミティブ、 複合またはそれらの 組合せであってよい。 ビデオオブジェク トは、 組立てられて複合オブジェ ク トまたは 「シーン (s c e ne) 」 を形成する。
新たな MP EG— 4規格は、 インタラクティブビデオ等、 自然材料と合 成材料とが統合されかつアクセスがユニバーサルな、 マルチメディァァプ リケ一シヨンを可能にすることが意図されている。 MPE G— 4により、 コンテントベースのインタラクテイビティが可能になる。 例えば、 あるビ デォから他のビデオに、 移動している形またはオブジェク トを 「カッ トァ ンドペースト」 したい場合がある。 このタイプのアプリケーションにおい て、 マルチメディアコンテントにおけるオブジェク トは、 あるタイプの分 割プロセスを通して識別されたと推定される。 例えば、 L i n等により 1 9 9 9年 6月 4日に出願された米国特許出願第 0 9/3 2 6, 7 5 0号
「Method for Ordering Image Spaces to Search for Object Surfacesj を参照のこと。
ビデオ送信のコンテキストにおいて、 これら圧縮規格は、 ネッ トワーク によって要求される帯域幅の量 (利用可能なビッ トレート) を低減するこ とが必要とされる。 ネッ トワークは、 無線チャネルまたはインタネッ トを 表すことができる。 いかなる場合も、 ネッ トワークは容量が制限されてお り、 コンテントが送信される必要のある時、 その資源に対する競合は解決 されなければならない。
何年にも亙って、 装置が、 コンテントを頑強に送信することができ利用 可能なネッ トワーク資源に対しコンテン卜の品質を適用させることができ るようにする、 アーキテクチャおよびプロセスに対し、 非常に多くの努力 がなされてきた。 コンテントが既に符号化されていた場合、 ス トリームが 例えば利用可能なビッ トレー卜の低減に適応するよう、 ネッ トワークを通 して送信される前に既に圧縮されたビッ トストリームをさらに変換する必 要がある場合がある。
ビッ トス ト リーム変換、 すなわち、 「トランスコ一デイング ( t r a n s c o d i n g ) 」 は、 ビッ トレート変換、 解像度変換および構文変換と して分類することができる。 ビッ トレート変換には、 固定ビッ トレート ( C B R ) と可変ビヅ トレ一ト (V B R ) との間のビヅ ト レートスケーリ ングおよび変換を含む。 ビッ トレートスケーリングの基本機能は、 入力ビ ッ トストリームを受取り、 受信機の新たな負荷制約に合うスケーリングさ れた出力ビッ トストリームを生成する、 ということである。 ビッ トス トリ —ムスケ一ラは、 送信側のビッ トストリームと受信側の負荷とを整合させ るトランスコーダまたはフィル夕である。
図 1に示されているように、 一般に、 スケーリングはトランスコーダ 1 0 0によって実現することができる。 ブル一トフオース (b r u t e f o r c e ) の場合、 トランスコーダは、 デコーダ 1 1 0とエンコーダ 1 2 0とを含む。 圧縮入力ビヅ トストリ一ム 1 0 1は、 入力レート R i nで完 全に復号化された後、 新たな出力レート R o u t 1 0 2で符号化されるこ とによって出力ビッ トス トリーム 1 0 3となる。 通常、 出力レートは入力 レートより低い。 しかしながら、 実際には、 復号化されたビッ トスト リ一 ムの符号化の複雑度が高いため、 トランスコーダにおいて完全な復号化お よび完全な符号化は行われない。
MPEG— 2 トランスコ一ディングに対する初期の研究は、 Sun等に よ り 、 厂 Architectures for MPEG compressed bitstream scaling」、 IEEE Transactions on Circuits and Systems for Video Technology, April 1996におレヽて発表されてレヽる。 そこでは、 複雑度およびアーキテクチャが可変であるレート低減の 4つの方法が提示 された。
図 2は、 一例としての方法を示す。 このアーキテクチャにおいて、 ビデ ォビッ トス トリームは部分的にのみ復号化されている。 より詳細には、 入 力ビッ トス トリーム 201のマクロプロヅクが、 可変長復号化 (VLD) 210される。 また、 入力ビッ トストリームは、 遅延 220され、 逆量子 化 (I Q) 230されることにより、 離散コサイン変換 (DCT) 係数を もたらす。 所望の出力ビッ 卜レートが与えられると、 部分的に復号化され たデータが分析 240され、 250では D C Tプロックに対し新たな量子 化器のセッ トが適用される。 そして、 これら再量子化されたブロックは可 変長符号化 (VL C) 260され、 低いレートの新たな出力ビッ トストリ —ム 203を形成することができる。 この方式は、 動きベク トルが再使用 され逆 D C T動作が不要であるため、 図 1に示す方式よりずつと単純であ る o
A s s u n c a o等によるよ り最近の研究は、 「A frequency domain video transcoder for dynamic bit-rate reduction of MPEG-2 bitstreams」、 IEEE Transactions on Circuits and Systems for Video Technology , pp .953-957 , December 1 9 9
8において、 同じタスクに対する簡略化されたアーキテクチャについて述 ベている。 彼らは、 動き補償 (MC) ループを使用して、 ドリフ ト補償を 周波数領域において操作する。 周波数領域における MCプロックの高速計 算のために近似したマトリックスが導出される。 トランスコーディングに 対する最適な量子化器スケールを計算するために、 ラグランジュ最適化が 使用される。 S o r i a l 等による他の研究は、 「 Joint transcoding of multiple MPEG video bitstreams j、 Proceedings of the International Symposium on Circuits and Systems , C a n
1 9 9 9において、 複数の MP EG— 2ビヅ トストリームを合同でトラン スコードする方法を提示している。 Ve t r o等により 1 9 9 9年 1 0月
1日に出願された米国特許出願第 0 9/4 1 0, 5 5 2号 「Estimating Rate-Distortion Characteristics of Binary Shape Dataj また参照のこと。
従来技術による圧縮規格によれば、 テクスチャ情報を符号化するために 割当てられるビッ トの数は、 量子化パラメ一夕 (QP) によって制御され る。 上記論文は、 元のビッ トストリームに含まれる情報に基づいて QPを 変更することでテクスチャビッ トのレートを低減するという点で、 同様で ある。 効率的な実現のために、 情報は通常、 圧縮領域で直接抽出され、 マ クロプロックの動きかまたは D C Tプロックの残余エネルギに関連する基 準を含むことができる。 このタイプの分析は、 ビッ ト割当てアナライザに おいて行われる。
場合によってはビヅ トストリームを前処理することができるが、 それで もトランスコーダがリアルタイムで動作することが重要である。 したがつ て、 ビッ トストリームに対する大幅な処理遅延を許容することができない。 例えば、 トランスコーダが 1群のフレームから情報を抽出し、 その後先取 り情報に基づいてコンテントをトランスコードすることは、 実現不可能で ある。 これは、 生放送またはビデオ会議に対して作用することができない。 より適切にビッ ト割当てすることにより、 品質という意味でより適切なト ランスコ一ディングの結果を得ることは可能であるが、 リアルタイムアブ リケ一シヨンに対しかかる実現は実際的でない。
また、 トランスコ一ディングの古典的な方法はビッ トレートを低減する 能力が制限されている、 ということを留意することもまた重要である。 言 い換えれば、 出力ビデオの Q Pのみが変更される場合、 どれく らいレート を低減することができるかに対する制限がある。 低減の制限は、 考慮され ているビッ トス トリームに依存する。 QPを最大値に変更することは、 通 常、 ビッ トストリームのコンテントを大幅に劣化させることになる。 空間 的品質を低減する他の代案は、 時間的品質を低減する、 すなわちフレーム をドロップ (dr op) またはスキップすることである。 この場合も、 多 くのフレームをスキップしすぎることによってまた品質が大幅に劣化する ことになる。 両方の低減が考慮される場合、 トランスコーダは、 空間的対 時間的品質のトレードオフに直面する。
また、 この空間一時間的トレードオフの概念は、 エンコーダにおいても 考慮される場合がある。 しかしながら、 すべてのビデオ符号化規格がフレ 一ムスキッピングをサポートするとは限らない。 例えば、 MP EG— 1お よび MP EG— 2では、 グループォブピクチャ (Group of P c t u r e (GOP) ) 構造が予め決定されており、 すなわち、 アンカフレ ーム間のフレーム内 (I nt ra f rame) 期間および距離が固定で ある。 その結果、 すべての画像が符号化されなければならない。 この時間 的制約に対応するために、 構文法によりマクロブロックをスキップするこ とができる。 フレームにおいてすベてのマクロブロックがスキップされた 場合、 そのフレームは本質的にスキップされている。 このスキッピングを 示すためにフレームにおける各マクロプロックに対し、 少なくとも 1ビッ 卜が使用される。 これは、 いくつかのビッ トレートに対し非効率である可 能性がある。
H. 263および MP EG— 4規格により、 フレームスキッピングが可能とな る。 両規格は、 基準の指定を可能にする構文法をサポートしている。 しかしなが ら、 フレームスキッピングは主に、 バッファ制約を満足させるために使用されて きた。 言い換えれば、 バッファ占有率が高すぎてオーバフローの危険がある場合、 エンコーダはフレームをスキップすることにより、 ビヅトのフ口一をバッファま で低減し、 バッファが適当な時にその現ビットを送出するようにする。
この構文法のより精巧な使用により、 非常事態でない時に空間—時間的 トレードオフを行う、 すなわち、 低い空間的品質で多くのフレームを符号 化するか、 または高い空間的品質で少ないレームを符号化することができ る。 コンテン トの複雑度により、 いずれの方法も全体的な品質をよりよく する可能性はある。 MP E G— 4オブジェク トベースエンコーダにおいて このトレ一ドオフを制御する方法は、 Sun等に対し 1999年 10月 1 9日に発行された米国特許第 5 , 969 , 764号 「Adaptive video coding methodj と、 Ve t r o等による 「MPEG - 4 rate control for multiple video objects」、 IEEE Trans . on Circuits and Systems for Video Technology, February 1 999と、 に.おい て述べられている。 ここで、 2つの動作モード、 すなわちハイモード (H i ghMode) および口一モード (LowMode) が導入された。 出 力の時間的解像度によって決定された現動作モードによって、 ビッ 卜が割 当てられた方法において調整が行われた。
上述した研究を除けば、 この空間一時間的トレードオフを制御する方法 に対し最小限の注意しか払われなかった。 さらに、 トランスコーダにおい てかかる判断を行うために利用可能な情報は、 エンコーダにおける情報と 非常に異なっている。 以下に、 トランスコーダにおいてこのようなトレー ドオフを行うための方法が述べられている。
結果として、 トランスコーダは、 利用可能なビッ トレートの低減に適応 するために、 ビッ トスト リームに含まれている情報を送信するいくつかの 代りの手段を見つけなければならない。
MP E G規格委員会によって行われた最近の標準化の努力は、 MP E G— 7、 正式には 「マルチメディアコンテントの記述ィン夕フェース (Mu 1 t ime d i a Con ent Descript ion Interf ace)」 のそ れである。 「MPEG— 7 Context, Obj ect ives and Technical Roadmap」、 I SO/IEC N 2861 , Jul y 1999を参照のこと。 本質的に、 この規格は、 種々のタイプのマルチメデ ィアコンテントを記述するために使用することができる記述子の集合および記述 方式を組込むよう計画している。 記述子および記述方式は、 コンテント自体と関 連付けられており、 特定のユーザに対して重要な材料の高速かつ有効な探索を可 能とする。 この規格は先行する符号化規格に取って代ることが意図されたもので はなく、 むしろ、 マルチメディアコンテントを種々のオブジェクトに分解するこ とが可能であり、 かつ各ォブジェク卜を一意の記述子の集合に割当てることが可 能であるため、 他の規格表現、 特に MP EG— 4表現に基づいている、 というこ とを留意することは重要である。 また、 この規格は、 コンテントが格納される際 のフォーマツトとは無関係である。
MPEG- 7の主なアプリケーションは、 探索および検索アブリケ一シ ヨ ンである こ とが予想、されている。 「 MPEG-7 Applications」、 ISO/IEC N2861 , July 1999を参照のこと。 単純なアプリケ一ショ ン環境において、 ユーザは特定のオブジェク 卜のいくつかの属性を指定す ることができる。 この低レベルの表現において、 これら属性は、 特定のォ ブジェク トのテクスチャ、 動きおよび形状を記述する記述子を含むことが できる。 形状を表現し比較する方法は、 L i n等により 1999年 6月 4 日に出願された米国特許出願第 09/326 , 759号 「Method for Ordering Image Space to Represent Object Shapesj ίこおレヽて 述べられており、 動きアクティビティを記述する方法は、 D ivakar an等により 1999年 9月 27日に出願された米国特許出願第 09/4
06, 444号 「Activity Descriptor for Video Sequencesj に おいて述べられている。 より高レベルの表現を得るために、 いくつかの低 レベルの記述子を結合するより精巧な記述方式を考慮することができる。 事実、 これら記述方式は、 他の記述方式を含むことさえ可能である。
1 MPEG - 7 Multimedia Description Schemes WD ( VI .0 ) 」 、 ISO/IEC N3113, December 1999および L i n等により 1999年 8月 3 0日に出願された米国特許出願第 0 9 / 3 8 5, 1 6 9号
1 Method for representing and comparina multimedia contentj を参照のこと。
MP E G— 7規格によって提供されるこれら記述子および記述方式によ り、 トランスコーダによって導出され得ないビデオコンテン卜の特性にァ クセスすることが可能になる。 例えば、 これら特性は、 トランスコーダが ァクセス不可能であると見なされた先取り情報を表現することができる。 トランスコーダがこれら特性にアクセスすることができる唯一の理由は、 特性がより早い段階でコンテントから導出されるため、 すなわち、 コンテ ントが前処理されその関連するメタデータと共にデ一夕ベースに格納され るためである。
情報自体は、 構文的であっても意味論的であってもよい。 この場合、 構文的情 報は、 コンテントの物理的および論理的信号面を言い、 意味論的情報は、 コンテ ントの概念的意味を言う。 ビデオシーケンスに対し、 構文的要素は、 特定のォブ ジェクトの色、 形状および動きを言うことができる。 一方、 意味論的要素は、 ビ デォシーケンスにおけるィベントの時間および場所またはある人の名前等、 低レ ベル記述子から抽出されることができな ヽ情報を言うことができる。
トランスコ一ディングの従来の方法に対する背景および M P E G— 7規格の現 状を考慮すると、 両面からの情報を利用する改良されたトランスコ一ディングシ ステムを規定する必要がある。 発明の開示
圧縮ビデオをトランスコードする方法は、 圧縮ビデオを階層レベルに分割し、 その階層レベルの各々から特徴を抽出する。 階層レベルから抽出された特徴によ つて、 トランスコーダの多数の変換モードのうちの 1つが選択される。 そして、 圧縮ビデオは、 選択された変換モードにしたがってトランスコ一ドされる。 図面の簡単な説明
図 1は、 従来技術によるトランスコ一ダのブロック図、
図 2は、 従来技術による部分的なデコ一ダ /ェンコーダのブロック図、 図 3は、 本発明による適応可能なビットストリーム配信システムのブロック図、 図 4は、 適応可能なトランスコーダおよびトランスコーダマネージャのプロッ ク図、
図 5は、 図 4のトランスコーダおよびマネージャによって使用することができ るトランスコーディング関数のグラフ、
図 6は、 オブジェクトベースのビットストリームスケーリングのブロック図、 図 7は、 探索空間のグラフ、
図 8は、 本発明によるオブジェクトべ一ストランスコーダの細部のブロック図、 図 9は、 キューレベルによる特徴抽出のブロック図、
図 1 0は、 3段階のビデオコンテントクラシファイアのブロック図、
図 1 1は、 記述子方式のブロック図、
図 1 2は、 図 1 1 ( a ) の記述子方式によるトランスコーディングのブロック 図、
図 1 3は、 図 1 1 ( b ) の記述子方式によるトランスコーディングのブロック 図、
図 1 4は、 コンテントサマリおよびコンテントサマリによるコンテントのバリ エーシヨンを生成するシステムのブロック図、
図 1 5は、 図 1 4のコンテントサマリおよびコンテントバリエーションに基づ く トランスコーディング関数のグラフである。 発明を実施するための最良の形態
¾ts冊
圧縮された入力ビッ トストリームを変換、 すなわち 「スケーリング」 す ることにより、 目標レート、 すなわちネッ トワークの利用可能ビッ トレー ト (A B R ) の圧縮された出力ビッ トストリームにすることができる、 ビ デォ配信システムについて述べる。 また、 圧縮された入力ビッ トストリ一 ムのバリエーションを配信する配信システムについて述べる。 さらに、 ビ ッ トストリームの低レベル特徴および識別子方式に基づく トランスコーデ イ ングについて述べる。 本発明は、 レート品質 (rate-quality ( RQ ) ) 特性を最大にしながら トランスコーディングを実行することを目的とする。 通常、 出力ビッ トストリームの目標レートは、 入力ビッ トストリームの レートより低い。 言い換えれば、 本発明による トランスコーダのタスクは、 通常ネッ トワーク資源またはエンドユーザ装置の受信機負荷における制約 のため、 ビッ トストリームをさらに圧縮することである。 種々のレベル、 すなわち、 プログラムレベル、 ショッ トレベル、 フレームレベルおよびビ デォォブジェク トレベル、 並びに下位領域レベルを含む領域のビデオに対 する、 コンテントベースのトランスコ一ディング技術について述べる。 本発明によるシステムは、 従来からのトランスコーダの欠点、 すなわち、 特にリアルタイムアプリケ一シヨンにおけるレート変換の制限を克服する ことができる。 従来からのトランスコ一ディング技術は、 十分にレートを 低減することができるが、 コンテントの品質は通常ひどく劣化する。 しば しば、 ビッ トレートが低減されたビッ トス ト リームで伝送される情報がま つたく喪失する。 従来から、 ビッ トストリーム 「品質」 は、 入力ビッ トス トリームと出力ビッ トストリームとの間のビッ ト每の差として測定される。 ビッ トス ト リームのコンテン卜の品質を維持しながら目標レートに達す ることができるトランスコーディング技術について述べる。 連続変換
従来からのフレームベースのトランスコ一ディング技術は、 連続変換と して定義することができる。 従来からの技術は、 空間的対時間的品質の最 適なトレードオフを連続的に維持するよう試みるため、 出力は、 常に、 入 力シーケンスを最もよく表現するフレームのシーケンスである。 レートに 対する制約に合うために特定のフレームがスキップされると、 スキップさ れたフレーム内に含まれる情報は考慮されない。 多くのフレームがスキヅ プされる場合、 受信されるビッ トストリームはユーザにとって無意味であ るか、 または良くても満足のいかないものとなる。 品質歪み基準
従来からの連続変換トランスコーダは、 空間的および時間的品質のトレ ―ドオフに関してレートー歪みという意味で最適な判断を行う。 かかる ト ランスコーダでは、 歪みは通常、 ピーク信号対雑音比 (P S N R ) 等、 何 れかの古典的な歪み評価基準となっている。 かかる変換において、 歪みは ビヅ トスト リームのコンテン卜がいかに適当に伝送されているかの測度で はなく、 むしろ元の入力ビッ トストリームと再構成された出力ビッ トス ト リームとの間のビッ ト対ビッ 卜の差、 すなわち品質の測度であるというこ とは強調されなければならない。
ビッ トス ト リームの忠実性
低ビッ トレ一ト制約の下でのビッ トスト リームシーケンスをトランスコ
—ドする 1つの実施の形態において、 フレームの数が少ないビヅ トス トリ ームのコンテントを要約する。 この場合、 品質に焦点を合わせた古典的な 歪み評価基準を使用しない。 むしろ、 「忠実性 (f i d e 1 i t y ) 」 と 呼ぶ新しい評価基準を採用する。 忠実性は、 コンテントの意味論および構 文を考慮する。 意味論および構文は、 ビッ トまたは画素を意味せず、 例え ば語、 サウンド、 ビデオのユーモアおよびアクションのレベル、 ビデオォ ブジェク ト等、 ビヅ 卜によって表される人間にとって意味のある概念を意 味する。
忠実性は、 多くの方法で定義することができる。 しかしながら、 忠実性 は、 本明細書で定義するように、 従来からの量的な品質、 例えばビッ ト毎 の差に関連していない。 むしろ、 本発明における忠実性は、 元の画像シ一 ケンスに含まれる情報、 すなわち生のビッ トではなくコンテントまたは伝 送される情報のより高レベルの意味を、 1つのフレームまたは複数のフレ ームが伝送する程度を測定する。 離散サマリ トランスコーダ
忠実性は、 従来からの歪み評価基準より主観的または意味論的測度であ る。 しかしながら、 本発明によるシステムでは、 忠実性は、 非慣用的なト ランスコーダの性能を測定するための有用な測度である。 1つの実施の形 態による本発明のトランスコーダの出力は、 ビッ トのシーケンス全体を要 約しょうと試みる比較的高品質なフレームの有限なセッ トであるため、 こ のタイプのトランスコーダを 「離散サマリ トランスコーダ」 と呼ぶ。
例えば、 低ビッ トレートで、 ビデオを表現する少数の高品質のフレーム を選択する。 この場合、 ビッ トストリームの意味論的 「意味」 が保存され る。 この離散サマリ トランスコーダは、 入力ビッ トストリームの高レベル 意味論的サンプリングを実行するが、 連続トランスコーダは、 空間的およ び時間的領域において量的に画素をサンプルするのみである、 と言うこと ができる。 ここでは、 ビッ トレートが厳密に制限された状態で、 ビッ トス トリームにおいて符号化されたコンテン卜の忠実性を保存するために 「リ ツチな (r i c h ) 」 フレームをサンプルする。
リツチなフレームを選択的にサンプルするため、 ビッ トストリームにお ける 1つの面、 すなわち動きを喪失する可能性がある。 好ましくは、 離散 サマリ トランスコーディングに頼るのは、 連続変換トランスコーダのレー ト歪み性能が非常に劣化しているか、 または目標レートを達成することが できない場合のみである。 これらの状況では、 従来からの連続変換トラン スコーダは、 情報配信のレートが安定しなくなりユーザを困惑させるほど フレームレートが低速であるため、 流動的な動きを喪失する。
従来からの連続変換トランスコ一ディングに対する離散サマリ トランス コ一ディングの主な利益は、 厳しいレート制約における連続変換トランス コーダが情報の豊かなフレームをドロップする一方、 離散サマリ トランス コーダが情報の豊かなフレームを選択しょうとする、 ということである。 いずれのトランスコーダが所定の状況に対して最適であるかを制御する ために、 コンテントネッ トワーク装置 (C N D ) マネージャについて説明 する。 C N Dマネージャの目的は、 いずれのトランスコーダを使用するか 選択することである。 選択は、 コンテント、 ネッ トワーク、 ユーザ装置特 性から取得されるデータに基づく。 また、 後の配信のためにビッ トストリ ームのバリエーションを生成するために、 「オフライン (o f f — 1 i n e ) 」 モードにおいてこれら装置特性をシミュレートすることも可能であ る 適応可能ビッ トストリーム配信システム
図 3に示されているように、 適応可能ビッ トス トリーム配信システム 3 0 0は、 4つの主な構成要素、 すなわち、 コンテントクラシファイア (コ ンテント分類器) 3 1 0、 モデルブレディクタ (モデル予測器) 3 2 0、 コンテントネッ トワーク装置マネージャ 3 3 0および切換可能トランスコ ーダ 3 4 0を含む。
システム 3 0 0の目的は、 情報コンテントを含む圧縮ビヅ トストリーム 3 0 1をネッ トワーク 3 5 0を通してユーザ装置 3 6 0に配信することで ある。 ビッ トス トリームのコンテントは、 ビジュアル、 オーディオ、 テキ スト、 自然、 合成、 プリミティブ、 データ、 複合またはそれらの組合せで あってよい。 ネッ トワークは、 無線、 パケッ ト交換、 または予測できない 動作特性を有する他のネッ トワークでもよい。 ユーザ装置は、 ビデオ受信 機、 据置型または移動型の無線受信機、 あるいはビッ トストリームの高品 質受信を困難にする可能性のある内部資源制約がある他の同様のユーザ装 置であってよい。
利点として、 本システムは、 ネッ トワークおよびユーザ装置特性を満た すためにビッ トストリームをさらに圧縮する必要がある場合であっても、 コンテン卜の意味論的忠実性を維持する。
入力圧縮ビッ トストリームは、 トランスコーダおよびコンテントクラシ ファイアに向けられる。 トランスコーダは、 最終的に、 ネッ トワークを介 してユーザ装置に向けられる出力圧縮ビッ トスト リ一ム 3 0 9のレートを 低減することができる。
コンテントクラシファイア 3 1 0は、 マネージャのために入力ビッ トス トリ一ムからコンテント情報 (C I ) 3 0 2を抽出する。 コンテントクラ シファイアの主な機能は、 動きアクティビティ、 ビデオ変化情報およびテ クスチヤ等、 コンテント特性の意味論的特徴を、 コンテントネッ トワーク マネージャにおいてレート一品質トレ一ドオフを行うために使用される 1 組のパラメ一夕にマッピング (対応付け) することである。 このマツピン グ機能を支援するために、 コンテントクラシファイアは、 メタデータ情報 3 0 3を受入れることも可能である。 メタデータは、 低レベルおよび高レ ベルであってよい。 メタデータの例には、 新たな M P E G— 7規格で指定 される記述子および記述方式が含まれる。
このアーキテクチャにおいて、 モデルプレディクタ (モデル予測器) 3 2 0は、 ネッ トワーク 3 5 0のダイナミクスおよびユーザ装置 3 6 0のあ り得る制約特性に関するリアルタイムフィードバック 3 2 1を提供する。 例えば、 プレディクタは、 ネッ トワーク輻輳および利用可能ビッ トレート ( A B R ) を報告する。 また、 プレディクタは、 ネッ トワーク内のパケヅ ト損失率に対するフィードバックを受信し変換する。 プレディクタは、 現 ネッ トワーク状態と長期ネッ トワーク予測 3 2 1 とを推定する。 典型的に、 ユーザ装置は、 資源が制限されている可能性がある。 例えば、 処理電力、 メモリおよびディスプレイ制約である。 例えば、 ユーザ装置が携帯電話で ある場合、 ディスプレイはテキスト情報かまたは低解像度画像に、 もしく はより悪いことにはオーディオのみに制約されている可能性がある。 また、 これら特性は、 トランスコーディングモダリティの選択に影響を与える可 能性もある。
メタデータ 3 Q 3を受信することに加えて、 マネージャ 3 3 0はまた、 コンテントクラシファイア 3 1 0およびモデルプレディクタ 3 2 0の両方 から入力を受信する。 C N Dは、 切換可能トランスコーダ 3 4 0に対して 最適なトランスコ一ディング戦略が決定されるように、 これら 2つの情報 源からの出力データを共に結合する。 コンテン トクラシファイア
パターン分析および認識の分野において、 分類は、 種々のレベルのビデ ォから特徴を抽出することによって達成することができる。 例えば、 プロ グラム特徴、 ショッ ト特徴、 フレーム特徴およびフレーム内の下位領域の 特徴である。 特徴自体は、 高性能の変換または単純な局所演算子を用いて 抽出することができる。 特徴がいかにして抽出されるかに関わらず、 次元 Nの特徴空間が与えられると、 各パターンはこの特徴空間の点として表現 することができる。
この抽出プロセスに対し入力として種々の異なる トレーニングパターン を与えること、 および特徴空間において結果をプロッ トすることは、 慣習 的である。 特徴セヅ トおよびトレーニングパターンが適当であるとすると、 「クラス」 と呼ばれる点のいくつかのクラス夕を観測する。 これらクラス により、 異なるパターンを識別し同様のパターンをグループ化することが でき、 観測されたクラス間の境界を決定することができる。 通常、 クラス 間の境界が分類誤りに対する損害に密着しており、 誤り全体を最小限にす るよう i式 る。
適当なクラスが識別され、 クラス間の適切な境界が引かれた後、 ビッ ト ストリームにおいて新たなパターンを迅速に分類することができる。 問題 によって、 これは、 ニューラルネッ トワークかまたはサポートベク トルマ シン (Support Vector Machine) 等の他の周知の分類技術を用いて達 成する こ と がで き る 。 C r i s t i a n i n i 等に よ る 「An Introduction to Support Vector Machines , ( and other kernel-based learning methods ) 」 、 Cambridge University Press , 2 0 0 0を参照のこと。
コンテントクラシファイア 3 1 0は、 3段階 ( I , I I , I I I 3 1 1 〜 3 1 3 ) で動作する。 第 1に、 高レベル意味論を推論することができ るようにビッ トストリームコンテントを分類し、 第 2に、 分類されたコン テントをネッ トワークおよびユーザ装置特性に適応させる。
第 1段階 ( I ) 3 1 1において、 例えば動きァクティビティ、 テクスチ ャまたは D C T係数等の従来からの技術を用いて、 圧縮されたビッ トスト リームから多数の低レベル特徴を抽出する。 また、 M P E G— 7記述子お よび記述方式等、 メタデータ 3 0 3にアクセスすることも可能である。 メ 夕デ一夕が入手可能である場合、 圧縮されたビッ トストリームに対して実 行される必要のある作業が少なくなる。 この第 1段階の最終結果として、 予め決められたコンテント特徴のセッ 卜が、 意味論的クラスかまたは高レ ベルメタデータの有限セッ トにマッピングされる。 さらに、 各意味論的ク ラス内で、 符号化の複雑度に基づいて識別を行う。 すなわち、 複雑度は、 意味論的クラスおよびネッ トワーク特性と、 あり得る装置特性とによって 。
このコンテン卜の高レベルな理解は、 コンテント情報 ( C I ) 3 0 2と して C N Dマネージャ 3 3 0に渡される。 C I 3 0 2は、 部分的に、 切換 可能トランスコーダのこの実施の形態の潜在的な性能を特徴付ける。
上記分類は、 コンテン卜の理解および最終的に離散サマリ トランスコー ディングという意味で有用であるが、 中間段階の結果としても有用である。 本質的に、 分類の第 2段階 I I 3 1 2への入力としての役割を果たす新た なクラスのセットがある。 分類の第 2段階では、 ネッ トワークおよび装置 特性の特徴に本発明の意味論的クラスをマッピングする。 これら特徴は、 トランスコ一ディング戦略を開発する際にシステムを支援するレ一ト一品 質関数の特性を決定する助けとなる。 言い換えれば、 オブジェク トの移動 またはビデオの変化のためにある意味論的クラスが爆発的なデータによつ て特徴付けられていると推定できる場合、 これは、 どれく らいの資源をネ ッ トワークが提供すべきであるかを推定する場合に、 説明されなければな らない。 第 3段階 3 1 3は、 他の実施の形態に関して後述されている。 コンテントネットワーク装置マネージャ
コンテントネッ トワーク装置 (C N D ) マネージャ 3 3 0およびトラン スコーダ 3 4 0が、 図 4においてより詳細に示されている。 C N Dマネー ジャは、 離散一連続制御 4 3 1 とコンテントネッ トワーク装置 (C N D ) インテグレ一夕 4 3 2とを含む。 トランスコーダ 3 4 0は、 複数のトラン スコーダ 4 4 1〜 4 4 3を含む。
コントロール 4 3 1は、 スィヅチ 4 5 0を使用して、 入力圧縮ビッ トス トリ一ム 3 0 1がどのようにトランスコードされるべきであるか、 例えば 離散サマリ トランスコーダ 4 4 1によるか、 連続変換トランスコーダ 4 4 2によるか、 または他のトランスコーダ 4 4 3によるか、 を決定する責任 がある。 また、 ネッ トワークコンテントマネージャは、 トランスコーダの 目標レートに動的に適応し、 ネッ トワークおよびユーザ装置の特性を制約 する資源を考慮する。 これら 2つの非常に重要な項目は、 コントロール 4 3 1によって決定される。
コントロールがいかに最適な選択決定を行うかをより理解するために、 図 5は、 レート 5 0 1および品質 5 0 2スケールに関連するレート一品質 関数をグラフで示している。 連続変換トランスコーダ 4 4 2の 1つのレー トー品質関数は、 凸関数 5 0 3によって示されている。 離散サマリ トラン スコーダ 4 4 1のレート一品質曲線は、 線形関数 5 0 4によって表されて いる。 他のトランスコーダは異なる関数を有している可能性がある。
なお、 これら曲線は、 例示の目的のためにのみ描かれているということ は留意されるべきである。 特定のトランスコーダに対する関数の真の形態 は、 コンテント、 コンテントがいかに分類されたか、 および可能性として ネッ トワークおよび装置の制約する特性の現在の状態によって、 変化する 可能性がある。 明らかに、 低ビッ ト レートでは、 連続変換トランスコーダ は、 上述した理由で品質が急速に劣化する。 最適品質関数 5 0 5は、 太線 で示されている。 この関数は、 所定のビッ トレートおよびユーザ装置に対 して達成することができる最適な品質を最もよくモデル化している。
なお、 トランスコーディング技術において、 レート = T 5 0 6に交差点 がある。 Τより大きいレートは、 連続変換トランスコーダを使用するため に最適であり、 Τより小さいレートは、 離散サマリ トランスコーダを使用 するために最適である。 当然ながら、 交差点は、 コンテントおよびネッ ト ワーク特性の変化に伴って動的に変化する。
上述したように、 連続変換トランスコーダは、 通常、 P S N R等の古典 的な歪み評価基準を想定する。 かかる測度は、 本発明による離散サマリ ト ランスコーダには適用されないため、 古典的な歪み評価基準を 「忠実性」 の測度にマッピングすることがより意味をなす。 忠実性は、 量的なビッ ト 毎の差ではなく、 コンテントがいかに適切に意味論的に要約されるかを測 定する。 同じ品質評価基準が与えられると、 最適なトランスコーディング 戦略を決定する際にいかなる矛盾の発生をも防止する。 コンテントネッ トワーク装置ィンテグレ一夕
再び図 4を参照すると、 C N Dインテグレ一夕 4 3 2は、 コンテントク ラシファイア 3 1 0からのコンテント情報 3 0 2とモデルプレディクタか らのネッ トワーク装置予測 3 2 1とを共に結合する C N Dマネージャの一 部である。 図 5に示されているレートー品質関数としてまたは他の同様の 最適化関数として表現されたモデルを生成するのは、 マネージャのこの部 分である。 最適な動作モデル 3 2 1を形成するために、 C N Dインテグレ —夕は、 コンテントクラシファイアからのマッピング C I と切換可能トラ ンスコーダ 3 4 0から出力されるビヅ トレ一トフイードバック 3 5 1 とを 検査する。 この情報を用いて、 インテグレ一夕は、 いくつかのモデルパラ メータを有する最適なモデリング関数 5 0 5を選択する。 パラメ一夕を動 的により精密にするために、 レートフィードバック 3 5 1が使用される。 ィンテグレー夕は、 選択されたモデルが最適でないことが分かった場合、 レ一トー品質関数を動的に切替えるよう決定することができる。 また、 ィ ンテグレ一夕は、 異なるオブジェク トまたは異なるビヅ トストリームに対 しいくつかの関数を追跡し、 別々にまたは一緒にそれら関数を考慮するこ とができる。 ネッ トワーク予測の影響
ネッ トワーク予測 3 2 1は、 何らかの方法で最適曲線 5 0 5のいくつか の部分を調整することにより、 これら特性関数に作用することができる。 例えば、 より高いビッ トレートが利用可能である場合、 最も注意する必要 がある。 ネッ トワークモデルにより、 特定の瞬間において多数のビッ トを 費やすことができるが、 長期の結果によって、 輻輳が急速に構築される可 能性があることが分かることにより、 本システムは、 抑制してより低いレ ートで動作し続けるよう選択することができる。 このように、 利用可能ビ ッ トレートの急降下に関連した問題の発生を防止する。 これらタイプの特 性は、 本発明によるトランスコーダの曲線を調整することによって考慮す ることができる。 装置制約の影響
また、 装置特性も考慮される必要がある。 移動型装置は据置型装置とは 異なる動作特性を有し、 例えば、 ドッブラ広がりによって高い利用可能ビ ヅ トレートで性能が劣化する可能性がある。 このため、 低いビッ トレート が選択されなければならない。 装置は、 処理、 記憶および表示能力が制限 されている可能性があり、 それらはトランスコーダに影響を与える可能性 がある。 例えば、 ビデオをオーディオのみの装置に配信しても意味がない。 事実、 切換可能トランスコーダは、 話し言葉をテキストに変換するか、 ま たはデータを話し言葉に変換する等、 他のトランスコーダ 44 3を含むこ とができる。 重要な点は、 本切換可能トランスコーダがビッ トストリーム コンテン卜の意味論および宛先装置を考慮し、 大抵の従来技術による トラ ンスコーダは単に利用可能なビヅ トレートを考慮するのみである、 という ことである。 フレームベース トランスコーダ
フレームベースでトランスコ一ディングを行う多数のトランスコーダの 詳細は、 従来技術において周知である。 例えば、 以下の米国特許出願、 す なわち第 5, 9 9 1 , / 1 6号 「Transcoder with prevention of tandem coding of speech」 、 第 5 , 9 ^ 0 , 1 3 0号 厂 Video transcoder with by-pass transfer of extracted motion compensation data」 、 第 5 , 7 6 8 , 2 78号 「1^ : 1 T r an s c o d e r」 、 第 5, 7 64 , 2 9 8号 「Digital data transcoder with relaxed internal decoder /coder interface frame jitter requirements」 、 第 5 , 5 2 6 , 3 9 7号 「 Switching transcoder」 、 第 5 , 3 3 4 , 9 7 7 号 「 ADPCM transcoder wherein different bit numbers are used in code conversionj 等の特許のいずれかを参照のこと。 これらのいずれも、 ビ ッ トス トリームの意味論的コンテントおよびネッ トワーク特性によって特 定のトランスコ一ディング戦略を選択する本発明による技術を述べていな い。 以下、 選択することができるオブジェク トベースのビッ トスト リーム トランスコーダについて述べる。 この実施の形態の重要さは、 実際のトランスコ一ディングがいかに実行 されるかではなく、 ビッ トス トリームの意味論的コンテン卜の最適な配信 を与える、 トランスコ一ディング戦略の動的な選択を可能とすることであ る。
ここまで、 連続変換トランスコーダおよび離散サマリ トランスコーダを 含む切換可能トランスコーダによって行うことができる種々の夕イブのト レードオフについて述べてきた。 これら トランスコーダの各々において、 最適なレート一品質曲線が推定される。 オブジェク トベーストランスコ一ディング
ここで、 連続変換トランスコーダのレート一品質曲線がいかにして導出 されるか、 および Q Pおよびフレームスキップの量等、 適切な符号化パラ メータがいかにして決定されるかの詳細を述べる。 また、 この作業を M P E G - 4のコンテキス卜にまで拡張する。 利用可能ビッ トレートおよび各 ビデオオブジェク トの複雑度に基づいて、 ビデオまたはシーンにおけるォ ブジェク トを適応可能にトランスコードまたはスケ一リングするフレーム ワークについて述べる。
本発明による方式は、 入力レート対出力レートの率によってレ一トを低 減するために種々の技術が採用され得るという点で、 適応性がある。 本発 明の目的は、 複雑度が変化するオブジェク 卜に対し最適な全体的品質を提 供することであるため、 各ォブジェク 卜の劣化は同じである必要はない。 なお、 上述したように、 本明細書では、 フレームではなくオブジェク トを パースする。
本システムの新規性は、 複雑度およびサイズが変化する複数のオブジェ ク トをトランスコードすることができる、 ということであるが、 より重要 なことは、 本システムが、 ビデオの全体的品質を最適化するために空間一 時間的トレードオフを行うことができる、 ということである。 柔軟性を付 加するために、 オブジェクトベースのビッ トストリームに焦点を当てる。 また、 特定のオブジェク 卜の品質を操作するために利用可能な種々の手段 について述べる。
留意すべき主な点は、 ォブジヱク ト自体が均一な品質でトランスコード される必要はない、 ということである。 例えば、 あるオブジェク トのテク スチヤデータは、 その形状情報をそのまま維持して低減することができる が、 他のオブジェク トの形状情報は、 そのテクスチャ情報をそのまま維持 して低減することができる。 また、 フレームのドロッビングを含む他の多 くの組合せを考慮することも可能である。 例えば、 ニュースクリッブにお いて、 前景のニュースキャス夕に関する情報をそのまま維持して、 背景に 対しテクスチャおよび形状ビッ トと共にフレームレートを低減することが 可能である。 オブジェク トベーストランスコ一ディングに対するビッ トストリームの PP 上述したように、 従来からのフレームベーストランスコーダは、 ビッ ト レートを十分に低減することができる。 しかしながら、 コンテントの品質 は非常に劣化する可能性があり、 ビッ トレートが低減されたビッ トストリ —ムで伝送される情報がすべて喪失する可能性がある。 慣用的に、 ビッ ト ストリーム 「品質」 は、 入力ビッ トス トリームと出力ビッ トストリームと のビッ ト毎の差として測定される。
しかしながら、 本発明によるオブジェク トベーストランスコーディング では、 ビデオ全体を操作するように制約されない。 意味のあるビデオォブ ジェク トに分解されたビッ トストリームをトランスコードする。 各ォブジ ェク トの品質と共に、 各オブジェク トの配信は、 品質に対し異なる全体的 な影響を与える、 ということが理解される。 本発明によるオブジェク 卜べ —ス方式は、 このより精細なアクセスレベルを有し、 ストリーム全体の品 質に大きく影響を与えることなく、 1つのオブジェク 卜の空間—時間的品 質のレベルを低減することが可能となる。 これは、 従来からのフレームべ ース トランスコーダによって使用されたものとはまったく異なる戦略であ る コンテン卜に関係なく ビデオ全体のビッ ト每の差を測定する従来からの ビッ トスト リーム品質とは対照的に、 「知覚的ビデオ品質 (p e r c e p t u a 1 v i d e o q u a 1 i t y ) 」 の概念を導入する。 知覚的ビ デォ品質は、 意図された情報を伝送するビデオにおけるオブジェク トの品 質に関連している。 例えば、 ビデオの背景は、 より重要な前景オブジェク 卜の知覚的ビデオ品質に影響を与えることなく完全に喪失されることが可 能である。 オブジェク トベーストランスコ一ディングフレームワーク
図 6は、 本発明の代替的な実施の形態によるオブジェク トベーストラン スコーダ 6 0 0の高レベルブロック図を示す。 トランスコーダ 6 0 0は、 デマルチプレクサ 6 0 1、 マルチプレクサ 6 0 2および出カバッファ 6 0 3を含む。 また、 トランスコーダ 6 0 0は、 制御情報 6 0 4にしたがって トランスコーディング制御ユニット (T C U ) 6 1 0によって動作される、 1つまたは複数のオブジェク トベース トランスコーダ 8 0 0を含む。 ュニ ット 6 1 0は、 形状、 テクスチャ、 時間的および空間的アナライザ 6 1 1 〜 6 1 4を含む。
トランスコーダ 6 0 0に対する入力圧縮ビットストリーム 6 0 5には、 1つまたは複数のオブジェク トベースの基本ビッ トストリームが含まれる。 オブジェク トベースビヅ トストリームは、 シリアルであってもパラレルで あってもよい。 ビッ トストリーム 6 0 5の合計ビヅ 卜レートは、 R inであ る。 トランスコーダ 6 0 0からの出力圧縮ビヅ トストリーム 6 0 6は、 R 。utく R inとなるような合計ビヅトレート R。utを有する。
マルチプレクサ 6 0 1は、 オブジェク トベーストランスコーダ 8 0 0の 各々に対し 1つまたは複数の基本ビッ トストリームを提供し、 オブジェク トベーストランスコーダ 8 0 0は、 T C U 6 1 0に対しオブジェク トデー 夕 6 0 7を提供する。 トランスコーダ 8 0 0は、 基本ビッ トストリームを スケ一リングする。 スケ一リングされたビッ トストリームは、 出力バッフ ァ 6 0 3に渡される前にマルチプレクサ 6 0 2によって構成され、 出カバ ヅファ 603から受信機に送信される。 また、 ノ ッファ 606は、 TCU に対しレートフィードバック情報 608を提供する。
上述したように、 トランスコーダ 800の各々に渡される制御情報 60 4は、 T CUによって提供される。 図 6に示されているように、 TCUは、 時間的および空間的解像度と同様にテクスチャおよび形状データの分析に 対して責任がある。 これらの新しい自由度すべてにより、 オブジェク トべ —ス トランスコーディングフレームワークがネッ トワークアプリケーショ ンに対して非常に一意でありかつ望ましいものとなる。 MPEG— 2およ び H. 263符号化規格と同様、 MPEG— 4は、 動き補償および DCT を使用してビデオの空間一時間的冗長性を活用する。 結果として、 本発明 によるオブジェク トベーストランスコーダ 800の中心は、 上述された M PEG— 2 トランスコーダの適応である。 主な違いは、 ここでは形状情報 がビッ トス トリーム内に含まれており、 テクスチャ符号化に関連して、 ブ ロック内 ( I nt ra b l o cks) の DCおよび ACを予測するため にツールが提供されている、 ということである。
また、 テクスチャのトランスコーディングが実際に形状データに依存し ている、 ということに留意することも重要である。 言い換えれば、 形状デ —夕は、 単純にパース (par s e) して取除いて無視することができな い。 すなわち、 コンプライアン卜な (c omp l i ant) ビヅ トストリ ームの構文は、 復号化された形状デ一夕によって決まる。
明らかに、 本発明によるオブジェク トベースの入力および出力ビッ トス ト リーム 601、 602は、 従来からのフレームベースのビデオプログラ ムとは完全に異なっている。 また、 MPEG— 2は、 動的なフレームスキ ッビングを可能としない。 そこでは、 通常、 GOP構造および基準フレー ムが固定されている。 テクスチャモデル
エンコーダにおけるレート制御のためのテクスチャモデルの使用は、 従 来技術において広く述べられてきた。 例えば、 V e t r o等による 「MPEG-4 rate control for multiple video objectsj 、 I E EE T r an s . o n C i r c u i t s and S s t ems f o r V i d e o T e c hno l o gy, F e b ruar 1 99 9およびその参照文献を参照のこと。
オブジェク トベーストランスコーダ 800で使用されるようなテクスチ ャモデルにおいて、 変数 Rはビデオオブジェク ト (V0) のために費やさ れるテクスチャビッ トを表し、 変数 Qは量子化パラメ一夕 QPを示し、 変 数 (X X2) は 1次および 2次モデルパラメ一夕であり、 変数 Sは差分 絶対値和等、 符号化複雑度を示す。 Rと Qとの関係は以下の式によって与 えられる。
Figure imgf000027_0001
VOに割当てられる目標のビッ 卜の量と Sの現在の値が与えられると、 Q の値は、 (X X2) の現在の値によって決まる。 VOが符号化された後、 費やされるビッ トの実際の数が知られ、 モデルパラメータを更新すること ができる。 これは、 先行する nフレームの結果を使用して線形回帰によつ て行うことができる。 テクスチャ分析
0., すなわち元の QPのセヅ トとビッ 卜の実際の数とが既に与えられて いるという点で、 トランスコーディング問題は異なる。 また、 空間的領域 から符号化複雑度 Sを計算するのではなく、 新たな D CTベースの複雑度 測度 Sを定義しなければならない。 この測度は以下のように定義される。
m C msM ι=1 ここで、 B m ( i ) はブロックの A C係数であり、 mは符号化ブロックの 集合 Mにおけるマクロプロック指数であり、 Mcはその集合におけるプロ ックの数であり、 p ( i ) は周波数依存重みである。 複雑度測度は、 A C 係数のエネルギを示し、 そこでは高周波数成分の寄与は重み関数によって 低減される。 この重み関数は、 M P E G量子化マトリクスのそれをまねる ように選択することができる。
ビッ トス トリームで送信されるデ一夕と過去のビデオオブジェク 卜から のデ一夕とから、 モデルパラメ一夕を決定することができ、 継続的に更新 することができる。 実際、 トランスコードされた V O P毎に 2回、 すなわ ち、 ビッ トストリームのデ一夕を使用してトランスコードする前に 1回、 その後 Q Pの新たな集合 ' でテクスチャを符号化した後に再び、 モデル を更新することができる。 このようにデータ点の数が増大することにより、 モデルパラメータはより頑強でかつより早く収束する。
本発明によるテクスチャ分析の主な目的は、 歪みを最小限にしながらレ —ト制約を満足させる を選択することである。 しかしながら、 最適さ は によって決まる、 ということを留意することは重要である。 したがつ て、 いかに歪みが量子化されるかに気を付けなければならない。 この点か ら、 _QJこ依存することからこの歪みを条件付き歪みと呼ぶ。
Q.' を決定する 1つの方法は、 レート制御問題で使用されるものと同じ 方法論を利用することである。 この方法では、 まず特定の瞬間ですベての V O Pのバジェヅ トを推定し、 バッファの現在のレベルを考慮するよう目 標を調整し、 各ォブジヱク トにこのビットの合計を分散させる。 これらォ ブジェク トベースの目標ビッ トレートが与えられると、 本発明によるテク スチヤモデルから Q Pの新たな集合を決定することができる。 この方法の 主な問題は、 ビッ トの分散が頑強であることをあてにする、 ということで ある。 概して、 分散は頑強でなく、 新たな Q Pは元の Q Pとは無関係に計 算されているため、 本発明による条件付き歪みを制御する能力が喪失する。 条件付き歪み この問題を克服するため、 および に依存するある方法で:^' を解くこ とを試みるため、 動的プログラミングに基づく方法を説明する。 元の品質 に可能な限り近い品質を維持するために、 各ォブジェク トの Q Pの変化は 可能な限り少なくなければならない。 これが与えられると、 条件付き歪み は以下のように定義することができる。
£>(2'! =∑ cck [D(Qk ) - D(Qk )]
te
ここで、 kは V O Pの集合 Kにおける V〇 P指数を示し、 ひ kはオブジェ ク ト kの視覚的有意性または優先度を表す。 なお、 D ( Q ) は明示的に指 定されていないが、 Qに比例することが分かっている。 視覚的有意性は、 オブジェク 卜の相対的なサイズおよび複雑度の関数とすることができる。
Q P探索空間
すべての k >に対して Q ' k≥Q kであるということを留意することは重 要である。 したがって、 解空間は、 図 7に示されている有効解空間に制限 される。 図 7において、 X軸は、 ビデオオブジェク トを示し、 7 0 1、 お よび y軸は Q Pを示す。 また、 この図は、 有効探索空間 7 1 0、 制約され た探索空間 7 1 1、 有効パス 7 1 2および無効パス 7 1 3を示す。
条件付き歪みに対する上記量子化が与えられると、 図 7のトレリスを通 して最適パスを探索することにより本問題を解決する。 図 7では、 有効 Q Pはトレリスのノードであり、 各ノードは推定されたレートおよび条件付 き歪みに関連している。 公式上、 問題は次のように示すことができる。
で BUDGET 制約された問題を制約されていない問題に収束することでこの問題が解決 する。 ここでは、 レートおよび歪みが、 ラグランジェ乗数人を介して併合 される。 あらゆる人 0に対し、 常に最適な解を見つけることができる。 レートに対する制約を満足する人の値を決定するために、 周知の 2分探索 ァルゴリズムを使用することができる。 Ramc hand r anおよび V e t t e r l i によ る 「 Best wavelet packet bases in the rate-distortion sensej 、 I E E E T r a n s . I ma g e P r o c e s s i ng, Ap r i l 1 993を参照のこと。
考慮された探索空間が、 MP EG— 2 トランスコ一ディングァルゴリズ ムで見つかるものよりも非常に小さいということを強調することは重要で ある。 そこでは、 すべてのマクロブロックに対し量子化の最適な集合を見 つける試みがなされる。 ここでは対照的に、 オブジェク トベースの量子化 のみを探索する。 このため、 本発明による方法は非常に実際的である。 時間的分析
概して、 フレームをスキップする目的は、 バッファオーバフローおよび 最終的にはパケッ トの損失が防止されるようにバッファ占有レベルを低減 することである。 フレームをスキップする他の理由は、 空間的品質と時間 的品質とのトレードオフを可能にすることである。 この方法では、 符号化 されるフレームが少なくなるが、 それらはより高品質に符号化される。 し たがって、 バッファがオーバフローする危険が無い場合、 フレームをスキ ップするための判断は Q P選択プロセスに組込まれる。
QPの集合に対し有効解空間を探索する、 QP選択のための提案された 技術から構築することで、 解空間を制約することによりこの空間一時間的 トレードオフに達成する。 図 7に示されているように、 有効パスは、 の すべての要素が制約された領域に入るものである。 これら要素の 1つがそ の領域外に出ると、 パスは空間的品質のある指定されたレベルを維持して いないということで無効である。 空間的品質は、 条件付き歪みによって暗 示される。 特定のオブジェク 卜の最大 Q Pを決定するために、 異なる基準を使用す ることができる。 例えば、 最大値は、 オブジェク ト複雑度の関数または単 に入力 Q Pのパーセンテージとすることができる。 最大値が複雑度に基づ いている場合、 トランスコーダは、 空間的品質に対するそれらの影響が最 も厳密であるため、 本質的に高い複雑度を有するそれらオブジェク トをよ り小さい Q Pに制限する。 一方、 入力 Q Pに基づく複雑度を制限すること は、 トランスコーダが最初に符号化されたビッ トストリームと同様の Q P 分散を維持する、 ということを意味する。 両方法が有効である。 各ォブジ ェク トに対し Q Pを制限する最適な方法を決定するためのトレードオフは、 空間的品質と時間的品質とのトレードオフによって決まる可能性がある。 当然ながら、 オブジェク トベースデータを扱う利点の 1つは、 あるォブ ジェク 卜の空間的品質が他と異なってよい、 ということである。 この方法 では、 例えば静止した壁等、 背景オブジェク トをスキップすることにより ビッ トを節約することができる。 しかしながら、 オブジェク トはしばしば ばらばらであるため、 あるオブジェク 卜の時間的解像度を低減することに より、 組立てられたビデオに穴がもたらされる可能性がある。 すべての V O Pが同じ時間的解像度を有するという制約を課すことにより、 この問題 を低減することができる。 形状分析
ビデオオブジェク トの形状データをトランスコードする際の問題を説明 するために、 テクスチャ情報がいかにしてトランスコ一ドされるかを想起 する。 テクスチャのためのレートは、 データの部分的復号化によって低減 することができる、 ということは周知である。 大抵の場合、 この部分的復 号化には、 少なく とも可変長復号化 (V L D ) 動作の実行が必要である。 逆量子化および逆 D C Tは、 省略することができる。
しかしながら、 形状データに対し、 これは当てはまらない。 M P E G— 4において、 形状デ一夕は、 いわゆるコンテキス トベースの算術符号化に よって各ブロック単位で符号化される。 B r a d yによる 「 MPEG- 4 standardization methods for the compression of arbitrarily shaped objects」 、 I EEE Tr an s C i r c u i t s and Sys t ems f o r Vi de o Te chno l o y, De c embe r 1999を参照のこと。 このアルゴリズム を用いて、 選択されたモードによって、 9ビヅ トまたは 10ビヅ トの因果 (c aus a l) テンプレートに基づいて、 各画素に対するコンテキス ト が計算される。 このコンテキストは、 確率ルックアップテーブルにァクセ スするために使用され、 それによつてプロック内の確率のシーケンスが算 術エンコーダを駆動する。
テクスチャとは対照的に、 画素領域とビッ トストリームとの間に中間表 現が無いため、 形状の部分的復号化は不可能である。 したがって、 形状デ
—夕の解像度を操作するために、 データは完全に復号化されなければなら ない。 復号化後、 Ve t r o等によって 1999年 10月 1日に出願され た米国特許出願第 0 9 / 4 1 0 , 5 5 2号 「 Estimating Rate- Distortion Characteristics of Binary Shape Dataj 1( ぉレ、て 述べられているようなモデルを使用して、 形状のレート一歪み特性を評価 することができる。 空間的分析
レートを低減する他の手段は、 サブサンプリングによって解像度を低減 することである。 MP E G— 4規格のバージョン 2において、 動的解像度 変換 (DRC) と呼ばれるツールが MP E G— 4規格に採用されている。 このツールを用いて、 他のより重要なまたは空間的にァクティブなォブジ ェク トの解像度を維持しながら、 あるオブジェク トの解像度、 すなわち空 間的品質を低減することが可能である。 アーキテクチャ
図 8は、 本発明によるオブジェク トベーストランスコーダ 800の構成 要素を示す。 従来技術における トランスコーディングアーキテクチャと同 様に、 符号化規格の構文は、 幾分かトランスコーダ 800のァ一キテクチ ャを述べる。 ここで、 MPEG— 4規格を鑑みて本発明による トランスコ ーダの主な特徴を述べ、 これら特徴を従来からのフレームベースのトラン スコーディングと対比させる。
トランスコーダ 800は、 VO L/VOPパーザ 8 1 0、 形状スケ一ラ 820、 MBヘッダパーザ 830、 動きパ一サ 840およびテクスチャス ケ一ラ 85 0を含む。 また、 トランスコーダは、 基本ビッ トストリーム 8 0 1のあらゆる部分をビヅ トス トリ一ムメモリ 870に転送するバス 86 0を含む。 この大域記憶域から、 基本ビッ トス ト リーム構成ユニッ ト 88 0は、 MP E G— 4規格に従うレートが低減された圧縮ビッ トストリーム を形成することができる。 出力基本ビッ トス トリーム 809は、 図 6のマ ルチプレクサに供給される。
MP EG— 4において、 各オブジェク トの基本ビッ トス トリームは、 他 のビヅ トス トリームとは無関係である。 その結果、 各オブジェクトは、 ビ デォォブジェク トレイヤ (VO L) およびビデオオブジェク トプレーン (VOP) ヘッダに関連している。 V〇Pヘッダは、 オブジェク トを符号 化するために使用された量子化パラメ一夕 (QP) を含む。 各ォブジェク トの QPは、 後に、 テクスチャ情報のモデリングおよび分析に使用される。 図 6の出力ビッ トストリーム 606を構成する時間になるまで、 他の全て のビッ トは、 ビッ トストリームメモリ 870に格納される。
他の規格と最も重大な差は、 MPEG— 4はオブジェク トの形状を符号 化することができる、 ということである。 VOPレイヤから、 VOPが形 状情報 (バイナリ) を含むか含まない (矩形) 8 1 2かが分かる。 矩形 V 〇Pである場合、 オブジェク トは単純に矩形フレームであり、 形状ビッ ト をパースする必要はない。 バイナリ形状である場合、 マクロブロックが透 明であるか否かを決定する 8 1 3必要がある。 透明なブロックは、 ォブジ ェク トの文字枠内にあるが、 オブジェク ト境界の外側にあるため、 それに 関連する動きまたはテクスチャ情報は無い。
形状スケーラ 820は、 3つの下位構成要素、 すなわち、 形状デコーダ /パーザ 82 1、 形状ダウンサンブラ 82 2および形状エンコーダ 823 からなる。 ビッ トストリームの形状情報がスケーリングされていない場合、 形状デコーダ/パ一サは、 単純に形状バーサである。 これは、 トランスコ ーダ制御ュニッ ト 6 1 0の R— D形状分析 6 1 1から受信された制御情報 604によって示される。 また、 この場合、 形状ダウンサンブラ 82 2お よび形状エンコーダ 823は、 デイスエーブルされる。 形状情報がスケー リングされている時、 形状デコーダ/パーザ 82 1は、 まず形状情報を復 号化してその画素領域表現にしなければならない。 形状のレートを低減す るために、 ブロックは、 形状ダウンサンブラ 822を用いて 2または 4の 係数によりダウンサンプルされ、 その後形状エンコーダ 8 23を用いて再 符号化されることが可能である。 変換の割合は、 R— D形状分析 6 1 1に よって決定される。 形状ビッ トが単純にパースされたかスケーリングされ たかに関わらず、 形状スケーラ 820の出力は、 ビッ トス トリームバス 8 60を介してビッ トストリームメモリ 870に転送される。
形状ビッ トと異なり、 MPE G— 4構文の残りは、 いくつかの例外をも つて MP E G— 2のそれと幾分か類似している。 マクロブロック (MB) レイヤにおいて、 符号化ブロックパターン (CBP) を含むビヅ トが存在 する。 CBPは、 マクロブロックのいずれのブロヅクが少なく とも 1つの AC係数を含むかをデコーダに通知するために使用される。 CBPは、 ビ ヅ トス トリームの構造に影響を与えるのみでなく、 イン トラ ( I n t r a) AC/D C予測にも影響を与える。 トランスコーダがこのパラメ一夕 に関係しなければならない理由は、 C B Pは D C Tブロックの再量子化に したがって変化するためである。 この理由で、 ブロックが再量子化された 後に CBPを再計算し、 すなわち、 テクスチャスケ一ラの CBP再計算ュ ニッ ト 856がこれを達成する。 ユニッ ト 856は、 ビヅ トストリームバ ス 860を介して可変長符号 (VL C) 855をビッ トス トリームメモリ 870に送信することにより、 入力ビッ トストリームに存在したヘッダを 置換える。
適切な復号化パラメ一夕を抽出するために基本ビッ トス トリームをパ一 スした後、 続けてテクスチャブロックを部分的に復号化する 8 5 1。 この プロセスの結果は、 D C Tブロック係数である。 空間的 (リサイズ) 分析 が可能である場合、 オブジェク トは、 2または 4の係数によってダウンサ ンプルすることができる。 ブロックをダウンサンプルする能力は、 トラン スコーディング制御ュニヅ ト 6 1 0によって示され、 ダウンサンプリング 係数は空間分析 6 1 4によって示される。 さらに、 このダウンサンプリン グは、 I D CT/D C T動作を避けることができるように、 D CT領域で 実行される。 Bao等に対し 1998年 1 1月 10日に発行された米国特 許第 5 , 8 5 5 , 1 5 1 号 「 Method and apparatus for down- converting a digital signalj を参照のこと。 そして、 D C Tブロ ックは、 係数メモリ 8 5 3に一時的に格納される。 このメモリから、 プロ ックは量子化器 854に送信され、 量子化器 854は、 R— Dテクスチャ 分析 6 12から送信された QPにしたがってプロックを量子化する。 それ は、 新たな目標レートに合うように本発明において述べられている技術を 用いる。
オブジェク トをスキップするために、 空間的分析 6 1 3は、 いずれのビ ヅ 卜が構成され送出されるか、 およびいずれのビッ 卜がドロップされるベ きであるかをビッ トストリ一ム構成 880ユニッ トに示す。 この方法では、 このメモリに書込むことができるビッ トストリームの部分は、 次のビデオ オブジェク トのデ一夕により単純に上書きされる。 実現および処理
特定の実施の形態に関して、 トランスコーダ 800のアーキテクチャは 1つのオブジェク トに対する構成要素を示す、 ということは留意されるべ きである。 極端な場合、 図 6に示されるように、 複数のトランスコーダに より複数のオブジェク トをスケーリングすることができる。 マルチスレヅ ド実行を考慮するソフ トウエア実現では、 これは最も有効な方法となり得 る。 ソフトウェア実現での挑戦は、 考慮されている各オブジェク トに対し 適当な量の CPU処理を割当てる、 ということである。 しかしながら、 ハードウェア実現に対しては、 場合が非常に異なる。 ノヽ 一ドウエア設計者は、 通常、 特定の機能性を操作する 1つのロジックを有 することを好む。 例えば、 ハードウェア設計は、 受信することができる最 大数の Mオブジェク トに対し M個の動きパ一サを実現するのではなく、 複 数オブジェク トが所定の瞬間にパースされることが可能であるよう、 ある 速度で動作する 1つの動きパ一サを含む。 当然ながら、 オブジェク トの数 がパーザのスループッ トを超える場合、 並列パーザを使用することも可能 である。 主な点は、 要求されるパーザの数を、 受信される総オブジェク ト より少なくすることができ、 計算が並列パーザ間に分散される、 というこ とである。 この概念は、 トランスコーダ 800のすベてのサブブロックに 対して適用される。 階層的キューレベル
ここで、 トランスコ一ディングがビデオの種々のレベルから抽出される 特徴にしたがつているシステムについて説明する。 概して、 図 9に示され ているように、 ビデオは c our s e-t o-f i n e階層 900に分割 することができる。 ビデオプログラムまたはセヅシヨン 9 10は、 階層 9 00の最高レベルであるとみなされる。 このレベルは、 同報通信ネッ トヮ ークからの 30分ニュースプログラムかまたはまる 1日分のプログラミン グを表すことができる。 プログラム 9 10は、 ショッ ト S h o t— 1 , ···, Sho t— n91 1〜9 19のシーケンスを含む。
次のレベル 920は、 ショッ トに分割される。 「ショヅ ト」 は、 グルー プォブフレーム (G0F) か、 またはグループォブビデオオブジェク トプ レーン (GOV) 92 1〜 929とすることができる。 このレベルは、 力 メラが回された時に開始しカメラがオフされるまで続くビデオのより小さ いセグメントを表す。 いかなる混乱も避けるために、 このレベルを単純に ショッ トレベル 920と呼ぶことにする。
ショッ トは、 最も基本の単位、 すなわち G〇 Fの場合はフレーム 930、 GO Vの場合はビデオオブジェク トプレーン (V〇P) 931からなる。 また、 この下に他のレベルを考慮することもでき、 それはフレームまたは
V〇 Pの下位領域 9 4 1 〜 9 4 2である。
ビデオプログラム階層 9 0 0の各レベルにおいて、 レベルの各々におけ るビデオデータに対し特徴抽出プロセス 9 0 1 〜 9 0 4を適用する。 当然 ながら、 各レベルのデータが異なる方法で配置されており、 適当な特徴が レベル毎に変化するため、 各レベルに異なる特徴抽出技術が適用される。 すなわち、 プログラムレベルの特徴は、 フレームの特徴とは異なる方法で 抽出される。
本発明のトランスコーダのコンテキストにおいて、 これらの特徴は、 ト ランスコーディングシステムに適用することができる 「ヒント」 または 「キュー」 9 0 5〜 9 0 8を表す。 これらヒントは、 意味論的であっても 構文的であってもよく、 高レベルまたは低レベルのメタデータのいずれも 表現することができる。
なお、 いかなる所定のレベルにおける トランスコ一ディングに対しても メ夕デ一夕を適用することができる、 ということは理解されなければなら ない。 概して、 ショッ トレベル等、 より高レベルのデ一夕のメタデ一夕は、 その特定のショヅ 卜についておよび他のショヅ ト間での分類、 ビッ ト割当 ておよびレート一品質を考慮する際に使用される。 この場合、 メタデータ は、 トランスコーダに対し使用が限定されているが、 全出力コンテン卜間 のトランスコーディング戦略を決定する図 3の C N Dマネージャ 3 3 0に 対して非常に有用である。 対照的に、 オブジェク トレベル等、 低レベルデ —夕のメタデータは、 かかる低レベルで出力コンテントを分類し管理する ことが困難であるため、 動的ビッ ト割当てを支援するために, トランスコ ーダ 3 4 0自体に対してより有用であることが可能である。
以下、 低レベル特徴が、 いかにクラス夕化 (分類) されレ一トー品質ト レードオフに関連する意味のあるパラメ一夕にマッピングされることがで きるか、 について説明する。 これらクラスタリング方法を説明する際に、 主にコンテントの高レベル分類に焦点を合わせるが, 低レベル分類もまた 含まれてよい。 次に、 ハイプリッ ド離散サマリおよび連続変換トランスコ ーダについて述べられている。 再び、 C N Dマネージャにおいて高レベル (ショッ トレベル) メタデータを使用することに主に焦点を当てて、 本技 術が説明されている。 しかしながら、 離散サマリ トランスコーダにおいて かかるメタデ一夕を考慮することも可能である。 最後に、 メ夕デ一夕を使 用していかにトランスコーディングを管理するかについて説明する。 述べ られているように、 これは、 管理段階およびトランスコーディング段階の 両方に等しく適用可能である。 コンテン トクラシファイア :段階 I I I
I 3に対し先に述べられているように、 コンテントクラシファイア 3 1 0の主な機能は、 アクティビティ、 ビデオ変化情報およびテクスチャ等、 コンテント特性の特徴を、 レート一品質トレ一ドオフを行うために使用す るパラメータのセヅ トにマッピングすることである。 このマツピング機能 を支援するために、 コンテントクラシファイアは、 メタデータ情報 3 0 3 もまた受け入れる。 メ夕デ一夕の例には、 新たな M P E G— 7規格によつ て指定される記述子および記述方式 (D S ) が含まれる。
コンテントクラシファイア 3 1 0の段階 I I I 3 1 3において、 かかる 低レベルメタデ一夕は、 コンテントのみに依存しているレート一品質特性 にマッピングされる。 これは、 図 1 0に示されている。 レート一品質特性 は、 図 5に示されるレート一品質関数に対し順次影響を与える。
コンテン トクラシファイア 3 1 0は、 低レベルメタデータ 3 0 3を受信 する。 段階 I 3 1 1は、 高レベルメ夕デ一夕またはクラス 1 0 0 1を抽出 する。 段階 I I 3 1 2は、 予測 3 2 1を使用して、 コンテント、 ネッ トヮ ークおよび装置依存のレート—品質 (R— Q ) 特性を決定する。 段階 I I I 3 1 3は、 低レベルメタデータのみに依存する R— Q特性 1 0 0 3を抽 出する。
例として、 M P E G— 7における動きァクティビティ記述子の空間的分 散パラメータが、 いかにして、 プログラムのビデオセグメントの同様な動 きァクティビティおよび空間的分散のカテゴリへの分類を可能にするかに ついて説明する。
ニュースプログラムを考える。 ニュースプログラムは、 総合司会者およ びさらにニュース全体に関係する種々の他のショッ トを含む。
図 1 1 (&) 〜 (1)) 、 図12及び図 13に示されている例は、 3つの ショッ ト 1 20 1〜 1203、 すなわち総合司会者ショヅ ト、 シーン上の リポ一夕ショッ トおよび警察追跡ショッ トを含むニュースプログラム 12 00を考慮している。 例を簡単にするために、 実際に適用する場合はカテ ゴリの数および種類が異なるということを理解した上で、 全ニュースプロ グラムショットを 3つのみのカテゴリに分類する。
第 1クラス 1 101は、 コンテン卜の時間的品質が空間的品質より重要 でないショッ トを表す。 第 2クラス 1 102は、 コンテントの空間的品質 がより重要であるショヅ トを表し、 第 3クラス 1 103は、 ショッ トの空 間的および時間的品質が等しく重要であるショッ トを表す。
このクラスのセッ トは、 SET— 1 1 1 10と呼ばれる。 かかるクラ スは、 明らかにレートおよび品質の特性である。 コンテントクラシフアイ ァの段階 I I I 3 13の目的は、 低レベル特徴を処理し、 これら特徴をこ れらクラスの最も適切なものにマッピングすることである。 なお、 空間的 および時間的品質の重要性は、 1〜10の基準かまたは実数間隔 0. 0〜 1. 0で評価することもできる、 ということは留意されるべきである。 これらレート一品質クラスをさらに説明するために、 図 1 1 (b) に示 されるような 3つの明確なクラスの他のセッ トを考慮する。 第 1クラス 1 12 1は、 ショッ トが圧縮するために非常に単純である、 すなわち、 所定 の歪みに対し大きい圧縮率を容易に達成することができることを示す。 第 3クラス 1 123は、 完全に反対、 すなわち、 ショッ トのコンテントが大 きい/複雑な動きかまたは空間的にァクティブなシーンのいずれかにより、 圧縮することが非常に困難であることを示す。 第 2クラス 1 122は、 第 1クラスと第 3クラスとの間のどこかである。 このクラスのセヅ トは、 S E T - 2 1 120と呼ばれる。 クラスの他のセッ ト 1 1 10と同様、 こ れらクラス 1 120もまた、 コンテント分類が、 CNDマネージャ 330 によって行われるレート—品質判断に対して与える可能性のある影響と、 切換可能トランスコーダ 3 4 0がいかに動作することができるかと、 を示 す。 上記のように、 圧縮困難性は、 数値で表す評価基準によって分類する ことができる。 なお、 他のタイプのビデオプログラムに対して他のクラス のセッ トを定義することができる、 ということは理解されるべきである。 ここまで、 レート一品質クラスの 2つの例、 すなわち S E T— 1および S E T— 2について説明した。 コンテントは、 低レベルメタデータ 3 0 3 から抽出される特徴にしたがってこれらのクラスに分類される。 以下、 こ れらクラスを動きアクティビティからいかにして導出することができるか について説明する。
大抵のニュースプログラムに対し、 総合司会者ショッ トすべてを分析す ることにより、 比較的低い動きを暗示する同様の動きァクティ ビティパラ メータが生成される、 ということが期待される。 このデータが与えられ、 S E T— 1 1 1 1 0を想定すると、 かかるコンテントを第 2クラス 1 1 0 2 (空間的品質の重要性 >時間的品質の重要性) に分類することができ. る。 さらに、 全警察追跡および同様のショヅ トすべてが、 第 1クラス 1 1 0 1 (時間的品質の重要性〉空間的品質の重要性) に分類されることを期 待することができる。 最後に、 シーン上のリポ一夕の背景アクティビティ 次第で、 このタイプのショッ トは、 3つの利用可能なクラスのうちのいず れの 1つにも分類することができる。 例の目的のために、 このショッ トは 第 3クラスに分類される。
図 1 2は、 S E T— 1の分類に従う トランスコ一ディング戦略を示す。 総合司会者ショッ ト 1 2 0 1は、 離散サマリ トランスコーダ 1 2 1 0を用 いてトランスコードされる。 図 4のブロック 4 4 1を参照のこと。 このト ランスコーダは、 ショッ ト 1 2 0 1全体を 1つのフレーム 1 2 1 1、 すな わち総合司会者の静止画像に低減する。 ショッ トの持続時間、 話している 総合司会者の全オーディオ部分が提供される。
シーンショッ ト上のリボー夕 1 2 0 2は、 見る人に対し背景の動きの意 味が失われないように、 5フレーム/秒で 1 2 2 1 フルオーディオで連続 的に変換される。
また、 警察追跡ショッ ト 1 203は、 30フレーム/秒で 1 23 1連続 的に変換される 1 230。
いかなる場合も、 コンテントクラシファイアがコンテントを記述したメ 夕データにアクセスすることができるか、 またはコンテント自体から直接 データを導出するかに関わらず、 この情報の有用性は、 CNDマネージャ が最終的に行わなければならないレート—品質トレードオフを鑑みて直接 理解することができる。
上記例と対照的に、 代りに同じプログラム 1 2 00と S E T— 2 1 1 20分類を想定した場合、 図 1 3に示されるように、 分類結果は異なって 解釈される可能性がある。 S E T— 2を使用することにより、 総合司会者 ショッ ト 1 20 1の動きが無いことにより、 セグメントは非常に容易に圧 縮することができ、 そのため、 それは S E T— 2の第 1クラス 1 1 2 1に 分類される。 このシヨッ トは、 30フレーム/秒で 1 24 1高圧縮率で連 続的に変換される 1 240。 しかしながら、 警察追跡ショヅ ト 1 203は、 高い動きを含み、 圧縮がより困難である。 したがって、 それは、 SE T— 2の第 3クラス 1 1 23に分類される。 それは、 7. 5フレーム/秒で 1 26 1連続的に変換される 1 260。 再び、 シーン上のリポ一夕を含むシ ヨッ ト 1 202の特性次第で、 それは、 3つのクラスのうちのいずれの 1 つにも入ることができる。 例の目的のために、 それは、 第 2クラス 1 1 2 2に割当てられ、 1 5フレーム/秒で 1 2 5 1連続的に変換される 1 2 5 なお、 ヒントは、 固定かまたは可変レートビッ トストリーム (CBRま たは VBR) のいずれをも生成することができる、 ということは留意され るべきである。 例えば、 分類が圧縮困難性に基づいている場合 (S E T 2 ) 、 フレームのシーケンスを圧縮する困難性に対し低フレームレートが 課されている場合、 CBRビッ トストリームが生成されることが可能であ り、 より多くのビッ トが割当てられる場合、 VBRビッ トストリームが生 成されることが可能である。 以下のパラグラフにおいて、 トランスコーディング戦略を生成するため にいかにしてこれら異なる分類を使用することができるかについて述べる。 ハイプリ ヅ ド連続変換および離散サマリ トランスコーディング
各クラスによって意味されるレ一ト一品質マツビングは、 特定のアプリ ケ一シヨンによって広く変更することができる、 ということは強調される べきである。 上記例において、 空間的および時間的品質は、 ビデオを圧縮 する困難性か、 または空間的および時間的品質に割当てられる優先度のレ ベルによって影響を受ける可能性がある。 両分類は、 低レベル特徴から導 出された。
C N Dマネージャ 3 3 0に対し、 これら分類は、 コンテントを操作する ことができる方法を示唆する。 実際には、 分類は、 考慮するシナリオの数 を大幅に低減することができる。 例えば、 C N Dマネージャが、 所定の瞬 間に複数のビッ トス トリーム (フレームまたはオブジェク ト) に対しレ一 トー品質トレードオフを考慮しなければならない場合、 C N Dマネージャ は、 連続変換と離散サマリ トランスコーディングとの間でトランスコ一デ イングの責任を分散させる最適な方法を考慮することができる。 また、 考 慮されているすべてのセグメントに対し 1つの方法を選択するのではなく、 ハイプリッ ド方式を考慮することも可能である。 プログラムの優先度か、 またはその低レベル特徴による圧縮困難性は、 かかる判断を行うために使 用することができる有用なパラメ一夕の例である。
図 1 2および図 1 3は、 S E T— 1 1 1 1 0および S E T— 2 1 1 2 0における分類が、 いかに C N Dマネージャによって決定される戦略お よびトランスコーダが元のデータを操作する方法に影響を与えるかを示し ている。 図 1 2において特に重要なのは、 ハイプリッ ド 卜ランスコ一ディ ング方式が採用されている、 ということである。
ニュースプログラム 1 2 0 0の例に戻り、 S E T— 1分類を考慮すると、 警察追跡より総合司会者ショッ 卜に低い優先度を割当てることができる。 オブジェク トベースビデオを扱っている場合、 トランスコードする別の方 法は、 前景の総合司会者よりもショッ ト 1 2 0 1の背景に対しより低い優 先度を割当てる、 ということである。 これはすべて、 例えば、 オブジェク トレベル動きァクティビティパラメ一夕の分類を通して達成することがで きる。
ここでは、 動きアクティビティを用いてこれら概念を示した。 しかしな がら、 形状パラメ一夕、 テクスチャ情報等、 他の低レベル特徴または M P E G _ 7記述子もまた用いられることが可能である、 ということは理解さ れるべきである。 低レベル特徴は、 個々に考慮されるか組合せで考慮され るかに関わらず、 ビデオコンテントを C N Dマネージャおよびトラジスコ ーダを支援する意味のあるパラメ一夕に有効にクラスタ化および分類する ために使用することができる。
C N Dクラシファイア 3 1 0および C N Dマネージャ 3 3 0が、 図 6の T C U 6 1 0と矛盾するように見えるが、 これは事実そうではない。 クラ シファイアおよび C N Dマネージャは, トランスコーダ 3 4 0に対し最適 な戦略を予め選択しょうとする。 マネージャからこの戦略および命令が与 えられると、 トランスコーダは、 可能な最適な方法でコンテントを操作す る責任がある。 結局、 トランスコーダは、 誤った予測かまたは C N Dマネ ージャによる選択された戦略により、 要求を満たさない場合があり、 さら に空間的分析等、 かかる状況に対処するためのメカニズムを必要とする。 したがって、 T C Uにおいて、 メ夕デ一夕がまた使用することができる。 しかしながら、 T C Uに対するメタデータの目的は、 クラシファイアおよ び C N Dマネージャに対するものとは異なっている。 トランスコ一ディングに対するメタデータの影響
メ夕デ一夕がトランスコ一ディングに影響を与えることができる 2つの 方法がある。 両方とも上述されているビッ ト割当て問題に直接関連してい る。 第 1の方法は、 戦略、 および最終的には離散サマリおよび連続変換ト ランスコーダ 4 4 1〜4 4 2によって提供される機能をいかに使用するか に対する判断、 を導出するためにビッ ト割当てが使用される、 C N Dマネ —ジャ 3 3 0におけるものである。 この方法では、 判断を行うために図 5 のレート—品質関数が使用される。 第 2の方法は、 トランスコーダ 3 4 0 自体におけるものである。 再び、 推定のためにメタデ一夕が使用されるが、 戦略の判断を行うのではなく、 ビッ トレー卜の目的を満たすために使用す ることができる符号化パラメ一夕に対するリアルタイムの判断を行うため に、 メタデータが使用される。 この方法では、 トランスコーダが図 5の最 適なレート一品質関数を達成するよう、 符号化パラメ一夕が選択される。 概して、 低レベルおよび高レベルメタデータは、 離散サマリおよび連続 変換トランスコ一ディングを実行するためのヒントを提供する。 これらヒ ントは、 C N Dマネージャとトランスコーダとの両方に対して有用である。 例示するために、 まず、 コンテントに関連する高レベル意味論的情報を考 慮する。 意味論的情報は、 自動的にかまたはマニュアルでの注釈により、 コンテントに関連付けられることが可能である。
データベースが多数のビデオプログラムを格納する場合を考える。 ビデ ォは、 種々のカテゴリ、 例えば 「アクション」 のレベルにしたがって格付 けされる。 複数のユーザが種々のショヅ トを同時に要求するアプリケーシ ヨンにおいて、 C N Dマネージャ 3 3 0は、 各ショッ トに対しどれだけの レートが割当てられるかを決定しなければならない。 離散サマリ トランス コーダ 4 4 1では、 このレートは、 送信されるフレームの数に対応するこ とができ、 連続変換トランスコーダ 4 4 2では、 レートは許容可能な目標 フレ一ムレ一トに対応することができる。 ァクションのレベルが時間的ァ クテイビティのあるレベルを示す場合、 ビッ トは、 コンテントの記述にし たがってフレームシーケンス毎に割当てることができる。 高アクションの ショッ トに対し、 C N Dマネージャは、 連続変換トランスコーダでは予め 決められたレベルより低いフレームレートが許容不可能であるということ と、 離散サマリ トランスコーダによってコンテントを要約することにより、 より良い品質のショッ トを配信することが可能であるということと、 を決 定する。
離散サマリ トランスコーダ内で、 妥当なレベルの知覚的品質に達するた めに許容可能なフレームの数もまた考慮することができる。 低レベル動き ァクティビティ記述子に戻ると、 低動き強度を意味する関連するァクティ ビティパラメ一夕を有するビデオシーケンスは、 高動き強度を意味するァ クテイビティパラメータを有するそれらショッ トより少ないフレームで要 約することができる、 ということが推論され得る。 これに対する拡張とし て、 かかるビッ ト割当てをォブジェク トレベルで同様に適用することがで きる、 ということが容易に理解される。 低レベルメタデータからの高レベルメタデータの生成
低レベルメタデータから高レベルメタデ一夕を生成するプロセスは、 メ 夕デ一夕符号化として定義することができる。 かかる符号化プロセスは, 本発明による トランスコ一ディングシステムのコンテントクラシファイア における段階 I 3 1 1において考慮することができる。
さらに、 この高レベル生成プロセスは、 スタンドアロンシステムにおい て使用することができる。 かかるスタンドアロンシステムの例は、 MPE G- 7規格によって指定される記述方式をィンスタンス化するシステムで ある。 かかるシステムを、 MP E G— 7高レベルメ夕デ一夕エンコーダと 呼ぶことができる。
現行の MP EG— 7ワーキングドラフトにおいて、 種々のタイプのメタ データに対するプレースホルダである高レベル記述方式がある。 なお、 規 格の規範的 (no rma t i ve) 部分は、 実現に不可欠な要件を明示的 に定義し、 参考情報 ( i nf o rma t i v e) 部分は可能性のある技術 かまたは何かを行う 1つの方法を提案するのみである、 ということは留意 されるべきである。 MPEG— 2において、 適切な動きベク トルかまたは 量子化パラメータを泱定することは、 エンコーダの問題であり、 そのため 規格の参考情報部分であると考えられる。 規格は、 動きベク トルのための 可変長符号化 (VL C) テーブルと量子化パラメ一夕のための 5ビッ トフ ィ一ルドとを指定する。 これらフィールドがいかにして使用されるかは、 厳密にエンコーダの問題であり、 規格、 ゆえに参考情報部分には関係がな レ 0 MP E G- 7において、 種々の記述方式の規範的フィ一ルドおよび参考 情報フィールドは、 同様の状況にある。 それらフィールドは指定されてい るが、 これらフィ一ルドに対しどのようにデータを生成するかは参考情報 である。 トランスコーディングおよび要約に対し、 追加の記述子方式とし て、 MP E G— 7ワーキングドラフ 卜において指定された種々の記述方式、 例えばサマリ (S umma r y ) D S、 バリエーション ( V a r i a t i o n) D S、 階層的サマリ (H i e r a r c h i c a l Summa r y) D S、 ハイライ トセグメント (H i gh l i gh t S e gme nt) D S、 クラスタ (C l u s t e r) D Sおよびクラシファイア (C l a s s i f i e r ) D Sを考慮する。 I S O/I E C J T C N 3 1 1 3、 「MP EG— 7 Mu l t ime d i a D e s c r i p t o r S c heme s WD」、 D e c emb e r 1 999を参照のこと。
例えば、 コンテントブラウジングおよびナビゲ一シヨンのために最初に 使用されるコンテン トの視覚的抽象を指定するために、 サマリ D Sが使用 され、 コンテン卜のバリエーションを指定するためにバリエーション D S が使用される。 概して、 バリエーションは, 多数の方法で生成することが でき、 元のデータの訂正および操作を反映する。 しかしながら、 サマリ D Sおよびバリエーション D S等の記述方式は、 コンテン卜のバリエーショ ンをいかに要約または生成するかを記述しない。
これら記述方式は、 単に、 要約されたコンテントまたはバリエーション データの 「特性 (p r o p e r t y) 」 、 「どこで (whe r e) 」 コン テントを見つけることができるか、 およびそれに対して 「何の (wh a t ) 」 動作を行うことができたか、 等に関する情報をシステムに提供する、 情報のタグまたはフィールドを含む。 これは、 送信に先立ってすべての操 作が行われていることを意味する。 かかるフィールドが存在する場合、 マ ネージャには、 利用可能な要約かまたは関連する特性を有する事前トラン スコードされたデータのリストが渡されるため、 C N Dマネージャのタス クは簡略化される。
簡略化された C NDマネージャおよびトランスコーダ等、 この情報を利 用可能とすることに利点があるが、 2つの主な問題がある。 第 1の主な問 題は、 元のビデオに対するいかなる要求にも先立って、 これらバリエーシ ヨンが生成されなければならない、 ということである。 その結果、 コンテ ントの複数のバリエーションを生成することに関連する遅延が長過ぎるた め、 リアルタイム送信はオプションではない。 第 2の主な問題は、 ネッ ト ワーク特性がある期間で変化する可能性がある、 ということである。 した がって、 現ネヅ トワーク状態の元である瞬間に特定の事前トランスコード されたバリエーションを選択することは、 持続時間全体に亙って持続する ことができない。
これら欠点にも関わらず、 規格は、 これら記述方式においてフィールド をいかにして満たすかを指定しない。 これらは、 M P E G— 7規格に対す るエンコーダ問題である。
非リアル夕ィム送信アプリケ一シヨンを想定し、 低レベル記述子を用い て記述方式構文における高レベルフィ一ルドのコンテントを生成するシス テムについて述べる。 コンテントのバリェ一ション
本質的に、 リアルタイムトランスコーディ ングに対して使用される同じ 方法は、 特定のビデオのサマリおよびバリエーションを生成するためにも 使用することができる。 オフラインで、 種々のネッ トワーク状態をシミュ レートすることができ、 プログラムコンテントを種々のシミュレートされ た状態にしたがってトランスコードすることができる。 結果として得られ るコンテントは、 データベースに格納することができる。 この事前トラン スコーディングを実行する際に、 利用可能な帯域幅等、 ネッ トワーク状態 のみが留意されるべきではなく、 システムは、 データが操作される方法も また留意しなければならない。 このタイプの情報は、 記述方式のフィ一ル ドを占めることになる。 ビデオプログラムに対する高レベルヌ夕デ一タエンコーダ 対応する記述方式の関連するインスタンス化と共にサマリおよびバリエ ーションデータを生成するエンコーダの一例が、 図 1 4に示されている。 エンコーダの構成要素は、 図 3の適応可能トランスコ一ディングシステム
3 0 0のそれらと似ている。 しかしながら、 エンコーダは、 トランスコ一 ディング中にリアルタイムで送受信するようネッ トワークに接続されてい ないという点で異なっている。 代りに、 エンコーダは、 ビデオが格納され るデータベースに接続されている。 エンコーダは、 後のリアルタイム配信 のために、 オフラインでビデオの種々のバージョンを生成する。
図 1 3に示されているように、 適応可能ビットストリームビデオ配信シ ステム 1 3 0 0は、 5つの主な構成要素、 すなわちコンテントクラシファ ィァ 1 3 1 0、 ネッ トワーク装置 (N D ) ジェネレータ 1 3 2 0、 C N D マネージャ 1 3 3 0、 切換可能トランスコーダ 1 3 4 0および D Sインス 夕ンテイエ一夕 1 3 5 0を含む。 システム 1 3 0 0は、 データベース 1 3
6 0に接続された入力および出力を有している。 また、 システム 1 3 0 0 は、 ネヅ トワークおよびデータベース 1 3 6 0に接続されたセレクタ 1 3
7 0も含んでいる。
配信システム 1 3 0 0の目的は、 元の圧縮されたビッ トスト リーム (ビ デオイン) 1 3 0 1からバリエーションおよび/またはサマリビヅ トス ト リーム 1 3 0 8を生成することである。 ビッ トストリームのコンテントは、 ビジュアル、 オーディオ、 テキスト、 自然、 合成、 プリミティブ、 デ一夕、 複合またはそれらの組合せであってよい。
上述されているように、 ビデオ配信システム 1 3 0 0は、 適応可能トラ ンスコーダシステム 3 0 0に似ている。 主な違いは、 それが図 3のネヅ ト ワーク 3 5 0を介してユーザ装置 3 6 0に接続されておらず、 トランスコ ーデイ ングがリアルタイムで実行されない、 ということである。 N Dジェ ネレ一夕 1 3 5 0は、 装置およびネッ トワークの置換えを行う。
本質的に、 ジェネレータは、 リアルタイム動作に存在するようなネッ ト ワークおよび装置 (N D ) 制約をシミュレートする責任がある。 例えば、 N Dジェネレータは、 6 4 k b p s、 1 2 8 k b p sおよび 5 1 2 k b p sの C B Rチャネルかまたは V B Rチャネルをシミュレートすることがで きる。 さらに、 ジェネレータは、 利用可能な帯域幅が低減されているチヤ ネルをシミュレートすることができる。 この損失は、 線形であっても、 方 形であっても、 非常に鋭利であっても良い。 他の多くの典型的な状態を同 様に考慮することができ、 状態によっては、 表示能力の制限等、 ユーザ装 置の制約に関連することができる。
これら種々の状態の各々は、 元の入力ビデオ 1 3 0 1の異なるバリエー シヨンをもたらす可能性がある。 本質的に、 データベースは、 入力ビッ ト ス トリーム 1 3 0 1の非常に多くのバリエーションを格納することになり、 それにより、 将来的に、 あるリアルタイム動作状態に対するビッ トス ト リ —ムがダウンストリームトランスコーダに容易に利用可能となる。 ノ リエ ーシヨンビッ トストリームは、 C B Rと V B Rの両方であることが可能で ある。
N Dジェネレータ 1 3 2 0の目的は, 種々のネッ トワーク装置状態をシ ミュレ一卜することと、 これら状態にしたがって自動的に元のコンテント
1 3 0 1のバリエーション /ザマリ 1 3 0 8を生成することと、 である。 これを行っている間、 システムは、 対応する記述方式 1 3 0 9のインス夕 ンス化も行う。 記述方式 (例えば、 バリエーション D Sおよびサマリ D S ) のフィールドが、 ノ リエ一シヨンビッ トス ト リーム 1 3 0 8の特性お よびそれを操作するために課された方法によって満たされる必要があるた め、 C N Dマネージャは、 この情報を D Sインスタンティエー夕 1 3 5 0 に渡さなければならない。 バリエーションがインスタンス化された後、 対 応する記述方式が、 例えば上述されているようなリアルタイムトランスコ —ダ 3 0 0により、 アクセスされ使用されることが可能となる。 レー ト 一品質関数
図 1 5に示されているように、 システム 1 3 0 0によって生成されるバ リエーシヨンおよび/またはサマリ 1 3 0 8は、 最適なレート—品質関数
1 4 0 1に対する点 V ( 1 ) 、 ···、 V ( 5 ) の部分集合である。 図 1 5に おいて、 有限数の点が示されている。 これら点は、 特定のバリエーション に対する最適な動作点を表している。 各バリエーションは、 関連するイン スタンス化された記述方式 (D S ) 1 3 0 9を有している。 バリエ一ショ ンビッ トス ト リーム 1 3 0 8とィンスタンス化された記述方式 1 3 0 9は 両方とも、 元のビデオストリ一ム 1 3 0 1 と共にデータべ一ス 1 3 6 0に 格納される。
典型的なアプリケ一シヨンにおいて、 システム 1 3 0 0のセレクタ 1 3 7 0は、 特定のビデオプログラムに対する要求を受信する。 これに応じて、 セレクタは、 データベース 1 3 6 0に格納された利用可能なバリエ一ショ ンおよび関連する D Sに関する情報を提供する。 トランスコーダ 3 0 0の C N Dマネージャは、 この事前トランスコ一ドされたデータを利用する。 高レベルメタデータにより、 トランスコーダは、 要求されたビデオの特定 のバリエーションに現リアルタイムネッ トワークおよび装置制約を関連付 けることができる。 適切な一致が見つかった場合、 C N Dマネージャは、 セレクタにより特定のバリエーションがネヅ トワーク 3 5 0に亙って送信 されるよう要求する。 適切な一致が見つかった場合、 トランスコーダ 3 4 0はバイパスモードで動作することができる。 近似した一致が見つかった 場合、 トランスコーダ 3 4 0は、 より効率的に動作することができる。
産業上の利用可能性
'これは、 ただの 1つの実際的な例のアプリケーションである。 現ネッ ト ワークおよび装置制約との一致を増加させるために、 すでに操作されたビ ッ トス トリーム 1 3 0 8をさらに操作し変更することもまた可能である。 これは、 最も一般的な状態のいくつかをカバ一するわずかな数の事前トラ ンスコードされたビットストリームを生成することに対する、 非常に広範 囲の状態をカバ一する多数の事前トランスコードされたビッ トストリーム を生成すること、 の問題となる。 概して、 緩和された時間制約の元での配 信システム 1 3 0 0によるトランスコーディングにより、 より品質の良い ビデオがもたらされるため、 各方法から種々のレベルの品質を期待するこ とができる。
本発明は、 好ましい実施の形態の例として述べられてきたが、 本発明の精神お よび範囲内で他の種々の適用および変更を行うことが可能である、 ということは 理解されなければならない。 したがって、 添付の特許請求の範囲の目的は、 本発 明の真の精神および範囲内にあるバリエーションおよび変更すベてをカバ一する ことである。

Claims

青 求 の 範 囲
1 . 圧縮ビデオをトランスコードする方法であって、
該圧縮ビデオを複数の階層レベルに分割するステップと、
該複数の階層レベルの各々から特徴を抽出するステップと、
該複数の階層レベルの各々から抽出された該特徴によってトランスコーダの複 数の変換モードのうちの 1つを選択するステップと、
該選択された変換モードにしたがって前記圧縮ビデオをトランスコードするス テツプと
を備えた圧縮ビデオのトランスコーディング方法。
2 . 前記複数の階層レベルは、 プログラムレベルと、 ショットレベルと、 フ レ一ムレベルと、 下位領域レベルとを含んでいることを特徴とする請求項 1記載 の方法。
3 . 前記フレームレベルは、 ビデオオブジェクトプレーンを含んでいること を特徴とする請求項 1記載の方法。
4 . 前記特徴は、 前記圧縮ビデオの意味論および文章論に依存することを特 徴とする請求項 1記載の方法。
5 . 前記圧縮ビデオは、 低レベルメ夕デ一夕を含み、
該ビデオのコンテントによつて該低レベルメタデータをレ一トー品質特个生にマ ヅビングするステップ
をさらに備えていることを特徴とする請求項 1記載の方法。
6 . 前記レート一品質特性は、 複数のクラスに分割されることを特徴とする 請求項 5記載の方法。
7 . 空間的品質が時間的品質より低い第 1クラスと、 空間的品質が時間的品 質より高い第 2クラスと、 空間的品質が時間的品質と等しい第 3クラスとを備え たことを特徴とする請求項 6記載の方法。
8 . 前記第 1クラスのコンテントは、 離散サマリ トランスコーダによってト ランスコードされ、 前記第 2クラスのコンテントは、 連続変換トランスコーダに よって相対的に低いフレームレートでトランスコードされ、 前記第 3クラスのコ ンテントは、 該連続変換トランスコーダによって相対的に高いフレームレートで トランスコードされることを特徴とする請求項 7記載の方法。
9 . 前記相対的に低いフレームレートは、 1 0フレーム/秒より低く、 前記 相対的に高いフレームレートは、 2 0フレーム/秒より高いことを特徴とする請 求項 8記載の方法。
1 0 . コンテントの圧縮が容易である第 1クラスと、 コンテントの圧 縮が中程度に困難な第 2クラスと、 コンテン卜の圧縮が困難である第 3ク ラスとを含んでいることを特徴とする請求項 6記載の方法。
1 1 . 前記第 1クラスのコンテントは、 連続変換トランスコーダによって相 対的に高いフレームレートでトランスコ一ドされ、 前記第 2クラスのコンテント は、 連続変換トランスコーダによって中程度なフレームレートでトランスコード され、 前記第 3クラスのコンテントは、 該連続変換トランスコーダによって相対 的に低いフレームレートでトランスコードされることを特徴とする請求項 1 0記 載の方法。
1 2 . 前記相対的に高いフレームは、 2 0フレーム/秒より高く、 前記中程 度なフレームレートは、 2 0と 1 0の間のフレーム/秒であり、 相対的に低いフ レームレートは、 1 0フレーム/秒より低いことを特徴とする請求項 1 1記載の 方 。
1 3 . 前記低レベルメタデ一夕は、 前記ビデオのコンテントの優先度に基づ いていることを特徴とする請求項 5記載の方法。
1 4 . 前記低レベルメ夕デ一夕は、 前記ビデオのコンテントの形状パラメ一 夕に基づいていることを特徴とする請求項 5記載の方法。
1 5 . 前記低レベルメタデ一夕は、 前記ビデオのコンテントのテクス チヤに基づいていることを特徴とする請求項 5記載の方法。
1 6 . 前記低レベルメタデ一夕は、 前記ビデオのコンテントの動きァクティ ビティに基づいていることを特徴とする請求項 5記載の方法。
1 7 . 前記低レベルメタデ一夕は、 前記ビデオのコンテントの D C T係数に 基づいていることを特徴とする請求項 5記載の方法。
18. 高レベルメタデータは、 低レベルメタデータから符号化されることを 特徴とする請求項 5記載の方法。
19. 前記複数のクラスは、 数値評価基準でランク付けされることを特徴と する請求項 6記載の方法。
20. 前記トランスコーディングは、 CBRビッ トストリームを生成 することを特徴とする請求項 1記載の方法。
21. 前記トランスコーディングは、 VBRビットストリームを生成するこ とを特徴とする請求項 1記載の方法。
22. 前記低レベルメタデ一夕から記述子方式を生成するステップと、 前記記述子方式にしたがって前記圧縮された入力ビットストリームのバリエ一 シヨンを生成するステップと
をさらに備えたことを特徴とする請求項 1記載の方法。
23. 前記トランスコーディングは、 前記階層レベルの選択された 1つから 抽出される特徴に基づいていることを特徴とする請求項 1記載の方法。
24. 前記特徴は、 空間的重要性に依存することを特徴とする請求項 23記 載の方法。
25. 前記特徴は、 時間的重要性に依存することを特徴とする請求項 23記載の方法。
2 6. 前記特徴は、 圧縮困難性に依存することを特徴とする請求項 2 3記載の方法。
PCT/JP2001/002354 2000-04-11 2001-03-23 Transcoding of compressed video WO2001078398A1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2001575722A JP4650868B2 (ja) 2000-04-11 2001-03-23 圧縮ビデオのトランスコーディング方法
EP01915736A EP1195992A1 (en) 2000-04-11 2001-03-23 Transcoding of compressed video

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/547,159 2000-04-11
US09/547,159 US6574279B1 (en) 2000-02-02 2000-04-11 Video transcoding using syntactic and semantic clues

Publications (1)

Publication Number Publication Date
WO2001078398A1 true WO2001078398A1 (en) 2001-10-18

Family

ID=24183560

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2001/002354 WO2001078398A1 (en) 2000-04-11 2001-03-23 Transcoding of compressed video

Country Status (5)

Country Link
US (1) US6574279B1 (ja)
EP (1) EP1195992A1 (ja)
JP (1) JP4650868B2 (ja)
CN (1) CN1366775A (ja)
WO (1) WO2001078398A1 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1488628A2 (en) * 2001-12-28 2004-12-22 Nokia Corporation Method and apparatus for selecting macroblock quantization in a video encoder
JPWO2004093457A1 (ja) * 2003-04-10 2006-07-13 日本電気株式会社 動画像圧縮符号化方式変換装置及び動画像通信システム
JP2008533841A (ja) * 2005-03-10 2008-08-21 クゥアルコム・インコーポレイテッド マルチメディア処理のためのコンテンツ分類
US8654848B2 (en) 2005-10-17 2014-02-18 Qualcomm Incorporated Method and apparatus for shot detection in video streaming
US8780957B2 (en) 2005-01-14 2014-07-15 Qualcomm Incorporated Optimal weights for MMSE space-time equalizer of multicode CDMA system
US8879856B2 (en) 2005-09-27 2014-11-04 Qualcomm Incorporated Content driven transcoder that orchestrates multimedia transcoding using content information
US8948260B2 (en) 2005-10-17 2015-02-03 Qualcomm Incorporated Adaptive GOP structure in video streaming
US9131164B2 (en) 2006-04-04 2015-09-08 Qualcomm Incorporated Preprocessor method and apparatus

Families Citing this family (86)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7484172B2 (en) * 1997-05-23 2009-01-27 Walker Digital, Llc System and method for providing a customized index with hyper-footnotes
US20010047517A1 (en) * 2000-02-10 2001-11-29 Charilaos Christopoulos Method and apparatus for intelligent transcoding of multimedia data
JP2001339460A (ja) * 2000-05-26 2001-12-07 Matsushita Electric Ind Co Ltd デジタル送受信装置
FR2813484A1 (fr) * 2000-08-31 2002-03-01 Koninkl Philips Electronics Nv Traitement de donnees en une serie temporelle d'etapes
JP2002152759A (ja) * 2000-11-10 2002-05-24 Sony Corp 画像情報変換装置および画像情報変換方法
KR100433516B1 (ko) * 2000-12-08 2004-05-31 삼성전자주식회사 트랜스코딩 방법
US6925501B2 (en) * 2001-04-17 2005-08-02 General Instrument Corporation Multi-rate transcoder for digital streams
US7734997B2 (en) * 2001-05-29 2010-06-08 Sony Corporation Transport hint table for synchronizing delivery time between multimedia content and multimedia content descriptions
CN1286326C (zh) * 2001-05-31 2006-11-22 佳能株式会社 信息存储设备及其方法
JP2003087785A (ja) * 2001-06-29 2003-03-20 Toshiba Corp 動画像符号化データの形式変換方法及び装置
JP3866538B2 (ja) * 2001-06-29 2007-01-10 株式会社東芝 動画像符号化方法及び装置
US20030105880A1 (en) * 2001-12-04 2003-06-05 Koninklijke Philips Electronics N.V. Distributed processing, storage, and transmision of multimedia information
DE10218812A1 (de) * 2002-04-26 2003-11-20 Siemens Ag Generische Datenstrombeschreibung
FR2842983B1 (fr) 2002-07-24 2004-10-15 Canon Kk Transcodage de donnees
US7292574B2 (en) * 2002-09-30 2007-11-06 Intel Corporation Automated method for mapping constant bit-rate network traffic onto a non-constant bit-rate network
US7042943B2 (en) 2002-11-08 2006-05-09 Apple Computer, Inc. Method and apparatus for control of rate-distortion tradeoff by mode selection in video encoders
US7194035B2 (en) * 2003-01-08 2007-03-20 Apple Computer, Inc. Method and apparatus for improved coding mode selection
US7606305B1 (en) * 2003-02-24 2009-10-20 Vixs Systems, Inc. Method and system for transcoding video data
US7327784B2 (en) * 2003-02-24 2008-02-05 Vixs Systems, Inc. Method and system for transcoding video data
US9612965B2 (en) * 2003-06-24 2017-04-04 Hewlett-Packard Development Company, L.P. Method and system for servicing streaming media
KR20060127022A (ko) * 2004-01-05 2006-12-11 코닌클리케 필립스 일렉트로닉스 엔.브이. 코딩 방법 및 대응하는 코딩된 신호
US20050175099A1 (en) * 2004-02-06 2005-08-11 Nokia Corporation Transcoder and associated system, method and computer program product for low-complexity reduced resolution transcoding
KR20050090841A (ko) * 2004-03-10 2005-09-14 엘지전자 주식회사 비트율 제어 방법
KR101196429B1 (ko) * 2004-03-12 2012-11-01 삼성전자주식회사 동영상 트랜스코딩 방법 및 그 장치, 이에 사용되는움직임 벡터 보간방법
US7983835B2 (en) 2004-11-03 2011-07-19 Lagassey Paul J Modular intelligent transportation system
US7818444B2 (en) 2004-04-30 2010-10-19 Move Networks, Inc. Apparatus, system, and method for multi-bitrate content streaming
WO2006000887A1 (en) * 2004-06-23 2006-01-05 Nokia Corporation Methods, systems and computer program products for expressing classes of adaptation and classes of content in media transcoding
US8406293B2 (en) 2004-06-27 2013-03-26 Apple Inc. Multi-pass video encoding based on different quantization parameters
US8005139B2 (en) 2004-06-27 2011-08-23 Apple Inc. Encoding with visual masking
FR2879387B1 (fr) * 2004-12-15 2007-04-27 Tdf Sa Procede de transmission a debit binaire variable a travers un canal de transmission.
US7974193B2 (en) 2005-04-08 2011-07-05 Qualcomm Incorporated Methods and systems for resizing multimedia content based on quality and rate information
US8208536B2 (en) * 2005-04-28 2012-06-26 Apple Inc. Method and apparatus for encoding using single pass rate controller
JP4839035B2 (ja) * 2005-07-22 2011-12-14 オリンパス株式会社 内視鏡用処置具および内視鏡システム
JP4921476B2 (ja) 2005-09-28 2012-04-25 テレフオンアクチーボラゲット エル エム エリクソン(パブル) メディアコンテンツの管理
US20070160134A1 (en) * 2006-01-10 2007-07-12 Segall Christopher A Methods and Systems for Filter Characterization
US8582905B2 (en) * 2006-01-31 2013-11-12 Qualcomm Incorporated Methods and systems for rate control within an encoding device
US20070201388A1 (en) * 2006-01-31 2007-08-30 Qualcomm Incorporated Methods and systems for resizing multimedia content based on quality and rate information
US8014445B2 (en) * 2006-02-24 2011-09-06 Sharp Laboratories Of America, Inc. Methods and systems for high dynamic range video coding
US8194997B2 (en) * 2006-03-24 2012-06-05 Sharp Laboratories Of America, Inc. Methods and systems for tone mapping messaging
US8532176B2 (en) * 2006-07-10 2013-09-10 Sharp Laboratories Of America, Inc. Methods and systems for combining layers in a multi-layer bitstream
US7885471B2 (en) * 2006-07-10 2011-02-08 Sharp Laboratories Of America, Inc. Methods and systems for maintenance and use of coded block pattern information
US8059714B2 (en) * 2006-07-10 2011-11-15 Sharp Laboratories Of America, Inc. Methods and systems for residual layer scaling
US8422548B2 (en) * 2006-07-10 2013-04-16 Sharp Laboratories Of America, Inc. Methods and systems for transform selection and management
US7840078B2 (en) * 2006-07-10 2010-11-23 Sharp Laboratories Of America, Inc. Methods and systems for image processing control based on adjacent block characteristics
US7535383B2 (en) * 2006-07-10 2009-05-19 Sharp Laboratories Of America Inc. Methods and systems for signaling multi-layer bitstream data
US8130822B2 (en) * 2006-07-10 2012-03-06 Sharp Laboratories Of America, Inc. Methods and systems for conditional transform-domain residual accumulation
US8761248B2 (en) * 2006-11-28 2014-06-24 Motorola Mobility Llc Method and system for intelligent video adaptation
US8804829B2 (en) * 2006-12-20 2014-08-12 Microsoft Corporation Offline motion description for video generation
US7826673B2 (en) * 2007-01-23 2010-11-02 Sharp Laboratories Of America, Inc. Methods and systems for inter-layer image prediction with color-conversion
US8665942B2 (en) 2007-01-23 2014-03-04 Sharp Laboratories Of America, Inc. Methods and systems for inter-layer image prediction signaling
US8503524B2 (en) * 2007-01-23 2013-08-06 Sharp Laboratories Of America, Inc. Methods and systems for inter-layer image prediction
US8233536B2 (en) 2007-01-23 2012-07-31 Sharp Laboratories Of America, Inc. Methods and systems for multiplication-free inter-layer image prediction
US8411734B2 (en) 2007-02-06 2013-04-02 Microsoft Corporation Scalable multi-thread video decoding
US7760949B2 (en) 2007-02-08 2010-07-20 Sharp Laboratories Of America, Inc. Methods and systems for coding multiple dynamic range images
WO2008114306A1 (ja) * 2007-02-19 2008-09-25 Sony Computer Entertainment Inc. コンテンツ空間形成装置、その方法、コンピュータ、プログラムおよび記録媒体
US8767834B2 (en) 2007-03-09 2014-07-01 Sharp Laboratories Of America, Inc. Methods and systems for scalable-to-non-scalable bit-stream rewriting
US8265144B2 (en) 2007-06-30 2012-09-11 Microsoft Corporation Innovations in video decoder implementations
US9648325B2 (en) 2007-06-30 2017-05-09 Microsoft Technology Licensing, Llc Video decoding implementations for a graphics processing unit
US8290036B2 (en) * 2008-06-11 2012-10-16 Optibase Technologies Ltd. Method, apparatus and system for concurrent processing of multiple video streams
US8311115B2 (en) 2009-01-29 2012-11-13 Microsoft Corporation Video encoding using previously calculated motion information
US8396114B2 (en) 2009-01-29 2013-03-12 Microsoft Corporation Multiple bit rate video encoding using variable bit rate and dynamic resolution for adaptive video streaming
US8270473B2 (en) 2009-06-12 2012-09-18 Microsoft Corporation Motion based dynamic resolution multiple bit rate video encoding
FR2954035B1 (fr) * 2009-12-11 2012-01-20 Thales Sa Procede d'estimation de la qualite video a une resolution quelconque
US20130039303A1 (en) * 2010-02-11 2013-02-14 Sony Corporation Mapping apparatus and method for transmission of data in a multi-carrier broadcast system
US8705616B2 (en) 2010-06-11 2014-04-22 Microsoft Corporation Parallel multiple bitrate video encoding to reduce latency and dependences between groups of pictures
US8687700B1 (en) * 2010-06-18 2014-04-01 Ambarella, Inc. Method and/or apparatus for object detection utilizing cached and compressed classifier information
US8712930B1 (en) 2010-08-09 2014-04-29 Google Inc. Encoding digital content based on models for predicting similarity between exemplars
US8885729B2 (en) 2010-12-13 2014-11-11 Microsoft Corporation Low-latency video decoding
US9706214B2 (en) * 2010-12-24 2017-07-11 Microsoft Technology Licensing, Llc Image and video decoding implementations
GB2488159B (en) * 2011-02-18 2017-08-16 Advanced Risc Mach Ltd Parallel video decoding
US8515193B1 (en) 2011-04-08 2013-08-20 Google Inc. Image compression using exemplar dictionary based on hierarchical clustering
US8982942B2 (en) * 2011-06-17 2015-03-17 Microsoft Technology Licensing, Llc Adaptive codec selection
MY189650A (en) 2011-06-30 2022-02-23 Microsoft Technology Licensing Llc Reducing latency in video encoding and decoding
US8731067B2 (en) 2011-08-31 2014-05-20 Microsoft Corporation Memory management for video decoding
US8525883B2 (en) * 2011-09-02 2013-09-03 Sharp Laboratories Of America, Inc. Methods, systems and apparatus for automatic video quality assessment
US9591318B2 (en) 2011-09-16 2017-03-07 Microsoft Technology Licensing, Llc Multi-layer encoding and decoding
US9819949B2 (en) 2011-12-16 2017-11-14 Microsoft Technology Licensing, Llc Hardware-accelerated decoding of scalable video bitstreams
US11089343B2 (en) 2012-01-11 2021-08-10 Microsoft Technology Licensing, Llc Capability advertisement, configuration and control for video coding and decoding
HK1205426A2 (en) * 2015-09-24 2015-12-11 Tfi Digital Media Ltd Method for distributed video transcoding
US10499056B2 (en) * 2016-03-09 2019-12-03 Sony Corporation System and method for video processing based on quantization parameter
EP3340105A1 (en) * 2016-12-21 2018-06-27 Axis AB Method for and apparatus for detecting events
CA3028701A1 (en) * 2017-12-28 2019-06-28 Comcast Cable Communications, Llc Content-aware predictive bitrate ladder
US10419773B1 (en) * 2018-03-22 2019-09-17 Amazon Technologies, Inc. Hybrid learning for adaptive video grouping and compression
EP4218247A1 (en) * 2020-09-24 2023-08-02 Centurylink Intellectual Property LLC Content delivery using distributed ledger and ai-based transcoding technologies
US12032591B2 (en) 2020-09-24 2024-07-09 Centurylink Intellectual Property Llc Content delivery using distributed ledger and AI-based transcoding technologies
US11910056B2 (en) * 2020-09-24 2024-02-20 Centurylink Intellectual Property Llc Content delivery using distributed ledger and AI-based transcoding technologies

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08111870A (ja) * 1994-10-12 1996-04-30 Kokusai Denshin Denwa Co Ltd <Kdd> 画像情報の再符号化方法及び装置
JPH10271494A (ja) * 1997-03-26 1998-10-09 Nec Commun Syst Ltd 動画符号変換装置
JPH1174798A (ja) * 1997-06-30 1999-03-16 Hewlett Packard Co <Hp> 圧縮入力ビットストリーム処理装置
JP2000069442A (ja) * 1998-08-24 2000-03-03 Sharp Corp 動画システム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6421733B1 (en) * 1997-03-25 2002-07-16 Intel Corporation System for dynamically transcoding data transmitted between computers
US6173287B1 (en) * 1998-03-11 2001-01-09 Digital Equipment Corporation Technique for ranking multimedia annotations of interest
US6298071B1 (en) * 1998-09-03 2001-10-02 Diva Systems Corporation Method and apparatus for processing variable bit rate information in an information distribution system
US6236395B1 (en) * 1999-02-01 2001-05-22 Sharp Laboratories Of America, Inc. Audiovisual information management system
US6345279B1 (en) * 1999-04-23 2002-02-05 International Business Machines Corporation Methods and apparatus for adapting multimedia content for client devices
US6430558B1 (en) * 1999-08-02 2002-08-06 Zen Tech, Inc. Apparatus and methods for collaboratively searching knowledge databases

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08111870A (ja) * 1994-10-12 1996-04-30 Kokusai Denshin Denwa Co Ltd <Kdd> 画像情報の再符号化方法及び装置
JPH10271494A (ja) * 1997-03-26 1998-10-09 Nec Commun Syst Ltd 動画符号変換装置
JPH1174798A (ja) * 1997-06-30 1999-03-16 Hewlett Packard Co <Hp> 圧縮入力ビットストリーム処理装置
JP2000069442A (ja) * 1998-08-24 2000-03-03 Sharp Corp 動画システム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, vol. 9, no. 1, February 1999 (1999-02-01), pages 186 - 199, XP002941470 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1488628A2 (en) * 2001-12-28 2004-12-22 Nokia Corporation Method and apparatus for selecting macroblock quantization in a video encoder
EP1488628A4 (en) * 2001-12-28 2008-12-10 Nokia Corp METHOD AND DEVICE FOR SELECTING THE MACROBLOCK QUANTIZATION IN A VIDEO PROCESSOR
JPWO2004093457A1 (ja) * 2003-04-10 2006-07-13 日本電気株式会社 動画像圧縮符号化方式変換装置及び動画像通信システム
US8780957B2 (en) 2005-01-14 2014-07-15 Qualcomm Incorporated Optimal weights for MMSE space-time equalizer of multicode CDMA system
JP2008533841A (ja) * 2005-03-10 2008-08-21 クゥアルコム・インコーポレイテッド マルチメディア処理のためのコンテンツ分類
JP2013085287A (ja) * 2005-03-10 2013-05-09 Qualcomm Inc マルチメディア処理のためのコンテンツ分類
US9197912B2 (en) 2005-03-10 2015-11-24 Qualcomm Incorporated Content classification for multimedia processing
US8879857B2 (en) 2005-09-27 2014-11-04 Qualcomm Incorporated Redundant data encoding methods and device
US8879856B2 (en) 2005-09-27 2014-11-04 Qualcomm Incorporated Content driven transcoder that orchestrates multimedia transcoding using content information
US8879635B2 (en) 2005-09-27 2014-11-04 Qualcomm Incorporated Methods and device for data alignment with time domain boundary
US9071822B2 (en) 2005-09-27 2015-06-30 Qualcomm Incorporated Methods and device for data alignment with time domain boundary
US9088776B2 (en) 2005-09-27 2015-07-21 Qualcomm Incorporated Scalability techniques based on content information
US9113147B2 (en) 2005-09-27 2015-08-18 Qualcomm Incorporated Scalability techniques based on content information
US8948260B2 (en) 2005-10-17 2015-02-03 Qualcomm Incorporated Adaptive GOP structure in video streaming
US8654848B2 (en) 2005-10-17 2014-02-18 Qualcomm Incorporated Method and apparatus for shot detection in video streaming
US9131164B2 (en) 2006-04-04 2015-09-08 Qualcomm Incorporated Preprocessor method and apparatus

Also Published As

Publication number Publication date
US6574279B1 (en) 2003-06-03
CN1366775A (zh) 2002-08-28
JP4650868B2 (ja) 2011-03-16
EP1195992A1 (en) 2002-04-10

Similar Documents

Publication Publication Date Title
JP4650868B2 (ja) 圧縮ビデオのトランスコーディング方法
US6490320B1 (en) Adaptable bitstream video delivery system
US6493386B1 (en) Object based bitstream transcoder
US6542546B1 (en) Adaptable compressed bitstream transcoder
US8218617B2 (en) Method and system for optimal video transcoding based on utility function descriptors
JP4786114B2 (ja) 映像をコード化するための方法及び装置
Vetro et al. Object-based transcoding for adaptable video content delivery
Kim et al. Content-adaptive utility-based video adaptation
US6925120B2 (en) Transcoder for scalable multi-layer constant quality video bitstreams
US20050271140A1 (en) Bit stream separating and merging system, apparatus, method and computer program product
JP2005323353A (ja) 高忠実度のトランスコーディング
JPH09163362A (ja) ソフトウェア実行型端末相互スケーラブルビデオ送達システム用ソフトウェアベースエンコーダ
JP2001511983A (ja) 知覚特性利用型のトレリスに基づいて低ビットレートでビデオ符号化を行なうレート制御方法及び装置
Kim et al. An optimal framework of video adaptation and its application to rate adaptation transcoding
Valentim et al. Evaluating MPEG-4 video decoding complexity for an alternative video complexity verifier model
Safranek et al. Methods for matching compressed video to ATM networks
Eleftheriadis et al. Dynamic rate shaping of compressed digital video
Eleftheriadis et al. Optimal data partitioning of MPEG-2 coded video
KR100802180B1 (ko) 엠펙-4 비디오 신호의 비트율을 동적인 통신 용량 변화에따라 제어하는 방법
CN100366077C (zh) 基于实用函数描述的最优视频解码的方法和系统
Smith Receiver-Driven Video Adaptation
Bojkovic MPEG and ITU-T video communication: standardization process
Kang et al. MPEG-21 DIA-based video adaptation framework and its application to rate adaptation
Bocheck et al. Content-based VBR Video Tra c Modeling and its Application to Dynamic Network Resource Allocation
Tao Video adaptation for stored video delivery over resource-constrained networks

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 01800896.8

Country of ref document: CN

ENP Entry into the national phase

Ref document number: 2001 575722

Country of ref document: JP

Kind code of ref document: A

AK Designated states

Kind code of ref document: A1

Designated state(s): CN JP

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE TR

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2001915736

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 2001915736

Country of ref document: EP

WWW Wipo information: withdrawn in national office

Ref document number: 2001915736

Country of ref document: EP