WO2021038981A1 - 受信装置及び受信方法、並びに送信装置及び送信方法 - Google Patents
受信装置及び受信方法、並びに送信装置及び送信方法 Download PDFInfo
- Publication number
- WO2021038981A1 WO2021038981A1 PCT/JP2020/019738 JP2020019738W WO2021038981A1 WO 2021038981 A1 WO2021038981 A1 WO 2021038981A1 JP 2020019738 W JP2020019738 W JP 2020019738W WO 2021038981 A1 WO2021038981 A1 WO 2021038981A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- filter coefficient
- data
- unit
- learning model
- decoding unit
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 230000005540 biological transmission Effects 0.000 title claims description 119
- 230000008569 process Effects 0.000 claims abstract description 32
- 238000012545 processing Methods 0.000 claims description 82
- 230000005236 sound signal Effects 0.000 claims description 28
- 238000010586 diagram Methods 0.000 description 36
- 238000005516 engineering process Methods 0.000 description 21
- 239000011159 matrix material Substances 0.000 description 19
- 230000006872 improvement Effects 0.000 description 14
- 238000013135 deep learning Methods 0.000 description 11
- 239000000284 extract Substances 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005401 electroluminescence Methods 0.000 description 3
- 230000003213 activating effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000002730 additional effect Effects 0.000 description 1
- 238000012615 high-resolution technique Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/466—Learning process for intelligent management, e.g. learning user preferences for recommending movies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/2343—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
- H04N21/234363—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by altering the spatial resolution, e.g. for clients with a lower screen resolution
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/236—Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
- H04N21/23614—Multiplexing of additional data and video streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/251—Learning process for intelligent management, e.g. learning user preferences for recommending movies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/434—Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
- H04N21/4341—Demultiplexing of audio and video streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/434—Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
- H04N21/4348—Demultiplexing of additional data and video streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/435—Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/438—Interfacing the downstream path of the transmission network originating from a server, e.g. retrieving encoded video stream packets from an IP network
- H04N21/4385—Multiplex stream processing, e.g. multiplex stream decrypting
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/4402—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
- H04N21/440263—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by altering the spatial resolution, e.g. for displaying on a connected PDA
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/60—Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client
- H04N21/65—Transmission of management data between client and server
- H04N21/654—Transmission by server directed to the client
- H04N21/6547—Transmission by server directed to the client comprising parameters, e.g. for client setup
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Definitions
- the technology disclosed in the present specification relates to a receiving device and a receiving method for receiving information about the content, and a transmitting device and a transmitting method for transmitting the information about the content.
- a super-resolution processing method for creating a high-resolution image from a low-resolution image using a convolutional neural network pre-learned to estimate a super-resolution image from a low-resolution image or a standard-resolution image by deep learning. It is known (see, for example, Patent Document 1 and Non-Patent Document 2).
- Patent Document 2 a reproduction method is known in which a low-resolution sound source reproduced or stream-distributed from a medium such as a CD (Compact Disc) is converted into a high-resolution sound source using a pre-learned learning model and output as audio (for example).
- a medium such as a CD (Compact Disc)
- Patent Document 2 a reproduction method is known in which a low-resolution sound source reproduced or stream-distributed from a medium such as a CD (Compact Disc) is converted into a high-resolution sound source using a pre-learned learning model and output as audio (for example).
- a huge amount of learning data is required to generate a learning model used for super-resolution processing of video and high resolution of sound source by deep learning, and a high computational load is required to perform deep learning. For this reason, it is common to mount a learning model that has been pre-learned by deep learning on a server such as a manufacturer on a device such as a television receiver or a music player before shipping.
- a learning model that has been pre-learned by deep learning on a server such as a manufacturer on a device such as a television receiver or a music player before shipping.
- backpropagation error backpropagation
- a server such as a manufacturer can continuously learn a learning model and repeatedly update the weighting coefficient.
- the result of such learning can be adopted for a successor device, it is a device after shipment. It will not be reflected in. For this reason, end users have no choice but to replace with new products in order to benefit from super-resolution processing and high-resolution technology with the latest learning models.
- An object of the technology disclosed in the present specification is to provide a receiving device and a receiving method for receiving information on quality improvement of content, and a transmitting device and a transmitting method for transmitting information on quality improvement of content. ..
- a receiver that receives a stream in which attribute information about the weighting factor of a learning model trained to process the content is multiplexed with the content, and An acquisition unit that demultiplexes the received stream and acquires attribute information, It is a receiving device provided with.
- the Learning model includes a learning model for performing high image quality processing such as super-resolution processing or high dynamic range processing of an image, and a learning model for performing high sound quality processing such as band expansion of an audio signal.
- the attribute information includes the type of content to which the weighting factor is applied, the data size of the weighting factor to be updated, the position information of the weighting factor to be updated on the learning model, and the accuracy of the weighting factor data. Contains information about at least one.
- a receive step that receives a stream that multiplexes the content with attribute information about the weighting factors of the learning model trained to process the content.
- the acquisition step to demultiplex the received stream and acquire the attribute information, It is a receiving method having.
- a multiplexing unit that generates a stream that multiplexes the attribute information related to the weighting factor of the learning model trained to process the content with the content.
- a transmission unit that transmits a multiplexed stream on a predetermined transmission medium, and It is a transmission device provided with.
- the transmission device includes a learning unit for learning the weighting coefficient.
- the attribute information includes the type of content to which the weighting factor is applied, the data size of the weighting factor to be updated, the position information of the weighting factor to be updated on the learning model, and the accuracy of the weighting factor data. Contains information about at least one.
- a multiplexing step that creates a stream that multiplexes the content with attribute information about the weighting factors of the learning model trained to process the content.
- a transmission step that transmits a multiplexed stream onto a predetermined transmission medium, It is a transmission method having.
- a receiving device and a receiving method for receiving information on content quality improvement from a content multiplexing stream, and information on content quality improvement in a content multiplexing stream are transmitted.
- a transmission device and a transmission method can be provided.
- FIG. 1 is a diagram showing a configuration example of the content reproduction system 100.
- FIG. 2 is a diagram showing an example of applying the panel speaker technology to a display.
- FIG. 3 is a diagram showing a configuration example of the content reproduction system 300.
- FIG. 4 is a diagram showing an example of super-resolution processing using a neural network.
- FIG. 5 is a diagram showing a configuration example (first embodiment) of the content reproduction system 500.
- FIG. 6 is a diagram showing an example of multimedia transmission data format (first embodiment).
- FIG. 7 is a diagram showing a data format example (first embodiment) of the filter coefficient multiplexed into the multimedia transmission data format.
- FIG. 8 is a diagram showing an example of a data format of a filter coefficient multiplexed into a multimedia transmission data format.
- FIG. 1 is a diagram showing a configuration example of the content reproduction system 100.
- FIG. 2 is a diagram showing an example of applying the panel speaker technology to a display.
- FIG. 3 is a diagram
- FIG. 9 is a diagram showing an example of a data format of a filter coefficient multiplexed into a multimedia transmission data format.
- FIG. 10 is a diagram showing another configuration example (first embodiment) of the content reproduction system 1000.
- FIG. 11 is a diagram showing an example of multimedia transmission data format (first embodiment).
- FIG. 12 is a diagram showing a data format example (first embodiment) of the filter coefficient multiplexed into the multimedia transmission data format.
- FIG. 13 is a diagram showing an example of a data format of a filter coefficient multiplexed into a multimedia transmission data format.
- FIG. 14 is a diagram showing an example of a data format of a filter coefficient multiplexed into a multimedia transmission data format.
- FIG. 10 is a diagram showing another configuration example (first embodiment) of the content reproduction system 1000.
- FIG. 11 is a diagram showing an example of multimedia transmission data format (first embodiment).
- FIG. 12 is a diagram showing a data format example (first embodiment) of the filter coefficient multiplexed into the multimedia
- FIG. 15 is a flowchart (first embodiment) showing a processing procedure when a multiplexed bit stream is received.
- FIG. 16 is a diagram showing a configuration example of the content coding system 1600.
- FIG. 17 is a diagram showing a configuration example of transmission data encoded by the content coding system 1600.
- FIG. 18 is a diagram showing an example of the internal configuration of the filter coefficient learner 1604.
- FIG. 19 is a diagram showing a configuration example (second embodiment) of the content reproduction system 1900.
- FIG. 20 is a diagram showing an example of multimedia transmission data format (second embodiment).
- FIG. 21 is a diagram showing a data format example (second embodiment) of the filter coefficient multiplexed with the multimedia transmission data shown in FIG. 20.
- FIG. 22 is a diagram showing a data format example (second embodiment) of the filter coefficient multiplexed with the multimedia transmission data shown in FIG. 20.
- FIG. 23 is a diagram showing another configuration example of the content reproduction system 2300 according to the second embodiment.
- FIG. 24 is a diagram showing an example of multimedia transmission data format (second embodiment).
- FIG. 25 is a diagram showing a data format example (second embodiment) of the filter coefficient multiplexed with the multimedia transmission data shown in FIG. 24.
- FIG. 26 is a diagram showing a data format example (second embodiment) of the filter coefficient multiplexed with the multimedia transmission data shown in FIG. 24.
- FIG. 27 is a flowchart (second embodiment) showing a processing procedure when a multiplexed bit stream is received.
- FIG. 28 is a diagram showing a configuration example of the content reproduction system 2800 according to the third embodiment.
- FIG. 29 is a diagram showing an example of multimedia transmission data format (third embodiment).
- FIG. 30 is a diagram showing a data format example (third embodiment) of the filter coefficient multiplexed on the multimedia transmission data shown in FIG. 29.
- FIG. 31 is a diagram showing a data format example (third embodiment) of the filter coefficient multiplexed with the multimedia transmission data shown in FIG. 29.
- FIG. 32 is a diagram showing a data format example (third embodiment) of the control command multiplexed with the multimedia transmission data shown in FIG. 29.
- FIG. 33 is a diagram showing an example of multimedia transmission data format (third embodiment).
- FIG. 34 is a diagram showing an example of multimedia transmission data format (third embodiment).
- FIG. 35 is a diagram showing an example of a data format of the filter coefficient data multiplexed with the multimedia transmission data shown in FIG. 34.
- FIG. 36 is a diagram showing an example of a data format of the filter coefficient data multiplexed with the multimedia transmission data shown in FIG. 34.
- FIG. 37 is a diagram showing an example of a data format of the control command multiplexed with the multimedia transmission data shown in FIG. 34.
- FIG. 38 is a flowchart (third embodiment) showing a processing procedure when a multiplexed bit stream is received.
- FIG. 39 is a diagram showing a configuration example of the content reproduction system 3900 according to the fourth embodiment.
- FIG. 1 schematically shows a configuration example of the content playback system 100.
- a broadcast signal such as terrestrial broadcasting or satellite broadcasting
- a reproduction signal reproduced from a recording medium such as a hard disk drive (HDD) or Blu-ray
- HDD hard disk drive
- a streaming server on the cloud etc.
- It is supposed to be streaming content delivered from.
- a broadcast-type video distribution service using a network IPTV, OTT (Over The Top), and the like can be mentioned.
- these contents are supplied to the content reproduction system 100 as a multiplexed bit stream in which the bit stream of each media data such as video, audio, and auxiliary data (subtitles, text, graphics, program information, etc.) is multiplexed. ..
- the multiplexed bitstream assumes that the data of each medium such as video and audio is multiplexed according to the MPEG2 System standard, for example.
- the content playback system 100 includes a tuner that selects and receives broadcast signals, an HDMI (registered trademark) (High-Definition Multimedia Interface) interface that inputs playback signals from a media playback device, and a network interface (NIC) that connects to a network. Although it is equipped, it is omitted in FIG.
- the content reproduction system 100 includes a non-multiplexer (demultiplexer) 101, a video decoding unit 102, an audio decoding unit 103, an auxiliary (Auxiliary) data decoding unit 104, an image quality improving unit 105, and a sound quality improving unit. It includes 106, an image display unit 107, and an audio output unit 108.
- the content reproduction system 100 may be, for example, a television receiving device.
- the content playback system 100 is a terminal device such as a set-top box, processes the received multiplexed bit stream, and displays the processed video on a television receiving device including an image display unit 107 and an audio output unit 108. And may be configured to output an audio signal.
- the non-multiplexing unit 101 demultiplexes the multiplexed bit stream received from the outside as a broadcast signal, a reproduction signal, or streaming data into a video bit stream, an audio bit stream, and an auxiliary bit stream, and a subsequent video decoding unit 101. It is distributed to each of 102, the audio decoding unit 103, and the auxiliary data decoding unit 104.
- the video decoding unit 102 decodes, for example, an MPEG (Moving Picture Experts Group) -encoded video bit stream and outputs a baseband video signal. It is assumed that the video signal output from the video decoding unit 102 is a low-resolution or standard-resolution video, or a low dynamic range (LDR) or standard dynamic range (SDR) video.
- MPEG Motion Picture Experts Group
- LDR low dynamic range
- SDR standard dynamic range
- the audio decoding unit 103 decodes an audio bit stream encoded by a coding method such as MP3 (MPEG Audio Layer3) or HE-AAC (High Effective Audio MPEG4 Advanced Audio Coding) to obtain a baseband audio signal. Output. It is assumed that the audio signal output from the audio decoding unit 103 is a low-resolution or standard-resolution audio signal in which a part of the band such as the treble range is removed or compressed.
- MP3 MPEG Audio Layer3
- HE-AAC High Effective Audio MPEG4 Advanced Audio Coding
- the auxiliary data decoding unit 104 decodes the encoded auxiliary bit stream and outputs subtitles, text, graphics, program information, and the like.
- the high image quality improving unit 105 performs high image quality processing on the video signal output from the video decoding unit 102 and the subtitles, texts, graphics, program information, etc. output from the auxiliary data decoding unit 104.
- the video signal output from the video decoding unit 102 is a low-resolution or standard-resolution video, or a low-dynamic range or standard dynamic-range video.
- the image quality improving unit 105 performs super-resolution processing for generating a high-resolution video signal from a low-resolution or standard-resolution video signal, and high-quality processing such as high dynamic range.
- the image quality improving unit 105 performs high image quality processing on the video signal obtained by synthesizing the video signal output from the video decoding unit 102 and the auxiliary data such as subtitles output from the auxiliary data decoding unit 104.
- the video signal and the auxiliary data such as subtitles may be individually processed to improve the image quality, and then the compositing process may be performed.
- the high image quality improving unit 105 performs super-resolution processing and high dynamic range processing within the range of the screen resolution or the luminance dynamic range allowed by the image display unit 107 which is the output destination of the video signal. And.
- the image quality improving unit 105 estimates a super-resolution image from a low-resolution or standard-resolution image using a neural network having a pre-learned learning model such as deep learning, or has a low dynamic range or standard. It is assumed that a high dynamic range image is estimated from a dynamic range image.
- the high-quality sound unit 106 performs high-quality sound processing on the audio signal output from the audio decoding unit 103.
- the audio signal output from the audio decoding unit 103 is a low-resolution or standard-resolution audio signal in which a part of the band such as the treble range is removed or compressed.
- the high-quality sound unit 106 performs high-quality sound processing for expanding the band of a low-resolution or standard-resolution audio signal to a high-resolution (high-resolution) audio signal including a removed or compressed band.
- the high-quality sound unit 106 estimates a high-resolution audio signal from a low-resolution or standard-resolution audio signal using a neural network having a pre-learned learning model such as deep learning.
- the image display unit 107 presents to the user (such as a viewer of the content) a screen displaying the image that has been subjected to the high image quality processing by the high image quality unit 105.
- the image display unit 107 may display an image that has not been processed for high image quality.
- the image display unit 107 is, for example, a liquid crystal display, an organic EL (Electro-Luminescence) display, or a self-luminous display using a fine LED (Light Emitting Diode) element for pixels (see, for example, Patent Document 3). It is a display device consisting of.
- the image display unit 107 may be a display device to which the partial drive technology for dividing the screen into a plurality of areas and controlling the brightness for each area is applied.
- the backlight corresponding to the region with a high signal level is lit brightly, while the backlight corresponding to the region with a low signal level is lit darkly to improve the luminance contrast. be able to.
- the push-up technology that distributes the power suppressed in the dark area to the region with high signal level and emits light intensively is further utilized (the output power of the entire backlight is constant). It is possible to realize a high dynamic range by increasing the brightness when the white display is partially performed (see, for example, Patent Document 4).
- the audio output unit 108 outputs the audio that has been subjected to the high-quality sound processing by the high-quality sound unit 106.
- the audio output unit 108 may output an audio signal that has not been processed for high sound quality.
- the audio output unit 108 is composed of an audio generating element such as a speaker.
- the audio output unit 108 may be a speaker array (multi-channel speaker or ultra-multi-channel speaker) in which a plurality of speakers are combined, or even if some or all of the speakers are externally connected to the television receiver. Good.
- a flat panel type speaker (see, for example, Patent Document 5) can be used for the audio output unit 108.
- a speaker array in which different types of speakers are combined can also be used as the audio output unit 108.
- the speaker array may include one that outputs audio by vibrating the image display unit 107 by one or more vibrators (actuators) that generate vibration.
- the exciter (actuator) may be in a form that is retrofitted to the image display unit 107.
- FIG. 2 shows an example of applying the panel speaker technology to a display.
- the display 200 is supported by a stand 202 on the back.
- a speaker unit 201 is attached to the back surface of the display 200.
- the exciter 201-1 is arranged at the left end of the speaker unit 201, and the exciter 201-2 is arranged at the right end, forming a speaker array.
- the exciters 211-1 and 201-2 can vibrate the display 200 based on the left and right audio signals to output sound.
- the stand 202 may include a subwoofer that outputs low-pitched sound.
- the display 200 corresponds to an image display unit 107 using an organic EL element.
- FIG. 3 schematically shows another configuration example of the content reproduction system 300.
- the content reproduction system 300 is also configured to receive broadcast signals, media reproduction signals, and stream distribution contents and output video and audio signals.
- the content playback system 300 is equipped with a tuner, an HDMI (registered trademark) interface, a network interface, and the like, but they are omitted in FIG.
- the content reproduction system 300 is, for example, a television receiving device or a set-top box.
- the content reproduction system 300 includes a demultiplexer and a data search unit (Data Retriever) 301, a video decoding unit 302, an audio decoding unit 303, an auxiliary data decoding unit 304, an image quality improving unit 305, and the like. It includes a high-quality sound unit 306, an image display unit 307, and an audio output unit 308.
- the video decoding unit 302, the audio decoding unit 303, the auxiliary data decoding unit 304, the image quality improving unit 305, the sound quality improving unit 306, the image display unit 307, and the audio output unit 308 are shown in FIG. Since each of the components having the same name in the content reproduction system 100 has the same function, the description thereof will be omitted here.
- the demultiplexing and data search unit 301 demultiplexes the multiplexed bitstream received from the outside and performs data acquisition processing on the cloud via a network interface (not shown).
- data is handled in file units. Further, the location of the file on the recording medium such as the cloud or the disk is described in the format of URI (Uniform Resource Indicator) or URL (Uniform Resource Locate).
- URI Uniform Resource Indicator
- URL Uniform Resource Locate
- the image quality improving unit 105 and the sound quality improving unit 106 each use a neural network having a pre-learned learning model such as deep learning to improve the image quality. Perform processing and high-quality sound processing. The same applies to the high image quality section 305 and the high sound quality section 306 of the content reproduction system 300 shown in FIG.
- the image quality improving unit 105 includes a three-layer filter group of the first layer to the third layer.
- the filters of the first layer each include only n one type of filter having an f 1 ⁇ f 1 (for example, 9 ⁇ 9) matrix.
- the filter group of the second layer is provided with only n 2 types of filters having an f 2 ⁇ f 2 matrix
- the filter group of the third layer is provided with a filter having an f 3 ⁇ f 3 matrix, respectively.
- the feature map of n 1 ways to low-resolution image successively multiplying the second layer filter of n 2 kinds of f 2 ⁇ f 2 matrix, wherein the n 2 types of high-resolution images Non-linear mapping to the map.
- the n 2 feature maps of the high-resolution image are filtered by the adjacent f 3 ⁇ f 3 matrix, and the high-resolution image is reconstructed and output.
- Each filter used in the super-resolution processing as described above has a filter coefficient for each element of the matrix.
- the filter coefficient referred to here is a concept corresponding to the weighting coefficient in the learning model.
- the super-resolution processing shown in FIG. 4 is only an example. However, all super-resolution processing methods using neural networks have a similar network structure in which they are composed of a plurality of layers and each layer has a plurality of weighting coefficients.
- the network structure is similar in that it consists of and has a plurality of weighting coefficients for each layer.
- the filter coefficient of each layer can be continuously learned by deep learning or the like.
- deep learning requires a large amount of learning data, and the computational load is high for performing deep learning. Therefore, it is possible to set the filter coefficient of the learning model pre-learned by a server such as a manufacturer by deep learning in the high image quality section 105 and the high sound quality section 106, and ship a product corresponding to the content playback system 100. is assumed.
- backpropagation error back propagation
- the learning model can be continuously learned and the filter coefficient can be updated repeatedly. Therefore, in the present specification, a transmission technique for transmitting information on the filter coefficient of the latest learning model obtained by continuously learning on a server or the like to a product after shipment is proposed below.
- information on the filter coefficient of the learning model is further multiplexed into a multiplexed bit stream in which various media such as video, audio, and auxiliary data are multiplexed, and transmitted on a predetermined transmission medium.
- the filter coefficient of the learning model updated by the manufacturer of the device such as the TV receiver, the filter coefficient of the learning model updated by the broadcasting station to match each broadcast content, and the stream distributor match each streaming content.
- the filter coefficient of the learning model updated as described above can be multiplexed into a multiplexed bit stream at any time and provided to a device such as a television receiver.
- the received multiplexed bitstream is demultiplexed, and when information on the filter coefficient of the learning model is extracted, high image quality is obtained based on the information.
- the learning model of the conversion process or the high-quality sound processing can be updated at any time.
- the content provider side multiplexes and transmits the filter coefficient of the learning model to be updated and its attribute information together with the bitstream of each media data of video, audio, and auxiliary data. Basically, it is assumed that the media to be multiplexed and the filter coefficient are associated with each other.
- the attribute information includes the type information of the filter coefficient to be updated and the position information for specifying the filter coefficient to be updated (for example, the layer to be updated or the area in the layer to be updated. Information to be shown) is included. Therefore, by specifying the type information, it is possible to update the learning model specialized for any of video, audio, and auxiliary data. In addition, by specifying the position information, the learning model can be partially updated in units of layers or units of specific areas inside the layers.
- the receiving side of the content such as the television receiving device demultiplexes the received multiplexed bit stream, and when the information regarding the filter coefficient of the learning model is extracted, the attribute information thereof.
- the type information specified as it is possible to update the learning model specialized for any media of video, audio, or auxiliary data.
- the learning model of a specific medium can be partially updated based on the position information specified as the attribute information.
- FIG. 5 schematically shows a configuration example of the content playback system 500 according to the first embodiment.
- the content reproduction system 500 is also configured to receive broadcast signals, media reproduction signals, and stream distribution contents and output video and audio.
- the content playback system 500 is equipped with a tuner, an HDMI (registered trademark) interface, a network interface, and the like, but they are omitted in FIG.
- the content reproduction system 500 is, for example, a television receiver or a set-top box.
- the content reproduction system 500 includes a non-multiplexing unit 501, a video decoding unit 502, an audio decoding unit 503, an auxiliary data decoding unit 504, a filter coefficient decoding unit 505, an image quality improving unit 506, and a sound quality improving unit. It includes a 507, an image display unit 508, and an audio output unit 509.
- the video decoding unit 502, the audio decoding unit 503, the auxiliary data decoding unit 504, the image quality improving unit 506, the sound quality improving unit 507, the image display unit 508, and the audio output unit 509 are shown in FIG. Since each component has the same function as that of the component having the same name as that in the content reproduction system 100, the description thereof will be omitted here.
- the non-multiplexing unit 501 demultiplexes the multiplexed bit stream received from the outside as a broadcast signal, a reproduction signal, or streaming data into a video bit stream, an audio bit stream, an auxiliary bit stream, and a filter coefficient bit stream. It is distributed to each of the video decoding unit 502, the audio decoding unit 503, the auxiliary data decoding unit 504, and the filter coefficient decoding unit 505 in the subsequent stage.
- the filter coefficient bit stream is not always multiplexed in the received multiplexed bit stream, and in this case, the filter coefficient bit stream is not supplied to the filter coefficient decoding unit 505.
- the filter coefficient decoding unit 505 decodes the filter coefficient bit stream encoded by a predetermined coding method to extract the attribute information of the filter coefficient and the data body of the filter coefficient, and supplies the image quality to the image quality improving unit 506.
- the attribute information includes the data type of the sent filter coefficient (for moving images, still images, graphics, etc.), the data size of the sent filter coefficient (distinguishing between a certain layer as a whole or a part thereof, etc.) ), The position information of the filter coefficient (which range of which layer is overwritten), and the accuracy (32-bit floating point number type, 16-bit integer type, 8-bit integer type, etc.).
- the image quality improving unit 506 updates the learning model in the image quality improving unit 506 by overwriting and saving the filter coefficient in the corresponding layer of the corresponding media type or the designated area in the layer based on the attribute information. .. After that, the image quality improving unit 506 uses the updated learning model to perform high image quality processing such as super-resolution processing and high dynamic range on the video signal output from the video decoding unit 502.
- the decoding result is drawn so as to be output only from the filter coefficient decoding unit 505 to the high image quality improvement unit 506, but in the filter coefficient decoding unit 505, audio is specified as the media type in the attribute information. If so, it is understood that the attribute information (type information, position information, etc.) and the filter coefficient are supplied to the high-quality sound unit 507, and the learning model update process for high-quality sound is performed in the same manner as above. I want to be.
- FIG. 6 schematically shows a multimedia transmission data format in which the filter coefficient of the learning model and its attribute information are multiplexed and transmitted together with each media data such as video, audio, and auxiliary data.
- the filter coefficient of the learning model multiplexed in the transmission data format is data for updating the filter coefficient of the learning model related to the improvement of the quality of any media data included in the same transmission data.
- the multimedia transmission data format is configured by sequentially concatenating the data of each media to which the media header is attached, starting with the sequence header indicated by the reference number 601.
- the media header of the filter coefficient indicated by the reference number 602 is transmitted, followed by the data body of the filter coefficient indicated by the reference number 603, and then the media header of the audio indicated by the reference number 604 is followed by the reference number.
- the main body of the audio data indicated by 605 is transmitted. After that, the media header of the video data and the main body of the video data, the media header of the video data and the main body of the video data, and so on are transmitted in this order.
- the non-multiplexing unit 501 identifies the media type of the immediately following media data body based on the media header and decodes the video. It can be sequentially distributed to the unit 502, the audio decoding unit 503, the auxiliary data decoding unit 504, and the filter coefficient decoding unit 505.
- FIG. 7 to 9 show data format examples of filter coefficients multiplexed into the multimedia transmission data format shown in FIG. 6, respectively.
- the image quality improving unit 506 obtains data on all the filter coefficients of the 64 types of filters in the first layer based on the position information. Overwrite with 705 to update the learning model in the image quality improving unit 506.
- the filter coefficient data shown in FIG. 8 includes the data type (moving image) indicated by reference number 801 and the data size indicated by reference number 802 (number of sets of filter coefficient data: 2) as attribute information.
- two sets of filter coefficient data are included as media data.
- the attribute information of the first set the position information of the filter coefficient data indicated by the reference number 803 (the entire filter of the first layer) and the accuracy of the data indicated by the reference number 804 (8-bit integer type) are included, followed by ,
- the first set of filter coefficient data bodies indicated by reference numeral 805 are stored.
- the position information of the filter coefficient data indicated by the reference number 806 (the entire filter of the third layer) and the accuracy of the data indicated by the reference number 807 (16-bit integer type) are included.
- the image quality improving unit 506 first obtains the first layer based on the position information 803 of the first set of the filter coefficient data.
- the training model in the image quality improving unit 506 is updated by overwriting all the filter coefficients of the 64 types of filters with the data 805.
- the image quality improving unit 506 updates the learning model by overwriting all the filter coefficients of the filter of the third layer with the data 808 based on the position information 806 of the second set of filter coefficient data.
- the image quality improving unit 506 is the 33rd to 64th out of the 64 types of filters in the first layer based on the position information.
- the filter coefficients up to are overwritten with the data 705 to update the learning model in the image quality improving unit 506.
- FIG. 10 schematically shows another configuration example of the content reproduction system 1000 according to the first embodiment.
- the content reproduction system 1000 is also configured to receive broadcast signals, media reproduction signals, and stream distribution contents and output video and audio signals.
- the content playback system 1000 is equipped with a tuner, an HDMI (registered trademark) interface, a network interface, and the like, but they are omitted in FIG.
- the content reproduction system 1000 is, for example, a television receiver or a set-top box.
- the content reproduction system 1000 includes a demultiplexing and data retrieval unit 1001, a video decoding unit 1002, an audio decoding unit 1003, an auxiliary data decoding unit 1004, a filter coefficient decoding unit 1005, and a high image quality improving unit 1006. It includes a sound quality conversion unit 1007, an image display unit 1008, and an audio output unit 1009.
- the video decoding unit 1002, the audio decoding unit 1003, the auxiliary data decoding unit 1004, the image quality improving unit 1006, the sound quality improving unit 1007, the image display unit 1008, and the audio output unit 1009 are shown in FIG. Since it has the same function as the component having the same name in the content reproduction system 300, the description thereof is omitted here.
- the demultiplexing and data retrieval unit 1001 demultiplexes the multiplexed bit stream received from the outside into a video bit stream, an audio bit stream, an auxiliary bit stream, and a filter coefficient bit stream, and the subsequent video decoding unit 1002, audio. It is distributed to each of the decoding unit 1003, the auxiliary data decoding unit 1004, and the filter coefficient decoding unit 1005.
- the filter coefficient bit stream is not always multiplexed in the received multiplexed bit stream, and in this case, the filter coefficient bit stream is not supplied to the filter coefficient decoding unit 1005.
- the demultiplexing and data search unit 1001 performs data acquisition processing on the cloud or recording media via a network interface (not shown).
- data is handled in file units.
- the location of the file on the cloud or recording media is described in the form of a URI or URL.
- the filter coefficient decoding unit 1005 decodes the filter coefficient bit stream encoded by a predetermined coding method to extract the attribute information of the filter coefficient and the data body unit of the filter coefficient.
- the data body of the filter coefficient stores not the filter coefficient data itself but the information on the location of the data file in which the filter coefficient is described on the cloud or recording media. Therefore, when the filter coefficient decoding unit 1005 decodes the filter coefficient bit stream and acquires the location information described in, for example, the URL format, the filter coefficient decoding unit 1005 obtains the filter coefficient data from the cloud or the recording medium through the demultiplexing and data retrieval unit 1001. Get the file. Then, the filter coefficient decoding unit 1005 supplies the attribute information of the filter coefficient and the data of the filter coefficient to the image quality improving unit 1006.
- the attribute information includes the data type of the sent filter coefficient (for moving images, still images, graphics, etc.), the data size of the sent filter coefficient (distinguishing between a certain layer as a whole or a part thereof, etc.) ), The position information of the filter coefficient (which range of which layer is overwritten), and the accuracy (32-bit floating point number type, 16-bit integer type, 8-bit integer type, etc.).
- the image quality improving unit 1006 Based on the attribute information, the image quality improving unit 1006 overwrites and saves the filter coefficient in the corresponding layer of the corresponding media type or the designated area in the layer, and updates the learning model in the image quality improving unit 1006. .. After that, the image quality improving unit 1006 uses the updated learning model to perform high image quality processing such as super-resolution processing and high dynamic range on the video signal output from the video decoding unit 1002.
- the decoding result is drawn so as to be output only from the filter coefficient decoding unit 1005 to the sound quality improving unit 1006, but in the filter coefficient decoding unit 1005, audio is specified as the media type in the attribute information. If so, it is understood that the attribute information (type information, position information, etc.) and the filter coefficient are supplied to the high-quality sound unit 1007, and the learning model update process for high-quality sound is performed in the same manner as above. I want to be.
- FIG. 11 schematically shows a multimedia transmission data format in which the filter coefficient of the learning model and its attribute information are multiplexed and transmitted together with each media data such as video, audio, and auxiliary data.
- the filter coefficient of the learning model multiplexed in the transmission data format is data for updating the filter coefficient of the learning model related to the improvement of the quality of any media data included in the same transmission data.
- the multimedia transmission data format is configured by sequentially concatenating the data of each media to which the media header is attached, starting with the sequence header indicated by the reference number 1101.
- the data body of the filter coefficient shown by the reference number 1103 is transmitted following the media header of the filter coefficient shown by the reference number 1102.
- information indicating the location of the data file describing the filter coefficient on the cloud or the recording medium is described in, for example, a URL format.
- the format of the multimedia transmission data is a format in which only the location information is stored as shown in FIG. 11 or a format in which the filter coefficient data itself is stored as shown in FIG. 6 is determined by the media. It may be shown in the header 1102.
- the main body of the audio data indicated by the reference number 1105 is transmitted following the audio media header indicated by the reference number 1104.
- the media header of the video data and the main body of the video data, the media header of the video data and the main body of the video data, and so on are transmitted in this order.
- the demultiplexing and data search unit 1101 identifies the media type of the immediately following media data body based on the media header. , Video decoding unit 1002, audio decoding unit 1003, auxiliary data decoding unit 1004, and filter coefficient decoding unit 1005. Further, when the filter coefficient decoding unit 1005 decodes the filter coefficient bit stream and acquires the location information described in, for example, the URL format, the filter coefficient decoding unit 1005 obtains the filter coefficient data from the cloud or recording media through the demultiplexing and data retrieval unit 1001. get. Then, the filter coefficient decoding unit 1005 supplies the attribute information of the filter coefficient and the data of the filter coefficient to the image quality improving unit 1006.
- the filter coefficient data shown in FIG. 12 has the data type (moving image) indicated by reference number 1201, the data size indicated by reference number 1202 (number of sets of filter coefficient data: 1), and the position information indicated by reference number 1203 as attribute information. It includes (the entire filter of the first layer) and the accuracy of the data (8-bit integer type) indicated by the reference number 1204. Then, following the attribute information 1201 to 1204, the location information on the cloud or the recording medium of the data file describing the filter coefficient data indicated by the reference number 1205 is stored. The location information is described in, for example, a URL format.
- the filter coefficient decoding unit 1005 decodes the filter coefficient bit stream and extracts the attribute information and the location information as shown in FIG. 12, the location information on the cloud or the recording medium is used through the demultiplexing and data retrieval unit 1001. Get the full set of data for the first layer filter from the location shown. Then, the filter coefficient decoding unit 1005 supplies the attribute information of the filter coefficient and the data of the filter coefficient to the image quality improving unit 1006. When the attribute information and the filter coefficient data are passed from the filter coefficient decoding unit 1005, the image quality improving unit 1006 overwrites all the filter coefficients of the 64 types of filters in the first layer with the data 705 based on the position information. The learning model in the image quality improving unit 1006 is updated.
- the filter coefficient data shown in FIG. 13 includes the data type (moving image) indicated by reference number 1301 and the data size indicated by reference number 1302 (number of sets of filter coefficient data: 2) as attribute information.
- two sets of filter coefficient data are included as media data.
- the attribute information of the first set the position information of the filter coefficient data indicated by the reference number 1303 (the entire filter of the first layer) and the accuracy of the data indicated by the reference number 1304 (8-bit integer type) are included, followed by ,
- the location information on the cloud or recording media of the data file describing the first set of filter coefficient data indicated by reference numeral 1305 is stored.
- the location information is described in, for example, a URL format.
- the position information of the filter coefficient data indicated by the reference number 1306 (the entire filter of the third layer) and the accuracy of the data indicated by the reference number 1307 (16-bit integer type) are included.
- the location information on the cloud or recording media of the data file describing the second set of filter coefficient data indicated by the reference number 1308 is stored.
- the location information is described in, for example, a URL format.
- the filter coefficient decoding unit 1005 decodes the filter coefficient bit stream and extracts the attribute information and the location information of the filter coefficients for two sets as shown in FIG. 13, the demultiplexing and data retrieval unit 1001 passes through the cloud or the data retrieval unit 1001. The data of the full set of the filters of the first layer and the full set of the filters of the third layer are acquired from the location indicated by the location information on the recording medium. Then, the filter coefficient decoding unit 1005 supplies the attribute information of the filter coefficient and the data of the filter coefficient to the image quality improving unit 1006.
- the image quality improving unit 1006 When the attribute information and the filter coefficient data are passed from the filter coefficient decoding unit 1005, the image quality improving unit 1006 first performs all of the 64 types of filters in the first layer based on the position information 803 of the first set of filter coefficient data. The filter coefficient of is overwritten with the data 805, and the learning model in the image quality improving unit 1006 is updated. Subsequently, the image quality improving unit 1006 updates the learning model by overwriting all the filter coefficients of the filter of the third layer with the data 808 based on the position information 806 of the second set of filter coefficient data.
- the filter coefficient data shown in FIG. 14 has the data type (moving image) indicated by reference number 1401, the data size indicated by reference number 1402 (number of sets of filter coefficient data: 1), and the position information indicated by reference number 1403 as attribute information. It includes (from the 33rd to the 64th of the first layer filter consisting of 64 sets) and the accuracy of the data (8-bit integer type) indicated by the reference number 1404. Then, following the attribute information 1201 to 1204, the location information on the cloud or the recording medium of the data file describing the filter coefficient data indicated by the reference number 1405 is stored. The location information is described in, for example, a URL format.
- the filter coefficient decoding unit 1005 decodes the filter coefficient bit stream and extracts the attribute information and the location information as shown in FIG. 14, the location information on the cloud or the recording medium is used through the demultiplexing and data retrieval unit 1001. From the location shown, the filter coefficient data from the 33rd to the 64th of the filters of the first layer consisting of 64 sets are acquired. Then, the filter coefficient decoding unit 1005 supplies the attribute information of the filter coefficient and the data of the filter coefficient to the image quality improving unit 1006. When the attribute information and the filter coefficient data are passed from the filter coefficient decoding unit 1005, the image quality improving unit 1006 data the filter coefficients from the 33rd to the 64th among the 64 types of filters in the first layer based on the position information. Overwrite with 705 to update the learning model in the image quality improving unit 1006.
- FIG. 15 shows a processing procedure executed when the content playback system 1000 according to the first embodiment receives a multiplexed bit stream in the form of a flowchart.
- the demultiplexed and data retrieval unit 1001 When the content playback system 1000 receives the multiplexed bit stream (step S1501), the demultiplexed and data retrieval unit 1001 first receives the multiplexed bits based on the information described in the media header attached to the beginning of the media data. The stream is demultiplexed into a bit stream for each medium (step S1502), and distributed to each of the video decoding unit 1002, the audio decoding unit 1003, the auxiliary data decoding unit 1004, and the filter coefficient decoding unit 1005 in the subsequent stage.
- the demultiplexed bit stream is a bit stream other than the filter coefficient, that is, any of video, audio, and auxiliary data (No in step S1503)
- the video decoding unit 1002 and the audio decoding unit 1003 Alternatively, it is assigned to the corresponding decoding unit among the auxiliary data decoding units 1004.
- the decoding processes performed by each of the video decoding unit 1002, the audio decoding unit 1003, and the auxiliary data decoding unit 1004 are well known in the art, and are not directly related to the technique proposed in the present specification. Is omitted.
- the filter coefficient decoding unit 1005 analyzes the media header (step S1504), and further, the attribute information of the filter coefficient. Get (type, size, position, accuracy, etc.).
- the filter coefficient decoding unit 1005 uses multimedia having the same filter coefficient data specified in the attribute information (updated in the current multimedia transmission data) based on the information in the media header and the like. It is checked whether or not it is stored in the transmission data (step S1505). Alternatively, the filter coefficient decoding unit 1005 checks whether the location information of the filter coefficient data is stored in the multimedia transmission data.
- the filter coefficient decoding unit 1005 acquires the location information such as the URL extracted from the filter coefficient bit stream. (Step S1506).
- the filter coefficient decoding unit 1005 acquires the filter coefficient data file from the cloud or the recording medium designated by the location information such as the URL, or acquires the filter coefficient data from the filter coefficient bit stream (step S1507). ), It is supplied to the image quality improving unit 1006 together with the attribute information.
- the image quality improving unit 1006 Based on the attribute information, the image quality improving unit 1006 overwrites and saves the filter coefficient in the corresponding layer of the corresponding media type or the designated area in the layer, and updates the learning model in the image quality improving unit 1006. (Step S1508).
- the high image quality improving unit 1006 performs high image quality processing on the video signal output from the video decoding unit 1002 by using the updated learning model thereafter (step S1509).
- the image quality improving unit 1006 performs super-resolution processing for generating a high-resolution video signal from a low-resolution or standard-resolution video signal, and high-quality processing such as high dynamic range.
- FIG. 16 schematically shows a configuration example of a content coding system 1600 that encodes multimedia transmission data having a format as shown in FIG.
- the illustrated content coding system 1600 encodes a video signal as media data, and pre-learns a filter coefficient (weight coefficient of a learning model) for improving the image quality of the video signal, and encodes the video bit stream. And the filter coefficient and the attribute information are multiplexed to generate transmission data in the data format as shown in FIG.
- a 4K high-resolution video stream is input to the content coding system 1600.
- the downsampler 1601 downsamples this high resolution video stream to, for example, a 2K low resolution (or standard resolution) video stream.
- the video coding unit 1602 performs a coding process on the low-resolution video stream input from the downsampler 1601 by a predetermined coding method such as MPEG, and outputs the coded video stream.
- the video decoding unit 1603 decodes the coded video stream output from the video coding unit 1602 and reproduces the low resolution (2K) video stream.
- the filter coefficient learner 1604 inputs a high-resolution (4K) original video and a decoded low-resolution (2K) video, and outputs a low-resolution (2K) video to a high-resolution (4K) image as high image quality.
- the neural network for super-resolution processing is composed of, for example, a group of three layers, that is, a first layer to a third layer.
- the filters of the first layer each include only n one type of filter having an f 1 ⁇ f 1 (for example, 9 ⁇ 9) matrix.
- the filter group of the second layer is provided with only n two types of filters having an f 2 ⁇ f 2 matrix
- the filter group of the third layer is provided with a filter having an f 3 ⁇ f 3 matrix, respectively.
- the filter coefficient learner 1604 uses the decoded low-resolution (2K) video and the high-resolution (4K) original video as training data, and filters the coefficients of each of the first to third layers for super-resolution processing. Is pre-learned and the filter coefficient and its attribute information are output. For example, when the original video is divided into a plurality of video sections such as section A and section B, the filter coefficient learner 1604 pre-learns each video section and obtains the filter coefficient and its attribute information for each video section. Can be output.
- the multiplexing unit 1605 multiplexes the numbered video bit stream, filter coefficient, and attribute information in a time-division manner in the transmission direction to generate transmission data in the data format as shown in FIG. For example, when the original video is divided into a plurality of video sections such as section A and section B, the multiplexing unit 1605 includes the video data divided into the video sections, the filter coefficient pre-learned for each video section, and the filter coefficient.
- the attribute information may be multiplexed to generate transmission data.
- FIG. 17 shows a configuration example of transmission data output from the multiplexing unit 1605.
- the multimedia transmission data format is configured by sequentially concatenating the data of each medium to which the media header is attached, starting with the sequence header indicated by the reference number 1701.
- the filter coefficient data corresponding to the section A of the video data shown by the reference number 1703 is transmitted.
- the video data of the section A indicated by the reference number 1705 is transmitted. In this way, since the multiplexed video data and the filter coefficient are associated with each other, the data can be easily handled.
- FIG. 18 shows an example of the internal configuration of the filter coefficient learner 1604.
- the filter coefficient learner 1604 includes a convolutional neural network (CNN) 1804 for super-resolution, which comprises a first-layer filter 1801, a second-layer filter 1802, and a third-layer filter 1803.
- CNN convolutional neural network
- each of the filters of the first layer includes only n 1 type of filters having an f 1 ⁇ f 1 (for example, 9 ⁇ 9) matrix.
- the filter group of the second layer is provided with only n two types of filters having an f 2 ⁇ f 2 matrix
- the filter group of the third layer is provided with a filter having an f 3 ⁇ f 3 matrix, respectively.
- the low resolution (2K) video stream encoded by the video coding unit 1602 and then decoded is super-resolution processed by the convolutional neural network 1804 to generate a high resolution (4K) video stream.
- the difference between the super-resolution processed video stream and the high-resolution (4K) original video stream is taken by the diffifier 1805. Then, the error back propagation unit 1806 generates change information of the filter coefficients of the filters 1801 to 1803 of each layer based on this difference information, and corrects the back propagation, that is, the filter coefficients of the filters 1801 to 1803 of each layer.
- the filter coefficient for each video section can be learned (pre-learning). In this way, the filter coefficient and its attribute information learned in the convolutional neural network 1804 are output to the multiplexing unit 1605.
- the content coding system 1600 is operated by arranging it in a content distribution source such as a broadcasting station or a streaming server on the cloud.
- the video signal and the learned filter coefficient for improving the quality (that is, high image quality) of the video signal are multiplexed, but the audio signal.
- a content coding system corresponding to multimedia can be configured. That is, the content coding system corresponding to multimedia can generate multimedia transmission data in which a plurality of media data, filter coefficients for each media data, and attribute information thereof are multiplexed.
- the filter coefficient of the learning model in the second embodiment as well, as in the first embodiment, from the content provider side, along with the bitstream of each media data of video, audio, and auxiliary data, the filter coefficient of the learning model to be updated and its attribute information Is multiplexed and transmitted.
- the main feature of the filter coefficient is that time information is added and transmitted.
- the time information given to the filter coefficient is also called a time code or a time stamp, and is the same type of time code as the time code that controls the media (video stream, etc.) to which the filter coefficient is applied. Therefore, it is possible to specify from which position of the target media (for example, which frame of the video) the filter coefficient multiplexed and transmitted together with various media is applied by the time code.
- the content provider activates the filter coefficient on the content receiving side (to the target media).
- the required filter coefficient is transmitted in advance before the active time when the application is started).
- desired fine units for example, a fixed amount such as 100 bytes, or a unit obtained by dividing the filter coefficient of one layer into N equal parts
- active it is also possible to transmit a large amount of filter coefficients for a long time (for example, at night when the TV receiver is not used) before the time.
- the receiving side of the content such as the television receiving device controls the input / output of the filter coefficient memory for storing the filter coefficient acquired before the active time and the filter coefficient memory.
- a controller Provides a controller.
- the controller uses the filter coefficient for the filter coefficient based on the fetched information. It is temporarily stored in the memory, and when the active time arrives, the filter coefficient is taken out from the filter coefficient memory and applied to the high quality processing of the target media (for example, super-resolution processing of a low-resolution video signal). To do.
- FIG. 19 schematically shows a configuration example of the content reproduction system 1900 according to the second embodiment.
- the content reproduction system 1900 is also configured to receive broadcast signals, media reproduction signals, and stream distribution contents and output video and audio signals.
- the content playback system 1900 is equipped with a tuner, an HDMI (registered trademark) interface, a network interface, and the like, but they are omitted in FIG.
- the content reproduction system 1900 is, for example, a television receiver or a set-top box.
- the content reproduction system 1900 includes a non-multiplexing unit 1901, a video decoding unit 1902, an audio decoding unit 1903, an auxiliary data decoding unit 1904, a filter coefficient decoding unit 1905, an image quality improving unit 1906, and a sound quality improving unit. It includes 1907, a controller 1908, a filter coefficient memory 1909, an image display unit 1910, and an audio output unit 1911.
- the video decoding unit 1902, the audio decoding unit 1903, the auxiliary data decoding unit 1904, the image quality improving unit 1906, the sound quality improving unit 1907, the image display unit 1910, and the audio output unit 1911 are shown in FIG. Since it has the same functions as the components having the same names as those in the content reproduction system 100, the description thereof will be omitted here.
- the non-multiplexing unit 1901 demultiplexes the multiplexed bit stream received from the outside as a broadcast signal, a reproduction signal, or streaming data into a video bit stream, an audio bit stream, an auxiliary bit stream, and a filter coefficient bit stream. It is distributed to each of the video decoding unit 1902, the audio decoding unit 1903, the auxiliary data decoding unit 1904, and the filter coefficient decoding unit 1905 in the subsequent stage. However, the filter coefficient bit stream is not always multiplexed in the received multiplexed bit stream, and in this case, the filter coefficient bit stream is not supplied to the filter coefficient decoding unit 1905.
- the filter coefficient decoding unit 1905 decodes the filter coefficient bit stream encoded by a predetermined coding method, extracts the attribute information of the filter coefficient, the data body of the filter coefficient, and the active time, and supplies the filter coefficient to the controller 1908. To do.
- the attribute information includes the data type of the sent filter coefficient (for moving images, still images, graphics, etc.), the data size of the sent filter coefficient (distinguishing between a certain layer as a whole or a part thereof, etc.) ), The position information of the filter coefficient (which range of which layer is overwritten), and the accuracy (32-bit floating point number type, 16-bit integer type, 8-bit integer type, etc.).
- the active time is a time that specifies the start of application of the filter coefficient to the target media (in the example shown in FIG. 19, the video stream is applied).
- the controller 1908 controls the input / output of the filter coefficient memory 1909. Specifically, when the controller 1908 receives the filter coefficient and its attribute information and the active time from the filter coefficient decoding unit 1905, the controller 1908 temporarily stores the filter coefficient and its attribute information in the filter coefficient memory 1909 (however, it is active). When the filter coefficient and attribute information are acquired before the time). Then, when the active time arrives, the controller 1908 reads the filter coefficient and its attribute information from the filter coefficient memory 1909 and supplies the filter coefficient and its attribute information to the image quality improving unit 1906.
- the image quality improving unit 1906 updates the learning model in the image quality improving unit 1906 by overwriting and saving the filter coefficient in the corresponding layer of the corresponding media type or the specified area in the layer based on the attribute information. .. After that, the image quality improving unit 1906 uses the updated learning model to perform high image quality processing such as super-resolution processing and high dynamic range on the video signal output from the video decoding unit 1902.
- the content reproduction system 1900 stores the filter coefficient transmitted before the active time in the filter coefficient memory 1909, and applies the filter coefficient from the time specified by the active time to improve the image quality. Can be started.
- the filter coefficient and attribute information temporarily stored in the filter coefficient memory 1909 by the controller 1908 are drawn so as to be output only to the sound quality improving unit 1906, but the controller 1908 is a medium with the attribute information.
- attribute information type information, position information, etc.
- filter coefficients are supplied to the high-quality sound unit 1907, and the learning model update process for high-quality sound is the same as above. It should be understood that it will be implemented in.
- FIG. 20 schematically shows a multimedia transmission data format in which the filter coefficient of the learning model and its attribute information are multiplexed and transmitted together with each media data such as video, audio, and auxiliary data.
- the filter coefficient of the learning model multiplexed in the transmission data format is data for updating the filter coefficient of the learning model related to the improvement of the quality of any media data included in the same transmission data.
- the multimedia transmission data format is configured by sequentially concatenating the data of each media to which the media header is attached, starting with the sequence header indicated by the reference number 2001.
- a time code for specifying the start of application of the filter coefficient is added to the media header of the filter coefficient indicated by the reference number 2002, and immediately after that, the data 1-1 of the filter coefficient indicated by the reference number 2003 is displayed.
- the main body of the audio data indicated by the reference number 2005 is transmitted following the media header of the audio indicated by the reference number 2004.
- a time code for specifying the start of application of the filter coefficient is added to the media header of the filter coefficient indicated by the reference number 2006 after that, and immediately after that, the data 1-2 of the filter coefficient indicated by the reference number 2007 is transmitted.
- the non-multiplexing unit 1901 identifies the media type of the immediately following media data body based on the media header and decodes the video. It can be sequentially distributed to the unit 1902, the audio decoding unit 1903, the auxiliary data decoding unit 1904, and the filter coefficient decoding unit 1905.
- the filter coefficient decoding unit 1905 decodes the filter coefficient bit stream encoded by a predetermined coding method, and decodes the active time specified by the time code of the media header, the attribute information of the filter coefficient, and the data of the filter coefficient. When 1-1 is extracted, it is supplied to the controller 1908. Then, the controller 1908 temporarily stores the filter coefficient data 1-1 and its attribute information received from the filter coefficient decoding unit 1905 in the filter coefficient memory 1909.
- the filter coefficient decoding unit 1905 extracts the active time specified by the time code of the media header, the attribute information of the filter coefficient, and the data 1-2 of the filter coefficient from the coded filter coefficient bit stream. Is supplied to the controller 1908. Then, the controller 1908 temporarily stores the attribute information of the filter coefficient and the data 1-2 of the filter coefficient in the filter coefficient memory 1909 until the active time.
- the controller 1908 reads the filter coefficient data 1-1 and 1-2 and these attribute information from the filter coefficient memory 1909 and supplies them to the image quality improving unit 1906.
- FIG. 21 shows an example of a data format of data 1-1 of the filter coefficient multiplexed with the multimedia transmission data shown in FIG.
- the filter coefficient data shown in FIG. 21 has the data type (moving image) indicated by the reference number 2101, the time code indicated by the reference number 2102 (applied from the second frame of the video stream), and the data size indicated by the reference number 2103 as attribute information.
- (Number of sets of filter coefficient data: 1), position information indicated by reference number 2104 (filter from the beginning to the 32nd layer of the first layer), and accuracy of data indicated by reference number 2105 (8-bit integer type) are included. I'm out.
- FIG. 22 shows an example of a data format of data 1-2 of the filter coefficient multiplexed with the multimedia transmission data shown in FIG.
- the filter coefficient data shown in FIG. 22 has the data type (moving image) indicated by reference number 2201, the time code indicated by reference number 2202 (applied from the second frame of the video stream), and the data size indicated by reference number 2203 as attribute information. (Number of sets of filter coefficient data: 1), position information indicated by reference number 2204 (filter from 33rd to 64th in the first layer), and accuracy of data indicated by reference number 2205 (8-bit integer type). ) Is included. Then, following the attribute information 2201 to 2205, the data of the filter coefficient indicated by the reference number 2206 is stored.
- the controller 1908 sequentially stores the filter coefficient data 1-1 and 1-2 in the filter coefficient memory 1909. After that, when the active time specified by the time code arrives, the controller 1908 reads the filter coefficient data 1-1 and 1-2 from the filter coefficient memory 1909 and passes them to the image quality improving unit 1906.
- the image quality improving unit 1906 overwrites the filter coefficient of the entire filter of the first layer passed from the controller 1908, updates the learning model in the image quality improving unit 1906, and performs two frames of the video frame which is the active time. Apply from the eyes.
- FIG. 23 schematically shows another configuration example of the content reproduction system 2300 according to the second embodiment.
- the content reproduction system 2300 is also configured to receive broadcast signals, media reproduction signals, and stream distribution contents and output video and audio signals.
- the content playback system 2300 is equipped with a tuner, an HDMI (registered trademark) interface, a network interface, and the like, but they are omitted in FIG. 23.
- the content reproduction system 2300 is, for example, a television receiver or a set-top box.
- the content reproduction system 2300 includes a non-multiplexing and data retrieval unit 2301, a video decoding unit 2302, an audio decoding unit 2303, an auxiliary data decoding unit 2304, a filter coefficient decoding unit 2305, and a high image quality improving unit 2306. It includes a sound quality improving unit 2307, a controller 2308, a filter coefficient memory 2309, an image display unit 2310, and an audio output unit 2311.
- the video decoding unit 2302, the audio decoding unit 2303, the auxiliary data decoding unit 2304, the image quality improving unit 2306, the sound quality improving unit 2307, the image display unit 2310, and the audio output unit 2311 are shown in FIG. Since it has the same function as the component having the same name in the content reproduction system 300, the description thereof is omitted here.
- the demultiplexing and data retrieval unit 2301 demultiplexes the multiplexed bitstream received from the outside into a video bitstream, an audio bitstream, an auxiliary bitstream, and a filter coefficient bitstream, and the subsequent video decoding unit 2302, audio. It is distributed to each of the decoding unit 2303, the auxiliary data decoding unit 2304, and the filter coefficient decoding unit 2305. However, the filter coefficient bit stream is not always multiplexed in the received multiplexed bit stream, and in this case, the filter coefficient bit stream is not supplied to the filter coefficient decoding unit 2305.
- the demultiplexing and data search unit 2301 performs data acquisition processing on the cloud or recording media via a network interface (not shown).
- data is handled in file units.
- the location of the file on the cloud or recording media is described in the form of a URI or URL.
- the filter coefficient decoding unit 2305 decodes the filter coefficient bit stream encoded by a predetermined coding method, and extracts the attribute information of the filter coefficient, the data body unit of the filter coefficient, and the active time.
- the data body of the filter coefficient stores not the filter coefficient data itself but the information on the location of the data file in which the filter coefficient is described on the cloud or recording media. Therefore, when the filter coefficient decoding unit 2305 decodes the filter coefficient bit stream and acquires the location information described in, for example, the URL format, the filter coefficient decoding unit 2305 transfers the filter coefficient data from the cloud or the recording medium through the demultiplexing and data search unit 2301. Get the file. Then, the filter coefficient decoding unit 2305 supplies the attribute information of the filter coefficient and the data of the filter coefficient to the controller 2308.
- the attribute information includes the data type of the sent filter coefficient (for moving images, still images, graphics, etc.), the data size of the sent filter coefficient (distinguishing between a certain layer as a whole or a part thereof, etc.) ), The position information of the filter coefficient (which range of which layer is overwritten), and the accuracy (32-bit floating point number type, 16-bit integer type, 8-bit integer type, etc.).
- the active time is a time that specifies the start of application of the filter coefficient to the target media (in the example shown in FIG. 23, the video stream is applied).
- the controller 2308 controls the input / output of the filter coefficient memory 2309. Specifically, when the controller 2308 receives the filter coefficient and its attribute information and the active time from the filter coefficient decoding unit 2305, the controller 2308 temporarily stores the filter coefficient and its attribute information in the filter coefficient memory 2309 (however, it is active). When the filter coefficient and attribute information are acquired before the time). Then, when the active time arrives, the controller 2308 reads the filter coefficient and its attribute information from the filter coefficient memory 2309 and supplies the filter coefficient and its attribute information to the image quality improving unit 2306.
- the image quality improving unit 2306 Based on the attribute information, the image quality improving unit 2306 overwrites and saves the filter coefficient in the corresponding layer of the corresponding media type or the specified area in the layer, and updates the learning model in the image quality improving unit 2306. .. After that, the image quality improving unit 2306 uses the updated learning model to perform high image quality processing such as super-resolution processing and high dynamic range on the video signal output from the video decoding unit 2302.
- the content reproduction system 2300 stores the filter coefficient transmitted before the active time in the filter coefficient memory 2309, and applies the filter coefficient from the time specified by the active time to improve the image quality. Can be started.
- the filter coefficient and the attribute information temporarily stored in the filter coefficient memory 2309 by the controller 2308 are drawn so as to be output only to the sound quality improving unit 2306, but the controller 2308 is a medium with the attribute information.
- attribute information type information, position information, etc.
- filter coefficients are supplied to the high-quality sound unit 2307, and the learning model update process for high-quality sound is the same as above. Please understand that it will be implemented in.
- FIG. 24 schematically shows a multimedia transmission data format in which the filter coefficient of the learning model and its attribute information are multiplexed and transmitted together with each media data such as video, audio, and auxiliary data.
- the filter coefficient of the learning model multiplexed in the transmission data format is data for updating the filter coefficient of the learning model related to the improvement of the quality of any media data included in the same transmission data.
- the multimedia transmission data format is configured by sequentially concatenating the data of each media to which the media header is attached, starting with the sequence header indicated by the reference number 2401.
- a time code for specifying the start of application of the filter coefficient is added to the media header of the filter coefficient indicated by the reference number 2402, and immediately after that, data is used as the data body of the filter coefficient indicated by the reference number 2403.
- information describing the location of the data file of data 1-1 on the cloud or recording media in, for example, a URL format is transmitted.
- the main body of the audio data indicated by the reference number 2405 is transmitted following the media header of the audio indicated by the reference number 2404.
- a time code for specifying the start of application of the filter coefficient is added to the media header of the filter coefficient indicated by the reference number 2406 after that, and immediately after that, as the data body of the filter coefficient indicated by the reference number 2407, the data 1-2
- the attribute information information describing the location of the data file of data 1-2 on the cloud or recording media in, for example, a URL format is transmitted.
- the demultiplexing and data search unit 2301 identifies the media type of the immediately following media data body based on the media header. , Video decoding unit 2302, audio decoding unit 2303, auxiliary data decoding unit 2304, and filter coefficient decoding unit 2305.
- the filter coefficient decoding unit 2305 decodes the filter coefficient bit stream encoded by a predetermined coding method, and decodes the active time specified by the time code of the media header, the attribute information of the filter coefficient, and the filter coefficient.
- the filter coefficient data 1-1 is acquired from the cloud or the recording medium through the demultiplexing and data search unit 2301. Then, the filter coefficient decoding unit 2305 supplies the active time, the attribute information of the filter coefficient, and the data 1-1 of the filter coefficient to the controller 2308.
- the controller 2308 temporarily stores the filter coefficient data 1-1 and its attribute information received from the filter coefficient decoding unit 2305 in the filter coefficient memory 2309.
- the filter coefficient decoding unit 2305 decodes the filter coefficient bit stream encoded by a predetermined coding method, and obtains the active time specified by the time code of the media header, the attribute information of the filter coefficient, and Similarly, when the location information of the filter coefficient data 1-2 is extracted, the filter coefficient data 1-2 is acquired from the cloud or the recording medium through the demultiplexing and data search unit 2301, and the active time and the filter are obtained.
- the coefficient attribute information and the filter coefficient data 1-1 are supplied to the controller 2308.
- the controller 2308 temporarily stores the filter coefficient data 1-2 received from the filter coefficient decoding unit 2305 and its attribute information in the filter coefficient memory 2309.
- the controller 2308 reads out the filter coefficient data 1-1 and 1-2 and these attribute information from the filter coefficient memory 2309 and supplies them to the image quality improving unit 2306.
- FIG. 25 shows an example of a data format of data 1-1 of the filter coefficient multiplexed with the multimedia transmission data shown in FIG. 24.
- the filter coefficient data shown in FIG. 25 has the data type (moving image) indicated by reference number 2501, the time code indicated by reference number 2502 (applied from the second frame of the video stream), and the data size indicated by reference number 2503 as attribute information. (Number of sets of filter coefficient data: 1), position information indicated by reference number 2504 (filter from the beginning to the 32nd layer of the first layer), and accuracy of data indicated by reference number 2505 (8-bit integer type) are included. I'm out. Then, following the attribute information 2501 to 2505, the location information on the cloud or the recording medium of the data file describing the filter coefficient data 1-1 indicated by the reference number 2506 is stored. The location information is described in, for example, a URL format.
- FIG. 26 shows an example of a data format of data 1-2 of the filter coefficient multiplexed with the multimedia transmission data shown in FIG. 24.
- the filter coefficient data shown in FIG. 26 has the data type (moving image) indicated by reference number 2601, the time code indicated by reference number 2602 (applied from the second frame of the video stream), and the data size indicated by reference number 2603 as attribute information. (Number of sets of filter coefficient data: 1), position information indicated by reference number 2604 (filter from 33rd to 64th in the first layer), and accuracy of data indicated by reference number 2605 (8-bit integer type). ) Is included. Then, following the attribute information 2601 to 2605, the location information on the cloud or the recording medium of the data file describing the data of the filter coefficient indicated by the reference number 2206 is stored. The location information is described in, for example, a URL format.
- the location information of the 32 sets of filter coefficient data in the first half of the first layer is transmitted by the filter coefficient data 1-1, and the filter coefficient data 1-2 is used by the first layer.
- the location information of the 32 sets of filter coefficients in the latter half of is transmitted.
- the filter coefficient of the entire filter of the first layer which can be acquired based on the location information in each of the filter coefficient data 1-1 and 1-2, is the active time specified by the time code (2 of the video stream). It is specified to start the application from the frame).
- the filter coefficient decoding unit 2305 sequentially acquires the filter coefficient via the demultiplexing and data acquisition unit 2301 based on the location information indicated by each of the filter coefficient data 1-1 and 1-2. It is passed to the controller 2308 together with the active time and attribute information.
- the controller 2308 sequentially stores them in the filter coefficient memory 2309. After that, when the active time specified by the time code arrives, the controller 2308 reads out the filter coefficients of the first half and the latter half of the first layer filter from the filter coefficient memory 2309 and passes them to the image quality improving unit 2306.
- the image quality improving unit 2306 overwrites the filter coefficient of the entire filter of the first layer passed from the controller 2308, updates the learning model in the image quality improving unit 2306, and performs two frames of the video frame which is the active time. Apply from the eyes.
- the active time specified by the time code is assumed to be the display time of the video frame transmitted after the order in which the filter coefficient data 1-1 and 1-2 are transmitted.
- FIG. 27 shows a processing procedure executed when the content reproduction system 2300 according to the second embodiment receives a multiplexed bit stream in the form of a flowchart.
- the demultiplexed and data retrieval unit 2301 first receives the multiplexed bit based on the information described in the media header attached to the beginning of the media data.
- the stream is demultiplexed into a bit stream for each media (step S2702) and distributed to each of the video decoding unit 2302, the audio decoding unit 2303, the auxiliary data decoding unit 2304, and the filter coefficient decoding unit 2305 in the subsequent stage.
- the demultiplexed bit stream is a bit stream other than the filter coefficient, that is, any of video, audio, and auxiliary data (No in step S2703)
- the video decoding unit 2302 and the audio decoding unit 2303 Alternatively, it is assigned to the corresponding decoding unit among the auxiliary data decoding units 2304.
- the decoding processes performed by each of the video decoding unit 2302, the audio decoding unit 2303, and the auxiliary data decoding unit 2304 are well known in the art and are not directly related to the technique proposed in the present specification. Is omitted.
- the filter coefficient decoding unit 2305 analyzes the media header (step S2704), and further, the attribute information of the filter coefficient. Get (type, size, position, accuracy, etc.).
- the filter coefficient decoding unit 2305 uses the same multimedia as the filter coefficient data specified in the attribute information (which is the target of update in the current multimedia transmission data) based on the information in the media header and the like. It is checked whether or not it is stored in the transmission data (step S2705). Alternatively, the filter coefficient decoding unit 2305 checks whether the location information of the filter coefficient data is stored in the multimedia transmission data.
- the filter coefficient decoding unit 2305 acquires the location information such as the URL extracted from the filter coefficient bit stream. (Step S2706).
- step S2707 when the filter coefficient decoding unit 2305 acquires the filter coefficient data file from the cloud or the recording medium designated by the location information such as the URL, or acquires the filter coefficient data from the filter coefficient bit stream (step S2707). , Active time and attribute information to controller 2308 (step S2708).
- the controller 2308 temporarily stores the received filter coefficient and attribute information in the filter coefficient memory 2309 (step S2709).
- the controller 2308 reads out the corresponding filter coefficient and its attribute information from the filter coefficient memory 2309 (step S2711) and supplies it to the image quality improving unit 2306.
- the image quality improving unit 2306 Based on the attribute information, the image quality improving unit 2306 overwrites and saves the filter coefficient in the corresponding layer of the corresponding media type or the specified area in the layer, and updates the learning model in the image quality improving unit 2306. (Step S2712).
- the high image quality improving unit 2306 performs high image quality processing on the video signal output from the video decoding unit 2302 by using the updated learning model thereafter (step S2713).
- the image quality improving unit 2306 performs super-resolution processing for generating a high-resolution video signal from a low-resolution or standard-resolution video signal, and high-quality processing such as high dynamic range.
- the content provider sets the filter coefficient of the learning model to be updated and its attribute information together with the bitstream of each media data of video, audio, and auxiliary data. Is multiplexed and transmitted. However, unique identification information (ID) is assigned to each set of filter coefficients so that a plurality of types of filter coefficients can be transmitted and the plurality of types of filter coefficients can be used properly. Further, when the set of filter coefficients is divided into a plurality of times and transmitted, the same ID is assigned to all the divided subsets.
- ID unique identification information
- the content provider pre-transmits multiple types of filter coefficients.
- the content provider has the ID of the filter coefficient and the time information for activating the filter coefficient as a command to select and execute one filter coefficient from a plurality of types of filter coefficients that have been transmitted in advance. Is specified for transmission.
- the time information is also called a time code or a time stamp, and is the same type of time code as the time code that controls the media (video stream, etc.) to which the filter coefficient is applied.
- the content provider transmits a plurality of types of filter coefficients in advance before the active time at which each filter coefficient is activated on the content receiving side. That is, the start of application of the filter coefficient can be controlled at a time different from the time of transmission by the pre-transmission of the filter coefficient and the command transmission.
- the content provider transmits in advance, as a filter coefficient for super-resolution processing, an untyped filter coefficient A for an image with a lot of noise and a filter coefficient B for an image with a little noise. Then, it is possible to control the receiving side to apply an appropriate filter coefficient of A or B according to the amount of noise included in each frame of the moving image when the content is provided (broadcasting or distribution).
- a filter coefficient memory for storing the filter coefficient for each ID and a controller for controlling the input / output of the filter coefficient memory are provided. Then, when the received multiplexed bit stream is demultiplexed and the information regarding the filter coefficient to which the ID is given is fetched, the controller sets the filter coefficient in the memory area corresponding to the ID in the filter coefficient memory. Store. After that, when a command including the ID of the filter coefficient and the time information for activating the filter coefficient arrives from the content provider, the controller receives the memory corresponding to the ID in the filter coefficient memory when the active time arrives. The filter coefficient is extracted from the region, and application to the high-quality processing of the target media (for example, super-resolution processing of a low-resolution video signal) is started.
- the target media for example, super-resolution processing of a low-resolution video signal
- FIG. 28 schematically shows a configuration example of the content reproduction system 2800 according to the third embodiment.
- the content reproduction system 2800 is also configured to receive broadcast signals, media reproduction signals, and stream distribution contents and output video and audio signals.
- the content playback system 2800 is equipped with a tuner, an HDMI (registered trademark) interface, a network interface, and the like, but is omitted in FIG. 28.
- the content reproduction system 2800 is, for example, a television receiver or a set-top box.
- the content reproduction system 2800 includes a non-multiplexing unit 2801, a video decoding unit 2802, an audio decoding unit 2803, an auxiliary data decoding unit 2804, a filter coefficient decoding unit 2805, an image quality improving unit 2806, and a sound quality improving unit. It includes a 2807, a controller 2808, a filter coefficient memory 2809, an image display unit 2810, and an audio output unit 2811.
- the video decoding unit 2802, the audio decoding unit 2803, the auxiliary data decoding unit 2804, the image quality improving unit 2806, the sound quality improving unit 2807, the image display unit 2810, and the audio output unit 2811 are shown in FIG. Since it has the same functions as the components having the same names as those in the content playback system 100, the description thereof will be omitted here.
- the non-multiplexing unit 2801 demultiplexes the multiplexed bit stream received from the outside as a broadcast signal, a reproduction signal, or streaming data into a video bit stream, an audio bit stream, an auxiliary bit stream, and a filter coefficient bit stream. It is distributed to each of the video decoding unit 2802, the audio decoding unit 2803, the auxiliary data decoding unit 2804, and the filter coefficient decoding unit 2805 in the subsequent stage. However, the filter coefficient bit stream is not always multiplexed in the received multiplexed bit stream, and in this case, the filter coefficient bit stream is not supplied to the filter coefficient decoding unit 2805. Further, when the control command for specifying the ID and the active time is demultiplexed from the multiplexing bit stream, the non-multiplexing unit 2801 shall distribute to the controller 2809 via the filter coefficient decoding unit 2805.
- the filter coefficient decoding unit 2805 decodes the filter coefficient bit stream encoded by a predetermined coding method, extracts the attribute information of the filter coefficient and the data body of the filter coefficient, and supplies the data to the controller 2808.
- the attribute information includes the ID assigned to the sent filter coefficient, the data type of the sent filter coefficient (for moving images, still images, graphics, etc.), and the data size of the sent filter coefficient (for moving images, still images, graphics, etc.). The distinction between the entire layer or a part of it), the position information of the filter coefficient (which range of which layer is overwritten), and the accuracy (32-bit floating point type, 16-bit integer type, 8-bit integer type). Contains information about (type, etc.).
- the controller 2808 controls the input / output of the filter coefficient memory 2809. Specifically, when the controller 2808 receives the filter coefficient and its ID information and the attribute information from the filter coefficient decoding unit 2805, the filter coefficient and its attribute information are stored in the memory area corresponding to the ID information in the filter coefficient memory 2809. To store.
- the controller 2808 when the controller 2808 receives a control command for specifying the ID of the filter coefficient and the active time, when the active time arrives, the controller 2808 filters from the memory area corresponding to the ID in the memory for the filter coefficient 2809. The coefficient and its attribute information are read out and supplied to the image quality improving unit 2806.
- the active time is a time that specifies the start of application of the filter coefficient to the target media (in the example shown in FIG. 28, the video stream is applied).
- the image quality improving unit 2806 updates the learning model in the image quality improving unit 2806 by overwriting and saving the filter coefficient in the corresponding layer of the corresponding media type or the specified area in the layer based on the attribute information. .. After that, the image quality improving unit 2806 uses the updated learning model to perform high image quality processing such as super-resolution processing and high dynamic range on the video signal output from the video decoding unit 2802.
- the content reproduction system 2800 stores the filter coefficient transmitted in advance in the memory area corresponding to the ID in the filter coefficient memory 2809 and then receives a control command for specifying the ID and the active time. , It is possible to start the high image quality processing by applying the filter coefficient specified by the ID from the active time.
- the controller 2808 is drawn so as to output the filter coefficient and the attribute information stored in each memory area in the filter coefficient memory 2809 only to the sound quality improving unit 2806, but the controller 2808 is drawn.
- the attribute information type information, position information, etc.
- the filter coefficient specified by the ID are supplied to the high-quality sound unit 2807 to improve the sound quality. It should be understood that the learning model update process is performed in the same manner as above.
- FIG. 29 schematically shows a multimedia transmission data format in which each media data such as video, audio, and auxiliary data, a filter coefficient of a learning model and its attribute information, and a control command are multiplexed and transmitted. There is.
- the filter coefficient of the learning model multiplexed in the transmission data format is data for updating the filter coefficient of the learning model related to the improvement of the quality of any media data included in the same transmission data.
- the multimedia transmission data format is configured by sequentially concatenating the data of each media to which the media header is attached, starting with the sequence header indicated by the reference number 2901.
- the main body of the video data shown by reference number 2903 is transmitted following the media header of the video shown by reference number 2902.
- Subsequent media header of the filter coefficient indicated by reference number 2904 is added with ID information of the filter coefficient (ID: 0 in this case), and immediately after that, data 0 of the filter coefficient (ID: 0) indicated by reference number 2905 is transmitted. Will be done.
- the ID information of the filter coefficient (ID: 1 in this case) is added to the media header of the filter coefficient indicated by the reference number 2906 thereafter, and immediately after that, the data 1 of the filter coefficient (ID: 1) indicated by the reference number 2907 is added. Is transmitted. Further, after that, the control command indicated by the reference number 2908 is transmitted.
- the control command includes the ID of the filter coefficient at which the application is to be started and the active time that specifies the start time of the application of the filter coefficient.
- the non-multiplexing unit 2801 identifies the media type of the immediately following media data body based on the media header and decodes the video. It can be sequentially distributed to the unit 2802, the audio decoding unit 2803, the auxiliary data decoding unit 2804, and the filter coefficient decoding unit 2805. Further, when the control command for specifying the ID and the active time is demultiplexed from the multiplexing bit stream, the non-multiplexing unit 2801 shall distribute to the controller 2809 via the filter coefficient decoding unit 2805.
- the filter coefficient decoding unit 2805 decodes the filter coefficient bit stream encoded by a predetermined coding method and extracts the filter coefficient ID: 0, the attribute information of the filter coefficient, and the data 0 of the filter coefficient, It supplies to the controller 2808. Then, the controller 2808 stores the filter coefficient data 0 and its attribute information received from the filter coefficient decoding unit 2805 in the memory area corresponding to ID: 0 in the filter coefficient memory 2809.
- the filter coefficient decoding unit 2805 extracts the filter coefficient ID: 1, the filter coefficient attribute information, and the filter coefficient data 1 from the coded filter coefficient bit stream, it also supplies the controller 2808 in the same manner. .. Then, the controller 2808 stores the filter coefficient data 1 and its attribute information received from the filter coefficient decoding unit 2805 in the memory area corresponding to ID: 1 in the filter coefficient memory 2809.
- the controller 2808 sets the filter coefficient data and the filter coefficient data from the memory area corresponding to the ID specified by the control command in the filter coefficient memory 2809.
- the attribute information is read out and supplied to the image quality improving unit 2806.
- FIG. 30 shows an example of a data format of data 0 having a filter coefficient multiplexed on the multimedia transmission data shown in FIG. 29.
- the filter coefficient data shown in FIG. 30 has the data type (moving image) indicated by reference number 3001, the ID information (ID: 0) indicated by reference number 3002, and the data size indicated by reference number 3003 (filter coefficient data) as attribute information.
- the number of sets: 1), the position information indicated by the reference number 3004 (the full set of the filters of the first layer), and the accuracy of the data indicated by the reference number 3005 (8-bit integer type) are included.
- FIG. 31 shows an example of a data format of data 1 having a filter coefficient multiplexed with the multimedia transmission data shown in FIG. 29.
- the filter coefficient data shown in FIG. 31 has the data type (moving image) indicated by the reference number 3101, the ID information (ID: 1) indicated by the reference number 3102, and the data size indicated by the reference number 3103 (filter coefficient data) as attribute information.
- the number of sets: 1), the position information indicated by the reference number 3104 (the full set of the filters of the first layer), and the accuracy of the data indicated by the reference number 3105 (16-bit integer type) are included.
- FIG. 32 shows an example of a data format of a control command multiplexed with the multimedia transmission data shown in FIG. 29.
- the control command shown in FIG. 32 includes the control command type information indicated by the reference number 3201, the ID information indicated by the reference number 3202, and the time code indicated by the reference number 3203.
- the type information 3201 indicates the type of media (“moving image” in the illustrated example) targeted by the control command.
- the ID information 3202 indicates the ID of the filter coefficient designated by the control command (ID: 1 in the illustrated example).
- the time code 3203 indicates an active time (in the illustrated example, the second frame of the moving image) at which the application of the filter coefficient specified in the ID information 3202 is started.
- the controller 2808 sequentially fills the memory area corresponding to each ID in the filter coefficient memory 2809 as shown in FIGS. 30 and 31. Store. After that, the transmission of the control command shown in FIG. 32 instructs the application of the pre-transmitted filter coefficient.
- the controller 2808 reads the filter coefficient and its attribute information from the memory area in the filter coefficient memory 2809 corresponding to the ID specified by the control command to improve the image quality. Hand over to section 2806.
- the image quality improving unit 2806 overwrites the filter coefficient of the entire filter of the first layer passed from the controller 2808, updates the learning model in the image quality improving unit 2806, and performs two frames of the video frame which is the active time. Apply from the eyes.
- FIG. 33 schematically shows another configuration example of the content reproduction system 3300 according to the third embodiment.
- the content reproduction system 3300 is also configured to receive broadcast signals, media reproduction signals, and stream distribution contents and output video and audio signals.
- the content playback system 3300 is equipped with a tuner, an HDMI (registered trademark) interface, a network interface, and the like, but they are omitted in FIG. 33.
- the content reproduction system 3300 is, for example, a television receiver or a set-top box.
- the content reproduction system 3300 includes a non-multiplexing and data retrieval unit 3301, a video decoding unit 3302, an audio decoding unit 3303, an auxiliary data decoding unit 3304, a filter coefficient decoding unit 3305, and a high image quality improving unit 3306. It includes a sound quality improving unit 3307, a controller 3308, a filter coefficient memory 3309, an image display unit 3310, and an audio output unit 3311.
- the video decoding unit 3302, the audio decoding unit 3303, the auxiliary data decoding unit 3304, the image quality improving unit 3306, the sound quality improving unit 3307, the image display unit 3310, and the audio output unit 3311 are shown in FIG. Since it has the same function as the component having the same name in the content reproduction system 300, the description thereof is omitted here.
- the demultiplexing and data retrieval unit 3301 demultiplexes the multiplexed bit stream received from the outside into a video bit stream, an audio bit stream, an auxiliary bit stream, and a filter coefficient bit stream, and the subsequent video decoding unit 3302 and audio It is distributed to each of the decoding unit 3303, the auxiliary data decoding unit 3304, and the filter coefficient decoding unit 3305.
- the filter coefficient bit stream is not always multiplexed in the received multiplexed bit stream, and in this case, the filter coefficient bit stream is not supplied to the filter coefficient decoding unit 3305.
- the demultiplexing unit 3301 shall distribute to the controller 3309 via the filter coefficient decoding unit 3305.
- the demultiplexing and data search unit 3301 performs data acquisition processing on the cloud or recording media via a network interface (not shown).
- data is handled in file units.
- the location of the file on the cloud or recording media is described in the form of a URI or URL.
- the filter coefficient decoding unit 3305 decodes the filter coefficient bit stream encoded by a predetermined coding method to extract the attribute information of the filter coefficient and the data body unit of the filter coefficient.
- the data body of the filter coefficient stores not the filter coefficient data itself but the information on the location of the data file in which the filter coefficient is described on the cloud or recording media. Therefore, when the filter coefficient decoding unit 3305 decodes the filter coefficient bit stream and acquires the location information described in, for example, the URL format, the filter coefficient decoding unit 3305 transfers the filter coefficient data from the cloud or the recording medium through the demultiplexing and data search unit 3301. Get the file. Then, the filter coefficient decoding unit 3305 supplies the attribute information of the filter coefficient and the data of the filter coefficient to the controller 3308.
- the attribute information includes the data type of the sent filter coefficient (for moving images, still images, graphics, etc.), the data size of the sent filter coefficient (distinguishing between a certain layer as a whole or a part thereof, etc.) ), The position information of the filter coefficient (which range of which layer is overwritten), and the accuracy (32-bit floating point number type, 16-bit integer type, 8-bit integer type, etc.).
- the controller 3308 controls the input / output of the filter coefficient memory 3309. Specifically, when the controller 3308 receives the filter coefficient and its ID information and the attribute information from the filter coefficient decoding unit 3305, the controller 3308 transmits the filter coefficient and its attribute information to the memory area corresponding to the ID information in the filter coefficient memory 3309. Store in.
- the controller 3308 when the controller 3308 receives the control command for specifying the ID of the filter coefficient and the active time, when the active time arrives, the controller 3308 filters from the memory area corresponding to the ID in the memory for the filter coefficient 3309.
- the coefficient and its attribute information are read out and supplied to the image quality improving unit 3306.
- the active time is a time that specifies the start of application of the filter coefficient to the target media (in the example shown in FIG. 33, the video stream is applied).
- the image quality improving unit 3306 updates the learning model in the image quality improving unit 3306 by overwriting and saving the filter coefficient in the corresponding layer of the corresponding media type or the designated area in the layer based on the attribute information. .. After that, the image quality improving unit 3306 uses the updated learning model to perform high image quality processing such as super-resolution processing and high dynamic range on the video signal output from the video decoding unit 3302.
- the content reproduction system 3300 stores the filter coefficient transmitted in advance in the memory area corresponding to the ID in the filter coefficient memory 3309, and then receives a control command for specifying the ID and the active time. , It is possible to start the high image quality processing by applying the filter coefficient specified by the ID from the active time.
- the filter coefficient and attribute information temporarily stored in each memory area in the filter coefficient memory 3309 by the controller 3308 are drawn so as to be output only to the sound quality improving unit 3306, but the controller 3308 is drawn.
- the attribute information type information, position information, etc.
- filter coefficient are supplied to the high-quality sound unit 3307, and the learning model for high-quality sound is updated. It should be understood that the process is carried out in the same manner as above.
- FIG. 34 schematically shows a multimedia transmission data format in which each media data such as video, audio, and auxiliary data, a filter coefficient of a learning model and its attribute information, and a control command are multiplexed and transmitted. There is.
- the filter coefficient of the learning model multiplexed in the transmission data format is data for updating the filter coefficient of the learning model related to the improvement of the quality of any media data included in the same transmission data.
- the multimedia transmission data format is configured by sequentially concatenating the data of each media to which the media header is attached, starting with the sequence header indicated by the reference number 3401.
- the main body of the video data shown by the reference number 3403 is transmitted following the media header of the video shown by the reference number 3402.
- Subsequent ID information of the filter coefficient (ID: 0 in this case) is added to the media header of the filter coefficient indicated by reference number 3404, and immediately after that, it is identified by ID: 0 as the data body of the filter coefficient indicated by reference number 3505.
- ID: 0 the data body of the filter coefficient indicated by reference number 3505.
- the attribute information of the filter coefficient data and the location of the data file on the cloud or recording media are transmitted, for example, in the URL format.
- ID information of the filter coefficient (ID: 1 in this case) is added to the media header of the filter coefficient indicated by the reference number 3506 thereafter, and immediately after that, ID: 1 is used as the data body of the filter coefficient indicated by the reference number 3507.
- the attribute information of the filter coefficient data identified in (1) and the location of the data file on the cloud or recording media are transmitted, for example, in the URL format.
- the control command indicated by the reference number 3508 is transmitted.
- the control command includes the ID of the filter coefficient at which the application is to be started and the active time that specifies the start time of the application of the filter coefficient.
- the demultiplexing and data search unit 3301 identifies the media type of the immediately following media data body based on the media header. , Video decoding unit 3302, audio decoding unit 3303, auxiliary data decoding unit 3304, and filter coefficient decoding unit 3305. Further, when the control command for specifying the ID and the active time is demultiplexed from the multiplexed bit stream, the demultiplexing and data retrieval unit 3301 shall distribute to the controller 3309 via the filter coefficient decoding unit 3305.
- the filter coefficient decoding unit 3305 decodes the filter coefficient bit stream encoded by a predetermined coding method, and decodes the filter coefficient bit stream to identify the filter coefficient ID: 0, the filter coefficient attribute information, and the filter ID: 0.
- the filter coefficient data identified by ID: 0 is acquired from the cloud or the recording medium through the demultiplexing and data search unit 3301.
- the filter coefficient decoding unit 3305 supplies the attribute information and the filter coefficient data of the filter coefficient identified by ID: 0 to the controller 3308.
- the controller 3308 stores the filter coefficient data and its attribute information received from the filter coefficient decoding unit 3305 in the memory area corresponding to ID: 0 in the filter coefficient memory 3309.
- the filter coefficient decoding unit 3305 extracts the ID: 1 of the filter coefficient, the attribute information of the filter coefficient, and the location information of the filter coefficient data identified by ID: 1 from the coded filter coefficient bit stream. Similarly, the filter coefficient data identified by ID: 1 is acquired from the cloud or recording media through the demultiplexing and data search unit 3301. Then, the filter coefficient decoding unit 3305 supplies the attribute information and the filter coefficient data of the filter coefficient identified by ID: 1 to the controller 3308.
- the controller 3308 stores the filter coefficient data and its attribute information received from the filter coefficient decoding unit 3305 in the memory area corresponding to ID: 1 in the filter coefficient memory 3309.
- the controller 3308 receives the filter coefficient data and its filter coefficient data from the memory area corresponding to the ID specified by the control command in the filter coefficient memory 3309.
- the attribute information is read out and supplied to the image quality improving unit 3306.
- FIG. 35 shows an example of a data format of the filter coefficient data (ID: 0) multiplexed with the multimedia transmission data shown in FIG. 34.
- the filter coefficient data shown in FIG. 35 has the data type (moving image) indicated by reference number 3501, the ID information (ID: 0) indicated by reference number 3502, and the data size indicated by reference number 3503 (filter coefficient data) as attribute information.
- the number of sets: 1), the position information indicated by the reference number 3504 (the full set of the filters of the first layer), and the accuracy of the data indicated by the reference number 3505 (8-bit integer type) are included.
- the location information of the filter coefficient data identified by the ID: 0, which is indicated by the reference number 3506, on the cloud or the recording medium is stored.
- the location information is described in, for example, a URL format.
- FIG. 36 shows an example of a data format of the filter coefficient data (ID: 1) multiplexed with the multimedia transmission data shown in FIG. 34.
- the filter coefficient data shown in FIG. 36 has the data type (moving image) indicated by reference number 3601, the ID information (ID: 1) indicated by reference number 3602, and the data size indicated by reference number 3603 (filter coefficient data) as attribute information.
- the number of sets: 1), the position information indicated by reference number 3604 (full set of filters of the first layer), and the accuracy of the data indicated by reference number 3605 (16-bit integer type) are included.
- the location information on the cloud or recording media of the filter coefficient data identified by ID: 1 indicated by the reference number 3606 is stored.
- the location information is described in, for example, a URL format.
- FIG. 37 shows an example of a data format of a control command multiplexed with the multimedia transmission data shown in FIG. 34.
- the control command shown in FIG. 37 includes the control command type information indicated by the reference number 3701, the ID information indicated by the reference number 3702, and the time code indicated by the reference number 3703.
- the type information 3701 indicates the type of media (“moving image” in the illustrated example) targeted by the control command.
- the ID information 3702 indicates the ID of the filter coefficient designated by the control command (ID: 1 in the illustrated example).
- the time code 3703 indicates an active time (in the illustrated example, the second frame of the moving image) at which the application of the filter coefficient specified in the ID information 3702 is started.
- the controller 3308 sequentially stores the filter coefficient data in the filter coefficient memory 2809 in the memory area corresponding to each ID. .. After that, the transmission of the control command shown in FIG. 37 instructs the application of the pre-transmitted filter coefficient.
- the controller 3308 reads the filter coefficient and its attribute information from the memory area in the filter coefficient memory 3309 corresponding to the ID specified by the control command to improve the image quality. Hand over to unit 3306.
- the image quality improving unit 3306 overwrites the filter coefficient of the entire filter of the first layer passed from the controller 3308, updates the learning model in the image quality improving unit 3306, and performs two frames of the video frame which is the active time. Apply from the eyes.
- FIG. 38 shows a processing procedure executed when the content reproduction system 3300 according to the third embodiment receives a multiplexed bit stream in the form of a flowchart.
- the demultiplexed and data retrieval unit 3301 first receives the multiplexed bit based on the information described in the media header attached to the beginning of the media data.
- the stream is demultiplexed into a bit stream for each media (step S3802), and distributed to each of the video decoding unit 3302, the audio decoding unit 3303, the auxiliary data decoding unit 3304, and the filter coefficient decoding unit 3305 in the subsequent stage.
- the demultiplexed bit stream is a bit stream other than the filter coefficient, that is, any of video, audio, and auxiliary data (No in step S3303 and No in step S3814)
- the video decoding unit 3302 Audio decoding unit 3303 or auxiliary data decoding unit 3304, which is assigned to the corresponding decoding unit.
- the decoding processes performed by each of the video decoding unit 3302, the audio decoding unit 3303, and the auxiliary data decoding unit 3304 are well known in the art and are not directly related to the technique proposed in the present specification. Is omitted.
- the filter coefficient decoding unit 2305 analyzes the media header (step S3804), and further ID information and attributes of the filter coefficient. Get information (type, size, position, accuracy, etc.).
- the filter coefficient decoding unit 3305 uses the same multimedia as the filter coefficient data specified in the attribute information (which is the target of update in the current multimedia transmission data) based on the information in the media header and the like. It is checked whether or not it is stored in the transmission data (step S3805). Alternatively, the filter coefficient decoding unit 3305 checks whether the location information of the filter coefficient data is stored in the multimedia transmission data.
- the filter coefficient decoding unit 3305 acquires the location information such as the URL extracted from the filter coefficient bit stream. (Step S3806).
- the filter coefficient decoding unit 3305 acquires the filter coefficient data file from the cloud or the recording medium designated by the location information such as the URL, or acquires the filter coefficient data from the filter coefficient bit stream (step S3807). , Passed to the controller 3308 together with the attribute information (step S3808).
- the controller 3308 stores the received filter coefficient and attribute information in the memory area corresponding to the ID in the filter coefficient memory 3309 (step S3809).
- step S3814 the controller 3308 uses the filter coefficient decoding unit 3305.
- the received control command is analyzed (step S3815) to acquire the ID information of the filter coefficient instructing the application to the media and the active time when the application of the filter coefficient to the media is started.
- the controller 3308 reads the filter coefficient and its attribute information from the corresponding memory area in the filter coefficient memory 3309 (step S3811) and supplies the filter coefficient to the image quality improving unit 3306. ..
- the image quality improving unit 3306 updates the learning model in the image quality improving unit 3306 by overwriting and saving the filter coefficient in the corresponding layer of the corresponding media type or the designated area in the layer based on the attribute information. (Step S3812).
- the image quality improving unit 3306 performs high image quality processing on the video signal output from the video decoding unit 3302 using the updated learning model (step S3813).
- the high image quality unit 3306 performs super-resolution processing for generating a high resolution video signal from a low resolution or standard resolution video signal, and high image quality processing such as high dynamic range.
- the content receiving side has a function of storing one or a plurality of types of filter coefficient data provided from the outside in the memory and outputting the content to the outside as needed.
- the filter coefficient data can be stored. Easy to manage and handle.
- "as needed” includes the case where a request for external output is received from the outside and the case where the external output is directly instructed by the user through the UI (User Interface).
- the filter coefficient data read from the memory when the filter coefficient data read from the memory is output to the outside, it may be output as it is, but it may be output as a coded filter coefficient bit stream as in the case of reception.
- the output destination of the filter coefficient data may be a server on the cloud, an external or internal disk, or a cartridge type memory device such as a USB (Universal Serial Bus) memory.
- the output destination is the cloud or recording media
- the output location can be specified in the form of URI or URL.
- the requester for external output may specify the output location in the form of URI or URL.
- FIG. 39 schematically shows a configuration example of the content reproduction system 3900 according to the fourth embodiment.
- the content reproduction system 3900 is also configured to receive broadcast signals, media reproduction signals, and stream distribution contents and output video and audio signals.
- the content playback system 3900 is equipped with a tuner, an HDMI (registered trademark) interface, a network interface, and the like, but they are omitted in FIG. 39.
- the content reproduction system 3900 is, for example, a television receiver or a set-top box.
- the content reproduction system 3900 includes a non-multiplexed data search and data upload unit 3901, a video decoding unit 3902, an audio decoding unit 3903, an auxiliary data decoding unit 3904, a filter coefficient decoding unit 3905, and a sound quality improving unit 3906. It includes a high-quality sound unit 3907, a controller 3908, a filter coefficient memory 3909, a filter coefficient coding unit 3910, an image display unit 3911, and an audio output unit 3912.
- the video decoding unit 3902, the audio decoding unit 3903, the auxiliary data decoding unit 3904, the image quality improving unit 3906, the sound quality improving unit 3907, the image display unit 3911, and the audio output unit 3912 are shown in FIG. Since it has the same function as the component having the same name in the content reproduction system 100, the description thereof is omitted here.
- the non-multiplexed data search and data upload unit 3901 is a non-multiplexed and data search unit in the content reproduction system 3300 according to the second embodiment for each process of demultiplexing the transmission stream and acquiring the filter coefficient data. It is the same as 3301.
- the non-multiplexed data search and data upload unit 3901 can also perform a process of uploading data to an output destination designated by a URI or URL format, or recording data in a USB memory.
- the filter coefficient decoding unit 3905 has the same function as the filter coefficient decoding unit 3305 in the content reproduction system 3300 according to the second embodiment.
- the controller 3908 controls the input / output of the filter coefficient memory 3909. Specifically, the controller 3908 specifies an ID to store data in the corresponding memory area in the filter coefficient memory 3909 and read data from the corresponding memory area. Processing such as storing the filter coefficient data and the attribute information received from the outside in the filter coefficient memory 3909 and providing the filter coefficient data and the attribute information to the image quality improving unit 3906 at the time of the arrival of the active time is the second embodiment. Since it is the same as the case of, detailed description is omitted here.
- an external output request for filter coefficient data including ID information and output destination information is input to the content reproduction system 3900.
- Such an external output request may be in the form of a control command multiplexed on multimedia transmission data, or may be in the form of another command.
- the user may directly instruct external output through the UI.
- the controller 3908 When the controller 3908 reads the filter coefficient data and the attribute information from the memory area corresponding to the ID specified in the external output request, the controller 3908 outputs the filter coefficient data to the filter coefficient coding unit 3910.
- the filter coefficient coding unit 3910 encodes the ID, the filter coefficient data, and the attribute information to generate a filter coefficient bit stream.
- the non-multiplexed data search and data upload unit 3901 uploads the coded filter coefficient bit stream to the output destination specified by the format of URI or URL, or records it on a recording medium such as a USB memory.
- the present specification has mainly described embodiments in which the technology disclosed in the present specification is applied to a television receiver, the gist of the technology disclosed in the present specification is not limited to this.
- the techniques disclosed herein can be applied to various types of display devices that present video content to users. For example, a set-top box that receives a video stream, a multifunctional information terminal such as a smartphone or tablet that watches the video stream, a personal computer, or a media player that displays video content played from a recording medium such as a Blu-ray disc. , Applicable to the techniques disclosed herein.
- the technology disclosed in this specification can also have the following configuration.
- a receiver that receives a stream in which attribute information related to a weighting coefficient of a learning model trained to process content is multiplexed with the content.
- An acquisition unit that demultiplexes the received stream and acquires attribute information,
- a receiving device comprising.
- the learning model includes a learning model for improving the quality of content.
- the learning model includes a learning model for improving the image quality of images.
- the receiving device according to any one of (1) and (2) above.
- the learning model includes a learning model for super-resolution processing or high dynamic range of video.
- the receiving device according to (3) above.
- Content includes audio signals
- the learning model includes a learning model for extending the band for improving the sound quality of an audio signal.
- the receiving device according to any one of (1) to (4) above.
- the learning model includes a learning model for expanding the audio band.
- the attribute information includes the type of content to which the weighting factor is applied, the data size of the weighting factor to be updated, the position information on the learning model of the weighting factor to be updated, and the accuracy of the weighting factor data. Contains information about at least one of them, The receiving device according to any one of (1) to (6) above.
- the receiving unit receives the stream in which the weighting coefficient is further multiplexed, and receives the stream.
- the acquisition unit further acquires a weighting coefficient when the stream is demultiplexed.
- the receiving unit receives the stream in which the location information of the weighting coefficient is further multiplexed, and receives the stream.
- the acquisition unit further acquires a weighting coefficient based on the location information acquired by demultiplexing the stream.
- the learning model is updated based on the acquired weighting coefficient and attribute information, and a processing unit for processing the content is further provided.
- the receiving device according to any one of (8) and (9) above.
- a processing unit that processes content based on the learning model, Memory for storing weighting factors and A controller that controls the input / output of the weighting factor to the memory, With more
- the receiver receives the stream, which is further multiplexed with information about the time when the weighting factor application starts.
- the controller supplies the weighting coefficient read from the memory to the processing unit based on the time obtained by demultiplexing the stream.
- the receiving device according to any one of (1) to (7) above.
- a memory having a memory area for storing a weighting coefficient for each identification information, and A controller that controls the input / output of the weighting factor to the corresponding memory area in the memory based on the identification information.
- the controller supplies the processing unit with the weighting coefficient read from the corresponding memory area of the memory based on the identification information of the weighting coefficient at which the application is started and the command regarding the time at which the application is started.
- the receiving unit receives the stream in which the identification information of the weighting coefficient for starting the application and the command regarding the time for starting the application are further multiplexed.
- the receiving device according to (12) above.
- a memory for storing the weighting factor and A controller that controls the input / output of the weighting factor to the memory, With more The controller further controls the output of the weighting factor read from the memory to the outside.
- the receiving device according to any one of (1) to (13) above.
- a multiplexing unit that generates a stream in which attribute information related to the weighting coefficient of a learning model trained to process the content is multiplexed with the content.
- a transmission unit that transmits a multiplexed stream on a predetermined transmission medium, and A transmitter equipped with.
- (18) Content includes video
- the learning unit learns the weighting coefficient for improving the image quality of the image.
- the attribute information includes the type of content to which the weighting factor is applied, the data size of the weighting factor to be updated, the position information on the learning model of the weighting factor to be updated, and the accuracy of the weighting factor data. Contains information about at least one of them, The transmitter according to any one of (16) to (18) above.
- a multiplexing step that generates a stream in which attribute information regarding the weighting coefficient of a learning model trained to process the content is multiplexed with the content.
- a transmission step that transmits a multiplexed stream onto a predetermined transmission medium, Transmission method with.
- 100 ... Content playback system, 101 ... Non-multiplexing unit 102 ... Video decoding unit, 103 ... Audio decoding unit 104 ... Auxiliary data decoding unit, 105 ... High image quality unit, 106 ... High sound quality unit 107 ... Image display unit, 108 ... Audio output unit 200 ... Display, 201 ... Speaker unit, 201-1, 201-2 ... Exciter, 202 ... Stand 300 ... Content playback system, 301 ... Demultiplexing and data search unit 302 ... Video decoding unit, 303 ... Audio decoding unit 304 ... Auxiliary data decoding unit, 305 ... High image quality section, 306 ... High sound quality section 307 ... Image display section, 308 ...
- Audio output section 500 ... Content playback system, 501 ... Non-multiplexing section 502 ... Video decoding section, 503 ... Audio decoding section 504 ... Auxiliary data decoding Unit, 505 ... Filter coefficient decoding unit 506 ... High image quality unit, 507 ... High sound quality unit, 508 ... Image display unit 509 ... Audio output unit 1000 ... Content playback system 1001 ... Demultiplexing and data search unit, 1002 ... Video Decoding unit 1003 ... Audio decoding unit, 1004 ... Auxiliary data decoding unit 1005 ... Filter coefficient decoding unit, 1006 ... High image quality unit 1007 ... High sound quality unit 1008 ... Image display unit 1009 ... Audio output unit 1600 ...
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
コンテンツの高品質化に関する情報を受信する受信装置を提供する。 受信装置は、コンテンツを処理するように学習された学習モデルの重み係数に関する属性情報をコンテンツと多重化したストリームを受信する受信部と、受信したストリームを非多重化して属性情報を取得する取得部を具備する。属性情報は、重み係数を適用する対象となるコンテンツの種別、更新しようとする重み係数のデータサイズ、更新しようとする重み係数の学習モデル上における位置情報、重み係数のデータの精度のうち少なくとも1つに関する情報を含む。
Description
本明細書で開示する技術は、コンテンツに関する情報を受信する受信装置及び受信方法、並びに、コンテンツに関する情報を送信する送信装置及び送信方法に関する。
最近、超解像や高ダイナミックレンジといった画質向上に関する技術がテレビ受信機などに取り入れられてきている。また、音響に関しても、記録又は編集時に除去又は低域に圧縮された低解像度音源を高解像度音源に変換するハイレゾ技術が広く普及してきている。すなわち、テレビ受信機などのコンテンツ再生装置において、元のコンテンツを高品質化して再生出力してユーザ(視聴者)に提供することが一般的となりつつある。
例えば、深層学習(Deep Learning)により低解像度画像又は標準解像度画像から超解像度画像を推定するように事前学習した畳み込みニューラルネットワークを用いて、低解像度画像から高解像度画像を作成する超解像度処理方法が知られている(例えば、特許文献1並びに非特許文献2を参照のこと)。
また、CD(Compact Disc)などのメディアから再生され又はストリーミング配信された低解像度音源を、事前学習した学習モデルを用いて高解像度音源に変換してオーディオ出力する再生方法が知られている(例えば、特許文献2を参照のこと)。
映像の超解像処理や音源の高解像度化に使用する学習モデルを深層学習により生成するには厖大な学習データが必要であり、また深層学習を実施するには演算負荷が高い。このため、製造元などのサーバで深層学習などにより事前学習した学習モデルを、テレビ受信装置や音楽プレイヤーなどの機器に搭載して出荷するのが一般的である。ここで、事前学習した学習モデルについて、バックプロパゲーション(誤差逆伝播)技術などを利用して重み係数を更新し、さらには継続的に学習することは可能である。しかしながら、入手可能な学習データ量や演算負荷の制約などから、出荷後の製品上において学習モデルを再学習することは現実的でない。他方、製造元などのサーバでは、学習モデルの学習を継続的に行い、重み係数の更新を繰り返すことができるが、そのような学習の成果は後継機器に採用することはできるものの、出荷後の機器に反映されることはない。このため、エンドユーザは、最新の学習モデルで超解像処理やハイレゾ技術の恩恵を受けるには、新製品に買い替えるしかない。
Image Super-Resolution Using Deep.Convolutional Networks.Chao Dong,Chen Change Loy,Member,IEEE,Kaiming He,Member,IEEE,and Xiaoou Tang,Fellow,IEEE
本明細書で開示する技術の目的は、コンテンツの高品質化に関する情報を受信する受信装置及び受信方法、並びに、コンテンツの高品質化に関する情報を送信する送信装置及び送信方法を提供することにある。
本明細書で開示する技術は上記課題に鑑みてなされたものであり、その第1の側面は、
コンテンツを処理するように学習された学習モデルの重み係数に関する属性情報をコンテンツと多重化したストリームを受信する受信部と、
受信したストリームを非多重化して属性情報を取得する取得部と、
を具備する受信装置である。
コンテンツを処理するように学習された学習モデルの重み係数に関する属性情報をコンテンツと多重化したストリームを受信する受信部と、
受信したストリームを非多重化して属性情報を取得する取得部と、
を具備する受信装置である。
コンテンツは映像やオーディオ信号を含む。また、前記学習モデルは、映像を超解像処理又は高ダイナミックレンジ化といった高画質化処理するための学習モデルや、オーディオ信号の帯域拡張といった高音質化処理するための学習モデルを含む。
また、属性情報は、重み係数を適用する対象となるコンテンツの種別、更新しようとする重み係数のデータサイズ、更新しようとする重み係数の学習モデル上における位置情報、重み係数のデータの精度のうち少なくとも1つに関する情報を含む。
また、本明細書で開示する技術の第2の側面は、
コンテンツを処理するように学習された学習モデルの重み係数に関する属性情報をコンテンツと多重化したストリームを受信する受信ステップと、
受信したストリームを非多重化して属性情報を取得する取得ステップと、
を有する受信方法である。
コンテンツを処理するように学習された学習モデルの重み係数に関する属性情報をコンテンツと多重化したストリームを受信する受信ステップと、
受信したストリームを非多重化して属性情報を取得する取得ステップと、
を有する受信方法である。
また、本明細書で開示する技術の第3の側面は、
コンテンツを処理するように学習された学習モデルの重み係数に関する属性情報をコンテンツと多重化したストリームを生成する多重化部と、
多重化したストリームを所定の伝送メディア上に伝送する伝送部と、
を具備する送信装置である。
コンテンツを処理するように学習された学習モデルの重み係数に関する属性情報をコンテンツと多重化したストリームを生成する多重化部と、
多重化したストリームを所定の伝送メディア上に伝送する伝送部と、
を具備する送信装置である。
コンテンツは映像を含む。また、第3の側面に係る送信装置は、重み係数を学習する学習部をさらに備える。
また、属性情報は、重み係数を適用する対象となるコンテンツの種別、更新しようとする重み係数のデータサイズ、更新しようとする重み係数の学習モデル上における位置情報、重み係数のデータの精度のうち少なくとも1つに関する情報を含む。
また、本明細書で開示する技術の第4の側面は、
コンテンツを処理するように学習された学習モデルの重み係数に関する属性情報をコンテンツと多重化したストリームを生成する多重化ステップと、
多重化したストリームを所定の伝送メディア上に伝送する伝送ステップと、
を有する送信方法である。
コンテンツを処理するように学習された学習モデルの重み係数に関する属性情報をコンテンツと多重化したストリームを生成する多重化ステップと、
多重化したストリームを所定の伝送メディア上に伝送する伝送ステップと、
を有する送信方法である。
本明細書で開示する技術によれば、コンテンツの多重化ストリームからコンテンツの高品質化に関する情報を受信する受信装置及び受信方法、並びに、コンテンツの多重化ストリームでコンテンツの高品質化に関する情報を送信する送信装置及び送信方法を提供することができる。
なお、本明細書に記載された効果は、あくまでも例示であり、本明細書で開示する技術によりもたらされる効果はこれに限定されるものではない。また、本明細書で開示する技術が、上記の効果以外に、さらに付加的な効果を奏する場合もある。
本明細書で開示する技術のさらに他の目的、特徴や利点は、後述する実施形態や添付する図面に基づくより詳細な説明によって明らかになるであろう。
以下、図面を参照しながら本明細書で開示する技術の実施形態について詳細に説明する。
図1には、コンテンツ再生システム100の構成例を模式的に示している。図示のコンテンツ再生システム100では、コンテンツが提供される形態として、地上放送や衛星放送などの放送信号、ハードディスクドライブ(HDD)やブルーレイなどの記録メディアから再生される再生信号、クラウド上のストリーミングサーバなどから配信されるストリーミングコンテンツなどを想定している。ネットワークを利用した放送型の動画配信サービスとして、IPTVやOTT(Over The Top)などを挙げることができる。そして、これらのコンテンツは、映像、オーディオ、補助データ(字幕、テキスト、グラフィックス、番組情報など)といった各メディアデータのビットストリームを多重化した多重化ビットストリームとして、コンテンツ再生システム100に供給される。多重化ビットストリームは、例えばMPEG2 System規格に則って映像、オーディオなどの各メディアのデータが多重化されていることを想定している。
なお、コンテンツ再生システム100は、放送信号を選局受信するチューナ、メディア再生装置からの再生信号を入力するHDMI(登録商標)(High-Definition Multimedia Interface)インターフェース、ネットワーク接続するネットワークインターフェース(NIC)を装備しているが、図1では省略している。
コンテンツ再生システム100は、非多重化部(デマルチプレクサ)101と、映像復号部102と、オーディオ復号部103と、補助(Auxiliary)データ復号部104と、高画質化部105と、高音質化部106と、画像表示部107と、オーディオ出力部108を備えている。コンテンツ再生システム100は、例えばテレビ受信装置であってもよい。あるいは、コンテンツ再生システム100は、セットトップボックスのような端末装置であり、受信した多重化ビットストリームを処理して、画像表示部107及びオーディオ出力部108を備えたテレビ受信装置に処理後の映像及びオーディオ信号を出力するように構成してもよい。
非多重化部101は、放送信号、再生信号、又はストリーミングデータとして外部から受信した多重化ビットストリームを、映像ビットストリーム、オーディオビットストリーム、及び補助ビットストリームに非多重化して、後段の映像復号部102、オーディオ復号部103、及び補助データ復号部104の各々に分配する。
映像復号部102は、例えばMPEG(Moving Picture Experts Grouop)符号化された映像ビットストリームを復号処理して、ベースバンドの映像信号を出力する。なお、映像復号部102から出力される映像信号は、低解像度又は標準解像度の映像、あるいは低ダイナミックレンジ(LDR)又は標準ダイナミックレンジ(SDR)の映像であることを想定している。
オーディオ復号部103は、例えばMP3(MPEG Audio Layer3)あるいはHE-AAC(High Efficiency MPEG4 Advanced Audio Coding)などの符号化方式により符号化されたオーディオビットストリームを復号処理して、ベースバンドのオーディオ信号を出力する。なお、オーディオ復号部103から出力されるオーディオ信号は、高音域などの一部の帯域が除去又は圧縮された低解像度又は標準解像度のオーディオ信号であることを想定している。
補助データ復号部104は、符号化された補助ビットストリームを復号処理して、字幕、テキスト、グラフィックス、番組情報などを出力する。
高画質化部105は、映像復号部102から出力された映像信号及び補助データ復号部104から出力された字幕、テキスト、グラフィックス、番組情報などに対して高画質化処理を施す。映像復号部102から出力される映像信号は、低解像度又は標準解像度の映像、あるいは低ダイナミックレンジ又は標準ダイナミックレンジの映像である。高画質化部105は、低解像度又は標準解像度の映像信号から高解像度映像信号を生成する超解像処理や、高ダイナミックレンジ化などの高画質化処理を実施する。高画質化部105は、映像復号部102から出力された映像信号と補助データ復号部104から出力された字幕などの補助データとを合成した映像信号に対して高画質化処理を実施してもよいし、映像信号との字幕などの補助データとをそれぞれ個別の高画質化処理してから合成処理を行うようにしてもよい。いずれにせよ、高画質化部105は、映像信号の出力先である画像表示部107が許容する画面解像度又は輝度ダイナミックレンジの範囲内で、超解像処理や高ダイナミックレンジ化処理を実施するものとする。
本実施形態では、高画質化部105は、深層学習などの事前学習した学習モデルを有するニューラルネットワークを用いて低解像度又は標準解像度の映像から超解像度映像を推定し、あるいは、低ダイナミックレンジ又は標準ダイナミックレンジの画像から高ダイナミックレンジの映像を推定することを想定している。
高音質化部106は、オーディオ復号部103から出力されたオーディオ信号に対して高音質化処理を施す。オーディオ復号部103から出力されるオーディオ信号は、高音域などの一部の帯域が除去又は圧縮された低解像度又は標準解像度のオーディオ信号である。高音質化部106は、低解像度又は標準解像度のオーディオ信号を、除去又は圧縮された帯域を含む高解像度(ハイレゾ)オーディオ信号に帯域拡張したりする高音質化処理を実施する。
本実施形態では、高音質化部106は、深層学習などの事前学習した学習モデルを有するニューラルネットワークを用いて低解像度又は標準解像度のオーディオ信号からハイレゾオーディオ信号を推定することを想定している。
画像表示部107は、高画質化部105で高画質化処理が施された映像を表示した画面をユーザ(コンテンツの視聴者など)に提示する。もちろん、画像表示部107は、高画質化処理されない映像を表示してもよい。画像表示部107は、例えば液晶ディスプレイや有機EL(Electro-Luminescence)ディスプレイ、あるいは画素に微細なLED(Light Emitting Diode)素子を用いた自発光型ディスプレイ(例えば、特許文献3を参照のこと)などからなる表示デバイスである。
また、画像表示部107は、画面を複数の領域に分割して領域毎に明るさを制御する部分駆動技術を適用した表示デバイスであってもよい。透過型の液晶パネルを用いたディスプレイの場合、信号レベルの高い領域に相当するバックライトは明るく点灯させる一方、信号レベルの低い領域に相当するバックライトは暗く点灯させることで、輝度コントラストを向上させることができる。この種の部分駆動型の表示デバイスにおいては、暗部で抑えた電力を信号レベルの高い領域に配分して集中的に発光させる突き上げ技術をさらに利用して、(バックライト全体の出力電力は一定のまま)部分的に白表示を行った場合の輝度を高くして、高ダイナミックレンジを実現することができる(例えば、特許文献4を参照のこと)。
オーディオ出力部108は、高音質化部106で高音質化処理が施されたオーディオを出力する。もちろん、オーディオ出力部108は、高音質化処理されないオーディオ信号を出力してもよい。オーディオ出力部108は、スピーカーなどの音響発生素子で構成される。例えば、オーディオ出力部108は、複数のスピーカーを組み合わせたスピーカーアレイ(多チャンネルスピーカー若しくは超多チャンネルスピーカー)であってもよく、一部又は全部のスピーカーがテレビ受信装置に外付け接続されていてもよい。
コーン型スピーカーの他、フラットパネル型スピーカー(例えば、特許文献5を参照のこと)をオーディオ出力部108に用いることができる。もちろん、異なるタイプのスピーカーを組み合わせたスピーカーアレイをオーディオ出力部108として用いることもできる。また、スピーカーアレイは、振動を生成する1つ以上の加振器(アクチュエータ)によって画像表示部107を振動させることでオーディオ出力を行うものを含んでもよい。加振器(アクチュエータ)は、画像表示部107に後付けされるような形態であってもよい。図2には、ディスプレイへのパネルスピーカー技術の適用例を示している。ディスプレイ200は、背面のスタンド202で支持されている。ディスプレイ200の裏面には、スピーカーユニット201が取り付けられている。スピーカーユニット201の左端には加振器201-1が配置され、また、右端には加振器201-2が配置されており、スピーカーアレイを構成している。各加振器201-1及び201-2が、それぞれ左右のオーディオ信号に基づいてディスプレイ200を振動させて音響出力することができる。スタンド202が、低音域の音響を出力するサブウーファーを内蔵してもよい。なお、ディスプレイ200は、有機EL素子を用いた画像表示部107に相当する。
図3には、コンテンツ再生システム300の他の構成例を模式的に示している。このコンテンツ再生システム300も、放送信号やメディア再生信号、ストリーム配信コンテンツを受信して、映像及びオーディオ信号を出力するように構成されている。コンテンツ再生システム300は、チューナやHDMI(登録商標)インターフェース、ネットワークインターフェースなどを装備しているが、図3では省略している。コンテンツ再生システム300は、例えばテレビ受信装置やセットトップボックスである。
コンテンツ再生システム300は、非多重化(デマルチプレクサ)及びデータ検索部(Data Retriever)301と、映像復号部302と、オーディオ復号部303と、補助データ復号部304と、高画質化部305と、高音質化部306と、画像表示部307と、オーディオ出力部308を備えている。映像復号部302と、オーディオ復号部303と、補助データ復号部304と、高画質化部305と、高音質化部306と、画像表示部307と、オーディオ出力部308は、図1に示したコンテンツ再生システム100中のそれぞれ同一名のコンポーネントと同様の機能を備えているので、ここでは説明を省略する。
非多重化及びデータ検索部301は、外部から受信した多重化ビットストリームを非多重化するとともに、ネットワークインターフェース(図示しない)経由でクラウド上のデータの取得処理を行う。一般にデータはファイル単位で取り扱われる。また、クラウド又はディスクなどの記録メディア上のファイルの所在は、URI(Uniform Resource Indicator)又はURL(Uniform Resource Locator)の形式で記述される。
上述したように、図1に示したコンテンツ再生システム100では、高画質化部105並びに高音質化部106はそれぞれ、深層学習などの事前学習した学習モデルを有するニューラルネットワークを用いて、高画質化処理並びに高音質化処理を実施する。図3に示すコンテンツ再生システム300の高画質化部305及び高音質化部306についても同様である。
ここでは、図4を参照しながら、映像の超解像処理を例にとって、学習モデルを利用したコンテンツの高品質化について説明する。
高画質化部105は、第1層乃至第3層の3層のフィルタ群を備えている。第1層のフィルタ群は、それぞれf1×f1(例えば、9×9)マトリックスのフィルタをn1種類だけ備えている。同様に、第2層のフィルタ群は、それぞれf2×f2マトリックスのフィルタをn2種類だけ備え、第3層のフィルタ群は、それぞれf3×f3マトリックスのフィルタを備えているものとする。
第1層の処理では、入力された低解像度画像に対して、n1種類のf1×f1マトリックスの第1層フィルタを順次かけて、n1通りの特徴マップを生成する。
第2層の処理では、低解像度画像に関するn1通りの特徴マップに対して、n2種類のf2×f2マトリックスの第2層フィルタを順次かけて、高解像度画像のn2通りの特徴マップに非線形マッピングする。
そして、第3層の処理では、高解像度画像のn2通りの特徴マップに対して、隣接するf3×f3マトリックスのフィルタをかけて、高解像度画像を再構築して出力する。
上記のような超解像処理で使用される各フィルタは、マトリックスの要素毎にフィルタ係数を持つ。ここで言うフィルタ係数は、学習モデルにおける重み係数に相当する概念である。
図4に示した超解像処理は一例に過ぎない。但し、ニューラルネットワークを用いたいずれの超解像処理手法も、複数層からなり、且つ層毎に複数の重み係数を有するというネットワーク構造は類似する。
また、高ダイナミックレンジ化など超解像以外の高画質化処理、オーディオ信号の高音質化処理、並びに字幕などの補助データの高画質化処理においても、ニューラルネットワークを適用する場合には、複数層からなり、且つ層毎に複数の重み係数を有するというネットワーク構造は類似する。
各層のフィルタ係数は、深層学習などにより継続的に学習することができる。しかしながら、深層学習には厖大な学習データが必要であり、また深層学習を実施するには演算負荷が高い。このため、製造元などのサーバで深層学習などにより事前学習した学習モデルのフィルタ係数を高画質化部105や高音質化部106に設定して、コンテンツ再生システム100に相当する製品を出荷することが想定される。また、事前学習した学習モデルについて、バックプロパゲーション(誤差逆伝播)技術などを利用してフィルタ係数を更新しさらには継続して学習することは可能である。しかしながら、出荷後のコンテンツ再生システム100において再学習することは、入手可能な学習データ量や演算負荷の制約などから、現実的でない。コンテンツ再生システム300においても、同様にフィルタ係数の再学習を実施することは現実的でない。
他方、製造元などのサーバでは、学習モデルの学習を継続的に行い、フィルタ係数の更新を繰り返すことができる。そこで、本明細書では、サーバなどで継続的に学習して得られた最新の学習モデルのフィルタ係数に関する情報を出荷後の製品に伝送する伝送技術について、以下で提案する。
本提案に係る伝送技術によれば、映像、オーディオ、補助データといった各種メディアを多重化した多重化ビットストリームに、さらに学習モデルのフィルタ係数に関する情報を多重化して、所定の伝送メディア上に伝送することができる。したがって、テレビ受信装置などの機器の製造元が更新した学習モデルのフィルタ係数や、放送局が放送コンテンツ毎に適合するように更新した学習モデルのフィルタ係数、ストリーム配信事業者がストリーミングコンテンツ毎に適合するように更新した学習モデルのフィルタ係数を、随時、多重化ビットストリームに多重化して、テレビ受信装置などの機器に提供することができる。メディアのデータと学習モデルのフィルタ係数を、多重化して同時に提供することで、メディアとフィルタ係数の対応付けや取り扱いが容易になるというメリットもある。
また、学習モデルのすべてのフィルタ係数を伝送する必要はなく、層単位、あるいは層内部の特定の領域の単位で、フィルタ係数を伝送することによって、学習モデルを部分的に更新することも可能である。
また、テレビ受信装置などの多重化ビットストリームの受信側では、受信した多重化ビットストリームを非多重化して、学習モデルのフィルタ係数に関する情報が取り出された場合には、その情報に基づいて高画質化処理又は高音質化処理の学習モデルを随時更新することができる。
第1の実施例では、コンテンツの提供側からは、映像、オーディオ、及び補助データの各メディアデータのビットストリームとともに、更新する学習モデルのフィルタ係数及びその属性情報を多重化して伝送される。基本的に、多重化されるメディアとフィルタ係数は対応付けされているものとする。
ここで、属性情報は、更新の対象とするフィルタ係数の種別情報、並びに、更新しようとするフィルタ係数を特定する位置情報(例えば、更新しようとする層、又は更新しようとする層内の領域を示す情報)を含む。したがって、種別情報を指定することで、映像、オーディオ、又は補助データのいずれかに特化した学習モデルの更新が可能である。また、位置情報を指定することで、層単位あるいは層内部の特定の領域の単位で、部分的に学習モデルを更新することができる。
また、第1の実施例では、テレビ受信装置などのコンテンツの受信側は、受信した多重化ビットストリームを非多重化して、学習モデルのフィルタ係数に関する情報が取り出された場合には、その属性情報として指定されている種別情報に基づいて、映像、オーディオ、又は補助データのいずれかのメディアに特化した学習モデルの更新が可能である。また、属性情報として指定されている位置情報に基づいて、特定のメディアの学習モデルを部分的に更新することができる。
図5には、第1の実施例に係るコンテンツ再生システム500の構成例を模式的に示している。このコンテンツ再生システム500も、放送信号やメディア再生信号、ストリーム配信コンテンツを受信して、映像及びオーディオを出力するように構成されている。コンテンツ再生システム500は、チューナやHDMI(登録商標)インターフェース、ネットワークインターフェースなどを装備しているが、図5では省略している。コンテンツ再生システム500は、例えばテレビ受信装置やセットトップボックスである。
コンテンツ再生システム500は、非多重化部501と、映像復号部502と、オーディオ復号部503と、補助データ復号部504と、フィルタ係数復号部505と、高画質化部506と、高音質化部507と、画像表示部508と、オーディオ出力部509を備えている。映像復号部502と、オーディオ復号部503と、補助データ復号部504と、高画質化部506と、高音質化部507と、画像表示部508と、オーディオ出力部509は、図1に示したコンテンツ再生システム100中と同一名のコンポーネントとそれぞれ同様の機能を備えているので、ここでは説明を省略する。
非多重化部501は、放送信号、再生信号、又はストリーミングデータとして外部から受信した多重化ビットストリームを、映像ビットストリーム、オーディオビットストリーム、補助ビットストリーム、及びフィルタ係数ビットストリームに非多重化して、後段の映像復号部502、オーディオ復号部503、補助データ復号部504、及びフィルタ係数復号部505の各々に分配する。但し、受信した多重化ビットストリームに必ずしもフィルタ係数ビットストリームが多重化されているとは限らず、この場合には、フィルタ係数復号部505にフィルタ係数ビットストリームが供給されることはない。
フィルタ係数復号部505は、所定の符号化方式で符号化されたるフィルタ係数ビットストリームを復号処理して、フィルタ係数の属性情報とフィルタ係数のデータ本体とを抽出すると、高画質化部506に供給する。属性情報は、送られてきたフィルタ係数のデータ種別(動画像用、静止画用、グラフィックス用など)、送られてきたフィルタ係数のデータサイズ(ある層全体、又はその一部かの区別など)、フィルタ係数の位置情報(どの層のどの範囲を上書きするデータか)、並びに精度(32ビット浮動小数点数型、16ビット整数型、8ビット整数型など)に関する情報を含んでいる。
高画質化部506は、属性情報に基づいて、該当するメディア種別の該当する層又は層内の指定された領域にフィルタ係数を上書き保存して、高画質化部506内の学習モデルを更新する。高画質化部506は、以降は更新された学習モデルを用いて、映像復号部502から出力される映像信号に対して、超解像処理や高ダイナミックレンジ化といった高画質化処理を実施する。
なお、図5では、フィルタ係数復号部505から高画質化部506にのみ復号結果が出力するように描かれているが、フィルタ係数復号部505は、属性情報でメディア種別としてオーディオが指定されている場合には、高音質化部507に属性情報(種別情報、位置情報など)とフィルタ係数を供給し、高音質化のための学習モデルの更新処理が上記と同様に実施されるものと理解されたい。
図6には、映像、オーディオ、及び補助データなどの各メディアデータとともに、学習モデルのフィルタ係数及びその属性情報を多重化して伝送するマルチメディア伝送データフォーマットを模式的に示している。当該伝送データフォーマットで多重化される学習モデルのフィルタ係数は、同じ伝送データに含まれるいずれかのメディアデータの高品質化に関わる学習モデルのフィルタ係数を更新するためのデータである。
マルチメディア伝送データフォーマットは、参照番号601で示すシーケンスヘッダを先頭にして、メディアヘッダが付けられた各メディアのデータが順に連結されて構成される。図6に示す例では、参照番号602で示すフィルタ係数のメディアヘッダに続いて参照番号603で示すフィルタ係数のデータ本体が伝送され、その後、参照番号604で示すオーディオのメディアヘッダに続いて参照番号605で示すオーディオデータの本体が伝送される。さらにその後に、映像データのメディアヘッダ及び映像データの本体、映像データのメディアヘッダ及び映像データの本体、…の順に伝送されている。
コンテンツ再生システム500が図6に示すようなデータフォーマットからなるマルチメディア伝送データを受信すると、非多重化部501では、メディアヘッダに基づいて直後のメディアデータ本体のメディア種別を識別して、映像復号部502、オーディオ復号部503、補助データ復号部504、及びフィルタ係数復号部505に逐次振り分けることができる。
図7~図9には、図6に示したマルチメディア伝送データフォーマットに多重化されるフィルタ係数のデータフォーマット例をそれぞれ示している。
図7に示すフィルタ係数データは、属性情報として、参照番号701で示すデータ種別(動画像)、参照番号702で示すデータサイズ(フィルタ係数データのセット数:1)、参照番号703で示す位置情報(第1層のフィルタ全体)、及び、参照番号704で示すデータの精度(8ビット整数型)を含んでいる。そして、これらの属性情報701~704に続いて、参照番号705で示すフィルタ係数のデータが格納されている。例えば、第1層の9×9マトリックスのフィルタが全体でn1(=64)種類が存在する場合には、データ部分のサイズは、8×9×9×64=41,472ビットである。
高画質化部506は、フィルタ係数復号部505から図7に示すような属性情報及びフィルタ係数データが渡されると、位置情報に基づいて第1層の64種類のフィルタのすべてのフィルタ係数をデータ705で上書きして、高画質化部506内の学習モデルを更新する。
図8に示すフィルタ係数データは、属性情報として、参照番号801で示すデータ種別(動画像)、参照番号802で示すデータサイズ(フィルタ係数データのセット数:2)を含んでいる。図8に示す例では、メディアデータとして2セットのフィルタ係数データが含まれる。そして、1番目のセットの属性情報として、参照番号803で示すフィルタ係数データの位置情報(第1層のフィルタ全体)と参照番号804で示すデータの精度(8ビット整数型)を含み、続いて、参照番号805で示す1番目のセットのフィルタ係数データ本体が格納されている。
さらに続いて、2番目のセットの属性情報として、参照番号806で示すフィルタ係数データの位置情報(第3層のフィルタ全体)と参照番号807で示すデータの精度(16ビット整数型)を含み、続いて、参照番号808で示す2番目のフィルタ係数データ本体が格納されている。例えば、第2層の9×9マトリックスのフィルタが全体でn2(=32)種類が存在する場合には、データ部分のサイズは、16×9×9×32=41,472ビットである。
高画質化部506は、フィルタ係数復号部505から図8に示すような属性情報及びフィルタ係数データが渡されると、まず1番目のフィルタ係数データのセットの位置情報803に基づいて第1層の64種類のフィルタのすべてのフィルタ係数をデータ805で上書きして、高画質化部506内の学習モデルを更新する。続いて、高画質化部506は、2番目のフィルタ係数データのセットの位置情報806に基づいて第3層のフィルタのすべてのフィルタ係数をデータ808で上書きして、同学習モデルを更新する。
図9に示すフィルタ係数データは、属性情報として、参照番号901で示すデータ種別(動画像)、参照番号902で示すデータサイズ(フィルタ係数データのセット数:1)、参照番号903で示す位置情報(64セットからなる第1層のフィルタのうち33番目から64番目まで)、及び、参照番号904で示すデータの精度(8ビット整数型)を含んでいる。そして、これらの属性情報901~904に続いて、参照番号905で示すフィルタ係数のデータが格納されている。例えば、第1層の9×9マトリックスのフィルタのうち33番目から64番目までの33セット分のデータのサイズは、8×9×9×32=41,472ビットである。
高画質化部506は、フィルタ係数復号部505から図7に示すような属性情報及びフィルタ係数データが渡されると、位置情報に基づいて第1層の64種類のフィルタのうち33番目から64番目までのフィルタ係数をデータ705で上書きして、高画質化部506内の学習モデルを更新する。
図10には、第1の実施例に係るコンテンツ再生システム1000の他の構成例を模式手に示している。このコンテンツ再生システム1000も、放送信号やメディア再生信号、ストリーム配信コンテンツを受信して、映像及びオーディオ信号を出力するように構成されている。コンテンツ再生システム1000は、チューナやHDMI(登録商標)インターフェース、ネットワークインターフェースなどを装備しているが、図10では省略している。コンテンツ再生システム1000は、例えばテレビ受信装置やセットトップボックスである。
コンテンツ再生システム1000は、非多重化及びデータ検索部1001と、映像復号部1002と、オーディオ復号部1003と、補助データ復号部1004と、フィルタ係数復号部1005と、高画質化部1006と、高音質化部1007と、画像表示部1008と、オーディオ出力部1009を備えている。映像復号部1002と、オーディオ復号部1003と、補助データ復号部1004と、高画質化部1006と、高音質化部1007と、画像表示部1008と、オーディオ出力部1009は、図3に示したコンテンツ再生システム300中の同一名のコンポーネントと同様の機能を備えているので、ここでは説明を省略する。
非多重化及びデータ検索部1001は、外部から受信した多重化ビットストリームを映像ビットストリーム、オーディオビットストリーム、補助ビットストリーム、及びフィルタ係数ビットストリームに非多重化して、後段の映像復号部1002、オーディオ復号部1003、補助データ復号部1004、及びフィルタ係数復号部1005の各々に分配する。但し、受信した多重化ビットストリームに必ずしもフィルタ係数ビットストリームが多重化されているとは限らず、この場合には、フィルタ係数復号部1005にフィルタ係数ビットストリームが供給されることはない。
また、非多重化及びデータ検索部1001は、ネットワークインターフェース(図示しない)経由でクラウド又は記録メディア上のデータの取得処理を行う。一般にデータはファイル単位で取り扱われる。また、クラウド又は記録メディア上のファイルの所在は、URI又はURLの形式で記述される。
フィルタ係数復号部1005は、所定の符号化方式で符号化されたるフィルタ係数ビットストリームを復号処理して、フィルタ係数の属性情報とフィルタ係数のデータ本体部を抽出する。フィルタ係数のデータ本体部は、フィルタ係数データ自体ではなく、フィルタ係数を記述したデータファイルのクラウド又は記録メディア上の所在の情報を格納している。そこで、フィルタ係数復号部1005は、フィルタ係数ビットストリームを復号して、例えばURL形式で記述された所在情報を取得すると、非多重化及びデータ検索部1001を通じて、クラウド又は記録メディアからフィルタ係数データのファイルを取得する。そして、フィルタ係数復号部1005は、フィルタ係数の属性情報とフィルタ係数のデータを、高画質化部1006に供給する。属性情報は、送られてきたフィルタ係数のデータ種別(動画像用、静止画用、グラフィックス用など)、送られてきたフィルタ係数のデータサイズ(ある層全体、又はその一部かの区別など)、フィルタ係数の位置情報(どの層のどの範囲を上書きするデータか)、並びに精度(32ビット浮動小数点数型、16ビット整数型、8ビット整数型など)に関する情報を含んでいる。
高画質化部1006は、属性情報に基づいて、該当するメディア種別の該当する層又は層内の指定された領域にフィルタ係数を上書き保存して、高画質化部1006内の学習モデルを更新する。高画質化部1006は、以降は更新された学習モデルを用いて、映像復号部1002から出力される映像信号に対して、超解像処理や高ダイナミックレンジ化といった高画質化処理を実施する。
なお、図10では、フィルタ係数復号部1005から高画質化部1006にのみ復号結果が出力するように描かれているが、フィルタ係数復号部1005は、属性情報でメディア種別としてオーディオが指定されている場合には、高音質化部1007に属性情報(種別情報、位置情報など)とフィルタ係数を供給し、高音質化のための学習モデルの更新処理が上記と同様に実施されるものと理解されたい。
図11には、映像、オーディオ、及び補助データなどの各メディアデータとともに、学習モデルのフィルタ係数及びその属性情報を多重化して伝送するマルチメディア伝送データフォーマットを模式的に示している。当該伝送データフォーマットで多重化される学習モデルのフィルタ係数は、同じ伝送データに含まれるいずれかのメディアデータの高品質化に関わる学習モデルのフィルタ係数を更新するためのデータである。
マルチメディア伝送データフォーマットは、参照番号1101で示すシーケンスヘッダを先頭にして、メディアヘッダが付けられた各メディアのデータが順に連結されて構成される。図11に示す例では、参照番号1102で示すフィルタ係数のメディアヘッダに続いて参照番号1103で示すフィルタ係数のデータ本体が伝送される。フィルタ係数のデータ本体部1103には、フィルタ係数の属性情報とともに、フィルタ係数を記述したデータファイルのクラウド又は記録メディア上の所在を示す情報が例えばURL形式で記述されている。なお、マルチメディア伝送データのフォーマットが、図11に示すように所在情報のみが格納されるフォーマット、又は図6に示したようにフィルタ係数データ自体が格納されるフォーマットのいずれであるかは、メディアヘッダ1102内で示すようにしてもよい。
その後、参照番号1104で示すオーディオのメディアヘッダに続いて参照番号1105で示すオーディオデータの本体が伝送される。さらにその後、映像データのメディアヘッダ及び映像データの本体、映像データのメディアヘッダ及び映像データの本体、…の順に伝送されている。
コンテンツ再生システム1000が図11に示すようなデータフォーマットからなるマルチメディア伝送データを受信すると、非多重化及びデータ検索部1101では、メディアヘッダに基づいて直後のメディアデータ本体のメディア種別を識別して、映像復号部1002、オーディオ復号部1003、補助データ復号部1004、及びフィルタ係数復号部1005に逐次振り分けることができる。また、フィルタ係数復号部1005は、フィルタ係数ビットストリームを復号して、例えばURL形式で記述された所在情報を取得すると、非多重化及びデータ検索部1001を通じて、クラウド又は記録メディアからフィルタ係数データを取得する。そして、フィルタ係数復号部1005は、フィルタ係数の属性情報とフィルタ係数のデータを、高画質化部1006に供給する。
図12~図14には、図11に示したマルチメディア伝送データフォーマットに多重化されるフィルタ係数のデータフォーマット例をそれぞれ示している。
図12に示すフィルタ係数データは、属性情報として、参照番号1201で示すデータ種別(動画像)、参照番号1202で示すデータサイズ(フィルタ係数データのセット数:1)、参照番号1203で示す位置情報(第1層のフィルタ全体)、及び、参照番号1204で示すデータの精度(8ビット整数型)を含んでいる。そして、これらの属性情報1201~1204に続いて、参照番号1205で示す、フィルタ係数データを記述したデータファイルのクラウド又は記録メディア上の所在情報が格納されている。所在情報は、例えばURL形式で記述されている。
フィルタ係数復号部1005は、フィルタ係数ビットストリームを復号して、図12に示すような属性情報及び所在情報を抽出すると、非多重化及びデータ検索部1001を通じて、クラウド又は記録メディア上の所在情報で示されている場所から、第1層のフィルタのフルセットのデータを取得する。そして、フィルタ係数復号部1005は、フィルタ係数の属性情報とフィルタ係数のデータを、高画質化部1006に供給する。高画質化部1006は、フィルタ係数復号部1005から属性情報及びフィルタ係数データが渡されると、位置情報に基づいて第1層の64種類のフィルタのすべてのフィルタ係数をデータ705で上書きして、高画質化部1006内の学習モデルを更新する。
図13に示すフィルタ係数データは、属性情報として、参照番号1301で示すデータ種別(動画像)、参照番号1302で示すデータサイズ(フィルタ係数データのセット数:2)を含んでいる。図13に示す例では、メディアデータとして2セットのフィルタ係数データが含まれる。そして、1番目のセットの属性情報として、参照番号1303で示すフィルタ係数データの位置情報(第1層のフィルタ全体)と参照番号1304で示すデータの精度(8ビット整数型)を含み、続いて、参照番号1305で示す、1番目のセットのフィルタ係数データを記述したデータファイルのクラウド又は記録メディア上の所在情報が格納されている。所在情報は、例えばURL形式で記述されている。
さらに続いて、2番目のセットの属性情報として、参照番号1306で示すフィルタ係数データの位置情報(第3層のフィルタ全体)と参照番号1307で示すデータの精度(16ビット整数型)を含み、続いて、参照番号1308で示す、2番目のセットのフィルタ係数データを記述したデータファイルのクラウド又は記録メディア上の所在情報が格納されている。所在情報は、例えばURL形式で記述されている。
フィルタ係数復号部1005は、フィルタ係数ビットストリームを復号して、図13に示すような2セット分のフィルタ係数の属性情報及び所在情報を抽出すると、非多重化及びデータ検索部1001を通じて、クラウド又は記録メディア上の所在情報で示されている場所から、第1層のフィルタのフルセット及び第3層のフィルタのフルセットのデータを取得する。そして、フィルタ係数復号部1005は、フィルタ係数の属性情報とフィルタ係数のデータを、高画質化部1006に供給する。
高画質化部1006は、フィルタ係数復号部1005から属性情報及びフィルタ係数データが渡されると、まず1番目のフィルタ係数データのセットの位置情報803に基づいて第1層の64種類のフィルタのすべてのフィルタ係数をデータ805で上書きして、高画質化部1006内の学習モデルを更新する。続いて、高画質化部1006は、2番目のフィルタ係数データのセットの位置情報806に基づいて第3層のフィルタのすべてのフィルタ係数をデータ808で上書きして、同学習モデルを更新する。
図14に示すフィルタ係数データは、属性情報として、参照番号1401で示すデータ種別(動画像)、参照番号1402で示すデータサイズ(フィルタ係数データのセット数:1)、参照番号1403で示す位置情報(64セットからなる第1層のフィルタのうち33番目から64番目まで)、及び、参照番号1404で示すデータの精度(8ビット整数型)を含んでいる。そして、これらの属性情報1201~1204に続いて、参照番号1405で示す、フィルタ係数データを記述したデータファイルのクラウド又は記録メディア上の所在情報が格納されている。所在情報は、例えばURL形式で記述されている。
フィルタ係数復号部1005は、フィルタ係数ビットストリームを復号して、図14に示すような属性情報及び所在情報を抽出すると、非多重化及びデータ検索部1001を通じて、クラウド又は記録メディア上の所在情報で示されている場所から、64セットからなる第1層のフィルタのうち33番目から64番目までのフィルタ係数データを取得する。そして、フィルタ係数復号部1005は、フィルタ係数の属性情報とフィルタ係数のデータを、高画質化部1006に供給する。高画質化部1006は、フィルタ係数復号部1005から属性情報及びフィルタ係数データが渡されると、位置情報に基づいて第1層の64種類のフィルタのうち33番目から64番目までのフィルタ係数をデータ705で上書きして、高画質化部1006内の学習モデルを更新する。
図15には、第1の実施例に係るコンテンツ再生システム1000が多重化ビットストリームを受信したときに実行する処理手順をフローチャートの形式で示している。
コンテンツ再生システム1000が多重化ビットストリームを受信すると(ステップS1501)、まず非多重化及びデータ検索部1001は、メディアデータの先頭に付けられたメディアヘッダに記載された情報に基づいて、多重化ビットストリームをメディア毎のビットストリームに非多重化して(ステップS1502)、後段の映像復号部1002、オーディオ復号部1003、補助データ復号部1004、及びフィルタ係数復号部1005の各々に分配する。
ここで、非多重化されたビットストリームがフィルタ係数以外、すなわち映像、オーディオ又は補助データのうちいずれかのビットストリームである場合には(ステップS1503のNo)、映像復号部1002、オーディオ復号部1003又は補助データ復号部1004のうち該当する復号部に割り振られる。映像復号部1002、オーディオ復号部1003、補助データ復号部1004の各々で実施される復号処理は当業界で周知であり、また、本明細書で提案する技術とは直接関連しないので、詳細な説明を省略する。
そして、非多重化されたビットストリームがフィルタ係数のビットストリームである場合には(ステップS1503のYes)、フィルタ係数復号部1005は、メディアヘッダを解析し(ステップS1504)、さらにフィルタ係数の属性情報(種別、サイズ、位置、精度など)を取得する。
次いで、フィルタ係数復号部1005は、メディアヘッダ内の情報などに基づいて、属性情報で指定されている(今回のマルチメディア伝送データで更新の対象となっている)フィルタ係数のデータが同じマルチメディア伝送データ内に格納されているのかどうかをチェックする(ステップS1505)。あるいは、フィルタ係数復号部1005は、マルチメディア伝送データ内にはフィルタ係数データの所在情報が格納されているのかをチェックする。
ここで、フィルタ係数のデータが同じマルチメディア伝送データ内に格納されていない場合には(ステップS1505のNo)、フィルタ係数復号部1005は、フィルタ係数ビットストリームから抽出したURLなどの所在情報を取得する(ステップS1506)。
そして、フィルタ係数復号部1005は、URLなどの所在情報で指定されたクラウド又は記録メディア上からフィルタ係数データのファイルを取得し、又はフィルタ係数ビットストリーム内からフィルタ係数データを取得して(ステップS1507)、属性情報とともに高画質化部1006に供給する。
高画質化部1006は、属性情報に基づいて、該当するメディア種別の該当する層又は層内の指定された領域にフィルタ係数を上書き保存して、高画質化部1006内の学習モデルを更新する(ステップS1508)。
そして、高画質化部1006は、以降は更新された学習モデルを用いて、映像復号部1002から出力される映像信号に対して高画質化処理を施す(ステップS1509)。例えば、高画質化部1006は、低解像度又は標準解像度の映像信号から高解像度映像信号を生成する超解像処理や、高ダイナミックレンジ化などの高画質化処理を実施する。
図16には、図6に示したようなフォーマットからなるマルチメディア伝送データを符号化するコンテンツ符号化システム1600の構成例を模式的に示している。図示のコンテンツ符号化システム1600は、メディアデータとして映像信号を符号化するとともに、この映像信号を高画質化するためのフィルタ係数(学習モデルの重み係数)を事前学習し、符号化した映像ビットストリームとフィルタ係数及び属性情報とを多重化して、図6に示したようなデータフォーマットの伝送データを生成するように構成されている。
コンテンツ符号化システム1600には、例えば4Kの高解像度映像ストリームが入力される。ダウンサンプラ1601は、この高解像度映像ストリームを例えば2Kの低解像度(若しくは標準解像度)の映像ストリームにダウンサンプリングする。
映像符号化部1602は、ダウンサンプラ1601から入力される低解像度の映像ストリームに対して、例えばMPEGなどの所定の符号化方式で符号化処理を施して、符号化映像ストリームを出力する。
映像復号部1603は、映像符号化部1602から出力される符号化映像ストリームを復号して、低解像度(2K)の映像ストリームを再現する。
そして、フィルタ係数学習器1604は、高解像度(4K)の原映像と復号された低解像度(2K)の映像を入力して、高画質化として低解像度(2K)の映像を高解像度(4K)の映像に超解像処理する学習モデルの事前学習を実施する。
図4を参照しながら既に説明したように、超解像処理するニューラルネットワークは、例えば第1層乃至第3層の3層のフィルタ群で構成される。第1層のフィルタ群は、それぞれf1×f1(例えば、9×9)マトリックスのフィルタをn1種類だけ備えている。同様に、第2層のフィルタ群は、それぞれf2×f2マトリックスのフィルタをn2種類だけ備え、第3層のフィルタ群は、それぞれf3×f3マトリックスのフィルタを備えている。
フィルタ係数学習器1604は、復号された低解像度(2K)映像と、高解像度(4K)の原映像を学習データとして、超解像処理するための第1層乃至第3層の各層のフィルタ係数を事前学習して、フィルタ係数とその属性情報を出力する。例えば、原映像が区間A、区間Bのように複数の映像区間に分割される場合、フィルタ係数学習器1604は、映像区間毎に事前学習して、映像区間毎のフィルタ係数とその属性情報を出力することができる。
多重化部1605は、号化した映像ビットストリームとフィルタ係数及び属性情報を、伝送方向で時分割に多重化して、図6に示したようなデータフォーマットの伝送データを生成する。例えば、原映像が区間A、区間Bのように複数の映像区間に分割される場合、多重化部1605は、映像区間に分割された映像データと、映像区間毎に事前学習されたフィルタ係数及びその属性情報を、多重化して伝送データを生成するようにしてもよい。
図17には、多重化部1605から出力される伝送データの構成例を示している。マルチメディア伝送データフォーマットは、参照番号1701で示すシーケンスヘッダを先頭にして、メディアヘッダが付けられた各メディアのデータが順に連結されて構成される。図17に示す例では、参照番号1702で示すフィルタ係数のメディアヘッダに続いて、参照番号1703で示す、映像データの区間Aに対応するフィルタ係数データが伝送される。その後、参照番号1704で示す映像のメディアヘッダに続いて、参照番号1705で示す、区間Aの映像データが伝送される。このように、多重化される映像データとフィルタ係数の対応付けがなされているので、データの取り扱いが容易となる。
図18には、フィルタ係数学習器1604の内部構成例を示している。
フィルタ係数学習器1604は、第1層フィルタ1801、第2層フィルタ1802、及び第3層フィルタ1803からなる、超解像用の畳み込みニューラルネットワーク(Convolutoinal Neural Network:CNN)1804を備えている。図4を参照しながら既に説明したように、第1層のフィルタ群は、それぞれf1×f1(例えば、9×9)マトリックスのフィルタをn1種類だけ備えている。同様に、第2層のフィルタ群は、それぞれf2×f2マトリックスのフィルタをn2種類だけ備え、第3層のフィルタ群は、それぞれf3×f3マトリックスのフィルタを備えている。
映像符号化部1602で符号化した後に復号した低解像度(2K)の映像ストリームを、畳み込みニューラルネットワーク1804で超解像処理して、高解像度(4K)の映像ストリームを生成する。
この超解像処理した映像ストリームと、高解像度(4K)の原映像ストリームとの差分を差分器1805でとる。そして、誤差逆伝播部1806は、この差分情報に基づいて各層のフィルタ1801~1803のフィルタ係数の変更情報を生成して、逆伝搬すなわち各層のフィルタ1801~1803のフィルタ係数を修正する。
このような誤差逆伝播処理を映像区間内で繰り返し実施することで、映像区間毎のフィルタ係数を学習(事前学習)することができる。このようにして、畳み込みニューラルネットワーク1804において学習されたフィルタ係数及びその属性情報が、多重化部1605に出力される。
コンテンツ符号化システム1600は、例えば放送局やクラウド上のストリーミングサーバなどのコンテンツ配信源に配置して運用される。
なお、図16に示したコンテンツ符号化システム1600の構成例では、映像信号とその映像信号を高品質化(すなわち、高画質化)するための学習済みフィルタ係数とを多重化するが、オーディオ信号や補助データなどの他のメディアデータ及びメディア種別毎の高品質化用の学習器を追加して装備することで、マルチメディアに対応するコンテンツ符号化システムを構成することができる。すなわち、マルチメディアに対応するコンテンツ符号化システムは、複数のメディアデータとメディアデータ毎のフィルタ係数及びその属性情報とを多重化した、マルチメディア伝送データを生成することができる。
第2の実施例でも、第1の実施例と同様に、コンテンツの提供側からは、映像、オーディオ、及び補助データの各メディアデータのビットストリームとともに、更新する学習モデルのフィルタ係数及びその属性情報を多重化して伝送される。但し、フィルタ係数には時刻情報を付与して伝送する点に主な特徴がある。
フィルタ係数に付与される時刻情報は、タイムコード又はタイムスタンプとも呼ばれ、フィルタ係数を適用するメディア(映像ストリームなど)をコントロールするタイムコードと同じ種類のタイムコードである。したがって、各種メディアとともに多重化伝送したフィルタ係数を、対象とするメディアのどの位置(例えば、映像のどのフレーム)から適用するかを、タイムコードで指定することができる。
コンテンツの提供側は、伝送するフィルタ係数のデータ量と、各メディアデータのビットストリームに多重化するタイミングをコントロールすることで、コンテンツの受信側においてフィルタ係数をアクティブにするタイミング(対象とするメディアに対して適用を開始するアクティブ時刻)よりも前に、必要なフィルタ係数をあらかじめ伝送する。フィルタ係数の事前伝送とアクティブ時刻のコントロールによって、所望の細かい単位で複数回に分割して(例えば、100バイトのように一定量、あるいは1層のフィルタ係数をN等分した単位で)、アクティブ時刻よりも前に長時間(例えば、テレビ受信装置が使われない夜間)をかけて、大量のフィルタ係数を伝送することもできる。
また、第2の実施例では、テレビ受信装置などのコンテンツの受信側は、アクティブ時刻よりも前に取得したフィルタ係数を格納するフィルタ係数用メモリと、そのフィルタ係数用メモリの入出力をコントロールするコントローラを設ける。そして、受信した多重化ビットストリームを非多重化して、学習モデルのフィルタ係数に関する情報がアクティブ時刻の情報とともに取り出された場合には、コントローラは、取り出された情報に基づいてフィルタ係数をフィルタ係数用メモリに一時格納して、アクティブ時刻が到来すると、フィルタ係数用メモリからフィルタ係数を取り出して、対象とするメディアの高品質化処理(例えば低解像度映像信号の超解像処理)への適用を開始するようにする。
図19には、第2の実施例に係るコンテンツ再生システム1900の構成例を模式的に示している。このコンテンツ再生システム1900も、放送信号やメディア再生信号、ストリーム配信コンテンツを受信して、映像及びオーディオ信号を出力するように構成されている。コンテンツ再生システム1900は、チューナやHDMI(登録商標)インターフェース、ネットワークインターフェースなどを装備しているが、図19では省略している。コンテンツ再生システム1900は、例えばテレビ受信装置やセットトップボックスである。
コンテンツ再生システム1900は、非多重化部1901と、映像復号部1902と、オーディオ復号部1903と、補助データ復号部1904と、フィルタ係数復号部1905と、高画質化部1906と、高音質化部1907と、コントローラ1908と、フィルタ係数用メモリ1909と、画像表示部1910と、オーディオ出力部1911を備えている。映像復号部1902と、オーディオ復号部1903と、補助データ復号部1904と、高画質化部1906と、高音質化部1907と、画像表示部1910と、オーディオ出力部1911は、図1に示したコンテンツ再生システム100中と同一名のコンポーネントとそれぞれ同様の機能を備えているので、ここでは説明を省略する。
非多重化部1901は、放送信号、再生信号、又はストリーミングデータとして外部から受信した多重化ビットストリームを、映像ビットストリーム、オーディオビットストリーム、補助ビットストリーム、及びフィルタ係数ビットストリームに非多重化して、後段の映像復号部1902、オーディオ復号部1903、補助データ復号部1904、及びフィルタ係数復号部1905の各々に分配する。但し、受信した多重化ビットストリームに必ずしもフィルタ係数ビットストリームが多重化されているとは限らず、この場合には、フィルタ係数復号部1905にフィルタ係数ビットストリームが供給されることはない。
フィルタ係数復号部1905は、所定の符号化方式で符号化されたるフィルタ係数ビットストリームを復号処理して、フィルタ係数の属性情報とフィルタ係数のデータ本体と、アクティブ時刻を抽出すると、コントローラ1908に供給する。属性情報は、送られてきたフィルタ係数のデータ種別(動画像用、静止画用、グラフィックス用など)、送られてきたフィルタ係数のデータサイズ(ある層全体、又はその一部かの区別など)、フィルタ係数の位置情報(どの層のどの範囲を上書きするデータか)、並びに精度(32ビット浮動小数点数型、16ビット整数型、8ビット整数型など)に関する情報を含んでいる。また、アクティブ時刻は、対象とするメディアに対してフィルタ係数の適用の開始を指定する時刻である(図19に示す例では映像ストリームを適用の対象とする)。
コントローラ1908は、フィルタ係数用メモリ1909の入出力をコントロールする。具体的には、コントローラ1908は、フィルタ係数復号部1905から、フィルタ係数及びその属性情報と、アクティブ時刻を受け取ると、フィルタ係数及びその属性情報をフィルタ係数用メモリ1909に一旦格納する(但し、アクティブ時刻よりも前にフィルタ係数及び属性情報を取得した場合)。そして、コントローラ1908は、アクティブ時刻が到来すると、フィルタ係数用メモリ1909からフィルタ係数及びその属性情報を読み出して高画質化部1906に供給する。
高画質化部1906は、属性情報に基づいて、該当するメディア種別の該当する層又は層内の指定された領域にフィルタ係数を上書き保存して、高画質化部1906内の学習モデルを更新する。高画質化部1906は、以降は更新された学習モデルを用いて、映像復号部1902から出力される映像信号に対して、超解像処理や高ダイナミックレンジ化といった高画質化処理を実施する。
したがって、コンテンツ再生システム1900は、アクティブ時刻よりも前に伝送されてきたフィルタ係数をフィルタ係数用メモリ1909に格納しておき、アクティブ時刻で指定された時刻からそのフィルタ係数を適用した高画質化処理を開始することができる。
なお、図19では、コントローラ1908によってフィルタ係数用メモリ1909に一時格納されるフィルタ係数及び属性情報を高画質化部1906にのみ出力するように描かれているが、コントローラ1908は、属性情報でメディア種別としてオーディオが指定されている場合には、高音質化部1907に属性情報(種別情報、位置情報など)とフィルタ係数を供給し、高音質化のための学習モデルの更新処理が上記と同様に実施されるものと理解されたい。
図20には、映像、オーディオ、及び補助データなどの各メディアデータとともに、学習モデルのフィルタ係数及びその属性情報を多重化して伝送するマルチメディア伝送データフォーマットを模式的に示している。当該伝送データフォーマットで多重化される学習モデルのフィルタ係数は、同じ伝送データに含まれるいずれかのメディアデータの高品質化に関わる学習モデルのフィルタ係数を更新するためのデータである。
マルチメディア伝送データフォーマットは、参照番号2001で示すシーケンスヘッダを先頭にして、メディアヘッダが付けられた各メディアのデータが順に連結されて構成される。図20に示す例では、参照番号2002で示すフィルタ係数のメディアヘッダにはフィルタ係数の適用の開始を指定するタイムコードが付加され、その直後に参照番号2003で示すフィルタ係数のデータ1-1が伝送され、その後、参照番号2004で示すオーディオのメディアヘッダに続いて参照番号2005で示すオーディオデータの本体が伝送される。さらにその後の参照番号2006で示すフィルタ係数のメディアヘッダにはフィルタ係数の適用の開始を指定するタイムコードが付加され、その直後に参照番号2007で示すフィルタ係数のデータ1-2が伝送される。
コンテンツ再生システム1900が図20に示すようなデータフォーマットからなるマルチメディア伝送データを受信すると、非多重化部1901では、メディアヘッダに基づいて直後のメディアデータ本体のメディア種別を識別して、映像復号部1902、オーディオ復号部1903、補助データ復号部1904、及びフィルタ係数復号部1905に逐次振り分けることができる。
フィルタ係数復号部1905は、所定の符号化方式で符号化されたるフィルタ係数ビットストリームを復号処理して、メディアヘッダのタイムコードで指定されたアクティブ時刻と、フィルタ係数の属性情報とフィルタ係数のデータ1-1を抽出すると、コントローラ1908に供給する。そして、コントローラ1908は、フィルタ係数復号部1905から受け取ったフィルタ係数のデータ1-1及びその属性情報をフィルタ係数用メモリ1909に一旦格納する。
続いて、フィルタ係数復号部1905が、符号化フィルタ係数ビットストリームから、メディアヘッダのタイムコードで指定されたアクティブ時刻と、フィルタ係数の属性情報とフィルタ係数のデータ1-2を抽出した場合も同様に、コントローラ1908に供給する。そして、コントローラ1908は、アクティブ時刻までフィルタ係数の属性情報とフィルタ係数のデータ1-2をフィルタ係数用メモリ1909に一旦格納する。
その後、アクティブ時刻が到来すると、コントローラ1908は、フィルタ係数用メモリ1909からフィルタ係数のデータ1-1及び1-2、並びにこれらの属性情報を読み出して、高画質化部1906に供給する。
図21には、図20に示したマルチメディア伝送データに多重化されるフィルタ係数のデータ1-1のデータフォーマット例を示している。
図21に示すフィルタ係数データは、属性情報として、参照番号2101で示すデータ種別(動画像)、参照番号2102で示すタイムコード(映像ストリームの2フレーム目から適用)、参照番号2103で示すデータサイズ(フィルタ係数データのセット数:1)、参照番号2104で示す位置情報(第1層の先頭から32番目までのフィルタ)、及び、参照番号2105で示すデータの精度(8ビット整数型)を含んでいる。そして、これらの属性情報2101~2105に続いて、参照番号2106で示すフィルタ係数のデータが格納されている。例えば、第1層の9×9マトリックスのフィルタが32セットの場合には、データ部分のサイズは、8×9×9×32=20,736ビットである。
また、図22には、図20に示したマルチメディア伝送データに多重化されるフィルタ係数のデータ1-2のデータフォーマット例を示している。
図22に示すフィルタ係数データは、属性情報として、参照番号2201で示すデータ種別(動画像)、参照番号2202で示すタイムコード(映像ストリームの2フレーム目から適用)、参照番号2203で示すデータサイズ(フィルタ係数データのセット数:1)、参照番号2204で示す位置情報(第1層の33番目から最後の64番目までのフィルタ)、及び、参照番号2205で示すデータの精度(8ビット整数型)を含んでいる。そして、これらの属性情報2201~2205に続いて、参照番号2206で示すフィルタ係数のデータが格納されている。
図21及び図22に示すデータフォーマット例では、フィルタ係数のデータ1-1で第1層の前半の32セットのフィルタ係数を伝送し、フィルタ係数のデータ1-2で第1層の後半の32セットのフィルタ係数を伝送するようになっている。そして、フィルタ係数のデータ1-1及び1-2で伝送された第1層のフィルタ全体のフィルタ係数は、タイムコードで指定されたアクティブ時刻(映像ストリームの2フレーム目)から適用を開始することが指定されている。
コントローラ1908は、フィルタ係数復号部1905から図21及び図22に示すようなフィルタ係数のデータ1-1及び1-2が順に渡されると、フィルタ係数用メモリ1909に逐次格納する。その後、タイムコードで指定されたアクティブ時刻が到来すると、コントローラ1908は、フィルタ係数用メモリ1909からフィルタ係数のデータ1-1及び1-2を読み出して、高画質化部1906に渡す。高画質化部1906は、コントローラ1908から渡された第1層のフィルタ全体のフィルタ係数を上書きして、高画質化部1906内の学習モデルを更新して、アクティブ時刻である映像フレームの2フレーム目から適用する。
図23には、第2の実施例に係るコンテンツ再生システム2300の他の構成例を模式的に示している。このコンテンツ再生システム2300も、放送信号やメディア再生信号、ストリーム配信コンテンツを受信して、映像及びオーディオ信号を出力するように構成されている。コンテンツ再生システム2300は、チューナやHDMI(登録商標)インターフェース、ネットワークインターフェースなどを装備しているが、図23では省略している。コンテンツ再生システム2300は、例えばテレビ受信装置やセットトップボックスである。
コンテンツ再生システム2300は、非多重化及びデータ検索部2301と、映像復号部2302と、オーディオ復号部2303と、補助データ復号部2304と、フィルタ係数復号部2305と、高画質化部2306と、高音質化部2307と、コントローラ2308と、フィルタ係数用メモリ2309と、画像表示部2310と、オーディオ出力部2311を備えている。映像復号部2302と、オーディオ復号部2303と、補助データ復号部2304と、高画質化部2306と、高音質化部2307と、画像表示部2310と、オーディオ出力部2311は、図3に示したコンテンツ再生システム300中の同一名のコンポーネントと同様の機能を備えているので、ここでは説明を省略する。
非多重化及びデータ検索部2301は、外部から受信した多重化ビットストリームを映像ビットストリーム、オーディオビットストリーム、補助ビットストリーム、及びフィルタ係数ビットストリームに非多重化して、後段の映像復号部2302、オーディオ復号部2303、補助データ復号部2304、及びフィルタ係数復号部2305の各々に分配する。但し、受信した多重化ビットストリームに必ずしもフィルタ係数ビットストリームが多重化されているとは限らず、この場合には、フィルタ係数復号部2305にフィルタ係数ビットストリームが供給されることはない。
また、非多重化及びデータ検索部2301は、ネットワークインターフェース(図示しない)経由でクラウド又は記録メディア上のデータの取得処理を行う。一般にデータはファイル単位で取り扱われる。また、クラウド又は記録メディア上のファイルの所在は、URI又はURLの形式で記述される。
フィルタ係数復号部2305は、所定の符号化方式で符号化されたるフィルタ係数ビットストリームを復号処理して、フィルタ係数の属性情報とフィルタ係数のデータ本体部と、アクティブ時刻を抽出する。フィルタ係数のデータ本体部は、フィルタ係数データ自体ではなく、フィルタ係数を記述したデータファイルのクラウド又は記録メディア上の所在の情報を格納している。そこで、フィルタ係数復号部2305は、フィルタ係数ビットストリームを復号して、例えばURL形式で記述された所在情報を取得すると、非多重化及びデータ検索部2301を通じて、クラウド又は記録メディアからフィルタ係数データのファイルを取得する。そして、フィルタ係数復号部2305は、フィルタ係数の属性情報とフィルタ係数のデータを、コントローラ2308に供給する。属性情報は、送られてきたフィルタ係数のデータ種別(動画像用、静止画用、グラフィックス用など)、送られてきたフィルタ係数のデータサイズ(ある層全体、又はその一部かの区別など)、フィルタ係数の位置情報(どの層のどの範囲を上書きするデータか)、並びに精度(32ビット浮動小数点数型、16ビット整数型、8ビット整数型など)に関する情報を含んでいる。また、アクティブ時刻は、対象とするメディアに対してフィルタ係数の適用の開始を指定する時刻である(図23に示す例では映像ストリームを適用の対象とする)。
コントローラ2308は、フィルタ係数用メモリ2309の入出力をコントロールする。具体的には、コントローラ2308は、フィルタ係数復号部2305から、フィルタ係数及びその属性情報と、アクティブ時刻を受け取ると、フィルタ係数及びその属性情報をフィルタ係数用メモリ2309に一旦格納する(但し、アクティブ時刻よりも前にフィルタ係数及び属性情報を取得した場合)。そして、コントローラ2308は、アクティブ時刻が到来すると、フィルタ係数用メモリ2309からフィルタ係数及びその属性情報を読み出して高画質化部2306に供給する。
高画質化部2306は、属性情報に基づいて、該当するメディア種別の該当する層又は層内の指定された領域にフィルタ係数を上書き保存して、高画質化部2306内の学習モデルを更新する。高画質化部2306は、以降は更新された学習モデルを用いて、映像復号部2302から出力される映像信号に対して、超解像処理や高ダイナミックレンジ化といった高画質化処理を実施する。
したがって、コンテンツ再生システム2300は、アクティブ時刻よりも前に伝送されてきたフィルタ係数をフィルタ係数用メモリ2309に格納しておき、アクティブ時刻で指定された時刻からそのフィルタ係数を適用した高画質化処理を開始することができる。
なお、図23では、コントローラ2308によってフィルタ係数用メモリ2309に一時格納されるフィルタ係数及び属性情報を高画質化部2306にのみ出力するように描かれているが、コントローラ2308は、属性情報でメディア種別としてオーディオが指定されている場合には、高音質化部2307に属性情報(種別情報、位置情報など)とフィルタ係数を供給し、高音質化のための学習モデルの更新処理が上記と同様に実施されるものと理解されたい。
図24には、映像、オーディオ、及び補助データなどの各メディアデータとともに、学習モデルのフィルタ係数及びその属性情報を多重化して伝送するマルチメディア伝送データフォーマットを模式的に示している。当該伝送データフォーマットで多重化される学習モデルのフィルタ係数は、同じ伝送データに含まれるいずれかのメディアデータの高品質化に関わる学習モデルのフィルタ係数を更新するためのデータである。
マルチメディア伝送データフォーマットは、参照番号2401で示すシーケンスヘッダを先頭にして、メディアヘッダが付けられた各メディアのデータが順に連結されて構成される。図24に示す例では、参照番号2402で示すフィルタ係数のメディアヘッダにはフィルタ係数の適用の開始を指定するタイムコードが付加され、その直後に参照番号2403で示すフィルタ係数のデータ本体として、データ1-1の属性情報とともに、データ1-1のデータファイルのクラウド又は記録メディア上の所在を例えばURL形式で記述した情報が伝送される。その後、参照番号2404で示すオーディオのメディアヘッダに続いて参照番号2405で示すオーディオデータの本体が伝送される。さらにその後の参照番号2406で示すフィルタ係数のメディアヘッダにはフィルタ係数の適用の開始を指定するタイムコードが付加され、その直後に参照番号2407で示すフィルタ係数のデータ本体として、データ1-2の属性情報とともに、データ1-2のデータファイルのクラウド又は記録メディア上の所在を例えばURL形式で記述した情報が伝送される。
コンテンツ再生システム2300が図24に示すようなデータフォーマットからなるマルチメディア伝送データを受信すると、非多重化及びデータ検索部2301では、メディアヘッダに基づいて直後のメディアデータ本体のメディア種別を識別して、映像復号部2302、オーディオ復号部2303、補助データ復号部2304、及びフィルタ係数復号部2305に逐次振り分けることができる。
フィルタ係数復号部2305は、所定の符号化方式で符号化されたるフィルタ係数ビットストリームを復号処理して、メディアヘッダのタイムコードで指定されたアクティブ時刻と、フィルタ係数の属性情報と、フィルタ係数のデータ1-1の所在情報を抽出すると、非多重化及びデータ検索部2301を通じて、クラウド又は記録メディアからフィルタ係数のデータ1-1を取得する。そして、フィルタ係数復号部2305は、アクティブ時刻とフィルタ係数の属性情報とフィルタ係数のデータ1-1を、コントローラ2308に供給する。コントローラ2308は、フィルタ係数復号部2305から受け取ったフィルタ係数のデータ1-1及びその属性情報をフィルタ係数用メモリ2309に一旦格納する。
続いて、フィルタ係数復号部2305が、所定の符号化方式で符号化されたるフィルタ係数ビットストリームを復号処理して、メディアヘッダのタイムコードで指定されたアクティブ時刻と、フィルタ係数の属性情報と、フィルタ係数のデータ1-2の所在情報を抽出した場合も同様に、非多重化及びデータ検索部2301を通じて、クラウド又は記録メディアからフィルタ係数のデータ1-2を取得して、アクティブ時刻と、フィルタ係数の属性情報とフィルタ係数のデータ1-1を、コントローラ2308に供給する。コントローラ2308は、フィルタ係数復号部2305から受け取ったフィルタ係数のデータ1-2及びその属性情報をフィルタ係数用メモリ2309に一旦格納する。
その後、アクティブ時刻が到来すると、コントローラ2308は、フィルタ係数用メモリ2309からフィルタ係数のデータ1-1及び1-2、並びにこれらの属性情報を読み出して、高画質化部2306に供給する。
図25には、図24に示したマルチメディア伝送データに多重化されるフィルタ係数のデータ1-1のデータフォーマット例を示している。
図25に示すフィルタ係数データは、属性情報として、参照番号2501で示すデータ種別(動画像)、参照番号2502で示すタイムコード(映像ストリームの2フレーム目から適用)、参照番号2503で示すデータサイズ(フィルタ係数データのセット数:1)、参照番号2504で示す位置情報(第1層の先頭から32番目までのフィルタ)、及び、参照番号2505で示すデータの精度(8ビット整数型)を含んでいる。そして、これらの属性情報2501~2505に続いて、参照番号2506で示す、フィルタ係数のデータ1-1を記述したデータファイルのクラウド又は記録メディア上の所在情報が格納されている。所在情報は、例えばURL形式で記述されている。
また、図26には、図24に示したマルチメディア伝送データに多重化されるフィルタ係数のデータ1-2のデータフォーマット例を示している。
図26に示すフィルタ係数データは、属性情報として、参照番号2601で示すデータ種別(動画像)、参照番号2602で示すタイムコード(映像ストリームの2フレーム目から適用)、参照番号2603で示すデータサイズ(フィルタ係数データのセット数:1)、参照番号2604で示す位置情報(第1層の33番目から最後の64番目までのフィルタ)、及び、参照番号2605で示すデータの精度(8ビット整数型)を含んでいる。そして、これらの属性情報2601~2605に続いて、参照番号2206で示す、フィルタ係数のデータを記述したデータファイルのクラウド又は記録メディア上の所在情報が格納されている。所在情報は、例えばURL形式で記述されている。
図25及び図26に示すデータフォーマット例では、フィルタ係数のデータ1-1で第1層の前半の32セットのフィルタ係数データの所在情報を伝送し、フィルタ係数のデータ1-2で第1層の後半の32セットのフィルタ係数の所在情報を伝送するようになっている。そして、フィルタ係数のデータ1-1及び1-2の各々で所在情報に基づいて取得することができる第1層のフィルタ全体のフィルタ係数は、タイムコードで指定されたアクティブ時刻(映像ストリームの2フレーム目)から適用を開始することが指定されている。
フィルタ係数復号部2305は、フィルタ係数のデータ1-1及び1-2の各々で示された所在情報に基づいて、非多重化及びデータ取得部2301を介して、フィルタ係数を順次取得して、アクティブ時刻及び属性情報と併せてコントローラ2308に渡す。コントローラ2308は、フィルタ係数復号部2305から第1層フィルタの前半及び後半のフィルタ係数及び属性情報が順に渡されると、フィルタ係数用メモリ2309に逐次格納する。その後、タイムコードで指定されたアクティブ時刻が到来すると、コントローラ2308は、フィルタ係数用メモリ2309から第1層フィルタの前半及び後半のフィルタ係数を読み出して、高画質化部2306に渡す。高画質化部2306は、コントローラ2308から渡された第1層のフィルタ全体のフィルタ係数を上書きして、高画質化部2306内の学習モデルを更新して、アクティブ時刻である映像フレームの2フレーム目から適用する。なお、タイムコードで指定するアクティブ時刻は、フィルタ係数のデータ1-1及び1-2を伝送する順番よりも、後に伝送される映像フレームの表示時刻であるものとする。
図27には、第2の実施例に係るコンテンツ再生システム2300が多重化ビットストリームを受信したときに実行する処理手順をフローチャートの形式で示している。
コンテンツ再生システム2300が多重化ビットストリームを受信すると(ステップS2701)、まず非多重化及びデータ検索部2301は、メディアデータの先頭に付けられたメディアヘッダに記載された情報に基づいて、多重化ビットストリームをメディア毎のビットストリームに非多重化して(ステップS2702)、後段の映像復号部2302、オーディオ復号部2303、補助データ復号部2304、及びフィルタ係数復号部2305の各々に分配する。
ここで、非多重化されたビットストリームがフィルタ係数以外、すなわち映像、オーディオ又は補助データのうちいずれかのビットストリームである場合には(ステップS2703のNo)、映像復号部2302、オーディオ復号部2303又は補助データ復号部2304のうち該当する復号部に割り振られる。映像復号部2302、オーディオ復号部2303、補助データ復号部2304の各々で実施される復号処理は当業界で周知であり、また、本明細書で提案する技術とは直接関連しないので、詳細な説明を省略する。
そして、非多重化されたビットストリームがフィルタ係数のビットストリームである場合には(ステップS2703のYes)、フィルタ係数復号部2305は、メディアヘッダを解析し(ステップS2704)、さらにフィルタ係数の属性情報(種別、サイズ、位置、精度など)を取得する。
次いで、フィルタ係数復号部2305は、メディアヘッダ内の情報などに基づいて、属性情報で指定されている(今回のマルチメディア伝送データで更新の対象となっている)フィルタ係数のデータが同じマルチメディア伝送データ内に格納されているのかどうかをチェックする(ステップS2705)。あるいは、フィルタ係数復号部2305は、マルチメディア伝送データ内にはフィルタ係数データの所在情報が格納されているのかをチェックする。
ここで、フィルタ係数のデータが同じマルチメディア伝送データ内に格納されていない場合には(ステップS2705のNo)、フィルタ係数復号部2305は、フィルタ係数ビットストリームから抽出したURLなどの所在情報を取得する(ステップS2706)。
そして、フィルタ係数復号部2305は、URLなどの所在情報で指定されたクラウド又は記録メディア上からフィルタ係数データのファイルを取得し、又はフィルタ係数ビットストリーム内からフィルタ係数データを取得すると(ステップS2707)、アクティブ時刻及び属性情報とともにコントローラ2308に渡す(ステップS2708)。
コントローラ2308は、受け取ったフィルタ係数及び属性情報をフィルタ係数用メモリ2309に一時格納する(ステップS2709)。
その後、アクティブ時刻が到来すると(ステップS2710)、コントローラ2308は、フィルタ係数用メモリ2309から該当するフィルタ係数及びその属性情報を読み出して(ステップS2711)、高画質化部2306に供給する。
高画質化部2306は、属性情報に基づいて、該当するメディア種別の該当する層又は層内の指定された領域にフィルタ係数を上書き保存して、高画質化部2306内の学習モデルを更新する(ステップS2712)。
そして、高画質化部2306は、以降は更新された学習モデルを用いて、映像復号部2302から出力される映像信号に対して高画質化処理を施す(ステップS2713)。例えば、高画質化部2306は、低解像度又は標準解像度の映像信号から高解像度映像信号を生成する超解像処理や、高ダイナミックレンジ化などの高画質化処理を実施する。
第3の実施例でも、第1の実施例と同様に、コンテンツの提供側からは、映像、オーディオ、及び補助データの各メディアデータのビットストリームとともに、更新する学習モデルのフィルタ係数及びその属性情報を多重化して伝送される。但し、複数種類のフィルタ係数を伝送して、複数種類のフィルタ係数を使い分けできるように、フィルタ係数のセット毎に固有の識別情報(ID)を付与するようにする。また、フィルタ係数のセットを複数回に分割して伝送する場合には、分割したすべてのサブセットに対して同じIDを付与するようにする。
コンテンツの提供側は、複数種類のフィルタ係数を事前伝送しておく。また、コンテンツの提供側は、事前伝送しておいた複数種類のフィルタ係数の中から1つのフィルタ係数を選択して実施するコマンドとして、フィルタ係数のIDと、そのフィルタ係数をアクティブにする時刻情報を指定して伝送する。
時刻情報は、タイムコード又はタイムスタンプとも呼ばれ、フィルタ係数を適用するメディア(映像ストリームなど)をコントロールするタイムコードと同じ種類のタイムコードである。コンテンツの提供側は、コンテンツの受信側において各フィルタ係数をアクティブにするアクティブ時刻よりも前に、複数種類のフィルタ係数をあらかじめ伝送する。すなわち、フィルタ係数の事前伝送とコマンド伝送によって、伝送時とは別の時刻でフィルタ係数の適用開始をコントロールすることができる。
例えば、コンテンツの提供側は、超解像処理用のフィルタ係数として、ノイズの多い画像向けフィルタ係数Aと、ノイズの少ない画像向けフィルタ係数Bの不種類のフィルタ係数を事前に伝送しておく。そして、コンテンツの提供時(放送又は配信時)において動画像の各フレームに含まれるノイズ量に応じて、受信側でA又はBのうち適切なフィルタ係数を適用するようにコントロールすることができる。
また、第3の実施例では、テレビ受信装置などのコンテンツの受信側では、ID毎にフィルタ係数を格納するフィルタ係数用メモリと、そのフィルタ係数用メモリの入出力をコントロールするコントローラを設ける。そして、受信した多重化ビットストリームを非多重化して、IDが付与されたフィルタ係数に関する情報が取り出された場合には、コントローラは、フィルタ係数をフィルタ係数用メモリ内のIDに応じたメモリ領域に格納する。その後、コンテンツの提供側から、フィルタ係数のIDとそのフィルタ係数をアクティブにする時刻情報を含んだコマンドが到来すると、コントローラは、アクティブ時刻が到来すると、フィルタ係数用メモリ内のIDに該当するメモリ領域からフィルタ係数を取り出して、対象とするメディアの高品質化処理(例えば低解像度映像信号の超解像処理)への適用を開始するようにする。
図28には、第3の実施例に係るコンテンツ再生システム2800の構成例を模式的に示している。このコンテンツ再生システム2800も、放送信号やメディア再生信号、ストリーム配信コンテンツを受信して、映像及びオーディオ信号を出力するように構成されている。コンテンツ再生システム2800は、チューナやHDMI(登録商標)インターフェース、ネットワークインターフェースなどを装備しているが、図28では省略している。コンテンツ再生システム2800は、例えばテレビ受信装置やセットトップボックスである。
コンテンツ再生システム2800は、非多重化部2801と、映像復号部2802と、オーディオ復号部2803と、補助データ復号部2804と、フィルタ係数復号部2805と、高画質化部2806と、高音質化部2807と、コントローラ2808と、フィルタ係数用メモリ2809と、画像表示部2810と、オーディオ出力部2811を備えている。映像復号部2802と、オーディオ復号部2803と、補助データ復号部2804と、高画質化部2806と、高音質化部2807と、画像表示部2810と、オーディオ出力部2811は、図1に示したコンテンツ再生システム100中と同一名のコンポーネントとそれぞれ同様の機能を備えているので、ここでは説明を省略する。
非多重化部2801は、放送信号、再生信号、又はストリーミングデータとして外部から受信した多重化ビットストリームを、映像ビットストリーム、オーディオビットストリーム、補助ビットストリーム、及びフィルタ係数ビットストリームに非多重化して、後段の映像復号部2802、オーディオ復号部2803、補助データ復号部2804、及びフィルタ係数復号部2805の各々に分配する。但し、受信した多重化ビットストリームに必ずしもフィルタ係数ビットストリームが多重化されているとは限らず、この場合には、フィルタ係数復号部2805にフィルタ係数ビットストリームが供給されることはない。また、多重化ビットストリームからID及びアクティブ時刻を指定するコントロールコマンドが非多重化された場合、非多重化部2801は、フィルタ係数復号部2805経由でコントローラ2809に分配するものとする。
フィルタ係数復号部2805は、所定の符号化方式で符号化されたるフィルタ係数ビットストリームを復号処理して、フィルタ係数の属性情報とフィルタ係数のデータ本体を抽出すると、コントローラ2808に供給する。属性情報は、送られてきたフィルタ係数に付与されたID、送られてきたフィルタ係数のデータ種別(動画像用、静止画用、グラフィックス用など)、送られてきたフィルタ係数のデータサイズ(ある層全体、又はその一部かの区別など)、フィルタ係数の位置情報(どの層のどの範囲を上書きするデータか)、並びに精度(32ビット浮動小数点数型、16ビット整数型、8ビット整数型など)に関する情報を含んでいる。
コントローラ2808は、フィルタ係数用メモリ2809の入出力をコントロールする。具体的には、コントローラ2808は、フィルタ係数復号部2805から、フィルタ係数及びそのID情報並びに属性情報を受け取ると、フィルタ係数用メモリ2809内のID情報に対応するメモリ領域にフィルタ係数及びその属性情報を格納する。
また、コントローラ2808は、フィルタ係数のID及びアクティブ時刻を指定するコントロールコマンドを受け取った場合には、そのアクティブ時刻が到来したときに、フィルタ係数用メモリ2809内のそのIDに対応するメモリ領域からフィルタ係数及びその属性情報を読み出して高画質化部2806に供給する。アクティブ時刻は、対象とするメディアに対してフィルタ係数の適用の開始を指定する時刻である(図28に示す例では映像ストリームを適用の対象とする)。
高画質化部2806は、属性情報に基づいて、該当するメディア種別の該当する層又は層内の指定された領域にフィルタ係数を上書き保存して、高画質化部2806内の学習モデルを更新する。高画質化部2806は、以降は更新された学習モデルを用いて、映像復号部2802から出力される映像信号に対して、超解像処理や高ダイナミックレンジ化といった高画質化処理を実施する。
したがって、コンテンツ再生システム2800は、事前伝送されてきたフィルタ係数をフィルタ係数用メモリ2809内のIDに対応するメモリ領域に格納しておき、その後、ID及びアクティブ時刻を指定するコントロールコマンドを受信したときには、アクティブ時刻からIDで指定されたフィルタ係数を適用した高画質化処理を開始することができる。
なお、図28では、コントローラ2808によってフィルタ係数用メモリ2809内の各メモリ領域に格納されたフィルタ係数及び属性情報を高画質化部2806にのみ出力するように描かれているが、コントローラ2808は、属性情報でメディア種別としてオーディオが指定されている場合には、高音質化部2807に属性情報(種別情報、位置情報など)とIDで指定されたフィルタ係数を供給し、高音質化のための学習モデルの更新処理が上記と同様に実施されるものと理解されたい。
図29には、映像、オーディオ、及び補助データなどの各メディアデータとともに、学習モデルのフィルタ係数及びその属性情報、さらにはコントロールコマンドを多重化して伝送するマルチメディア伝送データフォーマットを模式的に示している。当該伝送データフォーマットで多重化される学習モデルのフィルタ係数は、同じ伝送データに含まれるいずれかのメディアデータの高品質化に関わる学習モデルのフィルタ係数を更新するためのデータである。
マルチメディア伝送データフォーマットは、参照番号2901で示すシーケンスヘッダを先頭にして、メディアヘッダが付けられた各メディアのデータが順に連結されて構成される。図29に示す例では、参照番号2902で示す映像のメディアヘッダに続いて参照番号2903で示す映像データの本体が伝送される。その後の参照番号2904で示すフィルタ係数のメディアヘッダにはフィルタ係数のID情報(ここではID:0)が付加され、その直後に参照番号2905で示すフィルタ係数(ID:0)のデータ0が伝送される。また、その後の参照番号2906で示すフィルタ係数のメディアヘッダにはフィルタ係数のID情報(ここではID:1)が付加され、その直後に参照番号2907で示すフィルタ係数(ID:1)のデータ1が伝送される。また、その後に、参照番号2908で示すコントロールコマンドが伝送される。コントロールコマンドは、適用を開始しようとするフィルタ係数のIDと、そのフィルタ係数の適用の開始時刻を指定するアクティブ時刻を含んでいる。
コンテンツ再生システム2800が図29に示すようなデータフォーマットからなるマルチメディア伝送データを受信すると、非多重化部2801では、メディアヘッダに基づいて直後のメディアデータ本体のメディア種別を識別して、映像復号部2802、オーディオ復号部2803、補助データ復号部2804、及びフィルタ係数復号部2805に逐次振り分けることができる。また、多重化ビットストリームからID及びアクティブ時刻を指定するコントロールコマンドが非多重化された場合、非多重化部2801は、フィルタ係数復号部2805経由でコントローラ2809に分配するものとする。
フィルタ係数復号部2805は、所定の符号化方式で符号化されたるフィルタ係数ビットストリームを復号処理して、フィルタ係数のID:0と、フィルタ係数の属性情報とフィルタ係数のデータ0を抽出すると、コントローラ2808に供給する。そして、コントローラ2808は、フィルタ係数復号部2805から受け取ったフィルタ係数のデータ0及びその属性情報を、フィルタ係数用メモリ2809内のID:0に対応するメモリ領域に格納する。
続いて、フィルタ係数復号部2805が、符号化フィルタ係数ビットストリームから、フィルタ係数のID:1と、フィルタ係数の属性情報とフィルタ係数のデータ1を抽出した場合も同様に、コントローラ2808に供給する。そして、コントローラ2808は、フィルタ係数復号部2805から受け取ったフィルタ係数のデータ1及びその属性情報を、フィルタ係数用メモリ2809内のID:1に対応するメモリ領域に格納する。
その後、コントロールコマンドが伝送され、そのコントロールコマンドで指定するアクティブ時刻が到来すると、コントローラ2808は、フィルタ係数用メモリ2809内のコントロールコマンドで指定されたIDに対応するメモリ領域からフィルタ係数のデータ並びにその属性情報を読み出して、高画質化部2806に供給する。
図30には、図29に示したマルチメディア伝送データに多重化されるフィルタ係数のデータ0のデータフォーマット例を示している。
図30に示すフィルタ係数データは、属性情報として、参照番号3001で示すデータ種別(動画像)、参照番号3002で示すID情報(ID:0)、参照番号3003で示すデータサイズ(フィルタ係数データのセット数:1)、参照番号3004で示す位置情報(第1層のフィルタのフルセット)、及び、参照番号3005で示すデータの精度(8ビット整数型)を含んでいる。そして、これらの属性情報3001~3005に続いて、参照番号3006で示すフィルタ係数のデータが格納されている。例えば、第1層の9×9マトリックスのフィルタが32セットの場合には、データ部分のサイズは、8×9×9×32=20,736ビットである。
図31には、図29に示したマルチメディア伝送データに多重化されるフィルタ係数のデータ1のデータフォーマット例を示している。
図31に示すフィルタ係数データは、属性情報として、参照番号3101で示すデータ種別(動画像)、参照番号3102で示すID情報(ID:1)、参照番号3103で示すデータサイズ(フィルタ係数データのセット数:1)、参照番号3104で示す位置情報(第1層のフィルタのフルセット)、及び、参照番号3105で示すデータの精度(16ビット整数型)を含んでいる。そして、これらの属性情報3101~3105に続いて、参照番号3106で示すフィルタ係数のデータが格納されている。例えば、第1層の9×9マトリックスのフィルタが32セットの場合には、データ部分のサイズは、16×9×9×32=41,472ビットである。
図32には、図29に示したマルチメディア伝送データに多重化されるコントロールコマンドのデータフォーマット例を示している。
図32に示すコントロールコマンドは、参照番号3201で示すコントロールコマンドの種別情報、参照番号3202で示すID情報、及び参照番号3203で示すタイムコードを含んでいる。種別情報3201は、当該コントロールコマンドが対象とするメディアの種別(図示の例では「動画像」)を示している。また、ID情報3202は、当該コントロールコマンドが指定するフィルタ係数のID(図示の例ではID:1)を示している。また、タイムコード3203は、ID情報3202で指定したフィルタ係数の適用を開始するアクティブ時刻(図示の例では、動画像の2フレーム目)を示している。
コントローラ2808は、フィルタ係数復号部2805から図30及び図31に示すようにフィルタ係数のデータ0及びデータ1が順に渡されると、フィルタ係数用メモリ2809内の各々のIDに対応するメモリ領域に逐次格納する。その後、図32に示したコントロールコマンドの伝送により、事前伝送されたフィルタ係数の適用が指示される。コントローラ2808は、そのコントロールコマンドで指定されたアクティブ時刻が到来すると、コントロールコマンドで指定されたIDに対応するフィルタ係数用メモリ2809内のメモリ領域からフィルタ係数及びその属性情報を読み出して、高画質化部2806に渡す。高画質化部2806は、コントローラ2808から渡された第1層のフィルタ全体のフィルタ係数を上書きして、高画質化部2806内の学習モデルを更新して、アクティブ時刻である映像フレームの2フレーム目から適用する。
図33には、第3の実施例に係るコンテンツ再生システム3300の他の構成例を模式的に示している。このコンテンツ再生システム3300も、放送信号やメディア再生信号、ストリーム配信コンテンツを受信して、映像及びオーディオ信号を出力するように構成されている。コンテンツ再生システム3300は、チューナやHDMI(登録商標)インターフェース、ネットワークインターフェースなどを装備しているが、図33では省略している。コンテンツ再生システム3300は、例えばテレビ受信装置やセットトップボックスである。
コンテンツ再生システム3300は、非多重化及びデータ検索部3301と、映像復号部3302と、オーディオ復号部3303と、補助データ復号部3304と、フィルタ係数復号部3305と、高画質化部3306と、高音質化部3307と、コントローラ3308と、フィルタ係数用メモリ3309と、画像表示部3310と、オーディオ出力部3311を備えている。映像復号部3302と、オーディオ復号部3303と、補助データ復号部3304と、高画質化部3306と、高音質化部3307と、画像表示部3310と、オーディオ出力部3311は、図3に示したコンテンツ再生システム300中の同一名のコンポーネントと同様の機能を備えているので、ここでは説明を省略する。
非多重化及びデータ検索部3301は、外部から受信した多重化ビットストリームを映像ビットストリーム、オーディオビットストリーム、補助ビットストリーム、及びフィルタ係数ビットストリームに非多重化して、後段の映像復号部3302、オーディオ復号部3303、補助データ復号部3304、及びフィルタ係数復号部3305の各々に分配する。但し、受信した多重化ビットストリームに必ずしもフィルタ係数ビットストリームが多重化されているとは限らず、この場合には、フィルタ係数復号部3305にフィルタ係数ビットストリームが供給されることはない。また、多重化ビットストリームからID及びアクティブ時刻を指定するコントロールコマンドが非多重化された場合、非多重化部3301は、フィルタ係数復号部3305経由でコントローラ3309に分配するものとする。
また、非多重化及びデータ検索部3301は、ネットワークインターフェース(図示しない)経由でクラウド又は記録メディア上のデータの取得処理を行う。一般にデータはファイル単位で取り扱われる。また、クラウド又は記録メディア上のファイルの所在は、URI又はURLの形式で記述される。
フィルタ係数復号部3305は、所定の符号化方式で符号化されたるフィルタ係数ビットストリームを復号処理して、フィルタ係数の属性情報とフィルタ係数のデータ本体部を抽出する。フィルタ係数のデータ本体部は、フィルタ係数データ自体ではなく、フィルタ係数を記述したデータファイルのクラウド又は記録メディア上の所在の情報を格納している。そこで、フィルタ係数復号部3305は、フィルタ係数ビットストリームを復号して、例えばURL形式で記述された所在情報を取得すると、非多重化及びデータ検索部3301を通じて、クラウド又は記録メディアからフィルタ係数データのファイルを取得する。そして、フィルタ係数復号部3305は、フィルタ係数の属性情報とフィルタ係数のデータを、コントローラ3308に供給する。属性情報は、送られてきたフィルタ係数のデータ種別(動画像用、静止画用、グラフィックス用など)、送られてきたフィルタ係数のデータサイズ(ある層全体、又はその一部かの区別など)、フィルタ係数の位置情報(どの層のどの範囲を上書きするデータか)、並びに精度(32ビット浮動小数点数型、16ビット整数型、8ビット整数型など)に関する情報を含んでいる。
コントローラ3308は、フィルタ係数用メモリ3309の入出力をコントロールする。具体的には、コントローラ3308は、フィルタ係数復号部3305から、フィルタ係数及びそのID情報並びに属性情報を受け取ると、フィルタ係数及びその属性情報をフィルタ係数用メモリ3309内のID情報に対応するメモリ領域に格納する。
また、コントローラ3308は、フィルタ係数のID及びアクティブ時刻を指定するコントロールコマンドを受け取った場合には、そのアクティブ時刻が到来したときに、フィルタ係数用メモリ3309内のそのIDに対応するメモリ領域からフィルタ係数及びその属性情報を読み出して高画質化部3306に供給する。アクティブ時刻は、対象とするメディアに対してフィルタ係数の適用の開始を指定する時刻である(図33に示す例では映像ストリームを適用の対象とする)。
高画質化部3306は、属性情報に基づいて、該当するメディア種別の該当する層又は層内の指定された領域にフィルタ係数を上書き保存して、高画質化部3306内の学習モデルを更新する。高画質化部3306は、以降は更新された学習モデルを用いて、映像復号部3302から出力される映像信号に対して、超解像処理や高ダイナミックレンジ化といった高画質化処理を実施する。
したがって、コンテンツ再生システム3300は、事前伝送されてきたフィルタ係数をフィルタ係数用メモリ3309内のIDに対応するメモリ領域に格納しておき、その後、ID及びアクティブ時刻を指定するコントロールコマンドを受信したときには、アクティブ時刻からIDで指定されたフィルタ係数を適用した高画質化処理を開始することができる。
なお、図33では、コントローラ3308によってフィルタ係数用メモリ3309内の各メモリ領域に一時格納されるフィルタ係数及び属性情報を高画質化部3306にのみ出力するように描かれているが、コントローラ3308は、属性情報でメディア種別としてオーディオが指定されている場合には、高音質化部3307に属性情報(種別情報、位置情報など)とフィルタ係数を供給し、高音質化のための学習モデルの更新処理が上記と同様に実施されるものと理解されたい。
図34には、映像、オーディオ、及び補助データなどの各メディアデータとともに、学習モデルのフィルタ係数及びその属性情報、さらにはコントロールコマンドを多重化して伝送するマルチメディア伝送データフォーマットを模式的に示している。当該伝送データフォーマットで多重化される学習モデルのフィルタ係数は、同じ伝送データに含まれるいずれかのメディアデータの高品質化に関わる学習モデルのフィルタ係数を更新するためのデータである。
マルチメディア伝送データフォーマットは、参照番号3401で示すシーケンスヘッダを先頭にして、メディアヘッダが付けられた各メディアのデータが順に連結されて構成される。図34に示す例では、参照番号3402で示す映像のメディアヘッダに続いて参照番号3403で示す映像データの本体が伝送される。その後の参照番号3404で示すフィルタ係数のメディアヘッダにはフィルタ係数のID情報(ここではID:0)が付加され、その直後に参照番号3505で示すフィルタ係数のデータ本体として、ID:0で識別されるフィルタ係数データの属性情報とそのデータファイルのクラウド又は記録メディア上の所在を例えばURL形式で記述した情報が伝送される。また、その後の参照番号3506で示すフィルタ係数のメディアヘッダにはフィルタ係数のID情報(ここではID:1)が付加され、その直後に参照番号3507で示すフィルタ係数のデータ本体として、ID:1で識別されるフィルタ係数データの属性情報とそのデータファイルのクラウド又は記録メディア上の所在を例えばURL形式で記述した情報が伝送される。また、その後に、参照番号3508で示すコントロールコマンドが伝送される。コントロールコマンドは、適用を開始しようとするフィルタ係数のIDと、そのフィルタ係数の適用の開始時刻を指定するアクティブ時刻を含んでいる。
コンテンツ再生システム3300が図34に示すようなデータフォーマットからなるマルチメディア伝送データを受信すると、非多重化及びデータ検索部3301では、メディアヘッダに基づいて直後のメディアデータ本体のメディア種別を識別して、映像復号部3302、オーディオ復号部3303、補助データ復号部3304、及びフィルタ係数復号部3305に逐次振り分けることができる。また、多重化ビットストリームからID及びアクティブ時刻を指定するコントロールコマンドが非多重化された場合、非多重化及びデータ検索部3301は、フィルタ係数復号部3305経由でコントローラ3309に分配するものとする。
フィルタ係数復号部3305は、所定の符号化方式で符号化されたるフィルタ係数ビットストリームを復号処理して、フィルタ係数のID:0と、フィルタ係数の属性情報と、ID:0で識別されるフィルタ係数データの所在情報を抽出すると、非多重化及びデータ検索部3301を通じて、クラウド又は記録メディアからID:0で識別されるフィルタ係数データを取得する。そして、フィルタ係数復号部3305は、ID:0で識別されるフィルタ係数の属性情報とフィルタ係数データを、コントローラ3308に供給する。コントローラ3308は、フィルタ係数復号部3305から受け取ったフィルタ係数のデータ及びその属性情報を、フィルタ係数用メモリ3309内のID:0に対応するメモリ領域に格納する。
続いて、フィルタ係数復号部3305が、符号化フィルタ係数ビットストリームから、フィルタ係数のID:1と、フィルタ係数の属性情報と、ID:1で識別されるフィルタ係数データの所在情報を抽出した場合も同様に、非多重化及びデータ検索部3301を通じて、クラウド又は記録メディアからID:1で識別されるフィルタ係数データを取得する。そして、フィルタ係数復号部3305は、ID:1で識別されるフィルタ係数の属性情報とフィルタ係数データを、コントローラ3308に供給する。コントローラ3308は、フィルタ係数復号部3305から受け取ったフィルタ係数のデータ及びその属性情報を、フィルタ係数用メモリ3309内のID:1に対応するメモリ領域に格納する。
その後、コントロールコマンドが伝送され、そのコントロールコマンドで指定するアクティブ時刻が到来すると、コントローラ3308は、フィルタ係数用メモリ3309内のコントロールコマンドで指定されたIDに対応するメモリ領域からフィルタ係数のデータ並びにその属性情報を読み出して、高画質化部3306に供給する。
図35には、図34に示したマルチメディア伝送データに多重化されるフィルタ係数データ(ID:0)のデータフォーマット例を示している。
図35に示すフィルタ係数データは、属性情報として、参照番号3501で示すデータ種別(動画像)、参照番号3502で示すID情報(ID:0)、参照番号3503で示すデータサイズ(フィルタ係数データのセット数:1)、参照番号3504で示す位置情報(第1層のフィルタのフルセット)、及び、参照番号3505で示すデータの精度(8ビット整数型)を含んでいる。そして、これらの属性情報3501~3505に続いて、参照番号3506で示す、ID:0で識別されるフィルタ係数データのクラウド又は記録メディア上の所在情報が格納されている。所在情報は、例えばURL形式で記述されている。
図36には、図34に示したマルチメディア伝送データに多重化されるフィルタ係数のデータ(ID:1)のデータフォーマット例を示している。
図36に示すフィルタ係数データは、属性情報として、参照番号3601で示すデータ種別(動画像)、参照番号3602で示すID情報(ID:1)、参照番号3603で示すデータサイズ(フィルタ係数データのセット数:1)、参照番号3604で示す位置情報(第1層のフィルタのフルセット)、及び、参照番号3605で示すデータの精度(16ビット整数型)を含んでいる。そして、これらの属性情報3601~3605に続いて、参照番号3606で示す、ID:1で識別されるフィルタ係数データのクラウド又は記録メディア上の所在情報が格納されている。所在情報は、例えばURL形式で記述されている。
図37には、図34に示したマルチメディア伝送データに多重化されるコントロールコマンドのデータフォーマット例を示している。
図37に示すコントロールコマンドは、参照番号3701で示すコントロールコマンドの種別情報、参照番号3702で示すID情報、及び参照番号3703で示すタイムコードを含んでいる。種別情報3701は、当該コントロールコマンドが対象とするメディアの種別(図示の例では「動画像」)を示している。また、ID情報3702は、当該コントロールコマンドが指定するフィルタ係数のID(図示の例ではID:1)を示している。また、タイムコード3703は、ID情報3702で指定したフィルタ係数の適用を開始するアクティブ時刻(図示の例では、動画像の2フレーム目)を示している。
コントローラ3308は、フィルタ係数復号部3305からID:0及びID:1でそれぞれ識別されるフィルタ係数データが順に渡されると、フィルタ係数用メモリ2809内の各々のIDに対応するメモリ領域に逐次格納する。その後、図37に示したコントロールコマンドの伝送により、事前伝送されたフィルタ係数の適用が指示される。コントローラ3308は、そのコントロールコマンドで指定されたアクティブ時刻が到来すると、コントロールコマンドで指定されたIDに対応するフィルタ係数用メモリ3309内のメモリ領域からフィルタ係数及びその属性情報を読み出して、高画質化部3306に渡す。高画質化部3306は、コントローラ3308から渡された第1層のフィルタ全体のフィルタ係数を上書きして、高画質化部3306内の学習モデルを更新して、アクティブ時刻である映像フレームの2フレーム目から適用する。
図38には、第3の実施例に係るコンテンツ再生システム3300が多重化ビットストリームを受信したときに実行する処理手順をフローチャートの形式で示している。
コンテンツ再生システム3300が多重化ビットストリームを受信すると(ステップS3801)、まず非多重化及びデータ検索部3301は、メディアデータの先頭に付けられたメディアヘッダに記載された情報に基づいて、多重化ビットストリームをメディア毎のビットストリームに非多重化して(ステップS3802)、後段の映像復号部3302、オーディオ復号部3303、補助データ復号部3304、及びフィルタ係数復号部3305の各々に分配する。
ここで、非多重化されたビットストリームがフィルタ係数以外、すなわち映像、オーディオ又は補助データのうちいずれかのビットストリームである場合には(ステップS3303のNo及びステップS3814のNo)、映像復号部3302、オーディオ復号部3303又は補助データ復号部3304のうち該当する復号部に割り振られる。映像復号部3302、オーディオ復号部3303、補助データ復号部3304の各々で実施される復号処理は当業界で周知であり、また、本明細書で提案する技術とは直接関連しないので、詳細な説明を省略する。
非多重化されたビットストリームがフィルタ係数のビットストリームである場合には(ステップS3803のYes)、フィルタ係数復号部2305は、メディアヘッダを解析し(ステップS3804)、さらにフィルタ係数のID情報並びに属性情報(種別、サイズ、位置、精度など)を取得する。
次いで、フィルタ係数復号部3305は、メディアヘッダ内の情報などに基づいて、属性情報で指定されている(今回のマルチメディア伝送データで更新の対象となっている)フィルタ係数のデータが同じマルチメディア伝送データ内に格納されているのかどうかをチェックする(ステップS3805)。あるいは、フィルタ係数復号部3305は、マルチメディア伝送データ内にはフィルタ係数データの所在情報が格納されているのかをチェックする。
ここで、フィルタ係数のデータが同じマルチメディア伝送データ内に格納されていない場合には(ステップS3805のNo)、フィルタ係数復号部3305は、フィルタ係数ビットストリームから抽出したURLなどの所在情報を取得する(ステップS3806)。
そして、フィルタ係数復号部3305は、URLなどの所在情報で指定されたクラウド又は記録メディア上からフィルタ係数データのファイルを取得し、又はフィルタ係数ビットストリーム内からフィルタ係数データを取得すると(ステップS3807)、属性情報とともにコントローラ3308に渡す(ステップS3808)。
コントローラ3308は、受け取ったフィルタ係数及び属性情報を、フィルタ係数用メモリ3309内のIDに対応するメモリ領域に格納する(ステップS3809)。
他方、非多重化されたビットストリームがフィルタ係数のビットストリームではなく(ステップS3803のNo)、コントロールコマンドであった場合には(ステップS3814のYes)、コントローラ3308は、フィルタ係数復号部3305経由で受け取ったコントロールコマンドを解析して(ステップS3815)、メディアへの適用を指示するフィルタ係数のID情報と、そのフィルタ係数のメディアへの適用を開始するアクティブ時刻を取得する。
その後、アクティブ時刻が到来すると(ステップS3810)、コントローラ3308は、フィルタ係数用メモリ3309内の該当するメモリ領域からフィルタ係数及びその属性情報を読み出して(ステップS3811)、高画質化部3306に供給する。
高画質化部3306は、属性情報に基づいて、該当するメディア種別の該当する層又は層内の指定された領域にフィルタ係数を上書き保存して、高画質化部3306内の学習モデルを更新する(ステップS3812)。
そして、高画質化部3306は、以降は更新された学習モデルを用いて、映像復号部3302から出力される映像信号に対して高画質化処理を施す(ステップS3813)。例えば、高画質化部3306は、低解像度又は標準解像度の映像信号から高解像度映像信号を生成する超解像処理や、高ダイナミックレンジ化などの高画質化処理を実施する。
第4の実施例では、コンテンツの受信側は、外部から提供された1又は複数種類のフィルタ係数データをメモリに格納しておくとともに、必要に応じて外部に出力する機能を備えている。
複数種類のフィルタ係数を同時に扱う場合、第3の実施例と同様にフィルタ係数のセット毎に固有のIDを付与し、ID毎のメモリ領域を使って格納するようにすれば、フィルタ係数データの管理や取り扱いが容易である。
また、「必要に応じて」には、外部から外部出力の要求を受け取った場合や、UI(User Interface)を通じてユーザから外部出力が直接指示された場合を含むものとする。
また、メモリから読み出したフィルタ係数データを外部出力する際に、そのまま出力してもよいが、受信時と同様に符号化したフィルタ係数ビットストリームとして出力するようにしてもよい。
また、フィルタ係数データの出力先として、クラウド上のサーバ、外付け又は内蔵のディスク、USB(Universal Serial Bus)メモリのようなカートリッジ式メモリデバイスであってもよい。出力先がクラウド又は記録メディアの場合には、その出力場所はURI又はURLの形式で指定することができる。例えば、外部出力の要求元が、URI又はURLの形式で出力場所を指定するようにしてもよい。
図39には、第4の実施例に係るコンテンツ再生システム3900の構成例を模式的に示している。このコンテンツ再生システム3900も、放送信号やメディア再生信号、ストリーム配信コンテンツを受信して、映像及びオーディオ信号を出力するように構成されている。コンテンツ再生システム3900は、チューナやHDMI(登録商標)インターフェース、ネットワークインターフェースなどを装備しているが、図39では省略している。コンテンツ再生システム3900は、例えばテレビ受信装置やセットトップボックスである。
コンテンツ再生システム3900は、非多重化データ検索及びデータアップロード部3901と、映像復号部3902と、オーディオ復号部3903と、補助データ復号部3904と、フィルタ係数復号部3905と、高画質化部3906と、高音質化部3907と、コントローラ3908と、フィルタ係数用メモリ3909と、フィルタ係数符号化部3910と、画像表示部3911と、オーディオ出力部3912を備えている。映像復号部3902と、オーディオ復号部3903と、補助データ復号部3904と、高画質化部3906と、高音質化部3907と、画像表示部3911と、オーディオ出力部3912は、図1に示したコンテンツ再生システム100中の同一名のコンポーネントと同様の機能を備えているので、ここでは説明を省略する。
非多重化データ検索及びデータアップロード部3901は、伝送ストリームの非多重化及びフィルタ係数データの取得の各処理については、第2の実施例に係るコンテンツ再生システム3300内の非多重化及びデータ検索部3301と同様である。非多重化データ検索及びデータアップロード部3901は、URI又はURLの形式などにより指定された出力先へデータをアップロードし、又はUSBメモリへデータを記録する処理も行うことができる。
フィルタ係数復号部3905は、第2の実施例に係るコンテンツ再生システム3300内のフィルタ係数復号部3305と同様の機能を備えている。
コントローラ3908は、フィルタ係数用メモリ3909の入出力をコントロールする。具体的には、コントローラ3908は、IDを指定して、フィルタ係数用メモリ3909内の対応するメモリ領域へのデータの格納や対応するメモリ領域からのデータの読み出しを行う。外部から受信したフィルタ係数データ及び属性情報のフィルタ係数用メモリ3909への格納や、アクティブ時刻の到来時におけるフィルタ係数データ及び属性情報の高画質化部3906への提供といった処理は第2の実施例の場合と同様なので、ここでは詳細な説明を省略する。
本実施例では、コンテンツ再生システム3900には、ID情報と出力先の情報を含むフィルタ係数データの外部出力要求が入力される。このような外部出力要求は、マルチメディア伝送データに多重化されるコントロールコマンドの形態であってもよいし、その他のコマンドの形態でもよい。あるいはUIを通じてユーザから外部出力が直接指示される場合もある。
コントローラ3908は、外部出力要求で指定されたIDに対応するメモリ領域からフィルタ係数データ及び属性情報を読み出すと、フィルタ係数符号化部3910に出力する。フィルタ係数符号化部3910は、ID、フィルタ係数データ、及び属性情報を符号化してフィルタ係数ビットストリームを生成する。そして、非多重化データ検索及びデータアップロード部3901は、URI又はURLの形式などにより指定された出力先へ、符号化フィルタ係数ビットストリームをアップロードし、又はUSBメモリなどの記録メディアへ記録する。
以上、特定の実施形態を参照しながら、本明細書で開示する技術について詳細に説明してきた。しかしながら、本明細書で開示する技術の要旨を逸脱しない範囲で当業者が該実施形態の修正や代用を成し得ることは自明である。
本明細書では、本明細書で開示する技術をテレビ受信機に適用した実施形態を中心に説明してきたが、本明細書で開示する技術の要旨はこれに限定されるものではない。映像コンテンツをユーザに提示するさまざまなタイプの表示装置にも、同様に本明細書で開示する技術を適用することができる。例えば、映像ストリームを受信するセットトップボックス、映像ストリームを視聴するスマートフォンやタブレットなどの多機能情報端末やパーソナルコンピュータ、ブルーレイディスクなどの記録媒体から再生した映像コンテンツを表示するメディアプレーヤなどにも同様に、本明細書で開示する技術を適用する個ができる。
要するに、例示という形態により本明細書で開示する技術について説明してきたのであり、本明細書の記載内容を限定的に解釈するべきではない。本明細書で開示する技術の要旨を判断するためには、特許請求の範囲を参酌すべきである。
なお、本明細書の開示の技術は、以下のような構成をとることも可能である。
(1)コンテンツを処理するように学習された学習モデルの重み係数に関する属性情報をコンテンツと多重化したストリームを受信する受信部と、
受信したストリームを非多重化して属性情報を取得する取得部と、
を具備する受信装置。
受信したストリームを非多重化して属性情報を取得する取得部と、
を具備する受信装置。
(2)前記学習モデルは、コンテンツを高品質化するための学習モデルを含む、
上記(1)に記載の受信装置。
上記(1)に記載の受信装置。
(3)コンテンツは映像を含み、
前記学習モデルは、映像を高画質化するための学習モデルを含む、
上記(1)又は(2)のいずれかに記載の受信装置。
前記学習モデルは、映像を高画質化するための学習モデルを含む、
上記(1)又は(2)のいずれかに記載の受信装置。
(4)前記学習モデルは、映像を超解像処理又は高ダイナミックレンジ化するための学習モデルを含む、
上記(3)に記載の受信装置。
上記(3)に記載の受信装置。
(5)コンテンツはオーディオ信号を含み、
前記学習モデルは、オーディオ信号を高音質化の帯域を拡張するための学習モデルを含む、
上記(1)乃至(4)のいずれかに記載の受信装置。
前記学習モデルは、オーディオ信号を高音質化の帯域を拡張するための学習モデルを含む、
上記(1)乃至(4)のいずれかに記載の受信装置。
(6)前記学習モデルは、オーディオの帯域を拡張するための学習モデルを含む、
上記(5)に記載の受信装置。
上記(5)に記載の受信装置。
(7)属性情報は、重み係数を適用する対象となるコンテンツの種別、更新しようとする重み係数のデータサイズ、更新しようとする重み係数の学習モデル上における位置情報、重み係数のデータの精度のうち少なくとも1つに関する情報を含む、
上記(1)乃至(6)のいずれかに記載の受信装置。
上記(1)乃至(6)のいずれかに記載の受信装置。
(8)前記受信部は、重み係数をさらに多重化した前記ストリームを受信し、
前記取得部は、前記ストリームを非多重化したときに、さらに重み係数を取得する、
上記(1)乃至(7)のいずれかに記載の受信装置。
前記取得部は、前記ストリームを非多重化したときに、さらに重み係数を取得する、
上記(1)乃至(7)のいずれかに記載の受信装置。
(9)前記受信部は、重み係数の所在情報をさらに多重化した前記ストリームを受信し、
前記取得部は、前記ストリームを非多重化して取得した所在情報に基づいてさらに重み係数を取得する、
上記(1)乃至(7)のいずれかに記載の受信装置。
前記取得部は、前記ストリームを非多重化して取得した所在情報に基づいてさらに重み係数を取得する、
上記(1)乃至(7)のいずれかに記載の受信装置。
(10)取得した重み係数及び属性情報に基づいて学習モデルを更新して、コンテンツを処理する処理部をさらに備える、
上記(8)又は(9)のいずれかに記載の受信装置。
上記(8)又は(9)のいずれかに記載の受信装置。
(11)学習モデルに基づいてコンテンツを処理する処理部と、
重み係数を格納するメモリと、
前記メモリへの重み係数の入出力をコントロールするコントローラと、
をさらに備え、
前記受信部は、重み係数の適用を開始する時刻に関する情報をさらに多重化した前記ストリームを受信し、
前記コントローラは、前記ストリームを非多重化して取得された時刻に基づいて、前記メモリから読み出した重み係数を前記処理部に供給する、
上記(1)乃至(7)のいずれかに記載の受信装置。
重み係数を格納するメモリと、
前記メモリへの重み係数の入出力をコントロールするコントローラと、
をさらに備え、
前記受信部は、重み係数の適用を開始する時刻に関する情報をさらに多重化した前記ストリームを受信し、
前記コントローラは、前記ストリームを非多重化して取得された時刻に基づいて、前記メモリから読み出した重み係数を前記処理部に供給する、
上記(1)乃至(7)のいずれかに記載の受信装置。
(12)識別情報毎に重み係数を格納するメモリ領域を有するメモリと、
識別情報に基づいて前記メモリ内の対応するメモリ領域への重み係数の入出力をコントロールするコントローラと、
をさらに備え、
前記コントローラは、適用を開始する重み係数の識別情報及び適用を開始する時刻に関するコマンドに基づいて、前記メモリの対応するメモリ領域からから読み出した重み係数を前記処理部に供給する、
上記(1)乃至(7)のいずれかに記載の受信装置。
識別情報に基づいて前記メモリ内の対応するメモリ領域への重み係数の入出力をコントロールするコントローラと、
をさらに備え、
前記コントローラは、適用を開始する重み係数の識別情報及び適用を開始する時刻に関するコマンドに基づいて、前記メモリの対応するメモリ領域からから読み出した重み係数を前記処理部に供給する、
上記(1)乃至(7)のいずれかに記載の受信装置。
(13)前記受信部は、適用を開始する重み係数の識別情報及び適用を開始する時刻に関する前記コマンドをさらに多重化した前記ストリームを受信する、
上記(12)に記載の受信装置。
上記(12)に記載の受信装置。
(14)重み係数を格納するメモリと、
前記メモリへの重み係数の入出力をコントロールするコントローラと、
をさらに備え、
前記コントローラは、前記メモリから読み出した重み係数の外部への出力をさらにコントロールする、
上記(1)乃至(13)のいずれかに記載の受信装置。
前記メモリへの重み係数の入出力をコントロールするコントローラと、
をさらに備え、
前記コントローラは、前記メモリから読み出した重み係数の外部への出力をさらにコントロールする、
上記(1)乃至(13)のいずれかに記載の受信装置。
(15)コンテンツを処理するように学習された学習モデルの重み係数に関する属性情報をコンテンツと多重化したストリームを受信する受信ステップと、
受信したストリームを非多重化して属性情報を取得する取得ステップと、
を有する受信方法。
受信したストリームを非多重化して属性情報を取得する取得ステップと、
を有する受信方法。
(16)コンテンツを処理するように学習された学習モデルの重み係数に関する属性情報をコンテンツと多重化したストリームを生成する多重化部と、
多重化したストリームを所定の伝送メディア上に伝送する伝送部と、
を具備する送信装置。
多重化したストリームを所定の伝送メディア上に伝送する伝送部と、
を具備する送信装置。
(17)重み係数を学習する学習部をさらに備える、
上記(16)に記載の送信装置。
上記(16)に記載の送信装置。
(18)コンテンツは映像を含み、
前記学習部は、映像を高画質化するための重み係数を学習する、
上記(17)に記載の送信装置。
前記学習部は、映像を高画質化するための重み係数を学習する、
上記(17)に記載の送信装置。
(19)属性情報は、重み係数を適用する対象となるコンテンツの種別、更新しようとする重み係数のデータサイズ、更新しようとする重み係数の学習モデル上における位置情報、重み係数のデータの精度のうち少なくとも1つに関する情報を含む、
上記(16)乃至(18)のいずれかに記載の送信装置。
上記(16)乃至(18)のいずれかに記載の送信装置。
(20)コンテンツを処理するように学習された学習モデルの重み係数に関する属性情報をコンテンツと多重化したストリームを生成する多重化ステップと、
多重化したストリームを所定の伝送メディア上に伝送する伝送ステップと、
を有する送信方法。
多重化したストリームを所定の伝送メディア上に伝送する伝送ステップと、
を有する送信方法。
100…コンテンツ再生システム、101…非多重化部
102…映像復号部、103…オーディオ復号部
104…補助データ復号部、105…高画質化部、106…高音質化部
107…画像表示部、108…オーディオ出力部
200…ディスプレイ、201…スピーカーユニット、
201-1、201-2…加振器、202…スタンド
300…コンテンツ再生システム、301…非多重化及びデータ検索部
302…映像復号部、303…オーディオ復号部
304…補助データ復号部、305…高画質化部、306…高音質化部
307…画像表示部、308…オーディオ出力部
500…コンテンツ再生システム、501…非多重化部
502…映像復号部、503…オーディオ復号部
504…補助データ復号部、505…フィルタ係数復号部
506…高画質化部、507…高音質化部、508…画像表示部
509…オーディオ出力部
1000…コンテンツ再生システム
1001…非多重化及びデータ検索部、1002…映像復号部
1003…オーディオ復号部、1004…補助データ復号部
1005…フィルタ係数復号部、1006…高画質化部
1007…高音質化部、1008…画像表示部
1009…オーディオ出力部
1600…コンテンツ符号化システム、1601…ダウンサンプラ
1602…映像符号化部、1603…映像復号部
1604…フィルタ係数学習器、1605…多重化部
1801…第1層フィルタ1801、1802…第2層フィルタ
1803…第3層フィルタ
1804…畳み込みニューラルネットワーク、1805…差分器
1900…コンテンツ再生システム、1901…非多重化部
1902…映像復号部、1903…オーディオ復号部
1904…補助データ復号部、1905…フィルタ係数復号部
1906…高画質化部、1907…高音質化部
1908…コントローラ、1909…フィルタ係数用メモリ
1910…画像表示部、1911…オーディオ出力部
2300…コンテンツ再生システム、
2301…非多重化及びデータ検索部、2302…映像復号部
2303…オーディオ復号部、2304…補助データ復号部
2305…フィルタ係数復号部、2306…高画質化部
2307…高音質化部、2308…コントローラ
2309…フィルタ係数用メモリ、2310…画像表示部
2311…オーディオ出力部
2800…コンテンツ再生システム、2801…非多重化部
2802…映像復号部、2803…オーディオ復号部
2804…補助データ復号部、2805…フィルタ係数復号部
2806…高画質化部、2807…高音質化部
2808…コントローラ、2809…フィルタ係数用メモリ
2810…画像表示部、2811…オーディオ出力部
3300…コンテンツ再生システム、
3301…非多重化及びデータ検索部、3302…映像復号部
3303…オーディオ復号部、3304…補助データ復号部
3305…フィルタ係数復号部、3306…高画質化部
3307…高音質化部、3308…コントローラ
3309…フィルタ係数用メモリ、3310…画像表示部
3311…オーディオ出力部
3900…コンテンツ再生システム、
3901…非多重化及びデータ検索部、3902…映像復号部
3903…オーディオ復号部、3904…補助データ復号部
3905…フィルタ係数復号部、3906…高画質化部
3907…高音質化部、3908…コントローラ
3909…フィルタ係数用メモリ、3910…フィルタ係数符号化部
3911…画像表示部、3912…オーディオ出力部
102…映像復号部、103…オーディオ復号部
104…補助データ復号部、105…高画質化部、106…高音質化部
107…画像表示部、108…オーディオ出力部
200…ディスプレイ、201…スピーカーユニット、
201-1、201-2…加振器、202…スタンド
300…コンテンツ再生システム、301…非多重化及びデータ検索部
302…映像復号部、303…オーディオ復号部
304…補助データ復号部、305…高画質化部、306…高音質化部
307…画像表示部、308…オーディオ出力部
500…コンテンツ再生システム、501…非多重化部
502…映像復号部、503…オーディオ復号部
504…補助データ復号部、505…フィルタ係数復号部
506…高画質化部、507…高音質化部、508…画像表示部
509…オーディオ出力部
1000…コンテンツ再生システム
1001…非多重化及びデータ検索部、1002…映像復号部
1003…オーディオ復号部、1004…補助データ復号部
1005…フィルタ係数復号部、1006…高画質化部
1007…高音質化部、1008…画像表示部
1009…オーディオ出力部
1600…コンテンツ符号化システム、1601…ダウンサンプラ
1602…映像符号化部、1603…映像復号部
1604…フィルタ係数学習器、1605…多重化部
1801…第1層フィルタ1801、1802…第2層フィルタ
1803…第3層フィルタ
1804…畳み込みニューラルネットワーク、1805…差分器
1900…コンテンツ再生システム、1901…非多重化部
1902…映像復号部、1903…オーディオ復号部
1904…補助データ復号部、1905…フィルタ係数復号部
1906…高画質化部、1907…高音質化部
1908…コントローラ、1909…フィルタ係数用メモリ
1910…画像表示部、1911…オーディオ出力部
2300…コンテンツ再生システム、
2301…非多重化及びデータ検索部、2302…映像復号部
2303…オーディオ復号部、2304…補助データ復号部
2305…フィルタ係数復号部、2306…高画質化部
2307…高音質化部、2308…コントローラ
2309…フィルタ係数用メモリ、2310…画像表示部
2311…オーディオ出力部
2800…コンテンツ再生システム、2801…非多重化部
2802…映像復号部、2803…オーディオ復号部
2804…補助データ復号部、2805…フィルタ係数復号部
2806…高画質化部、2807…高音質化部
2808…コントローラ、2809…フィルタ係数用メモリ
2810…画像表示部、2811…オーディオ出力部
3300…コンテンツ再生システム、
3301…非多重化及びデータ検索部、3302…映像復号部
3303…オーディオ復号部、3304…補助データ復号部
3305…フィルタ係数復号部、3306…高画質化部
3307…高音質化部、3308…コントローラ
3309…フィルタ係数用メモリ、3310…画像表示部
3311…オーディオ出力部
3900…コンテンツ再生システム、
3901…非多重化及びデータ検索部、3902…映像復号部
3903…オーディオ復号部、3904…補助データ復号部
3905…フィルタ係数復号部、3906…高画質化部
3907…高音質化部、3908…コントローラ
3909…フィルタ係数用メモリ、3910…フィルタ係数符号化部
3911…画像表示部、3912…オーディオ出力部
Claims (20)
- コンテンツを処理するように学習された学習モデルの重み係数に関する属性情報をコンテンツと多重化したストリームを受信する受信部と、
受信したストリームを非多重化して属性情報を取得する取得部と、
を具備する受信装置。 - 前記学習モデルは、コンテンツを高品質化するための学習モデルを含む、
請求項1に記載の受信装置。 - コンテンツは映像を含み、
前記学習モデルは、映像を高画質化するための学習モデルを含む、
請求項1に記載の受信装置。 - 前記学習モデルは、映像を超解像処理又は高ダイナミックレンジ化するための学習モデルを含む、
請求項3に記載の受信装置。 - コンテンツはオーディオ信号を含み、
前記学習モデルは、オーディオ信号を高音質化するための学習モデルを含む、
請求項1に記載の受信装置。 - 前記学習モデルは、オーディオの帯域を拡張するための学習モデルを含む、
請求項5に記載の受信装置。 - 属性情報は、重み係数を適用する対象となるコンテンツの種別、更新しようとする重み係数のデータサイズ、更新しようとする重み係数の学習モデル上における位置情報、重み係数のデータの精度のうち少なくとも1つに関する情報を含む、
請求項1に記載の受信装置。 - 前記受信部は、重み係数をさらに多重化した前記ストリームを受信し、
前記取得部は、前記ストリームを非多重化したときに、さらに重み係数を取得する、
請求項1に記載の受信装置。 - 前記受信部は、重み係数の所在情報をさらに多重化した前記ストリームを受信し、
前記取得部は、前記ストリームを非多重化して取得した所在情報に基づいてさらに重み係数を取得する、
請求項1に記載の受信装置。 - 取得した重み係数及び属性情報に基づいて学習モデルを更新して、コンテンツを処理する処理部をさらに備える、
請求項8に記載の受信装置。 - 学習モデルに基づいてコンテンツを処理する処理部と、
重み係数を格納するメモリと、
前記メモリへの重み係数の入出力をコントロールするコントローラと、
をさらに備え、
前記受信部は、重み係数の適用を開始する時刻に関する情報をさらに多重化した前記ストリームを受信し、
前記コントローラは、前記ストリームを非多重化して取得された時刻に基づいて、前記メモリから読み出した重み係数を前記処理部に供給する、
請求項1に記載の受信装置。 - 識別情報毎に重み係数を格納するメモリ領域を有するメモリと、
識別情報に基づいて前記メモリ内の対応するメモリ領域への重み係数の入出力をコントロールするコントローラと、
をさらに備え、
前記コントローラは、適用を開始する重み係数の識別情報及び適用を開始する時刻に関するコマンドに基づいて、前記メモリの対応するメモリ領域からから読み出した重み係数を前記処理部に供給する、
請求項1に記載の受信装置。 - 前記受信部は、適用を開始する重み係数の識別情報及び適用を開始する時刻に関する前記コマンドをさらに多重化した前記ストリームを受信する、
請求項12に記載の受信装置。 - 重み係数を格納するメモリと、
前記メモリへの重み係数の入出力をコントロールするコントローラと、
をさらに備え、
前記コントローラは、前記メモリから読み出した重み係数の外部への出力をさらにコントロールする、
請求項1に記載の受信装置。 - コンテンツを処理するように学習された学習モデルの重み係数に関する属性情報をコンテンツと多重化したストリームを受信する受信ステップと、
受信したストリームを非多重化して属性情報を取得する取得ステップと、
を有する受信方法。 - コンテンツを処理するように学習された学習モデルの重み係数に関する属性情報をコンテンツと多重化したストリームを生成する多重化部と、
多重化したストリームを所定の伝送メディア上に伝送する伝送部と、
を具備する送信装置。 - 重み係数を学習する学習部をさらに備える、
請求項16に記載の送信装置。 - コンテンツは映像を含み、
前記学習部は、映像を高画質化するための重み係数を学習する、
請求項17に記載の送信装置。 - 属性情報は、重み係数を適用する対象となるコンテンツの種別、更新しようとする重み係数のデータサイズ、更新しようとする重み係数の学習モデル上における位置情報、重み係数のデータの精度のうち少なくとも1つに関する情報を含む、
請求項16に記載の送信装置。 - コンテンツを処理するように学習された学習モデルの重み係数に関する属性情報をコンテンツと多重化したストリームを生成する多重化ステップと、
多重化したストリームを所定の伝送メディア上に伝送する伝送ステップと、
を有する送信方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP20857419.4A EP4024875A4 (en) | 2019-08-30 | 2020-05-19 | RECEIVING DEVICE, RECEIVING METHOD AND TRANSMISSION DEVICE AND TRANSMISSION METHOD |
US17/637,039 US20220286746A1 (en) | 2019-08-30 | 2020-05-19 | Reception device and reception method and transmission device and transmission method |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019158573 | 2019-08-30 | ||
JP2019-158573 | 2019-08-30 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2021038981A1 true WO2021038981A1 (ja) | 2021-03-04 |
Family
ID=74685794
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2020/019738 WO2021038981A1 (ja) | 2019-08-30 | 2020-05-19 | 受信装置及び受信方法、並びに送信装置及び送信方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220286746A1 (ja) |
EP (1) | EP4024875A4 (ja) |
WO (1) | WO2021038981A1 (ja) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS4915143B1 (ja) | 1969-05-14 | 1974-04-12 | ||
JP2007143010A (ja) | 2005-11-22 | 2007-06-07 | Sony Corp | テレビジョン装置 |
JP2015092529A (ja) | 2013-10-01 | 2015-05-14 | ソニー株式会社 | 発光装置、発光ユニット、表示装置、電子機器、および発光素子 |
JP2017203999A (ja) | 2009-10-07 | 2017-11-16 | ソニー株式会社 | 復号装置および方法、並びにプログラム |
JP2019023798A (ja) | 2017-07-24 | 2019-02-14 | 日本放送協会 | 超解像装置およびプログラム |
JP2019129328A (ja) * | 2018-01-22 | 2019-08-01 | 西日本電信電話株式会社 | 高精細動画生成装置、高精細動画生成方法、およびプログラム |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
BR112017014634A2 (ja) * | 2015-01-13 | 2018-03-20 | Sony Corporation | A sending set, a transmission method, a receiving set, and a receiving method |
EP3259911B1 (en) * | 2015-02-19 | 2021-04-07 | Magic Pony Technology Limited | Enhancing visual data using updated neural networks |
CN109919308B (zh) * | 2017-12-13 | 2022-11-11 | 腾讯科技(深圳)有限公司 | 一种神经网络模型部署方法、预测方法及相关设备 |
CN110087084B (zh) * | 2018-01-25 | 2022-03-18 | 联咏科技股份有限公司 | 视频处理装置及视频处理方法 |
JP2020524418A (ja) * | 2018-05-21 | 2020-08-13 | ジーディーエフラボ カンパニー リミテッド | Ai映像学習プラットフォームベースのvodサービスシステム |
-
2020
- 2020-05-19 EP EP20857419.4A patent/EP4024875A4/en active Pending
- 2020-05-19 WO PCT/JP2020/019738 patent/WO2021038981A1/ja unknown
- 2020-05-19 US US17/637,039 patent/US20220286746A1/en not_active Abandoned
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS4915143B1 (ja) | 1969-05-14 | 1974-04-12 | ||
JP2007143010A (ja) | 2005-11-22 | 2007-06-07 | Sony Corp | テレビジョン装置 |
JP2017203999A (ja) | 2009-10-07 | 2017-11-16 | ソニー株式会社 | 復号装置および方法、並びにプログラム |
JP2015092529A (ja) | 2013-10-01 | 2015-05-14 | ソニー株式会社 | 発光装置、発光ユニット、表示装置、電子機器、および発光素子 |
JP2019023798A (ja) | 2017-07-24 | 2019-02-14 | 日本放送協会 | 超解像装置およびプログラム |
JP2019129328A (ja) * | 2018-01-22 | 2019-08-01 | 西日本電信電話株式会社 | 高精細動画生成装置、高精細動画生成方法、およびプログラム |
Non-Patent Citations (1)
Title |
---|
See also references of EP4024875A4 |
Also Published As
Publication number | Publication date |
---|---|
US20220286746A1 (en) | 2022-09-08 |
EP4024875A1 (en) | 2022-07-06 |
EP4024875A4 (en) | 2022-10-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11140354B2 (en) | Method for generating control information based on characteristic data included in metadata | |
JP6355521B2 (ja) | デジタル放送受信装置及び方法 | |
US11070872B2 (en) | Receiving device, transmitting device, and data processing method | |
RU2671946C2 (ru) | Устройство и способ обработки информации | |
JP4375313B2 (ja) | 画像音声出力システム、画像音声データ出力装置、音声処理プログラム、及び記録媒体 | |
JPH09233419A (ja) | テレビジョン信号受信装置 | |
CN100542230C (zh) | 显示装置及其驱动方法 | |
WO2011007521A1 (ja) | 放送受信装置、放送受信方法および放送送信装置 | |
JP6825558B2 (ja) | 送信装置、送信方法、再生装置および再生方法 | |
JP4362734B2 (ja) | 同期再生システム | |
KR20180093702A (ko) | 대체 광고를 재생하는 디스플레이 장치 및 그 디스플레이 장치의 제어 방법 | |
US20210195256A1 (en) | Decoder equipment with two audio links | |
US8238446B2 (en) | Method and apparatus for reproducing digital broadcasting | |
US8769562B2 (en) | Digital broadcast method, data receiving device, and data transmitting device | |
WO2021038981A1 (ja) | 受信装置及び受信方法、並びに送信装置及び送信方法 | |
US8767774B2 (en) | Content provision system, content generation apparatus, content reproduction apparatus, and content generation method | |
JP7552749B2 (ja) | 送信装置、受信装置および受信方法 | |
JP3382017B2 (ja) | 番組情報送受信方法及び装置 | |
US10306298B2 (en) | Image processing apparatus and control method thereof | |
JP4232059B2 (ja) | 情報送信装置および方法、並びに記録媒体 | |
WO2017126509A1 (ja) | 送信装置、送信方法、受信装置および受信方法 | |
KR101660730B1 (ko) | 영상 표시 방법 및 그에 따른 영상 표시 시스템 | |
JP2008271194A (ja) | デジタル放送受信装置及びデータ出力制御方法 | |
WO2019087775A1 (ja) | 再生装置、再生方法、プログラム、および記録媒体 | |
JP2008301299A (ja) | コンテンツ再生装置、コンテンツ処理システム及びコンテンツ処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 20857419 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
ENP | Entry into the national phase |
Ref document number: 2020857419 Country of ref document: EP Effective date: 20220330 |
|
NENP | Non-entry into the national phase |
Ref country code: JP |