WO2018116604A1 - 画像処理装置、画像処理方法及びプログラム - Google Patents

画像処理装置、画像処理方法及びプログラム Download PDF

Info

Publication number
WO2018116604A1
WO2018116604A1 PCT/JP2017/037597 JP2017037597W WO2018116604A1 WO 2018116604 A1 WO2018116604 A1 WO 2018116604A1 JP 2017037597 W JP2017037597 W JP 2017037597W WO 2018116604 A1 WO2018116604 A1 WO 2018116604A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
unit
transfer function
image processing
encoding
Prior art date
Application number
PCT/JP2017/037597
Other languages
English (en)
French (fr)
Inventor
孝明 渕江
広瀬 正樹
敦雄 矢田
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US16/468,954 priority Critical patent/US20190349581A1/en
Priority to KR1020197016935A priority patent/KR20190097012A/ko
Priority to EP17885012.9A priority patent/EP3557868B1/en
Priority to CN201780076637.0A priority patent/CN110050463A/zh
Priority to BR112019011922-1A priority patent/BR112019011922A2/pt
Publication of WO2018116604A1 publication Critical patent/WO2018116604A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/115Selection of the code volume for a coding unit prior to coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • H04N19/126Details of normalisation or weighting functions, e.g. normalisation matrices or variable uniform quantisers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression

Definitions

  • the present disclosure relates to an image processing apparatus, an image processing method, and a program.
  • H.264 developed jointly by ITU-T and ISO / IEC.
  • H.264 / AVC Advanced Video Coding
  • H. H.264 / AVC encodes an image signal into a bitstream with improved coding efficiency using various elemental techniques such as prediction, orthogonal transform, quantization, and entropy coding.
  • H.C. H.264 / AVC is a successor to the standard encoding system H.264.
  • H.265 / HEVC High Efficiency Video Coding
  • the encoding efficiency is approximately doubled (see Non-Patent Document 2).
  • HDR High Dynamic Range
  • SDR Standard Dynamic Range
  • HLG Hybrid Log-Gamma
  • ST2084 Spin-Log3
  • Non-Patent Document 3 for HLG.
  • BT. Standardized by ITU-R. 2020 is BT., which has been used in many applications. Compared to the 709 color gamut, a color gamut that enables more vivid colors to be expressed is defined.
  • ITU-T “H.264: Advanced video coding for generic audiovisual services”, ITU-T Recommendation H.264, November 2007 ITU-T, “H.265: High efficiency video coding”, ITU-T Recommendation H.265, October 2014 Association of Radio Industries and Businesses, “ESSENTIAL PARAMETER VALUES FOR THE EXTENDED IMAGE DYNAMIC RANGE TELEVISION (EIDRTV) SYSTEM FOR PROGRAMME PRODUCTION ARIB STANDARD”, ARIB STD-B67 Version 1.0, July 20 Search 24 days], Internet ⁇ URL: http://www.arib.or.jp/english/html/overview/doc/2-STD-B67v1_0.pdf>
  • an encoding unit that encodes an image acquired based on a transfer function related to conversion between light and an image signal, and each of the images in the encoding unit based on the transfer function
  • An image processing apparatus includes a control unit that controls a code amount allocated to the partial area.
  • an image acquired based on a transfer function relating to conversion between light and an image signal is encoded, and the image is encoded during the encoding based on the transfer function. Controlling the amount of code allocated to each partial region.
  • the processor of the image processing device based on the transfer function, an encoding unit that encodes an image acquired based on a transfer function related to conversion between light and an image signal,
  • a program for causing the encoding unit to function as a control unit that controls a code amount allocated to each partial region of the image is provided.
  • the encoding unit that encodes an image acquired based on a transfer function related to conversion between light and an image signal for enabling display at a luminance higher than 100 nit
  • an image processing apparatus comprising: a control unit that controls a coding amount assigned to each partial region of the image in an encoding unit depending on at least one of a luminance component and a color difference component of the partial region.
  • an image processing method includes controlling a code amount assigned to each partial area of the image depending on at least one of a luminance component and a color difference component of the partial area.
  • the processor of the image processing apparatus encodes an image acquired based on a transfer function relating to conversion between light and an image signal to enable display with a luminance higher than 100 nits.
  • a control unit that controls the amount of code assigned to each partial area of the image in the encoding unit depending on at least one of a luminance component and a color difference component of the partial area.
  • an encoding unit that encodes an image acquired based on a transfer function related to conversion between light and an image signal, and the image in the encoding unit based on the transfer function
  • a control unit that controls the prediction residual code amount or the mode code amount for mode selection when encoding the image.
  • a mode for encoding an image acquired based on a transfer function related to conversion between light and an image signal, and encoding the image based on the transfer function is provided. Controlling a prediction residual code amount or mode code amount for selection is provided.
  • the processor of the image processing device based on the transfer function, an encoding unit that encodes an image acquired based on a transfer function related to conversion between light and an image signal,
  • a program is provided for causing the encoding unit to function as a control unit that controls a prediction residual code amount or a mode code amount for mode selection when the image is encoded.
  • FIG. 5 is an explanatory diagram for explaining a color gamut defined by 2020.
  • FIG. It is explanatory drawing which shows the 1st example of a structure of the image processing system which concerns on one Embodiment. It is explanatory drawing which shows the 2nd example of a structure of the image processing system which concerns on one Embodiment.
  • 1 is a block diagram illustrating a first example of a schematic configuration of an image processing apparatus according to a first embodiment. It is a block diagram which shows the 2nd example of schematic structure of the image processing apparatus which concerns on 1st Embodiment. It is a block diagram which shows an example of the detailed structure of the control part and encoding part which concern on 1st Embodiment.
  • FIG. 24 It is a figure which shows the example of a display of the operation screen in a concentrated operation panel. It is a figure which shows an example of the mode of the surgery to which the operating room system was applied. It is a block diagram which shows an example of a function structure of the camera head shown in FIG. 24, and CCU.
  • FIG. 1A is an explanatory diagram for explaining the luminance dynamic range of the SDR video.
  • the vertical axis in FIG. 1A represents luminance [nit].
  • the maximum brightness in the natural world may reach 20000 nit, and the brightness of a general subject is, for example, about 12000 nit at the maximum.
  • the upper limit of the dynamic range of the image sensor is lower than the maximum brightness in the natural world, and may be, for example, 4000 nits.
  • An imaging apparatus such as a digital camera or a digital camcorder converts an electrical signal generated by photoelectrically converting incident light in an image sensor into, for example, a 10-bit digital image signal in a signal processing circuit subsequent to the image sensor.
  • the digital image signal generated by the imaging device is encoded by a predetermined video encoding method (also referred to as a video codec) according to the purpose of an application such as transmission or recording, and converted into an encoded bit stream.
  • a digital image signal acquired by decoding the encoded bit stream is provided to the display device, and the video is reproduced with a display luminance of 100 nits maximum.
  • FIG. 1B is an explanatory diagram for explaining the luminance dynamic range of the HDR video.
  • the imaging apparatus converts incident light to the image sensor into an analog electric signal, and further converts the analog electric signal into, for example, a 10-bit digital image signal.
  • the HDR video signal format maintains the gradation of the high-luminance portion exceeding 100 nits during such conversion, and allows the video to be reproduced with a luminance up to the upper limit of several hundreds or thousands of nits.
  • the digital image signal generated by the imaging device is also encoded by a predetermined video encoding method according to the purpose of the application, and converted into an encoded bit stream.
  • a digital image signal obtained by decoding the encoded bitstream is provided to the display device, and the video is reproduced with a luminance dynamic range including display luminance higher than 100 nits.
  • codec distortion Regardless of whether the video is an SDR video or an HDR video, when an image signal is encoded by a video encoding method including irreversible compression, image quality is deteriorated in an image reproduced based on the decoded image signal. Such image quality degradation is referred to as codec distortion in this specification.
  • the degree of codec distortion can be evaluated by an index called PSNR (Peak Signal-to-Noise Ratio).
  • PSNR Peak Signal-to-Noise Ratio
  • H when coding efficiency is equal, H.
  • the image quality of an image encoded / decoded by H.264 / AVC is higher than the image quality of an image encoded / decoded by MPEG-2.
  • the image quality of an image encoded / decoded by H.265 / HEVC is H.265. It is higher than H.264 / AVC.
  • evaluation of codec distortion is usually performed by comparing the original image input to the encoder and the decoded image output from the decoder. It is not well known how signal conversion performed during HDR image capture or display, or how dynamic range reduction or expansion affects codec distortion.
  • the inventors have converted a large number of sample videos into image signals in the HDR signal format.
  • an experiment was conducted to verify the image quality of an HDR video reproduced from a decoded image signal.
  • the deterioration of the image quality is scattered throughout the image mainly in the form of block noise or mosquito noise, and has occurred remarkably in a part of the image.
  • the degree of deterioration that occurs when the same 10-bit image signal is encoded by the same video encoding method is usually the same. Nevertheless, it is considered that the distortion that is not perceived (or difficult to perceive) in the SDR video is detected in the HDR video because the codec distortion is expanded together when the dynamic range of the decoded image signal is expanded.
  • FIG. 2A shows a state where codec distortion occurs in an image signal of an SDR video through encoding and decoding. Since the codec distortion is not enlarged when the SDR video is reproduced, the distortion is not perceived subjectively if the distortion is sufficiently small.
  • FIG. 2B shows that the codec distortion still occurs in the image signal of the HDR video. When playing back an HDR video, the codec distortion is increased with the expansion of the dynamic range. As a result, the possibility of subjectively perceiving image quality degradation such as block noise or mosquito noise increases.
  • Codec distortion can also be increased when format conversion from HDR to SDR is performed on an image signal expressed in the HDR signal format.
  • FIG. 2C shows how the codec distortion is expanded through format conversion from HDR to SDR, that is, HDR-SDR conversion.
  • the HDR-SDR conversion is generally an inverse function of a transfer function corresponding to a signal format for HDR (for example, obtained by decoding an encoded bit stream) into an original signal corresponding to the output of an image sensor. And a process of reconverting the restored original signal into an SDR image signal with a transfer function corresponding to the signal format for SDR.
  • the codec distortion expanded in the former of these processes is not reduced in the reconversion to the signal format for SDR. Therefore, when the SDR video is reproduced based on the image signal after the HDR-SDR conversion, the enlarged codec distortion can be subjectively sensed.
  • the distortion should occur uniformly.
  • the distortion is significant in the characteristic partial region as exemplified below: -Bright areas (eg clouds in the sky) -Brightly colored areas (eg lamps that glow red or blue)
  • the cause of the remarkable distortion in these partial areas is related to the signal transfer function of the signal format for HDR.
  • FIG. 3 illustrates an example of a typical SDR signal format OETF and an HDR signal format OETF.
  • the horizontal axis represents the luminance dynamic range of light before conversion, and 100% corresponds to the luminance of 100 nits.
  • the vertical axis represents the code value of the converted image signal. In the case of 10 bits, the code value can take values from 0 to 1023.
  • the code value is particularly
  • the difference in the slope of the transfer function is significant in a relatively large portion. This is because the image information is compressed at a higher compression ratio in the HDR case than in the SDR in such a portion, that is, in the HDR case, the same change in the code value is larger in the HDR case than in the SDR case. It means to express the change of key. Even when the transfer functions of the red (R) component, the green (G) component, and the blue (B) component are analyzed in the RGB color system, the relationship between HDR and SDR similar to the graph shown in FIG. Differences in signal transfer characteristics were confirmed.
  • FIG. 4 shows SDR BT.
  • a graph 709 shows how much the S-Log3 for HDR compresses image information.
  • the horizontal axis in FIG. 4 represents the code value of a 10-bit image signal.
  • the vertical axis represents BT.
  • the ratio of the compression ratio of S-Log3 to the compression ratio of 709 is represented.
  • the compression ratio of S-Log3 is BT. It is about 4 times the compression ratio of 709, and the compression ratio of S-Log3 becomes relatively higher as the code value increases.
  • the image information is more strongly compressed in the HDR case than in the SDR case in the portion where the code value is relatively large.
  • an EOTF Electro-Optical Transfer Function
  • OETF Electro-Optical Transfer Function
  • FIG. 709 and BT. 5 is an explanatory diagram for explaining a color gamut defined by 2020.
  • FIG. 5 Referring to FIG. 5, there is shown a color gamut graph in which a three-dimensional color space is mapped to a two-dimensional plane using predetermined constraint conditions. The cross mark in the graph indicates the position where white is mapped. The broken line in the graph indicates BT.
  • BT. 709 shows the range of colors that can be represented according to 709.
  • the solid line in the graph is BT.
  • the range of colors that can be expressed according to 2020 is shown.
  • the dotted lines in the graph indicate the range of colors that human vision can identify.
  • BT. 2020 It is possible to express a variety of colors more than 709.
  • BT. 709 can express about 75% of colors in the real world, whereas BT. 2020 is said to be able to express more than 99% of the colors.
  • BT. 2020 may be used as the color gamut of the SDR video, or may be used as the color gamut of the HDR video.
  • FIG. 6A is an explanatory diagram illustrating a first example of the configuration of the image processing system according to the present embodiment.
  • the image processing system 10a illustrated in FIG. 6A includes an imaging device 11, a signal processing device 14, and a server device 15.
  • the imaging device 11 may be, for example, a digital video camera or a digital still camera, or any type of device having a video shooting function (for example, a monitoring camera, a Web camera, or an information terminal).
  • the imaging device 11 captures the state of the real world using an image sensor and generates a primitive image signal.
  • the signal processing device 14 may be a BPU (Baseband Processing Unit), for example, and is connected to the imaging device 11.
  • the signal processing device 14 performs AD conversion and digital signal processing on the primitive image signal generated by the imaging device 11, and generates an image signal in a predetermined signal format.
  • Digital signal processing performed by the signal processing device 14 may include, for example, gamma correction and color conversion.
  • the signal processing device 14 may be configured integrally with the imaging device 11.
  • the characteristic of signal conversion from light incident on the imaging device 11 to an image signal generated by the signal processing device 14 is represented by OETF.
  • the signal processing device 14 may generate an image signal with a transfer function (or signal format) selected from a plurality of candidates by a user via some user interface.
  • the plurality of candidates include one signal format for SDR (eg, BT.709) and one signal format for HDR (eg, a combination of BT.2020 and HLG or S-Log3). But you can.
  • the plurality of candidates may include a plurality of signal formats for HDR.
  • the signal processing device 14 may be capable of generating an image signal only with a single HDR signal format.
  • the signal processing device 14 multiplexes an auxiliary signal including an audio signal and metadata as necessary on the image signal generated as a result of signal conversion, and outputs the multiplexed signals to the server device 15.
  • the server device 15 is an image processing device connected to the signal processing device 14 via a signal line conforming to a transmission protocol such as SDI (Serial Digital Interface) or HD-SDI.
  • SDI Serial Digital Interface
  • HD-SDI High Speed Digital Interface
  • the server device 15 acquires the image signal transmitted from the signal processing device 14, encodes the image with a predetermined video encoding method, and generates an encoded bitstream 17a.
  • the encoded bit stream 17a may be stored in a storage device inside or outside the server device 15, or may be transmitted to another device (for example, a display device) connected to the server device 15.
  • FIG. 6B is an explanatory diagram showing a second example of the configuration of the image processing system according to the present embodiment.
  • the image processing system 10b illustrated in FIG. 6B includes an imaging device 12, a storage device 13, and a terminal device 16.
  • the imaging device 12 may be, for example, a digital video camera, a digital camcorder or a digital still camera, or any type of device having a video shooting function.
  • the imaging device 12 captures a real-world situation using an image sensor and generates a primitive image signal.
  • the imaging device 12 performs AD conversion and digital signal processing as described above in connection with the signal processing device 14, and generates an image signal in a predetermined signal format. Similar to the signal processing device 14, the imaging device 12 may generate an image signal with a transfer function selected from a plurality of candidates by a user via some user interface, or a transfer function for a single HDR It may be possible to generate an image signal only by
  • the imaging device 12 encodes an image by a predetermined video encoding method based on an image signal generated as a result of signal conversion, and generates an encoded bit stream 17b.
  • the encoded bit stream 17b may be stored as a video file, for example, or may be provided to the storage device 13 or the terminal device 16 via a network.
  • the storage device 13 is a data storage that stores various video data.
  • the storage device 13 may store a video file 17c generated by encoding an image using a predetermined video encoding method.
  • the type of transfer function, the type of color gamut, and the video encoding method relating to conversion between light and image signal applied to the video content included in the video file are identified. Parameters can be included.
  • the storage device 13 may store a RAW video file 18 that records an image signal before encoding (or before signal conversion) as RAW data.
  • the storage device 13 provides a file that the user desires to reproduce or edit to the terminal device 16 via the network.
  • the terminal device 16 is an image processing device having a function of reproducing or editing a video file generated by the imaging device 12 or stored by the storage device 13. For example, the terminal device 16 may decode a coded bitstream included in the video file 17b or 17c acquired from the imaging device 12 or the storage device 13 to generate a decoded image signal. Further, the terminal device 16 may perform dynamic range conversion (for example, HDR-SDR conversion or SDR-HDR conversion) on the decoded image generated as described above. Further, the terminal device 16 may encode the image signal included in the RAW video file 18 or the decoded image signal after dynamic range conversion by a predetermined video encoding method to generate the encoded bit stream 17d.
  • dynamic range conversion for example, HDR-SDR conversion or SDR-HDR conversion
  • an image processing device that is, an encoder
  • the amount of code allocated to each partial region of the image is controlled based on the transfer function (for example, based on the type of transfer function or other attributes). By doing so, degradation of image quality when the signal format for HDR is used is reduced. From the next section, a specific and exemplary configuration of such an image processing apparatus will be described in detail.
  • FIG. 7A is a block diagram illustrating a first example of a schematic configuration of the image processing apparatus according to the present embodiment.
  • the image processing apparatus 100a illustrated in FIG. 7A is, for example, the server apparatus 15 in the example of FIG. 6A, or the imaging apparatus 12 or the terminal apparatus 16 in the example of FIG. 6B (or an image processing module mounted on any of these apparatuses).
  • the image processing apparatus 100a includes a signal acquisition unit 101, an information acquisition unit 103, an encoding unit 110, and a control unit 140.
  • the signal acquisition unit 101 acquires an input image signal generated based on a transfer function related to conversion between light and an image signal.
  • the signal acquisition unit 101 may acquire an input image signal from an external device via a transmission interface, or input from an imaging module and a signal processing module (not shown) configured integrally with the image processing device 100a. An image signal may be acquired.
  • the information acquisition unit 103 acquires input information related to a transfer function applied to the image encoded by the encoding unit 110.
  • the information acquisition unit 103 may acquire input information via a user interface included in the image processing apparatus 100a.
  • the user interface may be provided by a physical input device such as a touch panel, a button, or a switch provided in the housing of the image processing apparatus 100a. Instead, the user interface may be provided as a GUI (Graphical User Interface) on a terminal device that is remotely connected via the communication interface.
  • the input information includes at least a transfer function type indicating the type of transfer function applied to an image to be encoded.
  • the user interface may cause the user to select one of the two options “SDR” and “HDR” to be applied to the image. In this case, it is determined that one predefined transfer function for SDR or one predefined transfer function for HDR is applied to the image.
  • the user interface may allow the user to select a transfer function to be applied to the image from a plurality of transfer function candidates (for example, BT.709, HLG, ST2084, and S-Log3).
  • the information acquisition unit 103 may acquire input information from an auxiliary signal multiplexed with an input image signal.
  • the auxiliary signal is received by the signal acquisition unit 101 during a period in which no image signal is transmitted on the signal line (for example, a blanking period). Then, the information acquisition unit 103 can acquire input information including a transfer function type indicating the type of transfer function applied to the image from the auxiliary signal separated in the signal acquisition unit 101.
  • the information acquisition unit 103 may acquire input information required by accessing an external data source.
  • the encoding unit 110 encodes an image represented by the image signal acquired by the signal acquisition unit 101, and generates an encoded bit stream.
  • the encoding unit 110 is, for example, MPEG-2, H.264, or the like. H.264 / AVC or H.264
  • the encoding process may be executed according to any video encoding method such as H.265 / HEVC.
  • the encoding process executed by the encoding unit 110 typically includes various arithmetic processes such as prediction, orthogonal transform, quantization, and entropy encoding. Among them, quantization is used to achieve a required compression rate. This process includes lossy compression.
  • the control unit 140 controls the amount of code allocated to each partial region of the image in the encoding unit 110 based on the transfer function indicated by the input information acquired by the information acquisition unit 103. More specifically, the control unit 140 uses the HDR for the first transfer function corresponding to HDR (transfer function for HDR) and the second transfer function corresponding to SDR (transfer function for SDR).
  • the quantization control process for reducing the degradation of the image quality of the HDR video is validated.
  • the quantization control process is a process for correcting a process parameter of a quantization process executed regardless of a transfer function or a signal format so as to adjust a code amount allocation when an HDR transfer function is applied. Can be included.
  • the allocated code amount is controlled mainly based on the type of the transfer function, but the code amount is determined based on other attributes of the transfer function, such as the upper limit value of the dynamic range associated with the transfer function. It may be controlled.
  • FIG. 7B is a block diagram illustrating a second example of a schematic configuration of the image processing apparatus according to the present embodiment.
  • the image processing apparatus 100b illustrated in FIG. 7B is also, for example, the server apparatus 15 in the example of FIG. 6A, or the imaging apparatus 12 or the terminal apparatus 16 in the example of FIG. 6B (or image processing mounted on any of these apparatuses). Module).
  • the image processing apparatus 100b includes a signal processing unit 102, an information acquisition unit 104, a storage unit 107, an encoding unit 110, and a control unit 140.
  • the signal processing unit 102 acquires a primitive image signal input from the imaging device via some transmission interface or a signal line inside the device, or acquires an image signal from a video file stored in the storage unit 107. . Then, the signal processing unit 102 performs digital signal processing that can include, for example, gamma correction and color conversion on the primitive image signal, and generates an image signal to be encoded in a predetermined signal format. The signal format applied to the image by the signal processing unit 102 and the corresponding transfer function are determined based on the input information acquired by the information acquisition unit 104. Then, the signal processing unit 102 outputs the generated image signal to the encoding unit 110.
  • the information acquisition unit 104 acquires input information related to a transfer function applied to an image encoded by the encoding unit 110.
  • the information acquisition unit 104 may acquire input information via a user interface (provided by a physical input device or provided as a GUI) of the image processing apparatus 100b.
  • the input information includes at least a transfer function type indicating the type of transfer function applied to an image to be encoded.
  • the user interface may cause the user to select one of the two options “SDR” and “HDR” to be applied to the image.
  • the user interface may allow the user to select a transfer function to be applied to the image from a plurality of transfer function candidates.
  • the storage unit 107 is a storage device for storing various video data.
  • the storage unit 107 may store, for example, a video file that records a digital image signal before signal conversion.
  • the user may store the video file acquired from the external storage medium in the storage unit 107 via an input / output interface (not shown) included in the image processing apparatus 100b.
  • the storage unit 107 may store a video file including an encoded bit stream generated as a result of the encoding process executed by the encoding unit 110.
  • the video file may be output to an external device upon request.
  • the encoding unit 110 encodes an image represented by the image signal acquired by the signal processing unit 102 to generate an encoded bitstream. Based on the type of transfer function indicated by the input information acquired by the information acquisition unit 104, the control unit 140 controls the amount of code allocated to each partial region of the image in the encoding unit 110.
  • the encoded bit stream generated by the encoding unit 110 may be transmitted to a device external to the image processing apparatus 100b, or may be stored as a video file by the storage unit 107.
  • FIG. 8 is a block diagram illustrating an example of a detailed configuration of the encoding unit and the control unit according to the first embodiment.
  • the encoding unit 110 includes a rearrangement buffer 111, a block setting unit 112, a subtraction unit 113, an orthogonal transform unit 114, a quantization unit 115, a lossless encoding unit 116, and an inverse quantum.
  • the rearrangement buffer 111 rearranges the image data of a series of images expressed by the image signal acquired by the signal acquisition unit 101 or the signal processing unit 102 according to a GOP (Group of Pictures) structure.
  • the rearrangement buffer 111 outputs the rearranged image data to the block setting unit 112, the intra prediction unit 130, and the inter prediction unit 135.
  • the block setting unit 112 divides each image corresponding to a picture into a plurality of blocks.
  • MPEG-2 and H.264 In H.264 / AVC a picture is divided into a plurality of macroblocks having a fixed size in a grid pattern, and an encoding process is executed using each macroblock as a processing unit.
  • the quantization process can be executed using a smaller sub-block set for each macroblock as a processing unit.
  • H. In H.265 / HEVC a picture is divided into a plurality of coding units (Coding Units) having a variable size, and coding processing is executed with each CU as a processing unit.
  • the quantization process can be executed with a smaller transform unit (Transform Unit) set in each CU as a processing unit.
  • the subtraction unit 113 calculates prediction residual data that is the difference between the image data input from the block setting unit 112 and the prediction image data, and outputs the prediction residual data to the orthogonal transformation unit 114.
  • the orthogonal transform unit 114 transforms the prediction residual data input from the subtraction unit 113 from spatial domain image data to frequency domain transform coefficient data.
  • the orthogonal transformation executed by the orthogonal transformation unit 114 may be, for example, discrete cosine transformation or discrete sine transformation. Then, orthogonal transform section 114 outputs transform coefficient data to quantization section 115.
  • the quantization unit 115 quantizes the transform coefficient data input from the orthogonal transform unit 114 in a quantization step that is determined so that a required compression rate is achieved. For example, if the buffer or transmission path has a large free capacity relative to the size of the output encoded bit stream, the quantization step is set to a small value. Conversely, if the free capacity is small, the quantization step is set to a large value. obtain.
  • the quantization step is generally determined for each subregion in the image. Different quantization steps may be used for each of the three color components. The smaller the quantization step used for a partial region, the finer the transform coefficients for that partial region are.
  • the quantization unit 115 may apply different quantization steps to different frequency components of the transform coefficient using the quantization matrix. Then, the quantization unit 115 outputs the quantized transform coefficient data (hereinafter referred to as quantization data) to the lossless encoding unit 116 and the inverse quantization unit 121.
  • the control unit 140 provides the quantization unit 115 with parameters for adjusting (scaling) the quantization step used for each partial region. .
  • the quantization unit 115 scales the quantization step by dividing (or multiplying) by this parameter provided from the control unit 140, and quantizes the transform coefficient data in the quantized step after scaling.
  • some video coding schemes have a logarithmic function relationship with the quantization step instead of directly coding the quantization step as a control value required for inverse quantization on the decoder side.
  • a quantization parameter (QP) is encoded.
  • the scaling of the quantization step may be achieved by adding (or subtracting) some offset to the quantization parameter instead of dividing (or multiplying) the quantization step by some coefficient.
  • the lossless encoding unit 116 generates an encoded bitstream by encoding the quantized data input from the quantizing unit 115. Further, the lossless encoding unit 116 encodes various parameters referred to by the decoder, and inserts the encoded parameters into the encoded bitstream.
  • the parameters encoded by the lossless encoding unit 116 may include information regarding transfer functions, information regarding color gamut, and information regarding the quantization parameters described above.
  • the lossless encoding unit 116 outputs the generated encoded bit stream to an output destination according to the purpose of the application.
  • the inverse quantization unit 121, the inverse orthogonal transform unit 122, and the addition unit 123 constitute a local decoder.
  • the local decoder is responsible for reconstructing the original image from the encoded data.
  • the inverse quantization unit 121 performs inverse quantization on the quantized data in the same quantization step as that used by the quantization unit 115, and restores transform coefficient data.
  • a quantization step scaled using parameters provided from the controller 140 may be used for each partial region. Then, the inverse quantization unit 121 outputs the restored transform coefficient data to the inverse orthogonal transform unit 122.
  • the inverse orthogonal transform unit 122 restores the prediction residual data by performing an inverse orthogonal transform process on the transform coefficient data input from the inverse quantization unit 121. Then, the inverse orthogonal transform unit 122 outputs the restored prediction residual data to the addition unit 123.
  • the adding unit 123 generates decoded image data by adding the restored prediction residual data input from the inverse orthogonal transform unit 122 and the predicted image data generated by the intra prediction unit 130 or the inter prediction unit 135. To do. Then, the adding unit 123 outputs the generated decoded image data to the loop filter 124 and the frame memory 126.
  • the loop filter 124 is an in-loop filter for the purpose of improving the image quality of the decoded image.
  • the loop filter 124 may include, for example, a deblocking filter for reducing block distortion appearing in the decoded image.
  • the loop filter 124 may include an adaptive offset filter for adding an edge offset or a band offset to the decoded image.
  • the loop filter 124 outputs the decoded image data after filtering to the frame memory 126.
  • the frame memory 126 stores the decoded image data before filtering input from the adder 123 and the decoded image data after application of the in-loop filter input from the loop filter 124.
  • the switch 127 reads decoded image data before filtering used for intra prediction from the frame memory 126, and supplies the read decoded image data to the intra prediction unit 130 as reference image data. Further, the switch 127 reads out the decoded image data after filtering used for inter prediction from the frame memory 126 and supplies the read out decoded image data to the inter prediction unit 135 as reference image data.
  • the mode selection unit 128 selects a prediction method for each block based on the cost comparison input from the intra prediction unit 130 and the inter prediction unit 135. For the block for which intra prediction is selected, the mode selection unit 128 outputs the prediction image data generated by the intra prediction unit 130 to the subtraction unit 113 and outputs information related to the intra prediction to the lossless encoding unit 116. For the block for which inter prediction is selected, the mode selection unit 128 outputs the prediction image data generated by the inter prediction unit 135 to the subtraction unit 113 and outputs information related to inter prediction to the lossless encoding unit 116. .
  • the intra prediction unit 130 executes an intra prediction process based on the original image data and the decoded image data. For example, the intra prediction unit 130 evaluates a cost estimated to occur for each of a plurality of candidate modes included in the search range. Next, the intra prediction unit 130 selects the prediction mode that minimizes the cost as the best prediction mode. Further, the intra prediction unit 130 generates predicted image data according to the selected best prediction mode. Then, the intra prediction unit 130 outputs information related to intra prediction including prediction mode information indicating the best prediction mode, the corresponding cost, and prediction image data to the mode selection unit 128.
  • the inter prediction unit 135 performs inter prediction processing (motion compensation) based on the original image data and the decoded image data. For example, the inter prediction unit 135 evaluates a cost estimated to occur for each of a plurality of candidate modes included in the search range. Next, the inter prediction unit 135 selects the prediction mode with the lowest cost as the best prediction mode. Further, the inter prediction unit 135 generates predicted image data according to the selected best prediction mode. Then, the inter prediction unit 135 outputs information related to inter prediction, corresponding costs, and predicted image data to the mode selection unit 128.
  • inter prediction processing motion compensation
  • control unit 140 includes a statistical calculation unit 141 and a code amount control unit 143.
  • the statistical calculation unit 141 calculates statistics regarding the strength of at least one of the luminance component and the color difference component for each of the partial regions set in the image.
  • the statistics calculated by the statistical calculation unit 141 may be a representative value (for example, average, median or mode) of pixel values (code values) in a partial region for one or more color components, or a histogram. . Then, the statistical calculation unit 141 outputs the calculated statistics to the code amount control unit 143.
  • the partial region here can typically correspond to a block corresponding to a processing unit of quantization processing.
  • MPEG-2 or H.264. H.264 / AVC macroblock or sub-block, or H.264 Statistics may be calculated for each partial region such as CU or TU in H.265 / HEVC, and a quantization step may be controlled by a code amount control unit described below.
  • the present invention is not limited to this example, and the quantization control process described here may be executed for each partial region (may be one pixel) having another shape.
  • the code amount control unit 143 determines the type of transfer function applied to the image to be encoded based on the input information input from the information acquisition unit 103 or 104. Then, the code amount control unit 143 can skip the quantization control process described below when the transfer function for SDR out of the transfer function for HDR and the transfer function for SDR is applied. On the other hand, when the transfer function for HDR is applied to the image to be encoded, the code amount control unit 143 determines the code amount assigned to each partial region from among the luminance component and the color difference component of the partial region. Control depending on at least one of the above.
  • the code amount control unit 143 scales the quantization step used by the quantization unit 115 for each partial region depending on the strength of one or more color components (or the quantization unit).
  • the code amount allocated to each partial area is controlled by scaling to 115.
  • the control depending on the intensity of the luminance component as the first embodiment the control depending on the intensity of the color difference component as the second embodiment, and the intensity of both the luminance component and the color difference component as the third embodiment. The control depending on will be described.
  • the code amount control unit 143 increases the code amount in a partial region where the intensity of the luminance component is stronger (that is, the high luminance portion). Scale the quantization step used for each subregion. The intensity of the luminance component of each partial area is grasped from the statistics for each partial area calculated by the statistical calculation unit 141.
  • the code amount control unit 143 scales the quantization step by dividing the quantization step by a protection ratio that depends on the intensity of the luminance component of each partial region.
  • the protection ratio is a parameter representing how much the image quality of the partial area is protected. The larger the protection ratio value, the smaller the quantization step value, and the stronger the image quality of the partial area to which the quantization step is applied.
  • the actual division by the protection ratio may be performed in the quantization unit 115 provided with the protection ratio.
  • FIG. 9A is an explanatory diagram for describing a first example of a protection ratio for protecting a high-luminance portion.
  • the horizontal axis in FIG. 9A represents the sign value of the luminance component.
  • the vertical axis represents the protection ratio.
  • the protection ratio may be a parameter calculated using a predetermined function with the intensity of the luminance component of each partial region as an argument.
  • a linear function is shown as an example in FIG. 9A, higher order functions or other types of functions such as logarithmic functions may be used.
  • the quantization step of the partial area is scaled to a smaller value. Thereby, it is possible to avoid excessively damaging the image information of the high-luminance portion that has already been strongly compressed during the conversion from light to an electrical signal.
  • FIG. 9B is an explanatory diagram for describing a second example of the protection ratio for protecting the high luminance part.
  • the protection ratio may be a parameter that is selectively determined depending on which sub-range the intensity of the luminance component of each partial region belongs.
  • the intensity of the luminance component of each partial area is classified into six sub-ranges of less than 200 nit, 200 nit or more and less than 300 nit, 300 nit or more and less than 400 nit, 400 nit or more and less than 500 nit, 500 nit or more and less than 600 nit, and 600 nit or more.
  • the protection ratio corresponding to each sub-range is defined.
  • the code amount control unit 143 may include a memory that stores in advance a mapping table for mapping such a subrange and a corresponding protection ratio. Also in the second example, as in the first example, since the protection ratio of the partial region where the intensity of the luminance component is stronger is set higher, it is already strongly compressed when converting from light to an electric signal. It can be avoided that the image information of the high brightness portion is excessively damaged.
  • the protection ratio (or quantization step) is finely controlled in the central portion of the dynamic range, while the protection ratio is fixed at the end of the dynamic range.
  • the code amount control unit 143 increases the code amount in a partial region where the intensity of the color difference component is stronger (ie, the high color difference portion). Scale the quantization step used for each subregion.
  • FIG. 10 is an explanatory diagram for explaining a code value to be protected as a high color difference portion.
  • the horizontal axis of FIG. 10 represents the code value of the Cb component that is one of the two color difference components.
  • the vertical axis represents the sign value of the Cr component which is the other of the two color difference components.
  • a point P1 in the figure indicates a corresponding position on the CbCr plane in the YCbCr space of a specific point corresponding to so-called “yellow” in which the code values of the R component and the G component exceed 1000 in the RGB space.
  • a point P2 indicates a corresponding position on the CbCr plane in the YCbCr space of a specific point corresponding to so-called “cyan” in which the code values of the G component and the B component exceed 1000 in the RGB space.
  • a point P3 indicates a corresponding position on the CbCr plane in the YCbCr space of a specific point corresponding to the so-called “green” in which the code value of the G component exceeds 1000 in the RGB space.
  • a point P4 indicates a corresponding position on the CbCr plane in the YCbCr space of a specific point corresponding to so-called “magenta” in which the code values of the R component and the B component exceed 1000 in the RGB space.
  • a point P5 indicates a corresponding position on the CbCr plane in the YCbCr space of a specific point corresponding to the so-called “red” in which the R component code value exceeds 1000 in the RGB space.
  • a point P6 indicates a corresponding position on the CbCr plane in the YCbCr space of a specific point corresponding to so-called “blue” in which the code value of the B component exceeds 1000 in the RGB space.
  • points P1, P2 and P3 inside the broken line frame HL in the figure have relatively high Y component values (for example, 700 or more) in the YCbCr space
  • the points P4, P5 and P6 outside the broken line frame HL have relatively low Y component values (for example, less than 700). This is because the “yellow”, “cyan”, and “green” portions of the brightly colored portion can be protected by considering the luminance component, whereas the “magenta”, “red”, and “blue” portions Means not. Therefore, it is also beneficial to increase the code amount allocation for the high color difference portion.
  • the intensity of the color difference component of each partial area is grasped from the statistics for each partial area calculated by the statistical calculation unit 141.
  • the code amount control unit 143 divides the quantization step by a protection ratio that depends on the intensity of the color difference component in each partial region, thereby obtaining a quantization step (common to the luminance component or specific to the color difference component). Shall be scaled. The actual division may be performed in the quantization unit 115 provided with the protection ratio.
  • the protection ratio for protecting the high color difference portion is a parameter calculated using a predetermined function with the intensity of the color difference component of each partial area as an argument, as in the first example shown in FIG. 9A. There may be. Alternatively, the protection ratio for protecting the high color difference portion is determined depending on which sub-range the intensity of the color difference component of each partial region belongs, as in the second example shown in FIG. 9B. May be a parameter.
  • the code amount control unit 143 may include a memory that stores in advance a mapping table for mapping the subrange of the color difference component and the corresponding protection ratio.
  • FIG. 11 is an explanatory diagram for explaining an example of a protection ratio for protecting a high color difference portion.
  • FIG. 11 shows the protection ratios (broken lines) of the color difference components corresponding to the same six subranges in addition to the protection ratios (solid lines) of the luminance components corresponding to the six subranges illustrated in FIG. 9B.
  • the protection ratio of the partial area where the intensity of the color difference component is stronger the image information of the high color difference area that is already strongly compressed when converting from light to an electrical signal is excessively damaged. Can be avoided.
  • the protection ratio in the middle of the dynamic range the protection of the middle part of the dynamic range, which is likely to affect the subjectively perceived image quality, is efficient while suppressing the sacrifice of encoding efficiency. Can be strengthened.
  • the code amount control unit 143 classifies each partial region into two groups based on the histogram calculated for each color component by the statistical calculation unit 141 for each partial region. More specifically, for example, the code amount control unit 143 determines that the ratio of pixels having a Cb component exceeding a certain Cb reference value exceeds the threshold, or the ratio of pixels having a Cr component exceeding a certain Cr reference value is set to the threshold.
  • the partial regions that are larger can be classified into the first group, and the partial regions that are not (the proportion of both is below the threshold) can be classified into the second group.
  • the first group includes a partial region with many pixels located outside the broken line frame HL in FIG. 10, and the second group includes a partial region with many pixels located inside the broken line frame HL.
  • the code amount control unit 143 protects the high color difference portion according to the second embodiment for the partial region belonging to the first group, and the high luminance portion according to the first embodiment for the partial region belonging to the second group. Protection may be applied.
  • FIG. 12 is a flowchart showing an example of the flow of the encoding control process according to this embodiment.
  • the encoding control process described here may be repeated for each image constituting the video. Processing steps for obtaining or setting parameters that do not change across multiple images may be skipped in the second and subsequent iterations.
  • description of processing steps not directly related to code amount control is omitted.
  • the signal acquisition unit 101 or the signal processing unit 102 acquires an image signal generated based on a transfer function relating to conversion between light and an image signal (step S110).
  • the image signal acquired here is output to the encoding unit 110.
  • the information acquisition unit 103 or 104 acquires input information related to the transfer function applied to the image encoded by the encoding unit 110 via the user interface or from the auxiliary signal multiplexed with the input image signal. (Step S112).
  • the input information acquired here is output to the control unit 140.
  • the code amount control unit 143 sets a protection ratio table or function used when setting the protection ratio for each partial region based on the type of the transfer function indicated by the input information described above (step). S114).
  • the protection ratio table or function set here may be common across a plurality of transfer functions for HDR, or may differ depending on which of the plurality of transfer functions for HDR is applied. May be.
  • the subsequent processing is repeated for each of a plurality of partial areas set in the processing target image.
  • the partial area to be processed in each iteration is referred to as a target partial area here.
  • the quantization unit 115 of the encoding unit 110 determines the quantization step of the target partial region so that a required compression rate is achieved regardless of what transfer function is applied (step S130). .
  • the code amount control unit 143 determines the type of the applied transfer function based on the input information (step S132). If it is determined that the HDR transfer function is applied to the image to be encoded, the code amount control unit 143 performs a quantization control process described in detail later (step S140). On the other hand, when it is determined that the transfer function for SDR is applied to the image to be encoded, the code amount control unit 143 skips the quantization control process.
  • the quantization unit 115 quantizes the transform coefficient data of the target partial region input from the orthogonal transform unit 114 in a quantization step after scaling (or not scaled because it is an SDR video) (step S160). ).
  • the lossless encoding unit 116 encodes the quantized data and the quantization parameter input from the quantization unit 115 to generate an encoded bit stream (step S170).
  • Steps S130 to S170 are repeated until processing is completed for all partial areas in the picture (step S180).
  • the encoding control process shown in FIG. 12 ends (step S190).
  • FIG. 13A is a flowchart showing a first example of the flow of the quantization control process that can be executed in step S140 of FIG.
  • the first example shows an example of the flow of quantization control processing for protecting the gradation of a high-luminance portion in an image.
  • the statistical calculation unit 141 calculates statistics regarding the intensity of the luminance component of the target partial region (step S141).
  • the statistics calculated here may include, for example, the average, median value, or mode value of the pixel values in the partial region for the luminance component.
  • the statistical calculation unit 141 outputs the calculated statistics to the code amount control unit 143.
  • the code amount control unit 143 determines a protection ratio corresponding to the luminance statistics of the target partial region input from the statistical calculation unit 141 by referring to the protection ratio table or using a function for calculating the protection ratio. (Step S144). Then, the code amount control unit 143 outputs the determined protection ratio to the quantization unit 115.
  • the quantization unit 115 scales the quantization step determined in step S130 of FIG. 12 according to the protection ratio input from the code amount control unit 143 (step S146). For example, the quantization unit 115 reduces the quantization step by dividing the quantization step by a protection ratio larger than 1 input from the code amount control unit 143, or divides the quantization step by a protection ratio smaller than 1. This enlarges the quantization step.
  • the quantization step tentatively determined so as to achieve the required compression ratio is scaled by the protection ratio, but both the required compression ratio and the protection ratio are considered simultaneously. Thus, the quantization step may be determined. The same applies to other embodiments described below.
  • FIG. 13B is a flowchart showing a second example of the flow of the quantization control process that can be executed in step S140 of FIG.
  • the second example shows an example of the flow of quantization control processing for protecting the gradation of the high color difference portion in the image.
  • the statistical calculation unit 141 calculates statistics regarding the strength of the color difference component of the target partial region (step S142).
  • the statistics calculated here may include, for example, the average, median value, or mode value of the pixel values in the partial region for the color difference component.
  • the statistical calculation unit 141 outputs the calculated statistics to the code amount control unit 143.
  • the code amount control unit 143 determines the protection ratio corresponding to the color difference statistics of the target partial region input from the statistical calculation unit 141 by referring to the protection ratio table or using a function for calculating the protection ratio. (Step S145). Then, the code amount control unit 143 outputs the determined protection ratio to the quantization unit 115.
  • the quantization unit 115 scales the quantization step determined in step S130 of FIG. 12 according to the protection ratio input from the code amount control unit 143 (step S147). For example, the quantization unit 115 reduces the quantization step by dividing the quantization step by a protection ratio larger than 1 input from the code amount control unit 143, or divides the quantization step by a protection ratio smaller than 1. This enlarges the quantization step.
  • FIG. 13C is a flowchart showing a third example of the flow of the quantization control process that can be executed in step S140 of FIG.
  • the third example shows an example of the flow of quantization control processing for protecting the gradations of both the high luminance part and the high color difference part in the image.
  • the statistical calculation unit 141 calculates statistics regarding the intensity of the luminance component of the target partial region (step S141). Further, the statistical calculation unit 141 calculates statistics regarding the intensity of the color difference component of the target partial region (step S142). Then, the statistical calculation unit 141 outputs the calculated statistics to the code amount control unit 143.
  • the code amount control unit 143 applies luminance-dependent protection to the target partial region based on the statistics of the target partial region (for example, a histogram of the color difference component) input from the statistical calculation unit 141, or the color difference. It is determined whether to apply protection depending on (step S143).
  • the code amount control unit 143 determines that the luminance-dependent protection is applied to the target partial region
  • the code amount control unit 143 refers to the protection ratio table or the protection ratio corresponding to the luminance statistics of the target partial region. This is determined by using a calculation function (step S144).
  • the quantization unit 115 scales the quantization step according to the protection ratio input from the code amount control unit 143 based on the luminance statistics (step S148).
  • the code amount control unit 143 determines that the protection depending on the color difference is applied to the target partial region, the code amount control unit 143 refers to the protection ratio table or calculates the protection ratio for the protection ratio corresponding to the color difference statistics of the target partial region. This is determined by using the function for (Step S145). Then, the quantization unit 115 scales the quantization step according to the protection ratio input from the code amount control unit 143 based on the color difference statistics (step S149).
  • FIG. 14 is a block diagram illustrating a modification of the configuration of the image processing device according to the first embodiment.
  • the image processing apparatus 100c illustrated in FIG. 14 includes, for example, the server apparatus 15 in the example of FIG. 6A, or the image processing apparatus 12 or the terminal apparatus 16 in the example of FIG. ).
  • the image processing apparatus 100c includes a signal acquisition unit 101, an encoding unit 110, and a control unit 140c.
  • the signal acquisition unit 101 acquires an input image signal generated based on a transfer function relating to conversion between light and an image signal.
  • the input image signal acquired by the signal acquisition unit 101 is a signal that is converted from light by an HDR transfer function and is generated in an HDR signal format.
  • the transfer function for HDR here may be, for example, a transfer function such as HLG, ST2084, or S-Log3 to enable display of video with a luminance higher than 100 nits.
  • the encoding unit 110 encodes an image represented by the image signal input from the signal acquisition unit 101 to generate an encoded bit stream.
  • the image processing apparatus 100c may include the signal processing unit 102 described with reference to FIG. 7B instead of the signal acquisition unit 101.
  • control unit 140c determines the code amount allocated to each partial region of the image in the encoding unit 110 on the premise that the HDR transfer function is applied to the encoded image. Control is performed depending on at least one of the luminance component and the color difference component. More specifically, the control unit 140c determines the quantization step used for each partial region according to any of the embodiments described with reference to FIGS. 13A to 13C without determining the type of the transfer function. Can be controlled depending on at least one of the luminance component and the color difference component, thereby controlling the code amount allocated to each partial region.
  • the scaling of the quantization step is realized by, for example, multiplication or division (for example, division by a protection ratio) of a parameter determined using a function having a code value of a color component as an argument as described with reference to FIG. 9A. May be. Instead, the quantization step scaling is realized by multiplication or division of the color component code values as previously described with reference to FIG. May be.
  • FIG. 15 is a flowchart illustrating an example of the flow of the encoding control process according to the modification described with reference to FIG.
  • the encoding control process described here may be repeated for each image constituting the video. Processing steps for obtaining or setting parameters that do not change across multiple images may be skipped in the second and subsequent iterations.
  • description of processing steps not directly related to code amount control is omitted.
  • the signal acquisition unit 101 or the signal processing unit 102 acquires an image signal to which an HDR transfer function relating to conversion between light and an image signal is applied (step S111).
  • the image signal acquired here is output to the encoding unit 110.
  • control unit 140c sets a protection ratio table or function used when setting the protection ratio for each partial area (step S115).
  • the protection ratio table or function set here may be common across a plurality of transfer functions for HDR, or may differ depending on which of the plurality of transfer functions for HDR is applied. May be.
  • the quantization unit 115 of the encoding unit 110 determines a quantization step for the target partial region so that a required compression rate is achieved (step S130).
  • control unit 140c executes one of the quantization control processes described with reference to FIGS. 13A to 13C (step S140). Thereby, the quantization step of the partial region of interest determined in step S130 is scaled.
  • the quantization unit 115 quantizes the transform coefficient data of the target partial region input from the orthogonal transform unit 114 in the quantization step after scaling (step S160).
  • the lossless encoding unit 116 encodes the quantized data and the quantization parameter input from the quantization unit 115 to generate an encoded bit stream (step S170).
  • Steps S130 to S170 are repeated until processing is completed for all partial areas in the picture (step S180).
  • the encoding control process illustrated in FIG. 15 ends (step S190).
  • the first transfer function of the first transfer function corresponding to the first dynamic range and the second transfer function corresponding to the second dynamic range narrower than the first dynamic range are used.
  • the code amount assigned to each partial area can be controlled depending on at least one of the luminance component and the color difference component of the partial area.
  • the transfer function corresponding to a wider dynamic range is applied to the allocation code amount determined regardless of the transfer function, the partial area depends on the strength of at least one color component. Can be adjusted for each.
  • the encoder configuration designed or tuned on the assumption of a specific dynamic range is utilized for the extended dynamic range, it is possible to optimize the allocated code amount and reduce image quality degradation.
  • the first dynamic range may be a dynamic range for enabling display with a luminance higher than 100 nits
  • the second dynamic range is a dynamic range with an upper limit of 100 nits luminance. It's okay. Accordingly, an encoder designed for an existing SDR video can be used to encode an HDR video to which a transfer function such as HLG, ST2084, or S-Log3 is applied while preventing deterioration of image quality. It becomes possible.
  • the code amount allocated to each partial area is controlled by scaling the quantization step depending on at least one of the luminance component and the color difference component of the partial area. For example, the gradation of an image can be better preserved by scaling the quantization step determined according to application requirements (such as the required compression ratio) to a smaller value. Also, by reducing the quantization step to a larger value for a partial region that has a relatively large amount of allocated code, it is possible to compensate for a decrease in encoding efficiency.
  • the quantization step used for each partial area is assigned a larger code amount to the partial area where the intensity of at least one of the luminance component and the color difference component of the partial area is stronger.
  • To be scaled As described above, for example, in the case of HDR, image information is compressed at a higher compression ratio than in the case of SDR, particularly in a portion where the code value is relatively large, and this is the case when displaying HDR video. This has caused the codec distortion to expand in the high luminance part and the high color difference part in the image.
  • the quantization step in the partial area where the intensity of the color component is higher and raising the allocated code amount the codec distortion can be reduced and the gradation change in the original image can be reproduced appropriately. It becomes possible.
  • the transfer function can be determined based on the input information related to the transfer function applied to the image.
  • control based on the transfer function can be executed as desired by the user even when the transfer function cannot be determined from the input signal.
  • control based on a transfer function can be automatically executed without requiring user input.
  • the code amount allocated to each partial region of the image is It is controlled depending on at least one of the luminance component and the color difference component. As a result, it is possible to prevent the codec distortion from becoming conspicuous in the partial area of the image due to a shortage of the allocated code amount for expressing the gradation of the original signal.
  • an encoder selects the best mode from the viewpoint of encoding efficiency from a plurality of selectable modes and encodes mode information indicating the selected mode when encoding an image. Transmit to the decoder.
  • mode selection includes, for example, selection of a prediction mode (eg, prediction direction and prediction block size) in intra prediction, selection of a prediction mode (eg, motion vector, prediction block size and reference picture) in inter prediction, and intra prediction mode. And a prediction method selection between the inter prediction modes.
  • Mode selection usually involves subtracting the cost that can correspond to the sum of the code amount generated from the prediction residual remaining after subtracting the predicted image data from the original image data and the code amount generated from the mode information as overhead as a plurality of candidates. This is done by evaluating across modes.
  • a cost evaluation formula designed or tuned for SDR video is not necessarily optimal for HDR video. This is because the image information of the HDR video is more strongly compressed than the SDR video, and when the same evaluation formula is used, there is a difference between the code amount modes generated from the prediction residual. This is because it tends to be underestimated.
  • the inventors have converted the image signal of the sample video expressed in the signal format for HDR into H.264. It is recognized that unpredictable biases often occur in the selected prediction mode when encoded with existing encoders compliant with H.264 / AVC. For example, when a prediction mode selected for each prediction block as a result of intra prediction for a certain image is analyzed, DC prediction (also referred to as average value prediction) is selected for an unnatural number of blocks over the entire image. was there. Such a bias in the prediction mode deteriorates the prediction accuracy, resulting in distortion scattered throughout the image under a required compression rate. The reason why the prediction mode is biased is that a uniform cost evaluation formula for mode selection is not suitable for HDR video. In particular, in the HDR case, as a result of the strong compression of the image information, the contribution of the prediction residual in the cost evaluation formula becomes small, and it is presumed that the contribution of the mode information is excessively dominant.
  • RD (Rate Distortion) optimization based on Lagrange's undetermined multiplier method is known as a method for selecting the best mode from a plurality of candidate modes.
  • the coding cost J i for the i th candidate mode may be described as:
  • D i represents distortion (hereinafter, referred to as prediction residual code amount) generated in the image in the i-th candidate mode, and is usually the sum of absolute differences (SAD) between the original image and the predicted image. )be equivalent to.
  • R i represents the code amount of overhead bits (for example, mode information indicating the prediction mode) generated in the i-th candidate mode.
  • is a coefficient depending on the quantization parameter QP.
  • an offset value depending on QP may be added (or subtracted) instead of the coefficient ⁇ .
  • the prediction residual code amount D i the value obtained by Hadamard converting the sum of absolute differences may be used.
  • an overhead bit code amount term R i (hereinafter, mode code) It is useful to use a fixed value that is predefined for each candidate mode.
  • mode code the same gradation difference in the image before signal conversion is compressed to a smaller code value difference in the HDR case compared to the SDR case. Then, the mode code amount R i optimized for the SDR video is too large to be included in the cost evaluation formula together with the prediction residual code amount D i generated in the HDR video.
  • FIG. 16A and FIG. 16B are explanatory diagrams for explaining the influence of the difference in transfer function on mode selection.
  • the horizontal axis of the graph shown in the upper part of FIG. 16A represents the pixel position in the horizontal direction on one line of the image.
  • the vertical axis represents the code value of a color component in the pixel column on the line.
  • the solid line in the graph represents the code value of the original image. In the example shown, the code value takes a large value in the left half of the line, decreases in the center of the line, and takes a small value in the right half of the line.
  • a broken line in the left graph represents a code value of a predicted image that can be generated according to DC prediction, which is one of intra prediction modes.
  • a broken line in the right graph represents a code value of a prediction image that can be generated according to diagonal prediction, which is another prediction mode of intra prediction.
  • the area (shaded area in the figure) surrounded by the trace of the code value of the original image (solid line) and the trace of the code value of the predicted image (broken line) is the area when the respective prediction mode is selected. This corresponds to the prediction error.
  • the prediction error of DC prediction is larger than the prediction error of diagonal direction prediction.
  • a smaller mode code amount is given to DC prediction with a smaller mode number than diagonal prediction.
  • diagonal direction prediction when the sum of the prediction error code amount and the mode code amount, that is, the cost is compared between the two prediction modes, the diagonal direction prediction has a lower cost value than the DC prediction. Therefore, in this case, diagonal direction prediction can be selected as the prediction mode for intra prediction.
  • the solid line represents the code value of the original image.
  • the transfer function for SDR was applied to the image
  • the result that the transfer function for HDR was applied to the image was originally the same level.
  • the key difference is compressed to a smaller code value difference. Therefore, the area of the portion surrounded by the trajectory of the code value of the original image (solid line) and the trajectory of the code value of the predicted image (broken line), that is, the prediction error (shaded hatched portion in the figure) is diagonally compared with the DC prediction. Compared with the direction prediction, the difference between these prediction errors is small.
  • DC prediction can be selected as a prediction mode for intra prediction.
  • the prediction residuals included in the cost evaluation formula are described.
  • a method of controlling one of the difference code amount and the mode code amount based on a transfer function is proposed.
  • the image processing system according to the present embodiment may be configured similarly to the image processing system 10a or 10b according to the first embodiment.
  • an image processing device in a system, a server device or a terminal device, or an image processing module mounted on any of these devices encodes an image acquired based on a transfer function relating to conversion between light and an image signal. It has a function as an image processing apparatus (that is, an encoder).
  • an encoder when the encoder encodes an image, the prediction residual code amount or mode code amount for mode selection is controlled based on the transfer function. Thereby, selection of an inappropriate mode when the signal format for HDR is used is avoided, and deterioration of image quality is reduced. From the next section, a specific and exemplary configuration of such an image processing apparatus will be described in detail.
  • FIG. 17A is a block diagram illustrating a first example of a schematic configuration of the image processing apparatus according to the present embodiment.
  • the image processing apparatus 200a illustrated in FIG. 17A includes a signal acquisition unit 201, an information acquisition unit 203, an encoding unit 210, and a control unit 240.
  • the signal acquisition unit 201 acquires an input image signal generated based on a transfer function related to conversion between light and an image signal.
  • the signal acquisition unit 201 may acquire an input image signal from an external device via a transmission interface, or input from an imaging module and a signal processing module (not shown) configured integrally with the image processing device 200a. An image signal may be acquired.
  • the information acquisition unit 203 acquires input information related to the transfer function applied to the image encoded by the encoding unit 210.
  • the information acquisition unit 203 may acquire input information via a user interface included in the image processing apparatus 200a.
  • the user interface may be provided by a physical input device such as a touch panel, a button, or a switch provided in the casing of the image processing apparatus 200a.
  • the user interface may be provided as a GUI on a terminal device that is remotely connected via a communication interface.
  • the input information includes at least a transfer function type indicating the type of transfer function applied to an image to be encoded.
  • the user interface may cause the user to select one of the two options “SDR” and “HDR” to be applied to the image. In this case, it is determined that one predefined transfer function for SDR or one predefined transfer function for HDR is applied to the image.
  • the user interface may allow the user to select a transfer function to be applied to the image from a plurality of transfer function candidates.
  • the information acquisition unit 203 may acquire input information from an auxiliary signal multiplexed with an input image signal.
  • the auxiliary signal is received by the signal acquisition unit 201 during a period in which no image signal is transmitted on the signal line. Then, the information acquisition unit 203 can acquire input information including a transfer function type indicating the type of transfer function applied to the image from the auxiliary signal separated in the signal acquisition unit 201.
  • the encoding unit 210 encodes an image represented by the image signal acquired by the signal acquisition unit 201 to generate an encoded bitstream.
  • the encoding unit 210 is, for example, MPEG-2, H.264 or the like. H.264 / AVC or H.264
  • the encoding process may be executed according to any video encoding method such as H.265 / HEVC.
  • the encoding process executed by the encoding unit 210 typically includes various processes such as prediction, orthogonal transform, quantization, and entropy encoding, and various mode selections are executed in these processes.
  • mode selection in intra prediction and inter prediction will be mainly described here, the idea of the present embodiment is any type such as selection of transform block size or prediction mode of inter layer prediction for scalable coding. It may be used for mode selection.
  • the control unit 240 is a prediction residual code amount or mode code amount for mode selection when encoding an image in the encoding unit 210.
  • the control unit 240 is included in the cost evaluation formula so that one of the prediction residual and the mode code amount is neither underestimated nor overestimated in the cost evaluation formula for mode selection. Switching at least one term based on the transfer function.
  • cost evaluation is controlled mainly based on the type of transfer function is described here, cost evaluation is controlled based on other attributes of the transfer function such as the upper limit of the dynamic range associated with the transfer function. May be.
  • FIG. 17B is a block diagram illustrating a second example of a schematic configuration of the image processing apparatus according to the present embodiment.
  • the image processing apparatus 200b illustrated in FIG. 17B includes a signal processing unit 202, an information acquisition unit 204, a storage unit 207, an encoding unit 210, and a control unit 240.
  • the signal processing unit 202 acquires a primitive image signal input from the imaging device via some transmission interface or a signal line inside the device, or acquires an image signal from a video file stored in the storage unit 207. . Then, the signal processing unit 202 performs digital signal processing that can include, for example, gamma correction and color conversion on the primitive image signal, and generates an image signal to be encoded in a predetermined signal format. The signal format applied to the image by the signal processing unit 202 and the corresponding transfer function are determined based on the input information acquired by the information acquisition unit 204. Then, the signal processing unit 202 outputs the generated image signal to the encoding unit 210.
  • the information acquisition unit 204 acquires input information related to a transfer function applied to the image encoded by the encoding unit 210.
  • the information acquisition unit 204 may acquire input information via a user interface included in the image processing apparatus 200b.
  • the input information includes at least a transfer function type indicating the type of transfer function applied to an image to be encoded.
  • the user interface may cause the user to select one of the two options “SDR” and “HDR” to be applied to the image.
  • the user interface may allow the user to select a transfer function to be applied to the image from a plurality of transfer function candidates.
  • the storage unit 207 is a storage device for storing various video data.
  • the storage unit 207 may store a video file that records a digital image signal before signal conversion.
  • the user may store the video file stored in another storage medium in the storage unit 207 via an input / output interface (not shown) included in the image processing apparatus 200b.
  • the storage unit 207 may store a video file including an encoded bit stream generated as a result of the encoding process executed by the encoding unit 210.
  • the video file may be output to an external device upon request.
  • the encoding unit 210 encodes an image represented by the image signal acquired by the signal processing unit 202 to generate an encoded bitstream. Based on the type of transfer function indicated by the input information acquired by the information acquisition unit 204, the control unit 240 uses a prediction residual code amount or mode for mode selection when encoding an image in the encoding unit 210. Control the amount of code.
  • the encoded bit stream generated by the encoding unit 210 may be transmitted to a device external to the image processing device 200b, or may be stored as a video file by the storage unit 207.
  • FIG. 18 is a block diagram illustrating an example of a detailed configuration of the encoding unit and the control unit according to the second embodiment.
  • the encoding unit 210 includes a rearrangement buffer 211, a block setting unit 212, a subtraction unit 213, an orthogonal transformation unit 214, a quantization unit 215, a lossless encoding unit 216, and an inverse quantum.
  • the rearrangement buffer 211 rearranges the image data of a series of images expressed by the input image signal according to the GOP structure.
  • the rearrangement buffer 211 outputs the rearranged image data to the block setting unit 212, the intra prediction unit 230, and the inter prediction unit 235.
  • the block setting unit 212 divides each image corresponding to a picture into a plurality of blocks.
  • MPEG-2 and H.264 In H.264 / AVC a picture is divided into a plurality of macroblocks having a fixed size in a grid pattern.
  • H. In H.265 / HEVC a picture is divided into a plurality of coding units having a variable size in a quadtree shape. These blocks may be further divided into one or more prediction blocks in the prediction process.
  • the subtraction unit 213 calculates prediction residual data that is the difference between the image data input from the block setting unit 212 and the predicted image data, and outputs the prediction residual data to the orthogonal transform unit 214.
  • the orthogonal transform unit 214 transforms the prediction residual data input from the subtraction unit 213 from image data in the spatial domain to transform coefficient data in the frequency domain.
  • the orthogonal transformation executed by the orthogonal transformation unit 214 may be, for example, discrete cosine transformation or discrete sine transformation. Then, orthogonal transform section 214 outputs transform coefficient data to quantization section 215.
  • the quantization unit 215 quantizes the transform coefficient data input from the orthogonal transform unit 214 in a quantization step that is determined so that a required compression rate is achieved. Then, the quantization unit 215 outputs the quantized transform coefficient data (hereinafter referred to as quantization data) to the lossless encoding unit 216 and the inverse quantization unit 221.
  • the lossless encoding unit 216 generates an encoded bitstream by encoding the quantized data input from the quantization unit 215. Further, the lossless encoding unit 216 encodes various parameters referred to by the decoder, and inserts the encoded parameters into the encoded bitstream.
  • the parameters encoded by the lossless encoding unit 216 may include information regarding transfer functions, information regarding color gamuts, information regarding intra prediction, and information regarding inter prediction.
  • the lossless encoding unit 216 outputs the generated encoded bitstream to an output destination according to the purpose of the application.
  • the inverse quantization unit 221, the inverse orthogonal transform unit 222, and the addition unit 223 constitute a local decoder.
  • the local decoder is responsible for reconstructing the original image from the encoded data.
  • the inverse quantization unit 221 dequantizes the quantized data in the same quantization step as that used by the quantization unit 215, and restores transform coefficient data. Then, the inverse quantization unit 221 outputs the restored transform coefficient data to the inverse orthogonal transform unit 222.
  • the inverse orthogonal transform unit 222 restores the prediction residual data by executing an inverse orthogonal transform process on the transform coefficient data input from the inverse quantization unit 221. Then, the inverse orthogonal transform unit 222 outputs the restored prediction residual data to the addition unit 223.
  • the adding unit 223 generates decoded image data by adding the restored prediction residual data input from the inverse orthogonal transform unit 222 and the predicted image data generated by the intra prediction unit 230 or the inter prediction unit 235. To do. Then, the adding unit 223 outputs the generated decoded image data to the loop filter 224 and the frame memory 226.
  • the loop filter 224 is an in-loop filter for the purpose of improving the image quality of the decoded image.
  • the loop filter 224 may include a deblocking filter for reducing block distortion appearing in the decoded image, for example.
  • the loop filter 224 may include an adaptive offset filter for adding an edge offset or a band offset to the decoded image.
  • the loop filter 224 outputs the decoded image data after filtering to the frame memory 226.
  • the frame memory 226 stores the decoded image data before filtering input from the adder 223 and the decoded image data after application of the in-loop filter input from the loop filter 224.
  • the switch 227 reads decoded image data before filtering used for intra prediction from the frame memory 226, and supplies the read decoded image data to the intra prediction unit 230 as reference image data. Further, the switch 227 reads out the decoded image data after filtering used for inter prediction from the frame memory 226, and supplies the read out decoded image data to the inter prediction unit 235 as reference image data.
  • the mode selection unit 228 selects a prediction method for each block based on the cost comparison input from the intra prediction unit 230 and the inter prediction unit 235.
  • the mode selection unit 228 outputs predicted image data generated by the intra prediction unit 230 to the subtraction unit 213 and outputs information related to the intra prediction to the lossless encoding unit 216 for the block for which the intra prediction has been selected.
  • the mode selection unit 228 outputs the prediction image data generated by the inter prediction unit 235 to the subtraction unit 213 and outputs information related to inter prediction to the lossless encoding unit 216.
  • the intra prediction unit 230 executes an intra prediction process based on the original image data and the decoded image data. For example, the intra prediction unit 230 evaluates a cost estimated to occur for each of a plurality of candidate modes included in the search range. The cost is evaluated according to, for example, the cost evaluation formula (1) described above or a similar evaluation formula. Typically, the cost evaluation formula includes a prediction residual code amount term and a mode code amount term. In the present embodiment, at least one of the term of the prediction residual code amount and the term of the mode code amount is controlled based on the type of transfer function by the cost control unit 241 described later. The intra prediction unit 230 selects, as the best prediction mode, the prediction mode with the lowest cost based on the cost evaluation results over a plurality of candidate modes.
  • the intra prediction unit 230 generates predicted image data according to the selected best prediction mode. Then, the intra prediction unit 230 outputs information related to intra prediction including prediction mode information indicating the best prediction mode (prediction direction, prediction block size, and the like), the corresponding cost, and prediction image data to the mode selection unit 228. .
  • the inter prediction unit 235 performs inter prediction processing (motion compensation) based on the original image data and the decoded image data. For example, the inter prediction unit 235 evaluates the cost estimated to occur for each of a plurality of candidate modes included in the search range. Similar to the case of intra prediction, cost evaluation is typically performed according to a cost evaluation formula including a prediction residual code amount term and a mode code amount term. In the present embodiment, at least one of the term of the prediction residual code amount and the term of the mode code amount is controlled based on the type of transfer function by the cost control unit 241 described later. The inter prediction unit 235 selects the prediction mode with the lowest cost as the best prediction mode based on the cost evaluation results over the plurality of candidate modes.
  • inter prediction processing motion compensation
  • the inter prediction unit 235 generates predicted image data according to the selected best prediction mode. Then, the inter prediction unit 235 outputs information related to inter prediction including prediction mode information indicating the best prediction mode (motion vector, reference picture, prediction block size, and the like), a corresponding cost, and prediction image data as a mode selection unit 228. Output to.
  • the control unit 240 includes a cost control unit 241 and a set value storage unit 243.
  • the cost control unit 241 determines the type of transfer function applied to the image to be encoded based on the input information input from the information acquisition unit 203 or 204. Then, the cost control unit 241 controls cost evaluation for mode selection in one or more sections of the encoding unit 210 based on the determined type of transfer function. More specifically, for example, the cost control unit 241 scales one of the prediction residual code amount and the mode code amount included in the cost evaluation formula to thereby contribute the prediction residual contribution and the mode in the cost evaluation. The balance between information contribution can be adjusted.
  • the contribution of the mode code amount to the mode selection is compared with the contribution of the prediction residual code amount.
  • the optimum mode is determined in a state where the fluctuation of the prediction residual code amount is underestimated.
  • the variation of the mode code amount is small relative to the variation of the prediction residual code amount across a plurality of candidate modes, the contribution of the mode code amount to the mode selection is less than the contribution of the prediction residual code amount.
  • the optimum mode is determined in a state in which the fluctuation of the mode code amount is underestimated. For this reason, it is beneficial to appropriately adjust the contribution of these code amounts, optimize the balance between the two, and perform an appropriate cost evaluation.
  • the code amount scaling may be performed by setting a set to be used in cost evaluation among a plurality of predefined cost value sets depending on the type of transfer function. Since the prediction residual cannot be defined in advance, in the first example, the mode code amount (for example, the term R i in Equation (1)) can be defined for each candidate mode.
  • a first set of cost values is set when a first transfer function is applied to the image, and a second set of cost values is set when a second transfer function is applied to the image. Can be done.
  • the set of cost values that is set when a first transfer function (eg, a transfer function for HDR) corresponding to the first dynamic range is applied to the image is a narrower second
  • a smaller mode code amount is defined as compared with a set of cost values set when the second transfer function corresponding to the dynamic range (transfer function for SDR) is applied to the image. Accordingly, the mode code amount can be reduced in accordance with the reduction of the estimated prediction residual, and appropriate cost evaluation can be performed with a good balance.
  • the code amount scaling may be performed by adding (or subtracting) an offset corresponding to the type of transfer function, or multiplying (or subtracting) a coefficient corresponding to the type of transfer function.
  • the offset or coefficient may be applied to either the prediction residual code amount or the mode code amount.
  • the cost control unit 241 may increase the prediction error code amount or decrease the mode code amount when an HDR transfer function is applied to an image. Further, the cost control unit 241 may decrease the prediction error code amount or increase the mode code amount when the transfer function for SDR is applied to the image.
  • FIG. 19 is an explanatory diagram for describing an example of mode code amount switching based on the type of transfer function according to the first example described above.
  • the set value storage unit 243 stores such cost value sets C1 and C2 defined in advance.
  • the mode code amount Ri, HDR included in the cost value set C2 is smaller than the mode code amount Ri, SDR included in the cost value set C1.
  • the set value storage unit 243 may store three or more cost value sets respectively associated with three or more transfer function types.
  • the cost control unit 241 thus selects one of the plurality of cost value sets associated with the plurality of different transfer functions corresponding to the type of the transfer function as one or more of the encoding unit 210 that performs mode selection. It can be set in sections X1 to Xn.
  • the setting value storage unit 243 is not limited to the example of FIG. 19, and the setting value storage unit 243 uses one or more transfer functions as parameters (for example, offset or coefficient) used when scaling the prediction residual code amount or the mode code amount. It may be stored in advance in association with.
  • the encoding unit 210 includes the intra prediction unit 230 that performs intra prediction.
  • the prediction residual code amount or mode code amount controlled by the cost control unit 241 may be used by the intra prediction unit 230 when selecting a mode from a plurality of candidate modes in intra prediction.
  • the encoding unit 210 includes an inter prediction unit 235 that performs inter prediction.
  • the prediction residual code amount or mode code amount controlled by the cost control unit 241 may be used by the inter prediction unit 235 when selecting a mode from a plurality of candidate modes in inter prediction.
  • the encoding unit 210 includes a mode selection unit 228 that executes selection of a prediction method that is intra prediction or inter prediction.
  • the prediction residual code amount or the mode code amount controlled by the cost control unit 241 may be used by the mode selection unit 228 when selecting such a prediction method.
  • FIG. 20 is a flowchart illustrating an example of the flow of the encoding control process according to the present embodiment.
  • the encoding control process described here may be repeated for each image constituting the video. Processing steps for obtaining or setting parameters that do not change across multiple images may be skipped in the second and subsequent iterations.
  • description of processing steps not directly related to mode selection control is omitted.
  • the signal acquisition unit 201 or the signal processing unit 202 acquires an image signal generated based on a transfer function related to conversion between light and an image signal (step S210).
  • the image signal acquired here is output to the encoding unit 210.
  • the information acquisition unit 203 or 204 acquires input information related to the transfer function applied to the image encoded by the encoding unit 210 via the user interface or from the auxiliary signal multiplexed with the input image signal. (Step S212).
  • the input information acquired here is output to the control unit 240.
  • the cost control unit 241 sets a parameter to be used when the mode is selected in the encoding unit 210 based on the type of transfer function indicated by the input information (step S214).
  • the parameter set here may be a set of mode code amounts defined in advance for each candidate mode, or may be an offset or a coefficient applied to the prediction residual code amount or the mode code amount. .
  • a block to be processed in each iteration is referred to as a target block here.
  • the intra prediction unit 230 of the encoding unit 210 evaluates the cost over the plurality of candidate modes for the block of interest, and selects the best intra prediction mode based on the cost evaluation of these candidate modes (step S220).
  • the cost evaluation here can be performed using a cost evaluation formula that includes the prediction residual code amount and the mode code amount.
  • the mode code amount is selected from a set of cost values set by the cost control unit 241.
  • one of the prediction residual code amount and the mode code amount is scaled using a parameter set by the cost control unit 241.
  • the inter prediction unit 235 evaluates the cost over a plurality of candidate modes for the block of interest, and selects the best inter prediction mode based on the cost evaluation of these candidate modes (step S230).
  • the cost evaluation here can also be performed using a cost evaluation formula that includes the prediction residual code amount and the mode code amount.
  • the mode code amount is selected from a set of cost values set by the cost control unit 241.
  • one of the prediction residual code amount and the mode code amount is scaled using a parameter set by the cost control unit 241.
  • the mode selection unit 228 selects a prediction method that realizes better coding efficiency among intra prediction and inter prediction for the block of interest (step S240).
  • the selection of the prediction method here is also performed based on the cost evaluation.
  • the mode selection unit 228 may reuse the cost evaluation derived in the intra prediction unit 230 and the inter prediction unit 235.
  • the mode selection unit 228 may recalculate a cost value for comparison between intra prediction and inter prediction. Further, for recalculation of the cost value by the mode selection unit 228, a set of cost values different from those used in step S220 and step S230 may be adopted.
  • Steps S220 to S240 are repeated until processing is completed for all blocks in the picture (step S280).
  • the encoding control process shown in FIG. 20 ends (step S290).
  • the mode code amount can be controlled so that the mode code amount is smaller than when the function is applied to an image. According to this configuration, a cost evaluation formula tuned on the assumption of a specific dynamic range can be easily reused for the extended dynamic range.
  • the number of candidate modes is unique to the video coding scheme and does not change. Therefore, it is possible to adopt a technique with a low processing cost in which a plurality of sets of mode code amounts for each candidate mode are defined in advance and a set to be used is switched based on a transfer function.
  • the mode code amount can be controlled by scaling the prediction residual code amount or the mode code amount when the first transfer function corresponding to the first dynamic range is applied to the image. .
  • the first transfer function for example, the transfer function for HDR
  • the second transfer function different from the first transfer function is provided.
  • the process optimized for the second transfer function eg, cost evaluation with an existing evaluation formula optimized for the transfer function for SDR
  • the first dynamic range may be a dynamic range for enabling display with a luminance higher than 100 nits
  • the second dynamic range is a dynamic range with an upper limit of 100 nits luminance. It's okay. Accordingly, an encoder designed for an existing SDR video can be used to encode an HDR video to which a transfer function such as HLG, ST2084, or S-Log3 is applied while preventing deterioration of image quality. It becomes possible.
  • Hardware configuration example> The embodiments described up to the previous section may be implemented using any of software, hardware, and a combination of software and hardware.
  • a program constituting the software is, for example, a storage medium (non-transitory media) provided inside or outside the apparatus. Stored in advance. Each program is read into a RAM (Random Access Memory) at the time of execution and executed by a processor such as a CPU (Central Processing Unit).
  • RAM Random Access Memory
  • FIG. 21 is a block diagram illustrating an example of a hardware configuration of an apparatus to which one or more of the above-described embodiments can be applied.
  • the image processing apparatus 900 includes a system bus 910, an image processing chip 920, and an off-chip memory 990.
  • the image processing chip 920 includes n (n is 1 or more) processing circuits 930-1, 930-2,..., 930-n, a reference buffer 940, a system bus interface 950, and a local bus interface 960.
  • the system bus 910 provides a communication path between the image processing chip 920 and an external module (for example, a central control function, an application function, a communication interface, or a user interface).
  • the processing circuits 930-1, 930-2,..., 930-n are connected to the system bus 910 via the system bus interface 950 and to the off-chip memory 990 via the local bus interface 960.
  • the processing circuits 930-1, 930-2,..., 930-n can also access a reference buffer 940, which can correspond to an on-chip memory (eg, SRAM).
  • the off-chip memory 990 may be a frame memory that stores image data processed by the image processing chip 920, for example.
  • the processing circuit 930-1 may be used for converting an image signal
  • the processing circuit 930-2 may be used for encoding an image signal. Note that these processing circuits may be formed not on the same image processing chip 920 but on separate chips.
  • the technology according to the present disclosure can be applied to various products.
  • the technology according to the present disclosure may be applied to an operating room system as described in this section.
  • FIG. 22 is a diagram schematically showing an overall configuration of an operating room system 5100 to which the technology according to the present disclosure can be applied.
  • the operating room system 5100 is configured by connecting a group of devices installed in the operating room so as to cooperate with each other via an audio-visual controller (AV Controller) 5107 and an operating room control device 5109.
  • AV Controller audio-visual controller
  • FIG. 22 various devices can be installed in the operating room.
  • various apparatus groups 5101 for endoscopic surgery a ceiling camera 5187 provided on the ceiling of the operating room and imaging the operator's hand, and an operating room provided on the operating room ceiling.
  • An operating field camera 5189 that images the entire situation, a plurality of display devices 5103A to 5103D, a recorder 5105, a patient bed 5183, and an illumination 5191 are illustrated.
  • the device group 5101 belongs to an endoscopic surgery system 5113 described later, and includes an endoscope, a display device that displays an image captured by the endoscope, and the like.
  • Each device belonging to the endoscopic surgery system 5113 is also referred to as a medical device.
  • the display devices 5103A to 5103D, the recorder 5105, the patient bed 5183, and the illumination 5191 are devices provided in an operating room, for example, separately from the endoscopic surgery system 5113.
  • These devices that do not belong to the endoscopic surgery system 5113 are also referred to as non-medical devices.
  • the audiovisual controller 5107 and / or the operating room control device 5109 controls the operations of these medical devices and non-medical devices in cooperation with each other.
  • the audiovisual controller 5107 comprehensively controls processing related to image display in medical devices and non-medical devices.
  • the device group 5101, the ceiling camera 5187, and the surgical field camera 5189 have a function of transmitting information to be displayed during surgery (hereinafter also referred to as display information). It may be a device (hereinafter also referred to as a source device).
  • Display devices 5103A to 5103D can be devices that output display information (hereinafter also referred to as output destination devices).
  • the recorder 5105 may be a device that corresponds to both a transmission source device and an output destination device.
  • the audiovisual controller 5107 controls the operation of the transmission source device and the output destination device, acquires display information from the transmission source device, and transmits the display information to the output destination device for display or recording.
  • the display information includes various images captured during the operation, various types of information related to the operation (for example, patient physical information, past examination results, information on a surgical procedure, and the like).
  • the audiovisual controller 5107 can transmit information about the image of the surgical site in the patient's body cavity captured by the endoscope from the device group 5101 as display information.
  • information about the image at hand of the surgeon captured by the ceiling camera 5187 can be transmitted from the ceiling camera 5187 as display information.
  • information about an image showing the entire operating room imaged by the operating field camera 5189 can be transmitted from the operating field camera 5189 as display information.
  • the audiovisual controller 5107 acquires information about an image captured by the other device from the other device as display information. May be.
  • information about these images captured in the past is recorded by the audiovisual controller 5107 in the recorder 5105.
  • the audiovisual controller 5107 can acquire information about the image captured in the past from the recorder 5105 as display information.
  • the recorder 5105 may also record various types of information related to surgery in advance.
  • the audiovisual controller 5107 displays the acquired display information (that is, images taken during the operation and various information related to the operation) on at least one of the display devices 5103A to 5103D that are output destination devices.
  • the display device 5103A is a display device that is suspended from the ceiling of the operating room
  • the display device 5103B is a display device that is installed on the wall surface of the operating room
  • the display device 5103C is installed in the operating room.
  • the display device 5103D is a mobile device (for example, a tablet PC (Personal Computer)) having a display function.
  • the operating room system 5100 may include a device outside the operating room.
  • the device outside the operating room can be, for example, a server connected to a network constructed inside or outside the hospital, a PC used by medical staff, a projector installed in a conference room of the hospital, or the like.
  • the audio-visual controller 5107 can display the display information on a display device of another hospital via a video conference system or the like for telemedicine.
  • the operating room control device 5109 comprehensively controls processing other than processing related to image display in non-medical devices.
  • the operating room control device 5109 controls the driving of the patient bed 5183, the ceiling camera 5187, the operating field camera 5189, and the illumination 5191.
  • the operating room system 5100 is provided with a centralized operation panel 5111, and the user gives an instruction for image display to the audiovisual controller 5107 via the centralized operation panel 5111, or the operating room control apparatus 5109. An instruction about the operation of the non-medical device can be given.
  • the central operation panel 5111 is configured by providing a touch panel on the display surface of the display device.
  • FIG. 23 is a diagram showing a display example of an operation screen on the centralized operation panel 5111.
  • an operation screen corresponding to a case where the operating room system 5100 is provided with two display devices as output destination devices is shown.
  • the operation screen 5193 is provided with a transmission source selection area 5195, a preview area 5197, and a control area 5201.
  • a transmission source device provided in the operating room system 5100 and a thumbnail screen representing display information of the transmission source device are displayed in association with each other. The user can select display information to be displayed on the display device from any of the transmission source devices displayed in the transmission source selection area 5195.
  • the preview area 5197 displays a preview of the screen displayed on the two display devices (Monitor 1 and Monitor 2) that are output destination devices.
  • four images are displayed as PinP on one display device.
  • the four images correspond to display information transmitted from the transmission source device selected in the transmission source selection area 5195. Of the four images, one is displayed as a relatively large main image, and the remaining three are displayed as a relatively small sub image. The user can switch the main image and the sub image by appropriately selecting an area in which four images are displayed.
  • a status display area 5199 is provided below the area where the four images are displayed, and the status relating to the surgery (for example, the elapsed time of the surgery, the patient's physical information, etc.) is appropriately displayed in the area. obtain.
  • a GUI (Graphical User Interface) part for displaying a GUI (Graphical User Interface) part for operating the source apparatus and a GUI part for operating the output destination apparatus are displayed.
  • the transmission source operation area 5203 is provided with GUI parts for performing various operations (panning, tilting, and zooming) on the camera in the transmission source device having an imaging function. The user can operate the operation of the camera in the transmission source device by appropriately selecting these GUI components.
  • the transmission source device selected in the transmission source selection area 5195 is a recorder (that is, in the preview area 5197, images recorded in the past are displayed on the recorder).
  • a GUI component for performing operations such as playback, stop playback, rewind, and fast forward of the image can be provided in the transmission source operation area 5203.
  • GUI parts for performing various operations are provided. Is provided. The user can operate the display on the display device by appropriately selecting these GUI components.
  • the operation screen displayed on the centralized operation panel 5111 is not limited to the example shown in the figure, and the user can use the audiovisual controller 5107 and the operating room control device 5109 provided in the operating room system 5100 via the centralized operation panel 5111. Operation input for each device that can be controlled may be possible.
  • FIG. 24 is a diagram showing an example of a state of surgery to which the operating room system described above is applied.
  • the ceiling camera 5187 and the operating field camera 5189 are provided on the ceiling of the operating room, and can photograph the state of the operator (doctor) 5181 who performs treatment on the affected part of the patient 5185 on the patient bed 5183 and the entire operating room. It is.
  • the ceiling camera 5187 and the surgical field camera 5189 may be provided with a magnification adjustment function, a focal length adjustment function, a photographing direction adjustment function, and the like.
  • the illumination 5191 is provided on the ceiling of the operating room and irradiates at least the hand of the operator 5181.
  • the illumination 5191 may be capable of appropriately adjusting the irradiation light amount, the wavelength (color) of the irradiation light, the light irradiation direction, and the like.
  • Endoscopic surgery system 5113, patient bed 5183, ceiling camera 5187, operating field camera 5189, and illumination 5191 are connected via audiovisual controller 5107 and operating room controller 5109 (not shown in FIG. 24) as shown in FIG. Are connected to each other.
  • a centralized operation panel 5111 is provided in the operating room. As described above, the user can appropriately operate these devices existing in the operating room via the centralized operating panel 5111.
  • an endoscopic surgery system 5113 includes an endoscope 5115, other surgical tools 5131, a support arm device 5141 that supports the endoscope 5115, and various devices for endoscopic surgery. And a cart 5151 on which is mounted.
  • trocars 5139a to 5139d are punctured into the abdominal wall. Then, the lens barrel 5117 of the endoscope 5115 and other surgical tools 5131 are inserted into the body cavity of the patient 5185 from the trocars 5139a to 5139d.
  • an insufflation tube 5133, an energy treatment tool 5135, and forceps 5137 are inserted into the body cavity of the patient 5185.
  • the energy treatment instrument 5135 is a treatment instrument that performs incision and detachment of a tissue, blood vessel sealing, and the like by a high-frequency current and ultrasonic vibration.
  • the illustrated surgical tool 5131 is merely an example, and as the surgical tool 5131, for example, various surgical tools generally used in endoscopic surgery such as a lever and a retractor may be used.
  • An image of the surgical site in the body cavity of the patient 5185 taken by the endoscope 5115 is displayed on the display device 5155.
  • the surgeon 5181 performs a treatment such as excision of the affected part using the energy treatment tool 5135 and the forceps 5137 while viewing the image of the surgical part displayed on the display device 5155 in real time.
  • the pneumoperitoneum tube 5133, the energy treatment tool 5135, and the forceps 5137 are supported by an operator 5181 or an assistant during surgery.
  • the support arm device 5141 includes an arm portion 5145 extending from the base portion 5143.
  • the arm portion 5145 includes joint portions 5147a, 5147b, and 5147c, and links 5149a and 5149b, and is driven by control from the arm control device 5159.
  • the endoscope 5115 is supported by the arm unit 5145, and its position and posture are controlled. Thereby, the stable position fixing of the endoscope 5115 can be realized.
  • the endoscope 5115 includes a lens barrel 5117 in which a region having a predetermined length from the distal end is inserted into the body cavity of the patient 5185, and a camera head 5119 connected to the proximal end of the lens barrel 5117.
  • an endoscope 5115 configured as a so-called rigid mirror having a rigid lens barrel 5117 is illustrated, but the endoscope 5115 is configured as a so-called flexible mirror having a flexible lens barrel 5117. Also good.
  • An opening into which an objective lens is fitted is provided at the tip of the lens barrel 5117.
  • a light source device 5157 is connected to the endoscope 5115, and the light generated by the light source device 5157 is guided to the tip of the lens barrel by a light guide extending inside the lens barrel 5117, and the objective Irradiation is performed toward the observation target in the body cavity of the patient 5185 through the lens.
  • the endoscope 5115 may be a direct endoscope, a perspective mirror, or a side endoscope.
  • An optical system and an image sensor are provided inside the camera head 5119, and reflected light (observation light) from the observation target is condensed on the image sensor by the optical system. Observation light is photoelectrically converted by the imaging element, and an electrical signal corresponding to the observation light, that is, an image signal corresponding to the observation image is generated.
  • the image signal is transmitted to a camera control unit (CCU) 5153 as RAW data.
  • CCU camera control unit
  • the camera head 5119 has a function of adjusting the magnification and the focal length by appropriately driving the optical system.
  • a plurality of image sensors may be provided in the camera head 5119 in order to cope with, for example, stereoscopic viewing (3D display).
  • a plurality of relay optical systems are provided inside the lens barrel 5117 in order to guide observation light to each of the plurality of imaging elements.
  • the CCU 5153 includes a CPU (Central Processing Unit), a GPU (Graphics Processing Unit), and the like, and comprehensively controls the operations of the endoscope 5115 and the display device 5155. Specifically, the CCU 5153 performs various image processing for displaying an image based on the image signal, such as development processing (demosaic processing), for example, on the image signal received from the camera head 5119. The CCU 5153 provides the display device 5155 with the image signal subjected to the image processing. Further, the audiovisual controller 5107 shown in FIG. 22 is connected to the CCU 5153. The CCU 5153 also provides an image signal subjected to image processing to the audiovisual controller 5107.
  • a CPU Central Processing Unit
  • GPU Graphics Processing Unit
  • the CCU 5153 transmits a control signal to the camera head 5119 to control the driving thereof.
  • the control signal can include information regarding imaging conditions such as magnification and focal length. Information regarding the imaging conditions may be input via the input device 5161 or may be input via the above-described centralized operation panel 5111.
  • the display device 5155 displays an image based on an image signal subjected to image processing by the CCU 5153 under the control of the CCU 5153.
  • the endoscope 5115 is compatible with high-resolution imaging such as 4K (horizontal pixel number 3840 ⁇ vertical pixel number 2160) or 8K (horizontal pixel number 7680 ⁇ vertical pixel number 4320), and / or 3D display.
  • high-resolution imaging such as 4K (horizontal pixel number 3840 ⁇ vertical pixel number 2160) or 8K (horizontal pixel number 7680 ⁇ vertical pixel number 4320), and / or 3D display.
  • a display device 5155 capable of high-resolution display and / or 3D display can be used.
  • 4K or 8K high resolution imaging a more immersive feeling can be obtained by using a display device 5155 having a size of 55 inches or more.
  • a plurality of display devices 5155 having different resolutions and sizes may be provided depending on applications.
  • the light source device 5157 is composed of a light source such as an LED (light emitting diode), for example, and supplies the endoscope 5115 with irradiation light when photographing a surgical site.
  • a light source such as an LED (light emitting diode)
  • the arm control device 5159 is configured by a processor such as a CPU, for example, and operates according to a predetermined program to control driving of the arm portion 5145 of the support arm device 5141 according to a predetermined control method.
  • the input device 5161 is an input interface to the endoscopic surgery system 5113.
  • a user can input various information and instructions to the endoscopic surgery system 5113 via the input device 5161.
  • the user inputs various types of information related to the operation, such as the patient's physical information and information about the surgical technique, via the input device 5161.
  • the user instructs to drive the arm unit 5145 via the input device 5161 or an instruction to change the imaging conditions (type of irradiation light, magnification, focal length, etc.) by the endoscope 5115.
  • An instruction to drive the energy treatment instrument 5135 is input.
  • the type of the input device 5161 is not limited, and the input device 5161 may be various known input devices.
  • the input device 5161 for example, a mouse, a keyboard, a touch panel, a switch, a foot switch 5171 and / or a lever can be applied.
  • the touch panel may be provided on the display surface of the display device 5155.
  • the input device 5161 is a device worn by the user, such as a glasses-type wearable device or an HMD (Head Mounted Display), for example, and various inputs according to the user's gesture and line of sight detected by these devices. Is done.
  • the input device 5161 includes a camera capable of detecting a user's movement, and various inputs are performed according to a user's gesture and line of sight detected from an image captured by the camera.
  • the input device 5161 includes a microphone that can pick up the voice of the user, and various inputs are performed by voice through the microphone.
  • the input device 5161 is configured to be able to input various types of information without contact, so that a user belonging to the clean area (for example, an operator 5181) operates a device belonging to the unclean area without contact. Is possible.
  • a user belonging to the clean area for example, an operator 5181
  • the user can operate the device without releasing his / her hand from the surgical tool he / she has, the convenience for the user is improved.
  • the treatment instrument control device 5163 controls driving of the energy treatment instrument 5135 for tissue cauterization, incision, blood vessel sealing, or the like.
  • the pneumoperitoneum device 5165 passes gas into the body cavity via the pneumothorax tube 5133.
  • the recorder 5167 is an apparatus capable of recording various types of information related to surgery.
  • the printer 5169 is a device that can print various types of information related to surgery in various formats such as text, images, or graphs.
  • the support arm device 5141 includes a base portion 5143 which is a base, and an arm portion 5145 extending from the base portion 5143.
  • the arm portion 5145 includes a plurality of joint portions 5147a, 5147b, and 5147c and a plurality of links 5149a and 5149b connected by the joint portions 5147b.
  • FIG. The structure of the arm part 5145 is shown in a simplified manner. Actually, the shape, number and arrangement of the joint portions 5147a to 5147c and the links 5149a and 5149b, the direction of the rotation axis of the joint portions 5147a to 5147c, and the like are appropriately set so that the arm portion 5145 has a desired degree of freedom. obtain.
  • the arm portion 5145 can be preferably configured to have six or more degrees of freedom. Accordingly, the endoscope 5115 can be freely moved within the movable range of the arm unit 5145, and therefore the lens barrel 5117 of the endoscope 5115 can be inserted into the body cavity of the patient 5185 from a desired direction. It becomes possible.
  • the joint portions 5147a to 5147c are provided with actuators, and the joint portions 5147a to 5147c are configured to be rotatable around a predetermined rotation axis by driving the actuators.
  • the drive of the actuator is controlled by the arm control device 5159
  • the rotation angles of the joint portions 5147a to 5147c are controlled, and the drive of the arm portion 5145 is controlled.
  • control of the position and posture of the endoscope 5115 can be realized.
  • the arm control device 5159 can control the driving of the arm unit 5145 by various known control methods such as force control or position control.
  • the arm controller 5159 appropriately controls the driving of the arm unit 5145 according to the operation input.
  • the position and posture of the endoscope 5115 may be controlled. With this control, the endoscope 5115 at the distal end of the arm portion 5145 can be moved from an arbitrary position to an arbitrary position and then fixedly supported at the position after the movement.
  • the arm unit 5145 may be operated by a so-called master slave method. In this case, the arm unit 5145 can be remotely operated by the user via the input device 5161 installed at a location away from the operating room.
  • the arm control device 5159 When force control is applied, the arm control device 5159 receives the external force from the user and moves the actuators of the joint portions 5147a to 5147c so that the arm portion 5145 moves smoothly according to the external force. You may perform what is called power assist control to drive. Accordingly, when the user moves the arm unit 5145 while directly touching the arm unit 5145, the arm unit 5145 can be moved with a relatively light force. Therefore, the endoscope 5115 can be moved more intuitively and with a simpler operation, and the convenience for the user can be improved.
  • an endoscope 5115 is supported by a doctor called a scopist.
  • the position of the endoscope 5115 can be more reliably fixed without relying on human hands, so that an image of the surgical site can be stably obtained. It becomes possible to perform the operation smoothly.
  • the arm control device 5159 is not necessarily provided in the cart 5151. Further, the arm control device 5159 does not necessarily have to be one device. For example, the arm control device 5159 may be provided in each of the joint portions 5147a to 5147c of the arm portion 5145 of the support arm device 5141, and the plurality of arm control devices 5159 cooperate to drive the arm portion 5145. Control may be realized.
  • the light source device 5157 supplies irradiation light for imaging the surgical site to the endoscope 5115.
  • the light source device 5157 is constituted by a white light source constituted by, for example, an LED, a laser light source, or a combination thereof.
  • a white light source is configured by a combination of RGB laser light sources
  • the output intensity and output timing of each color (each wavelength) can be controlled with high accuracy. Adjustments can be made.
  • the laser light from each of the RGB laser light sources is irradiated onto the observation target in a time-sharing manner, and the driving of the image sensor of the camera head 5119 is controlled in synchronization with the irradiation timing, thereby corresponding to each RGB. It is also possible to take the images that have been taken in time division. According to this method, a color image can be obtained without providing a color filter in the image sensor.
  • the driving of the light source device 5157 may be controlled so as to change the intensity of the output light every predetermined time. Synchronously with the timing of changing the intensity of the light, the driving of the image sensor of the camera head 5119 is controlled to acquire an image in a time-sharing manner, and the image is synthesized, so that high dynamic without so-called blackout and overexposure is obtained. A range image can be generated.
  • the light source device 5157 may be configured to be able to supply light of a predetermined wavelength band corresponding to special light observation.
  • special light observation for example, by utilizing the wavelength dependence of light absorption in body tissue, the surface of the mucous membrane is irradiated by irradiating light in a narrow band compared to irradiation light (ie, white light) during normal observation.
  • narrow band imaging is performed in which a predetermined tissue such as a blood vessel is imaged with high contrast.
  • fluorescence observation may be performed in which an image is obtained by fluorescence generated by irradiating excitation light.
  • the body tissue is irradiated with excitation light to observe fluorescence from the body tissue (autofluorescence observation), or a reagent such as indocyanine green (ICG) is locally administered to the body tissue and applied to the body tissue.
  • a reagent such as indocyanine green (ICG) is locally administered to the body tissue and applied to the body tissue.
  • ICG indocyanine green
  • the light source device 5157 can be configured to be able to supply narrowband light and / or excitation light corresponding to such special light observation.
  • FIG. 25 is a block diagram illustrating an example of functional configurations of the camera head 5119 and the CCU 5153 illustrated in FIG.
  • the camera head 5119 has a lens unit 5121, an imaging unit 5123, a drive unit 5125, a communication unit 5127, and a camera head control unit 5129 as its functions.
  • the CCU 5153 includes a communication unit 5173, an image processing unit 5175, and a control unit 5177 as its functions.
  • the camera head 5119 and the CCU 5153 are connected to each other via a transmission cable 5179 so that they can communicate with each other.
  • the lens unit 5121 is an optical system provided at a connection portion with the lens barrel 5117. Observation light taken from the tip of the lens barrel 5117 is guided to the camera head 5119 and enters the lens unit 5121.
  • the lens unit 5121 is configured by combining a plurality of lenses including a zoom lens and a focus lens. The optical characteristics of the lens unit 5121 are adjusted so that the observation light is condensed on the light receiving surface of the image sensor of the imaging unit 5123. Further, the zoom lens and the focus lens are configured such that their positions on the optical axis are movable in order to adjust the magnification and focus of the captured image.
  • the imaging unit 5123 is configured by an imaging element, and is arranged at the rear stage of the lens unit 5121.
  • the observation light that has passed through the lens unit 5121 is collected on the light receiving surface of the imaging element, and an image signal corresponding to the observation image is generated by photoelectric conversion.
  • the image signal generated by the imaging unit 5123 is provided to the communication unit 5127.
  • the image pickup element constituting the image pickup unit 5123 for example, a CMOS (Complementary Metal Oxide Semiconductor) type image sensor that can perform color photographing having a Bayer array is used.
  • the imaging element for example, an element capable of capturing a high-resolution image of 4K or more may be used.
  • the image sensor that constitutes the image capturing unit 5123 is configured to have a pair of image sensors for acquiring right-eye and left-eye image signals corresponding to 3D display. By performing the 3D display, the operator 5181 can more accurately grasp the depth of the living tissue in the surgical site. Note that in the case where the imaging unit 5123 is configured as a multi-plate type, a plurality of lens units 5121 are also provided corresponding to each imaging element.
  • the imaging unit 5123 is not necessarily provided in the camera head 5119.
  • the imaging unit 5123 may be provided inside the lens barrel 5117 immediately after the objective lens.
  • the driving unit 5125 includes an actuator, and moves the zoom lens and the focus lens of the lens unit 5121 by a predetermined distance along the optical axis under the control of the camera head control unit 5129. Thereby, the magnification and focus of the image captured by the imaging unit 5123 can be adjusted as appropriate.
  • the communication unit 5127 includes a communication device for transmitting and receiving various types of information to and from the CCU 5153.
  • the communication unit 5127 transmits the image signal obtained from the imaging unit 5123 to the CCU 5153 via the transmission cable 5179 as RAW data.
  • the image signal is preferably transmitted by optical communication.
  • the surgeon 5181 performs the surgery while observing the state of the affected part with the captured image, so that a moving image of the surgical part is displayed in real time as much as possible for safer and more reliable surgery. Because it is required.
  • the communication unit 5127 is provided with a photoelectric conversion module that converts an electrical signal into an optical signal.
  • the image signal is converted into an optical signal by the photoelectric conversion module, and then transmitted to the CCU 5153 via the transmission cable 5179.
  • the communication unit 5127 receives a control signal for controlling the driving of the camera head 5119 from the CCU 5153.
  • the control signal includes, for example, information for designating the frame rate of the captured image, information for designating the exposure value at the time of imaging, and / or information for designating the magnification and focus of the captured image. Contains information about the condition.
  • the communication unit 5127 provides the received control signal to the camera head control unit 5129.
  • the control signal from the CCU 5153 may also be transmitted by optical communication.
  • the communication unit 5127 is provided with a photoelectric conversion module that converts an optical signal into an electrical signal.
  • the control signal is converted into an electrical signal by the photoelectric conversion module and then provided to the camera head control unit 5129.
  • the imaging conditions such as the frame rate, exposure value, magnification, and focus are automatically set by the control unit 5177 of the CCU 5153 based on the acquired image signal. That is, a so-called AE (Auto Exposure) function, AF (Auto Focus) function, and AWB (Auto White Balance) function are mounted on the endoscope 5115.
  • AE Auto Exposure
  • AF Automatic Focus
  • AWB Automatic White Balance
  • the camera head control unit 5129 controls driving of the camera head 5119 based on a control signal from the CCU 5153 received via the communication unit 5127. For example, the camera head control unit 5129 controls driving of the image sensor of the imaging unit 5123 based on information indicating that the frame rate of the captured image is specified and / or information indicating that the exposure at the time of imaging is specified. For example, the camera head control unit 5129 appropriately moves the zoom lens and the focus lens of the lens unit 5121 via the drive unit 5125 based on information indicating that the magnification and focus of the captured image are designated.
  • the camera head control unit 5129 may further have a function of storing information for identifying the lens barrel 5117 and the camera head 5119.
  • the camera head 5119 can be resistant to autoclave sterilization by arranging the lens unit 5121, the imaging unit 5123, and the like in a sealed structure with high airtightness and waterproofness.
  • the communication unit 5173 is configured by a communication device for transmitting and receiving various types of information to and from the camera head 5119.
  • the communication unit 5173 receives an image signal transmitted from the camera head 5119 via the transmission cable 5179.
  • the image signal can be suitably transmitted by optical communication.
  • the communication unit 5173 is provided with a photoelectric conversion module that converts an optical signal into an electric signal.
  • the communication unit 5173 provides the image processing unit 5175 with the image signal converted into the electrical signal.
  • the communication unit 5173 transmits a control signal for controlling the driving of the camera head 5119 to the camera head 5119.
  • the control signal may also be transmitted by optical communication.
  • the image processing unit 5175 performs various types of image processing on the image signal that is RAW data transmitted from the camera head 5119. Examples of the image processing include development processing, high image quality processing (band enhancement processing, super-resolution processing, NR (Noise reduction) processing and / or camera shake correction processing, etc.), and / or enlargement processing (electronic zoom processing). Various known signal processing is included. Further, the image processing unit 5175 performs detection processing on the image signal for performing AE, AF, and AWB.
  • the image processing unit 5175 is configured by a processor such as a CPU or a GPU, and the above-described image processing and detection processing can be performed by the processor operating according to a predetermined program. Note that when the image processing unit 5175 includes a plurality of GPUs, the image processing unit 5175 appropriately divides information related to the image signal, and performs image processing in parallel with the plurality of GPUs.
  • the control unit 5177 performs various controls relating to imaging of the surgical site by the endoscope 5115 and display of the captured image. For example, the control unit 5177 generates a control signal for controlling driving of the camera head 5119. At this time, when the imaging condition is input by the user, the control unit 5177 generates a control signal based on the input by the user. Alternatively, when the endoscope 5115 is equipped with the AE function, the AF function, and the AWB function, the control unit 5177 determines the optimum exposure value, focal length, and the distance according to the detection processing result by the image processing unit 5175. A white balance is appropriately calculated and a control signal is generated.
  • control unit 5177 causes the display device 5155 to display an image of the surgical site based on the image signal subjected to image processing by the image processing unit 5175.
  • the control unit 5177 recognizes various objects in the surgical unit image using various image recognition techniques. For example, the control unit 5177 detects the shape and color of the edge of the object included in the surgical part image, thereby removing surgical tools such as forceps, specific biological parts, bleeding, mist when using the energy treatment tool 5135, and the like. Can be recognized.
  • the control unit 5177 causes various types of surgery support information to be superimposed and displayed on the image of the surgical site using the recognition result. Surgery support information is displayed in a superimposed manner and presented to the operator 5181, so that the surgery can be performed more safely and reliably.
  • the transmission cable 5179 connecting the camera head 5119 and the CCU 5153 is an electric signal cable corresponding to electric signal communication, an optical fiber corresponding to optical communication, or a composite cable thereof.
  • communication is performed by wire using the transmission cable 5179, but communication between the camera head 5119 and the CCU 5153 may be performed wirelessly.
  • communication between the two is performed wirelessly, there is no need to install the transmission cable 5179 in the operating room, so that the situation where the movement of the medical staff in the operating room is hindered by the transmission cable 5179 can be solved.
  • the operating room system 5100 to which the technology according to the present disclosure can be applied has been described.
  • the medical system to which the operating room system 5100 is applied is the endoscopic operating system 5113 is described here as an example
  • the configuration of the operating room system 5100 is not limited to such an example.
  • the operating room system 5100 may be applied to an examination flexible endoscope system or a microscope operation system instead of the endoscope operation system 5113.
  • the technology according to the present disclosure can be preferably applied to the recorder 5105 among the configurations described above.
  • the recorder 5105 encodes an image captured by any one of the cameras (eg, the ceiling camera 5187, the operative field camera 5189, or the camera head 5119), according to the technique according to the present disclosure,
  • the amount of code assigned to a region may be controlled based on a transfer function relating to conversion between light and an image signal. Thereby, it is possible to prevent the allocated code amount for expressing the gradation of the original signal due to the applied transfer function from being insufficient, and to suppress the codec distortion.
  • the recorder 5105 when the recorder 5105 encodes an image captured by any camera, according to the technique according to the present disclosure, the recorder 5105 sets the prediction residual code amount or the mode code amount for mode selection as light. You may control based on the transfer function regarding the conversion between image signals. Thereby, it is possible to prevent unnatural prediction mode bias and reduce image distortion. As a result, in any example, the accuracy of diagnosis or treatment using images can be improved.
  • the technology according to the present disclosure is not necessarily sufficiently adapted to the diversified signal representation according to the mechanism described in detail so far, for example, a digital video camera, a digital camcorder, a video encoder, or any kind of encoding function. Provide improvements to existing equipment. According to the technique according to the present disclosure, the codec distortion that is expanded along with the expansion of the dynamic range when reproducing the HDR video is reduced, and the HDR video can be reproduced with good image quality. The technology according to the present disclosure may be applied to encoding of still images.
  • luminance / luma and chrominance / chroma are replaced by other terms such as brightness and saturation, depending on the color system used. May be.
  • An encoding unit that encodes an image obtained based on a transfer function relating to conversion between light and an image signal;
  • An image processing apparatus comprising: (2) The control unit includes the first transfer function of a first transfer function corresponding to a first dynamic range and a second transfer function corresponding to a second dynamic range narrower than the first dynamic range. Is applied to the image, the code amount assigned to each partial region is controlled depending on at least one of a luminance component and a color difference component of the partial region, and the image according to (1) Processing equipment.
  • the control unit controls the code amount allocated to each partial region by adjusting a quantization step used for each partial region depending on at least one of the luminance component and the color difference component.
  • the controller scales the quantization step used for each partial region so that a larger amount of code is allocated to the partial region where the intensity of at least one of the luminance component and the color difference component is stronger.
  • the control unit determines a type of the transfer function based on input information related to the transfer function applied to the image, and controls the code amount allocated to each partial region based on the determined type.
  • the image processing apparatus according to any one of (1) to (6).
  • the image processing apparatus according to (7), wherein the input information is information acquired through a user interface.
  • the image processing apparatus according to (7), wherein the input information is acquired from an auxiliary signal multiplexed with an input image signal representing the image.
  • An image processing method including: (12) The processor of the image processing device, An encoding unit that encodes an image obtained based on a transfer function relating to conversion between light and an image signal; A control unit for controlling a code amount allocated to each partial region of the image in the encoding unit based on the transfer function; Program to function as.
  • An encoding unit that encodes an image acquired based on a transfer function relating to conversion between light and an image signal to enable display at a luminance higher than 100 nits;
  • a control unit that controls a code amount allocated to each partial area of the image in the encoding unit depending on at least one of a luminance component and a color difference component of the partial area;
  • An image processing apparatus comprising: (14) The control unit controls the code amount allocated to each partial region by adjusting a quantization step used for each partial region depending on at least one of the luminance component and the color difference component.
  • the controller scales the quantization step used for each partial region so that a larger amount of code is allocated to the partial region where the intensity of at least one of the luminance component and the color difference component is stronger.
  • the image processing apparatus according to (14).
  • the control unit scales the quantization step determined based on a required compression ratio for each partial region depending on the at least one of the luminance component and the color difference component, The encoding unit quantizes the transform coefficient of each partial region in the scaled quantization step;
  • the image processing apparatus according to (15).
  • (17) The image processing according to (15) or (16), wherein the control unit scales the quantization step of each partial region according to the strength of only one of the luminance component and the color difference component. apparatus.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

【課題】信号表現の方式に関わらず、良好な画質を提供すること。 【解決手段】光と画像信号との間の変換に関する伝達関数に基づいて取得される画像を符号化する符号化部と、上記伝達関数に基づいて、上記符号化部において実行される符号化処理を制御する制御部と、を備える画像処理装置を提供する。上記制御部は、上記伝達関数に基づいて、上記符号化部において上記画像の各部分領域に割り当てられる符号量を制御してもよい。上記制御部は、上記伝達関数に基づいて、上記符号化部において上記画像を符号化する際のモード選択のための予測残差符号量又はモード符号量を制御してもよい。

Description

画像処理装置、画像処理方法及びプログラム
 本開示は、画像処理装置、画像処理方法及びプログラムに関する。
 従来、映像を効率的に符号化するための多くの映像符号化方式が標準化されている。例えば、ITU-T及びISO/IECが共同で開発したH.264/AVC(Advanced Video Coding)は、MPEG-2の後継の標準符号化方式である(非特許文献1参照)。H.264/AVCは、予測、直交変換、量子化及びエントロピー符号化といった様々な要素技術を用いて、改善された符号化効率で画像信号をビットストリームへと符号化する。さらに、H.264/AVCの後継の標準符号化方式であるH.265/HEVC(High Efficiency Video Coding)は、MPEG-2と比較すると約4倍、H.264/AVCと比較すると約2倍の符号化効率を達成すると言われている(非特許文献2参照)。
 高い符号化効率を追求することとは別に、近年、実世界の様子をより忠実に再現し又はより豊富な明るさ及び色彩で映像を表示することを可能とするための、映像信号表現の拡張が進められている。HDR(High Dynamic Range)は、従来の標準的なダイナミックレンジであるSDR(Standard Dynamic Range)よりも広い輝度ダイナミックレンジで画像又は映像を表現しようとする概念である。例えば、HLG(Hybrid Log-Gamma)、ST2084又はS-Log3といった伝達関数(トーンカーブともいう)で光を画像信号へと変換(及び、画像信号を光へと変換)することにより、100nitよりも高い輝度を有する実世界の光をディスプレイ上で再現することが可能となることが知られている(HLGについては非特許文献3参照)。他の例として、ITU-Rにより標準化されたBT.2020は、これまで多くのアプリケーションで使用されてきたBT.709の色域と比較して、より鮮やかな色彩を表現することを可能とする色域を定義している。
ITU-T, "H.264: Advanced video coding for generic audiovisual services", ITU-T Recommendation H.264, 2007年11月 ITU-T, "H.265: High efficiency video coding", ITU-T Recommendation H.265, 2014年10月 Association of Radio Industries and Businesses,"ESSENTIAL PARAMETER VALUES FOR THE EXTENDED IMAGE DYNAMIC RANGE TELEVISION (EIDRTV) SYSTEM FOR PROGRAMME PRODUCTION ARIB STANDARD",ARIB STD-B67 Version 1.0,July 3, 2015,[online],[2016年11月24日検索],インターネット<URL: http://www.arib.or.jp/english/html/overview/doc/2-STD-B67v1_0.pdf>
 映像(若しくは映像を構成する個々の画像)の符号化、復号、又は撮像若しくは再生の際の信号変換、に関与する既存の装置は、多様化しつつある映像信号表現に必ずしも十分に適応できていない。静止画の画像処理についても同様の状況が考えられる。
 信号表現の方式に関わらず、良好な画質を提供することのできる仕組みが提供されることが望ましい。
 本開示によれば、光と画像信号との間の変換に関する伝達関数に基づいて取得される画像を符号化する符号化部と、前記伝達関数に基づいて、前記符号化部において前記画像の各部分領域に割り当てられる符号量を制御する制御部と、を備える画像処理装置が提供される。
 また、本開示によれば、光と画像信号との間の変換に関する伝達関数に基づいて取得される画像を符号化することと、前記伝達関数に基づいて、前記符号化の際に前記画像の各部分領域に割り当てられる符号量を制御することと、を含む画像処理方法が提供される。
 また、本開示によれば、画像処理装置のプロセッサを、光と画像信号との間の変換に関する伝達関数に基づいて取得される画像を符号化する符号化部と、前記伝達関数に基づいて、前記符号化部において前記画像の各部分領域に割り当てられる符号量を制御する制御部と、として機能させるためのプログラムが提供される。
 また、本開示によれば、100nitより高い輝度での表示を可能とするための光と画像信号との間の変換に関する伝達関数に基づいて取得される画像を符号化する符号化部と、前記符号化部において前記画像の各部分領域に割り当てられる符号量を、当該部分領域の輝度成分及び色差成分のうちの少なくとも一方に依存して制御する制御部と、を備える画像処理装置が提供される。
 また、本開示によれば、100nitより高い輝度での表示を可能とするための光と画像信号との間の変換に関する伝達関数に基づいて取得される画像を符号化することと、前記符号化の際に前記画像の各部分領域に割り当てられる符号量を、当該部分領域の輝度成分及び色差成分のうちの少なくとも一方に依存して制御することと、を含む画像処理方法が提供される。
 また、本開示によれば、画像処理装置のプロセッサを、100nitより高い輝度での表示を可能とするための光と画像信号との間の変換に関する伝達関数に基づいて取得される画像を符号化する符号化部と、前記符号化部において前記画像の各部分領域に割り当てられる符号量を、当該部分領域の輝度成分及び色差成分のうちの少なくとも一方に依存して制御する制御部と、として機能させるためのプログラムが提供される。
 また、本開示によれば、光と画像信号との間の変換に関する伝達関数に基づいて取得される画像を符号化する符号化部と、前記伝達関数に基づいて、前記符号化部において前記画像を符号化する際のモード選択のための予測残差符号量又はモード符号量を制御する制御部と、を備える画像処理装置が提供される。
 また、本開示によれば、光と画像信号との間の変換に関する伝達関数に基づいて取得される画像を符号化することと、前記伝達関数に基づいて、前記画像を符号化する際のモード選択のための予測残差符号量又はモード符号量を制御することと、を含む画像処理方法が提供される。
 また、本開示によれば、画像処理装置のプロセッサを、光と画像信号との間の変換に関する伝達関数に基づいて取得される画像を符号化する符号化部と、前記伝達関数に基づいて、前記符号化部において前記画像を符号化する際のモード選択のための予測残差符号量又はモード符号量を制御する制御部と、として機能させるためのプログラムが提供される。
 本開示に係る技術によれば、信号表現の方式に関わらず、良好な画質を提供することができる。
 なお、上記の効果は必ずしも限定的なものではなく、上記の効果と共に、又は上記の効果に代えて、本明細書に示されたいずれかの効果、又は本明細書から把握され得る他の効果が奏されてもよい。
SDR映像の輝度ダイナミックレンジについて説明するための説明図である。 HDR映像の輝度ダイナミックレンジについて説明するための説明図である。 SDR映像の画像信号のコーデック歪みについて説明するための説明図である。 HDR映像の画像信号のコーデック歪みについて説明するための説明図である。 HDR-SDR変換を経て拡大されるコーデック歪みについて説明するための説明図である。 SDR用の信号フォーマット及びHDR用の信号フォーマットのOETFの例を示す説明図である。 SDR用のBT.709に対してHDR用のS-Log3が画像情報をどの程度圧縮しているかを表すグラフを示している。 BT.709及びBT.2020により定義されている色域について説明するための説明図である。 一実施形態に係る画像処理システムの構成の第1の例を示す説明図である。 一実施形態に係る画像処理システムの構成の第2の例を示す説明図である。 第1の実施形態に係る画像処理装置の概略的な構成の第1の例を示すブロック図である。 第1の実施形態に係る画像処理装置の概略的な構成の第2の例を示すブロック図である。 第1の実施形態に係る制御部及び符号化部の詳細な構成の一例を示すブロック図である。 高輝度部分を保護するための保護比の第1の例について説明するための説明図である。 高輝度部分を保護するための保護比の第2の例について説明するための説明図である。 高色差部分として保護されるべき符号値について説明するための説明図である。 高色差部分を保護するための保護比の一例について説明するための説明図である。 第1の実施形態に係る符号化制御処理の流れの一例を示すフローチャートである。 高輝度部分の階調を保護するための量子化制御処理の流れの一例を示すフローチャートである。 高色差部分の階調を保護するための量子化制御処理の流れの一例を示すフローチャートである。 高輝度部分及び高色差部分の双方の階調を保護するための量子化制御処理の流れの一例を示すフローチャートである。 第1の実施形態に係る画像処理装置の構成の一変形例を示すブロック図である。 図14を用いて説明した変形例に係る符号化制御処理の流れの一例を示すフローチャートである。 モード選択への伝達関数の違いの影響について説明するための第1の説明図である。 モード選択への伝達関数の違いの影響について説明するための第2の説明図である。 第2の実施形態に係る画像処理装置の概略的な構成の第1の例を示すブロック図である。 第2の実施形態に係る画像処理装置の概略的な構成の第2の例を示すブロック図である。 第2の実施形態に係る制御部及び符号化部の詳細な構成の一例を示すブロック図である。 伝達関数の種別に基づくモード符号量の切り替えの一例について説明するための説明図である。 第2の実施形態に係る符号化制御処理の流れの一例を示すフローチャートである。 装置のハードウェア構成の一例を示すブロック図である。 手術室システムの全体構成を概略的に示す図である。 集中操作パネルにおける操作画面の表示例を示す図である。 手術室システムが適用された手術の様子の一例を示す図である。 図24に示すカメラヘッド及びCCUの機能構成の一例を示すブロック図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 また、以下の順序で説明を行う。
  1.関連技術の説明
   1-1.SDR及びHDR
   1-2.コーデック歪み
   1-3.伝達関数
   1-4.色域
  2.第1の実施形態
   2-1.導入
   2-2.システムの概要
   2-3.画像処理装置の概略的な構成
   2-4.符号化部及び制御部の詳細な構成
   2-5.処理の流れ
   2-6.変形例
   2-7.第1の実施形態のまとめ
  3.第2の実施形態
   3-1.導入
   3-2.システムの概要
   3-3.画像処理装置の概略的な構成
   3-4.符号化部及び制御部の詳細な構成
   3-5.処理の流れ
   3-6.第2の実施形態のまとめ
  4.ハードウェア構成例
  5.応用例
  6.総括
 <1.関連技術の説明>
  [1-1.SDR及びHDR]
 近年、実世界の様子をより忠実に再現し又はより豊富な明るさ及び色彩で映像を再生することを可能とするための、映像信号表現の拡張が進められている。HDRは、従来の標準的なダイナミックレンジであるSDRよりも広い輝度ダイナミックレンジで画像又は映像を表現しようとする概念である。
 図1Aは、SDR映像の輝度ダイナミックレンジについて説明するための説明図である。図1Aの縦軸は輝度[nit]を表す。自然界の最大輝度は20000nitに達することがあり、一般的な被写体の輝度は例えば最大で12000nit程度である。イメージセンサのダイナミックレンジの上限は、自然界の最大輝度よりも低く、例えば4000nitであり得る。デジタルカメラ又はデジタルカムコーダといった撮像装置は、イメージセンサにおいて入射光を光電変換することにより生成される電気信号を、イメージセンサの後段の信号処理回路において例えば10ビットのデジタル画像信号へと変換する。旧来のSDR映像の信号フォーマットでは、こうした変換の際に100nitを上回る高輝度部分の階調が失われる。撮像装置により生成されたデジタル画像信号は、例えば伝送又は記録といったアプリケーションの目的に応じて、所定の映像符号化方式(ビデオコーデックともいう)で符号化され、符号化ビットストリームへと変換される。そして、SDR映像を表示する際には、符号化ビットストリームを復号することにより取得されるデジタル画像信号が表示装置へと提供され、上限100nitの表示輝度で映像が再生される。
 図1Bは、HDR映像の輝度ダイナミックレンジについて説明するための説明図である。SDRのケースと同様に、撮像装置は、イメージセンサへの入射光をアナログ電気信号へと変換し、さらにアナログ電気信号を例えば10ビットのデジタル画像信号へと変換する。HDR映像の信号フォーマットは、こうした変換の際に、100nitを上回る高輝度部分の階調を維持し、数百又は数千nitという上限までの輝度で映像を再生することを可能とする。撮像装置により生成されたデジタル画像信号は、やはりアプリケーションの目的に応じて所定の映像符号化方式で符号化され、符号化ビットストリームへと変換される。HDR映像を表示する際には、符号化ビットストリームを復号することにより取得されるデジタル画像信号が表示装置へと提供され、100nitより高い表示輝度を含む輝度ダイナミックレンジで映像が再生される。
 なお、SDRとHDRとを分類する基準として、ここでは輝度ダイナミックレンジの上限が100nitに等しいか又はそれを下回るケースをSDR、上限が100nitを上回るケースをHDRと仮定している。しかしながら、将来のある時点において、100nitではなくより高い基準値によって、その時点で普及している(即ち、標準的となった)ダイナミックレンジと、より新しい(より高い上限を有する)ダイナミックレンジとがそれぞれHDR及びSDRとして分類されることがあってもよい。本開示に係る技術は、概して、2種類のダイナミックレンジが互いに異なる上限を有するケースに広く適用可能であり、それらダイナミックレンジがどういった基準値によって分類されるかには限定されない。SDRは、HDRとの対比において、LDR(Low Dynamic Range)と呼ばれることもある。
  [1-2.コーデック歪み]
 SDR映像かHDR映像かに関わらず、画像信号を非可逆圧縮を含む映像符号化方式で符号化すると、復号される画像信号に基づいて再生される画像に、画質の劣化が生じる。こうした画質の劣化を、本明細書ではコーデック歪みという。コーデック歪みの度合いは、PSNR(Peak Signal-to-Noise Ratio)という指標で評価され得る。概して、符号化効率を同等とした場合、H.264/AVCで符号化/復号された画像の画質は、MPEG-2で符号化/復号された画像の画質よりも高く、H.265/HEVCで符号化/復号された画像の画質はH.264/AVCよりも高い。しかしながら、通常、コーデック歪みの評価は、エンコーダへ入力される原画像とデコーダから出力される復号画像とを比較することにより行われる。HDR映像の撮像若しくは表示の際に行われる信号変換、又はダイナミックレンジの縮減若しくは拡張がコーデック歪みにどのように作用するかは、あまり知られていない。
 発明者らは、多数のサンプル映像をHDR用の信号フォーマットで画像信号へと変換し、H.264/AVCに準拠するエンコーダ及びデコーダによる符号化及び復号の後に、復号後の画像信号から再生されるHDR映像の画質を検証する実験を行った。その結果、同一のサンプルでSDR映像では感知されなかった画質の劣化が、ビデオコーデックを経たHDR映像において視認されるケースがあることが認識された。画質の劣化は、主にブロックノイズ又はモスキートノイズといった形で、画像全体に散在すると共に、画像内の一部分において顕著に生じていた。
 同じ10ビットの画像信号を同じ映像符号化方式で符号化する際に生じる劣化の度合いは、通常は同程度である。それでもSDR映像では感知されない(又は感知されにくい)歪みがHDR映像において検出されたのは、復号後の画像信号のダイナミックレンジを拡張する際にコーデック歪みが一緒に拡大されたからであると考えられる。
 図2Aには、SDR映像の画像信号に、符号化及び復号を経てコーデック歪みが生じる様子が示されている。コーデック歪みはSDR映像を再生する際には拡大されないため、歪みが十分に小さければ主観的に歪みが感知されることはない。一方、図2Bには、HDR映像の画像信号にやはりコーデック歪みが生じる様子が示されている。HDR映像を再生する際には、ダイナミックレンジの拡張に伴ってコーデック歪みが拡大される結果、ブロックノイズ又はモスキートノイズといった画質の劣化が主観的に感知される可能性が高まる。
 コーデック歪みは、HDR用の信号フォーマットで表現されている画像信号についてHDRからSDRへのフォーマット変換が実行される際にも拡大され得る。図2Cには、HDRからSDRへのフォーマット変換、即ちHDR-SDR変換を経てコーデック歪みが拡大される様子が示されている。HDR-SDR変換は、概して、HDR用の信号フォーマットに対応する伝達関数の逆関数で(例えば符号化ビットストリームを復号することにより得られる)画像信号をイメージセンサの出力に相当する原信号へと復元する処理と、復元された原信号からSDR用の信号フォーマットに対応する伝達関数でSDR用の画像信号へと再変換する処理とを含む。これら処理のうちの前者において拡大されたコーデック歪みは、SDR用の信号フォーマットへの再変換において縮小されない。そのため、HDR-SDR変換後の画像信号に基づいてSDR映像を再生すると、拡大されたコーデック歪みが主観的に感知される結果となり得る。
 上述したようなコーデック歪みが、映像符号化方式自体の性能に起因するのであれば、歪みは均一に生じるはずである。しかし、上述したサンプル映像の検証では、画像全体に散在する歪みに加えて、以下に例示するような特徴的な部分領域において歪みが顕著となっていることが確認された:
  -輝度の高い領域(例えば、空の中の雲)
  -色の鮮やかな領域(例えば、赤色又は青色に光るランプ)
これらの部分領域において歪みが顕著となる原因は、HDR用の信号フォーマットの信号伝達関数に関連する。
  [1-3.伝達関数]
 一般に、撮像装置における光から画像信号への信号変換の特性は、OETF(Opto-Electronic Transfer Function;光電気伝達関数)でモデル化される。図3は、典型的なSDR用の信号フォーマットのOETF及びHDR用の信号フォーマットのOETFのそれぞれの例を示している。図3において、横軸は、変換前の光の輝度ダイナミックレンジを表し、100%が100nitの輝度に相当する。縦軸は、変換後の画像信号の符号値を表し、10bitの場合には符号値は0から1023までの値をとり得る。図中に破線で示したSDR用の信号フォーマット(例えば、BT.709)のOETFと実線で示したHDR用のOETF(例えば、HLG、ST2084又はS-Log3)とを比較すると、特に符号値が相対的に大きい部分において伝達関数の傾きの違いが顕著である。これは、こうした部分において、HDRのケースではSDRと比較して画像情報がより高い圧縮比で圧縮されていること、即ち符号値の同程度の変化がHDRのケースではSDRのケースよりも大きい階調の変化を表すことを意味している。RGB表色系において赤色(R)成分、緑色(G)成分及び青色(B)成分の各々の伝達関数を解析した場合にも、図3に示したグラフに類似したHDRとSDRとの間の信号伝達特性の違いが確認された。
 図4は、SDR用のBT.709に対してHDR用のS-Log3が画像情報をどの程度圧縮しているかを表すグラフを示している。図4の横軸は、10ビットの画像信号の符号値を表す。縦軸は、BT.709の圧縮比に対するS-Log3の圧縮比の比率を表す。輝度ダイナミックレンジの100%に相当するS-Log3の符号値“600”付近において、S-Log3の圧縮比はBT.709の圧縮比に対して約4倍であり、符号値が大きくなるほどS-Log3の圧縮比は相対的により高くなっている。このグラフからも、符号値が相対的に大きい部分において、HDRのケースではSDRのケースと比較して画像情報がより強く圧縮されることが理解される。
 HDR映像を再生する際には、多くの場合、図3に実線で示したようなOETFの逆関数であるEOTF(Electro-Optical Transfer Function;電気光伝達関数)を画像信号の符号値に適用することにより、表示素子へ供給すべき電圧レベルが決定され得る。そして、HDR映像を構成する個々の画像が、EOTFの適用によって拡張された輝度ダイナミックレンジで表示される。撮像から表示までを含むシステム全体の伝達関数をOOTFといい、OOTFはシステムガンマと呼ばれることもある。本明細書において、「伝達関数」とは、特段の言及の無い限り、OETF、EOTF及びOOTFのいずれか1つ又は2つ以上の組合せをいう。これら伝達関数は、トーンカーブと呼ばれることもある。
  [1-4.色域]
 実世界の様子をより忠実に再現し又はよりリッチな映像表現を可能とする技術として、HDRと共に色域もまた重要な概念である。ITU-Rにより標準化されたBT.2020は、これまで多くのアプリケーションで使用されてきたBT.709の色域と比較して、より鮮やかな色彩を表現することを可能とする色域を定義している。図5は、BT.709及びBT.2020により定義されている色域について説明するための説明図である。図5を参照すると、所定の拘束条件を用いて3次元の色空間を2次元平面へマッピングした色域グラフが示されている。グラフ中の十字マークは、白色がマッピングされる位置を示す。グラフ中の破線は、BT.709に従って表現することのできる色の範囲を示す。グラフ中の実線は、BT.2020に従って表現することのできる色の範囲を示す。グラフ中の点線は、人間の視覚が識別することのできる色の範囲を示す。図5から理解されるように、BT.2020は、BT.709よりも多彩な色を表現することを可能とする。BT.709が実世界に存在する色の約75%を表現可能であるのに対し、BT.2020は99%以上の色を表現可能であると言われている。BT.2020は、SDR映像の色域として利用されてもよく、又はHDR映像の色域として利用されてもよい。
 <2.第1の実施形態>
  [2-1.導入]
 HDR用の信号フォーマットを用いた場合に画像内の部分領域において顕著となる上述したコーデック歪みのうちのいくつかは、特に画像信号の各色成分のダイナミックレンジのうち相対的に大きい符号値に対応するサブレンジにおいて、原信号の階調を表現するための割り当て符号量が不足することを原因としている。MPEG-2、H.264/AVC又はH.265/HEVCといった映像符号化方式に準拠するエンコーダは、所要の圧縮率を達成するために、画像信号を周波数ドメインにおいて量子化する。通常は、イントラ予測又はインター予測といった予測技術を適用した後の予測残差を直交変換することにより得られる変換係数が量子化される。しかし、SDR映像の符号化のために最適化されたそれらエンコーダにより使用される量子化ステップは、HDR用の信号フォーマットが使用される場合にはしばしば大き過ぎる。これは、大きい符号値に対応するサブレンジにおいて、既に信号変換の際に階調情報が(SDRのケースよりも)強く圧縮されているという事実を、既存のエンコーダが考慮していないからである。
 そこで、本節では、HDR用の信号フォーマットが使用される場合に画像内で階調が強く圧縮されている部分領域により多くの符号量を割り当てて階調を良好に保全し、画質の劣化を軽減するための実施形態について説明する。
  [2-2.システムの概要]
 図6Aは、本実施形態に係る画像処理システムの構成の第1の例を示す説明図である。図6Aに示した画像処理システム10aは、撮像装置11、信号処理装置14、及びサーバ装置15を含む。
 撮像装置11は、例えば、デジタルビデオカメラ若しくはデジタルスチルカメラ、又は映像撮影機能を有する任意の種類の装置(例えば、監視カメラ、Webカメラ又は情報端末など)であってよい。撮像装置11は、イメージセンサを用いて実世界の様子を撮影して、原始的な画像信号を生成する。信号処理装置14は、例えばBPU(Baseband Processing Unit)であってよく、撮像装置11と接続される。信号処理装置14は、撮像装置11により生成された原始的な画像信号についてAD変換及びデジタル信号処理を実行し、所定の信号フォーマットで画像信号を生成する。信号処理装置14により実行されるデジタル信号処理は、例えばガンマ補正及び色変換を含み得る。信号処理装置14は、撮像装置11と一体的に構成されてもよい。
 撮像装置11へ入射する光から信号処理装置14により生成される画像信号への信号変換の特性は、OETFにより表される。例えば、信号処理装置14は、何らかのユーザインタフェースを介してユーザにより複数の候補から選択される伝達関数(又は信号フォーマット)で画像信号を生成してもよい。一例として、複数の候補は、1つのSDR用の信号フォーマット(例えば、BT.709)と1つのHDR用の信号フォーマット(例えば、BT.2020と、HLG又はS-Log3との組合せ)とを含んでもよい。他の例として、複数の候補は、複数のHDR用の信号フォーマットを含んでもよい。一変形例として、信号処理装置14は、単一のHDR用の信号フォーマットのみで画像信号を生成可能であってもよい。
 信号処理装置14は、信号変換の結果として生成される画像信号に、必要に応じて音声信号及びメタデータを含む補助信号を多重化し、多重化されたそれら信号をサーバ装置15へと出力する。サーバ装置15は、例えばSDI(Serial Digital Interface)又はHD-SDIなどの伝送プロトコルに準拠する信号線を介して信号処理装置14と接続される画像処理装置である。サーバ装置15は、信号処理装置14から送信される画像信号を取得し、所定の映像符号化方式で画像を符号化して符号化ビットストリーム17aを生成する。符号化ビットストリーム17aは、サーバ装置15の内部若しくは外部の記憶装置に記憶されてもよく、又はサーバ装置15へ接続される他の装置(例えば、表示装置)へ伝送されてもよい。
 図6Bは、本実施形態に係る画像処理システムの構成の第2の例を示す説明図である。図6Bに示した画像処理システム10bは、撮像装置12、記憶装置13、及び端末装置16を含む。
 撮像装置12は、例えば、デジタルビデオカメラ、デジタルカムコーダ若しくはデジタルスチルカメラ、又は映像撮影機能を有する任意の種類の装置であってよい。撮像装置12は、イメージセンサを用いて実世界の様子を撮影して、原始的な画像信号を生成する。また、撮像装置12は、AD変換と、信号処理装置14に関連して上で説明したようなデジタル信号処理とを実行し、所定の信号フォーマットで画像信号を生成する。撮像装置12は、信号処理装置14と同様に、何らかのユーザインタフェースを介してユーザにより複数の候補から選択される伝達関数で画像信号を生成してもよく、又は、単一のHDR用の伝達関数のみで画像信号を生成可能であってもよい。
 撮像装置12は、信号変換の結果として生成される画像信号に基づき、所定の映像符号化方式で画像を符号化して、符号化ビットストリーム17bを生成する。符号化ビットストリーム17bは、例えば、映像ファイルとして記憶されてもよく、又はネットワークを介して記憶装置13若しくは端末装置16へ提供されてもよい。
 記憶装置13は、様々な映像データを記憶するデータストレージである。記憶装置13は、例えば、所定の映像符号化方式で画像を符号化することにより生成された映像ファイル17cを記憶してもよい。映像ファイルのヘッダ領域には、例えば、映像ファイルに含まれる映像コンテンツに適用された光と画像信号との間の変換に関する伝達関数の種別、色域の種別、及び映像符号化方式をそれぞれ識別するパラメータが含められ得る。記憶装置13は、符号化前(又は信号変換前)の画像信号をRAWデータとして記録するRAW映像ファイル18を記憶してもよい。記憶装置13は、例えば端末装置16からのリクエストに応じて、ユーザが再生し又は編集することを望むファイルをネットワークを介して端末装置16へと提供する。
 端末装置16は、撮像装置12により生成され又は記憶装置13により記憶されている映像ファイルを再生し又は編集する機能を有する画像処理装置である。端末装置16は、例えば、撮像装置12又は記憶装置13から取得される映像ファイル17b又は17cに含まれる符号化ビットストリームを復号して復号画像信号を生成してもよい。また、端末装置16は、そのように生成される復号画像についてダイナミックレンジ変換(例えば、HDR-SDR変換又はSDR-HDR変換)を実行してもよい。さらに、端末装置16は、RAW映像ファイル18に含まれる画像信号、又はダイナミックレンジ変換後の復号画像信号を所定の映像符号化方式で符号化して、符号化ビットストリーム17dを生成してもよい。
 図6Aの例におけるサーバ装置15、並びに図6Bの例における撮像装置12及び端末装置16は、いずれも画像を符号化する画像処理装置(即ち、エンコーダ)としての機能を有する。本実施形態では、これら画像処理装置が画像を符号化する際に、伝達関数に基づいて(例えば、伝達関数の種別又は他の属性に基づいて)画像の各部分領域に割り当てられる符号量を制御することにより、HDR用の信号フォーマットが使用される場合の画質の劣化を軽減する。次項より、そうした画像処理装置の具体的かつ例示的な構成について詳しく説明する。
  [2-3.画像処理装置の概略的な構成]
 図7Aは、本実施形態に係る画像処理装置の概略的な構成の第1の例を示すブロック図である。図7Aに示した画像処理装置100aは、例えば、図6Aの例におけるサーバ装置15、又は図6Bの例における撮像装置12若しくは端末装置16(又は、それら装置のいずれかに搭載される画像処理モジュール)であってよい。画像処理装置100aは、信号取得部101、情報取得部103、符号化部110及び制御部140を備える。
 信号取得部101は、光と画像信号との間の変換に関する伝達関数に基づいて生成された入力画像信号を取得する。信号取得部101は、伝送インタフェースを介して外部の装置から入力画像信号を取得してもよく、又は画像処理装置100aと一体的に構成される撮像モジュール及び信号処理モジュール(図示せず)から入力画像信号を取得してもよい。
 情報取得部103は、符号化部110により符号化される画像に適用された伝達関数に関する入力情報を取得する。一例として、情報取得部103は、画像処理装置100aが有するユーザインタフェースを介して入力情報を取得してもよい。ユーザインタフェースは、画像処理装置100aの筐体に設けられる例えばタッチパネル、ボタン又はスイッチのような物理的な入力デバイスにより提供されてもよい。その代わりに、ユーザインタフェースは、通信インタフェースを介して遠隔的に接続される端末装置上でGUI(Graphical User Interface)として提供されてもよい。本実施形態において、入力情報は、少なくとも符号化すべき画像に適用された伝達関数の種別を示す伝達関数種別を含む。ユーザインタフェースは、例えば、「SDR」及び「HDR」という2つの選択肢のうち画像に適用すべき1つをユーザに選択させてもよい。この場合、SDR用の予め定義される1つの伝達関数、又はHDR用の予め定義される1つの伝達関数が画像に適用されたものと判定される。また、ユーザインタフェースは、複数の伝達関数の候補(例えば、BT.709、HLG、ST2084及びS-Log3)から、画像に適用すべき伝達関数をユーザに選択させてもよい。
 他の例として、情報取得部103は、入力画像信号と多重化される補助信号から入力情報を取得してもよい。例えば、補助信号は、信号線上で画像信号が伝送されていない期間(例えば、ブランキング期間)において信号取得部101により受信される。そして、情報取得部103は、信号取得部101において分離される補助信号から、画像に適用された伝達関数の種別を示す伝達関数種別を含む入力情報を取得し得る。また、情報取得部103は、外部のデータソースへアクセスして必要とされる入力情報を取得してもよい。
 符号化部110は、信号取得部101により取得される画像信号により表現される画像を符号化して、符号化ビットストリームを生成する。符号化部110は、例えばMPEG-2、H.264/AVC又はH.265/HEVCなどのいかなる映像符号化方式に従って符号化処理を実行してもよい。符号化部110により実行される符号化処理は、典型的には、予測、直交変換、量子化及びエントロピー符号化といった様々な演算処理を含み、中でも量子化は所要の圧縮率を達成するための非可逆圧縮を含む処理である。
 制御部140は、情報取得部103により取得される入力情報により示される伝達関数に基づいて、符号化部110において画像の各部分領域に割り当てられる符号量を制御する。より具体的には、制御部140は、HDRに対応する第1の伝達関数(HDR用の伝達関数)及びSDRに対応する第2の伝達関数(SDR用の伝達関数)のうちのHDR用の伝達関数が画像に適用されている場合に、HDR映像の画質の劣化を軽減するための量子化制御処理を有効化する。当該量子化制御処理は、伝達関数又は信号フォーマットに関わらず実行される量子化処理の処理パラメータを、HDR用の伝達関数が適用されている場合に符号量の割り当てを調整するために修正する処理を含み得る。なお、ここでは主に伝達関数の種別に基づいて割り当て符号量が制御される例を説明するが、伝達関数に関連付けられるダイナミックレンジの上限値など、伝達関数の他の属性に基づいて符号量が制御されてもよい。
 図7Bは、本実施形態に係る画像処理装置の概略的な構成の第2の例を示すブロック図である。図7Bに示した画像処理装置100bもまた、例えば、図6Aの例におけるサーバ装置15、又は図6Bの例における撮像装置12若しくは端末装置16(又は、それら装置のいずれかに搭載される画像処理モジュール)であってよい。画像処理装置100bは、信号処理部102、情報取得部104、記憶部107、符号化部110及び制御部140を備える。
 信号処理部102は、何らかの伝送インタフェース若しくは装置内部の信号線を介して撮像装置から入力される原始的な画像信号を取得し、又は記憶部107により記憶されている映像ファイルから画像信号を取得する。そして、信号処理部102は、原始的な画像信号について例えばガンマ補正及び色変換を含み得るデジタル信号処理を実行し、所定の信号フォーマットで符号化の対象とされる画像信号を生成する。信号処理部102により画像に適用される信号フォーマット及び対応する伝達関数は、情報取得部104により取得される入力情報に基づいて決定される。そして、信号処理部102は、生成した画像信号を符号化部110へ出力する。
 情報取得部104は、符号化部110により符号化される画像に適用される伝達関数に関する入力情報を取得する。例えば、情報取得部104は、画像処理装置100bが有する(物理的な入力デバイスにより提供され又はGUIとして提供される)ユーザインタフェースを介して入力情報を取得してよい。上述したように、入力情報は、少なくとも符号化すべき画像に適用される伝達関数の種別を示す伝達関数種別を含む。ユーザインタフェースは、例えば、「SDR」及び「HDR」という2つの選択肢のうち画像に適用すべき1つをユーザに選択させてもよい。また、ユーザインタフェースは、複数の伝達関数の候補から、画像に適用すべき伝達関数をユーザに選択させてもよい。
 記憶部107は、様々な映像データを記憶するための記憶デバイスである。記憶部107は、例えば、信号変換前のデジタル画像信号を記録する映像ファイルを記憶してもよい。ユーザは、画像処理装置100bが有する入出力インタフェース(図示せず)を介して、外部記憶媒体から取得される映像ファイルを記憶部107に記憶させてもよい。また、記憶部107は、符号化部110により実行される符号化処理の結果として生成される符号化ビットストリームを含む映像ファイルを記憶してもよい。映像ファイルは、リクエストに応じて外部の装置へと出力されてもよい。
 図7Aを用いて説明した第1の例と同様に、符号化部110は、信号処理部102により取得される画像信号により表現される画像を符号化して、符号化ビットストリームを生成する。制御部140は、情報取得部104により取得される入力情報により示される伝達関数の種別に基づいて、符号化部110において画像の各部分領域に割り当てられる符号量を制御する。符号化部110により生成される符号化ビットストリームは、画像処理装置100bの外部の装置へと伝送されてもよく、又は記憶部107により映像ファイルとして記憶されてもよい。
  [2-4.符号化部及び制御部の詳細な構成]
 本項では、図7A及び図7Bに示した符号化部110及び制御部140のより具体的な構成について詳しく説明する。図8は、第1の実施形態に係る符号化部及び制御部の詳細な構成の一例を示すブロック図である。
  (1)符号化部
 図8を参照すると、符号化部110は、並び替えバッファ111、ブロック設定部112、減算部113、直交変換部114、量子化部115、可逆符号化部116、逆量子化部121、逆直交変換部122、加算部123、ループフィルタ124、フレームメモリ126、スイッチ127、モード選択部128、イントラ予測部130及びインター予測部135を備える。
 並び替えバッファ111は、信号取得部101又は信号処理部102により取得される画像信号により表現される一連の画像の画像データを、GOP(Group of Pictures)構造に応じて並び替える。並び替えバッファ111は、並び替え後の画像データをブロック設定部112、イントラ予測部130及びインター予測部135へ出力する。
 ブロック設定部112は、ピクチャに相当する画像の各々を複数のブロックへと分割する。MPEG-2及びH.264/AVCでは、ピクチャは固定的なサイズを有する複数のマクロブロックへと格子状に分割され、各マクロブロックを処理単位として符号化処理が実行される。量子化処理は、各マクロブロックに設定されるより小さいサブブロックを処理単位として実行され得る。H.265/HEVCでは、ピクチャは可変的なサイズを有する複数の符号化単位(Coding Unit)へと四分木状に分割され、各CUを処理単位として符号化処理が実行される。量子化処理は、各CUに設定されるより小さい変換単位(Transform Unit)を処理単位として実行され得る。
 減算部113は、ブロック設定部112から入力される画像データと予測画像データとの差分である予測残差データを算出し、予測残差データを直交変換部114へ出力する。
 直交変換部114は、減算部113から入力される予測残差データを、空間領域の画像データから周波数領域の変換係数データへと変換する。直交変換部114により実行される直交変換は、例えば離散コサイン変換又は離散サイン変換などであってよい。そして、直交変換部114は、変換係数データを量子化部115へ出力する。
 量子化部115は、直交変換部114から入力される変換係数データを、所要の圧縮率が達成されるように決定される量子化ステップで量子化する。例えば、出力される符号化ビットストリームのサイズに対してバッファ又は伝送路の空き容量が多い場合には量子化ステップは小さく設定され、逆に空き容量が少ない場合には量子化ステップは大きく設定され得る。量子化ステップは、概して、画像内の部分領域ごとに決定される。3つの色成分の各々について異なる量子化ステップが使用されてもよい。ある部分領域について使用される量子化ステップがより小さいほど、当該部分領域の変換係数は精細に量子化される。これは、より多くの符号量が当該部分領域に割り当てられること、即ち当該部分領域の画像の階調がより損なわれることなく維持されることを意味する。量子化部115は、量子化行列を用いて変換係数のうち異なる周波数成分に異なる量子化ステップを適用してもよい。そして、量子化部115は、量子化後の変換係数データ(以下、量子化データという)を可逆符号化部116及び逆量子化部121へ出力する。
 入力画像信号にHDR用の伝達関数が適用された場合、量子化部115には、各部分領域について使用される量子化ステップを調整(スケーリング)するためのパラメータが、制御部140から提供される。量子化部115は、制御部140から提供されるこのパラメータで除算(又は乗算)することにより量子化ステップをスケーリングして、スケーリング後の量子化ステップで変換係数データを量子化する。なお、いくつかの映像符号化方式では、デコーダ側での逆量子化のために要する制御値として量子化ステップを直接的に符号化する代わりに、量子化ステップとは対数関数的な関係を有する量子化パラメータ(QP)が符号化される。量子化ステップのスケーリングは、何らかの係数で量子化ステップを除算(又は乗算)する代わりに、何らかのオフセットを量子化パラメータに加算(又は減算)することにより実現されてもよい。
 可逆符号化部116は、量子化部115から入力される量子化データを符号化することにより、符号化ビットストリームを生成する。また、可逆符号化部116は、デコーダにより参照される様々なパラメータを符号化して、符号化されたパラメータを符号化ビットストリームへ挿入する。可逆符号化部116により符号化されるパラメータは、伝達関数に関する情報、色域に関する情報、及び上述した量子化パラメータに関する情報を含み得る。可逆符号化部116は、生成した符号化ビットストリームを、アプリケーションの目的に応じた出力先へと出力する。
 逆量子化部121、逆直交変換部122及び加算部123は、ローカルデコーダを構成する。ローカルデコーダは、符号化されたデータから原画像を再構築する役割を有する。
 逆量子化部121は、量子化部115により使用されたものと同じ量子化ステップで量子化データを逆量子化し、変換係数データを復元する。入力画像信号にHDR用の伝達関数が適用された場合には、制御部140から提供されるパラメータを用いてスケーリングされた量子化ステップが、各部分領域について使用され得る。そして、逆量子化部121は、復元した変換係数データを逆直交変換部122へ出力する。
 逆直交変換部122は、逆量子化部121から入力される変換係数データについて逆直交変換処理を実行することにより、予測残差データを復元する。そして、逆直交変換部122は、復元した予測残差データを加算部123へ出力する。
 加算部123は、逆直交変換部122から入力される復元された予測残差データとイントラ予測部130又はインター予測部135により生成される予測画像データとを加算することにより、復号画像データを生成する。そして、加算部123は、生成した復号画像データをループフィルタ124及びフレームメモリ126へ出力する。
 ループフィルタ124は、復号画像の画質の向上を目的とするインループフィルタである。ループフィルタ124は、例えば、復号画像に現れるブロック歪みを軽減するためのデブロックフィルタを含んでもよい。また、ループフィルタ124は、復号画像にエッジオフセット又はバンドオフセットを加えるための適応オフセットフィルタを含んでもよい。ループフィルタ124は、フィルタリング後の復号画像データをフレームメモリ126へ出力する。
 フレームメモリ126は、加算部123から入力されるフィルタリング前の復号画像データ、及びループフィルタ124から入力されるインループフィルタの適用後の復号画像データを記憶する。
 スイッチ127は、イントラ予測のために使用されるフィルタリング前の復号画像データをフレームメモリ126から読み出し、読み出した復号画像データを参照画像データとしてイントラ予測部130に供給する。また、スイッチ127は、インター予測のために使用されるフィルタリング後の復号画像データをフレームメモリ126から読み出し、読み出した復号画像データを参照画像データとしてインター予測部135に供給する。
 モード選択部128は、イントラ予測部130及びインター予測部135から入力されるコストの比較に基づいて、ブロックごとに予測手法を選択する。モード選択部128は、イントラ予測を選択したブロックについては、イントラ予測部130により生成される予測画像データを減算部113へ出力すると共に、イントラ予測に関する情報を可逆符号化部116へ出力する。また、モード選択部128は、インター予測を選択したブロックについては、インター予測部135により生成される予測画像データを減算部113へ出力すると共に、インター予測に関する情報を可逆符号化部116へ出力する。
 イントラ予測部130は、原画像データ及び復号画像データに基づいて、イントラ予測処理を実行する。例えば、イントラ予測部130は、探索範囲に含まれる複数の候補モードの各々について、発生すると推定されるコストを評価する。次に、イントラ予測部130は、コストが最小となる予測モードを最良の予測モードとして選択する。また、イントラ予測部130は、選択した最良の予測モードに従って予測画像データを生成する。そして、イントラ予測部130は、最良の予測モードを示す予測モード情報を含むイントラ予測に関する情報、対応するコスト、及び予測画像データを、モード選択部128へ出力する。
 インター予測部135は、原画像データ及び復号画像データに基づいて、インター予測処理(動き補償)を実行する。例えば、インター予測部135は、探索範囲に含まれる複数の候補モードの各々について、発生すると推定されるコストを評価する。次に、インター予測部135は、コストが最小となる予測モードを最良の予測モードとして選択する。また、インター予測部135は、選択した最良の予測モードに従って予測画像データを生成する。そして、インター予測部135は、インター予測に関する情報、対応するコスト、及び予測画像データを、モード選択部128へ出力する。
  (2)制御部
 図8を参照すると、制御部140は、統計演算部141及び符号量制御部143を備える。
 統計演算部141は、画像に設定される部分領域の各々について、輝度成分及び色差成分のうちの少なくとも一方の強さに関する統計を算出する。統計演算部141により算出される統計は、1つ以上の色成分についての部分領域内の画素値(符号値)の代表値(例えば、平均、中央値若しくは最頻値)又はヒストグラムであってよい。そして、統計演算部141は、算出した統計を符号量制御部143へ出力する。
 なお、ここでの部分領域は、典型的には、量子化処理の処理単位に相当するブロックに相当し得る。例えば、MPEG-2若しくはH.264/AVCにおけるマクロブロック若しくはサブブロック、又はH.265/HEVCにおけるCU若しくはTUといった部分領域ごとに統計が算出され、次に説明する符号量制御部により量子化ステップが制御されてよい。また、かかる例に限定されず、他の形状を有する部分領域(1画素であってもよい)ごとに、ここで説明される量子化制御処理が実行されてもよい。
 符号量制御部143は、符号化される画像に適用される伝達関数の種別を、情報取得部103又は104から入力される入力情報に基づいて判定する。そして、符号量制御部143は、HDR用の伝達関数及びSDR用の伝達関数のうちのSDR用の伝達関数が適用されている場合には、以下に説明する量子化制御処理をスキップし得る。一方、符号量制御部143は、符号化される画像にHDR用の伝達関数が適用されている場合には、各部分領域に割り当てられる符号量を、当該部分領域の輝度成分及び色差成分のうちの少なくとも一方に依存して制御する。より具体的には、符号量制御部143は、各部分領域について量子化部115により使用される量子化ステップを、1つ以上の色成分の強さに依存してスケーリングする(又は量子化部115にスケーリングさせる)ことにより、各部分領域に割り当てられる符号量を制御する。以下、第1の実施例として輝度成分の強さに依存する制御、第2の実施例として色差成分の強さに依存する制御、第3の実施例として輝度成分及び色差成分の双方の強さに依存する制御について説明する。
  (3)第1の実施例-高輝度部分の保護
 第1の実施例において、符号量制御部143は、輝度成分の強さがより強い部分領域(即ち、高輝度部分)により多くの符号量が割り当てられるように、各部分領域について使用される量子化ステップをスケーリングする。各部分領域の輝度成分の強さは、統計演算部141により算出される部分領域ごとの統計から把握される。ここでは、符号量制御部143は、量子化ステップを各部分領域の輝度成分の強さに依存する保護比で除算することにより、量子化ステップをスケーリングするものとする。保護比は、部分領域の画質をどの程度保護するかを表すパラメータである。保護比の値が大きいほど、量子化ステップの値は小さくなり、当該量子化ステップが適用される部分領域の画質はより強く保護される。なお、保護比での実際の除算は、保護比を提供される量子化部115において行われてよい。
 図9Aは、高輝度部分を保護するための保護比の第1の例について説明するための説明図である。図9Aの横軸は、輝度成分の符号値を表す。縦軸は、保護比を表す。ここで示したように、保護比は、各部分領域の輝度成分の強さを引き数とする所定の関数を用いて算出されるパラメータであってもよい。図9Aには一例として一次関数が示されているが、より高次の関数、又は例えば対数関数などの他の種類の関数が使用されてもよい。この例のように、輝度成分の強さがより強い部分領域の保護比をより高くすることで、そうした部分領域の量子化ステップがより小さい値へとスケーリングされる。それにより、光から電気信号への変換の際に既に強く圧縮されている高輝度部分の画像情報が過剰に損なわれることを回避することができる。
 図9Bは、高輝度部分を保護するための保護比の第2の例について説明するための説明図である。図9Bに示したように、保護比は、各部分領域の輝度成分の強さがどのサブレンジに属するかによって選択的に決定されるパラメータであってもよい。第2の例によれば、各部分領域の輝度成分の強さが200nit未満、200nit以上300nit未満、300nit以上400nit未満、400nit以上500nit未満、500nit以上600nit未満及び600nit以上という6つのサブレンジに分類されており、各サブレンジに対応する保護比が定義される。符号量制御部143は、このようなサブレンジと対応する保護比とをマッピングするマッピングテーブルを予め記憶するメモリを有していてもよい。第2の例においても、第1の例と同様に、輝度成分の強さがより強い部分領域の保護比がより高く設定されるため、光から電気信号への変換の際に既に強く圧縮されている高輝度部分の画像情報が過剰に損なわれることを回避することができる。
 なお、第2の例によれば、ダイナミックレンジの中央部分において、保護比(又は量子化ステップ)が精細に制御される一方、ダイナミックレンジの端部においては保護比は固定的である。保護比をこのように設定することで、人間の視覚を通じて主観的に感知される画質に影響を与えやすいダイナミックレンジの中央部分の保護を、符号化効率の犠牲を抑制しながら効率的に強化することができる。
  (4)第2の実施例-高色差部分の保護
 第2の実施例において、符号量制御部143は、色差成分の強さがより強い部分領域(即ち、高色差部分)により多くの符号量が割り当てられるように、各部分領域について使用される量子化ステップをスケーリングする。
 図10は、高色差部分として保護されるべき符号値について説明するための説明図である。図10の横軸は、2つの色差成分のうちの一方であるCb成分の符号値を表す。縦軸は、2つの色差成分のうちの他方であるCr成分の符号値を表す。図中の点P1は、RGB空間においてR成分及びG成分の符号値が1000を上回る所謂「黄色」に該当する特定の点の、YCbCr空間のCbCr平面上の対応する位置を示している。点P2は、RGB空間においてG成分及びB成分の符号値が1000を上回る所謂「シアン」に該当する特定の点の、YCbCr空間のCbCr平面上の対応する位置を示している。点P3は、RGB空間においてG成分の符号値が1000を上回る所謂「緑色」に該当する特定の点の、YCbCr空間のCbCr平面上の対応する位置を示している。点P4は、RGB空間においてR成分及びB成分の符号値が1000を上回る所謂「マゼンタ」に該当する特定の点の、YCbCr空間のCbCr平面上の対応する位置を示している。点P5は、RGB空間においてR成分の符号値が1000を上回る所謂「赤色」に該当する特定の点の、YCbCr空間のCbCr平面上の対応する位置を示している。点P6は、RGB空間においてB成分の符号値が1000を上回る所謂「青色」に該当する特定の点の、YCbCr空間のCbCr平面上の対応する位置を示している。
 これら点の色成分値の分析によれば、図中で破線枠HLの内部にある点P1、P2及びP3はYCbCr空間において相対的に高いY成分値(例えば、700以上)を有するのに対し、破線枠HLの外部にある点P4、P5及びP6は相対的に低いY成分値(例えば、700未満)を有する。これは、色の鮮やかな部分の中でも「黄色」、「シアン」及び「緑色」の部分は輝度成分を考慮すれば保護され得るのに対し、「マゼンタ」、「赤色」及び「青色」の部分はそうではないことを意味する。そのため、高色差部分について符号量の割り当てを増加させることもまた有益である。各部分領域の色差成分の強さは、統計演算部141により算出される部分領域ごとの統計から把握される。ここでは、符号量制御部143は、量子化ステップを各部分領域の色差成分の強さに依存する保護比で除算することにより、(輝度成分と共通の又は色差成分に固有の)量子化ステップをスケーリングするものとする。なお、実際の除算は、保護比を提供される量子化部115において行われてよい。
 高色差部分を保護するための保護比は、図9Aに示した第1の例と同様に、各部分領域の色差成分の強さを引き数とする所定の関数を用いて算出されるパラメータであってもよい。代替的に、高色差部分を保護するための保護比は、図9Bに示した第2の例と同様に、各部分領域の色差成分の強さがどのサブレンジに属するかに依存して決定されるパラメータであってもよい。符号量制御部143は、色差成分のサブレンジと対応する保護比とをマッピングするマッピングテーブルを予め記憶するメモリを有していてもよい。
 図11は、高色差部分を保護するための保護比の一例について説明するための説明図である。図11には、図9Bに例示した6つのサブレンジに対応する輝度成分の保護比(実線)に加えて、同じ6つのサブレンジに対応する色差成分の保護比(破線)が示されている。このように色差成分の強さがより強い部分領域の保護比をより高く設定することで、光から電気信号への変換の際に既に強く圧縮されている高色差部分の画像情報が過剰に損なわれることを回避することができる。また、ダイナミックレンジの中央部分において保護比を精細に設定することで、主観的に感知される画質に影響を与えやすいダイナミックレンジの中央部分の保護を、符号化効率の犠牲を抑制しながら効率的に強化することができる。
  (5)第3の実施例-高輝度部分及び高色差部分の保護
 図10の点P1、P2及びP3(「黄色」、「シアン」及び「緑色」)は、上述したように、色の鮮やかな(R成分、G成分及びB成分のうちの1つ以上が強い)領域に属し且つ高輝度(Y成分が強い)領域にも属する。このような色を有する部分領域を高輝度部分として保護しながら高色差部分としても保護すると、割り当て符号量が不適切なほど多くなってしまう可能性がある。そこで、符号量制御部143は、輝度成分及び色差成分のうちの一方の強さに応じて量子化ステップがスケーリングされた部分領域の当該量子化ステップを、輝度成分及び色差成分のうちの他方の強さに応じてスケーリングしなくてもよい。
 一例として、符号量制御部143は、各部分領域について統計演算部141により色成分ごとに算出されるヒストグラムに基づいて、各部分領域を2つのグループに分類する。より具体的には、例えば、符号量制御部143は、あるCb基準値を上回るCb成分を有する画素の割合が閾値を上回り、又はあるCr基準値を上回るCr成分を有する画素の割合が閾値を上回る部分領域を第1のグループに、そうではない(双方の割合が閾値を下回る)部分領域を第2のグループに分類し得る。第1のグループは、図10の破線枠HLの外部に位置する画素の多い部分領域を含み、第2のグループは、破線枠HLの内側に位置する画素の多い部分領域を含むことになる。符号量制御部143は、第1のグループに属する部分領域には第2の実施例に従って高色差部分の保護を、第2のグループに属する部分領域には第1の実施例に従って高輝度部分の保護を適用してもよい。
 こうした保護手法の切り替えにより、冗長的な量子化ステップの制御を回避して処理コストを低減すると共に、画像内で局所的に割り当て符号量が過剰となることを防止することができる。
  [2-5.処理の流れ]
  (1)符号化制御処理
 図12は、本実施形態に係る符号化制御処理の流れの一例を示すフローチャートである。ここで説明する符号化制御処理は、映像を構成する個々の画像について繰り返されてよい。複数の画像にわたって変化しないパラメータを取得し又は設定するための処理ステップは、2回目以降の繰り返しにおいてスキップされてもよい。なお、ここでは、説明の簡明さのために、符号量の制御に直接的に関連しない処理ステップについての説明は省略される。
 図12を参照すると、まず、信号取得部101又は信号処理部102は、光と画像信号との間の変換に関する伝達関数に基づいて生成された画像信号を取得する(ステップS110)。ここで取得される画像信号は、符号化部110へ出力される。
 次に、情報取得部103又は104は、符号化部110により符号化される画像に適用された伝達関数に関する入力情報を、ユーザインタフェースを介して又は入力画像信号と多重化される補助信号から取得する(ステップS112)。ここで取得される入力情報は、制御部140へ出力される。
 次に、符号量制御部143は、上述した入力情報により示される伝達関数の種別に基づいて、個々の部分領域に保護比を設定する際に使用される保護比テーブル又は関数を設定する(ステップS114)。ここで設定される保護比テーブル又は関数は、HDR用の複数の伝達関数にわたって共通的であってもよく、又はHDR用の複数の伝達関数のうちのいずれが適用されるかに依存して異なってもよい。
 その後の処理は、処理対象の画像に設定される複数の部分領域のうちの各々について繰り返される。各繰り返しにおける処理対象の部分領域を、ここでは注目部分領域という。
 まず、符号化部110の量子化部115は、どのような伝達関数が適用されたかに関わらず、所要の圧縮率が達成されるように注目部分領域の量子化ステップを決定する(ステップS130)。
 次に、符号量制御部143は、適用された伝達関数の種別を、入力情報に基づいて判定する(ステップS132)。そして、符号量制御部143は、符号化される画像にHDR用の伝達関数が適用されたと判定される場合には、後に詳しく説明する量子化制御処理を実行する(ステップS140)。一方、符号化される画像にSDR用の伝達関数が適用されたと判定される場合には、符号量制御部143は、量子化制御処理をスキップする。
 次に、量子化部115は、直交変換部114から入力される注目部分領域の変換係数データを、スケーリング後の(又はSDR映像であるためにスケーリングされない)量子化ステップで量子化する(ステップS160)。
 次に、可逆符号化部116は、量子化部115から入力される量子化データと量子化パラメータとを符号化して、符号化ビットストリームを生成する(ステップS170)。
 ステップS130~ステップS170は、ピクチャ内の全ての部分領域について処理が終了するまで繰り返される(ステップS180)。そして、全てのピクチャについて処理が終了すると、図12に示した符号化制御処理は終了する(ステップS190)。
  (2)量子化制御処理(第1の実施例)
 図13Aは、図12のステップS140において実行され得る量子化制御処理の流れの第1の例を示すフローチャートである。第1の例は、画像内の高輝度部分の階調を保護するための量子化制御処理の流れの一例を示している。
 図13Aを参照すると、まず、統計演算部141は、注目部分領域の輝度成分の強さに関する統計を算出する(ステップS141)。ここで算出される統計は、例えば、輝度成分についての部分領域内の画素値の平均、中央値又は最頻値を含み得る。そして、統計演算部141は、算出した統計を符号量制御部143へ出力する。
 次に、符号量制御部143は、統計演算部141から入力される注目部分領域の輝度統計に対応する保護比を、保護比テーブルを参照し又は保護比算出用の関数を用いることにより決定する(ステップS144)。そして、符号量制御部143は、決定した保護比を、量子化部115へ出力する。
 次に、量子化部115は、符号量制御部143から入力される保護比に従って、図12のステップS130にて決定した量子化ステップをスケーリングする(ステップS146)。例えば、量子化部115は、符号量制御部143から入力される1より大きい保護比で量子化ステップを除算することにより量子化ステップを縮小し、又は1より小さい保護比で量子化ステップを除算することにより量子化ステップを拡大する。なお、ここでは、所要の圧縮率が達成されるように暫定的に決定された量子化ステップを保護比でスケーリングする例を説明しているが、所要の圧縮率及び保護比の双方を同時に考慮して量子化ステップが決定されてもよい。以下に説明する他の実施例についても同様である。
  (3)量子化制御処理(第2の実施例)
 図13Bは、図12のステップS140において実行され得る量子化制御処理の流れの第2の例を示すフローチャートである。第2の例は、画像内の高色差部分の階調を保護するための量子化制御処理の流れの一例を示している。
 図13Bを参照すると、まず、統計演算部141は、注目部分領域の色差成分の強さに関する統計を算出する(ステップS142)。ここで算出される統計は、例えば、色差成分についての部分領域内の画素値の平均、中央値又は最頻値を含み得る。そして、統計演算部141は、算出した統計を符号量制御部143へ出力する。
 次に、符号量制御部143は、統計演算部141から入力される注目部分領域の色差統計に対応する保護比を、保護比テーブルを参照し又は保護比算出用の関数を用いることにより決定する(ステップS145)。そして、符号量制御部143は、決定した保護比を、量子化部115へ出力する。
 次に、量子化部115は、符号量制御部143から入力される保護比に従って、図12のステップS130にて決定した量子化ステップをスケーリングする(ステップS147)。例えば、量子化部115は、符号量制御部143から入力される1より大きい保護比で量子化ステップを除算することにより量子化ステップを縮小し、又は1より小さい保護比で量子化ステップを除算することにより量子化ステップを拡大する。
  (4)量子化制御処理(第3の実施例)
 図13Cは、図12のステップS140において実行され得る量子化制御処理の流れの第3の例を示すフローチャートである。第3の例は、画像内の高輝度部分及び高色差部分の双方の階調を保護するための量子化制御処理の流れの一例を示している。
 図13Cを参照すると、まず、統計演算部141は、注目部分領域の輝度成分の強さに関する統計を算出する(ステップS141)。また、統計演算部141は、注目部分領域の色差成分の強さに関する統計を算出する(ステップS142)。そして、統計演算部141は、算出した統計を符号量制御部143へ出力する。
 次に、符号量制御部143は、統計演算部141から入力される注目部分領域の統計(例えば、色差成分のヒストグラム)に基づいて、注目部分領域に輝度に依存する保護を適用するか又は色差に依存する保護を適用するかを判定する(ステップS143)。
 次に、符号量制御部143は、注目部分領域に輝度に依存する保護を適用すると判定した場合には、注目部分領域の輝度統計に対応する保護比を、保護比テーブルを参照し又は保護比算出用の関数を用いることにより決定する(ステップS144)。そして、量子化部115は、輝度統計に基づく符号量制御部143から入力される保護比に従って量子化ステップをスケーリングする(ステップS148)。
 一方、符号量制御部143は、注目部分領域に色差に依存する保護を適用すると判定した場合には、注目部分領域の色差統計に対応する保護比を、保護比テーブルを参照し又は保護比算出用の関数を用いることにより決定する(ステップS145)。そして、量子化部115は、色差統計に基づく符号量制御部143から入力される保護比に従って量子化ステップをスケーリングする(ステップS149)。
  [2-6.変形例]
 ここまで、画像を符号化する機能を有する画像処理装置が、画像に適用された伝達関数の種別に基づいて、部分領域ごとの割り当て符号量を制御する処理のオン/オフを切り替える例について説明した。しかしながら、本実施形態のアイディアは、伝達関数の種別の判定を経ることなく、部分領域ごとの割り当て符号量の制御が実行されるケースにも適用可能である。本項では、そうした一変形例について説明する。
  (1)画像処理装置の構成
 図14は、第1の実施形態に係る画像処理装置の構成の一変形例を示すブロック図である。図14に示した画像処理装置100cは、例えば、図6Aの例におけるサーバ装置15、又は図6Bの例における撮像装置12若しくは端末装置16(又は、それら装置のいずれかに搭載される画像処理モジュール)であってよい。画像処理装置100cは、信号取得部101、符号化部110及び制御部140cを備える。
 図7Aを用いて説明した例と同様、信号取得部101は、光と画像信号との間の変換に関する伝達関数に基づいて生成された入力画像信号を取得する。本変形例において信号取得部101により取得される入力画像信号は、HDR用の伝達関数によって光から変換され、HDR用の信号フォーマットで生成された信号である。ここでのHDR用の伝達関数は、例えば、100nitより高い輝度での映像の表示を可能とするための、HLG、ST2084又はS-Log3といった伝達関数であってよい。符号化部110は、信号取得部101から入力される画像信号により表現される画像を符号化して、符号化ビットストリームを生成する。なお、画像処理装置100cは、信号取得部101の代わりに、図7Bを用いて説明した信号処理部102を備えていてもよい。
 本変形例において、制御部140cは、符号化される画像にHDR用の伝達関数が適用されたことを前提として、符号化部110において画像の各部分領域に割り当てられる符号量を、当該部分領域の輝度成分及び色差成分のうちの少なくとも一方に依存して制御する。より具体的には、制御部140cは、伝達関数の種別を判定することなく、図13A~図13Cを用いて説明した実施例のうちのいずれかに従って、各部分領域について使用される量子化ステップを、輝度成分及び色差成分のうちの少なくとも一方に依存してスケーリングすることにより、各部分領域に割り当てられる符号量を制御し得る。
 量子化ステップのスケーリングは、例えば図9Aを用いて説明したような色成分の符号値を引き数とする関数を用いて決定されるパラメータの乗算又は除算(例えば、保護比での除算)によって実現されてもよい。その代わりに、量子化ステップのスケーリングは、例えば図9Bを用いて説明したような色成分の符号値と予めマッピングされる(マッピングテーブルを参照して取得される)パラメータの乗算又は除算によって実現されてもよい。色成分の強さがより強い部分領域の量子化ステップを縮小することにより、より多くの符号量をそれら部分領域に割り当てて、コーデック歪みに起因する画質の劣化を軽減することができる。
  (2)符号化制御処理
 図15は、図14を用いて説明した変形例に係る符号化制御処理の流れの一例を示すフローチャートである。ここで説明する符号化制御処理は、映像を構成する個々の画像について繰り返されてよい。複数の画像にわたって変化しないパラメータを取得し又は設定するための処理ステップは、2回目以降の繰り返しにおいてスキップされてもよい。なお、ここでは、説明の簡明さのために、符号量の制御に直接的に関連しない処理ステップについての説明は省略される。
 図15を参照すると、まず、信号取得部101又は信号処理部102は、光と画像信号との間の変換に関するHDR用の伝達関数が適用された画像信号を取得する(ステップS111)。ここで取得される画像信号は、符号化部110へ出力される。
 次に、制御部140cは、個々の部分領域に保護比を設定する際に使用される保護比テーブル又は関数を設定する(ステップS115)。ここで設定される保護比テーブル又は関数は、HDR用の複数の伝達関数にわたって共通的であってもよく、又はHDR用の複数の伝達関数のうちのいずれが適用されるかに依存して異なってもよい。
 その後の処理は、処理対象の画像に設定される複数の部分領域のうちの各々について繰り返される。まず、符号化部110の量子化部115は、所要の圧縮率が達成されるように注目部分領域の量子化ステップを決定する(ステップS130)。
 次に、制御部140cは、図13A~図13Cを用いて説明した量子化制御処理のうちの1つを実行する(ステップS140)。それにより、ステップS130において決定された注目部分領域の量子化ステップがスケーリングされる。
 次に、量子化部115は、直交変換部114から入力される注目部分領域の変換係数データを、スケーリング後の量子化ステップで量子化する(ステップS160)。
 次に、可逆符号化部116は、量子化部115から入力される量子化データと量子化パラメータとを符号化して、符号化ビットストリームを生成する(ステップS170)。
 ステップS130~ステップS170は、ピクチャ内の全ての部分領域について処理が終了するまで繰り返される(ステップS180)。そして、全てのピクチャについて処理が終了すると、図15に示した符号化制御処理は終了する(ステップS190)。
  [2-7.第1の実施形態のまとめ]
 ここまで、図6A~図15を用いて、本開示に係る技術の第1の実施形態について説明した。上述した実施形態では、光と画像信号との間の変換に関する伝達関数に基づいて取得される画像を符号化する際に、伝達関数に基づいて、画像の各部分領域に割り当てられる符号量が制御される。かかる構成によれば、どういった伝達関数が画像に適用されるかに依存して部分領域ごとに割り当て符号量を変化させることができる。それにより、伝達関数の選択の結果として原信号の階調を表現するための割り当て符号量が不足することを原因として、画像の部分領域においてコーデック歪みが顕著となることを防止することが可能となる。
 また、上述した実施形態では、第1のダイナミックレンジに対応する第1の伝達関数及び第1のダイナミックレンジよりも狭い第2のダイナミックレンジに対応する第2の伝達関数のうちの第1の伝達関数が画像に適用されている場合に、各部分領域に割り当てられる符号量が、当該部分領域の輝度成分及び色差成分のうちの少なくとも一方に依存して制御され得る。かかる構成によれば、伝達関数に関わらず決定される割り当て符号量を、より広いダイナミックレンジに対応する伝達関数が適用されている場合に、少なくとも1つの色成分の強さに依存して部分領域ごとに調整することができる。それにより、特定のダイナミックレンジを前提として設計され又はチューニングされたエンコーダの構成を、拡張されたダイナミックレンジのために活用しながら、割り当て符号量を最適化して画質の劣化を軽減することができる。
 一例として、上記第1のダイナミックレンジは、100nitより高い輝度での表示を可能とするためのダイナミックレンジであってよく、上記第2のダイナミックレンジは、100nitの輝度を上限とするダイナミックレンジであってよい。それにより、既存のSDR映像のために設計されたエンコーダを、画質の劣化を防止しつつ例えばHLG、ST2084又はS-Log3といった伝達関数が適用されたHDR映像を符号化するために活用することが可能となる。
 また、上述した実施形態では、各部分領域に割り当てられる符号量は、当該部分領域の輝度成分及び色差成分のうちの少なくとも一方に依存して量子化ステップをスケーリングすることにより制御される。例えば、アプリケーションの要件(所要の圧縮率など)に応じて決定される量子化ステップをより小さい値へとスケーリングすることで、画像の階調をより良好に保全することができる。また、割り当て符号量に相対的に余裕のある部分領域について量子化ステップをより大きい値へとスケーリングすることで、符号化効率の低下を補うことができる。
 一例として、個々の映像符号化方式において定義されている量子化処理の処理単位に相当するブロックごとに量子化ステップのスケーリングを行うという構成を採用すれば、それら映像符号化方式をサポートするエンコーダを拡張して、上述した実施形態に係る技術を低コストで容易に実装することができる。
 また、上述した実施形態では、各部分領域について使用される量子化ステップは、当該部分領域の輝度成分及び色差成分のうちの少なくとも一方の強さがより強い部分領域により多くの符号量が割り当てられるようにスケーリングされる。上述したように、例えばHDRのケースでは、特に符号値が相対的に大きい部分において、SDRのケースと比較して画像情報がより高い圧縮比で圧縮されており、これがHDR映像の表示の際に画像内の高輝度部分及び高色差部分においてコーデック歪みが拡大する原因となっていた。これに対し、色成分の強さがより強い部分領域において量子化ステップを縮小して割り当て符号量を引き上げることで、コーデック歪みを軽減し、原画像における階調の変化を適切に再現することが可能となる。
 また、上述した実施形態では、画像に適用される伝達関数に関する入力情報に基づいて、伝達関数が判定され得る。上記入力情報がユーザインタフェースを介して取得される場合には、入力信号から伝達関数を判別できない場合にもユーザが望む通りに伝達関数に基づく制御を実行することができる。上記入力情報が入力画像信号と多重化される補助信号から取得される場合には、ユーザ入力を要することなく自動的に伝達関数に基づく制御を実行することができる。
 また、一変形例によれば、光と画像信号との間の変換に関する伝達関数に基づいて取得される画像を符号化する際に、画像の各部分領域に割り当てられる符号量が、当該部分領域の輝度成分及び色差成分のうちの少なくとも一方に依存して制御される。それにより、原信号の階調を表現するための割り当て符号量が不足することを原因として画像の部分領域においてコーデック歪みが顕著になることを防止することができる。
 <3.第2の実施形態>
  [3-1.導入]
 多くの映像符号化方式において、エンコーダは、画像を符号化する際に、選択可能な複数のモードから符号化効率の観点で最良のモードを選択し、選択したモードを示すモード情報を符号化してデコーダへ伝送する。そうしたモード選択は、例えば、イントラ予測における予測モード(例えば、予測方向及び予測ブロックサイズ)の選択、インター予測における予測モード(例えば、動きベクトル、予測ブロックサイズ及び参照ピクチャ)の選択、並びにイントラ予測モードとインター予測モードとの間の予測手法の選択を含み得る。モード選択は、通常、原画像データから予測画像データを減算して残る予測残差から発生する符号量とオーバヘッドとしてのモード情報から発生する符号量との和に相当し得るコストを、複数の候補モードにわたって評価することにより行われる。しかし、SDR映像のために設計され又はチューニングされたコスト評価式は、必ずしもHDR映像のために最適ではない。なぜなら、HDR映像の画像信号においては、SDR映像と比較して画像情報がより強く圧縮されており、同じ評価式が使用される場合には予測残差から発生する符号量のモード間の差異が過小評価されがちだからである。
 発明者らは、HDR用の信号フォーマットで表現されたサンプル映像の画像信号をH.264/AVCに準拠する既存のエンコーダで符号化した場合に、選択される予測モードにしばしば不自然な偏りが生じることを認識している。例えば、ある画像についてイントラ予測の結果として予測ブロックごとに選択された予測モードを分析すると、画像全体にわたって、不自然なほど多くのブロックでDC予測(平均値予測ともいう)が選択されているケースがあった。こうした予測モードの偏りは、予測精度を悪化させ、所要の圧縮率の下で画像全体に散在する歪みをもたらす。予測モードの偏りが生じる原因は、モード選択のための画一的なコスト評価式がHDR映像のために適していないことである。特に、HDRのケースでは、画像情報の強い圧縮の結果として、コスト評価式における予測残差の寄与が小さくなり、モード情報の寄与が過剰に支配的になっていると推測される。
 一般に、複数の候補モードから最良のモードを選択するための手法として、ラグランジュの未定乗数法に基づくRD(Rate Distortion)最適化が知られている。RD最適化において、i番目の候補モードについて符号化コストJは、次式のように記述され得る:
Figure JPOXMLDOC01-appb-M000001
 式(1)において、Dは、i番目の候補モードにおいて画像に生じる歪み(以下、予測残差符号量という)を表し、通常は原画像と予測画像との間の差分絶対値総和(SAD)に等しい。Rは、i番目の候補モードにおいて生じるオーバヘッドビット(例えば、予測モードを表すモード情報)の符号量を表す。λは、量子化パラメータQPに依存する係数である。式(1)の右辺において、係数λの代わりに、QPに依存するオフセット値が加算(又は減算)されてもよい。また、予測残差符号量Dとして、差分絶対値総和をアダマール変換した値が使用されてもよい。
 式(1)のようなコスト評価式をエンコーダに実装する際、例えば十分な処理速度を確保し又は実装の複雑さを低減するために、オーバヘッドビットの符号量の項R(以下、モード符号量という)として、候補モードごとに予め定義される固定的な値を使用することが有益である。一方、信号変換前の画像における同程度の階調の差は、SDRのケースと比較してHDRのケースではより小さい符号値の差へと圧縮される。すると、SDR映像のために最適化されたモード符号量Rは、HDR映像において生じる予測残差符号量Dと共にコスト評価式へ算入するには大き過ぎることになる。
 図16A及び図16Bは、モード選択への伝達関数の違いの影響について説明するための説明図である。図16Aの上段に示したグラフの横軸は、画像の1ライン上の水平方向の画素位置を表す。縦軸は、そのライン上の画素列のある色成分の符号値を表す。グラフの実線は、原画像の符号値を表し、図示した例では、符号値はラインの左半分において大きい値をとり、ラインの中央において減少し、ラインの右半分において小さい値をとる。左のグラフの破線は、イントラ予測の予測モードの1つであるDC予測に従って生成され得る予測画像の符号値を表す。右のグラフの破線は、イントラ予測の予測モードの他の1つである対角方向予測に従って生成され得る予測画像の符号値を表す。原画像の符号値の軌跡(実線)と予測画像の符号値の軌跡(破線)とで囲まれた部分の面積(図中の斜線網掛け部分)は、それぞれの予測モードが選択された場合の予測誤差に相当する。図16Aの例では、DC予測の予測誤差が、対角方向予測の予測誤差よりも大きい。一方、例えばモード番号のより小さいDC予測には、対角方向予測よりも小さいモード符号量(図中のドット網掛け部分)が付与されているものとする。しかし、図16Aの例では、予測誤差符号量とモード符号量との和、即ちコストを2つの予測モードの間で比較すると、DC予測よりも対角方向予測の方が低いコスト値を示す。従って、この場合には、イントラ予測の予測モードとして、対角方向予測が選択され得る。
 図16Bの上段に示したグラフにおいても、実線は原画像の符号値を表す。但し、図16Aの例ではSDR用の伝達関数が画像に適用されたのに対し、図16Bの例ではHDR用の伝達関数が画像に適用された結果として、本来同程度であったはずの階調の差が、より小さい符号値の差へと圧縮されている。そのため、原画像の符号値の軌跡(実線)と予測画像の符号値の軌跡(破線)とで囲まれた部分の面積、即ち予測誤差(図中の斜線網掛け部分)をDC予測と対角方向予測とで比較すると、それら予測誤差の差は小さくなっている。そして、予測誤差符号量にそれぞれモード符号量(図中のドット網掛け部分)を加算すると、総コストは対角方向予測よりもDC予測の方が低い値を示す。従って、本来の画像は同じであるにも関わらず、この場合には、イントラ予測の予測モードとしてDC予測が選択され得る。
 このように伝達関数の違いがモード選択に影響を与える結果として画像に望ましくないコーデック歪みが生じることを防止するために、本節において、第2の実施形態として、コスト評価式に算入される予測残差符号量及びモード符号量のうちの一方を、伝達関数に基づいて制御する手法を提案する。
  [3-2.システムの概要]
 本実施形態に係る画像処理システムは、第1の実施形態における画像処理システム10a又は10bと同様に構成されてよい。例えばシステム内の撮像装置、サーバ装置若しくは端末装置、又はそれら装置のいずれかに搭載される画像処理モジュールは、光と画像信号との間の変換に関する伝達関数に基づいて取得される画像を符号化する画像処理装置(即ち、エンコーダ)としての機能を有する。本実施形態では、エンコーダが画像を符号化する際に、伝達関数に基づいて、モード選択のための予測残差符号量又はモード符号量が制御される。それにより、HDR用の信号フォーマットが使用される場合の不適切なモードの選択が回避され、画質の劣化が軽減される。次項より、そうした画像処理装置の具体的かつ例示的な構成について詳しく説明する。
  [3-3.画像処理装置の概略的な構成]
 図17Aは、本実施形態に係る画像処理装置の概略的な構成の第1の例を示すブロック図である。図17Aに示した画像処理装置200aは、信号取得部201、情報取得部203、符号化部210及び制御部240を備える。
 信号取得部201は、光と画像信号との間の変換に関する伝達関数に基づいて生成された入力画像信号を取得する。信号取得部201は、伝送インタフェースを介して外部の装置から入力画像信号を取得してもよく、又は画像処理装置200aと一体的に構成される撮像モジュール及び信号処理モジュール(図示せず)から入力画像信号を取得してもよい。
 情報取得部203は、符号化部210により符号化される画像に適用された伝達関数に関する入力情報を取得する。一例として、情報取得部203は、画像処理装置200aが有するユーザインタフェースを介して入力情報を取得してもよい。ユーザインタフェースは、画像処理装置200aの筐体に設けられる例えばタッチパネル、ボタン又はスイッチのような物理的な入力デバイスにより提供されてもよい。その代わりに、ユーザインタフェースは、通信インタフェースを介して遠隔的に接続される端末装置上でGUIとして提供されてもよい。本実施形態において、入力情報は、少なくとも符号化すべき画像に適用された伝達関数の種別を示す伝達関数種別を含む。ユーザインタフェースは、例えば、「SDR」及び「HDR」という2つの選択肢のうち画像に適用すべき1つをユーザに選択させてもよい。この場合、SDR用の予め定義される1つの伝達関数、又はHDR用の予め定義される1つの伝達関数が画像に適用されたものと判定される。また、ユーザインタフェースは、複数の伝達関数の候補から、画像に適用すべき伝達関数をユーザに選択させてもよい。
 他の例として、情報取得部203は、入力画像信号と多重化される補助信号から入力情報を取得してもよい。例えば、補助信号は、信号線上で画像信号が伝送されていない期間において信号取得部201により受信される。そして、情報取得部203は、信号取得部201において分離される補助信号から、画像に適用された伝達関数の種別を示す伝達関数種別を含む入力情報を取得し得る。
 符号化部210は、信号取得部201により取得される画像信号により表現される画像を符号化して、符号化ビットストリームを生成する。符号化部210は、例えばMPEG-2、H.264/AVC又はH.265/HEVCなどのいかなる映像符号化方式に従って符号化処理を実行してもよい。符号化部210により実行される符号化処理は、典型的には、予測、直交変換、量子化及びエントロピー符号化といった様々な処理を含み、それら処理において多様なモード選択が実行される。ここでは主にイントラ予測及びインター予測におけるモード選択について説明するが、本実施形態のアイディアは、例えば変換ブロックサイズの選択、又はスケーラブル符号化のためのインターレイヤ予測の予測モードの選択など、いかなる種類のモード選択のために活用されてもよい。
 制御部240は、情報取得部203により取得される入力情報により示される伝達関数に基づいて、符号化部210において画像を符号化する際のモード選択のための予測残差符号量又はモード符号量を制御する。典型的には、制御部240は、モード選択のためのコスト評価式において予測残差及びモード符号量の一方が他方に対して過小にも過大にも評価されないように、コスト評価式に算入される少なくとも1つの項を伝達関数に基づいて切り替える。なお、ここでは主に伝達関数の種別に基づいてコスト評価が制御される例を説明するが、伝達関数に関連付けられるダイナミックレンジの上限値など、伝達関数の他の属性に基づいてコスト評価が制御されてもよい。
 図17Bは、本実施形態に係る画像処理装置の概略的な構成の第2の例を示すブロック図である。図17Bに示した画像処理装置200bは、信号処理部202、情報取得部204、記憶部207、符号化部210及び制御部240を備える。
 信号処理部202は、何らかの伝送インタフェース若しくは装置内部の信号線を介して撮像装置から入力される原始的な画像信号を取得し、又は記憶部207により記憶されている映像ファイルから画像信号を取得する。そして、信号処理部202は、原始的な画像信号について例えばガンマ補正及び色変換を含み得るデジタル信号処理を実行し、所定の信号フォーマットで符号化の対象とされる画像信号を生成する。信号処理部202により画像に適用される信号フォーマット及び対応する伝達関数は、情報取得部204により取得される入力情報に基づいて決定される。そして、信号処理部202は、生成した画像信号を符号化部210へ出力する。
 情報取得部204は、符号化部210により符号化される画像に適用される伝達関数に関する入力情報を取得する。例えば、情報取得部204は、画像処理装置200bが有するユーザインタフェースを介して入力情報を取得してよい。上述したように、入力情報は、少なくとも符号化すべき画像に適用される伝達関数の種別を示す伝達関数種別を含む。ユーザインタフェースは、例えば、「SDR」及び「HDR」という2つの選択肢のうち画像に適用すべき1つをユーザに選択させてもよい。また、ユーザインタフェースは、複数の伝達関数の候補から、画像に適用すべき伝達関数をユーザに選択させてもよい。
 記憶部207は、様々な映像データを記憶するための記憶デバイスである。記憶部207は、例えば、信号変換前のデジタル画像信号を記録する映像ファイルを記憶してもよい。ユーザは、画像処理装置200bが有する入出力インタフェース(図示せず)を介して、他の記憶媒体に記憶されている映像ファイルを記憶部207に記憶させてもよい。また、記憶部207は、符号化部210により実行される符号化処理の結果として生成される符号化ビットストリームを含む映像ファイルを記憶してもよい。映像ファイルは、リクエストに応じて外部の装置へと出力されてもよい。
 図17Aを用いて説明した第1の例と同様に、符号化部210は、信号処理部202により取得される画像信号により表現される画像を符号化して、符号化ビットストリームを生成する。制御部240は、情報取得部204により取得される入力情報により示される伝達関数の種別に基づいて、符号化部210において画像を符号化する際のモード選択のための予測残差符号量又はモード符号量を制御する。符号化部210により生成される符号化ビットストリームは、画像処理装置200bの外部の装置へと伝送されてもよく、又は記憶部207により映像ファイルとして記憶されてもよい。
  [3-4.符号化部及び制御部の詳細な構成]
 本項では、図17A及び図17Bに示した符号化部210及び制御部240のより具体的な構成について詳しく説明する。図18は、第2の実施形態に係る符号化部及び制御部の詳細な構成の一例を示すブロック図である。
  (1)符号化部
 図18を参照すると、符号化部210は、並び替えバッファ211、ブロック設定部212、減算部213、直交変換部214、量子化部215、可逆符号化部216、逆量子化部221、逆直交変換部222、加算部223、ループフィルタ224、フレームメモリ226、スイッチ227、モード選択部228、イントラ予測部230及びインター予測部235を備える。
 並び替えバッファ211は、入力される画像信号により表現される一連の画像の画像データを、GOP構造に応じて並び替える。並び替えバッファ211は、並び替え後の画像データをブロック設定部212、イントラ予測部230及びインター予測部235へ出力する。
 ブロック設定部212は、ピクチャに相当する画像の各々を複数のブロックへと分割する。MPEG-2及びH.264/AVCでは、ピクチャは固定的なサイズを有する複数のマクロブロックへと格子状に分割される。H.265/HEVCでは、ピクチャは可変的なサイズを有する複数の符号化単位へと四分木状に分割される。これらブロックは、さらに予測処理において1つ以上の予測ブロックへと分割され得る。
 減算部213は、ブロック設定部212から入力される画像データと予測画像データとの差分である予測残差データを算出し、予測残差データを直交変換部214へ出力する。
 直交変換部214は、減算部213から入力される予測残差データを、空間領域の画像データから周波数領域の変換係数データへと変換する。直交変換部214により実行される直交変換は、例えば離散コサイン変換又は離散サイン変換などであってよい。そして、直交変換部214は、変換係数データを量子化部215へ出力する。
 量子化部215は、直交変換部214から入力される変換係数データを、所要の圧縮率が達成されるように決定される量子化ステップで量子化する。そして、量子化部215は、量子化後の変換係数データ(以下、量子化データという)を可逆符号化部216及び逆量子化部221へ出力する。
 可逆符号化部216は、量子化部215から入力される量子化データを符号化することにより、符号化ビットストリームを生成する。また、可逆符号化部216は、デコーダにより参照される様々なパラメータを符号化して、符号化されたパラメータを符号化ビットストリームへ挿入する。可逆符号化部216により符号化されるパラメータは、伝達関数に関する情報、色域に関する情報、イントラ予測に関する情報及びインター予測に関する情報を含み得る。可逆符号化部216は、生成した符号化ビットストリームを、アプリケーションの目的に応じた出力先へと出力する。
 逆量子化部221、逆直交変換部222及び加算部223は、ローカルデコーダを構成する。ローカルデコーダは、符号化されたデータから原画像を再構築する役割を有する。
 逆量子化部221は、量子化部215により使用されたものと同じ量子化ステップで量子化データを逆量子化し、変換係数データを復元する。そして、逆量子化部221は、復元した変換係数データを逆直交変換部222へ出力する。
 逆直交変換部222は、逆量子化部221から入力される変換係数データについて逆直交変換処理を実行することにより、予測残差データを復元する。そして、逆直交変換部222は、復元した予測残差データを加算部223へ出力する。
 加算部223は、逆直交変換部222から入力される復元された予測残差データとイントラ予測部230又はインター予測部235により生成される予測画像データとを加算することにより、復号画像データを生成する。そして、加算部223は、生成した復号画像データをループフィルタ224及びフレームメモリ226へ出力する。
 ループフィルタ224は、復号画像の画質の向上を目的とするインループフィルタである。ループフィルタ224は、例えば、復号画像に現れるブロック歪みを軽減するためのデブロックフィルタを含んでもよい。また、ループフィルタ224は、復号画像にエッジオフセット又はバンドオフセットを加えるための適応オフセットフィルタを含んでもよい。ループフィルタ224は、フィルタリング後の復号画像データをフレームメモリ226へ出力する。
 フレームメモリ226は、加算部223から入力されるフィルタリング前の復号画像データ、及びループフィルタ224から入力されるインループフィルタの適用後の復号画像データを記憶する。
 スイッチ227は、イントラ予測のために使用されるフィルタリング前の復号画像データをフレームメモリ226から読み出し、読み出した復号画像データを参照画像データとしてイントラ予測部230に供給する。また、スイッチ227は、インター予測のために使用されるフィルタリング後の復号画像データをフレームメモリ226から読み出し、読み出した復号画像データを参照画像データとしてインター予測部235に供給する。
 モード選択部228は、イントラ予測部230及びインター予測部235から入力されるコストの比較に基づいて、ブロックごとに予測手法を選択する。モード選択部228は、イントラ予測を選択したブロックについては、イントラ予測部230により生成される予測画像データを減算部213へ出力すると共に、イントラ予測に関する情報を可逆符号化部216へ出力する。また、モード選択部228は、インター予測を選択したブロックについては、インター予測部235により生成される予測画像データを減算部213へ出力すると共に、インター予測に関する情報を可逆符号化部216へ出力する。
 イントラ予測部230は、原画像データ及び復号画像データに基づいて、イントラ予測処理を実行する。例えば、イントラ予測部230は、探索範囲に含まれる複数の候補モードの各々について、発生すると推定されるコストを評価する。コストの評価は、例えば上で説明したコスト評価式(1)又は類似する評価式に従って行われる。典型的には、コスト評価式は、予測残差符号量の項とモード符号量の項とを含む。本実施形態では、これら予測残差符号量の項及びモード符号量の項の少なくとも一方が、後述するコスト制御部241により伝達関数の種別に基づいて制御される。イントラ予測部230は、複数の候補モードにわたるコストの評価結果に基づいて、コストが最小となる予測モードを最良の予測モードとして選択する。また、イントラ予測部230は、選択した最良の予測モードに従って予測画像データを生成する。そして、イントラ予測部230は、最良の予測モード(予測方向及び予測ブロックサイズなど)を示す予測モード情報を含むイントラ予測に関する情報、対応するコスト、及び予測画像データを、モード選択部228へ出力する。
 インター予測部235は、原画像データ及び復号画像データに基づいて、インター予測処理(動き補償)を実行する。例えば、インター予測部235は、探索範囲に含まれる複数の候補モードの各々について、発生すると推定されるコストを評価する。イントラ予測のケースと同様、コストの評価は、典型的に予測残差符号量の項とモード符号量の項とを含むコスト評価式に従って行われる。本実施形態では、これら予測残差符号量の項及びモード符号量の項の少なくとも一方が、後述するコスト制御部241により伝達関数の種別に基づいて制御される。インター予測部235は、複数の候補モードにわたるコストの評価結果に基づいて、コストが最小となる予測モードを最良の予測モードとして選択する。また、インター予測部235は、選択した最良の予測モードに従って予測画像データを生成する。そして、インター予測部235は、最良の予測モード(動きベクトル、参照ピクチャ及び予測ブロックサイズなど)を示す予測モード情報を含むインター予測に関する情報、対応するコスト、及び予測画像データを、モード選択部228へ出力する。
  (2)制御部
 図18を参照すると、制御部240は、コスト制御部241及び設定値記憶部243を備える。コスト制御部241は、符号化される画像に適用される伝達関数の種別を、情報取得部203又は204から入力される入力情報に基づいて判定する。そして、コスト制御部241は、判定した伝達関数の種別に基づいて、符号化部210の1つ以上のセクションにおけるモード選択のためのコストの評価を制御する。より具体的には、コスト制御部241は、例えば、コスト評価式に算入される予測残差符号量及びモード符号量のうちの一方をスケーリングすることにより、コスト評価における予測残差の寄与とモード情報の寄与との間のバランスを調整することができる。コスト評価の際に、複数の候補モードにわたる予測残差符号量の変動に対してモード符号量の変動が大きい場合、モード選択へのモード符号量の寄与が予測残差符号量の寄与と比較して過剰となり、結果的に予測残差符号量の変動を過小評価した状態で最適なモードが決定される。逆に、複数の候補モードにわたる予測残差符号量の変動に対してモード符号量の変動が小さい場合、モード選択へのモード符号量の寄与が予測残差符号量の寄与と比較して過少となり、結果的にモード符号量の変動を過小評価した状態で最適なモードが決定される。そのため、これら符号量の寄与を良好に調整して両者の間のバランスを最適化し、適正なコスト評価を行うことが有益である。
 第1の例として、符号量のスケーリングは、予め定義されるコスト値の複数のセットのうちコスト評価において使用すべきセットを伝達関数の種別に依存して設定することにより行われてもよい。予測残差は予め定義されることができないため、第1の例では、モード符号量(例えば、式(1)におけるRの項)が候補モードごとに定義され得る。画像に第1の伝達関数が適用されている場合にはコスト値の第1のセットが設定され、画像に第2の伝達関数が適用されている場合にはコスト値の第2のセットが設定され得る。典型的には、第1のダイナミックレンジに対応する第1の伝達関数(例えば、HDR用の伝達関数)が画像に適用されている場合に設定されるコスト値のセットは、より狭い第2のダイナミックレンジに対応する第2の伝達関数(SDR用の伝達関数)が画像に適用されている場合に設定されるコスト値のセットと比較して、より小さいモード符号量を定義する。それにより、推定される予測残差の縮小に合わせてモード符号量をも小さくして、良好なバランスで適正なコスト評価を行うことができる。
 第2の例として、符号量のスケーリングは、伝達関数の種別に対応するオフセットの加算(若しくは減算)、又は伝達関数の種別に対応する係数の乗算(又は減算)によって行われてもよい。この場合、オフセット又は係数は、予測残差符号量及びモード符号量のいずれに適用されてもよい。例えば、コスト制御部241は、HDR用の伝達関数が画像に適用されている場合に、予測誤差符号量を増加させ又はモード符号量を減少させてもよい。また、コスト制御部241は、SDR用の伝達関数が画像に適用されている場合に、予測誤差符号量を減少させ又はモード符号量を増加させてもよい。
 図19は、上述した第1の例に係る、伝達関数の種別に基づくモード符号量の切り替えの一例について説明するための説明図である。図19の左上に示したコスト値セットC1は、SDR用の伝達関数が適用されている場合にコスト評価式に算入されるべき、M個の候補モードのそれぞれのモード符号量Ri,SDR(i=0,…,M-1)を含む。コスト値セットC2は、HDR用の伝達関数が適用されている場合にコスト評価式に算入されるべき、M個の候補モードのそれぞれのモード符号量Ri,HDR(i=0,…,M-1)を含む。設定値記憶部243は、予め定義されるこのようなコスト値セットC1及びC2を記憶する。図示したように、i番目の候補モードについて、コスト値セットC2に含まれるモード符号量Ri,HDRは、コスト値セットC1に含まれるモード符号量Ri,SDRよりも小さい。設定値記憶部243は、3つ以上の伝達関数の種別にそれぞれ関連付けられる3つ以上のコスト値セットを記憶してもよい。コスト制御部241は、このように異なる複数の伝達関数にそれぞれ関連付けられる複数のコスト値セットのうちの伝達関数の種別に対応する1つを、モード選択を行う符号化部210の1つ以上のセクションX1~Xnに設定し得る。
 なお、図19の例に限定されず、設定値記憶部243は、予測残差符号量若しくはモード符号量をスケーリングする際に使用されるパラメータ(例えば、オフセット又は係数)を1つ以上の伝達関数に関連付けて予め記憶してもよい。
 上述したように、符号化部210は、イントラ予測を実行するイントラ予測部230を含む。コスト制御部241により制御される予測残差符号量又はモード符号量は、イントラ予測部230により、イントラ予測における複数の候補モードからのモード選択の際に使用されてもよい。また、符号化部210は、インター予測を実行するインター予測部235を含む。コスト制御部241により制御される予測残差符号量又はモード符号量は、インター予測部235により、インター予測における複数の候補モードからのモード選択の際に使用されてもよい。また、符号化部210は、イントラ予測又はインター予測である予測手法の選択を実行するモード選択部228を含む。コスト制御部241により制御される予測残差符号量又はモード符号量は、モード選択部228により、こうした予測手法の選択の際に使用されてもよい。
  [3-5.処理の流れ]
 図20は、本実施形態に係る符号化制御処理の流れの一例を示すフローチャートである。ここで説明する符号化制御処理は、映像を構成する個々の画像について繰り返されてよい。複数の画像にわたって変化しないパラメータを取得し又は設定するための処理ステップは、2回目以降の繰り返しにおいてスキップされてもよい。なお、ここでは、説明の簡明さのために、モード選択の制御に直接的に関連しない処理ステップについての説明は省略される。
 図20を参照すると、まず、信号取得部201又は信号処理部202は、光と画像信号との間の変換に関する伝達関数に基づいて生成された画像信号を取得する(ステップS210)。ここで取得される画像信号は、符号化部210へ出力される。
 次に、情報取得部203又は204は、符号化部210により符号化される画像に適用された伝達関数に関する入力情報を、ユーザインタフェースを介して又は入力画像信号と多重化される補助信号から取得する(ステップS212)。ここで取得される入力情報は、制御部240へ出力される。
 次に、コスト制御部241は、上述した入力情報により示される伝達関数の種別に基づいて、符号化部210におけるモード選択の際に使用すべきパラメータを設定する(ステップS214)。ここで設定されるパラメータは、候補モードごとに予め定義されるモード符号量のセットであってもよく、又は予測残差符号量若しくはモード符号量に適用されるオフセット若しく係数であってもよい。
 その後の処理は、処理対象の画像に設定される複数のブロックのうちの各々について繰り返される。各繰り返しにおける処理対象のブロックを、ここでは注目ブロックという。
 符号化部210のイントラ予測部230は、注目ブロックについて複数の候補モードにわたってコストを評価し、それら候補モードのコスト評価に基づいて最良のイントラ予測モードを選択する(ステップS220)。ここでのコスト評価は、予測残差符号量及びモード符号量を算入するコスト評価式を用いて行われ得る。ある例において、モード符号量は、コスト制御部241により設定されるコスト値のセットから選択される。他の例において、予測残差符号量及びモード符号量の一方は、コスト制御部241により設定されるパラメータを用いてスケーリングされる。
 インター予測部235は、注目ブロックについて複数の候補モードにわたってコストを評価し、それら候補モードのコスト評価に基づいて最良のインター予測モードを選択する(ステップS230)。ここでのコスト評価もまた、予測残差符号量及びモード符号量を算入するコスト評価式を用いて行われ得る。ある例において、モード符号量は、コスト制御部241により設定されるコスト値のセットから選択される。他の例において、予測残差符号量及びモード符号量の一方は、コスト制御部241により設定されるパラメータを用いてスケーリングされる。
 次に、モード選択部228は、注目ブロックについて、イントラ予測及びインター予測のうちより良好な符号化効率を実現する予測手法を選択する(ステップS240)。ここでの予測手法の選択もまた、コスト評価に基づいて行われる。但し、モード選択部228は、イントラ予測部230及びインター予測部235において導出されたコスト評価を再利用してよい。代替的に、モード選択部228は、イントラ予測とインター予測との比較のためのコスト値を再計算してもよい。また、モード選択部228によるコスト値の再計算のために、ステップS220及びステップS230において使用されたものとは異なるコスト値のセットが採用されてもよい。
 ステップS220~ステップS240は、ピクチャ内の全てのブロックについて処理が終了するまで繰り返される(ステップS280)。そして、全てのピクチャについて処理が終了すると、図20に示した符号化制御処理は終了する(ステップS290)。
  [3-6.第2の実施形態のまとめ]
 ここまで、図16A~図20を用いて、本開示に係る技術の第2の実施形態について説明した。上述した実施形態では、光と画像信号との間の変換に関する伝達関数に基づいて取得される画像を符号化する際に、伝達関数に基づいて、画像を符号化する際のモード選択のための予測残差符号量又はモード符号量が制御される。かかる構成によれば、画一的ではなく、どういった伝達関数が画像に適用されるかに依存して異なる評価式でモード選択のためのコスト評価を行うことができる。それにより、不自然な予測モードの偏りが生じることを防止し、予測精度を改善して画像の歪みを軽減することが可能となる。
 また、ある実施例では、第1のダイナミックレンジに対応する第1の伝達関数が画像に適用されている場合に、第1のダイナミックレンジよりも狭い第2のダイナミックレンジに対応する第2の伝達関数が画像に適用されている場合よりもモード符号量が少なくなるように、モード符号量が制御され得る。かかる構成によれば、特定のダイナミックレンジを前提としてチューニングされたコスト評価式を、拡張されたダイナミックレンジのために簡易に再利用することができる。特に、候補モードの数は、映像符号化方式に固有であって変化しない。そのため、候補モードそれぞれのモード符号量を複数セット予め定義しておいて使用すべきセットを伝達関数に基づいて切り替えるという、処理コストの少ない手法を採用することができる。
 他の実施例では、第1のダイナミックレンジに対応する第1の伝達関数が画像に適用されている場合に予測残差符号量又はモード符号量をスケーリングすることにより、モード符号量が制御され得る。かかる構成によれば、第1の伝達関数(例えば、HDR用の伝達関数)が適用されるケースでの画質の劣化を防止する一方で、第1の伝達関数とは異なる第2の伝達関数が適用されるケースにおいて、第2の伝達関数のために最適化された処理(例えば、SDR用の伝達関数について最適化された既存の評価式でのコスト評価)を改変することなく実行することができる。
 一例として、上記第1のダイナミックレンジは、100nitより高い輝度での表示を可能とするためのダイナミックレンジであってよく、上記第2のダイナミックレンジは、100nitの輝度を上限とするダイナミックレンジであってよい。それにより、既存のSDR映像のために設計されたエンコーダを、画質の劣化を防止しつつ例えばHLG、ST2084又はS-Log3といった伝達関数が適用されたHDR映像を符号化するために活用することが可能となる。
 <4.ハードウェア構成例>
 前節までに説明した実施形態は、ソフトウェア、ハードウェア、及びソフトウェアとハードウェアとの組合せのいずれを用いて実現されてもよい。画像処理装置100a、100b、100c、200a又は200bがソフトウェアを使用する場合、ソフトウェアを構成するプログラムは、例えば、装置の内部又は外部に設けられる記憶媒体(非一時的な媒体:non-transitory media)に予め格納される。そして、各プログラムは、例えば、実行時にRAM(Random Access Memory)に読み込まれ、CPU(Central Processing Unit)などのプロセッサにより実行される。
 図21は、上述した実施形態のうちの1つ以上を適用可能な装置のハードウェア構成の一例を示すブロック図である。図21を参照すると、画像処理装置900は、システムバス910、画像処理チップ920及びオフチップメモリ990を備える。画像処理チップ920は、n個(nは1以上)の処理回路930-1、930-2、…、930-n、参照バッファ940、システムバスインタフェース950及びローカルバスインタフェース960を含む。
 システムバス910は、画像処理チップ920と外部モジュール(例えば、中央制御機能、アプリケーション機能、通信インタフェース又はユーザインタフェースなど)との間の通信路を提供する。処理回路930-1、930-2、…、930-nは、システムバスインタフェース950を介してシステムバス910と接続され、及びローカルバスインタフェース960を介してオフチップメモリ990と接続される。処理回路930-1、930-2、…、930-nは、オンチップメモリ(例えば、SRAM)に相当し得る参照バッファ940にもアクセスすることができる。オフチップメモリ990は、例えば、画像処理チップ920により処理される画像データを記憶するフレームメモリであってよい。一例として、処理回路930-1は画像信号の変換のために利用されてもよく、処理回路930-2は画像信号の符号化のために利用されてもよい。なお、これら処理回路は、同一の画像処理チップ920ではなく、別個のチップ上に形成されてもよい。
 <5.応用例>
 本開示に係る技術は、様々な製品へ応用することができる。例えば、本開示に係る技術は、本節で説明されるような手術室システムに適用されてもよい。
 図22は、本開示に係る技術が適用され得る手術室システム5100の全体構成を概略的に示す図である。図22を参照すると、手術室システム5100は、手術室内に設置される装置群が視聴覚コントローラ(AV Controller)5107及び手術室制御装置5109を介して互いに連携可能に接続されることにより構成される。
 手術室には、様々な装置が設置され得る。図22では、一例として、内視鏡下手術のための各種の装置群5101と、手術室の天井に設けられ術者の手元を撮像するシーリングカメラ5187と、手術室の天井に設けられ手術室全体の様子を撮像する術場カメラ5189と、複数の表示装置5103A~5103Dと、レコーダ5105と、患者ベッド5183と、照明5191と、を図示している。
 ここで、これらの装置のうち、装置群5101は、後述する内視鏡手術システム5113に属するものであり、内視鏡や当該内視鏡によって撮像された画像を表示する表示装置等からなる。内視鏡手術システム5113に属する各装置は医療用機器とも呼称される。一方、表示装置5103A~5103D、レコーダ5105、患者ベッド5183及び照明5191は、内視鏡手術システム5113とは別個に、例えば手術室に備え付けられている装置である。これらの内視鏡手術システム5113に属さない各装置は非医療用機器とも呼称される。視聴覚コントローラ5107及び/又は手術室制御装置5109は、これら医療機器及び非医療機器の動作を互いに連携して制御する。
 視聴覚コントローラ5107は、医療機器及び非医療機器における画像表示に関する処理を、統括的に制御する。具体的には、手術室システム5100が備える装置のうち、装置群5101、シーリングカメラ5187及び術場カメラ5189は、手術中に表示すべき情報(以下、表示情報ともいう)を発信する機能を有する装置(以下、発信元の装置とも呼称する)であり得る。また、表示装置5103A~5103Dは、表示情報が出力される装置(以下、出力先の装置とも呼称する)であり得る。また、レコーダ5105は、発信元の装置及び出力先の装置の双方に該当する装置であり得る。視聴覚コントローラ5107は、発信元の装置及び出力先の装置の動作を制御し、発信元の装置から表示情報を取得するとともに、当該表示情報を出力先の装置に送信し、表示又は記録させる機能を有する。なお、表示情報とは、手術中に撮像された各種の画像や、手術に関する各種の情報(例えば、患者の身体情報や、過去の検査結果、術式についての情報等)等である。
 具体的には、視聴覚コントローラ5107には、装置群5101から、表示情報として、内視鏡によって撮像された患者の体腔内の術部の画像についての情報が送信され得る。また、シーリングカメラ5187から、表示情報として、当該シーリングカメラ5187によって撮像された術者の手元の画像についての情報が送信され得る。また、術場カメラ5189から、表示情報として、当該術場カメラ5189によって撮像された手術室全体の様子を示す画像についての情報が送信され得る。なお、手術室システム5100に撮像機能を有する他の装置が存在する場合には、視聴覚コントローラ5107は、表示情報として、当該他の装置からも当該他の装置によって撮像された画像についての情報を取得してもよい。
 あるいは、例えば、レコーダ5105には、過去に撮像されたこれらの画像についての情報が視聴覚コントローラ5107によって記録されている。視聴覚コントローラ5107は、表示情報として、レコーダ5105から当該過去に撮像された画像についての情報を取得することができる。なお、レコーダ5105には、手術に関する各種の情報も事前に記録されていてもよい。
 視聴覚コントローラ5107は、出力先の装置である表示装置5103A~5103Dの少なくともいずれかに、取得した表示情報(すなわち、手術中に撮影された画像や、手術に関する各種の情報)を表示させる。図示する例では、表示装置5103Aは手術室の天井から吊り下げられて設置される表示装置であり、表示装置5103Bは手術室の壁面に設置される表示装置であり、表示装置5103Cは手術室内の机上に設置される表示装置であり、表示装置5103Dは表示機能を有するモバイル機器(例えば、タブレットPC(Personal Computer))である。
 また、図22では図示を省略しているが、手術室システム5100には、手術室の外部の装置が含まれてもよい。手術室の外部の装置は、例えば、病院内外に構築されたネットワークに接続されるサーバや、医療スタッフが用いるPC、病院の会議室に設置されるプロジェクタ等であり得る。このような外部装置が病院外にある場合には、視聴覚コントローラ5107は、遠隔医療のために、テレビ会議システム等を介して、他の病院の表示装置に表示情報を表示させることもできる。
 手術室制御装置5109は、非医療機器における画像表示に関する処理以外の処理を、統括的に制御する。例えば、手術室制御装置5109は、患者ベッド5183、シーリングカメラ5187、術場カメラ5189及び照明5191の駆動を制御する。
 手術室システム5100には、集中操作パネル5111が設けられており、ユーザは、当該集中操作パネル5111を介して、視聴覚コントローラ5107に対して画像表示についての指示を与えたり、手術室制御装置5109に対して非医療機器の動作についての指示を与えることができる。集中操作パネル5111は、表示装置の表示面上にタッチパネルが設けられて構成される。
 図23は、集中操作パネル5111における操作画面の表示例を示す図である。図23では、一例として、手術室システム5100に、出力先の装置として、2つの表示装置が設けられている場合に対応する操作画面を示している。図23を参照すると、操作画面5193には、発信元選択領域5195と、プレビュー領域5197と、コントロール領域5201と、が設けられる。
 発信元選択領域5195には、手術室システム5100に備えられる発信元装置と、当該発信元装置が有する表示情報を表すサムネイル画面と、が紐付けられて表示される。ユーザは、表示装置に表示させたい表示情報を、発信元選択領域5195に表示されているいずれかの発信元装置から選択することができる。
 プレビュー領域5197には、出力先の装置である2つの表示装置(Monitor1、Monitor2)に表示される画面のプレビューが表示される。図示する例では、1つの表示装置において4つの画像がPinP表示されている。当該4つの画像は、発信元選択領域5195において選択された発信元装置から発信された表示情報に対応するものである。4つの画像のうち、1つはメイン画像として比較的大きく表示され、残りの3つはサブ画像として比較的小さく表示される。ユーザは、4つの画像が表示された領域を適宜選択することにより、メイン画像とサブ画像を入れ替えることができる。また、4つの画像が表示される領域の下部には、ステータス表示領域5199が設けられており、当該領域に手術に関するステータス(例えば、手術の経過時間や、患者の身体情報等)が適宜表示され得る。
 コントロール領域5201には、発信元の装置に対して操作を行うためのGUI(Graphical User Interface)部品が表示される発信元操作領域5203と、出力先の装置に対して操作を行うためのGUI部品が表示される出力先操作領域5205と、が設けられる。図示する例では、発信元操作領域5203には、撮像機能を有する発信元の装置におけるカメラに対して各種の操作(パン、チルト及びズーム)を行うためのGUI部品が設けられている。ユーザは、これらのGUI部品を適宜選択することにより、発信元の装置におけるカメラの動作を操作することができる。なお、図示は省略しているが、発信元選択領域5195において選択されている発信元の装置がレコーダである場合(すなわち、プレビュー領域5197において、レコーダに過去に記録された画像が表示されている場合)には、発信元操作領域5203には、当該画像の再生、再生停止、巻き戻し、早送り等の操作を行うためのGUI部品が設けられ得る。
 また、出力先操作領域5205には、出力先の装置である表示装置における表示に対する各種の操作(スワップ、フリップ、色調整、コントラスト調整、2D表示と3D表示の切り替え)を行うためのGUI部品が設けられている。ユーザは、これらのGUI部品を適宜選択することにより、表示装置における表示を操作することができる。
 なお、集中操作パネル5111に表示される操作画面は図示する例に限定されず、ユーザは、集中操作パネル5111を介して、手術室システム5100に備えられる、視聴覚コントローラ5107及び手術室制御装置5109によって制御され得る各装置に対する操作入力が可能であってよい。
 図24は、以上説明した手術室システムが適用された手術の様子の一例を示す図である。シーリングカメラ5187及び術場カメラ5189は、手術室の天井に設けられ、患者ベッド5183上の患者5185の患部に対して処置を行う術者(医者)5181の手元及び手術室全体の様子を撮影可能である。シーリングカメラ5187及び術場カメラ5189には、倍率調整機能、焦点距離調整機能、撮影方向調整機能等が設けられ得る。照明5191は、手術室の天井に設けられ、少なくとも術者5181の手元を照射する。照明5191は、その照射光量、照射光の波長(色)及び光の照射方向等を適宜調整可能であってよい。
 内視鏡手術システム5113、患者ベッド5183、シーリングカメラ5187、術場カメラ5189及び照明5191は、図22に示すように、視聴覚コントローラ5107及び手術室制御装置5109(図24では図示せず)を介して互いに連携可能に接続されている。手術室内には、集中操作パネル5111が設けられており、上述したように、ユーザは、当該集中操作パネル5111を介して、手術室内に存在するこれらの装置を適宜操作することが可能である。
 以下、内視鏡手術システム5113の構成について詳細に説明する。図示するように、内視鏡手術システム5113は、内視鏡5115と、その他の術具5131と、内視鏡5115を支持する支持アーム装置5141と、内視鏡下手術のための各種の装置が搭載されたカート5151と、から構成される。
 内視鏡手術では、腹壁を切って開腹する代わりに、トロッカ5139a~5139dと呼ばれる筒状の開孔器具が腹壁に複数穿刺される。そして、トロッカ5139a~5139dから、内視鏡5115の鏡筒5117や、その他の術具5131が患者5185の体腔内に挿入される。図示する例では、その他の術具5131として、気腹チューブ5133、エネルギー処置具5135及び鉗子5137が、患者5185の体腔内に挿入されている。また、エネルギー処置具5135は、高周波電流や超音波振動により、組織の切開及び剥離、又は血管の封止等を行う処置具である。ただし、図示する術具5131はあくまで一例であり、術具5131としては、例えば攝子、レトラクタ等、一般的に内視鏡下手術において用いられる各種の術具が用いられてよい。
 内視鏡5115によって撮影された患者5185の体腔内の術部の画像が、表示装置5155に表示される。術者5181は、表示装置5155に表示された術部の画像をリアルタイムで見ながら、エネルギー処置具5135や鉗子5137を用いて、例えば患部を切除する等の処置を行う。なお、図示は省略しているが、気腹チューブ5133、エネルギー処置具5135及び鉗子5137は、手術中に、術者5181又は助手等によって支持される。
 (支持アーム装置)
 支持アーム装置5141は、ベース部5143から延伸するアーム部5145を備える。図示する例では、アーム部5145は、関節部5147a、5147b、5147c、及びリンク5149a、5149bから構成されており、アーム制御装置5159からの制御により駆動される。アーム部5145によって内視鏡5115が支持され、その位置及び姿勢が制御される。これにより、内視鏡5115の安定的な位置の固定が実現され得る。
 (内視鏡)
 内視鏡5115は、先端から所定の長さの領域が患者5185の体腔内に挿入される鏡筒5117と、鏡筒5117の基端に接続されるカメラヘッド5119と、から構成される。図示する例では、硬性の鏡筒5117を有するいわゆる硬性鏡として構成される内視鏡5115を図示しているが、内視鏡5115は、軟性の鏡筒5117を有するいわゆる軟性鏡として構成されてもよい。
 鏡筒5117の先端には、対物レンズが嵌め込まれた開口部が設けられている。内視鏡5115には光源装置5157が接続されており、当該光源装置5157によって生成された光が、鏡筒5117の内部に延設されるライトガイドによって当該鏡筒の先端まで導光され、対物レンズを介して患者5185の体腔内の観察対象に向かって照射される。なお、内視鏡5115は、直視鏡であってもよいし、斜視鏡又は側視鏡であってもよい。
 カメラヘッド5119の内部には光学系及び撮像素子が設けられており、観察対象からの反射光(観察光)は当該光学系によって当該撮像素子に集光される。当該撮像素子によって観察光が光電変換され、観察光に対応する電気信号、すなわち観察像に対応する画像信号が生成される。当該画像信号は、RAWデータとしてカメラコントロールユニット(CCU:Camera Control Unit)5153に送信される。なお、カメラヘッド5119には、その光学系を適宜駆動させることにより、倍率及び焦点距離を調整する機能が搭載される。
 なお、例えば立体視(3D表示)等に対応するために、カメラヘッド5119には撮像素子が複数設けられてもよい。この場合、鏡筒5117の内部には、当該複数の撮像素子のそれぞれに観察光を導光するために、リレー光学系が複数系統設けられる。
 (カートに搭載される各種の装置)
 CCU5153は、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)等によって構成され、内視鏡5115及び表示装置5155の動作を統括的に制御する。具体的には、CCU5153は、カメラヘッド5119から受け取った画像信号に対して、例えば現像処理(デモザイク処理)等の、当該画像信号に基づく画像を表示するための各種の画像処理を施す。CCU5153は、当該画像処理を施した画像信号を表示装置5155に提供する。また、CCU5153には、図22に示す視聴覚コントローラ5107が接続される。CCU5153は、画像処理を施した画像信号を視聴覚コントローラ5107にも提供する。また、CCU5153は、カメラヘッド5119に対して制御信号を送信し、その駆動を制御する。当該制御信号には、倍率や焦点距離等、撮像条件に関する情報が含まれ得る。当該撮像条件に関する情報は、入力装置5161を介して入力されてもよいし、上述した集中操作パネル5111を介して入力されてもよい。
 表示装置5155は、CCU5153からの制御により、当該CCU5153によって画像処理が施された画像信号に基づく画像を表示する。内視鏡5115が例えば4K(水平画素数3840×垂直画素数2160)又は8K(水平画素数7680×垂直画素数4320)等の高解像度の撮影に対応したものである場合、及び/又は3D表示に対応したものである場合には、表示装置5155としては、それぞれに対応して、高解像度の表示が可能なもの、及び/又は3D表示可能なものが用いられ得る。4K又は8K等の高解像度の撮影に対応したものである場合、表示装置5155として55インチ以上のサイズのものを用いることで一層の没入感が得られる。また、用途に応じて、解像度、サイズが異なる複数の表示装置5155が設けられてもよい。
 光源装置5157は、例えばLED(light emitting diode)等の光源から構成され、術部を撮影する際の照射光を内視鏡5115に供給する。
 アーム制御装置5159は、例えばCPU等のプロセッサによって構成され、所定のプログラムに従って動作することにより、所定の制御方式に従って支持アーム装置5141のアーム部5145の駆動を制御する。
 入力装置5161は、内視鏡手術システム5113に対する入力インタフェースである。ユーザは、入力装置5161を介して、内視鏡手術システム5113に対して各種の情報の入力や指示入力を行うことができる。例えば、ユーザは、入力装置5161を介して、患者の身体情報や、手術の術式についての情報等、手術に関する各種の情報を入力する。また、例えば、ユーザは、入力装置5161を介して、アーム部5145を駆動させる旨の指示や、内視鏡5115による撮像条件(照射光の種類、倍率及び焦点距離等)を変更する旨の指示、エネルギー処置具5135を駆動させる旨の指示等を入力する。
 入力装置5161の種類は限定されず、入力装置5161は各種の公知の入力装置であってよい。入力装置5161としては、例えば、マウス、キーボード、タッチパネル、スイッチ、フットスイッチ5171及び/又はレバー等が適用され得る。入力装置5161としてタッチパネルが用いられる場合には、当該タッチパネルは表示装置5155の表示面上に設けられてもよい。
 あるいは、入力装置5161は、例えばメガネ型のウェアラブルデバイスやHMD(Head Mounted Display)等の、ユーザによって装着されるデバイスであり、これらのデバイスによって検出されるユーザのジェスチャや視線に応じて各種の入力が行われる。また、入力装置5161は、ユーザの動きを検出可能なカメラを含み、当該カメラによって撮像された映像から検出されるユーザのジェスチャや視線に応じて各種の入力が行われる。更に、入力装置5161は、ユーザの声を収音可能なマイクロフォンを含み、当該マイクロフォンを介して音声によって各種の入力が行われる。このように、入力装置5161が非接触で各種の情報を入力可能に構成されることにより、特に清潔域に属するユーザ(例えば術者5181)が、不潔域に属する機器を非接触で操作することが可能となる。また、ユーザは、所持している術具から手を離すことなく機器を操作することが可能となるため、ユーザの利便性が向上する。
 処置具制御装置5163は、組織の焼灼、切開又は血管の封止等のためのエネルギー処置具5135の駆動を制御する。気腹装置5165は、内視鏡5115による視野の確保及び術者の作業空間の確保の目的で、患者5185の体腔を膨らめるために、気腹チューブ5133を介して当該体腔内にガスを送り込む。レコーダ5167は、手術に関する各種の情報を記録可能な装置である。プリンタ5169は、手術に関する各種の情報を、テキスト、画像又はグラフ等各種の形式で印刷可能な装置である。
 以下、内視鏡手術システム5113において特に特徴的な構成について、更に詳細に説明する。
 (支持アーム装置)
 支持アーム装置5141は、基台であるベース部5143と、ベース部5143から延伸するアーム部5145と、を備える。図示する例では、アーム部5145は、複数の関節部5147a、5147b、5147cと、関節部5147bによって連結される複数のリンク5149a、5149bと、から構成されているが、図24では、簡単のため、アーム部5145の構成を簡略化して図示している。実際には、アーム部5145が所望の自由度を有するように、関節部5147a~5147c及びリンク5149a、5149bの形状、数及び配置、並びに関節部5147a~5147cの回転軸の方向等が適宜設定され得る。例えば、アーム部5145は、好適に、6自由度以上の自由度を有するように構成され得る。これにより、アーム部5145の可動範囲内において内視鏡5115を自由に移動させることが可能になるため、所望の方向から内視鏡5115の鏡筒5117を患者5185の体腔内に挿入することが可能になる。
 関節部5147a~5147cにはアクチュエータが設けられており、関節部5147a~5147cは当該アクチュエータの駆動により所定の回転軸まわりに回転可能に構成されている。当該アクチュエータの駆動がアーム制御装置5159によって制御されることにより、各関節部5147a~5147cの回転角度が制御され、アーム部5145の駆動が制御される。これにより、内視鏡5115の位置及び姿勢の制御が実現され得る。この際、アーム制御装置5159は、力制御又は位置制御等、各種の公知の制御方式によってアーム部5145の駆動を制御することができる。
 例えば、術者5181が、入力装置5161(フットスイッチ5171を含む)を介して適宜操作入力を行うことにより、当該操作入力に応じてアーム制御装置5159によってアーム部5145の駆動が適宜制御され、内視鏡5115の位置及び姿勢が制御されてよい。当該制御により、アーム部5145の先端の内視鏡5115を任意の位置から任意の位置まで移動させた後、その移動後の位置で固定的に支持することができる。なお、アーム部5145は、いわゆるマスタースレイブ方式で操作されてもよい。この場合、アーム部5145は、手術室から離れた場所に設置される入力装置5161を介してユーザによって遠隔操作され得る。
 また、力制御が適用される場合には、アーム制御装置5159は、ユーザからの外力を受け、その外力にならってスムーズにアーム部5145が移動するように、各関節部5147a~5147cのアクチュエータを駆動させる、いわゆるパワーアシスト制御を行ってもよい。これにより、ユーザが直接アーム部5145に触れながらアーム部5145を移動させる際に、比較的軽い力で当該アーム部5145を移動させることができる。従って、より直感的に、より簡易な操作で内視鏡5115を移動させることが可能となり、ユーザの利便性を向上させることができる。
 ここで、一般的に、内視鏡下手術では、スコピストと呼ばれる医師によって内視鏡5115が支持されていた。これに対して、支持アーム装置5141を用いることにより、人手によらずに内視鏡5115の位置をより確実に固定することが可能になるため、術部の画像を安定的に得ることができ、手術を円滑に行うことが可能になる。
 なお、アーム制御装置5159は必ずしもカート5151に設けられなくてもよい。また、アーム制御装置5159は必ずしも1つの装置でなくてもよい。例えば、アーム制御装置5159は、支持アーム装置5141のアーム部5145の各関節部5147a~5147cにそれぞれ設けられてもよく、複数のアーム制御装置5159が互いに協働することにより、アーム部5145の駆動制御が実現されてもよい。
 (光源装置)
 光源装置5157は、内視鏡5115に術部を撮影する際の照射光を供給する。光源装置5157は、例えばLED、レーザ光源又はこれらの組み合わせによって構成される白色光源から構成される。このとき、RGBレーザ光源の組み合わせにより白色光源が構成される場合には、各色(各波長)の出力強度及び出力タイミングを高精度に制御することができるため、光源装置5157において撮像画像のホワイトバランスの調整を行うことができる。また、この場合には、RGBレーザ光源それぞれからのレーザ光を時分割で観察対象に照射し、その照射タイミングに同期してカメラヘッド5119の撮像素子の駆動を制御することにより、RGBそれぞれに対応した画像を時分割で撮像することも可能である。当該方法によれば、当該撮像素子にカラーフィルタを設けなくても、カラー画像を得ることができる。
 また、光源装置5157は、出力する光の強度を所定の時間ごとに変更するようにその駆動が制御されてもよい。その光の強度の変更のタイミングに同期してカメラヘッド5119の撮像素子の駆動を制御して時分割で画像を取得し、その画像を合成することにより、いわゆる黒つぶれ及び白とびのない高ダイナミックレンジの画像を生成することができる。
 また、光源装置5157は、特殊光観察に対応した所定の波長帯域の光を供給可能に構成されてもよい。特殊光観察では、例えば、体組織における光の吸収の波長依存性を利用して、通常の観察時における照射光(すなわち、白色光)に比べて狭帯域の光を照射することにより、粘膜表層の血管等の所定の組織を高コントラストで撮影する、いわゆる狭帯域光観察(Narrow Band Imaging)が行われる。あるいは、特殊光観察では、励起光を照射することにより発生する蛍光により画像を得る蛍光観察が行われてもよい。蛍光観察では、体組織に励起光を照射し当該体組織からの蛍光を観察するもの(自家蛍光観察)、又はインドシアニングリーン(ICG)等の試薬を体組織に局注するとともに当該体組織にその試薬の蛍光波長に対応した励起光を照射し蛍光像を得るもの等が行われ得る。光源装置5157は、このような特殊光観察に対応した狭帯域光及び/又は励起光を供給可能に構成され得る。
 (カメラヘッド及びCCU)
 図25を参照して、内視鏡5115のカメラヘッド5119及びCCU5153の機能についてより詳細に説明する。図25は、図24に示すカメラヘッド5119及びCCU5153の機能構成の一例を示すブロック図である。
 図25を参照すると、カメラヘッド5119は、その機能として、レンズユニット5121と、撮像部5123と、駆動部5125と、通信部5127と、カメラヘッド制御部5129と、を有する。また、CCU5153は、その機能として、通信部5173と、画像処理部5175と、制御部5177と、を有する。カメラヘッド5119とCCU5153とは、伝送ケーブル5179によって双方向に通信可能に接続されている。
 まず、カメラヘッド5119の機能構成について説明する。レンズユニット5121は、鏡筒5117との接続部に設けられる光学系である。鏡筒5117の先端から取り込まれた観察光は、カメラヘッド5119まで導光され、当該レンズユニット5121に入射する。レンズユニット5121は、ズームレンズ及びフォーカスレンズを含む複数のレンズが組み合わされて構成される。レンズユニット5121は、撮像部5123の撮像素子の受光面上に観察光を集光するように、その光学特性が調整されている。また、ズームレンズ及びフォーカスレンズは、撮像画像の倍率及び焦点の調整のため、その光軸上の位置が移動可能に構成される。
 撮像部5123は撮像素子によって構成され、レンズユニット5121の後段に配置される。レンズユニット5121を通過した観察光は、当該撮像素子の受光面に集光され、光電変換によって、観察像に対応した画像信号が生成される。撮像部5123によって生成された画像信号は、通信部5127に提供される。
 撮像部5123を構成する撮像素子としては、例えばCMOS(Complementary Metal Oxide Semiconductor)タイプのイメージセンサであり、Bayer配列を有するカラー撮影可能なものが用いられる。なお、当該撮像素子としては、例えば4K以上の高解像度の画像の撮影に対応可能なものが用いられてもよい。術部の画像が高解像度で得られることにより、術者5181は、当該術部の様子をより詳細に把握することができ、手術をより円滑に進行することが可能となる。
 また、撮像部5123を構成する撮像素子は、3D表示に対応する右目用及び左目用の画像信号をそれぞれ取得するための1対の撮像素子を有するように構成される。3D表示が行われることにより、術者5181は術部における生体組織の奥行きをより正確に把握することが可能になる。なお、撮像部5123が多板式で構成される場合には、各撮像素子に対応して、レンズユニット5121も複数系統設けられる。
 また、撮像部5123は、必ずしもカメラヘッド5119に設けられなくてもよい。例えば、撮像部5123は、鏡筒5117の内部に、対物レンズの直後に設けられてもよい。
 駆動部5125は、アクチュエータによって構成され、カメラヘッド制御部5129からの制御により、レンズユニット5121のズームレンズ及びフォーカスレンズを光軸に沿って所定の距離だけ移動させる。これにより、撮像部5123による撮像画像の倍率及び焦点が適宜調整され得る。
 通信部5127は、CCU5153との間で各種の情報を送受信するための通信装置によって構成される。通信部5127は、撮像部5123から得た画像信号をRAWデータとして伝送ケーブル5179を介してCCU5153に送信する。この際、術部の撮像画像を低レイテンシで表示するために、当該画像信号は光通信によって送信されることが好ましい。手術の際には、術者5181が撮像画像によって患部の状態を観察しながら手術を行うため、より安全で確実な手術のためには、術部の動画像が可能な限りリアルタイムに表示されることが求められるからである。光通信が行われる場合には、通信部5127には、電気信号を光信号に変換する光電変換モジュールが設けられる。画像信号は当該光電変換モジュールによって光信号に変換された後、伝送ケーブル5179を介してCCU5153に送信される。
 また、通信部5127は、CCU5153から、カメラヘッド5119の駆動を制御するための制御信号を受信する。当該制御信号には、例えば、撮像画像のフレームレートを指定する旨の情報、撮像時の露出値を指定する旨の情報、並びに/又は撮像画像の倍率及び焦点を指定する旨の情報等、撮像条件に関する情報が含まれる。通信部5127は、受信した制御信号をカメラヘッド制御部5129に提供する。なお、CCU5153からの制御信号も、光通信によって伝送されてもよい。この場合、通信部5127には、光信号を電気信号に変換する光電変換モジュールが設けられ、制御信号は当該光電変換モジュールによって電気信号に変換された後、カメラヘッド制御部5129に提供される。
 なお、上記のフレームレートや露出値、倍率、焦点等の撮像条件は、取得された画像信号に基づいてCCU5153の制御部5177によって自動的に設定される。つまり、いわゆるAE(Auto Exposure)機能、AF(Auto Focus)機能及びAWB(Auto White Balance)機能が内視鏡5115に搭載される。
 カメラヘッド制御部5129は、通信部5127を介して受信したCCU5153からの制御信号に基づいて、カメラヘッド5119の駆動を制御する。例えば、カメラヘッド制御部5129は、撮像画像のフレームレートを指定する旨の情報及び/又は撮像時の露光を指定する旨の情報に基づいて、撮像部5123の撮像素子の駆動を制御する。また、例えば、カメラヘッド制御部5129は、撮像画像の倍率及び焦点を指定する旨の情報に基づいて、駆動部5125を介してレンズユニット5121のズームレンズ及びフォーカスレンズを適宜移動させる。カメラヘッド制御部5129は、更に、鏡筒5117やカメラヘッド5119を識別するための情報を記憶する機能を備えてもよい。
 なお、レンズユニット5121や撮像部5123等の構成を、気密性及び防水性が高い密閉構造内に配置することで、カメラヘッド5119について、オートクレーブ滅菌処理に対する耐性を持たせることができる。
 次に、CCU5153の機能構成について説明する。通信部5173は、カメラヘッド5119との間で各種の情報を送受信するための通信装置によって構成される。通信部5173は、カメラヘッド5119から、伝送ケーブル5179を介して送信される画像信号を受信する。この際、上記のように、当該画像信号は好適に光通信によって送信され得る。この場合、光通信に対応して、通信部5173には、光信号を電気信号に変換する光電変換モジュールが設けられる。通信部5173は、電気信号に変換した画像信号を画像処理部5175に提供する。
 また、通信部5173は、カメラヘッド5119に対して、カメラヘッド5119の駆動を制御するための制御信号を送信する。当該制御信号も光通信によって送信されてよい。
 画像処理部5175は、カメラヘッド5119から送信されたRAWデータである画像信号に対して各種の画像処理を施す。当該画像処理としては、例えば現像処理、高画質化処理(帯域強調処理、超解像処理、NR(Noise reduction)処理及び/又は手ブレ補正処理等)、並びに/又は拡大処理(電子ズーム処理)等、各種の公知の信号処理が含まれる。また、画像処理部5175は、AE、AF及びAWBを行うための、画像信号に対する検波処理を行う。
 画像処理部5175は、CPUやGPU等のプロセッサによって構成され、当該プロセッサが所定のプログラムに従って動作することにより、上述した画像処理や検波処理が行われ得る。なお、画像処理部5175が複数のGPUによって構成される場合には、画像処理部5175は、画像信号に係る情報を適宜分割し、これら複数のGPUによって並列的に画像処理を行う。
 制御部5177は、内視鏡5115による術部の撮像、及びその撮像画像の表示に関する各種の制御を行う。例えば、制御部5177は、カメラヘッド5119の駆動を制御するための制御信号を生成する。この際、撮像条件がユーザによって入力されている場合には、制御部5177は、当該ユーザによる入力に基づいて制御信号を生成する。あるいは、内視鏡5115にAE機能、AF機能及びAWB機能が搭載されている場合には、制御部5177は、画像処理部5175による検波処理の結果に応じて、最適な露出値、焦点距離及びホワイトバランスを適宜算出し、制御信号を生成する。
 また、制御部5177は、画像処理部5175によって画像処理が施された画像信号に基づいて、術部の画像を表示装置5155に表示させる。この際、制御部5177は、各種の画像認識技術を用いて術部画像内における各種の物体を認識する。例えば、制御部5177は、術部画像に含まれる物体のエッジの形状や色等を検出することにより、鉗子等の術具、特定の生体部位、出血、エネルギー処置具5135使用時のミスト等を認識することができる。制御部5177は、表示装置5155に術部の画像を表示させる際に、その認識結果を用いて、各種の手術支援情報を当該術部の画像に重畳表示させる。手術支援情報が重畳表示され、術者5181に提示されることにより、より安全かつ確実に手術を進めることが可能になる。
 カメラヘッド5119及びCCU5153を接続する伝送ケーブル5179は、電気信号の通信に対応した電気信号ケーブル、光通信に対応した光ファイバ、又はこれらの複合ケーブルである。
 ここで、図示する例では、伝送ケーブル5179を用いて有線で通信が行われていたが、カメラヘッド5119とCCU5153との間の通信は無線で行われてもよい。両者の間の通信が無線で行われる場合には、伝送ケーブル5179を手術室内に敷設する必要がなくなるため、手術室内における医療スタッフの移動が当該伝送ケーブル5179によって妨げられる事態が解消され得る。
 以上、本開示に係る技術が適用され得る手術室システム5100の一例について説明した。なお、ここでは、一例として手術室システム5100が適用される医療用システムが内視鏡手術システム5113である場合について説明したが、手術室システム5100の構成はかかる例に限定されない。例えば、手術室システム5100は、内視鏡手術システム5113に代えて、検査用軟性内視鏡システムや顕微鏡手術システムに適用されてもよい。
 本開示に係る技術は、以上説明した構成のうち、レコーダ5105に好適に適用され得る。一例として、レコーダ5105は、いずれかのカメラ(例えば、シーリングカメラ5187、術場カメラ5189又はカメラヘッド5119)により撮像された画像を符号化する際に、本開示に係る技術に従って、画像の各部分領域に割り当てられる符号量を、光と画像信号との間の変換に関する伝達関数に基づいて制御してもよい。それにより、適用された伝達関数に起因して原信号の階調を表現するための割り当て符号量が不足することを防止し、コーデック歪みを抑制することができる。他の例として、レコーダ5105は、いずれかのカメラにより撮像された画像を符号化する際に、本開示に係る技術に従って、モード選択のための予測残差符号量又はモード符号量を、光と画像信号との間の変換に関する伝達関数に基づいて制御してもよい。それにより、不自然な予測モードの偏りの発生を防止し、画像の歪みを軽減することができる。結果的に、いずれの例においても、画像を用いた診断又は治療の正確性を高めることができる。
 <6.総括>
 本開示に係る技術は、ここまでに詳しく説明した仕組みに従って、多様化しつつある信号表現に必ずしも十分に適応できていない例えばデジタルビデオカメラ、デジタルカムコーダ、ビデオエンコーダ、又はエンコード機能を有する任意の種類の既存の装置に対する改善を提供する。本開示に係る技術によれば、HDR映像を再生する際にダイナミックレンジの拡張に伴って拡大されるコーデック歪みが軽減され、良好な画質でHDR映像を再生することが可能となる。本開示に係る技術は、静止画の符号化へと応用されてもよい。
 本明細書では、説明の簡明さのために、特定の映像符号化方式に固有の専門用語を一部で使用しているが、本開示に係る技術は、そうした用語には限定されず、任意の映像符号化方式に準拠するエンコーダに広く適用可能である。例えば、輝度(luminance/luma)及び色差(chrominance/chroma)との語は、利用される表色系に依存して、明度(brightness)及び彩度(saturation)などの他の語にそれぞれ置き換えられてもよい。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 また、本明細書に記載された効果は、あくまで説明的又は例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果と共に、又は上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏し得る。
 なお、以下のような構成も本開示の技術的範囲に属する。
(1)
 光と画像信号との間の変換に関する伝達関数に基づいて取得される画像を符号化する符号化部と、
 前記伝達関数に基づいて、前記符号化部において前記画像の各部分領域に割り当てられる符号量を制御する制御部と、
 を備える画像処理装置。
(2)
 前記制御部は、第1のダイナミックレンジに対応する第1の伝達関数及び前記第1のダイナミックレンジよりも狭い第2のダイナミックレンジに対応する第2の伝達関数のうちの前記第1の伝達関数が前記画像に適用されている場合に、各部分領域に割り当てられる前記符号量を当該部分領域の輝度成分及び色差成分のうちの少なくとも一方に依存して制御する、前記(1)に記載の画像処理装置。
(3)
 前記制御部は、各部分領域について使用される量子化ステップを、前記輝度成分及び前記色差成分のうちの前記少なくとも一方に依存して調整することにより、各部分領域に割り当てられる前記符号量を制御する、前記(2)に記載の画像処理装置。
(4)
 前記制御部は、前記輝度成分及び前記色差成分のうちの前記少なくとも一方の強さがより強い部分領域により多くの符号量が割り当てられるように、各部分領域について使用される前記量子化ステップをスケーリングする、前記(3)に記載の画像処理装置。
(5)
 前記第1のダイナミックレンジは、100nitより高い輝度での表示を可能とするためのダイナミックレンジである、前記(2)~(4)のいずれか1項に記載の画像処理装置。
(6)
 前記制御部は、前記輝度成分及び前記色差成分のうちの一方のみの強さに応じて、各部分領域の前記量子化ステップをスケーリングする、前記(4)に記載の画像処理装置。
(7)
 前記制御部は、前記画像に適用される前記伝達関数に関する入力情報に基づいて、前記伝達関数の種別を判定し、判定した前記種別に基づいて各部分領域に割り当てられる前記符号量を制御する、前記(1)~(6)のいずれか1項に記載の画像処理装置。
(8)
 前記入力情報は、ユーザインタフェースを介して取得された情報である、前記(7)に記載の画像処理装置。
(9)
 前記入力情報は、前記画像を表現する入力画像信号と多重化される補助信号から取得される、前記(7)に記載の画像処理装置。
(10)
 前記部分領域は、量子化処理の処理単位に相当するブロックである、前記(1)~(9)のいずれか1項に記載の画像処理装置。
(11)
 光と画像信号との間の変換に関する伝達関数に基づいて取得される画像を符号化することと、
 前記伝達関数に基づいて、前記符号化の際に前記画像の各部分領域に割り当てられる符号量を制御することと、
 を含む画像処理方法。
(12)
 画像処理装置のプロセッサを、
 光と画像信号との間の変換に関する伝達関数に基づいて取得される画像を符号化する符号化部と、
 前記伝達関数に基づいて、前記符号化部において前記画像の各部分領域に割り当てられる符号量を制御する制御部と、
 として機能させるためのプログラム。
(13)
 100nitより高い輝度での表示を可能とするための光と画像信号との間の変換に関する伝達関数に基づいて取得される画像を符号化する符号化部と、
 前記符号化部において前記画像の各部分領域に割り当てられる符号量を、当該部分領域の輝度成分及び色差成分のうちの少なくとも一方に依存して制御する制御部と、
 を備える画像処理装置。
(14)
 前記制御部は、各部分領域について使用される量子化ステップを、前記輝度成分及び前記色差成分のうちの前記少なくとも一方に依存して調整することにより、各部分領域に割り当てられる前記符号量を制御する、前記(13)に記載の画像処理装置。
(15)
 前記制御部は、前記輝度成分及び前記色差成分のうちの前記少なくとも一方の強さがより強い部分領域により多くの符号量が割り当てられるように、各部分領域について使用される前記量子化ステップをスケーリングする、前記(14)に記載の画像処理装置。
(16)
 前記制御部は、各部分領域について所要の圧縮率に基づいて決定される前記量子化ステップを、前記輝度成分及び前記色差成分のうちの前記少なくとも一方に依存してスケーリングし、
 前記符号化部は、スケーリングされた前記量子化ステップで各部分領域の変換係数を量子化する、
 前記(15)に記載の画像処理装置。
(17)
 前記制御部は、前記輝度成分及び前記色差成分のうちの一方のみの強さに応じて、各部分領域の前記量子化ステップをスケーリングする、前記(15)又は前記(16)に記載の画像処理装置。
(18)
 前記部分領域は、量子化処理の処理単位に相当するブロックである、前記(13)~(17)のいずれか1項に記載の画像処理装置。
(19)
 100nitより高い輝度での表示を可能とするための光と画像信号との間の変換に関する伝達関数に基づいて取得される画像を符号化することと、
 前記符号化の際に前記画像の各部分領域に割り当てられる符号量を、当該部分領域の輝度成分及び色差成分のうちの少なくとも一方に依存して制御することと、
 を含む画像処理方法。
(20)
 画像処理装置のプロセッサを、
 100nitより高い輝度での表示を可能とするための光と画像信号との間の変換に関する伝達関数に基づいて取得される画像を符号化する符号化部と、
 前記符号化部において前記画像の各部分領域に割り当てられる符号量を、当該部分領域の輝度成分及び色差成分のうちの少なくとも一方に依存して制御する制御部と、
 として機能させるためのプログラム。
 100a,100b,100c 画像処理装置
 101            信号取得部
 102            信号処理部
 103,104        情報取得部
 107            記憶部
 110            符号化部
 115            量子化部
 140,140c       制御部
 200a,200b      画像処理装置
 201            信号取得部
 202            信号処理部
 203,204        情報取得部
 207            記憶部
 210            符号化部
 228            モード選択部
 230            イントラ予測部
 235            インター予測部
 240            制御部

Claims (20)

  1.  光と画像信号との間の変換に関する伝達関数に基づいて取得される画像を符号化する符号化部と、
     前記伝達関数に基づいて、前記符号化部において前記画像の各部分領域に割り当てられる符号量を制御する制御部と、
     を備える画像処理装置。
  2.  前記制御部は、第1のダイナミックレンジに対応する第1の伝達関数及び前記第1のダイナミックレンジよりも狭い第2のダイナミックレンジに対応する第2の伝達関数のうちの前記第1の伝達関数が前記画像に適用されている場合に、各部分領域に割り当てられる前記符号量を当該部分領域の輝度成分及び色差成分のうちの少なくとも一方に依存して制御する、請求項1に記載の画像処理装置。
  3.  前記制御部は、各部分領域について使用される量子化ステップを、前記輝度成分及び前記色差成分のうちの前記少なくとも一方に依存して調整することにより、各部分領域に割り当てられる前記符号量を制御する、請求項2に記載の画像処理装置。
  4.  前記制御部は、前記輝度成分及び前記色差成分のうちの前記少なくとも一方の強さがより強い部分領域により多くの符号量が割り当てられるように、各部分領域について使用される前記量子化ステップをスケーリングする、請求項3に記載の画像処理装置。
  5.  前記第1のダイナミックレンジは、100nitより高い輝度での表示を可能とするためのダイナミックレンジである、請求項2に記載の画像処理装置。
  6.  前記制御部は、前記輝度成分及び前記色差成分のうちの一方のみの強さに応じて、各部分領域の前記量子化ステップをスケーリングする、請求項4に記載の画像処理装置。
  7.  前記制御部は、前記画像に適用される前記伝達関数に関する入力情報に基づいて、前記伝達関数の種別を判定し、判定した前記種別に基づいて各部分領域に割り当てられる前記符号量を制御する、請求項1に記載の画像処理装置。
  8.  前記入力情報は、ユーザインタフェースを介して取得された情報である、請求項7に記載の画像処理装置。
  9.  前記入力情報は、前記画像を表現する入力画像信号と多重化される補助信号から取得された情報である、請求項7に記載の画像処理装置。
  10.  前記部分領域は、量子化処理の処理単位に相当するブロックである、請求項1に記載の画像処理装置。
  11.  光と画像信号との間の変換に関する伝達関数に基づいて取得される画像を符号化することと、
     前記伝達関数に基づいて、前記符号化の際に前記画像の各部分領域に割り当てられる符号量を制御することと、
     を含む画像処理方法。
  12.  画像処理装置のプロセッサを、
     光と画像信号との間の変換に関する伝達関数に基づいて取得される画像を符号化する符号化部と、
     前記伝達関数に基づいて、前記符号化部において前記画像の各部分領域に割り当てられる符号量を制御する制御部と、
     として機能させるためのプログラム。
  13.  100nitより高い輝度での表示を可能とするための光と画像信号との間の変換に関する伝達関数に基づいて取得される画像を符号化する符号化部と、
     前記符号化部において前記画像の各部分領域に割り当てられる符号量を、当該部分領域の輝度成分及び色差成分のうちの少なくとも一方に依存して制御する制御部と、
     を備える画像処理装置。
  14.  前記制御部は、各部分領域について使用される量子化ステップを、前記輝度成分及び前記色差成分のうちの前記少なくとも一方に依存して調整することにより、各部分領域に割り当てられる前記符号量を制御する、請求項13に記載の画像処理装置。
  15.  前記制御部は、前記輝度成分及び前記色差成分のうちの前記少なくとも一方の強さがより強い部分領域により多くの符号量が割り当てられるように、各部分領域について使用される前記量子化ステップをスケーリングする、請求項14に記載の画像処理装置。
  16.  前記制御部は、各部分領域について所要の圧縮率に基づいて決定される前記量子化ステップを、前記輝度成分及び前記色差成分のうちの前記少なくとも一方に依存してスケーリングし、
     前記符号化部は、スケーリングされた前記量子化ステップで各部分領域の変換係数を量子化する、
     請求項15に記載の画像処理装置。
  17.  前記制御部は、前記輝度成分及び前記色差成分のうちの一方のみの強さに応じて、各部分領域の前記量子化ステップをスケーリングする、請求項15に記載の画像処理装置。
  18.  前記部分領域は、量子化処理の処理単位に相当するブロックである、請求項13に記載の画像処理装置。
  19.  100nitより高い輝度での表示を可能とするための光と画像信号との間の変換に関する伝達関数に基づいて取得される画像を符号化することと、
     前記符号化の際に前記画像の各部分領域に割り当てられる符号量を、当該部分領域の輝度成分及び色差成分のうちの少なくとも一方に依存して制御することと、
     を含む画像処理方法。
  20.  画像処理装置のプロセッサを、
     100nitより高い輝度での表示を可能とするための光と画像信号との間の変換に関する伝達関数に基づいて取得される画像を符号化する符号化部と、
     前記符号化部において前記画像の各部分領域に割り当てられる符号量を、当該部分領域の輝度成分及び色差成分のうちの少なくとも一方に依存して制御する制御部と、
     として機能させるためのプログラム。
PCT/JP2017/037597 2016-12-19 2017-10-17 画像処理装置、画像処理方法及びプログラム WO2018116604A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
US16/468,954 US20190349581A1 (en) 2016-12-19 2017-10-17 Image processing device, image processing method, and program
KR1020197016935A KR20190097012A (ko) 2016-12-19 2017-10-17 화상 처리 장치, 화상 처리 방법 및 프로그램
EP17885012.9A EP3557868B1 (en) 2016-12-19 2017-10-17 Image processing device, image processing method, and program
CN201780076637.0A CN110050463A (zh) 2016-12-19 2017-10-17 图像处理设备、图像处理方法和程序
BR112019011922-1A BR112019011922A2 (pt) 2016-12-19 2017-10-17 dispositivo de processamento de imagem, método de processamento de imagem, e programa.

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016245999A JP6822122B2 (ja) 2016-12-19 2016-12-19 画像処理装置、画像処理方法及びプログラム
JP2016-245999 2016-12-19

Publications (1)

Publication Number Publication Date
WO2018116604A1 true WO2018116604A1 (ja) 2018-06-28

Family

ID=62627159

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/037597 WO2018116604A1 (ja) 2016-12-19 2017-10-17 画像処理装置、画像処理方法及びプログラム

Country Status (7)

Country Link
US (1) US20190349581A1 (ja)
EP (1) EP3557868B1 (ja)
JP (1) JP6822122B2 (ja)
KR (1) KR20190097012A (ja)
CN (1) CN110050463A (ja)
BR (1) BR112019011922A2 (ja)
WO (1) WO2018116604A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7024713B2 (ja) * 2016-08-04 2022-02-24 ソニーグループ株式会社 画像処理装置、及び画像処理方法
US10554901B2 (en) 2016-08-09 2020-02-04 Contrast Inc. Real-time HDR video for vehicle control
JP6822121B2 (ja) * 2016-12-19 2021-01-27 ソニー株式会社 画像処理装置、画像処理方法及びプログラム
JP6852411B2 (ja) * 2017-01-19 2021-03-31 ソニー株式会社 映像信号処理装置、映像信号処理方法およびプログラム
US10453221B2 (en) * 2017-04-10 2019-10-22 Intel Corporation Region based processing
US10951888B2 (en) * 2018-06-04 2021-03-16 Contrast, Inc. Compressed high dynamic range video
US11638019B2 (en) 2020-07-29 2023-04-25 Alibaba Group Holding Limited Methods and systems for prediction from multiple cross-components
CN112837788A (zh) * 2021-02-26 2021-05-25 西安万像电子科技有限公司 医学图像传输方法、装置及存储介质
CN113923318B (zh) * 2021-12-16 2022-03-04 成都索贝数码科技股份有限公司 一种实现hd和4k hdr视频信号同传输的方法以及sdi设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011509536A (ja) * 2008-01-04 2011-03-24 シャープ株式会社 レイヤー間(inter−layer)画像予測パラメータを決定するための方法及び装置
JP2014518030A (ja) * 2011-04-28 2014-07-24 コーニンクレッカ フィリップス エヌ ヴェ Hdr画像を符号化及び復号化するための装置及び方法
WO2015130797A1 (en) * 2014-02-25 2015-09-03 Apple Inc. Adaptive transfer function for video encoding and decoding

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6202330B2 (ja) * 2013-10-15 2017-09-27 ソニー株式会社 復号装置および復号方法、並びに符号化装置および符号化方法
US10136133B2 (en) * 2014-11-11 2018-11-20 Dolby Laboratories Licensing Corporation Rate control adaptation for high-dynamic range images
US20160309154A1 (en) * 2015-04-17 2016-10-20 Qualcomm Incorporated Dynamic range adjustment for high dynamic range and wide color gamut video coding
WO2016172361A1 (en) * 2015-04-21 2016-10-27 Vid Scale, Inc. High dynamic range video coding
US20180167615A1 (en) * 2015-06-07 2018-06-14 Sharp Kabushiki Kaisha Systems and methods for optimizing video coding based on a luminance transfer function or video color component values
US10244245B2 (en) * 2015-06-08 2019-03-26 Qualcomm Incorporated Content-adaptive application of fixed transfer function to high dynamic range (HDR) and/or wide color gamut (WCG) video data
JP6822121B2 (ja) * 2016-12-19 2021-01-27 ソニー株式会社 画像処理装置、画像処理方法及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011509536A (ja) * 2008-01-04 2011-03-24 シャープ株式会社 レイヤー間(inter−layer)画像予測パラメータを決定するための方法及び装置
JP2014518030A (ja) * 2011-04-28 2014-07-24 コーニンクレッカ フィリップス エヌ ヴェ Hdr画像を符号化及び復号化するための装置及び方法
WO2015130797A1 (en) * 2014-02-25 2015-09-03 Apple Inc. Adaptive transfer function for video encoding and decoding

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"ARIB STD-B67", 3 July 2015, ASSOCIATION OF RADIO INDUSTRIES AND BUSINESSES, article "ESSENTIAL PARAMETER VALUES FOR THE EXTENDED IMAGE DYNAMIC RANGE TELEVISION (EIDRTV) SYSTEM FOR PROGRAMME PRODUCTION ARIB STANDARD"
"ITU-T Recommendation H.264", November 2007, ITU-T, article "H.264: Advanced video coding for generic audiovisual services"
"ITU-T Recommendation H.265", October 2014, ITU-T, article "H.265: High efficiency video coding"
See also references of EP3557868A4

Also Published As

Publication number Publication date
EP3557868A4 (en) 2019-11-13
EP3557868B1 (en) 2024-01-24
JP6822122B2 (ja) 2021-01-27
US20190349581A1 (en) 2019-11-14
JP2018101866A (ja) 2018-06-28
CN110050463A (zh) 2019-07-23
EP3557868A1 (en) 2019-10-23
KR20190097012A (ko) 2019-08-20
BR112019011922A2 (pt) 2019-10-29

Similar Documents

Publication Publication Date Title
WO2018116605A1 (ja) 画像処理装置、画像処理方法及びプログラム
WO2018116604A1 (ja) 画像処理装置、画像処理方法及びプログラム
WO2018116603A1 (ja) 画像処理装置、画像処理方法及びプログラム
JP6844539B2 (ja) 映像信号処理装置および映像信号処理方法、ならびに表示装置
US10163196B2 (en) Image processing device and imaging system
CN110168605B (zh) 用于动态范围压缩的视频信号处理装置、视频信号处理方法和计算机可读介质
US20170046836A1 (en) Real-time endoscopic image enhancement
WO2018079259A1 (ja) 信号処理装置および方法、並びにプログラム
JP2021531883A (ja) 手術室における分散型画像処理システム
CN109964487B (zh) 管理装置和管理方法
CN107847119B (zh) 医疗信号处理装置、医疗显示装置和医疗观察系统
CN116074538A (zh) 图像编码设备及其控制方法和计算机可读存储介质
WO2010079682A1 (ja) 画像圧縮方法、画像処理装置、画像表示装置及び画像表示システム
US12034935B2 (en) Reception apparatus, reception method, and image processing system
WO2011158562A1 (ja) 多視点画像符号化装置
WO2019003954A1 (ja) 通信システムおよび送信装置
JP2005149227A (ja) 画像処理装置、画像処理方法、プログラム、情報記録媒体及び撮像装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17885012

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 20197016935

Country of ref document: KR

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

REG Reference to national code

Ref country code: BR

Ref legal event code: B01A

Ref document number: 112019011922

Country of ref document: BR

WWE Wipo information: entry into national phase

Ref document number: 2017885012

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 112019011922

Country of ref document: BR

Kind code of ref document: A2

Effective date: 20190612