WO2022153474A1 - 画像処理装置、画像処理方法、およびプログラム - Google Patents

画像処理装置、画像処理方法、およびプログラム Download PDF

Info

Publication number
WO2022153474A1
WO2022153474A1 PCT/JP2021/001176 JP2021001176W WO2022153474A1 WO 2022153474 A1 WO2022153474 A1 WO 2022153474A1 JP 2021001176 W JP2021001176 W JP 2021001176W WO 2022153474 A1 WO2022153474 A1 WO 2022153474A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
camera
image processing
subject
processing device
Prior art date
Application number
PCT/JP2021/001176
Other languages
English (en)
French (fr)
Inventor
弘員 柿沼
翔大 山田
秀信 長田
浩太 日高
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2021/001176 priority Critical patent/WO2022153474A1/ja
Publication of WO2022153474A1 publication Critical patent/WO2022153474A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules

Definitions

  • the present invention relates to an image processing apparatus, an image processing method, and a program.
  • a technique to separate only a specific subject and acquire an image of only the subject by supervised subject extraction processing using deep learning A scene to be extracted as a subject is photographed in advance to create a teacher image, and learning data is composed from a plurality of teacher images. For example, in a predetermined scene such as a theater stage or a live music, when performing subject extraction processing using deep learning for a specific performer, if the target scene is sufficiently learned in advance during rehearsal, More accurate subject extraction processing can be realized.
  • the video used for learning and the video used for inference have the same camera parameters (ISO sensitivity, gain, white balance, etc.) at the time of video shooting. ..
  • the settings are changed by the camera's auto mode or by manual operation, but this causes the pre-shooting video, which is the source data for pre-learning, and the actual shooting. If the brightness and color balance of the entire image are different from those of the current image, there is a problem that the accuracy of subject extraction is lowered.
  • the present invention has been made in view of the above, and in the process of extracting a subject from an image using a network learned by supervised deep learning, a decrease in extraction accuracy, which is a problem when camera parameters change, is reduced.
  • the purpose is to deter.
  • a mask image showing a region of a subject in the image is shown through a deep learning network.
  • An image processing device that outputs a camera image, and inputs the camera image and the set value of the camera when the camera image is taken, through the deep learning network.
  • the present invention in the process of extracting a subject from an image using a network learned by supervised deep learning, it is possible to suppress a decrease in extraction accuracy, which is a problem when camera parameters change.
  • FIG. 1 is a diagram showing an example of the configuration of the image processing device 1 of the present embodiment.
  • FIG. 2 is a diagram showing an example of the configuration of the mask image generation unit.
  • FIG. 3 is a diagram for explaining an example of learning of the image processing device.
  • FIG. 4 is a flowchart showing an example of the flow of subject extraction processing of the image processing apparatus.
  • FIG. 5 is a diagram showing an example of the hardware configuration of the image processing device.
  • the configuration of the image processing device 1 of the present embodiment will be described with reference to FIG.
  • the image processing device 1 shown in FIG. 1 includes an image input unit 11, a mask image generation unit 12, and an image composition unit 13.
  • a camera 3 is connected to the image processing device 1.
  • the image processing device 1 and the camera 3 are connected by, for example, a serial digital interface (SDI).
  • SDI serial digital interface
  • the image input unit 11 inputs the image output by the camera 3 for each frame, and transmits the input frame (hereinafter referred to as a camera image) to the mask image generation unit 12 and the image composition unit 13.
  • the mask image generation unit 12 inputs the camera image and the set value of the camera 3 when the camera 3 takes the camera image into the network learned by deep learning with a teacher to generate a mask image.
  • the mask image is, for example, an image obtained by segmenting the subject.
  • the set values of the camera 3 are, for example, ISO sensitivity, gain, white balance, shutter speed, aperture value, and the like.
  • the mask image generation unit 12 may generate a mask image in which the area of the subject is white and the area other than the subject is black, or is the area of the subject white, the area other than the subject black, and the area of the subject? You may generate a TRIMAP in which an unknown area that is ambiguous or not is grayed out.
  • the mask image may show the area of the subject in a color other than black, white, and gray.
  • the OCR 4 inputs the viewfinder image of the camera 3 to perform character recognition, and inputs the set value of the camera 3 to the mask image generation unit 12.
  • the image processing device 1 may have the function of OCR4 and input a viewfinder image to perform character recognition.
  • the set value obtained from the camera 3 may be input to the mask image generation unit 12 without the OCR 4.
  • the photographer may input the set value of the camera 3 into the mask image generation unit 12.
  • FIG. 2 shows an example of the configuration of the mask image generation unit 12.
  • the mask image generation unit 12 shown in FIG. 2 has various neural networks including an encoder 121, a decoder 122, and fully connected layers 123 and 124.
  • the encoder 121 is composed of a plurality of convolution layers and the like, and extracts features of an input camera image.
  • the fully connected layer 123 has a structure in which a feature obtained by the encoder 121 and an intermediate value obtained by inputting a set value of the camera 3 into the fully connected layer 124 are combined to form an intermediate layer.
  • the decoder 122 is composed of a plurality of deconvolution layers and the like, and generates a mask image from the output of the fully connected layer 123.
  • the network structure of the mask image generation unit 12 may be other than the configuration shown in FIG.
  • the set value of the camera 3 is obtained by recognizing the viewfinder image as characters.
  • the shutter speed, aperture value, white balance, and ISO sensitivity can be obtained from the viewfinder image.
  • the one to be used is input to the mask image generation unit 12.
  • the input value to the intermediate layer changes according to the manual setting change of the camera 3 main body or the setting change by the automatic control mode of the camera 3. For example, when the ISO sensitivity of the camera 3 is set high and noise increases in the camera image, the mask image generation unit 12 makes noise in the camera image by inputting that the ISO sensitivity of the camera 3 is set high to the intermediate layer. It can be expected that the behavior will be based on the premise that there are many.
  • the image synthesizing unit 13 inputs and synthesizes a camera image and a mask image, and outputs a subject image obtained by cutting out only the subject from the camera image.
  • the image processing device 1 may include the learning unit 14 shown in FIG. 3 and learn the deep learning network of the mask image generation unit 12.
  • the scene for learning is photographed with the camera and the setting value of the camera is recorded. If the camera settings fluctuate, record by recording the viewfinder video at the same time as the main video.
  • a teacher frame is selected from the images taken by the camera, and a learning mask image corresponding to the selected teacher frame is created.
  • the learning mask image is, for example, a binary image in which the area of the subject is white and the area other than the subject is black, and is an output image expected from the mask image generation unit 12.
  • the learning mask image may be created manually from the teacher frame or may be created using another method.
  • the teacher frame, the set value of the camera, and the mask image for learning are input to the learning unit 14 as teacher data, and the deep learning network of the mask image generation unit 12 is learned.
  • step S11 the OCR 4 extracts the set value of the camera 3 from the viewfinder image of the camera 3 by character recognition, and the image processing device 1 inputs the set value of the camera 3 whose character has been recognized.
  • step S12 the image processing device 1 inputs an image from the camera 3.
  • the image processing device 1 processes the image input from the camera 3 for each frame.
  • the image processing device 1 captures the set value of the camera 3 in parallel with the image of the camera 3.
  • step S13 the image processing device 1 inputs the camera image and the set values of the camera 3 into the deep learning network to generate a mask image.
  • step S14 the image processing device 1 synthesizes the camera image and the mask image, and generates a subject image obtained by extracting only the subject from the camera image.
  • the image processing device 1 repeats the processes of steps S11 to S14 for each frame and outputs an image in which only the subject is extracted.
  • the image processing device 1 of the present embodiment inputs the image input unit 11 for inputting the camera image from the camera 3 and the camera image and the setting value of the camera when the camera image is taken.
  • a mask image generation unit 12 for obtaining a mask image showing a region of a subject in a camera image through a deep learning network is provided.
  • the setting value of the camera 3 at the time of shooting can be acquired by recognizing characters in the viewfinder image at the time of inference.
  • the image processing device 1 described above includes, for example, a central processing unit (CPU) 901, a memory 902, a storage 903, a communication device 904, an input device 905, and an output device 906, as shown in FIG.
  • CPU central processing unit
  • a general-purpose computer system including the above can be used.
  • the image processing device 1 is realized by the CPU 901 executing a predetermined program loaded on the memory 902.
  • the program can be recorded on a computer-readable recording medium such as a magnetic disk, optical disk, or semiconductor memory, or distributed over a network.

Abstract

カメラで撮影した画像と当該画像を撮影したときのカメラの設定値を入力すると、深層学習のネットワークを通じて、画像において被写体の領域を示したマスク画像を出力する画像処理装置1である。画像処理装置1は、カメラ3からカメラ画像を入力する画像入力部11と、カメラ画像と当該カメラ画像を撮影したときのカメラの設定値を入力して、深層学習のネットワークを通じて、カメラ画像において被写体の領域を示したマスク画像を得るマスク画像生成部12を備える。カメラ3の設定値は、カメラ3のビューファインダー画像を文字認識することによって取得し、深層学習のネットワークの中間層に入力される。

Description

画像処理装置、画像処理方法、およびプログラム
 本発明は、画像処理装置、画像処理方法、およびプログラムに関する。
 深層学習を用いた教師あり被写体抽出処理によって特定の被写体のみを分離して被写体のみの映像を取得する技術が存在する。事前に被写体抽出の対象となるシーンを撮影して教師画像を作成し、複数の教師画像から学習データを構成する。例えば、演劇の舞台または音楽ライブなどのあらかじめ決められたシーンにおいて、特定のパフォーマーに対して深層学習を用いた被写体抽出処理を行う場合、リハーサルにおいて対象のシーンを前もって十分に学習しておけば、より精度の高い被写体抽出処理を実現できる。
O. Ronneberger, P. Fischer, T. Brox, "U-Net: Convolutional Networks for Biomedical Image Segmentation", MICCAI 2015, https://arxiv.org/pdf/1505.04597.pdf V. Vukotic V, et al., "One-Step Time-Dependent Future Video Frame Prediction with a Convolutional Encoder-Decoder Neural Network", ICIAP 2017, https://arxiv.org/pdf/1702.04125.pdf
 抽出処理の精度を保つためには、学習に用いる映像と、推論に用いる映像とで、映像撮影時のカメラのパラメータ(ISO感度、ゲイン、およびホワイトバランスなど)が同一であることが前提となる。
 例えば、屋外で天候や時間により明るさが変化する場合、または舞台で照明が変化する場合は、カメラのパラメータを固定して撮影し続けることができないことがある。撮影環境の変化が生じる場合、カメラのオートモードによる設定変更が行われたり、手動操作による設定変更が行われたりするが、これにより事前学習の元データとなる事前撮影時の映像と、本番撮影時の映像とで映像全体の明るさおよび色のバランスが異なると、被写体抽出の精度が低くなるという問題があった。
 本発明は、上記に鑑みてなされたものであり、教師ありの深層学習により学習したネットワークを用いて映像から被写体抽出する処理において、カメラのパラメータが変化する場合に問題となる抽出精度の低下を抑止することを目的とする。
 本発明の一態様の画像処理装置は、カメラで撮影した画像と当該画像を撮影したときのカメラの設定値とを入力すると、深層学習のネットワークを通じて、前記画像において被写体の領域を示したマスク画像を出力する画像処理装置であって、カメラからカメラ画像を入力する入力部と、前記カメラ画像と当該カメラ画像を撮影したときの前記カメラの設定値とを入力して、前記深層学習のネットワークを通じて、前記カメラ画像において被写体の領域を示したマスク画像を得る生成部とを備える。
 本発明によれば、教師ありの深層学習により学習したネットワークを用いて映像から被写体抽出する処理において、カメラのパラメータが変化する場合に問題となる抽出精度の低下を抑止できる。
図1は、本実施形態の画像処理装置1の構成の一例を示す図である。 図2は、マスク画像生成部の構成の一例を示す図である。 図3は、画像処理装置の学習の一例を説明するための図である。 図4は、画像処理装置の被写体抽出処理の流れの一例を示すフローチャートである。 図5は、画像処理装置のハードウェア構成の一例を示す図である。
 以下、本発明の実施の形態について図面を用いて説明する。
 図1を参照し、本実施形態の画像処理装置1の構成について説明する。図1に示す画像処理装置1は、画像入力部11、マスク画像生成部12、および画像合成部13を備える。画像処理装置1にはカメラ3が接続される。画像処理装置1とカメラ3とは、例えば、シリアルデジタルインタフェース(SDI)で接続される。
 画像入力部11はカメラ3の出力する映像をフレーム毎に入力し、入力したフレーム(以下、カメラ画像と称する)をマスク画像生成部12と画像合成部13へ送信する。
 マスク画像生成部12は、カメラ画像と、カメラ3がカメラ画像を撮影したときのカメラ3の設定値とを、教師ありの深層学習により学習したネットワークに入力してマスク画像を生成する。マスク画像は、例えば被写体についてセグメンテーションを行った画像である。カメラ3の設定値は、例えば、ISO感度、ゲイン、ホワイトバランス、シャッタースピード、および絞り値などである。マスク画像生成部12は、被写体の領域を白、被写体以外の領域を黒としたマスク画像を生成してもよいし、被写体の領域を白、被写体以外の領域を黒、被写体の領域であるか否か曖昧な未知の領域をグレーとしたTRIMAPを生成してもよい。マスク画像は、黒、白、グレー以外の色で被写体の領域を示してもよい。
 OCR4がカメラ3のビューファインダー画像を入力して文字認識を行い、カメラ3の設定値をマスク画像生成部12へ入力する。画像処理装置1がOCR4の機能を備えてビューファインダー画像を入力して文字認識を行ってもよい。カメラ3から直接設定値が得られる場合は、OCR4を備えずに、カメラ3から得られる設定値をマスク画像生成部12へ入力してもよい。あるいは、撮影者がカメラ3の設定値をマスク画像生成部12に入力してもよい。
 図2に、マスク画像生成部12の構成の一例を示す。図2に示すマスク画像生成部12は、エンコーダ121、デコーダ122、および全結合層123,124からなる各種ニューラルネットワークを有する。エンコーダ121は、複数の畳み込み層などによって構成され、入力するカメラ画像の特徴を抽出する。全結合層123は、エンコーダ121で得られた特徴と、カメラ3の設定値を全結合層124に入力して得られた中間値と、を結合したものを中間層とする構造を持つ。デコーダ122は、複数の逆畳み込み層などによって構成され、全結合層123の出力からマスク画像を生成する。マスク画像生成部12の有するネットワーク構造は図2に示した構成以外であってもよい。
 カメラ3の設定値は、ビューファインダー画像を文字認識して得られる。図2の例では、ビューファインダー画像からシャッタースピード、絞り値、ホワイトバランス、およびISO感度が得られる。得られた設定値のうち使用するものをマスク画像生成部12に入力する。カメラ3本体の手動による設定変更あるいはカメラ3の自動制御モードによる設定変更に応じて中間層への入力値が変わる。例えば、カメラ3のISO感度を高く設定し、カメラ画像にノイズが増えた場合、カメラ3のISO感度を高く設定したことを中間層に入力することで、マスク画像生成部12がカメラ画像にノイズが多いことを前提とした振る舞いになることを期待できる。
 画像合成部13は、カメラ画像とマスク画像を入力して合成し、カメラ画像から被写体のみを切り出した被写体画像を出力する。
 次に、図3を参照し、事前学習処理について説明する。画像処理装置1は、図3に示す学習部14を備えてマスク画像生成部12の有する深層学習のネットワークの学習を行ってもよい。
 事前学習時に、カメラで学習用のシーンを撮影するとともに、カメラの設定値を記録する。カメラの設定値が変動する場合は、メインの映像と同時にビューファインダー映像を録画することにより記録する。カメラで撮影した映像から教師フレームを選定し、選定した教師フレームに対応する学習用マスク画像を作成する。学習用マスク画像は、例えば、被写体の領域を白、被写体以外の領域を黒とした2値画像であり、マスク画像生成部12から期待される出力画像である。学習用マスク画像は、教師フレームから手動で作成してもよいし、他の手法を用いて作成してもよい。学習部14に、教師フレーム、カメラの設定値、および学習用マスク画像を教師データとして入力し、マスク画像生成部12の有する深層学習のネットワークの学習を行う。
 カメラの設定値を様々な値に変更した映像から教師データを作成して用意する。これにより、例えば、ISO感度が高いときはノイズが多い映像を前提とした学習が行われ、シャッタースピードが遅いときはブラーが目立つ映像を前提とした学習が行われて、深層学習のネットワークはカメラの設定値を前提に最適化される。その結果、カメラの設定値の変化による精度の低下を抑止する効果が期待できる。
 次に、図4のフローチャートを参照し、画像処理装置1の処理について説明する。
 ステップS11にて、OCR4がカメラ3のビューファインダー画像から文字認識によりカメラ3の設定値を抽出し、画像処理装置1は、文字認識されたカメラ3の設定値を入力する。
 ステップS12にて、画像処理装置1は、カメラ3から映像を入力する。画像処理装置1は、カメラ3から入力する映像をフレームごとに処理する。画像処理装置1は、カメラ3の映像と並列でカメラ3の設定値を取り込む。
 ステップS13にて、画像処理装置1は、カメラ画像とカメラ3の設定値を深層学習のネットワークに入力してマスク画像を生成する。
 ステップS14にて、画像処理装置1は、カメラ画像とマスク画像を合成し、カメラ画像から被写体のみを抽出した被写体画像を生成する。
 画像処理装置1は、フレームごとにステップS11からステップS14の処理を繰り返して被写体のみを抽出した映像を出力する。
 以上説明したように、本実施形態の画像処理装置1は、カメラ3からカメラ画像を入力する画像入力部11と、カメラ画像と当該カメラ画像を撮影したときのカメラの設定値を入力して、深層学習のネットワークを通じて、カメラ画像において被写体の領域を示したマスク画像を得るマスク画像生成部12を備える。これにより、カメラ3の設定値が変更された場合であっても、カメラ3の設定値を考慮したマスク画像の推論が可能になり、カメラ画像から被写体を抽出する精度の低下を抑止できる。
 本実施形態では、推論時にビューファインダー画像を文字認識することで、撮影時のカメラ3の設定値を取得できる。
 上記説明した画像処理装置1には、例えば、図5に示すような、中央演算処理装置(CPU)901と、メモリ902と、ストレージ903と、通信装置904と、入力装置905と、出力装置906とを備える汎用的なコンピュータシステムを用いることができる。このコンピュータシステムにおいて、CPU901がメモリ902上にロードされた所定のプログラムを実行することにより、画像処理装置1が実現される。このプログラムは磁気ディスク、光ディスク、半導体メモリなどのコンピュータ読み取り可能な記録媒体に記録することも、ネットワークを介して配信することもできる。
 1…画像処理装置
 11…画像入力部
 12…マスク画像生成部
 13…画像合成部
 14…学習部
 3…カメラ
 4…OCR

Claims (7)

  1.  カメラで撮影した画像と当該画像を撮影したときのカメラの設定値とを入力すると、深層学習のネットワークを通じて、前記画像において被写体の領域を示したマスク画像を出力する画像処理装置であって、
     カメラからカメラ画像を入力する入力部と、
     前記カメラ画像と当該カメラ画像を撮影したときの前記カメラの設定値とを入力して、前記深層学習のネットワークを通じて、前記カメラ画像において被写体の領域を示したマスク画像を得る生成部とを備える
     画像処理装置。
  2.  請求項1に記載の画像処理装置であって、
     前記カメラ画像を撮影したカメラのビューファインダー画像を文字認識することによって前記カメラの設定値を取得する
     画像処理装置。
  3.  請求項1または2に記載の画像処理装置であって、
     カメラで撮影した学習用画像と、当該学習用画像を撮影したときのカメラの設定値と、当該学習用画像において被写体の領域を示した学習用マスク画像とを教師データとして用いて、前記深層学習のネットワークによって機械学習を行う学習部を備える
     画像処理装置。
  4.  請求項1ないし3のいずれかに記載の画像処理装置であって、
     前記深層学習のネットワークは、画像を入力して特徴を抽出するエンコーダと、カメラの設定値を入力してエンコーダの出力と結合する全結合層と、前記全結合層の出力する特徴からマスク画像を生成するデコーダとを備える
     画像処理装置。
  5.  請求項1ないし4のいずれかに記載の画像処理装置であって、
     前記カメラ画像と前記マスク画像を合成して被写体のみを抽出した被写体画像を生成する合成部を備える
     画像処理装置。
  6.  カメラで撮影した画像と当該画像を撮影したときのカメラの設定値とを入力すると、深層学習のネットワークを通じて、前記画像において被写体の領域を示したマスク画像を出力する画像処理方法であって、
     コンピュータが、
     カメラからカメラ画像を入力し、
     前記カメラ画像と当該カメラ画像を撮影したときの前記カメラの設定値とを入力して、前記深層学習のネットワークを通じて、前記カメラ画像において被写体の領域を示したマスク画像を得る
     画像処理方法。
  7.  請求項1ないし5のいずれかに記載の画像処理装置の各部としてコンピュータを動作させるプログラム。
PCT/JP2021/001176 2021-01-15 2021-01-15 画像処理装置、画像処理方法、およびプログラム WO2022153474A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/001176 WO2022153474A1 (ja) 2021-01-15 2021-01-15 画像処理装置、画像処理方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/001176 WO2022153474A1 (ja) 2021-01-15 2021-01-15 画像処理装置、画像処理方法、およびプログラム

Publications (1)

Publication Number Publication Date
WO2022153474A1 true WO2022153474A1 (ja) 2022-07-21

Family

ID=82448056

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/001176 WO2022153474A1 (ja) 2021-01-15 2021-01-15 画像処理装置、画像処理方法、およびプログラム

Country Status (1)

Country Link
WO (1) WO2022153474A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019016298A (ja) * 2017-07-10 2019-01-31 キヤノン株式会社 画像処理装置、画像処理方法
JP2020021228A (ja) * 2018-07-31 2020-02-06 キヤノン株式会社 情報処理装置、情報処理方法およびプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019016298A (ja) * 2017-07-10 2019-01-31 キヤノン株式会社 画像処理装置、画像処理方法
JP2020021228A (ja) * 2018-07-31 2020-02-06 キヤノン株式会社 情報処理装置、情報処理方法およびプログラム

Similar Documents

Publication Publication Date Title
US10666873B2 (en) Exposure-related intensity transformation
US9681050B2 (en) Scene motion correction in fused image systems
WO2021218765A1 (zh) 图像去噪方法及装置、电子设备以及存储介质
US20210383511A1 (en) Bright Spot Removal Using A Neural Network
US11127117B2 (en) Information processing method, information processing apparatus, and recording medium
CN103327253B (zh) 多重曝光方法和摄像装置
EP3602401A1 (en) Digital image auto exposure adjustment
JP2022501982A (ja) ニューラルネットワークを使用した写真の露出不足補正
CN107465855B (zh) 图像的拍摄方法及装置、无人机
Chen et al. Deep exposure fusion with deghosting via homography estimation and attention learning
CN112085768B (zh) 光流信息预测方法、装置、电子设备和存储介质
CN112651358A (zh) 一种目标检测方法、装置、网络摄像机及存储介质
CN112258380A (zh) 图像处理方法、装置、设备及存储介质
CN116157805A (zh) 利用神经嵌入的相机图像或视频处理流水线
CN110365897B (zh) 图像修正方法和装置、电子设备、计算机可读存储介质
Catley-Chandar et al. Flexhdr: Modeling alignment and exposure uncertainties for flexible hdr imaging
CN115996322A (zh) 数字视频摄影用影像数据管理方法
CN117351216B (zh) 一种基于监督深度学习的图像自适应去噪方法
WO2022153474A1 (ja) 画像処理装置、画像処理方法、およびプログラム
KR20200092492A (ko) 의미 인식 기반의 이미지 보정 방법 및 그를 위한 장치
EP4222688A1 (en) Permutation invariant high dynamic range imaging
US11889175B2 (en) Neural network supported camera image or video processing pipelines
CN111212240B (zh) 图像生成装置、图像生成方法和记录介质
CN113067980A (zh) 图像采集方法、装置、电子设备及存储介质
CN113962844A (zh) 一种图像融合方法、存储介质及终端设备

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21919367

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21919367

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP