WO2023026464A1 - 映像処理装置、映像処理方法、およびプログラム - Google Patents

映像処理装置、映像処理方法、およびプログラム Download PDF

Info

Publication number
WO2023026464A1
WO2023026464A1 PCT/JP2021/031486 JP2021031486W WO2023026464A1 WO 2023026464 A1 WO2023026464 A1 WO 2023026464A1 JP 2021031486 W JP2021031486 W JP 2021031486W WO 2023026464 A1 WO2023026464 A1 WO 2023026464A1
Authority
WO
WIPO (PCT)
Prior art keywords
foreground
video processing
image
pixel
evaluation value
Prior art date
Application number
PCT/JP2021/031486
Other languages
English (en)
French (fr)
Inventor
秀信 長田
弘員 柿沼
翔大 山田
浩太 日高
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2021/031486 priority Critical patent/WO2023026464A1/ja
Priority to JP2023543604A priority patent/JPWO2023026464A1/ja
Publication of WO2023026464A1 publication Critical patent/WO2023026464A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation

Definitions

  • the present invention relates to a video processing device, a video processing method, and a program.
  • Subject extraction processing is processing that extracts only the area of a specific subject from the captured image and outputs the image of only the subject.
  • a method based on background subtraction, machine learning, or deep learning is used to estimate the subject area in the frame image, and each pixel in the subject area is assigned a foreground label.
  • a subject image containing only the subject is extracted by filtering only the assigned pixels.
  • the accuracy of object extraction is rarely 100%, and there are cases where a part where the object does not exist is mistakenly extracted, or a hole in the object appears due to an error in which the foreground label is not assigned even though it is the area of the object. It may be extracted in a state of As a result, there is a problem that the subjective quality of the subject image is degraded.
  • the present invention has been made in view of the above, and it is an object of the present invention to suppress deterioration of subjective quality in subject extraction.
  • a video processing device includes a foreground extracting unit that classifies each pixel of an input image into foreground, background, or unclassifiable; and an output unit for outputting a subject image obtained by extracting pixels classified as foreground from the input image and the evaluation value.
  • a computer classifies each pixel of an input image into foreground, background, or unclassifiable, and for unclassifiable pixels, obtains an error rate based on classification results so far, and performs classification.
  • An evaluation value representing difficulty is calculated, and a subject image obtained by extracting pixels classified as foreground from the input image and the evaluation value are output.
  • deterioration of subjective quality can be suppressed in subject extraction.
  • FIG. 1 is a diagram showing an example of the configuration of a video processing device according to this embodiment.
  • FIG. 2 is a diagram showing an example of a lookup table for determining foreground or background.
  • FIG. 3 is a diagram showing an example of pixels with high evaluation values.
  • FIG. 4 is a diagram showing an example in which effects are superimposed on pixels with high evaluation values.
  • FIG. 5 is a flowchart showing an example of the flow of processing for assigning a foreground label or background label to each pixel.
  • FIG. 6 is a diagram illustrating an example of a hardware configuration of a video processing device;
  • the image processing apparatus 1 of the present embodiment is an apparatus that receives an image, extracts a subject from each frame of the image, generates a subject image, and applies dramatic processing to the subject image to generate an output image.
  • the video processing apparatus 1 is inputted with a video image of a stage.
  • the video processing device 1 extracts a performer from the input video, and generates and outputs a video that has undergone dramatic processing.
  • the output video is transmitted to a remote location and composited with another background.
  • Each part of the video processing device 1 will be described below.
  • the image processing device 1 shown in FIG. 1 is the image processing device 1 shown in FIG.
  • the input unit 11 inputs a video frame by frame and transmits the input frames to the foreground extraction unit 12 .
  • a frame is hereinafter referred to as an input image.
  • the foreground extraction unit 12 determines whether each pixel of the input image is foreground or background. For example, the foreground extraction unit 12 obtains the probability of the foreground or background for each pixel using a lookup table (LUT) created in advance, and assigns a foreground label or a background label according to the obtained probability.
  • LUT lookup table
  • the LUT of FIG. 2 holds the neural network output combinations that discriminate between foreground and background.
  • a background image that does not contain a subject, a sample image that contains a subject, and a correct mask image are used.
  • a combination of pixel values of corresponding pixels at the same position as the pixel of interest in the background image is used as an input feature vector, and the combination is learned to be the foreground region.
  • the combination of the pixel of interest in the sample image and the corresponding pixel in the background image is the background area.
  • a neural network is obtained that identifies whether the combination of the pixel of interest in the input image and the corresponding pixel in the background image is foreground or background. Since the neural network calculation requires a large amount of calculation, the neural network calculation process is implemented in the LUT to speed up the extraction process in real time.
  • the input feature vector is reduced to a small number of gradations by quantization processing in order to reduce the size of the LUT. All neural network output combinations of quantized input feature vectors are retained as a LUT.
  • the foreground extraction unit 12 uses the target pixel of the input image and the corresponding pixels of the background image as input feature vectors, quantizes the input feature vectors, and refers to the LUT to obtain the probability that the target pixel is the foreground.
  • a background image is input in advance to the foreground extraction unit 12 .
  • the foreground extraction unit 12 assigns a foreground label to the pixel of interest if the obtained probability of being the foreground is high, and assigns a background label to the pixel of interest if the probability is low.
  • the foreground extraction unit 12 determines that the pixel of interest cannot be classified. It is transmitted to the error rate evaluation unit 13 as pixels.
  • the foreground extraction unit 12 may derive an alpha mask with values between 0 and 1 for regions containing unclassifiable pixels. Foreground labeled pixels have an alpha value of 1, and background labeled pixels have an alpha value of 0. In the process of generating the subject image in the latter stage, the subject image is extracted by applying an alpha mask to the input image.
  • the process for extracting the foreground region by the foreground extraction unit 12 is not limited to the process using the LUT, and other methods such as background subtraction may be used.
  • the error rate evaluation unit 13 obtains the error rate of unclassifiable pixels and outputs an evaluation value representing the difficulty of classification according to the error rate. For example, the error rate evaluation unit 13 obtains, as the error rate, the number of times the unclassifiable pixels have been determined to be unclassifiable with respect to the total number of frames thus far.
  • the evaluation value may be a value obtained by classifying the error rate into several stages, or may be the error rate itself. A higher score indicates a more difficult foreground or background classification.
  • the error rate storage unit 16 records information necessary for error rate calculation, such as the number of times the pixel is classified as foreground, background, or unclassifiable, for all frames and each pixel.
  • a foreground label, a background label, or an evaluation value is given to each pixel of the input image by the foreground extraction unit 12 and the error rate evaluation unit 13 .
  • the processing unit 14 superimposes an image for effect on the video according to the presentation. Any image can be used as the image.
  • the effect is superimposed on the pixel to which the error rate is assigned by the error rate evaluation unit 13, or is superimposed on a region composed of a plurality of pixels including the pixel.
  • effect images at this time simple geometric patterns such as particles and lines, or fog, rain, confetti, dead leaves, flower petals, snow, points of light, and the like can be used.
  • the processing unit 14 controls the position and time so that the effect is superimposed on pixels with high evaluation values.
  • the error rate varies from frame to frame, the superimposed effect may correspond to each frame, or may continue for a predetermined number of frames.
  • the coordinates can be changed by giving an arbitrary amount of fluctuation from the superimposed state of the superimposed effect.
  • the effect data holding unit 17 holds, as effect data, data in which the effect image is arranged at a pixel position or in an area including pixels having a specified error rate.
  • the effects are not limited to the images described above, and abstract images such as glossy marks, trademarks, or pattern images can be used.
  • FIG. A pixel 100 in FIG. 3 is a pixel with a high evaluation value.
  • the processing unit 14 places an effect 200 at the position of a pixel with a high evaluation value (pixel 100 in FIG. 3).
  • the processing unit 14 disperses and arranges the effects regardless of the evaluation value so that the effects look natural.
  • the processing unit 14 may select pixels on which effects are superimposed in descending order of evaluation values.
  • the processing unit 14 may arrange the fog effect so that a plurality of pixels with high evaluation values are hidden.
  • the processing unit 14 controls the movement of the effect so that pixels with high evaluation values are hidden, changes the moving direction of the falling leaves, or slightly changes the falling speed of the leaves. You may
  • the output unit 15 extracts pixels to which the foreground label is assigned from the input image to generate a subject image, superimposes the effect image generated by the processing unit 14 on the subject image, and generates an output image.
  • the processing unit 14 may extract a subject from the input image to generate a subject image, and arrange an effect on the generated subject image to generate the output image.
  • the video processing apparatus 1 may not include the processing unit 14, and the output unit 15 may output the subject image obtained by extracting the pixels to which the foreground label is assigned from the input image and the evaluation value of each pixel.
  • the output unit 15 may output the subject image obtained by extracting the pixels to which the foreground label is assigned from the input image and the evaluation value of each pixel.
  • a processing device that adds an effect may be provided in the subsequent stage of the video processing device 1, and the effect that the processing device superimposes on the subject image may be arranged according to the evaluation value.
  • the video processing device 1 refers to the LUT and evaluates whether the target pixel is foreground or background. Specifically, the video processing device 1 refers to the LUT and acquires the probability that the pixel of interest is the foreground corresponding to the combination of the pixel of interest and the corresponding pixel in the background image.
  • the video processing device 1 determines whether or not the target pixel is the foreground based on the probability that the target pixel is the foreground obtained at step S11.
  • the video processing device 1 assigns a foreground label to the pixel of interest in step S18.
  • the video processing device 1 determines whether or not the target pixel is the background based on the probability that the target pixel is the foreground obtained at step S11.
  • the video processing device 1 assigns a background label to the pixel of interest in step S17.
  • the video processing device 1 refers to the error rate of the pixel of interest in step S14, and calculates and updates the error rate in step S15.
  • the video processing device 1 assigns an evaluation value corresponding to the error rate to the pixel of interest.
  • the video processing device 1 may obtain the alpha value of the unclassifiable pixels, or assign a foreground label or background label to the unclassifiable pixels.
  • the video processing device 1 When the above process is executed for each pixel of the input image, the video processing device 1 extracts the foreground-labeled pixels from the input image to generate a subject image. When applying dramatic processing to the subject image, the video processing device 1 applies dramatic processing so that pixels with high evaluation values are processed as much as possible.
  • the video processing apparatus 1 of the present embodiment includes the foreground extracting unit 12 that classifies each pixel of an input image into foreground, background, or unclassifiable, and the unclassifiable pixels based on the classification results so far.
  • An error rate evaluation unit 13 that obtains an error rate and calculates an evaluation value representing the difficulty of classification, and a process that arranges an effect that is superimposed on a subject image that is obtained by extracting pixels classified as the foreground from an input image according to the evaluation value.
  • a processing unit 14 and an output unit 15 for outputting an output image in which an effect is superimposed on a subject image are provided.
  • the video processing device 1 described above includes, for example, a central processing unit (CPU) 901, a memory 902, a storage 903, a communication device 904, an input device 905, and an output device 906 as shown in FIG. and a general-purpose computer system can be used.
  • the CPU 901 executes a predetermined program loaded on the memory 902 to realize the video processing apparatus 1 .
  • This program can be recorded on a computer-readable recording medium such as a magnetic disk, optical disk, or semiconductor memory, or distributed via a network.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Processing (AREA)

Abstract

映像処理装置1は、入力画像の各画素を前景、背景または分類不能に分類する前景抽出部12と、分類不能な画素について、これまでの分類結果に基づくエラー率を求めて分類の困難さを表す評価値を算出するエラー率評価部13と、入力画像から前景に分類された画素を抽出した被写体画像に重畳するエフェクトを評価値に応じて配置する加工処理部14と、被写体画像にエフェクトを重畳した出力画像を出力する出力部15を備える。

Description

映像処理装置、映像処理方法、およびプログラム
 本発明は、映像処理装置、映像処理方法、およびプログラムに関する。
 被写体抽出処理は、撮影された映像から特定の被写体の領域のみを抽出し、被写体のみの映像を出力する処理である。被写体の領域の抽出では、背景差分、機械学習、または深層学習による方法を用いてフレーム画像における被写体の領域を推定し、被写体の領域内の各画素に対して前景ラベルを付与し、前景ラベルが付与された画素のみをフィルタすることによって被写体のみを含む被写体画像を抽出している。
Aseem Agarwala, et al.,"Keyframe-Based Tracking for Rotoscoping and Animation", ACM Transactions on Graphics (Proceedings of SIGGRAPH 2004), 2004. Unity5, インターネット〈 URL:https://docs.unity3d.com/ 〉
 被写体の抽出精度が100パーセントとなることは少なく、被写体が存在しない部分が間違って抽出されたり、あるいは被写体の領域であるにも関わらず、前景ラベルが付与されない誤りによって被写体に穴が開いたような状態で抽出されたりすることがある。その結果、被写体画像の主観品質が低下するという問題があった。
 本発明は、上記に鑑みてなされたものであり、被写体抽出において、主観品質の低下を抑制することを目的とする。
 本発明の一態様の映像処理装置は、入力画像の各画素を前景、背景または分類不能に分類する前景抽出部と、分類不能な画素について、これまでの分類結果に基づくエラー率を求めて分類の困難さを表す評価値を算出するエラー率評価部と、前記入力画像から前景に分類された画素を抽出した被写体画像と前記評価値を出力する出力部を備える。
 本発明の一態様の映像処理方法は、コンピュータが、入力画像の各画素を前景、背景または分類不能に分類し、分類不能な画素について、これまでの分類結果に基づくエラー率を求めて分類の困難さを表す評価値を算出し、前記入力画像から前景に分類された画素を抽出した被写体画像と前記評価値を出力する。
 本発明によれば、被写体抽出において、主観品質の低下を抑制できる。
図1は、本実施形態の映像処理装置の構成の一例を示す図である。 図2は、前景または背景を判定するためのルックアップテーブルの一例を示す図である。 図3は、評価値の高い画素の一例を示す図である。 図4は、評価値が高い画素にエフェクトを重畳した一例を示す図である。 図5は、各画素に前景ラベルまたは背景ラベルを付与する処理の流れの一例を示すフローチャートである。 図6は、映像処理装置のハードウェア構成の一例を示す図である。
 以下、本発明の実施の形態について図面を用いて説明する。
 図1を参照し、本実施形態の映像処理装置の構成の一例について説明する。本実施形態の映像処理装置1は、映像を入力し、映像の各フレームから被写体を抽出して被写体画像を生成するとともに、被写体画像に演出的加工を加えて出力画像を生成する装置である。例えば、映像処理装置1に舞台を撮影した映像を入力する。映像処理装置1は入力した映像から演者を抽出するとともに演出的加工を加えた映像を生成して出力する。出力された映像は遠隔地へ伝送され、別の背景と合成される。以下、映像処理装置1の各部について説明する。
 図1に示す映像処理装置1は、入力部11、前景抽出部12、エラー率評価部13、加工処理部14、出力部15、エラー率保持部16、および演出データ保持部17を備える。
 入力部11は、映像をフレームごとに入力し、入力したフレームを前景抽出部12へ送信する。以下、フレームを入力画像と称する。
 前景抽出部12は、入力画像の各画素に対して、前景か背景かを判定する。例えば、前景抽出部12は、各画素について、事前に作成したルックアップテーブル(LUT)を用いて前景または背景の確率を求め、求めた確率に応じて前景ラベルまたは背景ラベルを付与する。
 図2を参照し、LUTの一例について説明する。図2のLUTは、前景と背景とを識別するニューラルネットワークの出力組合せを保持したものである。例えば、ニューラルネットワークの学習処理では、被写体の含まれない背景画像、被写体の含まれるサンプル画像、および正解となるマスク画像を用い、マスク画像の前景に対応するサンプル画像中の注目画素の画素値と、背景画像中の注目画素と同じ位置の対応画素の画素値を組み合わせたものを入力特徴ベクトルとし、その組合せが前景領域であると学習させる。同様に、マスク画像の背景に対応する画素についても、サンプル画像中の注目画素と背景画像中の対応画素の組合せが背景領域であると学習させる。これにより、入力画像の注目画素と背景画像の対応画素の組合せに対して前景であるか背景であるかを識別するニューラルネットワークが得られる。ニューラルネットワーク演算は計算量が多いので、ニューラルネットワーク演算処理をLUTに実装して高速化し、リアルタイムでの抽出処理を可能にする。LUTを作成する際には、LUTのサイズを小さくするために、入力特徴ベクトルを量子化処理によって少ない階調数に削減する。量子化された入力特徴ベクトルの全てのニューラルネットワークの出力組合せをLUTとして保持する。
 LUTを用いる場合、前景抽出部12は、入力画像の注目画素と背景画像の対応画素を入力特徴ベクトルとし、入力特徴ベクトルを量子化し、LUTを参照して、注目画素が前景である確率を求める。前景抽出部12は背景画像を事前に入力しておく。前景抽出部12は、求めた前景である確率が大きければ、注目画素に前景ラベルを付与し、小さければ注目画素に背景ラベルを付与する。
 画素の値によっては、分類不能になる画素が存在する。このような画素は相対的にエラーが発生している画素となる。前景抽出部12は、LUTを参照して求めた確率が所定の範囲内の値である場合、例えば前景である確率と背景である確率が五分五分に近い場合、注目画素を分類不能な画素としてエラー率評価部13へ送信する。
 前景抽出部12は、分類不能な画素を含む領域について0から1までの値を持つアルファマスクを導出してもよい。前景ラベルが付与された画素のアルファ値は1、背景ラベルが付与された画素のアルファ値は0である。後段の被写体画像を生成する処理では、被写体画像は入力画像にアルファマスクを適用して抽出される。
 なお、前景抽出部12が前景領域を抽出する処理はLUTを用いる処理に限らず、背景差分などの他の方法を用いてもよい。
 エラー率評価部13は、分類不能な画素のエラー率を求め、エラー率に応じた分類の困難さを表す評価値を出力する。例えば、エラー率評価部13は、分類不能な画素について、これまでの全フレーム数に対する分類不能と判定された回数をエラー率として求める。評価値は、エラー率をいくつかの段階に分類した値であってもよいし、エラー率そのものであってもよい。評価値が高いほど、前景または背景の分類が困難であることを示す。エラー率保持部16は、全フレーム数ならびに各画素について、前景、背景、または分類不能に分類された回数などのエラー率の計算に必要な情報を記録しておく。
 前景抽出部12とエラー率評価部13により、入力画像の各画素に、前景ラベル、背景ラベル、または評価値が付与される。
 加工処理部14は、演出に応じて、映像にエフェクトのための画像を重畳する。画像は任意の画像を使うことができる。エフェクトは、エラー率評価部13によってエラー率が付与された画素の上に重ねるか、あるいは当該画素を含む複数の画素からなる領域に重畳する。このときのエフェクト画像として、パーティクル、ライン等をはじめとする単純な幾何学パタン、あるいは、霧、雨、紙吹雪、枯葉、花びら、雪、光の点などを使うことができる。加工処理部14は、評価値が高い画素にエフェクトが重畳されるように位置および時間を制御する。エラー率はフレーム毎に変化するが、重畳するエフェクトはフレーム毎に対応させてもよいし、あらかじめ与えた一定のフレーム数継続させることができる。また、重畳したエフェクトを重畳した状態から任意の量ゆらぎを与えて座標を変化させることができる。演出データ保持部17は、上記で述べたエフェクト画像をもとに、指定のエラー率となる画素位置または画素を含む領域に前記エフェクト画像を配置したデータを演出データとして保持する。なお、エフェクトは、前述の画像に限定されることなく、光沢を有するマーク、商標、あるいはパタン画像等をはじめとする抽象的な画像を用いることができる。
 ここで、図3および図4を参照し、加工処理部14がエフェクトを重畳する一例を説明する。図3の画素100は、評価値が高い画素である。図4に示すように、加工処理部14は、評価値が高い画素(図3の画素100)の位置に、エフェクト200を配置する。また、加工処理部14は、エフェクトが自然に見えるように、評価値に関係なく、エフェクトを分散させて配置する。加工処理部14は、評価値の高い順に、エフェクトを重畳させる画素を選択してもよい。
 霧のエフェクトなど、隠れる領域が広いエフェクトの場合、加工処理部14は、評価値が高い複数の画素が隠れるように霧のエフェクトを配置してもよい。
 落葉など、動きが遅いエフェクトの場合、加工処理部14は、評価値が高い画素が隠れるようにエフェクトの動きを制御し、落葉の動く方向を変化させたり、落葉の落下速度を少し変化させたりしてもよい。
 出力部15は、入力画像から前景ラベルの付与された画素を抽出して被写体画像を生成し、加工処理部14の生成したエフェクト画像を被写体画像に重畳して、出力画像を生成する。なお、加工処理部14が入力画像から被写体を抽出して被写体画像を生成し、生成した被写体画像上にエフェクトを配置して出力画像を生成してもよい。
 なお、映像処理装置1は、加工処理部14を備えずに、出力部15は、入力画像から前景ラベルの付与された画素を抽出した被写体画像と、各画素の評価値を出力してもよい。この場合、映像処理装置1の後段にエフェクトを追加する加工処理装置を備えて、加工処理装置が被写体画像に重畳するエフェクトを評価値に応じて配置してもよい。
 次に、図5のフローチャートを参照し、入力画像の各画素に前景ラベルまたは背景ラベルを付与する処理について説明する。図5のフローチャートに示す処理は、入力画像の各画素について実行される。
 ステップS11にて、映像処理装置1は、LUTを参照し、注目画素が前景であるか、背景であるかを評価する。具体的には、映像処理装置1は、LUTを参照し、注目画素と背景画像中の対応画素との組み合わせに対応する前景である確率を取得する。
 ステップS12にて、映像処理装置1は、ステップS11で求めた注目画素が前景である確率に基づき、注目画素が前景であるか否か判定する。
 注目画素が前景である場合、ステップS18にて、映像処理装置1は、注目画素に前景ラベルを付与する。
 ステップS13にて、映像処理装置1は、ステップS11で求めた注目画素が前景である確率に基づき、注目画素が背景であるか否か判定する。
 注目画素が背景である場合、ステップS17にて、映像処理装置1は、注目画素に背景ラベルを付与する。
 注目画素が前景または背景に分類されない場合、映像処理装置1は、ステップS14にて、注目画素のエラー率を参照し、ステップS15にて、エラー率を算出して更新する。
 ステップS16にて、映像処理装置1は、エラー率に応じた評価値を注目画素に付与する。また、映像処理装置1は、分類不能な画素のアルファ値を求めたり、分類不能な画素に前景ラベルまたは背景ラベルを付与したりしてもよい。
 以上の処理が入力画像の各画素について実行されると、映像処理装置1は、入力画像から前景ラベルの付与された画素を抽出して被写体画像を生成する。被写体画像に演出的加工を加える場合、映像処理装置1は、なるべく評価値の高い画素が加工されるように、演出的加工を加える。
 以上説明したように、本実施形態の映像処理装置1は、入力画像の各画素を前景、背景または分類不能に分類する前景抽出部12と、分類不能な画素について、これまでの分類結果に基づくエラー率を求めて分類の困難さを表す評価値を算出するエラー率評価部13と、入力画像から前景に分類された画素を抽出した被写体画像に重畳するエフェクトを評価値に応じて配置する加工処理部14と、被写体画像にエフェクトを重畳した出力画像を出力する出力部15を備える。これにより、前景抽出部12による被写体抽出結果が誤っていた場合でも、評価値が高く、被写体抽出が誤りそうな画素に演出的加工が重畳されるので、主観品質の低下を抑制することができる。
 上記説明した映像処理装置1には、例えば、図6に示すような、中央演算処理装置(CPU)901と、メモリ902と、ストレージ903と、通信装置904と、入力装置905と、出力装置906とを備える汎用的なコンピュータシステムを用いることができる。このコンピュータシステムにおいて、CPU901がメモリ902上にロードされた所定のプログラムを実行することにより、映像処理装置1が実現される。このプログラムは磁気ディスク、光ディスク、半導体メモリなどのコンピュータ読み取り可能な記録媒体に記録することも、ネットワークを介して配信することもできる。
 1 映像処理装置
 11 入力部
 12 前景抽出部
 13 エラー率評価部
 14 加工処理部
 15 出力部
 16 エラー率保持部
 17 演出データ保持部

Claims (5)

  1.  入力画像の各画素を前景、背景または分類不能に分類する前景抽出部と、
     分類不能な画素について、これまでの分類結果に基づくエラー率を求めて分類の困難さを表す評価値を算出するエラー率評価部と、
     前記入力画像から前景に分類された画素を抽出した被写体画像と前記評価値を出力する出力部を備える
     映像処理装置。
  2.  請求項1に記載の映像処理装置であって、
     前記被写体画像に重畳するエフェクトを前記評価値に応じて配置する加工処理部を備え、
     前記出力部は、前記被写体画像に前記エフェクトを重畳した出力画像を出力する
     映像処理装置。
  3.  コンピュータが、
     入力画像の各画素を前景、背景または分類不能に分類し、
     分類不能な画素について、これまでの分類結果に基づくエラー率を求めて分類の困難さを表す評価値を算出し、
     前記入力画像から前景に分類された画素を抽出した被写体画像と前記評価値を出力する
     映像処理方法。
  4.  請求項3に記載の映像処理方法であって、
     前記コンピュータが、
     前記被写体画像に重畳するエフェクトを前記評価値に応じて配置し、
     前記被写体画像に前記エフェクトを重畳した出力画像を出力する
     映像処理方法。
  5.  請求項1または2に記載の映像処理装置の各部としてコンピュータを動作させるプログラム。
PCT/JP2021/031486 2021-08-27 2021-08-27 映像処理装置、映像処理方法、およびプログラム WO2023026464A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2021/031486 WO2023026464A1 (ja) 2021-08-27 2021-08-27 映像処理装置、映像処理方法、およびプログラム
JP2023543604A JPWO2023026464A1 (ja) 2021-08-27 2021-08-27

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/031486 WO2023026464A1 (ja) 2021-08-27 2021-08-27 映像処理装置、映像処理方法、およびプログラム

Publications (1)

Publication Number Publication Date
WO2023026464A1 true WO2023026464A1 (ja) 2023-03-02

Family

ID=85322562

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/031486 WO2023026464A1 (ja) 2021-08-27 2021-08-27 映像処理装置、映像処理方法、およびプログラム

Country Status (2)

Country Link
JP (1) JPWO2023026464A1 (ja)
WO (1) WO2023026464A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009080660A (ja) * 2007-09-26 2009-04-16 Rakuten Inc 物体領域抽出処理プログラム、物体領域抽出装置、および物体領域抽出方法
JP2018129029A (ja) * 2017-02-08 2018-08-16 日本電信電話株式会社 画像処理装置、画像処理方法、および画像処理プログラム
WO2019225692A1 (ja) * 2018-05-24 2019-11-28 日本電信電話株式会社 映像処理装置、映像処理方法、および映像処理プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009080660A (ja) * 2007-09-26 2009-04-16 Rakuten Inc 物体領域抽出処理プログラム、物体領域抽出装置、および物体領域抽出方法
JP2018129029A (ja) * 2017-02-08 2018-08-16 日本電信電話株式会社 画像処理装置、画像処理方法、および画像処理プログラム
WO2019225692A1 (ja) * 2018-05-24 2019-11-28 日本電信電話株式会社 映像処理装置、映像処理方法、および映像処理プログラム

Also Published As

Publication number Publication date
JPWO2023026464A1 (ja) 2023-03-02

Similar Documents

Publication Publication Date Title
CN109145784B (zh) 用于处理视频的方法和装置
CN112492388B (zh) 视频处理方法、装置、设备以及存储介质
US10614347B2 (en) Identifying parameter image adjustments using image variation and sequential processing
CN106462744A (zh) 基于规则的视频重要性分析
JP2006209755A (ja) シーンから取得されたフレームシーケンス中の移動オブジェクトを追跡する方法
US10706512B2 (en) Preserving color in image brightness adjustment for exposure fusion
CN111832745A (zh) 数据增广的方法、装置及电子设备
KR100390866B1 (ko) 컬러 영상 처리 방법 및 그 장치
KR101606760B1 (ko) 영상 내 객체 기반 영상 감정 변환 장치 및 그 방법
US20230021533A1 (en) Method and apparatus for generating video with 3d effect, method and apparatus for playing video with 3d effect, and device
CN110505498A (zh) 视频的处理、播放方法、装置及计算机可读介质
CN111724302A (zh) 利用机器学习的纵横比转换
CN111079864A (zh) 一种基于优化视频关键帧提取的短视频分类方法及系统
WO2023026464A1 (ja) 映像処理装置、映像処理方法、およびプログラム
KR20130001635A (ko) 깊이 맵 생성 방법 및 장치
CN110689066B (zh) 一种人脸识别数据均衡与增强相结合的训练方法
JP2013195725A (ja) 画像表示システム
JP2014229092A (ja) 画像処理装置、画像処理方法、および、そのプログラム
KR20230162010A (ko) 이미지들 및 비디오로부터 반사 특징들을 제거하기 위한 실시간 기계 학습-기반 프라이버시 필터
US11475544B2 (en) Automated braces removal from images
JP4394920B2 (ja) 映像分類表示方法及びそのシステム並びにプログラム
CN113763445A (zh) 静态图像获取方法、系统和电子设备
JP2017143339A (ja) 画像合成装置、画像合成装置の動作方法およびコンピュータプログラム
WO2022185403A1 (ja) 画像処理装置、画像処理方法、およびプログラム
US20230169708A1 (en) Image and video matting

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21955074

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023543604

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE