WO2022153476A1 - 映像処理装置、映像処理方法、及び、映像処理プログラム - Google Patents

映像処理装置、映像処理方法、及び、映像処理プログラム Download PDF

Info

Publication number
WO2022153476A1
WO2022153476A1 PCT/JP2021/001198 JP2021001198W WO2022153476A1 WO 2022153476 A1 WO2022153476 A1 WO 2022153476A1 JP 2021001198 W JP2021001198 W JP 2021001198W WO 2022153476 A1 WO2022153476 A1 WO 2022153476A1
Authority
WO
WIPO (PCT)
Prior art keywords
foreground
background
image
video processing
unit
Prior art date
Application number
PCT/JP2021/001198
Other languages
English (en)
French (fr)
Inventor
弘員 柿沼
翔大 山田
秀信 長田
浩太 日高
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2021/001198 priority Critical patent/WO2022153476A1/ja
Priority to US18/271,903 priority patent/US20240119600A1/en
Priority to JP2022574983A priority patent/JPWO2022153476A1/ja
Publication of WO2022153476A1 publication Critical patent/WO2022153476A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/174Segmentation; Edge detection involving the use of two or more images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/765Interface circuits between an apparatus for recording and another apparatus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image

Definitions

  • the present invention relates to a video processing apparatus, a video processing method, and a video processing program.
  • a technique for extracting a subject from an image is known (see Patent Document 1).
  • the subject is extracted by classifying each pixel of the input video into a foreground or a background, assigning a foreground label or a background label, and extracting only the pixels to which the foreground label is attached.
  • the video processing device compares each pixel value of the input video with a predetermined color model to calculate the probability or score of the foreground or background, and compares the magnitude of the probability or score with the predetermined threshold value.
  • the process of assigning a foreground label or a background label to all the pixels is executed based on the comparison result.
  • the input video is a collection of a series of still images (hereinafter referred to as input images) that are continuously input, and the comparison process is executed for each input image. Therefore, depending on the pixel value and the threshold value used at the time of labeling.
  • the label type of the input image may change for each time, such as a pixel having a foreground label attached to the input image at a predetermined time and a background label being added to the input image at the next time. At this time, the image obtained by extracting only the pixels to which the foreground label is attached becomes the subject extraction image, but when the viewer observes the subject extraction video obtained by connecting a plurality of subject extraction images, the label type for the pixels is used. There is a problem that changes (switching between the foreground and the background in the subject) appear as flickering and the subjective quality deteriorates.
  • the present invention has been made in view of the above circumstances, and an object of the present invention is to provide a technique capable of improving flicker in an image.
  • the determination unit for determining whether the pixel of the input image is the foreground or the background and the target pixel whose foreground and background are switched are switched in the foreground or in the background from the time change of the pixel value.
  • a lookup table that can determine whether or not, it is determined whether or not the switching between the foreground and the background is a color change in the foreground or the background, and the switching between the foreground and the background is in the foreground or the background.
  • the correction unit for correcting the determination result of the foreground or the background performed on the target pixel is provided.
  • One aspect of the video processing method of the present invention is a step of determining whether the pixel of the input image is the foreground or the background, and whether the target pixel whose foreground and background are switched is switched in the foreground or in the background from the time change of the pixel value.
  • a lookup table that can determine whether or not, it is determined whether or not the switching between the foreground and the background is a color change in the foreground or the background, and the switching between the foreground and the background is in the foreground or the background.
  • a step of correcting the determination result of the foreground or the background performed on the target pixel is performed.
  • One aspect of the present invention is a video processing program that causes a computer to function as the video processing device.
  • FIG. 1 is a block diagram showing a basic configuration of a video processing device.
  • FIG. 2 is a flow chart showing the basic operation of the video processing device.
  • FIG. 3 is a block diagram showing a specific configuration of the video processing device.
  • FIG. 4 is an image diagram showing the learning process of the estimated NN.
  • FIG. 5 is an image diagram showing the learning process of the correction NN.
  • FIG. 6 is a flow chart showing an operation example of the video processing device.
  • FIG. 7 is a flow chart showing an operation example of the video processing device.
  • FIG. 8 is a block diagram showing a hardware configuration of the video processing device.
  • the present invention determines whether or not the flicker appears in the same region (in the foreground or in the background) with respect to the pixel in which the flicker appears due to the time change, and if it appears in the same region, the present invention determines whether or not the flicker appears in the same region. Correct the given label type. Specifically, in addition to the reference of the LUT (look-up table) for determining whether the foreground or the background is described in Patent Document 1, it is determined whether or not there is flicker in the foreground or the background from the time change of the pixel value. This is achieved by referring to the LUT to be used. However, the LUT of Patent Document 1 is only one means for discriminating between the foreground and the background, and in the present invention, any foreground background discriminating means such as an existing background subtraction method can be used.
  • FIG. 1 is a block diagram showing a basic configuration of the video processing apparatus 1 according to the present embodiment.
  • the video processing device 1 includes an image input unit 101, a foreground region estimation unit 103, a blinking correction unit 153, and an image output unit 105.
  • the image input unit 101, the foreground area estimation unit 103, and the image output unit 105 have the same functions as those described in Patent Document 1.
  • the image input unit 101 has a function of acquiring a still image constituting the input video as an input image from the input video input to the video processing device 1.
  • the image input unit 101 has a function of acquiring a background image for a background created in advance by the user.
  • the foreground region estimation unit (determination unit) 103 can determine whether the input image and the background image are foreground or background for a combination of paired pixels at the same coordinates (hereinafter, estimated LUT). ), And has a function to determine whether the pixel of the input image is the foreground or the background.
  • the blinking correction unit (correction unit) 153 performs pixels for the combination of each pixel paired at the same coordinates of the input image one frame before and the input image of the current frame only for the target pixel whose foreground and background are switched.
  • a LUT hereinafter referred to as a correction LUT
  • the switching between the foreground and the background can be performed. It is determined whether the color change is in the foreground or the background, or the color change is such that the foreground and the background are switched. It has a function to correct the judgment result of foreground or background.
  • the image output unit 105 has a function of using only the pixels determined to be the foreground as the subject extraction image and outputting the image obtained by connecting a plurality of subject extraction images to the display as the subject extraction image.
  • FIG. 2 is a flow chart showing the basic operation of the video processing device 1.
  • Step S1 First, the image input unit 101 acquires an input image from the input image input to the image processing device 1, and acquires a separately created background image.
  • the foreground region estimation unit 103 refers to the estimated LUT for the combination of the paired pixels of the input image and the background image at the same coordinates, and determines whether each pixel of the input image is the foreground or the background from the estimated LUT. Is determined, and a foreground label or a background label is assigned to each pixel based on the determination result.
  • Step S3 the blink correction unit 153 acquires the input image of the current frame, and acquires the label type assigned to each pixel of the input image of the current frame. That is, the blinking correction unit 153 acquires the input image acquired by the image input unit 101 in step S1, and acquires the label type assigned by the foreground area estimation unit 103 in step S2.
  • Step S4 Next, the blinking correction unit 153 acquires the input image one frame before, and acquires the label type assigned to each pixel of the input image one frame before.
  • Step S5 the blinking correction unit 153 determines whether or not the label type has been switched for each pixel paired at the same coordinates of the input image one frame before and the input image of the current frame. Then, the blink correction unit 153 performs a correction LUT for the combination of each pixel paired at the same coordinates of the input image one frame before and the input image of the current frame only for the pixel whose foreground label and background label are switched.
  • the estimated LUT it is determined from the estimated LUT whether the switching between the foreground label and the background label is a color change in the label of the same type, and if it is a color change in the label of the same type, it is given in step S2. Change the label type. For example, when the foreground label is switched to the background label, the blinking correction unit 153 changes the background label to the foreground label.
  • Step S6 Finally, the image output unit 105 outputs only the pixels determined to be the foreground to the display as a subject extraction image.
  • FIG. 3 is a block diagram showing a configuration example in which the basic configuration of the video processing apparatus 1 shown in FIG. 1 is applied to the video processing apparatus of Patent Document 1.
  • the image processing device 1 includes an image processing unit 100, an imaging unit 200, a display unit 300, and an image editing unit 400.
  • the image processing unit 100 includes an image input unit 101, a color correction unit 141, a quantization image generation unit 102, a foreground region estimation unit 103, a boundary correction unit 121, an image composition unit 104, and an image output unit 105. , Image storage unit 106, quantizer generation unit 131, foreground area learning unit 107, index generation unit 108, estimation LUT generation unit 109, blinking learning unit 151, correction LUT generation unit 152, and blink correction. A unit 153 and a unit are provided.
  • the image processing unit 100 adds a blinking learning unit 151 and a correction LUT generation unit 152 to the video processing device of Patent Document 1, and refers to the correction LUT of the correction LUT generation unit 152.
  • 153 is added between the foreground region estimation unit 103 and the boundary correction unit 121.
  • the foreground region learning unit 107 is the learning unit 107 of Patent Document 1.
  • the estimated LUT generation unit 109 is the LUT generation unit 109 of Patent Document 1.
  • the foreground region learning unit 107 sets the pixel values (R t , G t , B t ) of the sample image based on the sample image, the manually created foreground-only mask image, and the background image.
  • a neural network (hereinafter, estimated NN) that outputs the probability that the combination of the pixel values (R b , G b , B b ) of the background image is the foreground (FG: Foreground) and the probability that the background is the background (BG: Background) is constructed. It has a function to do.
  • the foreground region learning unit 107 has a function of inputting a plurality of sample images into the estimated NN and repeatedly learning them.
  • the estimated NN has a function of determining whether the pixels of the input image are the foreground or the background with respect to the background image when the input image is input instead of the sample image at the time of inference.
  • the details of the learning method of the estimated NN are as described in Patent Document 1.
  • the estimated LUT generation unit 109 has a function of generating an estimated LUT that tabulates the input / output relationship of the estimated NN. Specifically, the estimation LUT generation unit 109 inputs all combinations of the above six-dimensional pixel values to the estimation NN and obtains an output associated with them to tabulate the relationship between the input and the output.
  • the reason for creating a table is that the NN arithmetic processing generally takes time and is not suitable for real-time processing for moving images.
  • the foreground region estimation unit 103 inputs an input image and a background image that have been color-corrected by the color correction unit 141 and quantized by the quantization image generation unit 102 (the number of gradations of pixel values has been reduced). For the combination of each pixel paired at the same coordinates of the input image and the background image, the estimated LUT generated by the estimation LUT generation unit 109 is referred to, and it is determined whether the pixel of the input image is the foreground or the background. It has a function.
  • the blinking learning unit 151 includes an image one frame before, an image of the current frame, a mask image in which the background is masked from the image one frame before, and a mask image in which the background is masked from the image of the current frame. Based on, the pixel value (R 0 , G 0 , B 0 ) of the input image of the previous frame paired at the same coordinates and the pixel value (R 1 , G 1 , B 1 ) of the input image of the current frame.
  • correction NN It has a function of constructing a neural network (hereinafter, correction NN) that outputs a probability (S: Same) that the combination is in the same foreground or the same background, and a probability (D: Difference) that the combination is not in the same foreground or the same background.
  • the blinking learning unit 151 has a function of inputting a plurality of input images one frame before and a plurality of input images of the current frame into the correction NN and repeatedly learning them. The details of the learning method of the correction NN will be described later.
  • the correction LUT generation unit 152 has a function of generating a correction LUT that tabulates the input / output relationship of the correction NN. Specifically, the correction LUT generation unit 152 inputs all combinations of the above six-dimensional pixel values to the correction LUT for all color combinations, and obtains an output associated with them to obtain an input and an output. Table the relationships. The reason for creating a table is that, as described above, it generally takes time to perform NN arithmetic processing.
  • the blinking correction unit 153 determines whether the pixels of the input image are the foreground or the background by the foreground area estimation unit 103. As a result, only the pixels whose foreground and background are switched are the input image of the previous frame and the input image of the current frame. For each pair of pixels paired at the same coordinates, the correction LUT generated by the correction LUT generation unit 152 is referred to, and it is determined whether the switching between the foreground and the background is a color change in the foreground or the background. However, it has a function of correcting the determination result of the foreground area estimation unit 103 when the color changes in the foreground or the background.
  • the blinking learning unit 151 repeatedly executes the following processing for all the pixels included in the image. If it is executed for all pixels, it takes time for arithmetic processing. Therefore, it may be executed for a predetermined number of randomly sampled pixels.
  • the blinking learning unit 151 acquires the image one frame before and the image of the current frame.
  • the blinking learning unit 151 creates a mask image (white: foreground subject, black: background) in which the subject area is manually cut out from the image one frame before. Similarly, the blinking learning unit 151 creates a mask image (white: subject to be the foreground, black: background) in which the subject area is manually cut out from the image of the current frame.
  • the color change is within the same foreground or the same background with respect to the combination of the pixel value of the image one frame before and the pixel value of the image of the current frame paired at the same coordinates.
  • the teacher data defined as or not is learned by the correction NN.
  • the pixel value (R 0 , G 0 , B 0 ) one frame before is red (255, 0, 0), and the pixel value (R 1 , G 1 ) of the current frame. , B 1 ) is orange (255,128,0).
  • the blinking learning unit 151 trains the result group determined in this way as teacher data by the correction NN.
  • FIG. 6 is a flow chart showing an operation example of the video processing apparatus 1 shown in FIG.
  • Step S101 First, the image input unit 101 acquires an input image from the input image input to the image processing device 1, and acquires a separately created background image.
  • Step S102 Next, the quantization image generation unit 102 quantizes the input image and the background image.
  • Step S103 the foreground region estimation unit 103 refers to the estimated LUT for the combination of each pixel paired at the same coordinates of the quantized input image and the background image, and each pixel of the input image is obtained from the estimated LUT. Whether it is a foreground or a background is determined, and a foreground label or a background label is assigned to each pixel based on the determination result.
  • Step S104 the blink correction unit 153 acquires the quantized input image of the current frame, and acquires the label type assigned to each pixel of the input image of the current frame.
  • Step S105 the blinking correction unit 153 acquires the input image one frame before, and acquires the label type assigned to each pixel of the input image one frame before.
  • Step S106 Next, the blink correction unit 153 quantizes the input image one frame before.
  • Step S107 the blink correction unit 153 determines whether or not the switching between the foreground and the background is a color change in the foreground or the background only for the pixel in which the foreground and the background are switched, and the color change in the foreground or the background. If, the label type assigned in step S103 is changed. Details of step S107 will be described later.
  • Step S108 the boundary correction unit 121 corrects the background to clarify the boundary of the foreground, and generates a mask image in which only the pixels to which the foreground label is attached are extracted.
  • Step S109 the image synthesizing unit 104 synthesizes the mask image with the input image and generates a foreground extraction image in which only the foreground is extracted.
  • Step S110 Finally, the image output unit 105 outputs the foreground extraction image to the display unit 300.
  • FIG. 7 is a flow chart showing the detailed operation of step S107 shown in FIG.
  • Step S107a the blinking correction unit 153 determines whether or not the label type has been switched for each pixel paired at the same coordinates of the input image one frame before and the input image of the current frame. If the label type has been switched, the process proceeds to the subsequent step S107b, and if the label type has not been switched, the process proceeds to the above step S108.
  • Step S107b the blinking correction unit 153 refers to the correction LUT for the combination of each pixel paired at the same coordinates of the input image one frame before and the input image of the current frame.
  • Step S107c the blinking correction unit 153 determines from the estimated LUT whether the switching of the label type is a color change within the label of the same type. If the color change is within the label of the same type, the process proceeds to the subsequent step S107d, and if the color change is not within the label of the same type, the process proceeds to step S108.
  • Step S107d Finally, the blinking correction unit 153 changes the label type assigned in step S103.
  • the image processing device 1 switches between the foreground and the background with the foreground area estimation unit 103 that determines whether the pixels of the input image are the foreground or the background by using the estimation LUT that can determine the foreground or the background. Whether or not the switching between the foreground and the background is a color change in the foreground or the background by using a correction LUT that can determine whether or not the target pixel is switched in the foreground or the background from the time change of the pixel value.
  • the blinking correction unit 153 for correcting the determination result of the foreground or the background to be the target pixel is provided. It is possible to provide suppressable technology.
  • the present invention is not limited to the above embodiments.
  • the present invention can be modified in a number of ways within the scope of the gist of the present invention.
  • the video processing device 1 of the present embodiment described above includes, for example, a CPU 901, a memory 902, a storage 903, a communication device 904, an input device 905, and an output device 906. It can be realized by using a general-purpose computer system.
  • the memory 902 and the storage 903 are storage devices.
  • each function of the video processing apparatus 1 is realized by executing a predetermined program loaded on the memory 902 by the CPU 901.
  • the video processing device 1 may be mounted on one computer.
  • the video processing device 1 may be mounted on a plurality of computers.
  • the video processing device 1 may be a virtual machine mounted on a computer.
  • the program for the video processing device 1 can be stored in a computer-readable recording medium such as an HDD, SSD, USB memory, CD, or DVD.
  • the program for the video processing device 1 can also be distributed via a communication network.
  • Image processing device 100 Image processing unit 101: Image input unit 102: Quantized image generation unit 103: Foreground area estimation unit 104: Image composition unit 105: Image output unit 106: Image storage unit 107: Foreground area learning unit 108 : Index generation unit 109: Estimated LUT generation unit 121: Boundary correction unit 131: Quantifier generation unit 141: Color correction unit 151: Blinking learning unit 152: Correction LUT generation unit 153: Blinking correction unit 200: Imaging unit 300: Display Part 400: Image editing part 901: CPU 902: Memory 903: Storage 904: Communication device 905: Input device 906: Output device

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

映像処理装置1は、入力画像の画素が前景か背景を判定する前景領域推定部103と、前景と背景が切り替わった対象画素について、画素値の時間変化から前景内又は背景内での切り替わりか否かを判別可能なルックアップテーブルを用いて、前記前景と背景の切り替わりが前景内又は背景内の色変化であるか否かを判定し、前記前景と背景の切り替わりが前景内又は背景内の色変化である場合、前記対象画素に対して行われた前景か背景かの判定結果を補正する明滅補正部153と、を備える。

Description

映像処理装置、映像処理方法、及び、映像処理プログラム
 本発明は、映像処理装置、映像処理方法、及び、映像処理プログラムに関する。
 映像から被写体を抽出する技術が知られている(特許文献1参照)。被写体の抽出は、入力映像の各画素を前景又は背景に分類して前景ラベル又は背景ラベルを付与し、前景ラベルが付与された画素のみを抽出することにより行う。このとき、映像処理装置は、入力映像の各画素値を所定の色モデルと比較して前景又は背景である確率又はスコアを計算し、当該確率又はスコアの大きさを所定の閾値と比較して、その比較結果を基に全ての画素に対して前景ラベル又は背景ラベルを付与する処理を実行する。
特許第6715289号公報
 入力映像とは連続して入力される一連の静止画像(以下、入力画像)の集合体であり、各入力画像について上記比較処理が実行されるため、画素値並びにラベル付与時に用いる閾値によっては、所定時刻の入力画像において前景ラベルが付与された画素が次時刻の入力画像においては背景ラベルが付与される等、時刻毎に入力画像のラベル種別が変化する場合がある。このとき、前景ラベルが付与された画素のみを抽出した画像が被写体抽出画像となるが、複数の被写体抽出画像を連結して得られる被写体抽出映像を視聴者が観察した場合、画素に対するラベル種別の変化(被写体内での前景と背景の切り替わり)がチラつきとして現れ、主観品質が低下してしまうという課題があった。
 本発明は、上記事情に鑑みてなされたものであり、本発明の目的は、映像のチラつきを改善可能な技術を提供することである。
 本発明の一態様の映像処理装置は、入力画像の画素が前景か背景を判定する判定部と、前景と背景が切り替わった対象画素について、画素値の時間変化から前景内又は背景内での切り替わりか否かを判別可能なルックアップテーブルを用いて、前記前景と背景の切り替わりが前景内又は背景内の色変化であるか否かを判定し、前記前景と背景の切り替わりが前景内又は背景内の色変化である場合、前記対象画素に対して行われた前景か背景かの判定結果を補正する補正部と、を備える。
 本発明の一態様の映像処理方法は、入力画像の画素が前景か背景を判定するステップと、前景と背景が切り替わった対象画素について、画素値の時間変化から前景内又は背景内での切り替わりか否かを判別可能なルックアップテーブルを用いて、前記前景と背景の切り替わりが前景内又は背景内の色変化であるか否かを判定し、前記前景と背景の切り替わりが前景内又は背景内の色変化である場合、前記対象画素に対して行われた前景か背景かの判定結果を補正するステップと、を行う。
 本発明の一態様は、上記映像処理装置としてコンピュータを機能させる映像処理プログラムである。
 本発明によれば、映像のチラつきを抑制可能な技術を提供できる。
図1は、映像処理装置の基本構成を示すブロック図である。 図2は、映像処理装置の基本動作を示すフロー図である。 図3は、映像処理装置の具体的構成を示すブロック図である。 図4は、推定NNの学習処理を示すイメージ図である。 図5は、補正NNの学習処理を示すイメージ図である。 図6は、映像処理装置の動作例を示すフロー図である。 図7は、映像処理装置の動作例を示すフロー図である。 図8は、映像処理装置のハードウェア構成を示すブロック図である。
 以下、図面を参照して、本発明の実施形態を説明する。図面の記載において同一部分には同一符号を付し説明を省略する。
 [発明の概要]
 本発明は、時間変化によりチラつきが現れる画素に対して、当該チラつきが同一領域内(前景内又は背景内)で現れているのか否かを判定し、同一領域内で現れている場合には、付与したラベル種別を補正する。具体的には、特許文献1に記載された前景か背景かを判別するLUT(ルックアップテーブル)の参照に加えて、画素値の時間変化から前景内又は背景内でのチラつきか否かを判別するLUTを参照することにより、これを実現する。但し、特許文献1のLUTは前景か背景かを判別する一手段にすぎず、本発明においては、既存の背景差分手法等、任意の前景背景判別手段を使用可能である。
 [映像処理装置の基本構成]
 図1は、本実施形態に係る映像処理装置1の基本構成を示すブロック図である。当該映像処理装置1は、画像入力部101と、前景領域推定部103と、明滅補正部153と、画像出力部105と、を備える。画像入力部101、前景領域推定部103、及び、画像出力部105は、特許文献1に記載された機能と同様の機能を備える。
 画像入力部101は、映像処理装置1に入力された入力映像から、当該入力映像を構成する静止画像を入力画像として取得する機能を備える。画像入力部101は、ユーザにより予め作成された背景用の背景画像を取得する機能を備える。
 前景領域推定部(判定部)103は、入力画像と背景画像の同座標で対になった各画素の組み合わせに対して、前景か背景かを判別可能な特許文献1のLUT(以下、推定LUT)を参照し、入力画像の画素が前景か背景かを判定する機能を備える。
 明滅補正部(補正部)153は、前景と背景が切り替わった対象画素についてのみ、1フレーム前の入力画像と現在フレームの入力画像の同座標で対になった各画素の組み合わせに対して、画素値の時間変化から前景内又は背景内でのチラつき(同一領域内での前景と背景の切り替わり)か否かを判別可能なLUT(以下、補正LUT)を参照し、前景と背景の切り替わりが、前景内若しくは背景内の色変化であるか、又は、前景と背景が切り替わる色変化であるかを判定し、前景内若しくは背景内の色変化である場合に、上記対象画素に対して行われた前景か背景かの判定結果を補正する機能を備える。
 画像出力部105は、前景と判定された画素のみを被写体抽出画像とし、複数の被写体抽出画像を連結して得られる映像を被写体抽出映像としてディスプレイに出力する機能を備える。
 [映像処理装置の基本動作]
 図2は、映像処理装置1の基本動作を示すフロー図である。
 ステップS1;
 まず、画像入力部101は、映像処理装置1に入力された入力映像から入力画像を取得し、別途作成された背景画像を取得する。
 ステップS2;
 次に、前景領域推定部103は、入力画像と背景画像の同座標で対になった各画素の組み合わせに対して推定LUTを参照し、当該推定LUTより入力画像の各画素が前景か背景かをそれぞれ判定し、当該判定結果に基づき各画素に対して前景ラベル又は背景ラベルを付与する。
 ステップS3;
 次に、明滅補正部153は、現在フレームの入力画像を取得し、当該現在フレームの入力画像の各画素に対して付与されたラベル種別を取得する。つまり、明滅補正部153は、ステップS1で画像入力部101が取得した入力画像を取得し、ステップS2で前景領域推定部103が付与したラベル種別を取得する。
 ステップS4;
 次に、明滅補正部153は、1フレーム前の入力画像を取得し、当該1フレーム前の入力画像の各画素に対して付与されていたラベル種別を取得する。
 ステップS5;
 次に、明滅補正部153は、1フレーム前の入力画像と現在フレームの入力画像の同座標で対になった各画素でラベル種別が切り替わったか否かを判定する。そして、明滅補正部153は、前景ラベルと背景ラベルが切り替わった画素についてのみ、1フレーム前の入力画像と現在フレームの入力画像の同座標で対になった各画素の組み合わせに対して補正LUTを参照し、当該推定LUTより前景ラベルと背景ラベルの切り替わりが同一種別のラベル内の色変化であるかを判定し、同一種別のラベル内の色変化である場合に、ステップS2で付与していたラベル種別を変更する。例えば、前景ラベルから背景ラベルへ切り替わっていた場合、明滅補正部153は、当該背景ラベルを前景ラベルに変更する。
 ステップS6;
 最後に、画像出力部105は、前景と判定された画素のみを被写体抽出画像としてディスプレイに出力する。
 [映像処理装置の具体例]
 図3は、図1に示した映像処理装置1の基本構成を、特許文献1の映像処理装置に適用した構成例を示すブロック図である。当該映像処理装置1は、画像処理部100と、撮像部200と、表示部300と、画像編集部400と、を備える。
 画像処理部100は、画像入力部101と、色補正部141と、量子化画像生成部102と、前景領域推定部103と、境界補正部121と、画像合成部104と、画像出力部105と、画像記憶部106と、量子化器生成部131と、前景領域学習部107と、インデックス生成部108と、推定LUT生成部109と、明滅学習部151と、補正LUT生成部152と、明滅補正部153と、を備える。
 本実施形態に係る画像処理部100は、特許文献1の映像処理装置に対して、明滅学習部151及び補正LUT生成部152を追加し、補正LUT生成部152の補正LUTを参照する明滅補正部153を前景領域推定部103と境界補正部121の間に追加している。
 以下、追加した機能部及び本発明に関連性の高い機能部について説明する。それら以外の各機能部、撮像部200、表示部300、及び、画像編集部400は、特許文献1に記載された機能と同様の機能を備える。なお、前景領域学習部107は、特許文献1の学習部107である。推定LUT生成部109は、特許文献1のLUT生成部109である。
 前景領域学習部107は、図4に示すように、サンプル画像、手動作成した前景のみのマスク画像、及び、背景画像を基に、サンプル画像の画素値(R,G,B)と背景画像の画素値(R,G,B)の組み合わせが前景である確率(FG:Foreground)と背景である確率(BG:Background)を出力するニューラルネットワーク(以下、推定NN)を構築する機能を備える。前景領域学習部107は、複数のサンプル画像を当該推定NNに入力して繰り返し学習させる機能を備える。当該推定NNは、推論時に、サンプル画像に代えて入力画像を入力すると、入力画像の画素が背景画像に対して前景か背景かを判定する機能を持つ。推定NNの学習方法の詳細は、特許文献1に記載の通りである。
 推定LUT生成部109は、推定NNの入出力の関係をテーブル化した推定LUTを生成する機能を備える。具体的には、推定LUT生成部109は、上記6次元の画素値の全ての組み合わせを推定NNに入力し、それらに紐づく出力を得ることで、入力と出力との関係をテーブル化する。なお、テーブル化する理由は、一般にNNの演算処理は時間がかかり、動画像に対する実時間処理には適していないためである。
 前景領域推定部103は、色補正部141で色補正が行われ、量子化画像生成部102で量子化された(画素値の階調数が削減された)入力画像と背景画像を入力し、当該入力画像と当該背景画像の同座標で対になった各画素の組み合わせに対して、推定LUT生成部109で生成された推定LUTを参照し、入力画像の画素が前景か背景かを判定する機能を備える。
 明滅学習部151は、図5に示すように、1フレーム前の画像、現在フレームの画像、1フレーム前の画像から背景をマスクしたマスク画像、及び、現在フレームの画像から背景をマスクしたマスク画像を基に、同座標で対になった1フレーム前の入力画像の画素値(R,G,B)と現在フレームの入力画像の画素値(R,G,B)の組み合わせが同一前景内又は同一背景内である確率(S:Same)、同一前景内又は同一背景内でない確率(D:Different)を出力するニューラルネットワーク(以下、補正NN)を構築する機能を備える。明滅学習部151は、複数の1フレーム前の入力画像と複数の現在フレームの入力画像を当該補正NNに入力して繰り返し学習させる機能を備える。補正NNの学習方法の詳細は、後述する。
 補正LUT生成部152は、補正NNの入出力の関係をテーブル化した補正LUTを生成する機能を備える。具体的には、補正LUT生成部152は、全色の組み合わせについて、上記6次元の画素値の全ての組み合わせを補正LUTに入力し、それらに紐づく出力を得ることで、入力と出力との関係をテーブル化する。なお、テーブル化する理由は、上記の通り、一般にNNの演算処理は時間がかかるためである。
 明滅補正部153は、前景領域推定部103で入力画像の画素が前景か背景かが判定された結果、前景と背景が切り替わった画素についてのみ、1フレーム前の入力画像と現在フレームの入力画像の同座標で対になった各画素の組み合わせに対して、補正LUT生成部152で生成された補正LUTを参照し、前景と背景の切り替わりが、前景内若しくは背景内の色変化であるかを判定し、前景内若しくは背景内の色変化である場合に、前景領域推定部103の判定結果を補正する機能を備える。
 [補正NNの学習方法]
 明滅学習部151は、画像に含まれる全画素について、以下の処理を繰り返し実行する。全画素について実行すると演算処理に時間がかかるため、ランダムにサンプリングした所定数の画素について実行してもよい。
 まず、明滅学習部151は、1フレーム前の画像と現在フレームの画像を取得する。
 次に、明滅学習部151は、1フレーム前の画像から手動で被写体領域を切り抜いたマスク画像(白:前景となる被写体、黒:背景)を作成しておく。同様に、明滅学習部151は、現在フレームの画像から手動で被写体領域を切り抜いたマスク画像(白:前景となる被写体、黒:背景)を作成しておく。
 最後に、明滅学習部151は、同座標で対になった1フレーム前の画像の画素値と現在フレームの画像の画素値の組み合わせに対して、色変化が同一前景内又は同一背景内である又はないが定義された教師データを補正NNで学習する。
 例えば、画像内の所定画素を参照し、1フレーム前の画素値(R,G,B)が赤(255,0,0)であり、現在フレームの画素値(R,G,B)が橙(255,128,0)であるとする。また、上記2種類のマスク画像で上記所定画素と同じ座標の画素を参照し、1フレーム前のラベル種別が前景(FG=1,BG=0)であり、現在フレームのラベルが背景(FG=0,BG=1)であるとする。この場合、上記所定画素において、時間的に前後する2つのフレーム間でラベル種別が変化しているので、1フレーム前と現在フレームの上記所定画素の色変化は同一前景内又は同一背景内の色変化ではないと判断できる。そこで、この場合には、入出力の各値を(R,G,B,R,G,B,S,D)=(255,0,0,255,128,0,0,1)のように決定する。明滅学習部151は、このように決定された結果群を教師データとして補正NNで学習させる。
 [映像処理装置の動作例]
 図6は、図3に示した映像処理装置1の動作例を示すフロー図である。
 ステップS101;
 まず、画像入力部101は、映像処理装置1に入力された入力映像から入力画像を取得し、別途作成された背景画像を取得する。
 ステップS102;
 次に、量子化画像生成部102は、入力画像と背景画像を量子化する。
 ステップS103;
 次に、前景領域推定部103は、量子化された入力画像と背景画像の同座標で対になった各画素の組み合わせに対して推定LUTを参照し、当該推定LUTより入力画像の各画素が前景か背景かをそれぞれ判定し、当該判定結果に基づき各画素に対して前景ラベル又は背景ラベルを付与する。
 ステップS104;
 次に、明滅補正部153は、量子化された現在フレームの入力画像を取得し、当該現在フレームの入力画像の各画素に対して付与されたラベル種別を取得する。
 ステップS105;
 次に、明滅補正部153は、1フレーム前の入力画像を取得し、当該1フレーム前の入力画像の各画素に対して付与されていたラベル種別を取得する。
 ステップS106;
 次に、明滅補正部153は、上記1フレーム前の入力画像を量子化する。
 ステップS107;
 次に、明滅補正部153は、前景と背景が切り替わった画素についてのみ、前景と背景の切り替わりが前景内若しくは背景内の色変化であるか否かを判定し、前景内若しくは背景内の色変化である場合に、ステップS103で付与していたラベル種別を変更する。ステップS107の詳細は、後述する。
 ステップS108;
 次に、境界補正部121は、背景に対して前景の境界を明瞭化する補正を行い、前景ラベルが付与された画素のみを抽出したマスク画像を生成する。
 ステップS109;
 次に、画像合成部104は、上記マスク画像を入力画像に合成し、前景のみを抽出した前景抽出画像を生成する。
 ステップS110;
 最後に、画像出力部105は、上記前景抽出画像を表示部300へ出力する。
 [ステップS107の詳細]
 図7は、図6に示したステップS107の詳細動作を示すフロー図である。
 ステップS107a;
 まず、明滅補正部153は、1フレーム前の入力画像と現在フレームの入力画像の同座標で対になった各画素でラベル種別が切り替わったか否かを判定する。ラベル種別が切り替わった場合には以降のステップS107bへ進み、ラベル種別が切り替わっていない場合には上記ステップS108へ進む。
 ステップS107b;
 次に、明滅補正部153は、1フレーム前の入力画像と現在フレームの入力画像の同座標で対になった各画素の組み合わせに対して補正LUTを参照する。
 ステップS107c;
 次に、明滅補正部153は、当該推定LUTよりラベル種別の切り替わりが同一種別のラベル内の色変化であるかを判定する。同一種別のラベル内の色変化である場合には以降のステップS107dへ進み、同一種別のラベル内の色変化でない場合には上記ステップS108へ進む。
 ステップS107d;
 最後に、明滅補正部153は、ステップS103で付与していたラベル種別を変更する。
 [効果]
 本実施形態によれば、映像処理装置1が、前景か背景を判定可能な推定LUTを用いて、入力画像の画素が前景か背景を判定する前景領域推定部103と、前景と背景が切り替わった対象画素について、画素値の時間変化から前景内又は背景内での切り替わりか否かを判別可能な補正LUTを用いて、前景と背景の切り替わりが前景内又は背景内の色変化であるか否かを判定し、前景と背景の切り替わりが前景内又は背景内の色変化である場合、対象画素にする前景か背景かの判定結果を補正する明滅補正部153と、を備えるので、映像のチラつきを抑制可能な技術を提供できる。
 [その他]
 本発明は、上記実施形態に限定されない。本発明は、本発明の要旨の範囲内で数々の変形が可能である。
 上記説明した本実施形態の映像処理装置1は、例えば、図8に示すように、CPU901と、メモリ902と、ストレージ903と、通信装置904と、入力装置905と、出力装置906と、を備えた汎用的なコンピュータシステムを用いて実現できる。メモリ902及びストレージ903は、記憶装置である。当該コンピュータシステムにおいて、CPU901がメモリ902上にロードされた所定のプログラムを実行することにより、映像処理装置1の各機能が実現される。
 映像処理装置1は、1つのコンピュータで実装されてもよい。映像処理装置1は、複数のコンピュータで実装されてもよい。映像処理装置1は、コンピュータに実装される仮想マシンであってもよい。映像処理装置1用のプログラムは、HDD、SSD、USBメモリ、CD、DVDなどのコンピュータ読取り可能な記録媒体に記憶できる。映像処理装置1用のプログラムは、通信ネットワークを介して配信することもできる。
 1 :映像処理装置
 100:画像処理部
 101:画像入力部
 102:量子化画像生成部
 103:前景領域推定部
 104:画像合成部
 105:画像出力部
 106:画像記憶部
 107:前景領域学習部
 108:インデックス生成部
 109:推定LUT生成部
 121:境界補正部
 131:量子化器生成部
 141:色補正部
 151:明滅学習部
 152:補正LUT生成部
 153:明滅補正部
 200:撮像部
 300:表示部
 400:画像編集部
 901:CPU
 902:メモリ
 903:ストレージ
 904:通信装置
 905:入力装置
 906:出力装置

Claims (3)

  1.  入力画像の画素が前景か背景を判定する判定部と、
     前景と背景が切り替わった対象画素について、画素値の時間変化から前景内又は背景内での切り替わりか否かを判別可能なルックアップテーブルを用いて、前記前景と背景の切り替わりが前景内又は背景内の色変化であるか否かを判定し、前記前景と背景の切り替わりが前景内又は背景内の色変化である場合、前記対象画素に対して行われた前景か背景かの判定結果を補正する補正部と、
     を備える映像処理装置。
  2.  映像処理装置で行う映像処理方法において、
     入力画像の画素が前景か背景を判定するステップと、
     前景と背景が切り替わった対象画素について、画素値の時間変化から前景内又は背景内での切り替わりか否かを判別可能なルックアップテーブルを用いて、前記前景と背景の切り替わりが前景内又は背景内の色変化であるか否かを判定し、前記前景と背景の切り替わりが前景内又は背景内の色変化である場合、前記対象画素に対して行われた前景か背景かの判定結果を補正するステップと、
     を行う映像処理方法。
  3.  請求項1に記載の映像処理装置としてコンピュータを機能させる映像処理プログラム。
PCT/JP2021/001198 2021-01-15 2021-01-15 映像処理装置、映像処理方法、及び、映像処理プログラム WO2022153476A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2021/001198 WO2022153476A1 (ja) 2021-01-15 2021-01-15 映像処理装置、映像処理方法、及び、映像処理プログラム
US18/271,903 US20240119600A1 (en) 2021-01-15 2021-01-15 Video processing apparatus, video processing method and program
JP2022574983A JPWO2022153476A1 (ja) 2021-01-15 2021-01-15

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/001198 WO2022153476A1 (ja) 2021-01-15 2021-01-15 映像処理装置、映像処理方法、及び、映像処理プログラム

Publications (1)

Publication Number Publication Date
WO2022153476A1 true WO2022153476A1 (ja) 2022-07-21

Family

ID=82448058

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/001198 WO2022153476A1 (ja) 2021-01-15 2021-01-15 映像処理装置、映像処理方法、及び、映像処理プログラム

Country Status (3)

Country Link
US (1) US20240119600A1 (ja)
JP (1) JPWO2022153476A1 (ja)
WO (1) WO2022153476A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007036560A (ja) * 2005-07-26 2007-02-08 Fuji Xerox Co Ltd 画像処理装置、画像処理方法及びそのプログラム
JP2007180808A (ja) * 2005-12-27 2007-07-12 Toshiba Corp 映像符号化装置、映像復号化装置、及び映像符号化方法
JP6715289B2 (ja) * 2018-05-24 2020-07-01 日本電信電話株式会社 映像処理装置、映像処理方法、および映像処理プログラム
JP2020129276A (ja) * 2019-02-08 2020-08-27 キヤノン株式会社 画像処理装置、画像処理方法、およびプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007036560A (ja) * 2005-07-26 2007-02-08 Fuji Xerox Co Ltd 画像処理装置、画像処理方法及びそのプログラム
JP2007180808A (ja) * 2005-12-27 2007-07-12 Toshiba Corp 映像符号化装置、映像復号化装置、及び映像符号化方法
JP6715289B2 (ja) * 2018-05-24 2020-07-01 日本電信電話株式会社 映像処理装置、映像処理方法、および映像処理プログラム
JP2020129276A (ja) * 2019-02-08 2020-08-27 キヤノン株式会社 画像処理装置、画像処理方法、およびプログラム

Also Published As

Publication number Publication date
US20240119600A1 (en) 2024-04-11
JPWO2022153476A1 (ja) 2022-07-21

Similar Documents

Publication Publication Date Title
JP4783985B2 (ja) 映像処理装置、映像表示装置及びそれに用いる映像処理方法並びにそのプログラム
US11461903B2 (en) Video processing device, video processing method, and video processing program
US8379958B2 (en) Image processing apparatus and image processing method
CA3039239C (en) Conformance of media content to original camera source using optical character recognition
JP3959909B2 (ja) ホワイトバランス調整方法及び調整装置
CN110620924B (zh) 编码数据的处理方法、装置、计算机设备及存储介质
KR101437626B1 (ko) 화상 시퀀스에서의 관심 영역 기반 아티팩트 저감 시스템 및 방법
CN112383824A (zh) 视频广告过滤方法、设备及存储介质
WO2022153476A1 (ja) 映像処理装置、映像処理方法、及び、映像処理プログラム
KR102207441B1 (ko) Hdr 영상 생성 장치 및 방법
JP2003303346A (ja) 目標追跡方法、目標追跡装置、目標追跡プログラム、並びにこのプログラムを記録した記録媒体
EP3360321B1 (en) Projection apparatus, projection system, program, and non-transitory computer-readable recording medium
CN111445383B (zh) 影像参数的调节方法、装置及系统
US11423597B2 (en) Method and system for removing scene text from images
WO2021060165A1 (ja) 画像認識装置、画像認識システム、画像認識方法及びプログラム
JP4059389B2 (ja) 画像処理装置、画像処理プログラムおよび記憶媒体
JP6582994B2 (ja) 画像処理装置、画像処理方法及びプログラム
JPH06301773A (ja) 減色画像処理方法および装置
JP2012231406A (ja) 画像処理装置及び画像処理方法
Makwana et al. LIVENet: A novel network for real-world low-light image denoising and enhancement
CN113115109B (zh) 视频处理方法、装置、电子设备及存储介质
JP4578398B2 (ja) 画像補正装置および方法,ならびに画像補正プログラム
EP4354893A1 (en) Method for image processing, device and software
JP5069599B2 (ja) 映像変換装置、映像変換方法および映像変換プログラム
JP2009223630A (ja) 画像処理装置、画像処理方法、及び画像処理プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21919369

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022574983

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 18271903

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21919369

Country of ref document: EP

Kind code of ref document: A1