WO2018230294A1 - 動画像処理装置、表示装置、動画像処理方法、および制御プログラム - Google Patents

動画像処理装置、表示装置、動画像処理方法、および制御プログラム Download PDF

Info

Publication number
WO2018230294A1
WO2018230294A1 PCT/JP2018/019955 JP2018019955W WO2018230294A1 WO 2018230294 A1 WO2018230294 A1 WO 2018230294A1 JP 2018019955 W JP2018019955 W JP 2018019955W WO 2018230294 A1 WO2018230294 A1 WO 2018230294A1
Authority
WO
WIPO (PCT)
Prior art keywords
frame
moving image
identification target
identification
unit
Prior art date
Application number
PCT/JP2018/019955
Other languages
English (en)
French (fr)
Inventor
直大 北城
Original Assignee
シャープ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by シャープ株式会社 filed Critical シャープ株式会社
Priority to US16/620,728 priority Critical patent/US20200106930A1/en
Priority to CN201880039688.0A priority patent/CN111052184A/zh
Publication of WO2018230294A1 publication Critical patent/WO2018230294A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/223Analysis of motion using block-matching
    • G06T7/238Analysis of motion using block-matching using non-full search, e.g. three-step search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/215Motion-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • H04N5/144Movement detection
    • H04N5/145Movement estimation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Definitions

  • the following disclosure relates to a moving image processing apparatus that processes a moving image composed of a plurality of frames.
  • Patent Document 1 is intended to detect an image of a moving object (moving object) in a moving image and identify the type or attribute of the moving object with high accuracy.
  • the object identification device of Patent Document 1 includes (i) an object detection unit that detects a moving object in a moving image, (ii) a flow line calculation unit that obtains a flow line of the moving object, and (iii) movement.
  • An object identification unit that identifies the type of the moving object or the attribute of the object based on the shape of the flow line of the object.
  • Patent Document 1 does not attempt to perform highly accurate image recognition (for example, image recognition using a deep learning technique) for object identification.
  • highly accurate image recognition for example, image recognition using a deep learning technique
  • the technique disclosed in Patent Document 1 causes a very high calculation cost for object identification in a moving image.
  • An object of one aspect of the present disclosure is to reduce the calculation cost for identifying an object in a moving image as compared with the related art.
  • a moving image processing apparatus is a moving image processing apparatus that processes a moving image including a plurality of frames, and an object represented in the moving image. And an object identification unit in the (N + 1) th frame based on the position in the (N + 1) th frame of the object image in the Nth frame (N is a natural number) of the moving image. An area setting unit that sets an identification target area that is an area.
  • a moving image processing method for processing a moving image including a plurality of frames, and is expressed in the moving image.
  • Identification object in the object identification step in the (N + 1) th frame based on the position of the object image in the Nth frame (N is a natural number) in the N + 1th frame And an area setting step for setting an identification target area that is an area to be.
  • the moving image processing apparatus it is possible to reduce the calculation cost for identifying an object in a moving image as compared with the conventional one.
  • the moving image processing method has the same effect.
  • FIG. 3 is a functional block diagram illustrating a configuration of a main part of the display device according to the first embodiment.
  • FIG. It is the schematic for demonstrating a motion vector. It is a figure for demonstrating the identification object area
  • (A) And (b) is a figure for demonstrating block inclusion conditions, respectively.
  • (A) And (b) is a figure which shows an example of two histograms obtained by the histogram generation process, respectively.
  • (A)-(c) is a figure which shows an example of the data used or set in a histogram generation process, respectively.
  • FIG. 10 is a functional block diagram illustrating a configuration of a main part of a moving image processing apparatus according to a fourth embodiment.
  • FIG. 1 is a functional block diagram illustrating a configuration of a main part of the display device 1.
  • the display device 1 includes a signal processing unit 10 (moving image processing device), a display unit 80, and a storage unit 90.
  • the display device 1 may be a television or a PC (Personal Computer).
  • the display device 1 may be a portable information terminal such as a multifunction mobile phone (smartphone) or a tablet.
  • the signal processing unit 10 processes the moving image (input image image, input video signal), and the processed moving image (output moving image, output video signal) is displayed on the display unit. 80 is output.
  • the display unit 80 is a member that displays a moving image, and may be a liquid crystal display or an organic EL (Electro-Luminescence) display, for example.
  • an input moving image is also referred to as a moving image A
  • an output moving image is also referred to as a moving image C.
  • the signal processing unit 10 exemplifies a case where a moving image B (intermediate moving image) is generated prior to the moving image C. Note that each moving image in the first embodiment is configured by a plurality of frames.
  • the signal processing unit 10 is provided as a part of a control unit (not shown) that comprehensively controls each unit of the display device 1.
  • the function of the control unit may be realized by a CPU (Central Processing Unit) executing a program stored in the storage unit 90.
  • the function of each part of the signal processing unit 10 will be described in detail later.
  • the storage unit 90 stores various programs executed by the signal processing unit 10 and data used by the programs.
  • Embodiment 1 exemplifies a case where a moving image A is supplied from the outside to the signal processing unit 10 (more specifically, a frame rate conversion unit 11 described later).
  • the moving image A may be generated inside the display device 1 by receiving and decoding a broadcast wave (radio wave) from the outside, for example, by a tuner (not shown) of the display device 1. In this case, the moving image A is supplied from the tuner to the signal processing unit 10.
  • the moving image A is a moving image to be processed in the signal processing unit 10.
  • the resolution of the moving image A may be 4K2K (horizontal pixel number 3840 ⁇ vertical pixel number 2160).
  • the resolution of each moving image described in the first embodiment is not limited to the above, and may be set as appropriate.
  • the resolution of the moving image A may be Full HD (horizontal pixel number 1920 ⁇ vertical pixel number 1080) or 8K4K (horizontal pixel number 7680 ⁇ vertical pixel number 4320).
  • the signal processing unit 10 may acquire the moving image A from the storage unit 90.
  • the signal processing unit 10 may acquire the moving image A from an external device (for example, a digital movie camera) connected to the display device 1.
  • the signal processing unit 10 processes a moving image A as an input moving image, and generates a moving image C as an output moving image. Then, the signal processing unit 10 (more specifically, an image quality correction unit 14 described later) supplies the moving image C to the display unit 80. Accordingly, the moving image C can be displayed on the display unit 80.
  • a display control unit (not shown) that controls the operation of the display unit 80 may be provided in the signal processing unit 10 or may be provided in the display unit 80 itself.
  • the signal processing unit 10 includes a frame rate conversion unit 11, a window setting unit 12 (region setting unit), an object identification unit 13, and an image quality correction unit 14.
  • the window setting unit 12 and the object identification unit 13 are main parts of the moving image processing apparatus according to an aspect of the present disclosure.
  • the window setting unit 12 and the object identification unit 13 may be collectively referred to as “identification processing unit”.
  • the identification processing part line is indicated by a dotted line.
  • the frame rate conversion unit 11 includes an interpolated image generation unit 111 and a motion vector calculation unit 112. A moving image A is supplied to each of the interpolated image generation unit 111 and the motion vector calculation unit 112.
  • the interpolated image generation unit 111 increases the frame rate of the moving image A. Specifically, the interpolated image generation unit 111 extracts each of a plurality of frames constituting the moving image A from the moving image A. Each frame extracted by the interpolated image generation unit 111 may be stored in a frame memory (not shown), for example.
  • the frame memory may be provided in the frame rate conversion unit 11 or may be provided outside the frame rate conversion unit 11.
  • the interpolated image generation unit 111 generates an interpolation frame (intermediate frame) based on the frame using a known algorithm. For example, the interpolated image generation unit 111 may generate an interpolation frame using a motion vector described below. Then, the interpolated image generation unit 111 increases the frame rate of the moving image A by inserting interpolation frames at predetermined frame intervals into the moving image A.
  • the processed moving image in the interpolated image generation unit 111 is also referred to as a moving image B.
  • the frame rate conversion unit 11 may increase the frame rate of the moving image A by a factor of two. For example, when the frame rate of the moving image A is 60 fps (frames per second), the interpolated image generating unit 111 generates a moving image B having a frame rate of 120 fps.
  • the conversion rate of the frame rate in the frame rate conversion unit 11 is not limited to the above, and may be set as appropriate. Further, the frame rate of each moving image described in the first embodiment is not limited to the above. As an example, the frame rate conversion unit 11 may generate a moving image B having a frame rate of 240 fps by increasing the frame rate 10 times with respect to the moving image A having a frame rate of 24 fps.
  • the frame rate of the moving image to be displayed on the display unit 80 can be converted into that according to the performance specifications of the display unit 80.
  • the interpolated image generation unit 111 is not an essential component in the signal processing unit 10 as illustrated in the third embodiment described later. For example, if the frame rate of the moving image A already conforms to the performance specification of the display unit 80, it is necessary to generate the moving image B (convert the frame rate of the moving image A) in the interpolated image generating unit 111. This is because there is not.
  • the interpolated image generation unit 111 supplies the moving image B to the image quality correction unit 14.
  • the interpolated image generation unit 111 supplies at least a part of the moving image B to the object identification unit 13.
  • the first embodiment a case where the entire moving image B is supplied from the interpolated image generation unit 111 to the object identification unit 13 is illustrated.
  • the motion vector calculation unit 112 calculates (detects) a motion vector by analyzing the moving image A (more specifically, each frame of the moving image A stored in the frame memory).
  • a known algorithm may be used for calculating the motion vector in the motion vector calculation unit 112.
  • the interpolated image generation unit 111 when the interpolated image generation unit 111 is excluded from the signal processing unit 10, a function of extracting each frame from the moving image A may be given to the motion vector calculation unit 112. Furthermore, the motion vector calculation unit 112 can be further excluded from the signal processing unit 10 as shown in a fourth embodiment described later. That is, it should be noted that the frame rate conversion unit 11 (the interpolated image generation unit 111 and the motion vector calculation unit 112) is not an essential component in the signal processing unit 10.
  • a motion vector is a block (more specifically, a virtual object located in a block) in one frame (eg, a reference frame) and another frame (eg, a reference frame) subsequent to the one frame. This is a vector indicating the positional deviation from the corresponding block in the next frame.
  • a motion vector is a vector indicating to which position a block in one frame has moved in another subsequent frame.
  • the motion vector is used as an index indicating the movement amount of the block.
  • FIG. 2 is a schematic diagram for explaining a motion vector.
  • each frame included in a moving image is uniformly divided into blocks having a horizontal length (resolution) a and a vertical length b.
  • the horizontal pixel number of the moving image is represented as H
  • the vertical pixel number is represented as V.
  • the horizontal direction is also referred to as the x direction and the vertical direction is also referred to as the y direction.
  • each frame is divided in the horizontal direction (H / a) and in the vertical direction (V / b). That is, each frame is divided into (H / a) ⁇ (V / b) blocks.
  • Block (i, j) one of the blocks in FIG. 2 is represented as Block (i, j).
  • i and j are indices (numbers) indicating the positions in the horizontal direction and the vertical direction in each frame, respectively.
  • i is the ordinal number of the x direction component (hereinafter also referred to as x component) in the xy coordinates.
  • J is the ordinal number of the y direction component (hereinafter also referred to as y component) in the xy coordinates.
  • the block located in the upper left among each block on the paper surface of FIG. 2 is assumed to be Block (0, 0).
  • the block number in the horizontal direction increases from left to right
  • MVx is the x component of the motion vector MV
  • the motion vector calculation unit 112 calculates a motion vector (MVx, MVy) for each block in FIG. Then, the motion vector calculation unit 112 supplies the motion vector (MVx, MVy) to the interpolated image generation unit 111 and the window setting unit 12.
  • the window setting unit 12 includes a histogram generation unit 121 and a histogram analysis unit 122. As described below, the window setting unit 12 performs the (N + 1) th frame (next frame) of the object image expressed in the Nth frame (N is a natural number) (current frame) of the moving image (eg, moving image B). Based on the position at, the identification target area in the N + 1th frame is set.
  • the identification target region means a region that is an object identification target by the object identification unit 13.
  • the window setting unit 12 performs identification in the (N + 1) th frame based on a motion vector (motion vector in the identification target area) included in the identification target area in the Nth frame among the motion vectors of the moving image. Set the target area.
  • the identification target region in the Nth frame includes at least a part of an object image.
  • FIG. 3 is a diagram for explaining an identification target area in the Nth frame.
  • the window (x0: x1, y0: y1) in FIG. 3 is a rectangle (rectangle, rectangle) having four points (x0, y0), (x0, y1), (x1, y1), and (x1, y0) as vertices. (See also FIG. 5 and the like described later).
  • Window (x0: x1, y0: y1) is also simply referred to as “window”.
  • x0 and x1 are integers satisfying 0 ⁇ x0 and x1 ⁇ H ⁇ 1, respectively.
  • Y0 and y1 are integers satisfying 0 ⁇ y0 and y1 ⁇ V ⁇ 1, respectively.
  • FIG. 3 illustrates a case where images of two objects OBJ (example: cloud) and OBJ2 (example: crescent moon) are represented in the Nth frame.
  • OBJ example: cloud
  • OBJ2 example: crescent moon
  • Window (x0: x1, y0: y1) is the identification target area in the Nth frame.
  • the window (x0: x1, y0: y1) includes the entire image of the object OBJ and the background BG of the image of OBJ.
  • the window setting unit 12 sets the identification target area in the (N + 1) th frame based on the motion vector (MVx, MVy) included in the window (x0: x1, y0: y1).
  • a specific setting method of the identification target area in the window setting unit 12 that is, specific operations of the histogram generation unit 121 and the histogram analysis unit 122 will be described later.
  • the object identification unit 13 identifies an object expressed in a moving image (eg, moving image B). More specifically, as shown in FIG. 3, the object identification unit 13 recognizes an object OBJ included in Window (x0: x1, y0: y1) that is an identification target area in the Nth frame. More specifically, the object identification unit 13 detects an image of the object OBJ and identifies the category of the object to which the object OBJ belongs (hereinafter, object category). For example, the object identification unit 13 specifies that the object category of the object OBJ is a cloud.
  • any method may be used as the object identification method (object category identification method) by the object identification unit 13.
  • object identification method object category identification method
  • a deep learning (also referred to as deep learning) technique may be used for the object identification method.
  • other known object identification methods may be employed.
  • Embodiment 1 exemplifies a case where the object identification unit 13 performs machine learning using a neural network such as a deep learning technique.
  • the object identification unit 13 is caused to perform machine learning in advance using images of a plurality of objects (for example, a reference image described later) to acquire a model for identifying the object (identifying the object category). Just keep it.
  • the model is referred to as a learned model.
  • the object identification unit 13 includes a learned model.
  • the object identification unit 13 can identify the object OBJ by collating the OBJ with the learned model (identify the object category of the OBJ).
  • the object identification in the object identification unit 13 can be performed with higher accuracy than other known object identification methods.
  • an object can be identified with higher accuracy when the object identification unit 13 acquires a learned model by learning using sufficient hardware resources.
  • the object identification unit 13 may identify an object only for the identification target region in the Nth frame. That is, the object identification unit 13 does not need to perform object identification for the entire area of the Nth frame. In this way, by previously narrowing down the target region for the object identification unit 13 to identify an object, the calculation cost for object identification can be effectively reduced.
  • the object identification unit 13 generates object identification information indicating the identification result of the object OBJ in the window (x0: x1, y0: y1), and supplies the object identification information to the image quality correction unit 14.
  • the object identification information can be used as one of indices indicating the texture of the object OBJ.
  • the image quality correction unit 14 processes the above-described moving image B and generates a moving image C (output moving image). Then, the image quality correction unit 14 supplies the moving image C to the display unit 80.
  • the image quality correction unit 14 may perform a known image quality correction process on the moving image B according to the performance specifications of the display unit 80. Examples of the image quality correction process include processes such as color correction, contrast correction, edge correction, and image quality sharpening.
  • the image quality correction unit 14 may process the moving image B based on the object identification information acquired from the object identification unit 13 (that is, according to the identification result of the object identification unit 13). That is, the moving image B may be processed by the image quality correction unit 14 so as to more effectively express the texture of the object OBJ. According to this processing, the texture of the object OBJ expressed in the moving image C can be enhanced.
  • a moving image is captured and recorded by a camera (imaging device) having a very high resolution, and a video signal in a high resolution format is displayed on the display device. 1 (video display device) (eg, using a resolution format of 8K4K level).
  • a camera imaging device
  • video display device eg, using a resolution format of 8K4K level.
  • the moving image is decoded when the compressed moving image data is decoded. Deterioration will occur. In this case, due to the deterioration, the expressiveness of the texture in the moving image is lowered.
  • the image quality correction unit 14 (i) even when the resolution of the moving image is not necessarily high enough, or (ii) when the moving image is degraded during decoding of the compressed moving image data,
  • the texture of the object can be expressed effectively. That is, a moving image that can sufficiently express the texture of an object can be provided with a simpler configuration than in the past.
  • the image quality correction unit 14 performs a predetermined process so as to enhance the “fluffy” texture of the cloud (a feeling of lightness).
  • Moving image processing eg, contour correction
  • contour correction may be performed.
  • FIG. 4 is a flowchart illustrating an example of the process flow S1 to S3b of the histogram generation unit 121 and its peripheral functional units. The process of FIG. 4 is also referred to as a histogram generation process.
  • the histogram generation unit 121 performs a histogram generation process on each frame included in the moving image (each time one moving image is input).
  • a case where the histogram generation unit 121 processes the Nth frame of a moving image will be exemplified.
  • a histogram (122) (x0: x1, y0: y1) that is an identification target region in the Nth frame is set by a histogram analysis unit 122 described later.
  • a method of setting the window (x0: x1, y0: y1) by the histogram analysis unit 122 will be described later with reference to FIG. 8 (particularly, refer to step S16 in FIG. 8).
  • FIG. 7A shows a table indicating four values “x0, x1, y0, y1”.
  • FIG. 7 is a table showing an example of data used or set in the histogram generation process.
  • x0 300
  • y0 600
  • x1 400
  • y1 700.
  • the subscript “Window” is added for convenience in order to indicate that these four parameters define the window.
  • the histogram generation unit 121 generates a histogram indicating statistical values for each of the horizontal and vertical components of the motion vector included in the window (x0: x1, y0: y1).
  • HistogramH uses the horizontal component of the motion vector as a class (value on the horizontal axis).
  • HistogramV uses the vertical component of the motion vector as a class.
  • the histogram generation unit 121 initializes HistogramH and HistogramV. That is, the histogram generation unit 121 sets the frequency (value on the vertical axis) to 0 (clears) in all classes of HistogramH and HistogramV. In other words, the histogram generation unit 121 sets all frequencies of HistogramH and HistogramV to an empty set ( ⁇ ).
  • S3a and S3b are loops (loop 1) indicating processing in the vertical direction.
  • the loop 1 is performed as the moving image is scanned in the vertical direction over the vertical period.
  • S4a and S4b are loops (loop 2) indicating processing in the horizontal direction.
  • the motion vector calculation unit 112 detects a motion vector (MVx, MVy) of Block (i, j).
  • the interpolated frame may be generated using the motion vector (MVx, MVy) in the interpolated image generation unit 111 in accordance with S5.
  • the interpolation frame generation processing in the interpolated image generation unit 111 does not affect the result of the histogram generation processing.
  • the histogram generation unit 121 includes Block (i, j), which is the processing target (detection target of the motion vector (MVx, MVy)) in S5, in Window (x0: x1, y0: y1). It is determined whether or not. In other words, the histogram generation unit 121 determines whether or not a condition “Block (i, j) ⁇ Window (x0: x1, y0: y1)” (hereinafter referred to as a block inclusion condition) is satisfied.
  • Block (i, j) is an area having a size of a ⁇ b pixels.
  • the size of Block (i, j) is, for example, a size of 8 ⁇ 8 pixels or 16 ⁇ 16 pixels. That is, the values of a and b are set so that the size of Block (i, j) is sufficiently smaller than the image of the object OBJ. For this reason, the size of Block (i, j) is sufficiently smaller than Window (x0: x1, y0: y1) (region including the image of the object OBJ) (see also FIG. 3 described above).
  • the above block inclusion condition is, for example, the following first determination condition: (First determination condition): “(x0 ⁇ a ⁇ i) ⁇ (a ⁇ (i + 1) ⁇ x1) ⁇ (y0 ⁇ b ⁇ j) ⁇ (b ⁇ (j + 1) ⁇ y1) is true” And can be rewritten approximately.
  • the histogram generation unit 121 may determine whether or not the block inclusion condition is satisfied using the first determination condition.
  • blocks satisfying the first determination condition are indicated by hatching with respect to a predetermined window (x0: x1, y0: y1).
  • it is determined that 12 ( 4 ⁇ 3) blocks indicated by diagonal lines satisfy the block inclusion condition.
  • the above block inclusion condition is, for example, the following second determination condition: (Second determination condition): “(x0 ⁇ a ⁇ (i + 1)) ⁇ (a ⁇ i ⁇ x1) ⁇ (y0 ⁇ b ⁇ (j + 1)) ⁇ (b ⁇ j ⁇ y1) is true” And can be rewritten approximately.
  • the histogram generation unit 121 may determine whether or not the block inclusion condition is satisfied using the second determination condition.
  • blocks that satisfy the second determination condition are indicated by hatching with respect to the same window (x0: x1, y0: y1) as in FIG.
  • Block inclusion condition When the block inclusion condition is satisfied for Block (i, j) (YES in S6), the process proceeds to S7 below. On the other hand, if the block inclusion condition is not satisfied for Block (i, j) (NO in S6), the process proceeds to S4b. That is, S7 is not performed.
  • the histogram generation unit 121 acquires the motion vector (MVx, MVy) detected by the motion vector calculation unit 112 for each of the Block (i, j) of Window (x0: x1, y0: y1). Then, the histogram generation unit 121 acquires the values of the components MVx and MVy from the motion vector (MVx, MVy) (decomposes the motion vector into a horizontal component and a vertical component).
  • HistogramH uses each value of the component MVx in units of one pixel as a class. Therefore, when there is a predetermined value of MVx in one Block (i, j), the histogram generator 121 sets the frequency of the class indicated by an integer value obtained by rounding off the value of the MVx in HistogramH, for example. Just count up.
  • FIG. 6A and 6B show examples of HistogramH and HistogramV obtained at the completion of the histogram generation process, respectively.
  • FIG. 6 shows two histograms (HistogramH and HistogramV) obtained for the Nth frame in FIG.
  • FIGS. 7 (b) and 7 (c) show tables indicating frequencies in each class of HistogramH and HistogramV in FIG. 6, respectively.
  • a subscript “Histogram_N” is attached for convenience to indicate that each numerical value is a histogram obtained for the Nth frame.
  • the respective classes of MVx and MVy are simply represented by letters “x” and “y” as appropriate.
  • the maximum frequency in the x direction (the peak of the first highest frequency) (hereinafter also referred to as the first peak frequency). Is present. Specifically, the first peak frequency in the x direction was 10.
  • the class having the first peak frequency is referred to as a first peak class.
  • FIG. 8 is a flowchart illustrating the flow of processing S11 to S16 of the histogram analysis unit 122 and the surrounding functional units.
  • the process of FIG. 8 is also referred to as a histogram analysis process.
  • the histogram analysis process is performed after the above-described histogram generation process is completed (in other words, after the frame rate conversion process is completed).
  • the histogram analysis unit 122 acquires HistogramH and HistogramV generated by the histogram generation unit 121 in the above-described histogram generation process. Then, the histogram analysis unit 122 searches for the peak class of the frequency distribution (the class in which the frequency peak (maximum value) is obtained) for each of HistogramH and HistogramV. A known algorithm may be used for the peak class search.
  • Np peak classes can be searched by repeating the process of “finding a class (third peak class).
  • each of HistogramH and HistogramV has Np peak classes.
  • the k-th peak class in the x direction is represented as MVxPk
  • the m-th peak class in the y direction is represented as MVyPm.
  • the histogram analysis unit 122 calculates the estimated movement amount using each of the Np MVxPk values as the x component of the movement amount estimated value and each of the Np MVyPm values as the y component of the movement amount estimated value. (Set).
  • four types of estimated movement amounts are calculated.
  • the histogram analysis unit 122 does not necessarily have to calculate Np two (all combinations) movement amount estimation values.
  • the histogram analysis unit 122 may exclude some of combinations of Np MVxPk values and Np MVyPm values by performing some estimation. In this case, since the number of movement amount estimation value can be reduced than Np 2, can reduce the computational cost for calculating the movement amount estimation value.
  • the histogram analysis unit 122 uses the Np two kinds of movement amount estimation values obtained in S12 to calculate Np based on Window (x0: x1, y0: y1) (identification target region in the Nth frame). Two regions Region (x0 ′: x1 ′, y0 ′: y1 ′) are set. Region (x0 ′: x1 ′, y0 ′: y1 ′) has four points (x0 ′, y0 ′), (x0 ′, y1 ′), (x1 ′, y1 ′), (x1 ′, y0 ′) Represents a quadrangle (rectangle, rectangle) with the vertex at.
  • Region (x0 ′: x1 ′, y0 ′: y1 ′) are candidates for identification target regions in the (N + 1) th frame. For this reason, Region (x0 ′: x1 ′, y0 ′: y1 ′) is also referred to as an identification target region candidate.
  • Region (x0 ′: x1 ′, y0 ′: y1 ′) is an area obtained by translating Window (x0: x1, y0: y1) by the estimated amount of movement.
  • the region (x0 ′: x1 ′, y0 ′: y1 ′) is understood to be an area set to follow the movement of the object while maintaining the shape of the window (x0: x1, y0: y1). It's okay.
  • the histogram analysis unit 122 sets Region (x0 ′: x1 ′, y0 ′: y1 ′) by calculating four values x0 ′, x1 ′, y0 ′, and y1 ′.
  • FIG. 9 is a diagram showing four regions (x0 ′: x1 ′, y0 ′: y1 ′) (that is, examples of a plurality of identification target region candidates) set by the histogram analysis unit 122.
  • this identification target area candidate is referred to as a first identification target area candidate.
  • the first identification target area candidate is an area obtained by moving Window (x0: x1, y0: y1) in the x direction and the y direction.
  • this identification target area candidate is referred to as a second identification target area candidate.
  • the second identification target area candidate is an area obtained by moving Window (x0: x1, y0: y1) only in the y direction.
  • this identification target area candidate is referred to as a third identification target area candidate.
  • the third identification target area candidate is an area obtained by moving Window (x0: x1, y0: y1) only in the x direction.
  • this identification target area candidate is referred to as a fourth identification target area candidate.
  • the fourth identification target region candidate is the same region as Window (x0: x1, y0: y1).
  • the object identification unit 13 determines each of the plurality of regions (x0 ′: x1 ′, y0 ′: y1 ′) (each of the first identification target area candidate to the fourth identification target area candidate).
  • the object is identified as a target.
  • the object identification unit 13 identifies an object by CNN (Convolutional ⁇ Neural Network) such as deep learning technology from the viewpoint of improving the accuracy of object identification.
  • the object identification in the object identification section 13 is performed.
  • the calculation cost for the can be effectively reduced.
  • identification of an object by CNN is a process with high calculation cost, and this point is particularly beneficial.
  • identification by CNN is not limited to the identification of the object.
  • scene identification or material identification may be further performed by CNN identification.
  • a method for identifying an object a method with a relatively low calculation cost (eg, a method using local feature extraction) such as SIFT, SURF, and HOG is known.
  • a method using local feature extraction such as SIFT, SURF, and HOG.
  • the configuration of the display device 1 was newly conceived by the inventor of the present application (hereinafter, the inventor) based on the idea of “improving the accuracy of object identification and reducing the calculation cost for object identification”. Is. More specifically, the inventor has conceived a specific configuration of the window setting unit 12 of the display device 1 based on the idea.
  • the object identification unit 13 includes at least a part of the image of the object identified in the Nth frame from each of the first identification target area candidate to the fourth identification target area candidate in the (N + 1) th frame. Identify region candidates. For example, the object identification unit 13 determines one result as a correct answer from the results of object identification for each of the first identification target region candidate to the fourth identification target region candidate.
  • the result of object identification is generally obtained as a plurality of sets of each classification (category of each object) and its classification probability. Therefore, among the results of object identification for each of the first identification target area candidate to the fourth identification target area candidate, the classification that provides the maximum classification probability may be determined as the correct answer.
  • the object identification result in the current frame can be expected to be continuous with the object identification result in the previous frame.
  • the classification probability may be corrected so that the identification result (classification name) of the object in the previous frame is stored and the classification probability of the same classification is added in the current frame.
  • FIG. 10 shows an example of the result of the object identification in S15 by the object identification unit 13.
  • the object identifying unit 13 performs object detection for each of the first to fourth identification target area candidates in the (N + 1) th frame.
  • the histogram analysis unit 122 identifies an identification target area candidate including at least a part of the image of the object OBJ among the first identification target area candidate to the fourth identification target area candidate (that is, the object in S15).
  • the identification target area candidate specified by the identification unit 13) is set as the identification target area in the (N + 1) th frame.
  • FIG. 10 shows an example of the result of area setting in S16 by the histogram analysis unit 122.
  • the histogram analysis unit 122 calculates Region (x0 ′, x1 ′, y0 ′, y1 ′) that is the first identification target region candidate in the (N + 1) th frame based on the object identification result in S15. It is set as an identification target area, that is, Window (x0 ′: x1 ′, y0 ′: y1 ′).
  • an identification target area having the same shape as the identification target area in the Nth frame can be set also in the (N + 1) th frame. Therefore, the object OBJ can be identified in the (N + 1) th frame as in the Nth frame.
  • object identification in the current frame is performed by performing histogram generation processing and histogram analysis processing in the order of “first frame ⁇ second frame ⁇ ... ⁇ Nth frame ⁇ N + 1th frame ⁇ .
  • the identification target area of the next frame can be set following the movement of the object. Therefore, the object can be identified in each frame while following the moving object.
  • the window setting unit 12 can set the identification target region in the (N + 1) th frame based on the position of the object in the (N + 1) th frame of the moving image (that is, the object identification result). . Therefore, it is unnecessary to cause the object identification unit 13 to perform object identification for the entire frame of the moving image. As a result, the calculation cost for identifying an object in a moving image can be reduced as compared with the conventional case.
  • the window setting unit 12 is based on a motion vector (more specifically, HistogrmH and HistogrmV indicating respective distributions of horizontal and vertical components of the motion vector) included in the identification target region in the Nth frame.
  • a motion vector more specifically, HistogrmH and HistogrmV indicating respective distributions of horizontal and vertical components of the motion vector
  • the identification target area in the (N + 1) th frame is set. For this reason, it is possible to set an identification target region (more specifically, an identification target region candidate) in each frame while following an object (eg, OBJ) that moves between frames.
  • the window setting unit 12 may set the identification target region in the (N + 1) th frame based on the maximum value (for example, each peak frequency in the x direction and y direction) in the distribution of the motion vector components. Specifically, the window setting unit 12 may set the identification target region in the (N + 1) th frame using the above-described MVxPk and MVyPm (each peak rank having each peak frequency in each of the x direction and the y direction). . Thereby, it is possible to focus on the representative movement of the object, and thus the object can be tracked more effectively.
  • the reference image may be acquired from an image database called “ImageNet”, for example.
  • deep learning may be performed based on an existing CNN model learned from the image database.
  • a large number of reference images are prepared so that each state of a large number of objects can be learned.
  • the reference image it is rare that an object that is not framed at all is reflected. This is because, when the reference image is generated, image processing after shooting or shooting is performed so as to avoid such reflection.
  • the identification accuracy of the object (identification target area of each frame) on the display device 1 is greatly affected by whether or not the object is appropriately framed, as in the reference image. .
  • FIG. 11 is a diagram for explaining a difference in identification target areas in the (N + 1) th frame.
  • Region (x0 ′: x1 ′, y0 ′: y1 ′) (first identification area candidate) similar to FIG. 10 described above includes the entire image of the object OBJ (the entire image of the object OBJ is The object OBJ can be identified with high accuracy as described above.
  • the area NR1 in FIG. 11 is an area that includes the entire image of the object OBJ and is wider than the first identification area candidate (an area that includes the first identification area candidate).
  • the size of the object area (area where the image of the object OBJ exists) is relatively small compared to the size of the noise area (area where the background or other frame-in object image exists). turn into. For this reason, in the region NR1, there is a high possibility that the identification accuracy of the object OBJ is lowered.
  • the identification accuracy of the object OBJ can be further increased as compared with the regions NR2 and NR3 described below. This is because the entire shape (contour) of the object OBJ is expressed in the region NR1.
  • 11 is a region that includes a part of the image of the object OBJ and is narrower than the first identification region candidate (region included in the first identification region candidate).
  • the region NR2 a part of the image of the object OBJ is out of frame. For this reason, since the overall shape of the object OBJ is not expressed in the region NR2, it is difficult to determine the overall shape of the object OBJ. In the region NR2, there is a higher possibility that the identification accuracy of the object OBJ will be lower than in the region NR1.
  • the region NR3 in FIG. 11 is wider than the region NR2, but is a region where the degree of the frame out of the image of the object OBJ is more noticeable than the region NR2.
  • the overall shape of the object OBJ is further difficult to discriminate. For this reason, in the region NR3, there is a high possibility that the identification accuracy of the object OBJ is further lowered than in the case of the region NR2.
  • the identification target region in each frame includes the entire image of the object OBJ. That is, (i) the identification target region in the Nth frame includes the entire image of the object OBJ, and (ii) the region setting unit determines whether the identification target region in the N + 1th frame among the plurality of identification target region candidates. It is preferable that the identification target area candidate including the entire image of the object OBJ is set as the identification target area in the (N + 1) th frame.
  • the object region is made somewhat larger than the size of the noise region in the identification target region in each frame.
  • the object area preferably has an area larger than that of the noise area.
  • the identification target region in the Nth frame includes at least a part of the image of the object OBJ
  • the region setting unit sets the (N + 1) th among the plurality of identification target region candidates.
  • An identification target area candidate including at least a part of the image of the object OBJ in the frame may be set as the identification target area in the (N + 1) th frame.
  • Embodiment 2 will be described below with reference to FIGS. 12 and 13.
  • members having the same functions as those described in the first embodiment are denoted by the same reference numerals and description thereof is omitted.
  • various variations of the first embodiment will be described according to the following first to fifth examples.
  • a motion vector that is a two-dimensional vector is decomposed into two components (horizontal component and vertical component) to generate two one-dimensional histograms (horizontal component histogram HistogramH and vertical component histogram HistogramV).
  • two histograms were analyzed (example: S11 and S12 in FIG. 8).
  • the histogram generation unit 121 may generate one two-dimensional histogram indicating the distribution of the two components of the motion vector.
  • the histogram analysis unit 122 may search for the above-described peak class using the two-dimensional histogram as an analysis target.
  • Np peak classes are searched for each of the x component and the y component. Then, the estimated amount of movement as a two-dimensional vector is calculated by combining the peak class of the x component and the peak class of the y component. For this reason, Np two types of movement amount estimated values as two-dimensional vectors are calculated.
  • Np peak classes can be searched as a set of two-dimensional vectors. For this reason, there are Np kinds of estimated movement amounts as two-dimensional vectors. That is, the number of movement amount estimation values can be reduced compared to the case of a one-dimensional histogram.
  • the peak class search algorithm is more complicated than in the case of a one-dimensional histogram. For this reason, the amount of calculation for searching the peak class tends to increase as compared with the case of the one-dimensional histogram.
  • the number of movement amount estimation values can be reduced, so that the number of identification target area candidates can be reduced.
  • the calculation cost of the process (object identification) in S14 of FIG. 8 can be more effectively reduced.
  • x0 ′, x1 ′, y0 ′, y1 ′ are calculated using only the movement amount estimation value (combination of MVxPk and MVyPm), and Region (x0 ′: x1 ′, y0 ′: y1) is calculated. ') Was set (S13 in FIG. 8).
  • a random value may be further introduced and a plurality of identification target area candidates in the (N + 1) th frame may be added and set.
  • Rand1 to Rand4 are integer random values in a certain range with 0 as the central value.
  • the histogram analysis unit 122 may additionally set a plurality of regions (x0 ′′: x1 ′′, y0 ′′: y1 ′′) as identification target region candidates in the (N + 1) th frame.
  • the calculation cost for setting the identification target area candidate and the objects in the plurality of additional identification target area candidates set in comparison with the first embodiment The computational cost of identification increases.
  • the peripheral region of Region (x0 ′: x1 ′, y0 ′: y1 ′) is included in the identification target region candidate. Is possible.
  • the movement amount estimated value is not appropriately set (estimation error occurs in the movement amount estimated value), and the object OBJ is appropriately followed by Region (x0 ′: x1 ′, y0 ′: y1 ′). Even if this is not possible, the accuracy of object identification is expected to improve.
  • one of a plurality of regions (x0 ′: x1 ′, y0 ′: y1 ′) (identification target region candidates) is used as a window (x0 ′: x1 ′, y0 ′: y1) in the (N + 1) th frame.
  • ' (Identification target region in the (N + 1) th frame) (step S16 in FIG. 8).
  • the identification target area may be set by another method at the start of input of a moving image and at the scene change of the moving image. That is, the identification target area of the first frame (initial frame) may be set by another method. For example, an arbitrary area in the first frame may be set as an identification target area at random.
  • Rand (ab) is a function that outputs a random value in the range of integer values not less than a and not more than b. Then, the histogram analysis unit 122 may set Window (x0: x1, y0: y1) as the identification target region in the first frame.
  • the object identification and the identification target area are set for the second and subsequent frames by the processes in FIGS. 4 and 8 described above. It can be carried out.
  • the identification target area in the first frame may be set (selected) by a user input operation.
  • the histogram analysis unit 122 may set the window (x0: x1, y0: y1) that is the identification target area in the first frame, using the values of x0, x1, y0, and y1 selected by the user.
  • one identification target area (hereinafter referred to as a first object identification target area) is provided for one object (eg, OBJ) (hereinafter referred to as a first object) to be identified. Then, the first object is identified while following the first object using the first object identification target region.
  • a first object identification target area one identification target area
  • OBJ object
  • the first object is identified while following the first object using the first object identification target region.
  • one dedicated identification target area may be provided for each of the plurality of objects.
  • a dedicated identification target area hereinafter, a second object identification target area
  • a second object eg, OBJ2
  • the display device 1 may perform the above-described processes of FIGS. 4 and 8 simultaneously (in parallel) for each of the first object identification target region and the second object identification target region. Thereby, it is possible to identify each of two objects (first object and second object) present in each frame of the moving image while following each object. In this way, by providing a plurality of identification target areas according to the number of objects to be identified, each object can be identified while following each of the plurality of objects.
  • the identification target region corresponding to the object may be initialized as described in the third example. Thereby, it is expected that the identification accuracy of an object having a low classification probability is improved.
  • an identification target area for identifying a newly appearing object can be set in a frame in the middle of the moving image.
  • the identification target area may be deleted and the subsequent identification of the object may be stopped.
  • the identification target area may be deleted and the subsequent identification of the object may be stopped.
  • a plurality of regions are set as regions in which the windows (x0: x1, y0: y1) are translated. That is, the identification target area candidate in the (N + 1) th frame is set as an area having the same size and the same shape as the identification target area in the Nth frame (an area congruent with the identification target area in the Nth frame).
  • the identification target area candidate in the (N + 1) th frame may not be set to a size different from (i) the identification target area in the Nth frame, or (ii) set to a shape different from that of the identification target area in the Nth frame. May be.
  • an identification target area candidate in the (N + 1) th frame having a size different from that of the identification target area may be set by enlarging or reducing the identification target area in the Nth frame.
  • the identification target area candidate in the (N + 1) th frame having a shape different from that of the identification target area may be set by modifying the identification target area in the Nth frame.
  • the histogram analysis unit 122 expands the identification target region in the Nth frame in accordance with the change in the distribution of HistogramH and HistogramV between the N ⁇ 1th frame (previous frame) and the Nth frame (current frame). Then, identification target area candidates in the (N + 1) th frame (next frame) may be set.
  • FIG. 12 is a graph showing an example of changes in distribution of values (frequency) of HistogramH and HistogramV between the (N ⁇ 1) th frame and the Nth frame.
  • (a) shows the change in distribution in HistogramH
  • (b) shows the change in distribution in HistogramV.
  • indicates the standard deviation of HistogramH and HistogramV in the (N-1) th frame. Also, ⁇ ′ indicates the standard deviation of HistogramH and HistogramV in the Nth frame.
  • the standard deviation is represented by the same symbol ( ⁇ and ⁇ ′) in both the x direction and the y direction. However, it should be noted that the standard deviation may be different for each of the x direction and the y direction.
  • the standard deviation of Histogram H in the N-1th frame may be expressed as ⁇ x
  • the standard deviation of HistogramV in the N-1th frame may be expressed as ⁇ y.
  • the standard deviation of Histogram H in the Nth frame may be expressed as ⁇ ′x
  • the standard deviation of Histogram V in the Nth frame may be expressed as ⁇ ′y
  • the standard deviation of each histogram in the Nth frame may be distinguished and expressed.
  • FIG. 13 is a diagram illustrating an example in which an identification target area in the Nth frame is enlarged and identification target area candidates in the (N + 1) th frame are set.
  • the identification target area in the current frame is enlarged and the identification target area candidate in the next frame is set, the identification target area is increased according to the increase in the size of the object (eg, OBJ) enlarged between the frames.
  • the object eg, OBJ
  • Can set candidate size Therefore, even when an object is enlarged between frames, the followability and identification accuracy of the object can be improved.
  • the histogram analysis unit 122 may set the identification target area candidate in the (N + 1) th frame by translating and reducing the identification target area in the Nth frame. Thereby, even when an object is reduced between frames, the followability and identification accuracy of the object can be improved.
  • the histogram analysis unit 122 performs either enlargement or reduction processing on the identification target region in the Nth frame according to the magnitude relationship between ⁇ ′ and ⁇ , and in the (N + 1) th frame (next frame). Identification target area candidates may be set.
  • the histogram analysis unit 122 multiplies the lengths of the identification target areas in the Nth frame in the horizontal direction and the vertical direction by ⁇ , and each of the identification target area candidates in the N + 1th frame in the horizontal and vertical directions. You may set the length.
  • is also referred to as an enlargement magnification.
  • the value of ⁇ may be set based on ⁇ ′ and ⁇ .
  • ⁇ ′ / ⁇ may be set. In this case, if ⁇ ′> ⁇ , ⁇ > 1, so that the identification target area in the Nth frame is enlarged. On the other hand, if ⁇ ′ ⁇ , ⁇ ⁇ 1, so that the identification target area in the Nth frame is reduced.
  • the identification target area candidate in the (N + 1) th frame is obtained by performing (i) translation and (i) either enlargement or reduction on the identification target area in the Nth frame, May be set.
  • the histogram analysis unit 122 translates the identification target area in the Nth frame and enlarges or reduces the translated identification target area, thereby a plurality of the identification target area candidates in the (N + 1) th frame. May be set.
  • the length of the identification target area may be enlarged or reduced at different ratios in the horizontal direction and the vertical direction.
  • the identification target area candidate in the (N + 1) th frame may not be limited to an area similar to the identification target area in the Nth frame.
  • the histogram analysis unit 122 determines that the region setting unit identifies each frame so that the identification target region (rectangle) in the Nth frame and the identification target region (rectangle) in the (N + 1) th frame have parallel sides.
  • the target area may be set.
  • frame can be set by the calculation (example: parallel movement and expansion / contraction) with comparatively low calculation cost.
  • the identification target area in the Nth frame may be set by further rotating the identification target area. That is, the identification target area candidate in the (N + 1) th frame may be set as an area similar to the identification target area in the Nth frame. That is, the histogram analysis unit 122 may set the identification target region candidate in the (N + 1) th frame by performing similarity transformation on the identification target region in the Nth frame.
  • the length of the identification target area may be enlarged or reduced at different ratios in the horizontal direction and the vertical direction.
  • the identification target area candidate in the (N + 1) th frame may not be limited to an area similar to the identification target area in the Nth frame. Therefore, the histogram analysis unit 122 may set the identification target region candidate in the (N + 1) th frame by performing linear transformation on the identification target region in the Nth frame.
  • the histogram analysis unit 122 may set an identification target region candidate in the (N + 1) th frame by performing affine transformation on the identification target region in the Nth frame.
  • FIG. 14 is a functional block diagram illustrating a configuration of a main part of the signal processing unit 30 (moving image processing apparatus) according to the third embodiment.
  • the display device of Embodiment 3 is referred to as a display device 3.
  • portions not shown are the same as those of the display device 1 of FIG. This also applies to the fourth embodiment described below.
  • the signal processing unit 30 is configured to exclude the interpolated image generation unit 111 in the signal processing unit 10 of the first embodiment. In the signal processing unit, since the interpolated image generation unit 111 is excluded, frame rate conversion for the moving image A (input moving image) is not performed. That is, the moving image B is not generated. In the signal processing unit 30, the above-described moving image A (input moving image) is supplied to each of the motion vector calculation unit 112, the object identification unit 13, and the image quality correction unit 14.
  • the motion vector calculation unit 112 extracts each frame from the moving image A and calculates a motion vector of the moving image. Then, the window setting unit 12 sets an identification target region in each frame of the moving image A. Therefore, the object identification unit 13 performs object identification for the identification target region set in each frame of the moving image A.
  • the image quality correcting unit 14 processes the moving image A according to the identification result of the object identifying unit 13 to generate a moving image C that is an output moving image. Then, the image quality correction unit 14 supplies the moving image C to the display unit 80.
  • the moving image processing apparatus eg, the signal processing unit 30
  • some of the components eg, the interpolated image generation unit 111 that are not included in the above-described identification processing unit are It may be omitted.
  • the configuration of the moving image processing apparatus can be simplified as compared with the first embodiment.
  • FIG. 15 is a functional block diagram illustrating a configuration of a main part of the signal processing unit 40 (moving image processing apparatus) according to the fourth embodiment.
  • the display device of Embodiment 4 is referred to as a display device 4.
  • the moving image A may be generated by decoding moving image data compressed by a predetermined encoding method.
  • data of a moving image for example, moving image A
  • compressed moving image data data of a moving image (for example, moving image A) compressed by a predetermined encoding method.
  • Embodiment 4 considers a case where information (motion vector information) indicating a motion vector for compression is included in the compressed moving image data in advance.
  • information motion vector information
  • An example of a format of compressed moving image data including the motion vector information can be MPEG4.
  • the signal processing unit 40 is configured to exclude the motion vector calculation unit 112 in the signal processing unit 30 of the third embodiment. That is, in the signal processing unit 30, the configuration of the moving image processing apparatus is further simplified as compared with the above-described third embodiment.
  • the moving image A is supplied to each of the window setting unit 12, the object identification unit 13, and the image quality correction unit 14.
  • the histogram generation unit 121 detects the motion vector of the moving image A by acquiring the motion vector information included in the compressed moving image data.
  • the motion image processing apparatus when the motion vector information is included in the compressed motion image data, the motion image processing apparatus according to an aspect of the present disclosure can omit the process of calculating the motion vector. Therefore, the configuration of the moving image processing apparatus is further simplified.
  • control blocks (particularly the signal processing units 10, 30, 40) of the display devices 1, 3, 4 may be realized by a logic circuit (hardware) formed in an integrated circuit (IC chip) or the like, or a CPU ( It may be realized by software using a Central Processing Unit.
  • the display devices 1, 3, and 4 include a CPU that executes instructions of a program that is software that realizes each function, a ROM (Read CPU) in which the program and various data are recorded so as to be readable by the computer (or CPU). Only Memory) or a storage device (these are referred to as “recording media”), RAM (Random Access Memory) for expanding the program, and the like. And the objective of this indication is achieved when a computer (or CPU) reads and runs the said program from the said recording medium.
  • a “non-temporary tangible medium” such as a tape, a disk, a card, a semiconductor memory, a programmable logic circuit, or the like can be used.
  • the program may be supplied to the computer via an arbitrary transmission medium (such as a communication network or a broadcast wave) that can transmit the program.
  • an arbitrary transmission medium such as a communication network or a broadcast wave
  • one aspect of the present disclosure can also be realized in the form of a data signal embedded in a carrier wave in which the program is embodied by electronic transmission.
  • a moving image processing apparatus (signal processing unit 10) according to aspect 1 of the present disclosure is a moving image processing apparatus that processes a moving image including a plurality of frames, and an object (OBJ) represented in the moving image. And an object identification unit (13) for identifying the image in the N + 1th frame based on the position of the image of the object in the Nth frame (N is a natural number) of the moving image in the (N + 1) th frame.
  • An area setting unit (window setting unit 12) for setting an identification target area (Window (x0 ′: x1 ′, y0 ′: y1 ′)) that is a target area.
  • the object identification in the current frame and the identification target area of the next frame can be set in the order of “first frame ⁇ second frame ⁇ ... ⁇ Nth frame ⁇ N + 1th frame ⁇ . Therefore, since it is not necessary to perform object identification for the whole of each frame, the calculation cost for object identification can be reduced as compared with the conventional case.
  • the identification target region (Window (x0: x1, y0: y1)) in the Nth frame includes at least a part of the image of the object.
  • the region setting unit preferably sets the identification target region in the (N + 1) th frame based on the motion vector included in the identification target region in the Nth frame among the motion vectors of the moving image.
  • the area setting unit is based on the identification target area in the Nth frame and the motion vector included in the identification target area.
  • a plurality of identification target area candidates that are candidates for the identification target area in the (N + 1) th frame are set, and the object identification unit includes at least a part of the image of the object in any of the plurality of identification target area candidates in the (N + 1) th frame.
  • the region setting unit sets, from among a plurality of identification target region candidates, an identification target region candidate that includes at least a part of the image of the object in the (N + 1) th frame as an identification target region in the (N + 1) th frame. It is preferable to do.
  • the identification target area can be set according to the identification result in each of the plurality of identification target area candidates. Therefore, it is possible to more effectively follow an object moving between frames.
  • the area setting unit is based on a statistical value in the distribution of the motion vector components included in the identification target area in the Nth frame. It is preferable to set a plurality of identification target area candidates in the (N + 1) th frame.
  • the area setting unit is based on a local maximum value in the distribution of the motion vector components included in the identification target area in the Nth frame. It is preferable to set a plurality of identification target area candidates in the (N + 1) th frame.
  • the object since the representative movement of the object can be focused on the basis of the maximum value, the object can be tracked more effectively.
  • the moving image processing apparatus includes the entire object image included in the identification target area in the Nth frame.
  • the setting unit sets, from among the plurality of identification target area candidates, an identification target area candidate that includes the entire image of the object in the (N + 1) th frame as an identification target area in the (N + 1) th frame.
  • the object identification accuracy by the object identification unit can be improved.
  • the moving image processing apparatus is configured such that the area setting unit sets a rectangular area as the identification target area, and the rectangle in the Nth frame It is preferable to set the identification target region in each frame so that the rectangle in the (N + 1) th frame has sides parallel to each other.
  • the identification target area of the (N + 1) th frame can be set by, for example, translation and enlargement / reduction of the identification target area in the Nth frame. That is, the identification target area in each frame can be set by a calculation with a relatively low calculation cost.
  • the moving image processing apparatus is such that the object identification unit includes a learned model learned using images of a plurality of objects. preferable.
  • the object identification accuracy can be improved by using a learned model obtained by CNN such as deep learning technology.
  • a learned model obtained by CNN such as deep learning technology.
  • the moving image processing apparatus further includes an image quality correction unit that processes the moving image according to the identification result of the object identifying unit in any one of the first to eighth aspects. Is preferred.
  • the moving image processing can be performed according to the object identification result.
  • moving image processing can be performed so as to more effectively express the texture of an object. Therefore, it is possible to enhance the texture of the object expressed in the moving image.
  • the display device (1) according to the tenth aspect of the present disclosure preferably includes the moving image processing apparatus according to any one of the first to ninth aspects.
  • the moving image processing method is a moving image processing method for processing a moving image including a plurality of frames, the object identifying step for identifying an object expressed in the moving image, Based on the position of the image of the object in the Nth frame (N is a natural number) of the moving image in the (N + 1) th frame, an identification target region, which is an identification target region in the object identification step, is set in the (N + 1) th frame. And an area setting step.
  • the moving image processing apparatus may be realized by a computer.
  • the moving image processing apparatus is operated by causing the computer to operate as each unit (software element) included in the moving image processing apparatus.
  • a control program for a moving image processing apparatus for realizing the above in a computer and a computer-readable recording medium on which the control program is recorded also fall within the scope of the present disclosure.
  • Display device 10 30, 40 Signal processing unit (moving image processing device) 12 Window setting part (area setting part) 13 Object identification unit 14 Image quality correction unit Window (x0: x1, y0: y1) Identification target area in the Nth frame Window (x0 ′: x1 ′, y0 ′: y1 ′) Identification target area in the (N + 1) th frame Region (x0 ′) : X1 ′, y0 ′: y1 ′) Identification target area candidates OBJ, OBJ2 in the (N + 1) th frame

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Geometry (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Television Systems (AREA)

Abstract

動画像における物体識別のための計算コストを従来よりも低減する。複数のフレームによって構成された動画像を処理する信号処理部(10)は、上記動画像において表現された物体を識別する物体識別部(13)と、上記動画像の第Nフレーム(Nは自然数)における上記物体の像の、第N+1フレームにおける位置に基づいて、第N+1フレームにおいて物体識別部(13)による識別対象となる領域である識別対象領域を設定するウィンドウ設定部(12)と、を備えている。

Description

動画像処理装置、表示装置、動画像処理方法、および制御プログラム
 以下の開示は、複数のフレームによって構成された動画像を処理する動画像処理装置等に関する。
 近年、様々な動画像処理の技術が提案されている。一例として、特許文献1に開示された技術は、動画像において移動している物体(移動物体)の像を検出し、当該移動物体の種別または属性を高精度に識別することを目的としている。
 具体的には、特許文献1の物体識別装置は、(i)動画像における移動物体を検出する物体検出部と、(ii)移動物体の動線を求める動線算出部と、(iii)移動物体の動線の形状に基づき当該移動物体の種別または物体の属性を識別する物体識別部と、を備えている。
日本国公開特許公報「特開2016-57998号公報(2016年4月21日公開)」
 しかしながら、特許文献1の技術は、物体識別のため、高精度な画像認識(例:ディープラーニング技術を用いた画像認識)を行おうとするものではない。一方、そのような高精度な画像認識を行おうとすると、特許文献1の技術では、動画像における物体識別のための計算コストが非常に高くなってしまう。本開示の一態様は、動画像における物体識別のための計算コストを従来よりも低減することを目的とする。
 上記の課題を解決するために、本開示の一態様に係る動画像処理装置は、複数のフレームによって構成された動画像を処理する動画像処理装置であって、上記動画像において表現された物体を識別する物体識別部と、上記動画像の第Nフレーム(Nは自然数)における上記物体の像の、第N+1フレームにおける位置に基づいて、第N+1フレームにおいて、上記物体識別部による識別対象となる領域である識別対象領域を設定する領域設定部と、を備えている。
 また、上記の課題を解決するために、本開示の一態様に係る動画像処理方法は、複数のフレームによって構成された動画像を処理する動画像処理方法であって、上記動画像において表現された物体を識別する物体識別工程と、上記動画像の第Nフレーム(Nは自然数)における上記物体の像の、第N+1フレームにおける位置に基づいて、第N+1フレームにおいて、上記物体識別工程における識別対象となる領域である識別対象領域を設定する領域設定工程と、を含んでいる。
 本開示の一態様に係る動画像処理装置によれば、動画像における物体識別のための計算コストを従来よりも低減することが可能となる。また、本開示の一態様に係る動画像処理方法によっても、同様の効果を奏する。
実施形態1に係る表示装置の要部の構成を示す機能ブロック図である。 動きベクトルを説明するための概略図である。 第Nフレームにおける識別対象領域を説明するための図である。 図1の表示装置におけるヒストグラム生成処理の流れを例示する図である。 (a)および(b)はそれぞれ、ブロック包含条件を説明するための図である。 (a)および(b)はそれぞれ、ヒストグラム生成処理によって得られた2つのヒストグラムの一例を示す図である。 (a)~(c)はそれぞれ、ヒストグラム生成処理において使用または設定されるデータの一例を示す図である。 図1の表示装置におけるヒストグラム解析処理の流れを例示する図である。 複数の識別対象領域候補の一例を示す図である。 複数の識別対象領域候補に対する物体識別の結果の一例を示す図である。 第N+1フレームにおける識別対象領域の相違を説明するための図である。 (a)および(b)はそれぞれ、実施形態2における、第N-1フレームと第Nフレームとの間での、2つのヒストグラムのそれぞれの値の分布の変化を例示する図である。 実施形態2において、第Nフレームにおける識別対象領域を拡大して、第N+1フレームにおける識別対象領域候補を設定する例を示す図である。 実施形態3に係る動画像処理装置の要部の構成を示す機能ブロック図である。 実施形態4に係る動画像処理装置の要部の構成を示す機能ブロック図である。
 〔実施形態1〕
 以下、実施形態1について、図1~図11に基づいて詳細に説明する。まず、図1を参照して、実施形態1の表示装置1の概要について述べる。図1は、表示装置1の要部の構成を示す機能ブロック図である。
 (表示装置1の概要)
 表示装置1は、信号処理部10(動画像処理装置)、表示部80、および記憶部90を備えている。一例として、表示装置1は、テレビまたはPC(Personal Computer)であってよい。あるいは、表示装置1は、多機能型携帯電話機(スマートフォン)またはタブレット等の携帯型情報端末等であってもよい。
 以下に述べるように、表示装置1では、信号処理部10において動画像(入力像画像,入力映像信号)に処理が施され、処理後の動画像(出力動画像,出力映像信号)が表示部80に出力される。表示部80は、動画像を表示する部材であり、例えば液晶ディスプレイまたは有機EL(Electro-Luminescence)ディスプレイであってよい。
 実施形態1では、説明の便宜上、入力動画像を動画像A、出力動画像を動画像Cとも称する。実施形態1では、信号処理部10では、動画像Cに先立ち、動画像B(中間的な動画像)が生成される場合を例示する。なお、実施形態1の各動画像は、複数のフレームによって構成されているものとする。
 信号処理部10は、表示装置1の各部を統括的に制御する制御部(不図示)の一部分として設けられている。当該制御部の機能は、記憶部90に記憶されたプログラムを、CPU(Central Processing Unit)が実行することで実現されてよい。信号処理部10の各部の機能については、後により詳細に述べる。記憶部90は、信号処理部10が実行する各種のプログラム、および当該プログラムによって使用されるデータを格納する。
 実施形態1では、信号処理部10(より具体的には、後述するフレームレート変換部11)に、外部から動画像Aが供給される場合を例示する。動画像Aは、外部からの放送波(電波)が、例えば表示装置1のチューナ(不図示)によって受信および復号されることによって、表示装置1の内部において生成されてよい。この場合、チューナから信号処理部10に動画像Aが供給される。
 動画像Aは、信号処理部10における処理の対象となる動画像である。一例として、動画像Aの解像度は、4K2K(水平画素数3840×垂直画素数2160)であってよい。但し、実施形態1において述べる各動画像の解像度は、上記のものに限定されず、適宜設定されてよい。例えば、動画像Aの解像度は、Full HD(水平画素数1920×垂直画素数1080)であってもよいし、8K4K(水平画素数7680×垂直画素数4320)であってもよい。
 記憶部90に動画像Aがあらかじめ格納されている場合、信号処理部10は、記憶部90から動画像Aを取得してもよい。あるいは、信号処理部10は、表示装置1に接続された外部装置(例:デジタルムービーカメラ)から動画像Aを取得してもよい。
 以下に述べるように、信号処理部10は、入力動画像としての動画像Aを処理し、出力動画像としての動画像Cを生成する。そして、信号処理部10(より具体的には、後述する画質補正部14)は、動画像Cを表示部80に供給する。従って、表示部80において動画像Cを表示できる。なお、表示部80の動作を制御する表示制御部(不図示)は、信号処理部10に設けられてもよいし、表示部80自体に設けられてもよい。
 (信号処理部10)
 続いて、信号処理部10の具体的な構成について述べる。図1に示されるように、信号処理部10は、フレームレート変換部11、ウィンドウ設定部12(領域設定部)、物体識別部13、および画質補正部14を備えている。
 以下に述べるように、ウィンドウ設定部12および物体識別部13は、本開示の一態様に係る動画像処理装置の要部である。ウィンドウ設定部12および物体識別部13は、総称的に「識別処理部」と称されてもよい。図1および後述の各図面では、説明の便宜上、識別処理部線が点線によって示されている。
 フレームレート変換部11は、内挿画像生成部111および動きベクトル算出部112を備えている。内挿画像生成部111および動きベクトル算出部112のそれぞれには、動画像Aが供給される。
 内挿画像生成部111は、動画像Aのフレームレートを増加させる。具体的には、内挿画像生成部111は、動画像Aから、当該動画像Aを構成する複数のフレームのそれぞれを抽出する。内挿画像生成部111によって抽出された各フレームは、例えばフレームメモリ(不図示)に格納されてよい。当該フレームメモリは、フレームレート変換部11に設けられていてもよいし、フレームレート変換部11の外部に設けられていてもよい。
 続いて、内挿画像生成部111は、公知のアルゴリズムを用いて、上記フレームに基づいて補間フレーム(中間フレーム)を生成する。例えば、内挿画像生成部111は、以下に述べる動きベクトルを用いて、補間フレームを生成してよい。そして、内挿画像生成部111は、動画像Aに対して、所定のフレーム間隔ごとに補間フレームを挿入することにより、動画像Aのフレームレートを増加させる。
 以降、内挿画像生成部111における処理後の動画像を、動画像Bとも称する。一例として、フレームレート変換部11は、動画像Aのフレームレートを2倍に増加させてよい。例えば、動画像Aのフレームレートが60fps(frames per second)である場合、内挿画像生成部111は、120fpsのフレームレートを有する動画像Bを生成する。
 但し、フレームレート変換部11におけるフレームレートの変換倍率は、上記のものに限定されず、適宜設定されてよい。また、実施形態1において述べる各動画像のフレームレートも、上記のものに限定されない。一例として、フレームレート変換部11は、フレームレート24fpsの動画像Aに対して、フレームレートを10倍に増加させて、フレームレート240fpsの動画像Bを生成してもよい。
 内挿画像生成部111が設けられることにより、表示部80に表示させる動画像のフレームレートを、当該表示部80の性能仕様に応じたものに変換できる。但し、後述の実施形態3等に示されるように、内挿画像生成部111は、信号処理部10における必須の構成要素ではないことに留意されたい。例えば、動画像Aのフレームレートがすでに表示部80の性能仕様に応じたものであれば、内挿画像生成部111において動画像Bを生成する(動画像Aのフレームレートを変換する)必要はないためである。
 内挿画像生成部111は、画質補正部14に動画像Bを供給する。また、内挿画像生成部111は、物体識別部13に動画像Bの少なくとも一部を供給する。実施形態1では、内挿画像生成部111から物体識別部13に、動画像Bの全体が供給される場合を例示する。
 動きベクトル算出部112は、動画像A(より具体的には、フレームメモリに格納された、動画像Aの各フレーム)を解析することにより、動きベクトルを算出(検出)する。動きベクトル算出部112における動きベクトルの算出には、公知のアルゴリズムが用いられてよい。
 なお、信号処理部10から内挿画像生成部111を除外した場合には、動画像Aから各フレームを抽出する機能を、動きベクトル算出部112に付与してもよい。さらに、後述の実施形態4に示されるように、信号処理部10から動きベクトル算出部112をさらに除外することもできる。つまり、フレームレート変換部11(内挿画像生成部111および動きベクトル算出部112)は、信号処理部10における必須の構成要素ではないことに留意されたい。
 続いて、動きベクトルについて説明する。まず、動画像(例:動画像A)を構成する各フレームを複数のブロック(領域)に空間的に分割した場合を考える。動きベクトルとは、1つのフレーム(例:基準フレーム)におけるブロック(より具体的には、ブロック内に位置する仮想的なオブジェクト)と、当該1つのフレームに後続する別のフレーム(例:基準フレームの次のフレーム)における対応するブロックとの位置のずれを示すベクトルである。
 つまり、動きベクトルとは、1つのフレームにおけるブロックが、後続する別のフレームにおいてどの位置へと移動したかを示すベクトルである。動きベクトルは、上記ブロックの移動量を示す指標として用いられる。
 図2は、動きベクトルを説明するための概略図である。図2に示されるように、動画像に含まれる各フレームは、水平方向の長さ(解像度)a、垂直方向の長さbのブロックに均一に分割される。ここで、動画像の水平画素数をH、垂直画素数をVとしてそれぞれ表す。なお、水平方向をx方向、垂直方向をy方向とも称する。
 この場合、各フレームは、水平方向に(H/a)分割されるとともに、垂直方向に(V/b)分割される。すなわち、各フレームは、(H/a)×(V/b)個のブロックに分割される。なお、a、b、H、およびVの値は、それぞれ任意に設定されてよい。一例として、a=b=1の場合には、1個のブロックは1個の画素に一致する。
 ここで、図2におけるブロックのうちの1つを、Block(i,j)として表す。iおよびjはそれぞれ、各フレームにおける水平方向および垂直方向の位置を示す指標(番号)である。iは、xy座標におけるx方向成分(以下、x成分とも称する)の序数である。また、jは、xy座標におけるy方向成分(以下、y成分とも称する)の序数である。
 なお、図2の紙面における各ブロックのうち、最も左上に位置するブロックを、Block(0,0)とする。また、図2において、(i)ブロックの水平方向の番号は、左側から右側に向かうにつれて、(ii)ブロックの垂直方向の番号は、上側から下側に向かうにつれて、1つずつ増加するように設定されている。従って、I=H/a-1、J=V/b-1とすれば、「0≦i≦I、かつ、0≦j≦J」である。
 図2に示されるように、Block(i,j)の動きベクトルを、MV(i,j)=(MVx(i,j),MVy(i,j))として表す。MVxは、動きベクトルMVのx成分である、また、MVyは、動きベクトルMVのy成分である。従って、動きベクトルMVは、MV=(MVx,MVy)として総称的に表されてもよい。
 動きベクトル算出部112は、図2における各ブロックについて、動きベクトル(MVx,MVy)を算出する。そして、動きベクトル算出部112は、当該動きベクトル(MVx,MVy)を、内挿画像生成部111およびウィンドウ設定部12に供給する。
 ウィンドウ設定部12は、ヒストグラム生成部121およびヒストグラム解析部122を備えている。以下に述べるように、ウィンドウ設定部12は、動画像(例:動画像B)の第Nフレーム(Nは自然数)(現フレーム)において表現された物体の像の、第N+1フレーム(次フレーム)における位置に基づいて、当該第N+1フレームにおける識別対象領域を設定する。なお、識別対象領域とは、物体識別部13による物体の識別対象となる領域を意味する。
 より具体的には、ウィンドウ設定部12は、動画像の動きベクトルのうち、第Nフレームにおける識別対象領域に含まれる動きベクトル(識別対象領域内の動きベクトル)に基づいて、第N+1フレームにおける識別対象領域を設定する。以下に述べるように、第Nフレームにおける識別対象領域には、物体の像の少なくとも一部分が含まれている。
 図3は、第Nフレームにおける識別対象領域を説明するための図である。図3のWindow(x0:x1,y0:y1)は、4つの点(x0,y0)、(x0,y1)、(x1,y1)、(x1,y0)を頂点とする四角形(矩形,長方形)を表す(後述の図5等も参照)。以下、Window(x0:x1,y0:y1)を、単に「ウィンドウ」とも称する。x0およびx1はそれぞれ、0≦x0,x1≦H-1を満たす整数である。また、y0およびy1はそれぞれ、0≦y0,y1≦V-1を満たす整数である。
 図3では、2つの物体OBJ(例:雲)およびOBJ2(例:三日月)の像が第Nフレームにおいて表現されている場合が例示されている。実施形態1では、物体OBJを物体識別部13による識別対象として取り扱う場合を説明する。この場合、以下に述べるように、Window(x0:x1,y0:y1)が、第Nフレームにおける識別対象領域となる。図3の例では、Window(x0:x1,y0:y1)には、物体OBJの像の全体と、OBJの像の背景BGとが含まれている。
 ウィンドウ設定部12は、Window(x0:x1,y0:y1)に含まれる動きベクトル(MVx,MVy)に基づいて、第N+1フレームにおける識別対象領域を設定する。ウィンドウ設定部12における識別対象領域の具体的な設定方法(つまり、ヒストグラム生成部121およびヒストグラム解析部122の具体的な動作)については、後述する。
 物体識別部13は、動画像(例:動画像B)において表現された物体を識別する。より具体的には、図3に示されるように、物体識別部13は、第Nフレームにおける識別対象領域であるWindow(x0:x1,y0:y1)に含まれる物体OBJを認識する。より具体的には、物体識別部13は、物体OBJの像を検出し、当該物体OBJが属する物体のカテゴリ(以下、物体カテゴリ)を特定する。例えば、物体識別部13は、物体OBJの物体カテゴリが雲であると特定する。
 物体識別部13による物体識別方法(物体カテゴリの特定方法)には、任意の手法が用いられてよい。一例として、物体識別方法には、ディープラーニング(deep learning)(深層学習とも称される)技術が利用されてよい。但し、その他の公知の物体識別方法が採用されてもよい。
 実施形態1では、物体識別部13は、ディープラーニング技術等のニューラルネットワークを用いた機械学習を行う場合を例示する。この場合、物体識別部13に複数の物体の画像(例:後述のリファレンス画像)を用いてあらかじめ機械学習を行わせて、物体を識別する(物体カテゴリを特定する)ためのモデルを取得させておけばよい。以下、当該モデルを学習済みモデルと称する。
 以下の説明において、物体識別部13は、学習済みモデルを含んでいるものとする。物体識別部13は、OBJと学習済みモデルとの照合を行うことで、物体OBJを識別できる(OBJの物体カテゴリを特定できる)。
 ディープラーニング技術を用いることにより、その他の公知の物体識別方法に比べて、物体識別部13における物体識別を高精度に行うことが可能となる。特に、十分なハードウェア資源を用いた学習により、物体識別部13に学習済みモデルを取得させた場合には、より高精度に物体を識別できる。
 加えて、ディープラーニング技術を用いた場合には、物体を識別するためのモデルを、表示装置1の設計者があらかじめ準備することが不要となる。それゆえ、機械学習の結果に応じて、広範囲な物体の質感に応じた学習済みモデルを取得できる。
 ところで、ディープラーニング技術等のニューラルネットワークによって得られた学習済みモデルを利用した物体識別は、比較的計算コストが高い処理であることが知られている。しかしながら、上述のように、物体識別部13は、第Nフレームにおける識別対象領域に対してのみ、物体の識別を行えばよい。すなわち、物体識別部13は、第Nフレームの領域全体に対して、物体識別を行う必要はない。このように、物体識別部13に物体の識別を行わせる対象となる領域をあらかじめ絞ることで、物体識別のための計算コストを効果的に低減できる。
 物体識別部13は、Window(x0:x1,y0:y1)における物体OBJの識別結果を示す物体識別情報を生成し、当該物体識別情報を画質補正部14に供給する。物体識別情報は、物体OBJの質感を示す指標の1つとして用いることができる。
 画質補正部14は、上述の動画像Bを処理し、動画像C(出力動画像)を生成する。そして、画質補正部14は、動画像Cを表示部80に供給する。画質補正部14は、表示部80の性能仕様に応じて、動画像Bに公知の画質補正処理を施してよい。当該画質補正処理の例としては、色補正、コントラスト補正、エッジ補正、および画質鮮鋭化等の処理が挙げられる。
 さらに、実施形態1において、画質補正部14は、物体識別部13から取得した物体識別情報に基づいて(つまり、物体識別部13の識別結果に応じて)、動画像Bを処理してよい。すなわち、画質補正部14に、物体OBJの質感をより効果的に表現するように、動画像Bを処理させてよい。当該処理によれば、動画像Cにおいて表現された物体OBJの質感を高めることが可能となる。
 従来では、動画像において表現された物体の質感を十分に表現するためには、非常に高い解像度を有するカメラ(撮像装置)によって動画像を撮影および記録し、高解像度フォーマットの映像信号を表示装置1(映像表示装置)に入力する(例:8K4Kレベルの解像度フォーマットを利用する)必要があった。あるいは、動画像の解像度が非常に高い場合であっても、非可逆圧縮によって生成された圧縮動画像データ(後述)が提供されている場合には、当該圧縮動画像データの復号時に動画像の劣化が生じてしまう。この場合、当該劣化に起因して、動画像における質感の表現性が低下する。このように、従来では、動画像において質感を効果的に表現することが容易ではなかった。
 しかしながら、画質補正部14によれば、(i)動画像の解像度が必ずしも十分に高くない場合、または、(ii)圧縮動画像データの復号時に動画像の劣化が生じた場合であっても、物体の質感を効果的に表現できる。つまり、物体の質感を十分に表現できる動画像を、従来よりも簡便な構成で提供できる。
 一例として、物体OBJの物体カテゴリが「雲」であると特定された場合には、雲の「ふわふわ」とした質感(軽さを表す素材感)を高めるように、画質補正部14において所定の動画像処理(例:輪郭補正)が行われてよい。
 (ウィンドウ設定部12におけるヒストグラム生成処理の流れ)
 続いて、ウィンドウ設定部12におけるヒストグラム生成部121およびヒストグラム解析部122のそれぞれの動作について、具体的に説明する。まず、ヒストグラム生成部121の動作について述べる。図4は、ヒストグラム生成部121およびその周辺の機能部の処理の流れS1~S3bを例示するフローチャートである。図4の処理は、ヒストグラム生成処理とも称される。
 ヒストグラム生成部121は、動画像に含まれる各フレームに対して(動画像が1フレーム入力されるごとに)、ヒストグラム生成処理を行う。以下、ヒストグラム生成部121が動画像の第Nフレームを処理する場合を例示する。
 まず、S1において、後述するヒストグラム解析部122によって、第Nフレームにおける識別対象領域であるWindow(x0:x1,y0:y1)が設定される。ヒストグラム解析部122がWindow(x0:x1,y0:y1)を設定する方法については、後述の図8にて述べる(特に、図8の処理S16を参照)。
 Window(x0:x1,y0:y1)を規定する4つの値「x0,x1,y0,y1」は、第Nフレームの有効データが入力される期間(有効データ期間)までに設定され、ヒストグラム生成処理が完了するまで一定に保持される。後述の図7の(a)には、4つの値「x0,x1,y0,y1」を示す表が示されている。図7は、ヒストグラム生成処理において使用または設定されるデータの一例を示す表である。
 以下、図7の(a)に示されるように、x0=300、y0=600、x1=400、y1=700であるとする。なお、図7の(a)では、これら4つのパラメータが、ウィンドウを規定するものであることを示すために、「Window」という添字が便宜上付されている。
 続いて、ヒストグラム生成部121は、Window(x0:x1,y0:y1)に含まれる動きベクトルの水平成分および垂直成分のそれぞれについて、統計値を示すヒストグラムを生成する。
 以下、動きベクトルの水平成分のヒストグラムをHistogramHと称する。HistogramHは、動きベクトルの水平成分を階級(横軸の値)とする。また、動きベクトルの垂直成分のヒストグラムをHistogramVと称する。HistogramVは、動きベクトルの垂直成分を階級とする。
 まず、S2において、ヒストグラム生成部121は、HistogramHおよびHistogramVを初期化する。つまり、ヒストグラム生成部121は、HistogramHおよびHistogramVの全ての階級において、度数(縦軸の値)を0にする(クリアする)。換言すれば、ヒストグラム生成部121は、HistogramHおよびHistogramVの全ての度数を空集合(Φ)に設定する。
 図4のS3aからS3bまでは、上述の有効データ期間に亘って(つまり、第Nフレーム全体に亘って)、Block(i,j)ごとに逐次行われる処理である。S3a・S3bは、垂直方向における処理を示すループ(ループ1)である。ループ1は、垂直期間に亘る動画像の垂直方向の走査に伴って行われる。
 つまり、ループ1では、j=0,1,2,3,…,J(=V/b-1)として、jを1つずつカウントアップし、Block(i,j)を選択する。なお、iの値は、ループ2(後述)において設定される。そして、Block(i,j)が選択された順に、ループ1に内含される各処理(S4a~S4b)が逐次的に反復して行われる。
 S4a・S4bは、水平方向における処理を示すループ(ループ2)である。ループ2は、水平期間に亘る動画像の水平方向の走査に伴って行われる。つまり、ループ2では、ループ1において設定された所定のjのもとで、i=0,1,2,3,…,I(=H/a-1)として、iを1つずつカウントアップし、Block(i,j)を選択する。そして、Block(i,j)が選択された順に、ループ2に内含される各処理(S5~S7)が逐次的に反復して行われる。
 S5において、動きベクトル算出部112は、Block(i,j)の動きベクトル(MVx,MVy)を検出する。上述の通り、S5に伴い、内挿画像生成部111において、動きベクトル(MVx,MVy)を用いて補間フレームが生成されてよい。但し、内挿画像生成部111における補間フレームの生成処理は、ヒストグラム生成処理の結果には影響を及ぼさない。
 S6において、ヒストグラム生成部121は、S5における処理対象(動きベクトル(MVx,MVy)の検出対象)であるBlock(i,j)が、Window(x0:x1,y0:y1)内に含まれているか否かを判定する。すなわち、ヒストグラム生成部121は、「Block(i,j)⊆Window(x0:x1,y0:y1)」という条件(以下、ブロック包含条件)が満たされているか否かを判定する。
 図5の(a)および(b)はそれぞれ、ブロック包含条件について説明するための図である。上述のように、Block(i,j)は、a×b画素のサイズを有する領域である。具体的には、Block(i,j)のサイズは、例えば8×8画素または16×16画素等のサイズとなる。つまり、Block(i,j)のサイズは、上述の物体OBJの像に比べて、十分に小さくなるように、aおよびbの値が設定される。このため、Block(i,j)のサイズは、Window(x0:x1,y0:y1)(物体OBJの像を含む領域)に比べても十分に小さい(上述の図3も参照)。
 従って、上述のブロック包含条件は、例えば以下の第1の判定条件、
 (第1の判定条件):「(x0≦a×i)∧(a×(i+1)≦x1)∧(y0≦b×j)∧(b×(j+1)≦y1)が真である」
と、近似的に書き換えることもできる。
 このため、ヒストグラム生成部121は、第1の判定条件を用いて、ブロック包含条件が満たされるか否かを判定してよい。図5の(a)には、所定のWindow(x0:x1,y0:y1)に対して、第1の判定条件を満たすブロックが斜線で示されている。図5の(a)の例では、斜線で示された12個(=4×3個)のブロックが、ブロック包含条件を満たすと判定される。
 あるいは、上述のブロック包含条件は、例えば以下の第2の判定条件、
 (第2の判定条件):「(x0≦a×(i+1))∧(a×i≦x1)∧(y0≦b×(j+1))∧(b×j≦y1)が真である」
と、近似的に書き換えることもできる。
 このため、ヒストグラム生成部121は、第2の判定条件を用いて、ブロック包含条件が満たされるか否かを判定してよい。図5の(b)には、図5の(a)と同様のWindow(x0:x1,y0:y1)に対して、第2の判定条件を満たすブロックが斜線で示されている。
 図5の(b)の例では、斜線で示された30個(=5×6個)のブロックが、ブロック包含条件を満たすと判定される。このように、第2の判定条件によれば、第1の判定条件に比べてより多くのブロックが、ブロック包含条件を満たすと判定されうる。ブロック包含条件の判定において、第1の判定条件または第2の判定条件のいずれを用いるかは、表示装置1の設計者によって適宜選択されてよい。
 Block(i,j)について、ブロック包含条件が満たされる場合には(S6でYES)、以下のS7に進む。他方、Block(i,j)について、ブロック包含条件が満たされない場合には(S6でNO)、S4bに進む。すなわち、S7は行われない。
 S7において、ヒストグラム生成部121は、Window(x0:x1,y0:y1)のBlock(i,j)のそれぞれについて、動きベクトル算出部112が検出した動きベクトル(MVx,MVy)を取得する。そして、ヒストグラム生成部121は、動きベクトル(MVx,MVy)から、各成分MVxおよびMVyの値を取得する(動きベクトルを水平成分および垂直成分に分解する)。
 実施形態1では、HistogramHは、1画素単位での成分MVxのそれぞれの値を階級とする。従って、ヒストグラム生成部121は、1つのBlock(i,j)において所定の値のMVxが存在している場合には、HistogramHにおいて当該MVxの値を例えば四捨五入した整数値が示す階級の度数を1だけカウントアップする。
 例えば、1つのBlock(i,j)において、MVx=-1である場合(x方向の負方向への1画素分の移動量を示す動きベクトルのx成分MVxが検出された場合)には、HistogramHにおける「階級-1」の度数を1だけカウントアップする。
 また、HistogramVは、1画素単位での成分MVyのそれぞれの値を階級とする。従って、ヒストグラム生成部121は、1つのBlock(i,j)において所定の値のMVyが存在している場合には、HistogramVにおいて当該MVyの値を例えば四捨五入した整数値が示す階級の度数を1だけカウントアップする。例えば、1つのBlock(i,j)において、MVy=1(y方向の正方向への1画素分の移動量を示す動きベクトルのy成分MVyが検出された場合)には、HistogramVにおける「階級1」の度数を1だけカウントアップする。
 そして、上述のループ2・1の完了に伴い、ヒストグラム生成処理が完了する。なお、ヒストグラム生成処理の完了は、上述のフレームレート変換処理の完了に並行する。
 図6の(a)および(b)はそれぞれ、ヒストグラム生成処理の完了時に得られたHistogramHおよびHistogramVの一例を示す。図6は、図3の第Nフレームに対して得られた2つのヒストグラム(HistogramHおよびHistogramV)を示す。
 図7の(b)および(c)にはそれぞれ、図6のHistogramHおよびHistogramVの各階級における度数を示す表が示されている。図7の(b)および(c)では、各数値が第Nフレームに対して得られたヒストグラムであることを示すために、「Histogram_N」という添字が便宜上付されている。また、以下では、説明の便宜上、MVxおよびMVyのそれぞれの階級を、単に文字「x」および「y」によって適宜表すものとする。
 図6の(a)に示されるように、HistogramHでは、階級x=7(後述のMVxP1)において、x方向における最大度数(1番目に大きい度数のピーク)(以下、第1ピーク度数とも称する)が存在している。具体的には、x方向における第1ピーク度数は10であった。以下、第1ピーク度数を有する階級を、第1ピーク階級と称する。
 また、図6の(b)に示されるように、HistogramVでは、階級y=-5(後述のMVyP1)において、y方向における最大度数(第1ピーク度数)が存在している。具体的には、y方向における第1ピーク度数は7であった。
 「x=7がx方向の第1ピーク階級であり、かつ、y=-5がy方向の第1ピーク階級である」ことは、図3のOBJの代表的な動きが、「x方向の正方向に7画素分移動し、かつ、y方向の負方向に5画素分移動する」動きであることを示唆している。
 さらに、図6の(a)に示されるように、HistogramHでは、階級x=0(後述のMVxP2)において、x方向において2番目に大きい度数のピーク(以下、第2ピーク度数とも称する)が存在している。具体的には、x方向における第2ピーク度数は5であった。以下、第2ピーク度数を有する階級を、第2ピーク階級と称する。
 また、図6の(b)に示されるように、HistogramVでは、階級y=0(後述のMVxP2)において、y方向における第2ピーク度数が存在している。具体的には、y方向における第2ピーク度数は4であった。
 「x=0がx方向の第2ピーク階級であり、かつ、y=0がy方向の第2ピーク階級である」であることは、図3の背景BGが、ほぼ静止している(x方向およびy方向のいずれにもほぼ移動しない)ことを示唆している。
 (ウィンドウ設定部12におけるヒストグラム解析処理の流れ)
 次に、ヒストグラム解析部122の動作について述べる。図8は、ヒストグラム解析部122およびその周辺の機能部の処理の流れS11~S16を例示するフローチャートである。図8の処理は、ヒストグラム解析処理とも称される。ヒストグラム解析処理は、上述のヒストグラム生成処理の完了後(換言すれば、フレームレート変換処理の完了後)に行われる。
 S11において、ヒストグラム解析部122は、上述のヒストグラム生成処理においてヒストグラム生成部121によって生成されたHistogramHおよびHistogramVを取得する。そして、ヒストグラム解析部122は、HistogramHおよびHistogramVのそれぞれについて、度数分布のピーク階級(度数のピーク(極大値)が得られる階級)を探索する。ピーク階級の探索には、公知のアルゴリズムが用いられてよい。
 例えば、「最初に第1ピーク度数(全体の最大度数)を有する階級(第1ピーク階級)を発見する。続いて、既出の階級(第1ピーク階級)と隣合わない、2番目に大きい度数(第2ピーク度数)を有する階級(第2ピーク階級)を発見する。続いて、既出階級(第1~2ピーク階級)と隣合わない、3番目に大きい度数(第3ピーク度数)を有する階級(第3ピーク階級)を発見する。…(以下略)」という処理を繰り返すことによって、Np個のピーク階級を探索できる。
 以下、HistogramHおよびHistogramVのそれぞれが、Np個のピーク階級を有する場合を考える。また、x方向の第kピーク階級をMVxPk、y方向の第mピーク階級をMVyPmとして表す。ここで、1≦k≦Npかつ1≦m≦Npである。
 一例として、ヒストグラム解析部122が、上記処理によって、図6のHistogramHおよびHistogramVのそれぞれに対して、Np=2のピーク階級を探索する場合を考える。
 ヒストグラム解析部122は、HistogramHに対して、MVxP1=7(第1ピーク度数=10)、MVxP2=0(第2ピーク度数=5)を発見する(図6の(a)および図7の(b)を参照)。また、ヒストグラム解析部122は、HistogramVに対して、MVyP1=-5(第1ピーク度数=7)、MVyP2=0(第2ピーク度数=4)を発見する(図6の(b)および図7の(c)を参照)。
 S12において、ヒストグラム解析部122は、S11において得られたMVxPkおよびMVyPmを用いて、物体の移動量の推定値(以下、移動量推定値)を算出する。具体的には、ヒストグラム解析部122は、Np×Np=Np通りの移動量推定値を算出する。より具体的には、ヒストグラム解析部122は、Np通りのMVxPkの値と、Np通りのMVyPmの値とを組み合わせて、2次元ベクトルとしての移動量推定値を算出する。
 例えば、ヒストグラム解析部122は、Np個のMVxPkの値のそれぞれを移動量推定値のx成分として、Np個のMVyPmの値のそれぞれを移動量推定値のy成分として、移動量推定値を算出(設定)する。上述の例の場合、ヒストグラム解析部122は、
  (MVxP1,MVyP1)=(7,-5);
  (MVxP1,MVyP2)=(7,0);
  (MVxP2,MVyP1)=(0,-5);
  (MVxP2,MVyP2)=(0,0);
として、4通りの移動量推定値を算出する。
 但し、ヒストグラム解析部122は、必ずしもNp通り(全ての組み合わせ)の移動量推定値を算出しなくてもよい。例えば、ヒストグラム解析部122は、何らかの推定を行うことにより、Np通りのMVxPkの値と、Np通りのMVyPmの値との組み合わせの一部を排除してもよい。この場合、移動量推定値の個数をNpよりも少なくできるので、移動量推定値の算出のための計算コストを低減できる。
 S13において、ヒストグラム解析部122は、S12において得られたNp通りの移動量推定値を用いて、Window(x0:x1,y0:y1)(第Nフレームにおける識別対象領域)に基づいて、Np通りの領域Region(x0’:x1’,y0’:y1’)を設定する。Region(x0’:x1’,y0’:y1’)は、4つの点(x0’,y0’)、(x0’,y1’)、(x1’,y1’)、(x1’,y0’)を頂点とする四角形(矩形,長方形)を表す。
 複数のRegion(x0’:x1’,y0’:y1’)はそれぞれ、第N+1フレームにおける識別対象領域の候補である。このことから、Region(x0’:x1’,y0’:y1’)は、識別対象領域候補とも称される。実施形態1では、Region(x0’:x1’,y0’:y1’)は、Window(x0:x1,y0:y1)を、移動量推定値だけ平行移動させた領域である。
 つまり、Region(x0’:x1’,y0’:y1’)は、Window(x0:x1,y0:y1)の形状を保ちつつ、物体の移動に追従して設定された領域であると理解されてよい。
 具体的には、ヒストグラム解析部122は、4つの値x0’、x1’、y0’、y1’を算出することにより、Region(x0’:x1’,y0’:y1’)を設定する。より具体的には、ヒストグラム解析部122は、
  x0’=x0+MVxPk(k=1,2,…,Np);
  x1’=x1+MVxPk(k=1,2,…,Np);
  y0’=y0+MVyPm(m=1,2,…,Np);
  y1’=y1+MVyPm(m=1,2,…,Np);
として、Np通りの「x0’、x1’、y0’、y1’」のセットを算出する(つまり、Np通りの識別対象領域候補を設定する)。
 以下、図9を参照して、上述の具体的な数値を用いた例を説明する。図9は、ヒストグラム解析部122が設定する4通りのRegion(x0’:x1’,y0’:y1’)(つまり、複数の識別対象領域候補の例)を示す図である。
 (「k=1、m=1」の場合)
 ヒストグラム解析部122は、「k=1、m=1」の場合、
  x0’=x0+7;
  x1’=x1+7;
  y0’=y0-5;
  y1’=y1-5;
として、Region(x0’,x1’,y0’,y1’)を設定する。以下、この識別対象領域候補を、第1識別対象領域候補と称する。第1識別対象領域候補は、Window(x0:x1,y0:y1)をx方向およびy方向に移動させた領域となる。
 (「k=2、m=1」の場合)
 ヒストグラム解析部122は、「k=2、m=1」の場合、
  x0’=x0;
  x1’=x1;
  y0’=y0-5;
  y1’=y1-5;
として、Region(x0’:x1’,y0’:y1’)を設定する。以下、この識別対象領域候補を、第2識別対象領域候補と称する。第2識別対象領域候補は、Window(x0:x1,y0:y1)をy方向のみに移動させた領域となる。
 (「k=1、m=2」の場合)
 ヒストグラム解析部122は、「k=1、m=2」の場合、
  x0’=x0+7;
  x1’=x1+7;
  y0’=y0;
  y1’=y1;
として、Region(x0’,x1’,y0’,y1’)を設定する。以下、この識別対象領域候補を、第3識別対象領域候補と称する。第3識別対象領域候補は、Window(x0:x1,y0:y1)をx方向のみに移動させた領域となる。
 (「k=2、m=2」の場合)
 ヒストグラム解析部122は、「k=2、m=2」の場合、
  x0’=x0;
  x1’=x1;
  y0’=y0;
  y1’=y1;
として、Region(x0’,x1’,y0’,y1’)を設定する。以下、この識別対象領域候補を、第4識別対象領域候補と称する。第4識別対象領域候補は、Window(x0:x1,y0:y1)と同一の領域となる。
 S14(物体識別工程)において、物体識別部13は、複数のRegion(x0’:x1’,y0’:y1’)のそれぞれ(第1識別対象領域候補~第4識別対象領域候補のそれぞれ)を対象として、物体の識別を行う。上述のように、物体識別部13は、物体識別の精度を向上させる観点から、ディープラーニング技術等のCNN(Convolutional Neural Network)による物体の識別を行うものとする。
 物体識別部13の識別対象となる領域を、第1識別対象領域候補~第4識別対象領域候補に絞ることにより、フレームの全体を識別対象とする場合に比べて、物体識別部13における物体識別のための計算コストを効果的に低減できる。上述のように、CNNによる物体の識別は、計算コストが高い処理であるため、この点は特に有益である。
 また、CNNによる識別は、物体の識別に限定されなくともよい。例えば、CNNによる識別によって、シーンの識別または素材の識別等をさらに行うこともできる。
 ところで、物体の識別手法としては、SIFT、SURF、およびHOG等の比較的計算コストが低い手法(例:局所特徴抽出を用いる手法)が知られている。このような手法を用いた場合には、フレームの全体を識別対象とすることも可能であるが、十分な物体識別の精度を得ることは難しい。
 表示装置1の構成は、「物体識別の精度を向上させるとともに、物体識別のための計算コストを低減する」という着想に基づいて、本願の発明者(以下、発明者)によって新たに想到されたものである。より具体的には、発明者は、当該着想に基づいて、表示装置1のウィンドウ設定部12の具体的な構成を想到した。
 S15において、物体識別部13は、第N+1フレームにおいて、第1識別対象領域候補~第4識別対象領域候補のそれぞれから、第Nフレームにおいて特定した物体の像の少なくとも一部分が含まれている識別対象領域候補を特定する。例えば、物体識別部13は、第1識別対象領域候補~第4識別対象領域候補のそれぞれに対する物体識別の結果から、1つの結果を正解として決定する。
 例えば、CNNによる画像分類行われる場合は、物体識別の結果は、一般に各分類(各物体のカテゴリ)およびその分類確率の複数セットとして得られる。従って、第1識別対象領域候補~第4識別対象領域候補のそれぞれに対する物体識別の結果のうち、最大の分類確率が得られる分類を正解として決定してよい。
 ところで、現フレームの画像と前フレームの画像との間に連続性がある場合(つまり、動画像においてシーンチェンジ等がない場合)を考える。この場合、現フレームにおける物体の識別結果は、前フレームにおける物体の識別結果に対して連続性があると期待できる。このため、前フレームにおける物体の識別結果(分類名)を記憶し、現フレームにおいて同分類の分類確率を加算するように、分類確率を補正してもよい。これにより、前フレームと同分類の物体が、現フレームにおいて正解として決定されやすくなる(当該物体が特定されやすくなる)。
 図10には、物体識別部13によるS15の物体識別の結果の一例が示されている。図10の例では、物体識別部13は、第N+1フレームにおいて、第1識別対象領域候補~第4識別対象領域候補のそれぞれに対して物体検出を行っている。
 その結果、物体識別部13は、第1識別対象領域(「k=1、m=1」の場合のRegion(x0’:x1’,y0’:y1’))に、第Nフレームと同じ物体OBJの像の全体が含まれていることを識別した。
 S16(領域設定工程)において、ヒストグラム解析部122は、第1識別対象領域候補~第4識別対象領域候補のうち、物体OBJの像の少なくとも一部分が含まれる識別対象領域候補(すなわち、S15において物体識別部13が特定した識別対象領域候補)を、第N+1フレームにおける識別対象領域として設定する。
 図10には、ヒストグラム解析部122によるS16の領域設定の結果の一例が示されている。上述の例の場合、ヒストグラム解析部122は、S15における物体識別の結果に基づいて、第1識別対象領域候補であるRegion(x0’,x1’,y0’,y1’)を、第N+1フレームにおける識別対象領域、すなわちWindow(x0’:x1’,y0’:y1’)として設定する。
 つまり、ヒストグラム解析部122は、Window(x0’:x1’,y0’:y1’)=Region(x0+7:x1+7,y0-5:y1-5)として、Window(x0’:x1’,y0’:y1’)を設定する。
 S16によれば、1フレームでの物体OBJの移動に追従して、第Nフレームにおける識別対象領域と同形状の識別対象領域を、第N+1フレームにおいても設定できる。このため、第N+1フレームにおいても、第Nフレームと同様に、物体OBJの識別を行うことができる。
 それゆえ、「第1フレーム→第2フレーム→…→第Nフレーム→第N+1フレーム→…(以下略)」の順に、ヒストグラム生成処理およびヒストグラム解析処理を行うことにより、現フレームにおける物体識別を行うとともに、当該物体の移動に追従して次フレームの識別対象領域の設定を行うことができる。それゆえ、移動する物体に追従しつつ、当該物体を各フレームにおいて識別できる。
 (表示装置1の効果)
 上述のように、表示装置1によれば、ウィンドウ設定部12によって、動画像の第N+1フレームにおける物体の位置(つまり、物体の識別結果)に基づいて、第N+1フレームにおける識別対象領域を設定できる。それゆえ、動画像の各フレームの全体に対して、物体識別部13に物体識別を行わせることが不要となる。その結果、動画像における物体識別のための計算コストを従来よりも低減することが可能となる。
 具体的には、ウィンドウ設定部12は、第Nフレームにおける識別対象領域に含まれる動きベクトル(より具体的には、動きベクトルの水平成分および垂直成分のそれぞれの分布を示すHistogrmHおよびHistogrmV)に基づいて、第N+1フレームにおける識別対象領域を設定する。このため、フレーム間で移動する物体(例:OBJ)を追従しつつ、各フレームにおける識別対象領域(より具体的には、識別対象領域候補)を設定できる。
 一例として、ウィンドウ設定部12は、動きベクトルの成分の分布における極大値(例:x方向およびy方向のそれぞれにおける各ピーク度数)に基づいて、第N+1フレームにおける識別対象領域を設定してよい。具体的には、ウィンドウ設定部12は、上述のMVxPkおよびMVyPm(x方向およびy方向のそれぞれにおける各ピーク度数を有する各ピーク階数)を用いて、第N+1フレームにおける識別対象領域を設定してよい。これにより、物体の代表的な動きに着目できるので、当該物体をより効果的に追従できる。
 (各フレームにおける識別対象領域について)
 なお、ディープラーニングを行う場合には、多数のリファレンス画像(複数の物体のそれぞれを識別するための学習用画像)の学習を行うことが必要である。リファレンス画像は、例えば、「ImageNet」と称される画像データベースから取得されてよい。あるいは、上記画像データベースから学習された既存のCNNモデルをベースとして、ディープラーニングが行われてよい。
 リファレンス画像は、多数の物体のそれぞれの状態を学習できるように多数用意されている。ここで、リファレンス画像において、全くフレーミングされていない物体が映っているということはまれである。リファレンス画像を生成する場合、そのような映り込みを避けるように、撮影または撮影後の画像処理が行われるためである。
 従って、表示装置1における識別対象の画像(各フレームの識別対象領域)についても、リファレンス画像と同様に、物体が適切にフレーミングされているか否かによって、当該物体の識別精度が大きく左右されてしまう。このため、各フレームの識別対象領域Window(x0:x1,y0:y1)を適切に設定することが重要である。換言すれば、各フレームの識別対象領域候補Region(x0’:x1’,y0’:y1’)を適切に設定することが重要となる。
 図11は、第N+1フレームにおける識別対象領域の相違を説明するための図である。上述の図10と同様のRegion(x0’:x1’,y0’:y1’)(第1識別領域候補)には、物体OBJの像の全体が含まれており(物体OBJの像の全体がフレームインしており)、上述の通り物体OBJを高精度に識別できる。
 他方、図11の領域NR1は、物体OBJの像の全体を含み、かつ、第1識別領域候補よりも広い領域(第1識別領域候補を内包する領域)である。領域NR1では、ノイズ領域(背景または他のフレームインしている物体の像が存在する領域)の大きさに対して、物体領域(物体OBJの像が存在する領域)の大きさが比較的小さくなってしまう。このため、領域NR1においては、物体OBJの識別精度が低下する可能性が高い。
 従って、物体OBJの識別精度を向上させるためには、第1識別領域候補のように、ノイズ領域の大きさに対して、物体領域をある程度大きくすることが好ましい。但し、領域NR1によれば、以下に述べる領域NR2および領域NR3に比べて、物体OBJの識別精度をより高くできることに留意されたい。領域NR1においては、物体OBJの全体的な形状(輪郭)が表現されているためである。
 また、図11の領域NR2は、物体OBJの像の一部を含み、かつ、第1識別領域候補よりも狭い領域(第1識別領域候補に内包される領域)である。領域NR2では、物体OBJの像の一部がフレームアウトしている。このため、領域NR2においては、物体OBJの全体的な形状が表現されていないため、当該物体OBJの全体的な形状を判別することが難しい。領域NR2においては、領域NR1の場合よりも、物体OBJの識別精度が低下する可能性が高い。
 また、図11の領域NR3は、領域NR2よりも広いが、当該領域NR2よりも物体OBJの像のフレームアウトの程度が顕著な領域である。領域NR3においては、物体OBJの全体的な形状がさらに判別困難となる。このため、領域NR3においては、領域NR2の場合よりも、物体OBJの識別精度がさらに低下する可能性が高い。
 以上のことから、物体OBJの識別精度の向上の観点からは、各フレームにおける識別対象領域には、物体OBJの像の全体が含まれていることが好ましい。すなわち、(i)第Nフレームにおける識別対象領域には、物体OBJの像の全体が含まれており、かつ、(ii)領域設定部によって、複数の識別対象領域候補のうち、第N+1フレームにおいて物体OBJの像の全体が含まれる識別対象領域候補が、第N+1フレームにおける識別対象領域として設定されることが好ましい。
 また、物体OBJの識別精度のさらなる向上の観点からは、各フレームにおける識別対象領域において、ノイズ領域の大きさに対して、物体領域をある程度大きくすることがさらに好ましい。一例として、各フレームにおける識別対象領域において、物体領域はノイズ領域よりも大きい面積を有していることが好ましい。
 但し、上述のように、各フレームにおける識別対象領域には、物体OBJの像の少なくとも一部が含まれていればよいことに留意されたい。ディープラーニングを利用して高精度な物体識別を行うことで、そのような識別対象領域においても物体識別が可能となるためである。
 すなわち、(i)第Nフレームにおける識別対象領域には、物体OBJの像の少なくとも一部が含まれており、かつ、(ii)領域設定部によって、複数の識別対象領域候補のうち、第N+1フレームにおいて物体OBJの像の少なくとも一部が含まれる識別対象領域候補が、第N+1フレームにおける識別対象領域として設定されればよい。
 〔実施形態2〕
 実施形態2について、図12および図13に基づいて説明すれば、以下の通りである。なお、説明の便宜上、実施形態1にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。実施形態2では、実施形態1の様々なバリエーションについて、以下の第1~第5の例の通り説明する。
 (第1の例)
 実施形態1では、2次元ベクトルである動きベクトルを2つの成分(水平成分および垂直成分)に分解して、2つの1次元ヒストグラム(水平成分のヒストグラムHistogramHおよび垂直成分のヒストグラムHistogramV)を生成していた(例:図4のS3a)。そして、当該2つのヒストグラムを解析対象としていた(例:図8のS11およびS12)。
 但し、動きベクトルを各成分に分解する必要は必ずしもない。ヒストグラム生成部121は、動きベクトルの2つの成分の分布を示す、1つの2次元ヒストグラムを生成してよい。この場合、ヒストグラム解析部122は、当該2次元ヒストグラムを解析対象として、上述のピーク階級を探索してよい。
 1つの2次元ヒストグラムを解析対象とすることにより、2つの1次元ヒストグラムを解析対象とした場合に比べて、移動量推定値を効果的に絞ることができる。以下、その理由について述べる。
 実施形態1において述べたように、1次元ヒストグラムの場合では、x成分とy成分のそれぞれについて、Np個のピーク階級を探索していた。そして、x成分のピーク階級とy成分のピーク階級とを組み合わせて、2次元ベクトルとしての移動量推定値を算出していた。このため、2次元ベクトルとしての移動量推定値は、Np通り算出される。
 他方、2次元ヒストグラムの場合では、Np個のピーク階級が、2次元ベクトルのセットとして探索され得る。このため、2次元ベクトルとしての移動量推定値は、Np通りとなる。すなわち、1次元ヒストグラムの場合に比べて、移動量推定値の個数を少なくできる。但し、2次元ヒストグラムの場合では、1次元ヒストグラムの場合に比べて、ピーク階級の探索アルゴリズムが複雑となる。このため、ピーク階級の探索のための計算量が、1次元ヒストグラムの場合に比べて増加する傾向にある。
 以上のように、2次元ヒストグラムを用いることにより、移動量推定値の個数を少なくできるので、識別対象領域候補の個数を少なくすることができる。その結果、図8のS14における処理(物体識別)の計算コストをより効果的に低減できる。
 (第2の例)
 実施形態1では、移動量推定値(MVxPkとMVyPmとの組み合わせ)のみを用いて、x0’、x1’、y0’、y1’を算出して、Region(x0’:x1’,y0’:y1’)を設定していた(図8のS13)。
 但し、ランダム値(ランダム項)をさらに導入して、第N+1フレームにおける複数の識別対象領域候補を追加して設定してもよい。具体的には、ヒストグラム解析部122は、
  x0’’=x0’+Rand1;
  x1’’=x1’+Rand2;
  y0’’=y0’+Rand3;
  y1’’=y1’+Rand4;
として、x0’’、x1’’、y0’’、y1’’を算出してもよい。
 ここで、Rand1~Rand4はそれぞれ、0を中心値とした一定範囲の整数のランダム値である。そして、ヒストグラム解析部122は、複数のRegion(x0’’:x1’’,y0’’:y1’’)を、第N+1フレームにおける識別対象領域候補として追加して設定してよい。
 このように第N+1フレームにおける識別対象領域候補を設定した場合、実施形態1に比べて、識別対象領域候補の設定のための計算コスト、および、追加して設定した複数の識別対象領域候補における物体識別の計算コストが増加する。しかしながら、Region(x0’’:x1’’,y0’’:y1’’)によれば、Region(x0’:x1’,y0’:y1’)の周辺領域を、識別対象領域候補に含めることが可能となる。
 このため、例えば移動量推定値が適切に設定されず(移動量推定値に推定誤差が生じて)、Region(x0’:x1’,y0’:y1’)によって物体OBJの追従が適切に行うことができない場合にも、物体識別の精度が向上することが期待される。
 (第3の例)
 実施形態1では、複数のRegion(x0’:x1’,y0’:y1’)(識別対象領域候補)のうちの1つを、第N+1フレームにおけるWindow(x0’:x1’,y0’:y1’)(第N+1フレームにおける識別対象領域)として設定していた(図8の処理S16)。
 しかしながら、動画像の入力開始時および当該動画像のシーンチェンジ時などにおいては、識別対象領域を別の方法によって設定してもよい。つまり、第1フレーム(初期フレーム)の識別対象領域は、別の方法によって設定されてもよい。例えば、第1フレーム内の任意の領域を、ランダムに識別対象領域として設定してもよい。
 具体的には、ヒストグラム解析部122は、
  x0=Rand(0~H-1);
  x1=Rand(0~H-1);
  y0=Rand(0~V-1);
  y1=Rand(0~V-1);
として、第1フレームにおけるx0、x1、y0、y1を算出してもよい。
 なお、Rand(a~b)は、a以上かつb以下の整数値の範囲のランダム値を出力する関数である。そして、ヒストグラム解析部122は、Window(x0:x1,y0:y1)を、第1フレームにおける識別対象領域として設定してよい。
 このように、ヒストグラム解析部122において、第1フレームにおける識別対象領域を設定することにより、上述の図4および図8の処理により、第2フレーム以降について、物体の識別および識別対象領域の設定を行うことができる。
 なお、第1フレームにおける識別対象領域は、ユーザの入力操作によって設定(選択)されてもよい。ヒストグラム解析部122は、ユーザが選択したx0、x1、y0、y1の値を用いて、第1フレームにおける識別対象領域であるWindow(x0:x1,y0:y1)を設定してもよい。
 (第4の例)
 実施形態1では、識別対象となる1つの物体(例:OBJ)(以下、第1物体)に対して、1つの識別対象領域(以下、第1物体用識別対象領域)を設けていた。そして、第1物体用識別対象領域を用いて、第1物体に追従しつつ当該第1物体の識別を行っていた。
 但し、動画像の各フレームにおいて、複数の物体のそれぞれに、1つずつ専用の識別対象領域が設けられてもよい。例えば、図3の例においては、第1物体とは異なる第2物体(例:OBJ2)に対して、専用の識別対象領域(以下、第2物体用識別対象領域)がさらに設けられてもよい。
 この場合、表示装置1は、第1物体用識別対象領域および第2物体用識別対象領域のそれぞれについて、上述の図4および図8の処理を同時に(並列的に)行ってもよい。これにより、動画像の各フレームに存在する2つの物体(第1物体および第2物体)のそれぞれに対して、各物体に追従しつつ識別を行うことができる。このように、識別対象となる物体の個数に応じて、識別対象領域を複数設けることにより、複数の物体にそれぞれに追従しつつ、各物体を識別できる。
 また、複数の物体を識別する場合、分類確率が特に低い物体が存在した場合を考える。この場合、当該物体に対応する識別対象領域を、上述の第3の例の通り、初期化してもよい。これにより、分類確率が低い物体の識別精度が向上することが期待される。加えて、動画像の途中のフレームにおいて、新たに出現する物体の識別のための識別対象領域を設定することもできる。
 あるいは、分類確率が特に低い物体に対応する識別対象領域については、当該識別対象領域を削除し、以降の当該物体の識別を中止してもよい。これにより、複数の物体のうち、識別精度がある程度高い物体のみを選択的に追従できる。それゆえ、複数の物体を識別する場合における、物体識別のための計算コストを低減することが可能となる。
 (第5の例)
 実施形態1では、Window(x0:x1,y0:y1)を平行移動させた領域として、複数のRegion(x0’:x1’,y0’:y1’)を設定していた。つまり、第N+1フレームにおける識別対象領域候補を、第Nフレームにおける識別対象領域と同じ大きさかつ同じ形状の領域(第Nフレームにおける識別対象領域と合同な領域)として設定していた。
 但し、第N+1フレームにおける識別対象領域候補は、(i)第Nフレームにおける識別対象領域と異なる大きさに設定されなくともよいし、(ii)第Nフレームにおける識別対象領域と異なる形状に設定されてもよい。
 例えば、第Nフレームにおける識別対象領域を拡大または縮小することにより、当該識別対象領域と異なる大きさを有する、第N+1フレームにおける識別対象領域候補を設定してもよい。あるいは、第Nフレームにおける識別対象領域を変形することにより、当該識別対象領域と異なる形状を有する、第N+1フレームにおける識別対象領域候補を設定してもよい。
 一例として、上述の第2の例の通り、Region(x0’:x1’,y0’:y1’)を設定した場合には、第Nフレームにおける識別対象領域と異なる大きさおよび形状を有する、第N+1フレームにおける識別対象領域候補が得られる。
 また、ヒストグラム解析部122は、第N-1フレーム(前フレーム)と第Nフレーム(現フレーム)との間における、HistogramHおよびHistogramVの分布の変化に応じて、第Nフレームにおける識別対象領域を拡大して、第N+1フレーム(次フレーム)における識別対象領域候補を設定してよい。
 図12は、第N-1フレームと第Nフレームとの間における、HistogramHおよびHistogramVのそれぞれの値(度数)の分布の変化の一例を示すグラフである。図12において、(a)にはHistogramHにおける分布の変化が、(b)にはHistogramVにおける分布の変化が、それぞれ示されている。
 図12において、σは第N-1フレームにおけるHistogramHおよびHistogramVの標準偏差を示す。また、σ’は第NフレームにおけるHistogramHおよびHistogramVの標準偏差を示す。
 以下の説明では、便宜上、x方向およびy方向のいずれについても、標準偏差を同じ記号(σおよびσ’)によって表している。但し、x方向およびy方向のそれぞれについて、標準偏差は異なる値であってもよいことに留意されたい。
 従って、例えば、第N-1フレームにおけるHistogramHの標準偏差をσx、第N-1フレームにおけるHistogramVの標準偏差をσyとして、第N-1フレームにおける各ヒストグラムの標準偏差を区別して表現してもよい。同様に、第NフレームにおけるHistogramHの標準偏差をσ’x、第NフレームにおけるHistogramVの標準偏差をσ’yとして、第Nフレームにおける各ヒストグラムの標準偏差を区別して表現してもよい。
 図12によれば、σ’>σである。このことは、第Nフレームでは、第N-1フレームに比べて、分布が拡がっていることを示している。このことは、第N-1フレームにおける物体の像が、第Nフレームにおいて拡大されていることを示唆している。従って、動画像においてシーンチェンジ等がなければ、第N+1フレームにおける物体の像は、第Nフレームにおける当該物体の像に比べて、さらに拡大していることが予測される。
 そこで、ヒストグラム解析部122は、σ’>σである場合には、図13に示されるように、第Nフレームにおける識別対象領域であるWindow(x0:x1,y0:y1)を平行移動および拡大させることにより、第N+1フレームにおける識別対象領域候補であるRegion(x0’:x1’,y0’:y1’)を設定してよい。図13は、第Nフレームにおける識別対象領域を拡大して、第N+1フレームにおける識別対象領域候補を設定する例を示す図である。
 このように、現フレームにおける識別対象領域を拡大して、次フレームにおける識別対象領域候補を設定すれば、フレーム間において拡大される物体(例:OBJ)のサイズの増加に応じて、識別対象領域候補のサイズを設定できる。それゆえ、フレーム間において物体が拡大される場合にも、当該物体の追従性および識別精度を向上できる。
 また、σ’<σである場合には、第N-1フレームにおける物体の像が、第Nフレームにおいて縮小されていると考えられる。そこで、ヒストグラム解析部122は、σ’<σである場合には、第Nフレームにおける識別対象領域を平行移動および縮小することにより、第N+1フレームにおける識別対象領域候補を設定してよい。これにより、フレーム間において物体が縮小される場合にも、当該物体の追従性および識別精度を向上できる。
 このように、ヒストグラム解析部122は、σ’とσとの大小関係に応じて、第Nフレームにおける識別対象領域に拡大または縮小のいずれかの処理を施して、第N+1フレーム(次フレーム)における識別対象領域候補を設定してよい。
 一例として、ヒストグラム解析部122は、第Nフレームにおける識別対象領域の水平方向および垂直方向のそれぞれの長さをα倍して、第N+1フレームにおける識別対象領域候補の水平方向および垂直方向のそれぞれの長さを設定してよい。以下、αを拡大倍率とも称する。
 αの値は、σ’とσとに基づいて設定されてよい。一例として、α=σ’/σとして設定されてよい。この場合、σ’>σであれば、α>1となるので、第Nフレームにおける識別対象領域は拡大される。他方、σ’<σであれば、α<1となるので、第Nフレームにおける識別対象領域は縮小される。
 以上のように、第N+1フレームにおける識別対象領域候補は、第Nフレームにおける識別対象領域に対して、(i)平行移動と、(i)拡大または縮小のいずれか一方と、を施すことにより、設定されてよい。
 本明細書における「拡大」および「縮小」には、α=1である場合(第Nフレームにおける識別対象領域と第N+1フレームにおける識別対象領域候補とが同サイズである場合)も含まれるものとする。実施形態1の場合は、α=1である場合に相当する。
 従って、ヒストグラム解析部122は、第Nフレームにおける上記識別対象領域を平行移動させ、かつ、平行移動させた当該識別対象領域を拡大または縮小することにより、第N+1フレームにおける複数の上記識別対象領域候補を設定してよい。
 さらに、水平方向と垂直方向において、識別対象領域の長さを異なる比率で拡大または縮小してもよい。一例として、x方向とy方向とで、拡大倍率を個別に設定してもよい。例えば、x方向の拡大倍率をαxとすると、αx=σ’x/σxとして設定されてよい。同様に、y方向の拡大倍率をαyとすると、αy=σ’y/σyとして設定されてよい。
 なお、上述の「第Nフレームにおける識別対象領域の水平方向および垂直方向のそれぞれの長さをα倍する」という例は、αx=αyと見なすことができる場合を想定したものである。一般にσx≠σyかつσ’x≠σ’yであるが、フレーム間の物体の拡大または縮小のアスペクト比が一定であれば、αx≒αyの関係が成立する。それゆえ、近似的に、αx=αyと見なすことができる。
 以上のように、第N+1フレームにおける識別対象領域候補は、第Nフレームにおける識別対象領域に相似な領域に限定されなくともよい。
 従って、ヒストグラム解析部122は、領域設定部は、第Nフレームにおける識別対象領域(矩形)と、第N+1フレームにおける識別対象領域(矩形)とが互いに平行な辺を有するように、各フレームにおける識別対象領域を設定すればよい。これにより、比較的計算コストの低い演算(例:平行移動および拡大・縮小)により、各フレームにおける識別対象領域を設定できる。
 〔変形例〕
 上述の第5の例では、第Nフレームにおける識別対象領域に平行移動および拡大・縮小を施すことにより、第Nフレームにおける識別対象領域を設定する場合を例示した。
 但し、第Nフレームにおける識別対象領域の平行移動および拡大・縮小に加え、当該識別対象領域をさらに回転させて、第Nフレームにおける識別対象領域を設定してもよい。つまり、第N+1フレームにおける識別対象領域候補は、第Nフレームにおける識別対象領域に相似な領域として設定されてよい。すなわち、ヒストグラム解析部122は、第Nフレームにおける識別対象領域に対して、相似変換を施すことにより、第N+1フレームにおける識別対象領域候補を設定してよい。
 さらに、上述のように、水平方向と垂直方向において、識別対象領域の長さを異なる比率で拡大または縮小してもよい。このため、第N+1フレームにおける識別対象領域候補は、第Nフレームにおける識別対象領域に相似な領域に限定されなくともよい。従って、ヒストグラム解析部122は、第Nフレームにおける識別対象領域に対して、線形変換を施すことにより、第N+1フレームにおける識別対象領域候補を設定してもよい。
 なお、ヒストグラム解析部122は、第Nフレームにおける識別対象領域に対して、アフィン変換を施すことにより、第N+1フレームにおける識別対象領域候補を設定してもよい。
 〔実施形態3〕
 実施形態3について、図14に基づいて説明すれば、以下の通りである。図14は、実施形態3の信号処理部30(動画像処理装置)の要部の構成を示す機能ブロック図である。実施形態3の表示装置を表示装置3と称する。図14において、図示が省略されている箇所については、上述の図1の表示装置1と同様であるため、説明を省略する。この点については、以下に述べる実施形態4においても同様である。
 信号処理部30は、実施形態1の信号処理部10において、内挿画像生成部111を除外した構成である。信号処理部では、内挿画像生成部111が除外されたことにより、動画像A(入力動画像)に対するフレームレートの変換は行われない。すなわち、動画像Bは生成されない。信号処理部30では、動きベクトル算出部112、物体識別部13、および画質補正部14のそれぞれに、上述の動画像A(入力動画像)が供給される。
 実施形態3において、動きベクトル算出部112は、動画像Aから各フレームを抽出し、当該動画像の動きベクトルを算出する。そして、ウィンドウ設定部12は、動画像Aの各フレームにおいて、識別対象領域を設定する。従って、物体識別部13は、動画像Aの各フレームに設定された識別対象領域に対して、物体識別を行う。
 続いて、画質補正部14は、物体識別部13の識別結果に応じて、動画像Aを処理することにより、出力動画像である動画像Cを生成する。そして、画質補正部14は、当該動画像Cを表示部80に供給する。
 このように、本開示の一態様に係る動画像処理装置(例:信号処理部30)では、上述の識別処理部に含まれない構成要素の一部(例:内挿画像生成部111)は省略されてもよい。信号処理部30によれば、上述の実施形態1に比べて、動画像処理装置の構成を簡単化できる。
 〔実施形態4〕
 実施形態4について、図15に基づいて説明すれば、以下の通りである。図15は、実施形態4の信号処理部40(動画像処理装置)の要部の構成を示す機能ブロック図である。実施形態4の表示装置を表示装置4と称する。
 上述のように、動画像Aは、所定の符号方式により圧縮された動画像のデータが復号されることによって生成されてよい。以下、所定の符号方式により圧縮された動画像(例:動画像A)のデータを、圧縮動画像データと称する。
 実施形態4では、圧縮のための動きベクトルを示す情報(動きベクトル情報)が、圧縮動画像データにあらかじめ含まれている場合を考える。なお、当該動きベクトル情報を含む圧縮動画像データのフォーマットの一例としては、MPEG4を挙げることができる。
 信号処理部40は、実施形態3の信号処理部30において、動きベクトル算出部112を除外した構成である。つまり、信号処理部30では、上述の実施形態3に比べて、動画像処理装置の構成がさらに簡単化されている。
 信号処理部40では、ウィンドウ設定部12、物体識別部13、および画質補正部14のそれぞれに、動画像Aが供給される。実施形態4のウィンドウ設定部12において、ヒストグラム生成部121は、上述の圧縮動画像データに含まれる動きベクトル情報を取得することで、動画像Aの動きベクトルを検出する。
 以上のように、圧縮動画像データに動きベクトル情報が含まれている場合には、本開示の一態様に係る動画像処理装置において、動きベクトルを算出する処理を省略できる。それゆえ、動画像処理装置の構成がさらに簡単となる。
 〔ソフトウェアによる実現例〕
 表示装置1・3・4の制御ブロック(特に信号処理部10・30・40)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。
 後者の場合、表示装置1・3・4は、各機能を実現するソフトウェアであるプログラムの命令を実行するCPU、上記プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、上記プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、本開示の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本開示の一態様は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
 〔まとめ〕
 本開示の態様1に係る動画像処理装置(信号処理部10)は、複数のフレームによって構成された動画像を処理する動画像処理装置であって、上記動画像において表現された物体(OBJ)を識別する物体識別部(13)と、上記動画像の第Nフレーム(Nは自然数)における上記物体の像の、第N+1フレームにおける位置に基づいて、第N+1フレームにおいて、上記物体識別部による識別対象となる領域である識別対象領域(Window(x0’:x1’,y0’:y1’))を設定する領域設定部(ウィンドウ設定部12)と、を備えている。
 上記の構成によれば、第N+1フレームにおける位置に基づいて、フレーム間で移動する物体を追従しつつ、識別対象領域を設定することが可能となる。従って、領域設定部において、第N+1フレームにおける識別対象領域を設定することにより、第N+1フレームの全体に対して、物体識別部に物体識別を行わせることが不要となる。
 このため、「第1フレーム→第2フレーム→…→第Nフレーム→第N+1フレーム→…」の順に、現フレームにおける物体識別および次フレームの識別対象領域の設定を行うことができる。それゆえ、各フレームの全体に対して物体識別を行うことが不要となるので、従来よりも物体識別のための計算コストを低減することが可能となる。
 本開示の態様2に係る動画像処理装置は、上記態様1において、第Nフレームにおける上記識別対象領域(Window(x0:x1,y0:y1))には、上記物体の像の少なくとも一部分が含まれており、上記領域設定部は、上記動画像の動きベクトルのうち、第Nフレームにおける上記識別対象領域に含まれる動きベクトルに基づいて、第N+1フレームにおける識別対象領域を設定することが好ましい。
 上記の構成によれば、動きベクトルに基づいて、フレーム間で移動する物体を追従しつつ、識別対象領域を設定することが可能となる。
 本開示の態様3に係る動画像処理装置は、上記態様2において、上記領域設定部は、第Nフレームにおける上記識別対象領域と、当該識別対象領域に含まれる上記動きベクトルと、に基づいて、第N+1フレームにおける識別対象領域の候補である複数の識別対象領域候補を設定し、上記物体識別部は、第N+1フレームにおいて複数の上記識別対象領域候補のいずれに上記物体の像の少なくとも一部分が含まれるかを識別し、上記領域設定部は、複数の識別対象領域候補のうち、第N+1フレームにおいて上記物体の像の少なくとも一部分が含まれる識別対象領域候補を、第N+1フレームにおける識別対象領域として設定することが好ましい。
 上記の構成によれば、複数の識別対象領域候補のそれぞれにおける識別結果に応じて、識別対象領域を設定できる。それゆえ、フレーム間で移動する物体をより効果的に追従できる。
 本開示の態様4に係る動画像処理装置は、上記態様3において、上記領域設定部は、第Nフレームにおける上記識別対象領域に含まれる、上記動きベクトルの成分の分布における統計値に基づいて、第N+1フレームにおける複数の上記識別対象領域候補を設定することが好ましい。
 上記の構成によれば、統計値に基づいて物体の動きに着目できるので、当該物体をより効果的に追従できる。
 本開示の態様5に係る動画像処理装置は、上記態様4において、上記領域設定部は、第Nフレームにおける上記識別対象領域に含まれる、上記動きベクトルの成分の分布における極大値に基づいて、第N+1フレームにおける複数の上記識別対象領域候補を設定することが好ましい。
 上記の構成によれば、極大値に基づいて物体の代表的な動きに着目できるので、当該物体をより効果的に追従できる。
 本開示の態様6に係る動画像処理装置は、上記態様3から5のいずれか1つにおいて、第Nフレームにおける上記識別対象領域には、上記物体の像の全体が含まれており、上記領域設定部は、複数の上記識別対象領域候補のうち、第N+1フレームにおいて上記物体の像の全体が含まれる識別対象領域候補を、第N+1フレームにおける識別対象領域として設定することが好ましい。
 上記の構成によれば、第Nフレームおよび第N+1フレームの識別対象領域において、物体の全体的な形状(輪郭)が表現されているため、物体識別部による物体の識別精度を向上できる。
 本開示の態様7に係る動画像処理装置は、上記態様1から6のいずれか1つにおいて、上記領域設定部は、上記識別対象領域として長方形の領域を設定し、第Nフレームにおける上記長方形と、第N+1フレームにおける上記長方形とが互いに平行な辺を有するように各フレームにおける上記識別対象領域を設定することが好ましい。
 上記の構成によれば、例えば第Nフレームにおける記識別対象領域の平行移動および拡大・縮小により、第N+1フレームの識別対象領域を設定できる。すなわち、比較的計算コストの低い演算により、各フレームにおける識別対象領域を設定できる。
 本開示の態様8に係る動画像処理装置は、上記態様1から7のいずれか1つにおいて、上記物体識別部は、複数の物体の画像を用いて学習した学習済みモデルを含んでいることが好ましい。
 上記の構成によれば、ディープラーニング技術等のCNNによって得られた学習済みモデルを利用することで、物体の識別精度を向上できる。識別対象を識別対象領域候補のみに絞ることで、学習済みモデルによる物体識別のための計算コストを効果的に低減できる。
 本開示の態様9に係る動画像処理装置は、上記態様1から8のいずれか1つにおいて、上記物体識別部の識別結果に応じて上記動画像を処理する画質補正部をさらに備えていることが好ましい。
 上記の構成によれば、物体の識別結果に応じて動画像処理を行うことができる。例えば、物体の質感をより効果的に表現するように動画像処理を行うことができる。それゆえ、動画像において表現された物体の質感を高めることが可能となる。
 本開示の態様10に係る表示装置(1)は、上記態様1から9のいずれか1つに係る動画像処理装置を備えていることが好ましい。
 上記の構成によれば、本開示の一態様に係る動画像処理装置と同様の効果を奏する。
 本開示の態様11に係る動画像処理方法は、複数のフレームによって構成された動画像を処理する動画像処理方法であって、上記動画像において表現された物体を識別する物体識別工程と、上記動画像の第Nフレーム(Nは自然数)における上記物体の像の、第N+1フレームにおける位置に基づいて、第N+1フレームにおいて、上記物体識別工程における識別対象となる領域である識別対象領域を設定する領域設定工程と、を含んでいる。
 上記の構成によれば、本開示の一態様に係る動画像処理装置と同様の効果を奏する。
 本開示の各態様に係る動画像処理装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記動画像処理装置が備える各部(ソフトウェア要素)として動作させることにより上記動画像処理装置をコンピュータにて実現させる動画像処理装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本開示の範疇に入る。
 〔付記事項〕
 本開示は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本開示の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成できる。
 (関連出願の相互参照)
 本出願は、2017年6月15日に出願された日本国特許出願:特願2017-117742に対して優先権の利益を主張するものであり、それを参照することにより、その内容の全てが本書に含まれる。
 1,3,4 表示装置
 10,30,40 信号処理部(動画像処理装置)
 12 ウィンドウ設定部(領域設定部)
 13 物体識別部
 14 画質補正部
 Window(x0:x1,y0:y1) 第Nフレームにおける識別対象領域
 Window(x0’:x1’,y0’:y1’) 第N+1フレームにおける識別対象領域
 Region(x0’:x1’,y0’:y1’) 第N+1フレームにおける識別対象領域候補
 OBJ,OBJ2 物体

Claims (12)

  1.  複数のフレームによって構成された動画像を処理する動画像処理装置であって、
     上記動画像において表現された物体を識別する物体識別部と、
     上記動画像の第Nフレーム(Nは自然数)における上記物体の像の、第N+1フレームにおける位置に基づいて、第N+1フレームにおいて、上記物体識別部による識別対象となる領域である識別対象領域を設定する領域設定部と、を備えていることを特徴とする動画像処理装置。
  2.  第Nフレームにおける上記識別対象領域には、上記物体の像の少なくとも一部分が含まれており、
     上記領域設定部は、上記動画像の動きベクトルのうち、第Nフレームにおける上記識別対象領域に含まれる動きベクトルに基づいて、第N+1フレームにおける識別対象領域を設定することを特徴とする請求項1に記載の動画像処理装置。
  3.  上記領域設定部は、第Nフレームにおける上記識別対象領域と、当該識別対象領域に含まれる上記動きベクトルと、に基づいて、第N+1フレームにおける識別対象領域の候補である複数の識別対象領域候補を設定し、
     上記物体識別部は、第N+1フレームにおいて複数の上記識別対象領域候補のいずれに上記物体の像の少なくとも一部分が含まれるかを識別し、
     上記領域設定部は、複数の識別対象領域候補のうち、第N+1フレームにおいて上記物体の像の少なくとも一部分が含まれる識別対象領域候補を、第N+1フレームにおける識別対象領域として設定することを特徴とする請求項2に記載の動画像処理装置。
  4.  上記領域設定部は、第Nフレームにおける上記識別対象領域に含まれる、上記動きベクトルの成分の分布における統計値に基づいて、第N+1フレームにおける複数の上記識別対象領域候補を設定することを特徴とする請求項3に記載の動画像処理装置。
  5.  上記領域設定部は、第Nフレームにおける上記識別対象領域に含まれる、上記動きベクトルの成分の分布における極大値に基づいて、第N+1フレームにおける複数の上記識別対象領域候補を設定することを特徴とする請求項4に記載の動画像処理装置。
  6.  第Nフレームにおける上記識別対象領域には、上記物体の像の全体が含まれており、
     上記領域設定部は、複数の上記識別対象領域候補のうち、第N+1フレームにおいて上記物体の像の全体が含まれる識別対象領域候補を、第N+1フレームにおける識別対象領域として設定することを特徴とする請求項3から5のいずれか1項に記載の動画像処理装置。
  7.  上記領域設定部は、上記識別対象領域として矩形の領域を設定し、第Nフレームにおける上記矩形と、第N+1フレームにおける上記矩形とが互いに平行な辺を有するように各フレームにおける上記識別対象領域を設定することを特徴とする請求項1から6のいずれか1項に記載の動画像処理装置。
  8.  上記物体識別部は、複数の物体の画像を用いて学習した学習済みモデルを含んでいることを特徴とする請求項1から7のいずれか1項に記載の動画像処理装置。
  9.  上記物体識別部の識別結果に応じて上記動画像を処理する画質補正部をさらに備えていることを特徴とする請求項1から8のいずれか1項に記載の動画像処理装置。
  10.  請求項1から9のいずれか1項に記載の動画像処理装置を備えていることを特徴とする表示装置。
  11.  複数のフレームによって構成された動画像を処理する動画像処理方法であって、
     上記動画像において表現された物体を識別する物体識別工程と、
     上記動画像の第Nフレーム(Nは自然数)における上記物体の像の、第N+1フレームにおける位置に基づいて、第N+1フレームにおいて、上記物体識別工程における識別対象となる領域である識別対象領域を設定する領域設定工程と、を含んでいることを特徴とする動画像処理方法。
  12.  請求項1に記載の動画像処理装置としてコンピュータを機能させるための制御プログラムであって、上記領域設定部および上記物体識別部としてコンピュータを機能させるための制御プログラム。
PCT/JP2018/019955 2017-06-15 2018-05-24 動画像処理装置、表示装置、動画像処理方法、および制御プログラム WO2018230294A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US16/620,728 US20200106930A1 (en) 2017-06-15 2018-05-24 Video processing device, display device, video processing method, and control computer-readable storage medium
CN201880039688.0A CN111052184A (zh) 2017-06-15 2018-05-24 动态图像处理装置、显示装置、动态图像处理方法以及控制程序

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017117742 2017-06-15
JP2017-117742 2017-06-15

Publications (1)

Publication Number Publication Date
WO2018230294A1 true WO2018230294A1 (ja) 2018-12-20

Family

ID=64658674

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/019955 WO2018230294A1 (ja) 2017-06-15 2018-05-24 動画像処理装置、表示装置、動画像処理方法、および制御プログラム

Country Status (3)

Country Link
US (1) US20200106930A1 (ja)
CN (1) CN111052184A (ja)
WO (1) WO2018230294A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020194378A1 (ja) * 2019-03-22 2020-10-01 日本電気株式会社 画像処理システム、画像処理装置、画像処理方法、及びコンピュータ可読媒体
JP2021010109A (ja) * 2019-07-01 2021-01-28 日本放送協会 フレームレート変換モデル学習装置およびフレームレート変換装置、ならびに、それらのプログラム

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11893791B2 (en) * 2019-03-11 2024-02-06 Microsoft Technology Licensing, Llc Pre-processing image frames based on camera statistics
US11514587B2 (en) * 2019-03-13 2022-11-29 Microsoft Technology Licensing, Llc Selectively identifying data based on motion data from a digital video to provide as input to an image processing model
CN112712124B (zh) * 2020-12-31 2021-12-10 山东奥邦交通设施工程有限公司 一种基于深度学习的多模块协同物体识别系统及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002373332A (ja) * 2001-06-15 2002-12-26 Matsushita Electric Ind Co Ltd 画像認識装置および画像認識方法
JP2004128715A (ja) * 2002-09-30 2004-04-22 Sanyo Electric Co Ltd ビデオデータの記憶制御方法およびシステム、プログラム、記録媒体、ビデオカメラ
JP2009026146A (ja) * 2007-07-20 2009-02-05 Canon Inc 画像処理装置及び画像処理方法
JP2017016512A (ja) * 2015-07-03 2017-01-19 パナソニックIpマネジメント株式会社 判定装置、判定方法、および判定プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002373332A (ja) * 2001-06-15 2002-12-26 Matsushita Electric Ind Co Ltd 画像認識装置および画像認識方法
JP2004128715A (ja) * 2002-09-30 2004-04-22 Sanyo Electric Co Ltd ビデオデータの記憶制御方法およびシステム、プログラム、記録媒体、ビデオカメラ
JP2009026146A (ja) * 2007-07-20 2009-02-05 Canon Inc 画像処理装置及び画像処理方法
JP2017016512A (ja) * 2015-07-03 2017-01-19 パナソニックIpマネジメント株式会社 判定装置、判定方法、および判定プログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020194378A1 (ja) * 2019-03-22 2020-10-01 日本電気株式会社 画像処理システム、画像処理装置、画像処理方法、及びコンピュータ可読媒体
JPWO2020194378A1 (ja) * 2019-03-22 2021-12-23 日本電気株式会社 画像処理システム、画像処理装置、画像処理方法、及び画像処理プログラム
JP7176616B2 (ja) 2019-03-22 2022-11-22 日本電気株式会社 画像処理システム、画像処理装置、画像処理方法、及び画像処理プログラム
US11748977B2 (en) 2019-03-22 2023-09-05 Nec Corporation Image processing system, image processing device, image processing method, and computer-readable medium
JP2021010109A (ja) * 2019-07-01 2021-01-28 日本放送協会 フレームレート変換モデル学習装置およびフレームレート変換装置、ならびに、それらのプログラム
JP7274367B2 (ja) 2019-07-01 2023-05-16 日本放送協会 フレームレート変換モデル学習装置およびフレームレート変換装置、ならびに、それらのプログラム

Also Published As

Publication number Publication date
CN111052184A (zh) 2020-04-21
US20200106930A1 (en) 2020-04-02

Similar Documents

Publication Publication Date Title
WO2018230294A1 (ja) 動画像処理装置、表示装置、動画像処理方法、および制御プログラム
US9036905B2 (en) Training classifiers for deblurring images
US20230030020A1 (en) Defining a search range for motion estimation for each scenario frame set
EP2491531B1 (en) Alignment of an ordered stack of images from a specimen.
US8718324B2 (en) Method, apparatus and computer program product for providing object tracking using template switching and feature adaptation
KR101479387B1 (ko) 얼굴 검출을 위한 방법 및 장치
US9196021B2 (en) Video enhancement using related content
CN111340820B (zh) 图像分割方法、装置、电子设备及存储介质
Xue et al. Foreground estimation based on linear regression model with fused sparsity on outliers
Berjon et al. GPU-based implementation of an optimized nonparametric background modeling for real-time moving object detection
JP2013031163A (ja) 超解像処理装置及び超解像処理方法
CN110516598B (zh) 用于生成图像的方法和装置
US7085434B2 (en) Sprite recognition in animated sequences
Moghadam et al. Common and innovative visuals: a sparsity modeling framework for video
JP2010165052A (ja) 画像処理装置及び画像処理方法
WO2017070841A1 (zh) 图像处理方法和装置
JP5463269B2 (ja) 特徴図形付加方法、特徴図形検出方法、特徴図形付加装置、特徴図形検出装置、およびプログラム
CN106056575B (zh) 一种基于似物性推荐算法的图像匹配方法
Zhao et al. Single image super-resolution reconstruction using multiple dictionaries and improved iterative back-projection
US20220318950A1 (en) Video enhancement method and apparatus, and electronic device and storage medium
JP6056354B2 (ja) 画像処理装置、画像処理方法および画像処理プログラム
KR100451184B1 (ko) 모션 벡터 탐색 방법
Yue et al. Sift-based image super-resolution
US20230110665A1 (en) Image processing apparatus and method, and storage medium
JP2011076575A (ja) 画像処理装置、画像処理方法及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18816720

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18816720

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP