WO2020235060A1 - 映像処理装置および映像処理方法 - Google Patents

映像処理装置および映像処理方法 Download PDF

Info

Publication number
WO2020235060A1
WO2020235060A1 PCT/JP2019/020312 JP2019020312W WO2020235060A1 WO 2020235060 A1 WO2020235060 A1 WO 2020235060A1 JP 2019020312 W JP2019020312 W JP 2019020312W WO 2020235060 A1 WO2020235060 A1 WO 2020235060A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
representative
score
video
period
Prior art date
Application number
PCT/JP2019/020312
Other languages
English (en)
French (fr)
Inventor
光貴 岩村
横田 守真
正英 小池
少翔 馬
Original Assignee
三菱電機ビルテクノサービス株式会社
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機ビルテクノサービス株式会社, 三菱電機株式会社 filed Critical 三菱電機ビルテクノサービス株式会社
Priority to PCT/JP2019/020312 priority Critical patent/WO2020235060A1/ja
Priority to JP2021519988A priority patent/JP7317954B2/ja
Priority to CN201980096562.1A priority patent/CN113841389B/zh
Publication of WO2020235060A1 publication Critical patent/WO2020235060A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/765Interface circuits between an apparatus for recording and another apparatus
    • H04N5/77Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/92Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast

Definitions

  • This specification discloses a video processing device and a video processing method for extracting a representative image representing the video content from the video shot by the camera.
  • a representative image representing the content of the video is extracted from a plurality of frame images constituting the video, and a thumbnail image is generated based on the representative image.
  • Processing equipment is widely known.
  • a method for extracting such a representative image for example, a technique of extracting a frame image at regular intervals as a representative image can be considered.
  • an image that sufficiently represents the video content cannot be obtained by simply extracting the frame image on a regular basis.
  • Patent Document 1 describes a method of selecting a representative image in a predetermined video section, wherein the representative image of the video section is based on a frame in which the amount of change of two images adjacent in time is minimized.
  • Patent Document 2 discloses a technique of calculating a motion vector between frame images and extracting a thumbnail image (representative image) at a peripheral timing in which a change with time of the motion vector becomes maximum / minimum.
  • this specification discloses a video processing device and a video processing method capable of more appropriately extracting a representative image from a plurality of frame images constituting the video captured by the camera.
  • the image processing device disclosed in the present specification calculates a representative score for each of a storage device that stores an image taken by a camera and a thumbnail image of the image, and a plurality of frame images constituting the image during a predetermined event period.
  • a score calculation unit to be used, an image selection unit that selects a frame image representing the image of the event period as a representative image based on the calculated representative score, and a thumbnail image of the representative image are generated and stored.
  • the score calculation unit includes a thumbnail image generation unit to be stored in the device, and the score calculation unit calculates the blur amount of each of a plurality of frame images constituting the video during the event period, and calculates the representative score based on at least the blur amount. It is characterized by calculating.
  • the score calculation unit may also calculate motion vectors for each of the plurality of frame images constituting the video during the event period, and at least calculate the representative score based on the blur amount and the motion vector.
  • the score calculation unit sets the attention period with reference to the motion vector, calculates the representative score of the frame image constituting the image of the attention period based on the blur amount, and calculates the representative score of the other frame images.
  • the representative score may be calculated as zero.
  • the score calculation unit is provided with a background image extraction unit that provides the score calculation unit with a background image that constitutes the background of the plurality of frame images that constitute the video of the event period, and the score calculation unit further includes the event period.
  • the difference between each of the plurality of frame images constituting the video and the background image may be calculated as the background subtraction, and at least the representative score may be calculated based on the blur amount and the background difference.
  • the score calculation unit sets the attention period based on the background subtraction, calculates the representative score of the frame image constituting the video of the attention period based on the blur amount, and calculates the representative score of the other frame images.
  • the representative score may be calculated as substantially zero.
  • the score calculation unit is provided with a background image extraction unit that provides the score calculation unit with background images that form the backgrounds of the plurality of frame images that constitute the video of the event period, and the score calculation unit further includes the event period.
  • the difference between each of the plurality of frame images constituting the video and the background image is calculated as the background subtraction, and the motion vectors of the plurality of frame images constituting the video during the event period are calculated, and at least the background subtraction is calculated.
  • the representative score may be calculated based on the amount of blur and the motion vector.
  • the score calculation unit sets the first attention period based on the background subtraction, sets the second attention period based on the motion vector in the first attention period, and sets the image of the second attention period.
  • the representative score of the frame image constituting the above may be calculated based on the amount of blurring, and the representative score of the other frame images may be calculated as substantially zero.
  • an event notification unit for notifying the score calculation unit of the start and end of the event period may be provided, and the thumbnail image may be generated for each of the plurality of event periods.
  • the score calculation unit determines the moving distance when the autocorrelation between the comparative image obtained by moving the frame image in the direction of a predetermined moving angle by a predetermined moving distance and the frame image is maximized. It may be calculated as the amount of blurring of the frame image.
  • the thumbnail image generation unit is provided with a background image extraction unit that provides the thumbnail image generation unit with a background image that constitutes the background of a plurality of frame images that constitute the video during the event period, and the thumbnail image generation unit is the representative image.
  • a thumbnail image may be generated by emphasizing a subject portion different from the background image.
  • a video taken by a camera and a thumbnail image of the video are stored in a storage device, and a representative score of each of a plurality of frame images constituting the video during a predetermined event period is stored.
  • a frame image with less blurring can be easily selected as a representative image, so that a representative image can be extracted more appropriately.
  • FIG. 1 is a block diagram showing a physical configuration of the video processing device 10
  • FIG. 2 is a block diagram showing a functional configuration of the video processing device 10.
  • the video processing device 10 extracts a representative image representing the video from a plurality of frame images constituting the video captured by the surveillance camera 100, and generates a thumbnail image.
  • a surveillance camera is taken as an example, but the camera is not limited to the surveillance camera as long as it captures a moving image, and other cameras may be used.
  • the video processing device 10 is physically a processor 12, a storage device 14 connected to the processor 12 via a bus, a communication interface 18 (hereinafter abbreviated as “communication I / F18”), and an input device. It is a computer having 16. Further, the video processing device 10 may be connected to a display 200 for displaying various images, for example, thumbnail images described later, if necessary.
  • the processor 12 executes various operations according to a program, and is, for example, a CPU.
  • the storage device 14 stores various programs and data, and is composed of, for example, a semiconductor memory, a hard disk drive, a solid state drive, or a combination thereof.
  • the communication I / F 18 is for transmitting and receiving data by wire or wirelessly to and from a device outside the video processing device 10, and is a connector, an antenna, a communication chip, or a communication chip conforming to a predetermined communication standard. It is composed of a combination of these.
  • the input device 16 receives an operation instruction from an operator, and is composed of, for example, a keyboard, a mouse, a microphone, a touch panel, or a combination thereof.
  • the video processing device 10 may be composed of a plurality of computers.
  • the video processing device 10 includes a main computer that executes complicated arithmetic processing and a sub computer (for example, a personal digital assistant) capable of communicating with the main computer, and the user can use the input device of the sub computer.
  • a sub computer for example, a personal digital assistant
  • various arithmetic processes may be performed on the main computer.
  • the video processing device 10 is realized by a computer, but the video processing device 10 may be realized by an embedded device incorporated in another device / device.
  • a surveillance camera 100 and an event monitoring unit 102 are connected to the video processing device 10.
  • the surveillance camera 100 captures a predetermined target space.
  • the target section may be indoors or outdoors.
  • the surveillance camera 100 may be a fixed camera whose position and posture do not change, or a movable camera whose position or posture can be changed within a predetermined range.
  • the video data obtained by the shooting by the surveillance camera 100 is sequentially sent to the video processing device 10 and stored in the storage device 14 via the communication I / F 18.
  • the event monitoring unit 102 monitors the presence or absence of an event, and if an event occurs, notifies the video processing device 10 to that effect. As will be described later, the video processing device 10 extracts one representative image from a plurality of frame images constituting the video during the event period. What is defined as an event can be appropriately changed according to the installation purpose and installation location of the surveillance camera 100. For example, the event may be specified to occur periodically (eg, every 3 minutes for 30 seconds). Further, when the surveillance camera 100 is installed in a process execution space such as a factory, the execution period of a specific process may be set as an event. Further, the timing at which a large change occurs in the image or sound may be set as an event.
  • an event is set as an event in which a person gets in or out of the elevator or an animal, an animal, or a moving object (a car, a drone, etc.) enters the elevator hall. You may. Further, the timing at which a sound of a certain level or higher is generated may be specified as the event occurrence timing. Further, as another form, the timing at which a specific instruction input occurs may be specified as the event occurrence timing. For example, when the surveillance camera 100 is installed in the elevator hall of the facility, pressing the elevator button may be specified as an event occurrence timing.
  • the event monitoring unit 102 monitors the occurrence state of such an event and sends the result to the video processing device 10.
  • the event monitoring unit 102 sends at least an event start signal indicating the start of the event to the video processing device 10. Further, in addition to the event start signal, the event monitoring unit 102 may also send an event end signal indicating the end of the event to the video processing device 10.
  • the event monitoring unit 102 may be, for example, a part of a building monitoring facility. Further, the event monitoring unit 102 may be incorporated in the video processing device 10 instead of being a separate device from the video processing device 10.
  • the video processing device 10 has a video receiving unit 22 that receives video data acquired by the surveillance camera 100.
  • the video receiving unit 22 sends the received video data to the video recording control unit 26, the score calculation unit 32, the image selection unit 34, and the background image extraction unit 36.
  • the video recording control unit 26 stores the received video data in the storage 28 after associating it with a time stamp or the like.
  • the storage 28 stores video data and thumbnail images taken by the surveillance camera 100, and is physically a storage device 14.
  • the video processing device 10 is also provided with an event notification unit 24 that receives a signal related to the event from the event monitoring unit 102.
  • the event notification unit 24 determines the start and end timings of the event based on the signals from the event monitoring unit 102, and notifies the score calculation unit 32 and the image selection unit 34 of the event notification signals indicating these timings.
  • the event end signal is transmitted from the event monitoring unit 102
  • the event end timing is determined based on the event end signal.
  • the event notification unit 24 may determine the timing at which a predetermined time has elapsed from the reception of the event start signal as the event end timing.
  • the event notification unit 24 and the video reception unit 22 are physically communication I / F18.
  • the score calculation unit 32 calculates a representative score for each of the plurality of frame images constituting the video during the event period. Since the procedure for calculating the representative score will be described in detail later, the detailed description here will be omitted. As will be described in detail later, in addition to the frame image and the event start / end signal constituting the video during the event period, the background image extracted by the background image extraction unit 36 may be input to the score calculation unit 32. Good. The score calculation unit 32 sends the calculated representative score together with the ID of the corresponding frame image to the image selection unit 34 sequentially or collectively.
  • the image selection unit 34 selects a representative image representing the video of one event period based on the calculated representative score.
  • the frame image having the maximum representative score is selected as the representative image during the event period.
  • FIG. 3 is a block diagram showing an example of a specific configuration of the image selection unit 34.
  • the image selection unit 34 is provided with an image buffer 42 that temporarily stores a plurality of frame images constituting the video during the event period.
  • the image selection unit 34 is also provided with a maximum score detection unit 40.
  • the maximum score detection unit 40 identifies the maximum representative score from the plurality of representative scores sent from the score calculation unit 32, and identifies the ID of the frame image corresponding to the maximum representative score. Then, the maximum score detection unit 40 sends the ID of the specified frame image to the image identification unit 44.
  • the image specifying unit 44 reads the frame image with the sent ID from the image buffer 42, and identifies this frame image as a representative image in this event.
  • the identified representative image is sent to the thumbnail image generation unit 38 as shown in FIG.
  • FIG. 4 is an image diagram showing a specific state of the representative image.
  • the upper part shows the event occurrence state
  • ON (high) indicates the period during the event
  • OFF (low) indicates the period during which the event does not occur.
  • the lower row shows the representative score calculated during each event period.
  • the maximum score detection unit 40 specifies the frame image having the maximum representative score as the representative image during one event period. Therefore, in the example of FIG. 4, the frame image captured at time t1 is specified as the representative image representing the event E1. Similarly, the frame images captured at time t2, t3, and t4 are identified as representative images representing events E2, E3, and E4, respectively.
  • the thumbnail image generation unit 38 generates a thumbnail image of the sent representative image and stores the thumbnail image in the storage 28. At this time, the thumbnail image is stored together with the information indicating the time when the representative image was captured or the start time of the event to which the representative image belongs.
  • the thumbnail image may be the representative image itself or an image obtained by reducing the representative image (lowering the resolution).
  • the thumbnail image generation unit 38 emphasizes the subject portion of the representative image to generate a thumbnail image.
  • FIG. 5 is a diagram showing an example of a specific configuration of the thumbnail image generation unit 38.
  • the background image provided by the background image extraction unit 36 is also input to the thumbnail image generation unit 38.
  • the background image is an image that constitutes the background of a plurality of frame images that constitute an image.
  • the background image may be registered by the operator in advance, or may be automatically extracted by the background image extraction unit 36 based on the video data.
  • the background image extraction unit 36 can extract the captured frame image as the background image during the period when the event does not occur or during the period when the subject such as a person, an animal, or a moving object is not reflected. ..
  • the thumbnail image generation unit 38 includes a difference image generation unit 46 that extracts only the differences between the representative image and the background image. Therefore, the difference image is usually an image of a subject portion such as a person, an animal, or a moving body.
  • the generated difference image is sent to the enhancement processing unit 48.
  • the enhancement processing unit 48 performs enhancement processing on the difference image which is an image of the subject portion.
  • the enhancement process is not particularly limited as long as the subject included in the difference image is more conspicuous than the background. Therefore, the enhancement processing unit 48 may, for example, process edge enhancement, color tone change, brightness increase, contrast enhancement, border addition, or a combination thereof of the difference image.
  • the enhanced difference image is sent to the superimposing unit 50 together with the representative image.
  • the superimposition unit 50 synthesizes the emphasized difference image with the representative image, and generates a thumbnail image based on the composite image.
  • FIG. 6 is an image diagram showing a state of thumbnail image generation.
  • the representative image 64 and the background image 66 are input to the thumbnail image generation unit 38.
  • the representative image 64 is different from the background image 66 in that a subject such as a person is reflected in the representative image 64.
  • the thumbnail image generation unit 38 extracts a portion of the representative image 64 that is different from the background image 66 as a difference image 68.
  • a portion showing a person is extracted as a difference image 68.
  • the thumbnail image generation unit 38 enhances the extracted difference image 68 and then synthesizes it with the representative image 64. Then, a thumbnail image is generated based on the obtained composite image 70.
  • the thumbnail images displayed on the display 200 are rarely single, and usually, a plurality of thumbnail images are often displayed in a list. Further, in order to enable the display of a plurality of thumbnail images, the size of each thumbnail image is often small. In this case, it may be difficult to clearly grasp the characteristics of the subject captured in one thumbnail image. However, as described above, by emphasizing the subject portion, the characteristics of the subject can be clearly grasped as compared with the case where the subject portion is not emphasized.
  • the emphasized difference image and the representative image are combined, but the background image may be combined with the difference image instead of the representative image.
  • deterioration processing edge blunting, brightness reduction, color tone change, blurring processing, etc.
  • the characteristics of the event can be grasped more clearly from the thumbnail image.
  • the frame image having the maximum representative score is selected as the representative image during one event period. Therefore, the characteristics of the frame image selected as the representative image change depending on the calculation method of the representative score.
  • the amount of blurring of each of the plurality of frame images constituting the video during the event period is calculated, and the representative score is calculated based on at least the amount of blurring.
  • FIG. 7 is a diagram showing an example of the configuration of the score calculation unit 32.
  • the score calculation unit 32 includes a blur amount calculation unit 54 that calculates the blur amount of the frame image, and a score conversion unit 52 that converts the calculated blur amount into a representative score.
  • the blur amount calculation unit 54 calculates the blur amount of the image included in one frame image from the one frame image. In other words, the blur amount calculation unit 54 calculates the blur amount of one frame image without referring to another frame image. More specifically, the blur amount calculation unit 54 calculates the blur amount based on the autocorrelation between the frame image and the comparative image in which the frame image is moved in a predetermined movement direction by a predetermined movement distance.
  • FIG. 8 is an image diagram showing a state of calculating the amount of blur.
  • the blur amount calculation unit 54 assumes a comparison image 62 in which the frame image 60 is moved in the direction of the movement angle ⁇ by the movement distance dr, and the comparison image 62 and the frame image 60 are self-combined.
  • the correlation S is calculated.
  • the autocorrelation S can be calculated by the following equation 1.
  • R (i, j) indicates R at the coordinates (i, j) of the frame image, that is, the color value of red.
  • G (i, j) and B (i, j) indicate G and B, that is, green and blue color values at the coordinates (i, j) of the frame image.
  • the number of pixels of the frame image is W ⁇ H, and the values of W ⁇ H are integrated.
  • the blur amount calculation unit 54 calculates a plurality of autocorrelation S while changing the combination of the movement angle ⁇ and the movement distance dr. Therefore, when the movement angle ⁇ is changed N1 times and the movement distance dr is changed N2 times, the autocorrelation S is calculated by N1 ⁇ N2.
  • the change interval and upper limit of the movement angle ⁇ and the movement distance dr are not particularly limited, but for example, the movement angle ⁇ may be changed from 0 ° to 360 ° at 10 ° intervals. Further, the moving distance dr may be changed, for example, from 0 to 10 at 1 interval.
  • the blur amount calculation unit 54 identifies the maximum autocorrelation S among the plurality of autocorrelation S. Then, the moving distance dr when the maximum autocorrelation S is calculated is output as the amount of blurring of the frame image 60.
  • the calculated blur amount of each frame image is input to the score conversion unit 52.
  • the score conversion unit 52 converts the amount of blurring of each frame image into a representative score of the frame image.
  • This conversion method is not particularly limited as long as the representative score depends on the amount of blurring.
  • the value obtained by reversing the amount of blur is calculated as a representative score.
  • the representative score C Bmax-B may be set.
  • FIG. 9 is an image diagram showing how the representative score is calculated.
  • the upper part of FIG. 9 is a graph showing the amount of blurring of the frame image obtained during a specific event period, and the lower part is a graph showing the representative score of the frame image.
  • the event continues from time t0 to time tmax.
  • the amount of blur changes with the passage of time, but takes the minimum value at time t1. Since the representative score is a value obtained by flipping this amount of blur upside down, the representative score takes the maximum value at the same time t1.
  • the score conversion unit 52 sends the representative score acquired in this way to the image selection unit 34 together with the ID of the corresponding frame image.
  • the score conversion unit 52 may send the representative score and ID to the image selection unit 34 each time a representative score of one frame image is obtained.
  • the score conversion unit 52 may collectively send the representative scores and IDs of all the plurality of frame images constituting the video during one event period to the image selection unit 34.
  • the image selection unit 34 selects the frame image having the maximum representative score as the representative image. Therefore, in the example of FIG. 9, the frame image taken at time t1 is selected as the representative image.
  • the representative score is calculated based on the amount of blurring of the frame image, and the smaller the amount of blurring, the easier it is to select the representative image.
  • the amount of blur is calculated based on the moving distance dr when the autocorrelation S takes the maximum value, but the method of calculating the amount of blur may be changed as appropriate.
  • the frame image may be Fourier transformed to obtain a spectrum, and the amount of blur may be calculated based on the intensity ratio of the low frequency component and the high frequency component.
  • the value obtained by reversing the amount of blur is used as the representative score, but the amount of blur itself may be used as the representative score.
  • the image selection unit 34 may select the frame image having the minimum representative score as the representative image.
  • the representative image does not necessarily have to be the frame image having the maximum or minimum representative score as long as the frame image having less blurring is selected based on the value of the representative score.
  • the frame image having the second highest representative score may be selected as the representative image.
  • FIG. 10 is a diagram showing another example of the configuration of the score calculation unit 32.
  • the score calculation unit 32 includes a blur amount calculation unit 54, a motion vector calculation unit 56 that calculates a motion vector between two frame images, and a score conversion that converts the calculated blur amount and motion vector into a representative score.
  • a unit 52 and the like are provided.
  • the configuration of the blur amount calculation unit 54 is the same as the configuration of the blur amount calculation unit 54 in FIG. 7.
  • the motion vector calculation unit 56 determines the motion vector of the target frame image based on the current frame image (target frame image) and the frame image (reference frame image) of a predetermined time (for example, one frame before) the target frame image. Is calculated. Specifically, the motion vector calculation unit 56 divides the target frame image into N (N ⁇ 2) sub-blocks, shifts each sub-block in the reference frame image, and searches for the best matching part. To do. The motion vector calculation unit 56 obtains the shift amount for all the sub-blocks, and calculates the sum of squares as the motion vector of the target frame image. That is, when the shift amount in the x direction of the i-th subblock is Mx (i) and the shift amount in the y direction is My (i), the motion vector M of the target frame image can be obtained by Equation 2.
  • the motion vector calculated by the motion vector calculation unit 56 is sent to the score conversion unit 52 together with the ID of the frame image.
  • the score conversion unit 52 calculates the representative score of each of the plurality of frame images based on the blur amount calculated by the blur amount calculation unit 54 and the motion vector calculated by the motion vector calculation unit 56.
  • the attention period is set based on the timing when the motion vector takes the maximum value during one event period, and the representative scores of a plurality of frame images constituting the video of the attention period are calculated based on the amount of blur.
  • the representative score of the other frame images is set to 0.
  • FIG. 11 is an image diagram showing how the representative score is calculated. In FIG. 11, the upper row shows the amount of blurring during one event period, the middle row shows the motion vector, and the lower row shows the representative score.
  • the motion vector takes the maximum value at time t2. Therefore, it can be inferred that the movement of the subject in the image is particularly large around this time t2.
  • a fixed period before and after the time t2 at which this motion vector is maximized is set as the attention period ⁇ t.
  • the period from the time t1 which is the past by the predetermined time ⁇ from the time t2 to the time t3 which is the future by the predetermined time ⁇ from the time t2 is the attention period ⁇ t. Then, for the frame image constituting the image of the attention period ⁇ t, the representative score is calculated based on the amount of blurring.
  • the value obtained by subtracting the amount of blur from the upper limit of the amount of blur is calculated as the representative score.
  • the representative score of the frame image constituting the video in the period other than the attention period ⁇ t that is, the time t0 to t1 and the time t3 to tmax is 0.
  • the representative score becomes the maximum at the time ta within the attention period ⁇ t. Therefore, in this case, the frame image at time ta is selected as the representative image.
  • FIG. 12 is a diagram showing an example of a table recorded by the score conversion unit 52 for calculating the representative score.
  • the score conversion unit 52 temporarily stores the motion vector and the amount of blur sequentially sent from the motion vector calculation unit 56 and the blur amount calculation unit 54 together with the ID of the frame image in the form of the table shown in FIG. If the motion vector and the amount of blur can be calculated for all the frame images constituting one event period, the score conversion unit 52 sets the attention period with reference to this table.
  • the frame image of the image ID 06 and the two frame images before and after the frame image are specified as the frame images of the attention period.
  • the score conversion unit 52 calculates a value obtained by subtracting the amount of blurring of these five frame images from the upper limit value (10 in the illustrated example) as a representative score.
  • the representative scores of the other frame images are all set to 0.
  • the score conversion unit 52 also records the calculated representative score in a table, and then sends the table to the image selection unit 34.
  • the image selection unit 34 selects a representative image based on the representative score recorded in the table. In the example of FIG. 12, the image ID 07 having the maximum representative score is selected as the representative image.
  • the representative image is an image that makes it easy to grasp the events that occurred during each event period.
  • the event causes some movement, it is easier to grasp the content of the event in the image when the movement is large than in the image when the movement is small.
  • the image when the two people move their hands and try to grab the other person is better than the image where the two people are just standing. It is easier to understand the situation.
  • the period for calculating the representative score is limited to a certain period (attention period) before and after the timing when the motion vector reaches the maximum value.
  • the representative score of the frame image during the attention period is calculated based on the blur amount so that the image having a small blur amount is selected as the representative image during the attention period.
  • the attention period may be set by another procedure as long as it is set based on the motion vector.
  • the attention period may be a fixed period after the maximum motion vector timing, and the past from the maximum motion vector timing may not be included in the attention period.
  • the moving average of the motion vector may be calculated, and the period in which the moving average value becomes the highest may be set as the attention period.
  • the representative score is calculated based on both the motion vector and the amount of blur, it is not necessary to set the attention period.
  • a function with the motion vector M and the amount of blur B as variables may be set, and the representative score C may be calculated based on the functions.
  • C K1, M + K2, B may be set (K1 and K2 are coefficients).
  • FIG. 13 is a diagram showing another example of the configuration of the score calculation unit 32.
  • the score calculation unit 32 includes a blur amount calculation unit 54, a background subtraction calculation unit 58 that calculates the difference between the frame image and the background image, and score conversion that converts the calculated blur amount and background difference into a representative score.
  • a unit 52 and a unit 52 are provided.
  • the configuration of the blur amount calculation unit 54 is the same as the configuration of the blur amount calculation unit 54 in FIG. 7.
  • the background subtraction calculation unit 58 calculates the amount of difference between the target frame image and the background image as background subtraction.
  • the background image is an image provided by the background image extraction unit 36, and is an image constituting the background of a plurality of frame images constituting the image.
  • the calculation method of background subtraction is not limited as long as it is a parameter representing the difference between the frame image and the background image. In this example, the sum of squares of the difference in pixel values between the target frame image and the background image is calculated as background subtraction. Therefore, the background subtraction D is represented by Equation 3.
  • Rt (i, j) indicates the R value at the coordinates i, j of the target frame image
  • Rb (i, j) indicates the R value at the coordinates i, j of the background image.
  • Gt (i, j) and Bt (i, j) are the G and B values at the coordinates i and j of the target frame image
  • Gb (i, j) and Bb (i, j) are the G and B values.
  • G value and B value at coordinates i and j of the background image are shown, respectively.
  • the background subtraction calculated by the background subtraction calculation unit 58 is sent to the score conversion unit 52 together with the ID of the frame image.
  • the score conversion unit 52 calculates the representative score of each of the plurality of frame images based on the blur amount calculated by the blur amount calculation unit 54 and the background subtraction calculated by the background subtraction calculation unit 58.
  • the background subtraction calculation method described here is an example, and if the degree of difference between the frame image and the background image can be expressed, the value calculated by another method is used as the "background subtraction". You may handle it. For example, the number of pixels in which the difference in pixel values between the frame image and the background image is equal to or greater than a predetermined threshold value may be used as the background difference.
  • attention period is set based on the timing when background subtraction takes the maximum value during one event period, and representative scores of a plurality of frame images constituting the video of the attention period are calculated based on the amount of blurring.
  • the representative scores of the other frame images are set to 0.
  • FIG. 14 is an image diagram showing how the representative score is calculated.
  • the upper row shows the amount of blurring during one event period
  • the middle row shows the background subtraction
  • the lower row shows the representative score.
  • the background subtraction takes the maximum value at time t2.
  • the background subtraction tends to increase as the number of subjects (for example, people) shown in the frame image increases.
  • the background subtraction is greater when multiple subjects are dispersed without partially overlapping (and by extension, the total area of all subjects is large). , Easy to grow. Therefore, in the vicinity of time t2 where the background subtraction is maximum, it is highly possible that most of the subjects involved in the event are captured with little overlap.
  • a certain period before and after the time t2 at which this background subtraction is maximized is set as the attention period ⁇ t.
  • the period from the time t1 which is the past by the predetermined time ⁇ from the time t2 to the time t3 which is the future by the predetermined time ⁇ from the time t2 is the attention period ⁇ t.
  • the representative score is calculated based on the amount of blurring. Specifically, the value obtained by subtracting the amount of blur from the maximum value of the amount of blur is calculated as the representative score.
  • the representative score of the frame image constituting the video in the period other than the attention period ⁇ t that is, the time t0 to t1 and the time t3 to tmax is 0.
  • the representative score becomes the maximum at the time ta within the attention period ⁇ t.
  • the score conversion unit 52 records the blur amount, background subtraction, and representative score calculated in this way in the same table as in FIG. 12, and then sends the table to the image selection unit 34.
  • the image selection unit 34 refers to the sent table and selects the frame image having the maximum representative score as the representative image. In the example of FIG. 14, the frame image at time ta is selected as the representative image.
  • the representative image is an image that makes it easy to grasp the events that occurred during each event period.
  • the period for calculating the representative score is limited to a certain period (attention period) before and after the timing when the background subtraction reaches the maximum value.
  • a frame image in which more subjects are captured with less overlap is likely to remain as a candidate for a representative image.
  • the representative score of the frame image during the attention period is calculated based on the blur amount so that the image having a small blur amount is selected as the representative image during the attention period.
  • the attention period may be set by another procedure as long as it is set based on the background subtraction.
  • the attention period may be a fixed period after the background subtraction maximum timing, and the past from the background subtraction maximum timing may not be included in the attention period.
  • the moving average of background subtraction may be calculated, and the period in which the moving average value becomes the highest may be set as the period of interest.
  • the representative score is calculated based on both the background subtraction and the amount of blurring, it is not necessary to set the attention period.
  • a function with background subtraction D and blur amount B as variables may be set, and a representative score C may be calculated based on the functions.
  • C K1, D + K2, B may be set (K1 and K2 are coefficients).
  • FIG. 15 is a diagram showing another example of the configuration of the score calculation unit 32.
  • the score calculation unit 32 includes a blur amount calculation unit 54, a motion vector calculation unit 56, a background subtraction calculation unit 58, and a score conversion unit 52.
  • the configurations of the blur amount calculation unit 54, the motion vector calculation unit 56, and the background subtraction calculation unit 58 are the same as the configurations of the respective calculation units described so far.
  • the score conversion unit 52 calculates the representative score of each of the plurality of frame images constituting the video during the event period based on the blur amount, the motion vector, and the background subtraction calculated by each calculation unit. Specifically, the score conversion unit 52 sets the first attention period based on the background subtraction during the event period, and further sets the second attention period based on the motion vector during the first attention period. The representative scores of a plurality of frame images constituting the video of the second attention period are calculated based on the amount of blurring.
  • FIG. 16 is an image diagram showing how the representative score is calculated.
  • the four graphs shown in FIG. 16 show the amount of blurring, background subtraction, motion vector, and representative score during one event period, in order from the top.
  • the background subtraction takes the maximum value at time ta.
  • a fixed period before and after the time ta at which this background subtraction is maximized is set as the first attention period ⁇ t1.
  • the period from the time t1 which is the past by the predetermined time ⁇ from the time ta to the time t4 which is the future by the predetermined time ⁇ from the time ta is the first attention period ⁇ t1.
  • the motion vector takes the maximum value at time tb.
  • the score conversion unit 52 sets a fixed period before and after this time tb as the second attention period ⁇ t2.
  • the period from the time t2, which is the past by the predetermined time ⁇ from the time tb, to the time t3, which is the future by the predetermined time ⁇ from the time tb, is the second attention period ⁇ t2. If the second attention period ⁇ t2 can be specified, the score conversion unit 52 calculates the representative score of the frame image constituting the video of the second attention period ⁇ t2 based on the blur amount.
  • the value obtained by subtracting the amount of blur from the upper limit of the amount of blur is calculated as the representative score.
  • the representative score of the frame image constituting the video in the period other than the second attention period ⁇ t2, that is, the time t0 to t2 and the time t3 to tmax is 0.
  • the score conversion unit 52 temporarily stores the blur amount, background subtraction, and motion vector calculated by each calculation unit in the table together with the ID of the corresponding frame image. Then, if these values can be obtained for all the frame images constituting the video of one event period, the representative score of each frame image is calculated by referring to the table.
  • the calculated representative score is sent to the image selection unit 34.
  • the image selection unit 34 selects the frame image having the maximum representative score as the representative image. Therefore, in the example of FIG. 16, the frame image at the time tc within the second attention period ⁇ t2 is selected as the representative image.
  • the procedure for setting the first attention period and the second attention period may be changed as appropriate.
  • the attention period instead of setting the attention period based on the maximum values of background subtraction and motion vector, the attention period may be set based on the maximum value of these moving averages.
  • the representative score is calculated based on background subtraction, motion vector, and amount of blur, it is not necessary to set the attention period.
  • a function with background subtraction D, motion vector M, and blur amount B as variables may be set, and a representative score C may be calculated based on the functions.
  • C K1, D + K2, M + K3, B may be used (K1, K2, K3 are coefficients).

Abstract

映像処理装置(10)は、カメラで撮影された映像および前記映像のサムネイル画像を記憶するストレージ(28)と所定のイベント期間の映像を構成する複数のフレーム画像それぞれについて、代表スコアを算出するスコア算出部(32)と、算出された前記代表スコアに基づいて、前記イベント期間の映像を代表するフレーム画像を代表画像として選択する画像選択部(34)と、前記代表画像のサムネイル画像を生成して、前記ストレージ(28)に記憶させるサムネイル画像生成部(38)と、を備え、前記スコア算出部(32)は、前記イベント期間の映像を構成する複数のフレーム画像それぞれのブレ量を算出し、少なくとも前記ブレ量に基づいて前記代表スコアを算出する。

Description

映像処理装置および映像処理方法
 本明細書では、カメラで撮影された映像の中から映像内容を表す代表画像を抽出する映像処理装置および映像処理方法を開示する。
 従来から映像の内容を概略的に把握するために、映像を構成する複数のフレーム画像の中から、当該映像の内容を表す代表画像を抽出し、この代表画像に基づいてサムネイル画像を生成する画像処理装置が広く知られている。かかる代表画像の抽出方法としては、例えば、一定期間ごとのフレーム画像を代表画像として抽出する技術が考えられる。しかし、単に定期的にフレーム画像を抽出する方法では、映像内容を充分に表した画像が得られないおそれがあった。
 そこで、一部では、フレーム画像に写った被写体の動き、あるいは、時間的に隣接する二つのフレーム画像間の変化量に基づいて、代表画像を抽出する技術が提案されている。例えば、特許文献1には、所定の映像区間の中の代表画像を選択する方法であって、時間的に隣接する二つの画像の変化量が極小となるフレームを基準として映像区間の代表画像の候補を選択する方法が開示されている。また、特許文献2には、フレーム画像間の動きベクトルを算出し、動きベクトルの経時変化が極大・極小となる周辺タイミングにおいてサムネイル画像(代表画像)を抽出する技術が開示されている。
特開2003-348528号公報 特開2009-296344号公報
 特許文献1の技術によれば、比較的ブレの少ないフレーム画像が、代表画像として選択されやすくなる。しかしながら、特許文献1の技術によれば、動きの大きいイベント期間中には、適切なフレーム画像が選べないおそれがあった。また、特許文献2の技術では、動きベクトルにのみ注目しているため、被写体がブレたブレ画像が代表画像として選択されるおそれがあった。
 そこで、本明細書では、カメラで撮像された映像を構成する複数のフレーム画像の中から、代表画像をより適切に抽出できる映像処理装置および映像処理方法を開示する。
 本明細書で開示する映像処理装置は、カメラで撮影された映像および前記映像のサムネイル画像を記憶する記憶装置と、所定のイベント期間の映像を構成する複数のフレーム画像それぞれについて、代表スコアを算出するスコア算出部と、算出された前記代表スコアに基づいて、前記イベント期間の映像を代表するフレーム画像を代表画像として選択する画像選択部と、前記代表画像のサムネイル画像を生成して、前記記憶装置に記憶させるサムネイル画像生成部と、を備え、前記スコア算出部は、前記イベント期間の映像を構成する複数のフレーム画像それぞれのブレ量を算出し、少なくとも前記ブレ量に基づいて前記代表スコアを算出する、ことを特徴とする。
 前記スコア算出部は、さらに、前記イベント期間の映像を構成する複数のフレーム画像それぞれの動きベクトルも算出し、少なくとも、前記ブレ量および前記動きベクトルに基づいて前記代表スコアを算出してもよい。
 この場合、前記スコア算出部は、前記動きベクトルを基準として注目期間を設定し、前記注目期間の映像を構成するフレーム画像の代表スコアを前記ブレ量に基づいて算出するとともに、その他のフレーム画像の代表スコアをゼロとして算出してもよい。
 また、さらに、前記イベント期間の映像を構成する複数のフレーム画像の背景を構成する背景画像を前記スコア算出部に提供する背景画像抽出部を備え、前記スコア算出部は、さらに、前記イベント期間の映像を構成する複数のフレーム画像それぞれと前記背景画像との差分を背景差分として算出し、少なくとも、前記ブレ量および前記背景差分に基づいて前記代表スコアを算出してもよい。
 この場合、前記スコア算出部は、前記背景差分を基準として注目期間を設定し、前記注目期間の映像を構成するフレーム画像の代表スコアを前記ブレ量に基づいて算出するとともに、その他のフレーム画像の代表スコアを実質的にゼロとして算出してもよい。
 また、さらに、前記イベント期間の映像を構成する複数のフレーム画像の背景を構成する背景画像を前記スコア算出部に提供する背景画像抽出部を備え、前記スコア算出部は、さらに、前記イベント期間の映像を構成する複数のフレーム画像それぞれと前記背景画像との差分を背景差分として算出し、前記イベント期間の映像を構成する複数のフレーム画像それぞれの動きベクトルを算出し、少なくとも、前記背景差分、前記ブレ量および前記動きベクトルに基づいて前記代表スコアを算出してもよい。
 この場合、前記スコア算出部は、前記背景差分を基準として第一注目期間を設定し、前記第一注目期間における前記動きベクトルを基準として第二注目期間を設定し、前記第二注目期間の映像を構成するフレーム画像の代表スコアを前記ブレ量に基づいて算出するとともに、その他のフレーム画像の代表スコアを実質的にゼロとして算出してもよい。
 また、さらに、前記イベント期間の開始および終了を前記スコア算出部に通知するイベント通知部を備え、複数の前記イベント期間それぞれについて前記サムネイル画像が生成されてもよい。
 また、前記スコア算出部は、前記フレーム画像を所定の移動角度の方向に所定の移動距離だけ移動させた比較画像と、前記フレーム画像と、の自己相関が最大となるときの前記移動距離を前記フレーム画像のブレ量として算出してもよい。
 また、さらに、前記イベント期間の映像を構成する複数のフレーム画像の背景を構成する背景画像を前記サムネイル画像生成部に提供する背景画像抽出部を備え、前記サムネイル画像生成部は、前記代表画像のうち、前記背景画像と相違する被写体部分を強調してサムネイル画像を生成してもよい。
 また、本明細書で開示する映像処理方法は、カメラで撮影された映像および前記映像のサムネイル画像を記憶装置に記憶し、所定のイベント期間の映像を構成する複数のフレーム画像それぞれの代表スコアを算出し、算出された前記代表スコアに基づいて、前記イベント期間の映像を代表するフレーム画像を代表画像として選択し、前記代表画像のサムネイル画像を生成して、前記記憶装置に記憶する、方法であって、前記イベント期間の映像を構成する複数のフレーム画像それぞれのブレ量を算出し、少なくとも前記ブレ量に基づいて前記代表スコアを算出する、ことを特徴とする。
 本明細書で開示する映像処理装置および映像処理方法によれば、ブレの少ないフレーム画像が代表画像として選択されやすくなるため、代表画像をより適切に抽出できる。
映像処理装置の物理的構成を示すブロック図である。 映像処理装置の機能的構成を示すブロック図である。 画像選択部の構成の一例を示すブロック図である。 代表画像選択の様子を示すイメージ図である。 サムネイル画像生成部の構成の一例を示すブロック図である。 サムネイル画像生成の様子を示すイメージ図である。 スコア算出部の構成の一例を示すブロック図である。 ブレ量算出の様子を示すイメージ図である。 代表スコア算出の様子を示すイメージ図である。 スコア算出部の構成の他の一例を示すブロック図である。 代表スコア算出の様子を示すイメージ図である。 代表スコアの算出の過程で生成されるテーブルの一例を示す図である。 スコア算出部の構成の他の一例を示すブロック図である。 代表スコア算出の様子を示すイメージ図である。 スコア算出部の構成の他の一例を示すブロック図である。 代表スコア算出の様子を示すイメージ図である。
 以下、図面を参照して映像処理装置10の構成について説明する。図1は、映像処理装置10の物理的構成を、図2は、映像処理装置10の機能的構成を示すブロック図である。この映像処理装置10は、監視カメラ100で撮像された映像を構成する複数のフレーム画像の中から、当該映像を代表する代表画像を抽出し、サムネイル画像を生成する。なお、本例では、監視カメラを例に挙げて説明しているが、動画を撮像するものであれば、監視カメラに限らず、他のカメラであってもよい。
 この映像処理装置10は、物理的には、プロセッサ12と、このプロセッサ12にバスを介して接続された記憶装置14、通信インターフェース18(以下「通信I/F18」と略す)、および、入力デバイス16を有したコンピュータである。また、映像処理装置10は、必要に応じて、各種画像、例えば、後述するサムネイル画像等を表示するためのディスプレイ200が接続されてもよい。プロセッサ12は、プログラムに従って各種演算を実行するもので、例えば、CPUである。記憶装置14は、各種プログラムおよびデータを記憶するもので、例えば、半導体メモリやハードディスクドライブ、ソリッドステートドライブ、または、これらの組み合わせで構成される。通信I/F18は、映像処理装置10の外部にある機器との間で、データを有線または無線で送受するためのものであり、所定の通信規格に準拠したコネクタ、アンテナ、通信チップ、または、これらの組み合わせで構成される。
 入力デバイス16は、オペレータからの操作指示を受け付けるもので、例えば、キーボード、マウス、マイク、タッチパネル、または、これらの組み合わせで構成される。
 なお、図1では、映像処理装置10を単一のコンピュータとして図示しているが、映像処理装置10は、複数のコンピュータで構成されてもよい。例えば、映像処理装置10は、複雑な演算処理を実行するメインコンピュータと、このメインコンピュータと通信可能なサブコンピュータ(例えば携帯情報端末等)と、を備え、サブコンピュータの入力装置を介してユーザーからの指示を受け付けるとともに、各種演算処理をメインコンピュータで行うようにしてもよい。また、本例では、映像処理装置10をコンピュータで実現しているが、映像処理装置10は、他の装置・機器に組み込まれた組み込み装置で実現してもよい。
 映像処理装置10には、監視カメラ100およびイベント監視部102が接続されている。監視カメラ100は、所定の対象空間を撮影する。対象区間は、屋内および屋外のいずれでもよい。また、監視カメラ100は、その位置および姿勢が不変の固定カメラでもよいし、予め規定された範囲内で位置または姿勢が変更可能な可動カメラでもよい。この監視カメラ100による撮影で得られた映像データは、順次、映像処理装置10に送られ、通信I/F18を介して記憶装置14に記憶される。
 イベント監視部102は、イベントの発生の有無を監視し、イベントが発生した場合には、その旨を映像処理装置10に通知する。後述するように、映像処理装置10は、このイベント期間中の映像を構成する複数のフレーム画像の中から、一つの代表画像を抽出する。何をイベントとして規定するかは、監視カメラ100の設置目的や設置場所に応じて適宜変更可能である。例えば、イベントは、定期的に発生(例えば3分ごとに30秒間発生)すると規定してもよい。また、監視カメラ100が、工場などの工程実行スペースに設置されている場合には、特定の処理の実行期間をイベントとして設定してもよい。さらに、画像または音声に大きな変化が生じるタイミングをイベントとして設定してもよい。例えば、監視カメラ100が施設のエレベータホールに設置されている場合、エレベータへの人の乗降や、当該エレベータホールに人間や動物、移動体(自動車やドローン等)が進入する出来事を、イベントと設定してもよい。また、一定レベル以上の音が生じたタイミングを、イベント発生タイミングとして特定してもよい。さらに、別の形態として、特定の指示入力が生じたタイミングをイベント発生タイミングとして特定してもよい。例えば、監視カメラ100が施設のエレベータホールに設置されている場合、エレベータボタンの押下を、イベント発生タイミングとして特定してもよい。
 いずれにしても、イベント監視部102は、こうしたイベントの発生状態を監視し、その結果を映像処理装置10に送る。イベント監視部102は、少なくともイベントの開始を示すイベント開始信号を映像処理装置10に送る。また、イベント監視部102は、イベント開始信号に加えて、イベントの終了を示すイベント終了信号も、映像処理装置10に送ってもよい。かかるイベント監視部102は、例えば、ビルの監視設備の一部でもよい。また、イベント監視部102は、映像処理装置10と別個の装置とするのではなく、映像処理装置10に組み込まれてもよい。
 次に、映像処理装置10の機能的構成について図2を参照して説明する。映像処理装置10は、監視カメラ100で取得された映像データを受信する映像受信部22を有する。映像受信部22は、受信した映像データを映像記録制御部26、スコア算出部32、画像選択部34、背景画像抽出部36に送る。映像記録制御部26は、受信した映像データを、タイムスタンプ等と対応付けたうえでストレージ28に記憶させる。ストレージ28は、監視カメラ100で撮影された映像データおよびサムネイル画像を記憶するものであり、物理的には、記憶装置14である。
 映像処理装置10には、さらにイベント監視部102からイベントに関する信号を受信するイベント通知部24も設けられている。イベント通知部24は、イベント監視部102からの信号に基づいて、イベントの開始および終了タイミングを判断し、これらのタイミングを示すイベント通知信号をスコア算出部32および画像選択部34に通知する。ここで、イベントの終了タイミングは、イベント監視部102からイベント終了信号が送信される場合には、当該イベント終了信号に基づいて判断する。また、イベント監視部102からイベント終了信号が送信されない場合には、イベント通知部24は、イベント開始信号受信から所定時間経過したタイミングをイベント終了タイミングとして判断してもよい。なお、このイベント通知部24および映像受信部22は、物理的には、通信I/F18である。
 スコア算出部32は、イベント期間の映像を構成する複数のフレーム画像それぞれについて、代表スコアを算出する。この代表スコアの算出手順については、後に詳説するため、ここでの詳説は、省略する。なお、後に詳説するように、スコア算出部32には、イベント期間中の映像を構成するフレーム画像およびイベント開始・終了信号に加え、背景画像抽出部36で抽出された背景画像も入力されてもよい。スコア算出部32は、算出された代表スコアを、対応するフレーム画像のIDとともに、順次、または、まとめて、画像選択部34に送る。
 画像選択部34は、算出された代表スコアに基づいて、一つのイベント期間の映像を代表する代表画像を選択する。本例では、イベント期間中、代表スコアが最大のフレーム画像を代表画像として選択する。
 図3は、この画像選択部34の具体的構成の一例を示すブロック図である。図3に示すとおり、画像選択部34には、イベント期間の映像を構成する複数のフレーム画像を一時記憶する画像バッファ42が設けられている。また、画像選択部34には、最大スコア検出部40も設けられている。最大スコア検出部40は、スコア算出部32から送られた複数の代表スコアの中から最大の代表スコアを特定し、その最大代表スコアに対応するフレーム画像のIDを特定する。そして、最大スコア検出部40は、特定されたフレーム画像のIDを画像特定部44に送る。
 画像特定部44は、送られてきたIDが付されたフレーム画像を画像バッファ42から読み出し、このフレーム画像を、このイベントにおける代表画像として特定する。特定された代表画像は、図2に示す通り、サムネイル画像生成部38に送られる。
 図4は、代表画像の特定の様子を示すイメージ図である。図4において、上段は、イベントの発生状態を示しており、ON(high)は、イベント期間中を、OFF(low)は、イベントが生じていない期間を示している。また、下段は、各イベント期間中に算出された代表スコアを示している。
 上述した通り、最大スコア検出部40は、一つのイベント期間中において、代表スコアが最大となるフレーム画像を代表画像として特定する。したがって、図4の例では、時刻t1において撮像されたフレーム画像がイベントE1を代表する代表画像として特定される。同様に、時刻t2,t3,t4において撮像されたフレーム画像が、それぞれ、イベントE2,E3,E4を代表する代表画像として特定される。
 再び、図2を参照して説明する。サムネイル画像生成部38は、送られてきた代表画像のサムネイル画像を生成し、当該サムネイル画像をストレージ28に保存する。このとき、サムネイル画像とともに、代表画像が撮像された時刻、または、代表画像が属するイベントの開始時刻を示す情報とともに記憶する。
 サムネイル画像は、代表画像そのものでもよいし、代表画像を縮小した(解像度を低下させた)画像でもよい。本例では、サムネイル画像生成部38は、代表画像のうち被写体部分を強調してサムネイル画像を生成する。
 図5は、サムネイル画像生成部38の具体的な構成の一例を示す図である。図5の例では、サムネイル画像生成部38には、代表画像に加え、背景画像抽出部36から提供される背景画像も入力される。背景画像は、映像を構成する複数のフレーム画像の背景を構成する画像である。かかる背景画像は、予めオペレータが登録するようにしてもよいし、映像データに基づいて背景画像抽出部36において自動的に抽出するようにしてもよい。この場合、背景画像抽出部36は、イベントが発生していない期間中、あるいは、人、動物、移動体等の被写体が写り込んでいない期間中に、撮影されたフレーム画像を背景画像として抽出できる。
 サムネイル画像生成部38は、代表画像と背景画像との相違箇所のみを抽出する差分画像生成部46を備えている。したがって、通常、差分画像は、人、動物、移動体等の被写体部分の画像となる。生成された差分画像は、強調処理部48に送られる。強調処理部48は、被写体部分の画像である差分画像に対して強調処理を施す。強調処理は、差分画像に含まれる被写体が背景よりも目立つような処理であれば特に限定されない。したがって、強調処理部48は、例えば、差分画像のエッジ強調、色調変更、輝度増加、コントラスト強調、枠線追加、または、これらを組み合わせた処理でもよい。強調処理が施された差分画像は、代表画像とともに重畳部50に送られる。重畳部50は、強調された差分画像を代表画像に合成し、この合成画像に基づいてサムネイル画像を生成する。
 図6は、サムネイル画像生成の様子を示すイメージ図である。記述した通り、サムネイル画像生成部38には、代表画像64と背景画像66とが入力される。代表画像64は、人等の被写体が写り込んでいる点で、背景画像66と相違する。サムネイル画像生成部38は、この代表画像64のうち、背景画像66と相違する部分を差分画像68として抽出する。図6の例では、人の写っている部分が差分画像68として抽出される。サムネイル画像生成部38は、抽出された差分画像68に強調処理を施したうえで、代表画像64と合成する。そして、得られる合成画像70に基づいて、サムネイル画像を生成する。
 かかる構成とすることで、画像に写る被写体が目立ち、そのイベントにおける特徴がより分かりやすくなる。ここで、ディスプレイ200に表示されるサムネイル画像は、単一であることは少なく、通常、複数のサムネイル画像が一覧表示されることが多い。また、複数のサムネイル画像の表示を可能にするために、各サムネイル画像のサイズは小さいことが多い。この場合、一つのサムネイル画像に写った被写体の特徴を明確に把握することが困難な場合があった。しかし、上述したように、被写体部分を強調させることで、強調させない場合に比べて、被写体の特徴を明確に把握できる。
 なお、上述の説明では、強調済みの差分画像と代表画像とを合成しているが、代表画像に替えて、背景画像を差分画像と合成してもよい。また、差分画像に強調処理を施すのではなく、差分画像と合成される代表画像または背景画像に劣化処理(エッジの鈍化、輝度の低下、色調変更、ぼかし加工等)を施してもよい。いずれにしても、背景に比べて被写体が目立つような処理を行うことで、サムネイル画像からイベントの特徴を、より明確に把握できる。
 次に、代表スコアの算出について説明する。既述した通り、本例では、一つのイベント期間中、代表スコアが最大となるフレーム画像を代表画像として選択する。したがって、代表スコアの算出方法によって、代表画像として選択されるフレーム画像の特徴が変化する。
 本例では、イベント期間中の映像を構成する複数のフレーム画像それぞれのブレ量を算出し、少なくともブレ量に基づいて代表スコアを算出する。かかる構成とすることで、ブレの少ないフレーム画像が、代表画像として選択されやすくなる。
 図7は、スコア算出部32の構成の一例を示す図である。この場合、スコア算出部32は、フレーム画像のブレ量を算出するブレ量算出部54と、算出されたブレ量を代表スコアに換算するスコア換算部52と、を備えている。ブレ量算出部54は、一つのフレーム画像に含まれる像のブレ量を、当該一つのフレーム画像から算出する。換言すれば、ブレ量算出部54は、一つのフレーム画像のブレ量を、他のフレーム画像を参照することなく、算出する。より具体的には、ブレ量算出部54は、フレーム画像と、フレーム画像を所定の移動方向に所定の移動距離だけ移動させた比較画像と、の自己相関に基づいて、ブレ量を算出する。
 図8は、ブレ量算出の様子を示すイメージ図である。ブレ量を算出する場合、ブレ量算出部54は、フレーム画像60を移動角度θの方向に、移動距離drだけ移動させた比較画像62を想定し、この比較画像62とフレーム画像60との自己相関Sを算出する。自己相関Sは、以下の式1で算出することができる。なお、式1において、R(i,j)は、フレーム画像の座標(i,j)におけるR、すなわち、赤の色値を示している。同様に、G(i,j)、B(i,j)は、フレーム画像の座標(i,j)におけるGおよびB、すなわち、緑および青の色値を示している。さらに、式1においてdx=dr・cosθ、dy=dr・sinθである。そして、式1において、フレーム画像の画素数をW×Hとして、W×H個の値を積算する。
Figure JPOXMLDOC01-appb-M000001
 ブレ量算出部54は、移動角度θおよび移動距離drの組み合わせを変化させながら、複数の自己相関Sを算出する。したがって、移動角度θをN1回、移動距離drをN2回変化させた場合、自己相関Sは、N1×N2個算出される。移動角度θおよび移動距離drの変更間隔および上限は特に限定されないが、例えば、移動角度θは、0°から360°まで10°間隔で変更してもよい。また、移動距離drは、例えば、0から10まで、1間隔で変更してもよい。
 全ての(θ,dr)の組み合わせについて自己相関Sが算出できれば、ブレ量算出部54は、複数の自己相関Sのうち最大となる自己相関Sを特定する。そして、その最大の自己相関Sが算出されたときの移動距離drを、フレーム画像60のブレ量として出力する。
 図7に示す通り、算出された各フレーム画像のブレ量は、スコア換算部52に入力される。スコア換算部52は、各フレーム画像のブレ量を、当該フレーム画像の代表スコアに換算する。この換算方法は、代表スコアがブレ量に依存するのであれば、特に限定されない。本例では、ブレ量を上下反転させた値を、代表スコアとして算出する。具体的には、ブレ量をB、ブレ量の上限値をBmaxとした場合、代表スコアC=Bmax-Bとしてもよい。
 図9は、代表スコアの算出の様子を示すイメージ図である。図9の上段は、特定のイベント期間中に得られたフレーム画像のブレ量を、下段は、そのフレーム画像の代表スコアを示すグラフである。図9の例では、イベントは、時刻t0から時刻tmaxまで継続している。ブレ量は、時間の経過とともに変化するが、時刻t1において最小値をとる。代表スコアは、このブレ量を上下反転した値であるため、代表スコアは、同じ時刻t1において最大値をとる。
 スコア換算部52は、このように取得された代表スコアを対応するフレーム画像のIDとともに、画像選択部34に送る。このとき、スコア換算部52は、一つのフレーム画像の代表スコアが得られるたびに、当該代表スコアおよびIDを画像選択部34に送ってもよい。また、別の形態として、スコア換算部52は、一つのイベント期間中の映像を構成する複数のフレーム画像全ての代表スコアおよびIDをまとめて画像選択部34に送ってもよい。いずれにしても、既述した通り、画像選択部34は、代表スコアが最大値をとるフレーム画像を代表画像として選択する。したがって、図9の例では、時刻t1に撮影されたフレーム画像が、代表画像として選択されることになる。
 以上の通り、図7に示す構成では、フレーム画像のブレ量に基づいて代表スコアを算出しており、ブレ量が小さいフレーム画像ほど代表画像として選択されやすくなっている。かかるフレーム画像が代表画像として選択され、当該代表画像に基づいてサムネイル画像が作成されることにより、イベント期間中の映像の特徴をより明確に把握できる。
 なお、上記の例では、自己相関Sが最大値をとる時の移動距離drに基づいてブレ量を算出しているが、ブレ量の算出方法は、適宜変更されてもよい。例えば、フレーム画像をフーリエ変換してスペクトルを求め、低周波成分と高周波成分の強度比に基づいてブレ量を算出してもよい。また、上記の例では、ブレ量を上下反転させた値を代表スコアとしているが、ブレ量そのものを代表スコアとしてもよい。この場合、画像選択部34は、代表スコアが最小となるフレーム画像を代表画像として選択すればよい。また、代表画像は、代表スコアの値に基づいてブレの少ないフレーム画像が選択されるのであれば、必ずしも、代表スコアが最大または最小のフレーム画像でなくてもよい。例えば、代表スコアが二番目に大きいフレーム画像を代表画像として選択してもよい。
 次に、スコア算出部32の構成の他の例について図10を参照して説明する。図10は、スコア算出部32の構成の他の一例を示す図である。この場合、スコア算出部32は、ブレ量算出部54と、二つのフレーム画像間の動きベクトルを算出する動きベクトル算出部56と、算出されたブレ量および動きベクトルを代表スコアに換算するスコア換算部52と、を備えている。ブレ量算出部54の構成は、図7におけるブレ量算出部54の構成と同じである。
 動きベクトル算出部56は、現在のフレーム画像(対象フレーム画像)と対象フレーム画像よりも所定時間前(例えば1フレーム前)のフレーム画像(参照フレーム画像)とに基づいて、対象フレーム画像の動きベクトルを算出する。具体的には、動きベクトル算出部56は、対象フレーム画像をN個(N≧2)のサブブロックに分割し、各サブブロックを参照フレーム画像内でシフトさせて、最もよくマッチする部分を探索する。動きベクトル算出部56は、全てのサブブロックについて、シフト量を求め、その二乗和を対象フレーム画像の動きベクトルとして算出する。すなわち、i番目のサブブロックのx方向のシフト量をMx(i)、y方向のシフト量をMy(i)とした場合、対象フレーム画像の動きベクトルMは、式2で求められる。
Figure JPOXMLDOC01-appb-M000002
 動きベクトル算出部56で算出された動きベクトルは、フレーム画像のIDとともにスコア換算部52に送られる。スコア換算部52は、ブレ量算出部54で算出されたブレ量と、動きベクトル算出部56で算出された動きベクトルと、に基づいて、複数のフレーム画像それぞれの代表スコアを算出する。
 本例では、一つのイベント期間中において動きベクトルが最大値をとるタイミングを基準として注目期間を設定し、その注目期間の映像を構成する複数のフレーム画像の代表スコアをブレ量に基づいて算出する一方で、それ以外のフレーム画像の代表スコアを0としている。図11は、この代表スコアの算出の様子を示すイメージ図である。図11において、上段は、一つのイベント期間中におけるブレ量を、中段は、動きベクトルを、下段は、代表スコアを、それぞれ示している。
 この図11の例では、動きベクトルは、時刻t2において最大値をとる。したがって、映像内に写っている被写体の動きは、この時刻t2付近において、特に大きくなっていることが推測できる。本例では、この動きベクトルが最大となる時刻t2の前後一定期間を注目期間Δtとして設定する。図11の例では、時刻t2より所定時間αだけ過去となる時刻t1から、時刻t2より所定時間αだけ未来となる時刻t3までの期間が注目期間Δtとなる。そして、この注目期間Δtの映像を構成するフレーム画像については、ブレ量に基づいて代表スコアを算出する。具体的には、ブレ量を、ブレ量上限値から減算した値を代表スコアとして算出する。一方、注目期間Δt以外の期間、すなわち、時刻t0~t1、時刻t3~tmaxの映像を構成するフレーム画像の代表スコアは、0とする。その結果、図11の例では、注目期間Δt内にある時刻taにおいて代表スコアが最大となる。したがって、この場合、時刻taのフレーム画像が代表画像として選択される。
 図12は、スコア換算部52が代表スコアの算出のために記録するテーブルの一例を示す図である。スコア換算部52は、動きベクトル算出部56およびブレ量算出部54から順次送られる動きベクトルおよびブレ量を、フレーム画像のIDとともに、図12に示すテーブルの形式で一時記憶する。一つのイベント期間を構成する全てのフレーム画像について動きベクトルおよびブレ量が算出できれば、スコア換算部52は、このテーブルを参照して、注目期間を設定する。図12の例では、画像ID06のフレーム画像と、その前後二つのフレーム画像(画像ID04,05,07,08)が注目期間のフレーム画像として特定される。スコア換算部52は、この五つのフレーム画像のブレ量をそれぞれ上限値(図示例では10)から減算した値を代表スコアとして算出する。また、それ以外のフレーム画像の代表スコアは、全て、0とする。スコア換算部52は、この算出した代表スコアもテーブルに記録したうえで、当該テーブルを画像選択部34に送る。画像選択部34は、テーブルに記録された代表スコアに基づいて、代表画像を選択する。図12の例では、代表スコアが最大値をとる画像ID07が、代表画像として選択される。
 ここで、動きベクトルに基づいて注目期間を設定し、この注目期間についてのみ代表スコアを算出する理由について簡単に説明する。代表画像は、各イベント期間中に生じた事象を把握しやすい画像であることが望まれる。当該事象が何らかの動きを発生する事象の場合、動きの少ない時の画像よりも、動きの大きい時の画像の方が、当該事象の内容を把握しやすくなる。例えば、2人の人物が口論の後に掴み合って喧嘩となるような場合では、2人の人物がただ立っているだけの画像よりも、手を動かして相手を掴もうとするときの画像の方が、その状況を把握しやすい。そこで、本例では、代表スコアを算出する期間を、動きベクトルが最大値をとったタイミングの前後一定期間(注目期間)に限定している。かかる構成とすることで、動きの大きなフレーム画像のみが、代表画像の候補として残ることになる。ただし、動きが大きくてもブレが大きい場合には、イベント期間中に生じた事象を明確に把握できない。そこで本例では、注目期間中のうち、ブレ量が小さい画像が代表画像として選択されるように、注目期間中のフレーム画像の代表スコアをブレ量に基づいて算出している。かかる構成とすることで、イベント期間中の中でも、動きが大きく、かつ、ブレの少ない画像が代表画像として選択されやすくなる。
 なお、上述の例では、動きベクトル最大タイミングの前後一定期間を注目期間としているが、注目期間は、動きベクトルを基準として設定されるのであれば、他の手順で設定されてもよい。例えば、注目期間は、動きベクトル最大タイミング以降、一定期間とし、動きベクトル最大タイミングより過去は、注目期間に含めなくてもよい。また、別の形態として、動きベクトルの移動平均を算出し、当該移動平均値が最も高くなる期間を注目期間として設定してもよい。さらに、動きベクトルおよびブレ量の双方に基づいて代表スコアを算出するのであれば、注目期間を設定しなくてもよい。例えば、動きベクトルMおよびブレ量Bを変数とする関数を設定し、当該関数に基づいて代表スコアCを算出してもよい。例えば、C=K1・M+K2・Bとしてもよい(K1,K2は、係数)。
 次に、スコア算出部32の構成の他の例について図13を参照して説明する。図13は、スコア算出部32の構成の他の一例を示す図である。この場合、スコア算出部32は、ブレ量算出部54と、フレーム画像と背景画像との差分を算出する背景差分算出部58と、算出されたブレ量および背景差分を代表スコアに換算するスコア換算部52と、を備えている。ブレ量算出部54の構成は、図7におけるブレ量算出部54の構成と同じである。
 背景差分算出部58は、対象となるフレーム画像と背景画像との差分量を背景差分として算出する。背景画像は、背景画像抽出部36から提供される画像であり、映像を構成する複数のフレーム画像の背景を構成する画像である。背景差分は、フレーム画像と背景画像との差を表すパラメータであれば、その算出方法は限定されない。本例では、対象となるフレーム画像と背景画像との画素値の差の二乗和を背景差分として算出している。したがって、背景差分Dは、式3で表される。なお、式3において、Rt(i,j)は、対象となるフレーム画像の座標i,jにおけるR値を、Rb(i,j)は、背景画像の座標i,jにおけるR値を示している。同様に、Gt(i,j)、Bt(i,j)は、対象となるフレーム画像の座標i,jにおけるG値およびB値を、Gb(i,j)、Bb(i,j)は、背景画像の座標i,jにおけるG値およびB値をそれぞれ示している。
Figure JPOXMLDOC01-appb-M000003
 背景差分算出部58で算出された背景差分は、フレーム画像のIDとともにスコア換算部52に送られる。スコア換算部52は、ブレ量算出部54で算出されたブレ量と、背景差分算出部58で算出された背景差分と、に基づいて、複数のフレーム画像それぞれの代表スコアを算出する。なお、ここで説明した背景差分の算出方法は、一例であり、フレーム画像と背景画像との相違の度合いを表すことができるのであれば、他の方法で算出された値を「背景差分」として取り扱ってもよい。例えば、フレーム画像と背景画像との間で、画素値の差分が所定の閾値以上となる画素の個数を背景差分として用いてもよい。
 本例では、一つのイベント期間中において背景差分が最大値をとるタイミングを基準として注目期間を設定し、その注目期間の映像を構成する複数のフレーム画像の代表スコアをブレ量に基づいて算出する一方で、それ以外のフレーム画像の代表スコアを0としている。図14は、この代表スコアの算出の様子を示すイメージ図である。図14において、上段は、一つのイベント期間中におけるブレ量を、中段は、背景差分を、下段は、代表スコアを、それぞれ示している。
 この図14の例では、背景差分は、時刻t2において最大値をとる。ここで、背景差分は、フレーム画像に写っている被写体(例えば人物)の数が増えるほど大きくなりやすい。また、フレーム画像に写っている被写体の数が同じであっても、複数の被写体が部分的に重なることなく、分散して写っている(ひいては全被写体の総面積が大きい)方が背景差分は、大きくなりやすい。したがって、背景差分が最大となる時刻t2付近においては、イベントに関与する被写体の大部分が、重なりが少ない状態で写っている可能性が高い。
 本例では、この背景差分が最大となる時刻t2の前後一定期間を注目期間Δtとして設定する。図14の例では、時刻t2より所定時間αだけ過去となる時刻t1から、時刻t2より所定時間αだけ未来となる時刻t3までの期間が注目期間Δtとなる。そして、この注目期間Δtの映像を構成するフレーム画像については、ブレ量に基づいて代表スコアを算出する。具体的には、ブレ量をブレ量最大値から減算した値を代表スコアとして算出する。一方、注目期間Δt以外の期間、すなわち、時刻t0~t1、時刻t3~tmaxの映像を構成するフレーム画像の代表スコアは、0とする。その結果、図14の例では、注目期間Δt内にある時刻taにおいて代表スコアが最大となる。
 スコア換算部52は、このように算出されたブレ量、背景差分、代表スコアを図12と同様のテーブルに記録したうえで、当該テーブルを画像選択部34に送る。画像選択部34は、送られたテーブルを参照して、代表スコアが最大となるフレーム画像を代表画像として選択する。図14の例では、時刻taにおけるフレーム画像が、代表画像として選択される。
 ここで、背景差分に基づいて注目期間を設定し、この注目期間についてのみ代表スコアを算出する理由について簡単に説明する。代表画像は、各イベント期間中に生じた事象を把握しやすい画像であることが望まれる。当該事象に複数の被写体が関与している場合、一部の被写体のみが写っている画像よりも、複数の被写体全てが写っている画像の方が、当該事象の内容を把握しやすくなる。また、複数の被写体が写っている場合でも、当該複数の被写体の重なりが少ないほうが、イベントの特徴を把握しやすくなる。例えば、エレベータホールにおいて、1人の人物Aがエレベータ籠を呼び、到着したエレベータ籠から人物Bが降りるのと入れ替えで人物Aがエレベータ籠に乗り込む場合を考える。この場合、人物Aだけが写っている画像よりも、人物Aおよび人物Bの双方が写っている画像の方が、当該イベントの特徴を表していると考えられる。
 そこで、本例では、代表スコアを算出する期間を、背景差分が最大値をとったタイミングの前後一定期間(注目期間)に限定している。かかる構成とすることで、より多くの被写体が重なりの少ない状態で写ったフレーム画像が、代表画像の候補として残りやすくなる。ただし、写っている被写体が多くてもブレが大きい画像では、イベント期間中に生じた事象を明確に把握できない。そこで本例では、注目期間中のうち、ブレ量が小さい画像が代表画像として選択されるように、注目期間中のフレーム画像の代表スコアをブレ量に基づいて算出している。かかる構成とすることで、イベント期間中の中でも、イベントに関与する被写体の多くが写っており、かつ、ブレの少ない画像が代表画像として選択されやすくなる。
 なお、上述の例では、背景差分最大タイミングの前後一定期間を注目期間としているが、注目期間は、背景差分を基準として設定されるのであれば、他の手順で設定されてもよい。例えば、注目期間は、背景差分最大タイミング以降、一定期間とし、背景差分最大タイミングより過去は、注目期間に含めなくてもよい。また、別の形態として、背景差分の移動平均を算出し、当該移動平均値が最も高くなる期間を注目期間として設定してもよい。さらに、背景差分およびブレ量の双方に基づいて代表スコアを算出するのであれば、注目期間を設定しなくてもよい。例えば、背景差分Dおよびブレ量Bを変数とする関数を設定し、当該関数に基づいて代表スコアCを算出してもよい。例えば、C=K1・D+K2・Bとしてもよい(K1,K2は、係数)。
 次に、スコア算出部32の構成の他の例について図15を参照して説明する。図15は、スコア算出部32の構成の他の一例を示す図である。この場合、スコア算出部32は、ブレ量算出部54と、動きベクトル算出部56と、背景差分算出部58と、スコア換算部52と、を備えている。ブレ量算出部54、動きベクトル算出部56、および背景差分算出部58の構成は、これまで説明したそれぞれの算出部の構成と同じである。
 スコア換算部52は、各算出部で算出されたブレ量、動きベクトル、および背景差分に基づいて、イベント期間中の映像を構成する複数のフレーム画像それぞれの代表スコアを算出する。具体的には、スコア換算部52は、イベント期間中の背景差分に基づいて第一注目期間を設定し、さらに、第一注目期間中の動きベクトルに基づいて第二注目期間を設定し、この第二注目期間の映像を構成する複数のフレーム画像の代表スコアをブレ量に基づいて算出する。
 図16は、この代表スコアの算出の様子を示すイメージ図である。図16に示された四つのグラフは、それぞれ、上から順に、一つのイベント期間中におけるブレ量、背景差分、動きベクトル、代表スコアを、示している。この図16の例では、背景差分は、時刻taにおいて最大値をとる。本例では、この背景差分が最大となる時刻taの前後一定期間を第一注目期間Δt1として設定する。図16の例では、時刻taより所定時間αだけ過去となる時刻t1から、時刻taより所定時間αだけ未来となる時刻t4までの期間が第一注目期間Δt1となる。
 第一注目期間Δt1における動きベクトルに着目すると、動きベクトルは、時刻tbにおいて最大値をとる。スコア換算部52は、この時刻tbの前後一定期間を第二注目期間Δt2として設定する。図16の例では、時刻tbより所定時間βだけ過去となる時刻t2から、時刻tbより所定時間βだけ未来となる時刻t3までの期間が第二注目期間Δt2となる。第二注目期間Δt2が特定できれば、スコア換算部52は、この第二注目期間Δt2の映像を構成するフレーム画像の代表スコアをブレ量に基づいて算出する。具体的には、ブレ量をブレ量上限値から減算した値を代表スコアとして算出する。一方、第二注目期間Δt2以外の期間、すなわち、時刻t0~t2、時刻t3~tmaxの映像を構成するフレーム画像の代表スコアは、0とする。スコア換算部52は、こうした代表スコアを算出するために、各算出部で算出されたブレ量、背景差分、動きベクトルを、対応するフレーム画像のIDとともに、テーブルに一時記憶する。そして、一つのイベント期間の映像を構成する全てのフレーム画像について、これらの値が取得できれば、テーブルを参照して、各フレーム画像の代表スコアを算出する。算出された代表スコアは、画像選択部34に送られる。画像選択部34は、代表スコアが最大となるフレーム画像を代表画像として選択する。そのため、図16の例では、第二注目期間Δt2内にある時刻tcにおけるフレーム画像が代表画像として選択される。
 かかる構成とすることで、イベントに関与する被写体の多くが写っており、また被写体の動きが大きく、さらに、画像のブレが小さいフレーム画像が代表画像として選択されやすくなる。例えば、群衆の流れの状況を映像で把握したい場合に、人が多く写っており、人の流れが大きく、さらに、ブレの少ないフレーム画像が代表画像として選択されやすくなる。そして、かかる画像が代表画像として選択されることで、イベントの特徴がより明確に把握できる。
 なお、ここまで説明した構成は一例であり、第一注目期間、第二注目期間の設定手順は、適宜、変更されてもよい。例えば、背景差分および動きベクトルの最大値を基準として注目期間を設定するのではなく、これらの移動平均の最大値を基準として注目期間を設定してもよい。また、背景差分、動きベクトルおよびブレ量に基づいて代表スコアを算出するのであれば、注目期間を設定しなくてもよい。例えば、背景差分D、動きベクトルMおよびブレ量Bを変数とする関数を設定し、当該関数に基づいて代表スコアCを算出してもよい。例えば、C=K1・D+K2・M+K3・Bとしてもよい(K1,K2,K3は、係数)。
 10 映像処理装置、12 プロセッサ、14 記憶装置、16 入力デバイス、18 通信I/F、22 映像受信部、24 イベント通知部、26 映像記録制御部、28 ストレージ、32 スコア算出部、34 画像選択部、36 背景画像抽出部、38 サムネイル画像生成部、40 最大スコア検出部、42 画像バッファ、44 画像特定部、46 差分画像生成部、48 強調処理部、50 重畳部、52 スコア換算部、54 ブレ量算出部、56 動きベクトル算出部、58 背景差分算出部、100 監視カメラ、102 イベント監視部、200 ディスプレイ。

Claims (11)

  1.  カメラで撮影された映像および前記映像のサムネイル画像を記憶する記憶装置と、
     所定のイベント期間の映像を構成する複数のフレーム画像それぞれについて、代表スコアを算出するスコア算出部と、
     算出された前記代表スコアに基づいて、前記イベント期間の映像を代表するフレーム画像を代表画像として選択する画像選択部と、
     前記代表画像のサムネイル画像を生成して、前記記憶装置に記憶させるサムネイル画像生成部と、
     を備え、前記スコア算出部は、前記イベント期間の映像を構成する複数のフレーム画像それぞれのブレ量を算出し、少なくとも前記ブレ量に基づいて前記代表スコアを算出する、
     ことを特徴とする映像処理装置。
  2.  請求項1に記載の映像処理装置であって、
     前記スコア算出部は、さらに、前記イベント期間の映像を構成する複数のフレーム画像それぞれの動きベクトルも算出し、少なくとも、前記ブレ量および前記動きベクトルに基づいて前記代表スコアを算出する、ことを特徴とする映像処理装置。
  3.  請求項2に記載の映像処理装置であって、
     前記スコア算出部は、前記動きベクトルを基準として注目期間を設定し、前記注目期間の映像を構成するフレーム画像の代表スコアを前記ブレ量に基づいて算出するとともに、その他のフレーム画像の代表スコアをゼロとして算出する、ことを特徴とする映像処理装置。
  4.  請求項1に記載の映像処理装置であって、
     さらに、前記イベント期間の映像を構成する複数のフレーム画像の背景を構成する背景画像を前記スコア算出部に提供する背景画像抽出部を備え、
     前記スコア算出部は、さらに、前記イベント期間の映像を構成する複数のフレーム画像それぞれと前記背景画像との差分を背景差分として算出し、少なくとも、前記ブレ量および前記背景差分に基づいて前記代表スコアを算出する、ことを特徴とする映像処理装置。
  5.  請求項4に記載の映像処理装置であって、
     前記スコア算出部は、前記背景差分を基準として注目期間を設定し、前記注目期間の映像を構成するフレーム画像の代表スコアを前記ブレ量に基づいて算出するとともに、その他のフレーム画像の代表スコアを実質的にゼロとして算出する、ことを特徴とする映像処理装置。
  6.  請求項1に記載の映像処理装置であって、
     さらに、前記イベント期間の映像を構成する複数のフレーム画像の背景を構成する背景画像を前記スコア算出部に提供する背景画像抽出部を備え、
     前記スコア算出部は、さらに、前記イベント期間の映像を構成する複数のフレーム画像それぞれと前記背景画像との差分を背景差分として算出し、前記イベント期間の映像を構成する複数のフレーム画像それぞれの動きベクトルを算出し、少なくとも、前記背景差分、前記ブレ量および前記動きベクトルに基づいて前記代表スコアを算出する、ことを特徴とする映像処理装置。
  7.  請求項6に記載の映像処理装置であって、
     前記スコア算出部は、前記背景差分を基準として第一注目期間を設定し、前記第一注目期間における前記動きベクトルを基準として第二注目期間を設定し、前記第二注目期間の映像を構成するフレーム画像の代表スコアを前記ブレ量に基づいて算出するとともに、その他のフレーム画像の代表スコアを実質的にゼロとして算出する、ことを特徴とする映像処理装置。
  8.  請求項1から7のいずれか一項に記載の映像処理装置であって、
     さらに、前記イベント期間の開始および終了を前記スコア算出部に通知するイベント通知部を備え、
     複数の前記イベント期間それぞれについて前記サムネイル画像が生成される、
     ことを特徴とする映像処理装置。
  9.  請求項1から8のいずれか一項に記載の映像処理装置であって、
     前記スコア算出部は、前記フレーム画像を所定の移動角度の方向に所定の移動距離だけ移動させた比較画像と、前記フレーム画像と、の自己相関が最大となるときの前記移動距離を前記フレーム画像のブレ量として算出する、ことを特徴とする映像処理装置。
  10.  請求項1から9のいずれか一項に記載の映像処理装置であって、
     さらに、前記イベント期間の映像を構成する複数のフレーム画像の背景を構成する背景画像を前記サムネイル画像生成部に提供する背景画像抽出部を備え、
     前記サムネイル画像生成部は、前記代表画像のうち、前記背景画像と相違する被写体部分を強調してサムネイル画像を生成する、
     ことを特徴とする映像処理装置。
  11.  カメラで撮影された映像および前記映像のサムネイル画像を記憶装置に記憶し、
     所定のイベント期間の映像を構成する複数のフレーム画像それぞれの代表スコアを算出し、
     算出された前記代表スコアに基づいて、前記イベント期間の映像を代表するフレーム画像を代表画像として選択し、
     前記代表画像のサムネイル画像を生成して、前記記憶装置に記憶する、
     方法であって、前記イベント期間の映像を構成する複数のフレーム画像それぞれのブレ量を算出し、少なくとも前記ブレ量に基づいて前記代表スコアを算出する、
     ことを特徴とする映像処理方法。
PCT/JP2019/020312 2019-05-22 2019-05-22 映像処理装置および映像処理方法 WO2020235060A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2019/020312 WO2020235060A1 (ja) 2019-05-22 2019-05-22 映像処理装置および映像処理方法
JP2021519988A JP7317954B2 (ja) 2019-05-22 2019-05-22 映像処理装置および映像処理方法
CN201980096562.1A CN113841389B (zh) 2019-05-22 2019-05-22 影像处理装置及影像处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/020312 WO2020235060A1 (ja) 2019-05-22 2019-05-22 映像処理装置および映像処理方法

Publications (1)

Publication Number Publication Date
WO2020235060A1 true WO2020235060A1 (ja) 2020-11-26

Family

ID=73459349

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/020312 WO2020235060A1 (ja) 2019-05-22 2019-05-22 映像処理装置および映像処理方法

Country Status (3)

Country Link
JP (1) JP7317954B2 (ja)
CN (1) CN113841389B (ja)
WO (1) WO2020235060A1 (ja)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005210573A (ja) * 2004-01-26 2005-08-04 Mitsubishi Electric Corp 映像表示システム
JP2007189558A (ja) * 2006-01-13 2007-07-26 Toshiba Corp 映像表示システム及び映像蓄積配信装置
JP2007300443A (ja) * 2006-04-30 2007-11-15 Victor Co Of Japan Ltd サムネイル作成装置
JP2010177894A (ja) * 2009-01-28 2010-08-12 Sony Corp 撮像装置、画像管理装置及び画像管理方法、並びにコンピューター・プログラム
JP2013118574A (ja) * 2011-12-05 2013-06-13 Nikon Corp 撮像装置
JP2016119552A (ja) * 2014-12-19 2016-06-30 三星電子株式会社Samsung Electronics Co.,Ltd. 映像コンテンツ処理装置、映像コンテンツ処理方法及びプログラム
JP2018007156A (ja) * 2016-07-06 2018-01-11 オリンパスメモリーワークス株式会社 画像検索装置、画像検索方法及びプログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4369308B2 (ja) * 2004-06-10 2009-11-18 日本電信電話株式会社 代表画像選択装置,代表画像選択方法および代表画像選択プログラム
JP4418400B2 (ja) * 2005-05-20 2010-02-17 オリンパスメディカルシステムズ株式会社 画像表示装置
US7990475B1 (en) * 2006-09-05 2011-08-02 Adobe Systems Incorporated Methods and apparatus for automated representative image selection
JP4909315B2 (ja) * 2008-06-05 2012-04-04 日本電信電話株式会社 映像処理装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
JP2012029175A (ja) * 2010-07-26 2012-02-09 Canon Inc 画像解析装置及び画像解析方法
JP2012169701A (ja) * 2011-02-09 2012-09-06 Canon Inc 画像処理装置、画像処理方法及びプログラム
JP5952625B2 (ja) * 2011-06-23 2016-07-13 キヤノン株式会社 情報処理装置、情報処理方法、及びプログラム
US20140333669A1 (en) * 2013-05-08 2014-11-13 Nvidia Corporation System, method, and computer program product for implementing smooth user interface animation using motion blur
CN103514580B (zh) * 2013-09-26 2016-06-08 香港应用科技研究院有限公司 用于获得视觉体验优化的超分辨率图像的方法和系统
JP2017204753A (ja) * 2016-05-11 2017-11-16 富士通株式会社 フレーム抽出方法、動画再生制御方法、プログラム、フレーム抽出装置及び動画再生制御装置
US10812770B2 (en) * 2017-09-13 2020-10-20 Canon Kabushiki Kaisha Image processing system, image processing apparatus, image processing method, and program

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005210573A (ja) * 2004-01-26 2005-08-04 Mitsubishi Electric Corp 映像表示システム
JP2007189558A (ja) * 2006-01-13 2007-07-26 Toshiba Corp 映像表示システム及び映像蓄積配信装置
JP2007300443A (ja) * 2006-04-30 2007-11-15 Victor Co Of Japan Ltd サムネイル作成装置
JP2010177894A (ja) * 2009-01-28 2010-08-12 Sony Corp 撮像装置、画像管理装置及び画像管理方法、並びにコンピューター・プログラム
JP2013118574A (ja) * 2011-12-05 2013-06-13 Nikon Corp 撮像装置
JP2016119552A (ja) * 2014-12-19 2016-06-30 三星電子株式会社Samsung Electronics Co.,Ltd. 映像コンテンツ処理装置、映像コンテンツ処理方法及びプログラム
JP2018007156A (ja) * 2016-07-06 2018-01-11 オリンパスメモリーワークス株式会社 画像検索装置、画像検索方法及びプログラム

Also Published As

Publication number Publication date
JP7317954B2 (ja) 2023-07-31
CN113841389A (zh) 2021-12-24
JPWO2020235060A1 (ja) 2020-11-26
CN113841389B (zh) 2023-11-10

Similar Documents

Publication Publication Date Title
US10515471B2 (en) Apparatus and method for generating best-view image centered on object of interest in multiple camera images
JP5757063B2 (ja) 情報処理装置および方法、並びにプログラム
WO2018198373A1 (ja) 映像監視システム
TWI539823B (zh) 攝影畫面切換方法與監控系統
JP4682820B2 (ja) オブジェクト追跡装置及びオブジェクト追跡方法、並びにプログラム
JP6362085B2 (ja) 画像認識システム、画像認識方法およびプログラム
KR20090088325A (ko) 화상 처리 장치, 화상 처리 방법 및 촬상 장치
JP2015088095A (ja) 情報処理装置および情報処理方法
JP2012212373A (ja) 画像処理装置、画像処理方法及びプログラム
US20180115745A1 (en) Information processing device, information processing method, program, and recording medium
JP3459950B2 (ja) 顔検出及び顔追跡方法並びにその装置
JP7187154B2 (ja) 画像処理装置、画像処理方法およびプログラム
US20210038097A1 (en) Image processing apparatus and pulse estimation system provided therewith, and image processing method
JP2010268158A (ja) 画像処理システム、画像処理方法およびプログラム
JP2005503731A (ja) 協働的な分散されたビジョンを通じたインテリジェントな4画面同時表示
WO2020235060A1 (ja) 映像処理装置および映像処理方法
US10764509B2 (en) Image processing device, image processing method, and program
JP2012090146A (ja) 画像処理装置、および画像処理方法、並びにプログラム
CN108965806B (zh) 一种基于远程展销系统的数据传输方法及装置
JP2007049529A (ja) 撮像装置、撮像方法、及びプログラム
JP4750758B2 (ja) 注目領域抽出方法、注目領域抽出装置、コンピュータプログラム、及び、記録媒体
JP2012173858A (ja) 全方位画像生成方法、画像生成装置およびプログラム
JP2021105850A (ja) 画像処理装置及び方法、及び撮像装置
JP6420750B2 (ja) 合成情報テーブル作成装置、合成情報テーブル作成方法及びコンピュータプログラム
US8223220B2 (en) Image processing device, image processing method, and information storage medium

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19929992

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021519988

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19929992

Country of ref document: EP

Kind code of ref document: A1