WO2013150789A1 - 動画解析装置、動画解析方法、プログラム、及び集積回路 - Google Patents

動画解析装置、動画解析方法、プログラム、及び集積回路 Download PDF

Info

Publication number
WO2013150789A1
WO2013150789A1 PCT/JP2013/002307 JP2013002307W WO2013150789A1 WO 2013150789 A1 WO2013150789 A1 WO 2013150789A1 JP 2013002307 W JP2013002307 W JP 2013002307W WO 2013150789 A1 WO2013150789 A1 WO 2013150789A1
Authority
WO
WIPO (PCT)
Prior art keywords
section
detection
detection section
detected
frame
Prior art date
Application number
PCT/JP2013/002307
Other languages
English (en)
French (fr)
Inventor
前田 和彦
小沼 知浩
Original Assignee
パナソニック株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック株式会社 filed Critical パナソニック株式会社
Priority to US14/123,326 priority Critical patent/US9779305B2/en
Priority to CN201380001598.XA priority patent/CN103597817B/zh
Priority to JP2014509059A priority patent/JP6141829B2/ja
Publication of WO2013150789A1 publication Critical patent/WO2013150789A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • G11B27/105Programmed access in sequence to addressed parts of tracks of operating record carriers of operating discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording

Definitions

  • a face detection technique or a technique for following a person based on the amount of change in the position of a face area calculated based on face motion information see, for example, Patent Document 1.
  • a technique for following a person based on information on a region corresponding to the trunk for example, see Patent Document 2 may be used.
  • an object of the present invention is to provide a moving image analysis apparatus that appropriately specifies a section related to one object in a moving image.
  • Examples of face orientations that can be detected by the object detection unit 102 An example of an object detection area that can be detected by the object detection unit 102 The figure for demonstrating the process of object related area identification which concerns on Embodiment 1.
  • FIG. An example of object related section information in a moving image generated in the object related section specifying unit 106 The flowchart which shows the object related area specific process which concerns on Embodiment 2.
  • FIG. An example of video blur information in each frame The figure for demonstrating the process of object related area identification which concerns on Embodiment 2.
  • FIG. 3-2 Flowchart showing object-related section specifying processing according to Embodiment 3-2
  • FIG. Functional block diagram of moving picture analysis apparatus 1000 according to Embodiment 5 The flowchart which shows the whole operation
  • FIG. (A)-(c) The figure for demonstrating the process of object related area specification which concerns on Embodiment 5.
  • the photographing device 120 is a device having a function of photographing a moving image and a function of accumulating the photographed moving image.
  • the imaging device 120 is configured by, for example, a digital movie.
  • the moving image analysis apparatus 100 and the image capturing apparatus 120 are connected via, for example, a USB (Universal Serial Bus) cable.
  • the object detection unit 102 detects an object shown in each frame from each frame of the moving image acquired by the moving image acquisition unit 101. Examples of detected objects include human faces, animals such as dogs and cats, cars, and buildings.
  • the object identification unit 104 performs identification processing for each object tracked by the object tracking unit 103. Specifically, the object identification unit 104 identifies whether an object tracked in one section of the moving image and an object tracked in a section other than the one section are the same object. .
  • “Scene” means a section where the content of the video is organized, a section where the contents of the video are organized, and the like.
  • the scene detection unit 105 detects, for example, a section in which an opening ceremony and a competitive competition are photographed as separate scenes in a movie in which a state of an athletic meet is photographed.
  • the object detection unit 102, the object tracking unit 103, the object identification unit 104, the scene detection unit 105, and the object-related section specifying unit 106 include, for example, a memory such as a ROM that stores a program for each processing, and the like.
  • the CPU is configured to execute a program and a memory such as a RAM for expanding program data.
  • step S202 will be described in detail with reference to FIG. FIG. 3 shows an example in which a human face is detected as an object.
  • 301 is the acquired moving image
  • 302 is the t-th frame of the moving image 301
  • 303 is the (t + 1) -th frame of the moving image 301.
  • the object detection unit 102 acquires a plurality of frames such as moving images 301 to 302 and 303, and detects a human face as an object from each acquired frame.
  • the object tracking unit 103 performs tracking processing on each object detected from each frame in the moving image (S203).
  • an object tracking method for example, among one object detected from one frame and an object detected from the next frame of one frame, one object whose detection area is detected from one frame is detected. There is a method of tracking one object by determining that an object that coincides with or sufficiently close to the detection area is the same object.
  • this method for example, in FIG. 3, the detection area of the object 304 detected from the frame 302 and the detection area of the object 305 detected from the frame 303 are at substantially the same position. Determines that the object 304 and the object 305 are the same object, and tracks the object 304 (305) from the frame 302 to the frame 303.
  • the object identification unit 104 performs identification processing for each object tracked by the object tracking unit 103 (S204). Specifically, the object identification unit 104 identifies whether an object tracked in one section of the moving image and an object tracked in a section other than the one section are the same object. .
  • the “image feature amount” indicates the feature of the distribution of pixel values related to each pixel in the image.
  • the image feature amount is represented by, for example, a vector having a plurality of numerical values indicating image features as components.
  • Image characteristics include periodicity and directionality of pixel value distribution of image data obtained using a Gabor filter.
  • the distance between two points recognized as eyes from the periodicity and directionality of the distribution of pixel values, the point recognized as a nose and the point recognized as a mouth Can be a vector component.
  • information relating to object detection / tracking / identification includes detection section information of each object in the moving image, identification ID information of an object to be detected in each detection section, start point and end point frame information of each detection section, and including. Further, the start point and end point frame information of each detection section includes frame ID information, and detection area information and orientation information of the object having the identification ID.
  • the detection area information of the object is represented by the upper left coordinate point of the rectangular area where the object in the frame is detected and the vertical and horizontal widths of the rectangular area.
  • the scene detection unit 105 detects a scene break in the moving image acquired by the moving image acquisition unit 101 (S205).
  • a method for detecting a scene break for example, there is a method for detecting a scene break based on a change in video information between successive frames.
  • Video information is information such as hue and brightness. For example, when the change in the video information of the entire frame from one frame to the next frame of the one frame is greater than or equal to a predetermined degree, the scene detection unit 105 determines the one frame and the next of the one frame. The boundary with the frame may be detected as a scene break.
  • the method for detecting a scene break is not limited to this method. For example, a method for detecting a scene break based on a change in acoustic information may be used.
  • FIG. 5 is a diagram showing an example of scene break information.
  • This scene break information may also be stored in a storage unit further provided in the moving image analysis apparatus 100, as well as the information related to the detection, tracking, and identification of the object, or may be externally accessible from the moving image analysis apparatus 100. It may be stored in the storage unit.
  • the object-related section specifying unit 106 uses the moving image based on the information on the detection, tracking, and identification of the object generated by the processes of steps S202 to S204 and the scene break information generated by the process of step S205.
  • the object-related section at is specified (S206).
  • step S206 will be described using the flowchart of FIG.
  • the object-related section specifying unit 106 is an object that is a detection section included in the same scene and is identified as the same by the object identifying unit 104 (hereinafter, this object is referred to as a “processing object”). ) Is detected (S601). Note that in this step S601, it is only necessary that at least a part of the detection section extracted is included in the same scene.
  • step S601 will be specifically described with reference to FIGS.
  • scene 1 is a section from frame 0 to frame 182. Therefore, in FIG. 4, the detection sections included in scene 1 are detection sections 1-5. At this time, the detection section 5 is a section from the frame 113 to the frame 224. Since a part of the detection section 5 is included in the scene 1, it is regarded as a detection section included in the same scene.
  • the detection sections 1 to 5 the detection sections in which the objects (processing target objects) identified as the same are detected are detection sections 1, 3, and 5 in which the object 1 is detected. Therefore, in step S601, the detection sections 1, 3, and 5 are extracted.
  • the object-related section specifying unit 106 selects two detection sections that do not sandwich the detection section extracted in another step S601 among the detection sections extracted in step S601 (S602).
  • step S602 will be specifically described with reference to FIG.
  • step S601 it is assumed that detection sections 1, 3, and 5 are detected in step S601.
  • the combination of two detection sections that do not sandwich the detection section extracted in another step S601 between the detection sections 1, 3, and 5 is the combination of the detection sections 1 and 3 or the detection sections 3 and 5. It is. Therefore, in step 602, detection intervals 1 and 3 or detection intervals 3 and 5 are selected. The combination of detection intervals 1 and 5 is not selected because detection interval 3 exists between detection intervals 1 and 5.
  • the detection result of the processing target object in the end point frame of the detection section existing in time among the two detection sections selected in step S602 is a limit value. It is confirmed whether or not (S603).
  • the “limit value” is a value representing the limit of object detection determined by the object detection unit 102.
  • examples of limit values will be described.
  • the object when the object is a person's face, there are restrictions on the direction, size, frame coordinates, etc. of the face that can be generally detected.
  • the limit value related to the “direction” of a person's face will be described with reference to FIG.
  • the faces shown in the moving image are not only faces facing the front but also faces facing various directions in the up, down, left and right directions.
  • the limit value related to the “direction” of the person's face is “30 degrees with respect to each rotation axis”.
  • the limitation on the orientation of the face that can be detected by the object detection unit 102 is not limited to the example of FIG. 7, and the detectable orientation of the face may differ depending on the size of the person's face, for example. In such a case, a limit value that associates the size and orientation of the person's face may be set.
  • the limit value related to the “size” of a person's face will be described.
  • the minimum face size that can be detected by the object detection unit 102 is 35 pixels, and the maximum size is 200 pixels.
  • the limit values regarding the “size” of the human face are “35 pixels” and “200 pixels”.
  • the frame size is 640 ⁇ 480
  • the (left upper X coordinate, upper left Y coordinate, vertical and horizontal width) is (x1, y1, wh1) for the rectangular area of the face detected by the object detection unit 102.
  • the area where the face appears is in the area that touches the frame, it is the limit that the face can be detected. If the whole face does not fit in the frame, in other words, only part of the face appears in the frame. Suppose that the face cannot be detected.
  • the limit values regarding the “frame coordinate point” are the minimum value 0 of x1, the maximum value 640 of (x1 + wh1), the minimum value 0 of y1, and the maximum value 480 of (y1 + wh1).
  • the object-related section specifying unit 106 confirms whether or not the detection result of the processing target object is a limit value, but is not limited thereto. It may be confirmed whether the detection result of the processing target object is within a predetermined range from the limit value, in other words, whether the detection result is within a value range determined based on the detection limit of the processing target object.
  • the object-related section specifying unit 106 determines whether or not the detection region of the processing target object is in a region inside a predetermined range from the frame frame, in other words, in a region near the frame frame. You may confirm.
  • the object-related section specifying unit 106 determines that the detection area of the processing target object is 0 ⁇ x1 ⁇ 32, (640-wh1-32) ⁇ x1 ⁇ (640-wh1-32), 0 ⁇ y1 ⁇ 24, And (480 ⁇ wh1-24) ⁇ y1 ⁇ (480 ⁇ wh1) may be satisfied.
  • the object-related section specifying unit 106 may confirm whether or not the orientation of the processing target object is in a predetermined range from the limit value.
  • the direction of the predetermined range may be set according to the detection accuracy of the object detection unit 102. For example, when 30 degrees is the limit value for each rotation axis in FIG. 7, the predetermined range from the limit value is 28 degrees (limit value 30 degrees ⁇ (5 percent of 30 degrees ⁇ 2 degrees)) to 30 degrees. It may be a range of degrees.
  • step S603 the object-related section specifying unit 106 determines that the detection result of the processing target object in the end point frame of the detection section existing in time is a limit value among the two selected detection sections. (S603: YES), the process proceeds to step S604. If the detection result is not the limit value (S603: NO), the process proceeds to S606.
  • step S604 the object-related section specifying unit 106 determines whether the detection result of the processing target object in the start point frame of the detection section that exists later in time among the two detection sections selected in step S602 is a limit value. Confirm whether or not. And when the detection result of the said process target object is a limit value (S604: YES), two detection areas and the non-detection area between two detection areas are made into the object related area regarding the said process target object. (S605). In other words, of the two detection sections, the section from the start point frame of the detection section existing before in time to the end point frame of the detection section existing after in time is the object related section related to the processing target object. (S605). When the detection result of the processing target object is not the limit value (S604: NO), the object-related section specifying unit 106 proceeds to the process of step S606.
  • steps S603 and S604 will be specifically described with reference to FIGS.
  • detection sections 1 and 3 are selected as two detection sections in step S602.
  • the detection interval existing before in time is the detection interval 1
  • the detection interval existing after in time is the detection interval 3.
  • the frame 55 is the end point frame of the detection section 1
  • the frame 78 is the start point frame of the detection section 3.
  • the object shown in the frames 55 and 78 is the object 1 to which the identification ID 1 is assigned in FIG. 4, and is the processing target object in the processing of steps S ⁇ b> 603 and S ⁇ b> 604.
  • the limit value related to the “frame coordinate point” described above is set in the object-related section specifying unit 106.
  • the object-related section specifying unit 106 determines that the upper left X coordinate of the detection area of the object 1 in the end point frame (frame 55) of the detection section 1 is 0, that is, a limit value (S603: YES), step S604. Proceed to the process.
  • the object-related section specifying unit 106 determines that the upper left X coordinate of the detection area of the object 1 in the start point frame (frame 78) of the detection section 3 is 0, that is, a limit value (S604: YES).
  • a section from the start point frame (frame 4) of 1 to the end point frame (frame 98) of the detection section 3 is specified as an object related section related to the object 1.
  • the detection result of the processing target object in each of the two selected detection sections is limited in the end point frame of the detection section existing in time and the start point frame of the detection section existing in time. If it is a value, it can be estimated that the reason why the object to be processed is not detected in the interval between the two selected detection intervals is that the limit of objects that can be detected by the object detection unit 102 has been exceeded.
  • the limit value related to the “frame coordinate point” is set in the object-related section specifying unit 106 has been described, but not only the limit value related to the “frame coordinate point”, for example, A limit value related to the “direction” and “size” of the face of the person described above may be set.
  • the object-related section specifying unit 106 a plurality of or all of the limit values for the “frame coordinate point”, the “direction” and “size” of the person's face described above are set. May be.
  • the object-related section specifying unit 106 confirms whether or not the detection result of the processing target object in the frame is at least one limit value among the set limit values. You may do that.
  • step S606 if all combinations of two selectable detection sections are selected in step S602 (S606: YES), the object-related section specifying unit 106 proceeds to the process of step S607, and sets all combinations. Is not selected (S606: NO), the process returns to S602.
  • step S607 if the detection section is extracted for all scenes and all objects in step S601 (S607: YES), the object-related section specifying unit 106 proceeds to the process of step S608, and if not detected. (S607: NO), the process returns to S601.
  • step S608 the object-related section specifying unit 106 determines an object-related section related to each object identified in step S204 based on the specifying result of step S605.
  • FIG. 10 is an example of object-related section information regarding each object in the moving image determined in step S608.
  • the object-related section information may also be stored in a storage unit further provided in the video analysis device 100, or may be stored in an external storage unit accessible from the video analysis device 100 and the display device 130.
  • the object related section information includes ID information of each object related section, identification ID information of a processing target object in each object related section, and start point and end point frame information of each object related section.
  • step S608 will be specifically described with reference to FIGS.
  • step S605 a section from the start point frame (frame 4) of the detection section 1 to an end point frame (frame 98) of the detection section 3 and a start point frame (frame 78) of the detection section 3 to the end point frame ( Assume that each of the sections up to the frame 224) is specified as an object-related section related to the object 1. In this specific example, it is assumed that the detection sections in which the object 1 is detected are only the detection sections 1, 3 and 5.
  • step S608 based on the identification result of step S605, the object-related section identifying unit 106, in step S608, as shown in FIG. 10, from the start frame (frame 4) of the detection section 1 to the end frame ( The section up to the frame 224) is determined to be the object related section related to the object 1.
  • the object-related section specifying unit 106 determines the object-related section related to each object by performing the process of organizing the specifying result of step S605.
  • the display device 130 refers to the object related section information regarding each object in the moving image generated by the moving image analysis device 100, and Object-related sections related to objects can be extracted and played back.
  • the object-related section specifying unit 106 determines that a non-detection section in which a single object is not detected in the video satisfies the following (1) and (2), It is identified as an object related section.
  • the non-detection section and the detection sections in which the one object is detected in front and behind the non-detection section in time are included in the same scene.
  • the one object detected in the end point frame of the front detection section and the start point frame of the rear detection section has one or more limit conditions defined as the detection limit of the one object. Satisfy at least one of them.
  • the limit condition is a condition defined as a limit of detection of the one object.
  • the one object is detected in a predetermined region of the end frame or the start frame, and the direction of the one object is a predetermined direction. It is within a range, or the size of the one object is within a predetermined size range.
  • the object-related section specifying unit 106 has been described as specifying an object-related section in a video based on information on object detection, tracking, and identification and scene break information. .
  • it is specified whether or not the non-detection section where the one object is not detected is an object-related section related to the one object.
  • the moving picture analysis apparatus according to the second embodiment is connected to the photographing apparatus and the display apparatus in the same manner as the moving picture analysis apparatus 100 according to the first embodiment (FIG. 1). Since the functions and the like of the imaging device 120 and the display device 130 are the same as those in the first embodiment, description thereof is omitted.
  • the internal structure of the moving picture analysis apparatus according to the second embodiment is the same as that of the moving picture analysis apparatus 100 (FIG. 1) according to the first embodiment, description thereof is omitted.
  • the specific processing content performed by the object-related section specifying unit 106 of the video analysis device according to the second embodiment is different from that of the video analysis device 100 according to the first embodiment. Details will be described later.
  • the moving image analysis apparatus acquires a moving image (FIG. 2: S201), detects / tracks / identifies an object (S202 to S204), And the process which detects the break of the scene in a moving image (S205) is performed. Since these processes are the same as those of the first embodiment, description thereof is omitted.
  • the object related section specifying unit 106 specifies the object related section in the moving image based on the information related to the detection, tracking, and identification of the object and the scene break information. (S206A).
  • the specific processing content of step S206A is different from step S206 of the first embodiment.
  • step S206A will be described using the flowchart of FIG.
  • steps S601 and S602 are the same as that in the first embodiment.
  • step S601 the object-related section specifying unit 106 extracts a detection section that is a detection section included in the same scene and in which an object identified as the same by the object identification section is detected.
  • step S602 the object-related section specifying unit 106 selects two detection sections that do not sandwich the detection section extracted in another step S601 among the detection sections extracted in step S601.
  • the object-related section specifying unit 106 determines whether or not the image blur in the non-detection section between the two detection sections selected in step S602 satisfies a predetermined condition (S1001). If the image blur satisfies a predetermined condition (S1001: YES), the selected two detection sections and the non-detection section between the two detection sections are the object-related sections related to the processing target object. It is specified that there is (S605). In other words, of the two selected detection intervals, the interval from the start frame of the detection interval existing before in time to the end frame of the detection interval existing after in time is the object related to the processing target object. The section is specified (S605). If the image blur does not satisfy the predetermined condition (S1001: NO), the process proceeds to step S606.
  • the predetermined condition that is the determination criterion in step S1001 may be that, for example, in a section between two detection sections, the amount of blurring of the video of all frames is equal to or greater than a certain amount.
  • an optical flow representing the displacement of each pixel between consecutive frames is calculated, and an average of the calculated optical flows is calculated. Then, a method may be used in which the calculated average of each optical flow is regarded as the displacement of the entire image between successive frames, and the average size of each optical flow is used as the amount of blurring of the video.
  • optical flow of each pixel between successive frames is expressed as a displacement in the planar direction of each pixel. This is because the rotation amount between frames can be approximated to 0 between consecutive frames.
  • optical flow of each pixel between consecutive frames can be expressed by a vector (u i , v i ) whose elements are the displacement u i in the X-axis direction and the displacement v i in the Y-axis direction of each pixel. .
  • FIG. 12 shows an example of information regarding video blur calculated in each frame.
  • FIG. 12 includes items of a frame ID and an image displacement in each frame.
  • the image displacement of each frame is the displacement of the entire image between each frame and the previous frame, and is represented by a vector (u i , v i ).
  • the image displacement of the frame 55 is the displacement of the entire image between the frame 55 and the frame 54 immediately before the frame 55, and is represented by a vector 55.
  • step S1001 will be specifically described with reference to FIGS.
  • the object-related section specifying unit 106 has a constant amount of blurring of all frames in a non-detection section between two detection sections. It is assumed that it is determined whether or not the size is greater than or equal to.
  • detection sections 1 and 3 are selected as two detection sections. A section between detection sections 1 and 3 is a section from frame 56 to frame 77.
  • step S1001 the object-related section specifying unit 106 determines that the amount of blur of the video of all frames in the section from the frame 56 to the frame 77, which is the section between the detection sections 1 and 3, is constant. Check if it is larger or smaller. In FIG. 11, the blurring of the video from frame 56 to frame 77 is represented by vector 56 to vector 77.
  • the start frame (frame 4) of the detection section 1 to the end frame (frame 98) of the detection section 3 ) Is specified as an object-related section related to the object 1 (S605).
  • the predetermined condition serving as the determination criterion in step S1001 is not limited to the above condition.
  • the maximum value of video blur in a non-detection section between two detection sections may be equal to or greater than a set threshold value.
  • Predetermined condition 2 The average blur of the video in the non-detection section between the two sections may be equal to or greater than a set threshold.
  • Predetermined condition 3 In a non-detection section between two sections, the number of frames in which video blur is equal to or greater than a threshold may be equal to or greater than a certain number.
  • Predetermined condition 4 In the non-detection section between the two detection sections, the variation amount of the blur of the video of each frame may be equal to or greater than a certain variation amount.
  • step S1001 the object-related section specifying unit 106 determines whether or not the image blur in the non-detection section between the two detection sections selected in step S602 satisfies a predetermined condition.
  • the object-related section is specified.
  • the process for specifying the object-related section is not limited to step S1001.
  • the object-related section specifying unit 106 specifies an object-related section using acceleration information of the photographing apparatus measured by the camera shake detection sensor when a camera shake detection sensor such as a gyro sensor is incorporated in the photographing apparatus. May be. Specifically, after the process of step S602, instead of step S1001, the object-related section specifying unit 106 captures a non-detection section between the two detection sections selected in step S602. It is also possible to confirm whether or not the acceleration of (2) satisfies a predetermined condition (S1001A).
  • the two detection sections and the non-detection section between the two detection sections are specified as the object-related section related to the processing target object. (S605)
  • the process may proceed to step S606.
  • the maximum value of the acceleration of the photographing apparatus when the non-detection section between the two detection sections is photographed as a predetermined criterion serving as the determination criterion in step S1001A is a certain value or more. It is good.
  • the condition that the blur of the video is greater than or equal to a predetermined magnitude, or the acceleration of the photographing device is greater than or equal to the predetermined magnitude. If the condition is satisfied, it can be estimated that the reason why the processing target object is not detected in the non-detection section is due to the blurring of the video or the photographing device.
  • steps S606 and S607 are the same as those in the first embodiment, and thus description thereof is omitted.
  • the object-related section specifying unit 106 relates to a non-detection section in which one object is not detected in the video when the following (1A) and (2A) are satisfied. Specify an object-related section.
  • the blurring of the video (or the displacement of the acceleration of the photographing device) in the non-detection section is not less than a predetermined degree.
  • the non-detection section in which the one object is not detected is, for example, (iii) the one object is actually reflected, It is estimated that the one object may not have been detected, and (iv) the photographer's movement is large and the one object has been out of frame.
  • the moving image analysis apparatus it is estimated that it is not only a section in which a specific object is detected but also a section related to the object as in (iii) and (iv) above. Sections can also be managed as object-related sections. Therefore, the user can easily extract a section related to a specific object from the moving image, and the extracted moving image is a moving image that is easy for the user to view.
  • the one object is detected by performing a determination process on an object different from the one object that is detected in the non-detection section where the one object is not detected. It is specified whether or not the non-detection section in which no object is detected is an object-related section related to the one object.
  • the moving picture analysis apparatus according to the embodiment 3-1 is connected to the photographing apparatus and the display apparatus in the same manner as the moving picture analysis apparatus 100 according to the first embodiment (FIG. 1). Since the functions and the like of the imaging device 120 and the display device 130 are the same as those in the first embodiment, description thereof is omitted.
  • the internal configuration of the moving picture analysis apparatus according to Embodiment 3-1 is the same as that of the moving picture analysis apparatus 100 (FIG. 1) according to Embodiment 1, the description thereof is omitted.
  • the specific processing contents performed by the object-related section specifying unit 106 of the video analysis device according to Embodiment 3-1 are different from those of the video analysis device 100 according to Embodiment 1. Details will be described later.
  • the moving image analysis apparatus first acquires moving images (FIG. 2: S201) and object detection / tracking / identification (S202 to S204), similar to the moving image analysis apparatus 100 according to the first embodiment. ) And a process of detecting a scene break in the moving image (S205). Since these processes are the same as those of the first embodiment, description thereof is omitted.
  • the object related section specifying unit 106 determines the object related section in the moving image based on the information related to the detection, tracking, and identification of the object and the scene break information. Specify (S206B).
  • the specific processing content of step S206B is different from step S206 of the first embodiment.
  • step S206B will be described using the flowchart of FIG.
  • step S601 and step S602 are the same as that in the first embodiment.
  • step S601 the object-related section specifying unit 106 extracts a detection section that is a detection section included in the same scene and in which an object identified as the same by the object identification unit 104 is detected.
  • step S602 the object-related section specifying unit 106 selects two detection sections that do not sandwich the detection section extracted in another step S601 among the detection sections extracted in step S601.
  • the object-related section specifying unit 106 determines that the section length in which an object different from the processing target object is detected satisfies a predetermined condition. It is determined whether or not (S1201). If the section length in which another object is detected satisfies a predetermined condition (S1201: YES), the selected two detection sections and the non-detection section between the two detection sections are determined as the processing target object. (S605). In other words, of the two selected detection intervals, the interval from the start frame of the detection interval existing before in time to the end frame of the detection interval existing after in time is the object related to the processing target object. It identifies that it is a section (S605). If the section length in which another object is detected does not satisfy the predetermined condition (S1201: NO), the process proceeds to step S605.
  • the object-related section specifying unit 106 may set, for example, a section length in which the other object is detected to be a certain time or longer.
  • the interval from the start point frame of the detection interval existing in time to the end frame of the detection interval existing in time is a time when the ratio of the interval length of the interval where the object different from the processing target object is detected is equal to or greater than a certain ratio. It may be set.
  • steps 606 to S608 is the same as that in the first embodiment, and a description thereof will be omitted.
  • step S1201 will be described in detail with reference to FIGS.
  • step S602 detection sections 1 and 3 are selected as two detection sections.
  • the section from the frame 56 to the frame 77 the section from the frame 60 to the frame 74 is a detection section 2 where the object 2 is detected. Therefore, the other object in step S1201 is the object 2.
  • the section in which the object 2 is detected in the non-detection section is the detection section 2 and the number of frames is 15.
  • step S1201 the object-related section specifying unit 106 determines that the section length in which the object 2 is detected is 15 frames, 50% of the section length between the detection sections 1 and 3, and 11 or more frames. Because there is (S1201: YES), from the start point frame (frame 4) of the detection section existing in time to the end frame (frame 98) of the detection section existing in time after the two detection sections The section is specified as an object-related section related to the object 1.
  • the length of the non-detection section between the two selected detection sections satisfies the condition that the section length in which an object different from the processing target object is detected is equal to or longer than a predetermined time.
  • the reason that the one object is not detected in the non-detection section between the two selected detection sections is that the photographer turns the viewpoint to an object different from the one object for a certain period of time. It can be presumed that it was because a movie was taken.
  • the object-related section specifying unit 106 when the non-detection section where one object is not detected in the video satisfies the following (1B) and (2B), Specify an object-related section for the object.
  • the non-detection section in which the one object is not detected is, for example, (v) a photographer only for a certain period of time, for example, whimsical, instead of the one object It is presumed that this is a section in which an object other than the one object is photographed.
  • the video analysis device not only a section in which a specific object is detected, but also a section that is estimated to be a section related to the object, as in (v) above, It can be managed as a related section. Therefore, the user can easily extract a section related to a specific object from the moving image, and the extracted moving image is a moving image that is easy for the user to view.
  • the one object is estimated to be at least part of the region where the one object is estimated to be reflected.
  • the non-detection section in which the one object is not detected is specified as an object-related section related to the one object.
  • the moving picture analysis apparatus according to the embodiment 3-2 is connected to the photographing apparatus and the display apparatus in the same manner as the moving picture analysis apparatus 100 according to the first embodiment (FIG. 1). Since the functions and the like of the imaging device 120 and the display device 130 are the same as those in the first embodiment, description thereof is omitted.
  • the internal structure of the moving picture analysis apparatus according to Embodiment 3-2 is the same as that of the moving picture analysis apparatus 100 (FIG. 1) according to Embodiment 1, the description thereof is omitted.
  • the specific processing content performed by the object-related section specifying unit 106 of the moving picture analysis apparatus according to the embodiment 3-2 is different from that of the moving picture analysis apparatus 100 according to the first embodiment. Details will be described later.
  • the moving image analysis apparatus first acquires moving images (FIG. 2: S201) and object detection / tracking / identification (S202 to S204), similar to the moving image analysis apparatus 100 according to Embodiment 1 above. ) And a process of detecting a scene break in the moving image (S205). Since these processes are the same as those of the first embodiment, description thereof is omitted.
  • the object related section specifying unit 106 determines the object related section in the moving image based on the information related to the detection, tracking, and identification of the object and the scene break information. Specify (S206C).
  • the specific processing content of step S206C is different from step S206 of the first embodiment.
  • step S206C will be described using the flowchart of FIG.
  • step S601 and step S602 are the same as that in the first embodiment.
  • step S601 the object-related section specifying unit 106 extracts a detection section that is a detection section included in the same scene and in which an object identified as the same by the object identification unit 104 is detected.
  • step S602 the object-related section specifying unit 106 selects two detection sections that do not sandwich the detection section extracted in another step S601 among the detection sections extracted in step S601.
  • step S2202. the object-related section specifying unit 106 performs step S2202. Proceeding to the process, if another object different from the object to be processed is not detected (S2201: NO), the process proceeds to step S606.
  • step S2202 the object-related section specifying unit 106 detects each detection area in which the other object is detected and two detection sections in all frames of the non-detection section between the two detection sections selected in step S602. In the end point frame of the detection section existing in time before, it is determined whether or not a part of the detection area of the processing target object plus a predetermined area around the detection area overlaps. . If even a part of them overlaps (S2202: YES), the process proceeds to step S2203. If they do not overlap at all (S: 2202: NO), the process proceeds to step S606.
  • step S2203 the object-related section specifying unit 106 selects the detection area of the processing target object in the start point frame of the detection section that exists later in time among the two detection sections, and temporally among the two detection sections. It is determined whether or not a part of a detection area of the processing target object in the end point frame of the detection section existing before and a predetermined area around the detection area overlaps. And even if it overlaps even partly (S2203: YES), two detection areas and the non-detection area between two detection areas are specified as an object relevant area regarding the said process target object (S605).
  • the section from the start point frame of the detection section existing before in time to the end point frame of the detection section existing after in time is the object related section related to the processing target object. (S605). If they do not overlap at all (S2203: NO), the process proceeds to step S606.
  • steps 606 to S608 is the same as that in the first embodiment, and a description thereof will be omitted.
  • detection section 3 and detection section 5 are selected as two detection sections in step S602.
  • the processing target object that is the same object detected in the detection sections 3 and 5 is the object 1, and this object 1 is a person A in FIG.
  • the section between the detection section 3 and the detection section 5 is the frame 99 to the frame 112, and the section between these is included in the detection section 4 (the frame 92 to the frame 133).
  • the detection section 4 is a section in which the object 3 is detected.
  • This object 3 is another object that is detected in all the frames of the non-detection section between the detection section 3 and the detection section 5 and is different from the processing target object. In FIG. .
  • the detection area in which the person B as another object is detected is, for example, as shown in FIG.
  • the area 104b is in the frame 104
  • the area 105b is in the frame 105.
  • the detection section existing in time among the detection sections 3 and 5 is the detection section 3, and its end frame is the frame 98.
  • the detection area in the frame 98 where the person A as the processing target object is detected is the area 98a.
  • a predetermined peripheral area around the area 98a is defined as an area 98c hatched in FIG.
  • the area 104b that is the detection area of the person B in the frame 104 and the area 98a that is the detection area of the person A in the frame 98 are 98c that is a predetermined area around the area 98a.
  • the area with the added area partially overlaps.
  • the region 105b and the region obtained by adding the region 98c to the region 98a partially overlap.
  • the detection area where the person B is detected and the area 98a are detected in all frames from the frame 99 to the frame 112, which are non-detection sections between the detection section 3 and the detection section 5.
  • the object-related section specifying unit 106 proceeds to the process of step S2203.
  • the detection interval existing after the time in the detection interval 3 and the detection interval 5 is the detection interval 5
  • the start point frame is the frame 113.
  • frame 113 is detected is an area
  • the object-related section specifying unit 106 is an object-related section related to the person A (object 1) from the start frame (frame 78) of the detection section 3 to the end frame (frame 224) of the detection section 5. (S605).
  • each detection area of an object different from the processing target object and the two detection sections exist later in time.
  • Each of the detection areas of the processing target object in the start point frame of the detection area, and a predetermined area around the detection area of the processing target object in the end point frame of the detection area existing in time before the two detection sections If the region to which the processing target is added overlaps at least partly, the reason why the processing target object is not detected in the non-detection section between the two selected detection sections is Before, there is an object different from the processing target object, and the processing target object is behind the other object. Which it is estimated to be due had gotten.
  • steps S2202 and S2203 it has been described that the surrounding predetermined area is added to the detection area of the processing target object and the determination process is performed on the overlap between the processing target object and the other object.
  • the reason for adding is to consider the movement of the processing target object in a section where no object is detected.
  • the section from the start frame of the detection section 3 to the end frame of the detection section 5 is a section in which the person A and the person B are competing for the soccer ball.
  • the person A and the person B do not continue to stand still, but are competing and moving. Therefore, as shown in FIG. 17, the detection area of the person A detected in the end point frame (frame 98) of the detection section 3, and the detection area of the person A detected in the start frame (frame 113) of the detection section 5 are not necessarily consistent.
  • the object-related section specifying unit 106 adds the surrounding predetermined area to the detection area of the processing target object, and performs the processing. It is preferable to perform a determination process on the overlap between the target object and another object different from the processing target object.
  • FIG. 18 is a diagram illustrating an example of setting a predetermined peripheral area for the detection area according to the size of the detection area.
  • a predetermined peripheral area for the detection area 98 a of the object 1 in the frame 98 of the detection section 3 is a hatched area 98 d.
  • the peripheral predetermined area with respect to the detection area may be, for example, an area outside a predetermined ratio with respect to the vertical and horizontal widths of the detection area from the four sides of the detection area.
  • an area 10% uniformly outside the vertical and horizontal widths of the detection area is set as the peripheral predetermined area.
  • the vertical and horizontal directions are 10% and 15% of the horizontal width. The ratio may be changed.
  • FIG. 19 is a diagram for explaining an example in which the predetermined peripheral area for the detection area is set according to the displacement of the detection area of the processing target object in a plurality of frames.
  • the detection area of the processing target object object 1 moves 50 pixels in the X-axis direction by a certain amount of movement (83a ⁇ 98a). From this movement, in the section from frame 98 to frame 113, it is estimated that the process target object is likely to move in the same manner as the section from frame 83 to frame 98. Therefore, considering the movement of the object to be processed in the section from the frame 83 to the frame 98, as shown in FIG.
  • the peripheral predetermined area for the detection area 98a is set as a hatched area 98e. Also good.
  • an area 50 pixels outside the right side is set as a predetermined peripheral area.
  • the predetermined peripheral area with respect to the detection area may be set in consideration of the displacement of the detection area of the processing target object, for example.
  • a predetermined peripheral area is set in consideration of the displacement of the processing target object from the frame 83 existing 15 frames before the frame 98 to the frame 98.
  • the method of setting the peripheral predetermined region is not limited to this, and the displacement of the processing target object from the frame existing a certain number before the end frame (frame 98) of the detection section existing in time to the frame 98 is detected. In consideration of the above, a predetermined peripheral area may be set.
  • a predetermined peripheral area may be set according to the displacement in the moved direction.
  • the processing target object in the section from the frame 83 to the frame 98, the processing target object is displaced by a certain amount of movement.
  • the displacement of the processing object is not always a certain amount of movement. Absent. Therefore, not only the displacement between the two frames of the frame 83 and the frame 98 is taken into consideration, but the process between two consecutive frames is based on the tracking information of the process target object generated by the object tracking unit 103.
  • the average displacement from the frame 83 to the frame 98 may be calculated by calculating the displacement of the target object and calculating the average of the displacements, and the surrounding predetermined area may be set according to the average displacement.
  • the displacement of the object is not limited to the movement of the detection area of the object, and the size of the detection area of the object may be changed.
  • a predetermined peripheral area may be set according to the change in the size of the detection area of the object.
  • the object-related section specifying unit 106 determines that the non-detection section where one object is not detected in the moving picture satisfies the following (1C) to (3C), Specify an object-related section for the object.
  • the non-detection section is a section in which an object different from the one object is detected.
  • (3C) A detection area of an object different from the one object, which is detected in each frame of the non-detection section, and a rear side that is temporally continuous with the detection area (the one object is detected)
  • Each of the detection areas of the one object detected in the start point frame of the detection section, and the end frame of the detection section in front of the detection area (the one object is detected) that is temporally continuous with the detection area A region obtained by adding a peripheral predetermined region to a detection region of one object at least partially overlaps.
  • the non-detection section in which the one object is not detected is (vi) different from the one object before the one object as viewed from the photographer. It is presumed that there is an object and that one object is hidden behind another object.
  • the moving image analysis apparatus according to the present Embodiment 3-2, not only the section in which the object is detected but also the section estimated as in the above (vi) can be managed as the object related section. Therefore, the user can easily extract a section related to a specific object from the moving image, and the extracted moving image is a moving image that is easy for the user to view.
  • the non-detection section in which the one object is not detected is determined by performing determination processing on the section length of the non-detection section in which one object is not detected. Specify whether it is an object-related section for an object.
  • the moving picture analysis apparatus according to the fourth embodiment is connected to the photographing apparatus and the display apparatus in the same manner as the moving picture analysis apparatus 100 according to the first embodiment (FIG. 1). Since the functions and the like of the imaging device 120 and the display device 130 are the same as those in the first embodiment, description thereof is omitted.
  • the internal structure of the moving picture analysis apparatus according to the fourth embodiment is the same as that of the moving picture analysis apparatus 100 (FIG. 1) according to the first embodiment, description thereof is omitted.
  • the specific processing content performed by the object-related section specifying unit 106 of the video analysis device according to the fourth embodiment is different from that of the video analysis device 100 according to the first embodiment. Details will be described later.
  • the moving image analysis apparatus like the moving image analysis apparatus 100 according to the first embodiment, acquires moving images (FIG. 2: S201), object detection / tracking / identification (S202 to S204), And the process which detects the break of the scene in a moving image (S205) is performed. Since these processes are the same as those of the first embodiment, description thereof is omitted.
  • the object related section specifying unit 106 specifies the object related section in the moving picture based on the information related to the detection, tracking, and identification of the object and the scene break information. (S206D).
  • the specific processing content of step S206D is different from step S206 of the first embodiment.
  • step S206D will be described using the flowchart of FIG.
  • steps S601 and S602 are the same as that in the first embodiment.
  • step S601 the object-related section specifying unit 106 extracts a detection section that is a detection section included in the same scene and in which an object identified as the same by the object identification section is detected.
  • step S602 the object-related section specifying unit 106 selects two detection sections that do not sandwich the detection section extracted in another step S601 among the detection sections extracted in step S601.
  • the object-related section specifying unit 106 determines whether or not the section length of the non-detection section between the two detection sections selected in step S602 satisfies a predetermined condition (S1301). If the section length of the non-detection section between the two detection sections satisfies a predetermined condition (S1301: YES), the two detection sections and the non-detection section between the two detection sections are It is specified that it is an object-related section related to the processing target object (S605). In other words, of the two detection sections, the section from the start point frame of the detection section existing before in time to the end point frame of the detection section existing after in time is the object related section related to the processing target object. (S605). If the section length between the two detection sections does not satisfy the predetermined condition (S1301: NO), the process proceeds to step S606.
  • the predetermined condition used as the determination criterion in step S1301 may be, for example, a predetermined time or less.
  • the section length from the start frame of the detection section existing before in time to the end frame of the detection section existing after in time may be sufficiently short.
  • step S1301 will be described in detail with reference to FIGS.
  • the predetermined condition serving as the determination criterion in step S1301 is set such that the end point frame of the section existing after the time from the start point frame of the detection section existing before in time from the two detection sections. It is assumed that the ratio of the section length between the two detection sections to the section length up to 30% or less.
  • detection sections 1 and 3 are selected as two detection sections.
  • the section from the start frame of the detection section 1 to the end frame of the detection section 3 is a section from the frame 4 to the frame 98, and the number of frames is 95. Therefore, 30% or less of the number of frames 95 means 28 or less frames.
  • the non-detection interval between the detection interval 1 and the detection interval 3 is an interval from the frame 56 to the frame 77, and the number of frames is 22.
  • step S1301 the object-related section specifying unit 106 determines that the length of the non-detection section between the detection section 1 and the detection section 3 is the number of frames 22, and the detection section 3 starts from the start frame of the detection section 1. Since 30% of the section length to the end frame, that is, the number of frames is 28 or less (1301: YES), the time from the start point frame (frame 4) of the detection section existing in time out of the two detection sections Specifically, the section up to the end point frame (frame 98) of the detection section existing later is specified as the object-related section related to the object 1.
  • the processing target object is detected in the non-detection section between the two selected detection sections. It can be presumed that the reason why the photographer was not detected is that the photographer did not view the object to be processed for a certain period of time.
  • steps S606 and S607 is the same as that in the first embodiment.
  • the object-related section specifying unit 106 relates to a non-detection section in which one object is not detected in the video when the following (1D) and (2D) are satisfied. Specify an object-related section.
  • the section length of the non-detection section is within a predetermined time.
  • the non-detection section in which the one object is not detected is, for example, (vii) when the photographer is uncertain, for example, for a certain period of time.
  • the section length is within a certain time and is relatively short relative to the section where the one object is detected, so there is no problem even if it is managed as a section related to the one object. Presumed to be waxy.
  • the moving image analysis apparatus it is estimated that it is not only a section in which a specific object is detected but also a section related to the object as in (vii) and (viii) above. Sections can also be managed as object-related sections. Therefore, the user can easily extract a section related to a specific object from the moving image, and the extracted moving image is a moving image that is easy for the user to view.
  • a soccer goal scene is taken as an example of a highlight section.
  • the video of the subject's child kicking the ball toward the goal switches to a video where the ball shakes the goal net, then switches to a video of the audience cheering, and then the child
  • the section in which this child is not detected is extracted as the digest video. I can't. Therefore, the digest video is intermittent and does not become a digest video that is easy for the user to see.
  • the user may want to view not only the section in which the child is photographed but also a series of sections including the highlight section in the moving image as the section related to the child.
  • each highlight section extracted from a video when one object is detected from all frames, when one object is detected from some frames, or one object is detected from all frames. It may not be detected.
  • the moving picture analysis apparatus identifies an object-related section related to one object in a moving picture.
  • FIG. 22 is a functional block diagram of the moving image analysis apparatus 1000 according to the fifth embodiment.
  • the moving image analysis apparatus 1000 is connected to the imaging device 120 and the display device 130, similarly to the moving image analysis apparatus 100 (FIG. 1) according to the first embodiment. Since the functions of the imaging device 120 and the display device 130 are the same as those in the first embodiment, description thereof is omitted.
  • the moving image analysis apparatus 1000 includes a highlight detection unit 1401 in addition to the configuration of the moving image analysis apparatus 100 according to the first embodiment (FIG. 1). Further, the moving image analysis apparatus 1000 includes an object related section specifying unit 1106 instead of the object related section specifying unit 106 from the configuration of the moving image analyzing apparatus 100.
  • the highlight detection unit 1401 detects a highlight section from the video acquired by the video acquisition unit 101. Detailed processing contents of the highlight detection unit 1401 will be described later.
  • the object related section specifying unit 1106 specifies an object related section related to each object in the moving image. Details of the processing of the object-related section specifying unit 1106 will be described later.
  • FIG. 15 is a flowchart showing the overall operation of the moving image analysis apparatus 1000 according to the fifth embodiment.
  • the moving image analysis apparatus 1000 first acquires moving images (FIG. 2: S201), object detection / tracking / identification (S202 to S204), and scenes in the moving images, similar to the moving image analysis apparatus 100 according to the first embodiment. Processing for detecting a break (S205) is performed. Since these processes are the same as those of the first embodiment, description thereof is omitted.
  • the moving image analysis apparatus 1000 detects a highlight section in the moving image in the highlight detection unit 1401 (S1501).
  • “Highlight section” refers to a section with excitement in the video.
  • a method for detecting a highlight section for example, there is a method of extracting a section where the sound power is a certain level or more and making it a highlight section.
  • the highlight detection unit 1401 can detect, as highlight sections, sections in which a person around is swelled by cheers or the like, and sections in which fireworks are displayed in a fireworks display.
  • the method for detecting the highlight section is not limited to this. For example, in a moving image, when information for identifying a scene or information regarding an operation at the time of shooting such as zooming in / out is added, the information may be used for detection of a highlight section.
  • the highlight section is defined as the highlight section from the start point frame in which the zoom-in operation is performed to the end point frame of the scene including the section in which the zoom-in operation is performed. You may do that.
  • the highlight section information includes ID information of each highlight in the moving image and start point and end point frame information of each highlight section.
  • the highlight section information is stored in a storage unit further provided in the moving image analysis apparatus 100. Alternatively, it may be stored in an external storage unit accessible from the moving image analysis apparatus 100.
  • the object-related section specifying unit 1106 includes information on object detection / tracking / identification generated by the processes of steps S202 to S204, scene break information generated by the process of step S205, and process of step S1501.
  • the object related section in the moving image is specified based on the highlight section information generated by (S206E).
  • step S206E will be described using the flowchart of FIG.
  • the object-related section specifying unit 1106 is included in the same scene, in addition to the detection section in which an object having the same identification ID is detected that is included in the same scene.
  • the highlight section detected in step S1501 is extracted (S1601).
  • the object-related section specifying unit 1106 selects two sections that do not sandwich the section extracted in another step S1601 among the detection section and highlight section extracted in step S1601 (S1602).
  • step S1602 will be specifically described with reference to FIG.
  • the sections extracted in step S1601 are the detection sections 1, 3 and 5, and the highlight section A. Further, it is assumed that the start point frame of the highlight section is the frame 106 and the end point frame is the frame 123.
  • the detection intervals 1 and 3, or the detection interval 3 and the highlight interval A, or the highlight interval A and the detection interval are defined as two intervals that do not sandwich the interval extracted in another step S1601. Five combinations are selected. Other combinations of sections are not selected because they sandwich the section extracted in another step S1601.
  • step S1301 the object-related section specifying unit 1106 determines that the section length of the non-detection section between the two sections selected in step S1602 satisfies a predetermined condition (1301: YES), of the two detection sections, From the start point frame of the detection section existing before in time to the end point frame of the section existing after time is specified as the object related section related to the processing target object (S605).
  • steps S606 to S608 are the same as those in the first embodiment, and thus description thereof is omitted.
  • the two sections selected in step S1602 are a detection section and a highlight section, cases as shown in FIGS. 21A to 21C are assumed.
  • the two sections selected in step S1602 are the detection section 3 (FIG. 4) and the highlight sections A to C.
  • the start point frame of the highlight section A is the frame 106 and the end point frame is the frame 123.
  • a section between the detection section 3 and the highlight section A is a frame 99 to a frame 105. Therefore, since the section between the detection section 3 and the highlight section A is 6 frames and the section length is sufficiently short, the section from the start point frame of the detection section 3 to the end point frame of the highlight section A is defined as the object to be processed. It may be specified as an object related section.
  • the start point frame of the highlight section B is the frame 99 and the end point frame is the frame 23.
  • the end point frame of the detection section 3 and the start point frame of the highlight section B are continuous frames.
  • the section from the start point frame of the detection section 3 to the end point frame of the highlight section B is the object related to the processing target object. It may be specified as a related section.
  • the start point frame of the highlight section C is the frame 96 and the end point frame is the frame 123.
  • the detection section 3 and the highlight section C partially overlap, but in such a case as well, the section from the start point frame of the detection section 3 to the end point frame of the highlight section C It may be specified as an object-related section related to the target object.
  • step S1601 in addition to the detection section in which the processing target object is detected, the highlight section is extracted, so that the highlight section can be specified and managed as an object related section related to the processing target object. it can.
  • the object-related section specifying unit 1106 includes a non-detection section in which one object is not detected in the video, a front detection section and a detection section behind the non-detection section.
  • One detection interval and the other detection interval different from the one detection interval, or the other detection interval different from the one detection interval is continuous with the non-detection interval, or at least a part of the non-detection interval and
  • the highlighted section that is an overlapping section is specified as an object related section related to the one object.
  • the non-detection section, one detection section of the front detection section and the detection section behind the non-detection section, and the highlight section are included in the same scene.
  • the section length of the non-detection section is within a predetermined time.
  • the non-detection section and the highlight section that satisfy the conditions (1E) and (2E) described above are managed as object-related sections related to the one object. Can do.
  • the section where the ball shook the goal net is high. If it is detected as a light section, even if no child is detected in the section where the ball swings the goal net, a series of sections where the child shoots and then the ball swings the goal net is divided into object-related sections related to the child.
  • a series of sections in which a certain person is photographed and fireworks launched immediately after the photograph are photographed can be managed as object-related sections related to the person.
  • a section related to a specific object can be managed, when a user extracts a section related to a specific object from a moving image, the user continues not only the detection section where the object is detected but also the detection section.
  • a non-detection section where the object is not detected and a highlight section estimated to be related to the object can be extracted, and the extracted moving image is a moving image that is easy for the user to view.
  • the object-related section specifying unit includes a non-detection section in which one object is not detected, and a front and a rear in which one object that is temporally continuous with the non-detection section is detected.
  • the non-detection section It may be specified as an object-related section related to the object.
  • an object-related section related to the object One example will be described below.
  • the non-detection section may be specified as an object-related section related to the one object.
  • the one object detected in the start point frame of the rear detection section satisfies at least one of one or more limit conditions defined as the detection limit of the one object.
  • the limit condition is a condition defined as a limit of detection of the one object.
  • the one object is detected in a predetermined region of the end frame or the start frame, and the direction of the one object is a predetermined direction. It is within a range, or the size of the one object is within a certain size range.
  • the section length of the non-detection section is within a predetermined time.
  • the starting point frame of the scene 1 is the frame 0, and referring to FIG. 4, the section from the frame 0 to the frame 3 is a non-detection section in which the object 1 is not detected.
  • the object-related section specifying unit 106 specifies the non-detection section from frame 0 to frame 3 as the object-related section related to object 1 when the above (1F) to (3F) are satisfied.
  • a detection interval 1 in which a rear object 1 that is temporally continuous with a non-detection interval from frame 0 to frame 3 is detected is frame 4 to frame 55, and scene 1 (frame 0 to frame 182).
  • the direction of the object 1 in the start frame (frame 4) of the detection section 1 which is the detection section in the rear is the limit value “(30 degrees left)”.
  • the section length from (3F) frame 0 to frame 3 is 4 frames and within 10 frames. Therefore, the non-detection section from the frame 0 to the frame 3 is specified as the object-related section related to the object 1.
  • the object-related section specifying unit 106 extends from the frame 0 to the end point frame (frame 55) of the detection section 1. Is identified as an object-related section related to the object 1.
  • the following (1G) to (3G) are similarly applied to the case where there is a non-detection section in which one or more frames are not detected in time from the end point frame of the scene in the movie acquired in step S201.
  • the non-detection section may be specified as an object-related section related to the one object.
  • the non-detection section and the detection section in which the one object ahead in time with the non-detection section is detected are included in the same scene.
  • the one object detected in the start point frame of the front detection section satisfies at least one of one or more limit conditions defined as the detection limit of the one object.
  • the limit condition is a condition defined as a limit of detection of the one object.
  • the one object is detected in a predetermined region of the end frame or the start frame, and the direction of the one object is a predetermined direction. It is within a range, or the size of the one object is within a certain size range.
  • (3G) The section length of the non-detection section is within a predetermined time.
  • the moving image analysis apparatus detects scene breaks in the moving image after the object detection (S202), object tracking (S203), and object identification (S204) processes (S205).
  • the process of detecting a scene break in a moving image (S205) may be performed before the process of specifying object-related sections (S206, S206A to E). It may be performed during any step of identification (S202 to S204) or before these steps.
  • the moving image analysis apparatus 1000 detects scene breaks in the moving image after the processing of object detection (S202), object tracking (S203), and object identification (S204) (S205). ), And then the highlight section detection (S1501) process in the moving image is performed.
  • the highlight section detection (S1501) process in the moving image is a process of detecting a scene break (S205) in the moving image.
  • it may be performed before the process of specifying the object-related section (S206, S206A to E), and the process of detecting, tracking, and identifying the object (S202 to S204) or detecting the break of the scene (S205) Performed during or prior to any step It may be.
  • step S601 has been described in step S601 (or step S1601) as extracting each section based on scene information in the moving image
  • the present invention is not limited to this.
  • a detection section and a highlight section in which an object with the same identification ID is detected
  • step S608 based on the scene information in the moving image, the final section is extracted.
  • an object-related section relating to each object in the moving image may be determined.
  • the moving image analysis apparatus includes the object tracking unit, but the object tracking unit may be excluded from the configuration.
  • the object identification unit may perform identification processing on the object detected from each frame by the object detection unit.
  • the object-related section specifying unit 106 also includes information on object detection / identification, scene break information, and (in the object-related section specifying unit of the fifth embodiment, highlight section information in a moving image). Based on the above, processing for specifying an object-related section relating to each object in the moving image may be performed.
  • the process for specifying the object-related section is not limited to steps S206 and S206A to S206E described in the above embodiments, and a process in which these processes are combined. May be used to identify the object-related section.
  • the moving image analysis apparatus includes the object detection unit 102, the object tracking unit 103, the object identification unit 104, and the scene detection unit 105.
  • the object-related section specifying unit 106 detects an object (S202 ), Object tracking (S203), and object identification (S204) information obtained from object detection / tracking / identification information and scene breaks in the video (S205).
  • the object-related section relating to each object in the moving image is specified based on the scene break information in the moving image (S206, S206A to D). .
  • the object-related section specifying unit 106 may use information regarding object detection / tracking / identification and scene break information in the moving image added to the moving image by an external device in steps S206 and S206A to D.
  • the moving image analysis apparatus 1000 includes a highlight detection unit 1401, and the object-related section specifying unit 1106 further includes information on object detection / tracking / identification, scene break information in the moving image, Although it has been described that the object-related section relating to each object in the moving image is specified based on the highlight section information in the moving image obtained by the processing of the light section detection (S1501) (S206E), The moving image analysis apparatus 1000 is not limited to this. Absent.
  • the object-related section specifying unit 1106 may use highlight section information in a moving image added to the moving image by an external device in step S206E.
  • Some or all of the constituent elements included in the moving picture analysis apparatus according to the first to fifth embodiments may be configured by one system LSI (Large Scale Integration).
  • the system LSI is a super-functional LSI manufactured by integrating a plurality of components on one chip. Specifically, a microprocessor, a ROM (Read Only Memory), a RAM (Random Access Memory), etc. It is a computer system comprised including. A computer program is stored in the ROM. The system LSI achieves its functions by the microprocessor operating according to the computer program.
  • system LSI may be called IC, LSI, super LSI, or ultra LSI depending on the degree of integration.
  • method of circuit integration is not limited to LSI's, and implementation using dedicated circuitry or general purpose processors is also possible.
  • An FPGA Field Programmable Gate Array
  • reconfigurable processor that can reconfigure the connection and setting of circuit cells inside the LSI may be used.
  • the present invention can be realized not only as a moving image analysis apparatus including such a characteristic processing unit, but also as a moving image analysis method using a characteristic processing unit included in the moving image analysis apparatus as a step. You can also It can also be realized as a computer program that causes a computer to execute the characteristic steps included in such a method. Needless to say, such a computer program can be distributed via a computer-readable non-transitory recording medium such as a CD-ROM or a communication network such as the Internet.
  • the first video analysis device is a video analysis device that identifies an object-related section related to one object in a video, and is a section that is temporally continuous with a detection section in which the one object is detected, and When it is determined that a predetermined condition is satisfied, a non-detection section that is a section in which the one object is not detected is specified as the object-related section, and when it is determined that the predetermined condition is not satisfied, the object An animation analyzing apparatus comprising: an object related section specifying unit that is not specified as a related section.
  • the first moving image analysis apparatus can appropriately specify a section related to one object in the moving image.
  • the predetermined condition is that the non-detection section, a front detection section that is temporally continuous with the non-detection section, and a rear detection section are the same. And the one object in the end frame of the front detection section and the one object in the start frame of the rear detection section are based on the detection limit of the one object. It does not matter as satisfying at least one of one or more defined limit conditions.
  • the second moving image analysis apparatus when the predetermined condition is satisfied, the second moving image analysis apparatus, for example, actually shows the one object in the non-detection section. It is estimated that the one object was not detected, the movement of the one object or the photographer's movement is large, and the one object was out of frame. It can be identified as a series of sections that are continuous with the detection section in which the one object is detected.
  • the third moving image analysis apparatus wherein the limit condition is that the one object is detected in a predetermined region of the end point frame or the start point frame, and the direction of the one object is predetermined.
  • the size of the one object that is within a range may be greater than or equal to a threshold A, and the size of the one object may be less than or equal to a threshold B that is smaller than the threshold A.
  • the third moving image analysis apparatus can detect at least one of the limit conditions relating to the frame area, the orientation of the one object, and the size of the one object that can be detected by the one object.
  • the limit condition is satisfied by the one object detected in each frame continuous with the frames at both ends of the non-detection section, the non-detection section is continued with the detection section where the one object is detected. It can be specified as a series of sections.
  • the fourth moving image analyzing apparatus may be that in the third moving image analyzing apparatus, the predetermined area is an area in the vicinity of the frame of the end point frame or the start point frame.
  • the limit condition regarding the frame region in which the one object can be detected, the one object exists in a region near the frame of the end point frame or the start point frame. In this case, the limit condition can be satisfied.
  • the fifth video analysis device is that the non-detection section, a front detection section and a rear detection section that are temporally continuous with the non-detection section are the same.
  • the image blurring in the non-detection section may be greater than or equal to a predetermined degree.
  • the predetermined condition is that the non-detection section is identical to a front detection section and a rear detection section that are temporally continuous with the non-detection section.
  • the non-detection section an object different from the one object is detected, and a section length in which the other object is detected in the non-detection section is equal to or longer than a predetermined time.
  • the ratio of the section in which the another object is detected in the non-detection section may be a predetermined ratio or more.
  • the sixth moving image analysis apparatus when the predetermined condition is satisfied, is configured such that the non-detection section is, for example, a whim for a certain time, for example, whimsical, instead of the one object. Since it is presumed that it is a section in which an object different from one object is photographed, the non-detection section can be specified as a series of sections that are continuous with a detection section in which the one object is detected. .
  • the predetermined condition is that the non-detection section, the front detection section and the rear detection section that are temporally continuous with the non-detection section are the same.
  • the length of the non-detection section is within a predetermined time
  • an object different from the one object is detected in the non-detection section
  • the time at which the object is detected is not less than a predetermined time, or the ratio of the section in which the other object is detected in the non-detection zone may be not less than a predetermined ratio.
  • the seventh moving image analysis apparatus is configured such that the non-detection section is, for example, a whim for a certain period of time, for example, whimsical, instead of the one object. Since it is presumed that it is a section in which an object different from one object is photographed, the non-detection section can be specified as a series of sections that are continuous with a detection section in which the one object is detected. .
  • the predetermined condition is that the non-detection section is identical to a front detection section and a rear detection section that are temporally continuous with the non-detection section.
  • the non-detection section an object different from the one object is detected, and the detection area of the other object detected in each frame of the non-detection section, and the rear
  • the eighth moving image analysis apparatus can detect the one object before the one object as viewed from the predetermined condition photographer in the non-detection section. Since it is presumed that another object exists and the one object is hidden behind the other object, the non-detection section is defined as a detection section in which the one object is detected. It can be identified as a continuous series of sections.
  • a ninth moving image analyzing apparatus wherein the peripheral region is at least one of the size of the one object detected in the end point frame of the front detection section and the front detection section. It may be set based on at least one of the information on the displacement of the one object in the section.
  • the ninth moving image analysis apparatus uses the size of the one object detected in the end point frame of the front detection section, or at least a part of the front detection section as the peripheral predetermined region. It can be set in accordance with the displacement of one object (for example, the displacement or size of the detection area where the one object is detected).
  • the predetermined condition is that the non-detection section is identical to a front detection section and a rear detection section that are temporally continuous with the non-detection section.
  • the section length of the non-detection section may be within a predetermined time.
  • the tenth moving image analysis apparatus for example, in the non-detection section, the photographer is, for example, whimsical and does not display the one object for a certain period of time. Because it is estimated that there will be no problem even if it is managed as a section related to the one object because the section length is relatively short with respect to the section in which the one object is detected.
  • the non-detection section can be specified as a series of sections that are continuous with the detection section in which the one object is detected.
  • the predetermined condition includes the non-detection section, a front detection section that is temporally continuous with the non-detection section, and a rear detection section.
  • One detection section is included in the same scene, and in the one detection section, the one object detected in a frame serving as an end point on a side temporally continuous with the non-detection section is the one object. It is also possible that at least one of the one or more limit conditions determined based on the detection limit is satisfied and the section length of the non-detection section is within a predetermined time.
  • the eleventh moving image analysis apparatus actually displays the one object in the non-detection section, for example, by the object detection technique. Since it is estimated that the object was not detected, the movement of the one object, or the photographer's movement is large and the one object was out of frame, the non-detection section It can be specified as a series of sections that are continuous with the detection section in which one object is detected.
  • the predetermined condition includes: the non-detection section, a front detection section that is temporally continuous with the non-detection section, and a rear detection section.
  • One of the detection sections and the other of the one detection section is a section that is continuous with the non-detection section or overlaps a part or all of the non-detection section and is a section in which the moving image is excited.
  • the highlight section may be included in the same scene, and the section length of the non-detection section may be within a predetermined time.
  • the twelfth moving image analysis apparatus can specify the non-detection section and the highlight section as a series of sections that are continuous with the detection section in which the one object is detected.
  • the first moving image analysis method is a moving image analysis method executed by a moving image analysis apparatus that identifies an object-related section relating to one object in a moving image, and is continuous in time with a detection section in which the one object is detected.
  • a non-detection section in which the one object is not detected is determined as the object-related section when it is determined that the predetermined condition is satisfied, and the predetermined condition is not satisfied.
  • an object related section specifying step that is not specified as the object related section is included.
  • This configuration makes it possible to appropriately specify a section related to one object in a moving image.
  • a first program is a program that causes a computer to execute a moving image analysis process that is executed by a moving image analysis apparatus that identifies an object-related interval related to one object in a moving image, wherein the first object is detected, and When determining that a predetermined condition is satisfied, a non-detection section that is a temporally continuous section and is a section in which the one object is not detected is specified as the object-related section, and the predetermined condition When determining that is not satisfied, the moving image analysis processing includes an object related section specifying step that is not specified as the object related section.
  • This configuration makes it possible to appropriately specify a section related to one object in a moving image.
  • the first integrated circuit is an integrated circuit that identifies an object-related section related to one object in a moving image, is a section that is temporally continuous with a detection section in which the one object is detected, and the one integrated circuit
  • a non-detection section that is a section in which no object is detected is specified as the object-related section, and when it is determined that the predetermined condition is not satisfied, the object-related section An object-related section specifying unit not specified as.
  • the first integrated circuit can appropriately specify a section related to one object in the moving image.
  • the moving picture analyzing apparatus can be applied to a moving picture storing apparatus, a digital camera, a photographing apparatus such as a camera-equipped mobile phone or a movie camera, a PC (Personal Computer), and the like.
  • Animation analysis apparatus 101 Animation acquisition part 102 Object detection part 103 Object tracking part 104 Object identification part 105 Scene detection part 106, 1106 Object related area identification part 120 Image pick-up device 130 Display apparatus 301 Acquired animation 302 tth frame 303 t + 1-th frame 304, 305 object 1401 highlight detection unit

Abstract

 本発明に係る動画解析装置は、動画において、一のオブジェクトに関するオブジェクト関連区間を特定する動画解析装置であって、前記一のオブジェクトが検出される検出区間と時間的に連続する区間であって、且つ前記一のオブジェクトが検出されない区間である非検出区間を、所定の条件が満たされると判定する場合に、前記オブジェクト関連区間として特定し、前記所定の条件が満たされないと判定する場合に、前記オブジェクト関連区間として特定しないオブジェクト関連区間特定部、を備える。本発明に係る動画解析装置によれば、動画において、一のオブジェクトに関連する区間を適切に特定することができる。

Description

動画解析装置、動画解析方法、プログラム、及び集積回路
 本発明は、デジタルカメラ等で撮影された動画を、オブジェクトが写り込まれている区間を抽出等して解析する装置に関する。
 動画に映る特定のオブジェクト(例えば、人物)に着目し、保有する動画から、特定のオブジェクトが撮影された区間だけを抽出し、閲覧や編集を行いたいというニーズがある。
 このニーズを満たすための方法として、その特定のオブジェクトが撮影された区間を手軽に抽出できるように、動画にオブジェクトの検出情報を付与しておく方法が考えられる。
 動画から特定の人物を検出する技術としては、顔検出技術や、顔の動き情報に基づき算出された顔領域の位置の変化量に基づいて人物を追従する技術(例えば、特許文献1参照。)や、胴体に相当する領域の情報に基づき人物を追従する技術(例えば、特許文献2参照)等が挙げられる。
特開2010-50934号公報 特許第4830650号公報
 しかしながら、一般的な顔検出技術では、顔の向き等によって、顔の検出に限界があり、動画から人物を検出できない場合がある。また、特許文献1は、顔領域の位置の変化が所定量以上になると、人物を追従することができず、動画から人物が検出できない。また、特許文献2は、胴体に相当する領域の情報が得られない場合は、人物を追従することができず、動画から人物を検出できない。
 このように、動画において、被写体として特定の人物(A)が撮影された区間であっても、その区間から人物(A)を検出できない場合がある。従来技術では、このような人物(A)が検出できない区間は、人物(A)が撮影されているにも拘らず、人物(A)が撮影された区間としては抽出することができない。以上から、上記のユーザのニーズを満たすためには、オブジェクトを実際に検出できた区間だけに、オブジェクトの検出情報を付与しておくだけでは不十分であると言える。
 本発明は、上記に鑑み、動画において、一のオブジェクトに関連する区間を適切に特定する動画解析装置の提供を目的とする。
 前記従来の課題を解決するために、動画において、一のオブジェクトに関するオブジェクト関連区間を特定する動画解析装置であって、前記一のオブジェクトが検出される検出区間と時間的に連続する区間であって、且つ前記一のオブジェクトが検出されない区間である非検出区間を、所定の条件が満たされると判定する場合に、前記オブジェクト関連区間として特定し、前記所定の条件が満たされないと判定する場合に、前記オブジェクト関連区間として特定しないオブジェクト関連区間特定部、を備える動画解析装置。
 本発明に係る動画解析装置によれば、動画において、一のオブジェクトに関連する区間を適切に特定することができる。
実施の形態1に係る動画解析装置100の機能ブロック図 実施の形態1に係る動画解析装置100の全体動作を示すフローチャート オブジェクト検出部102におけるオブジェクトの検出処理の一例、及びオブジェクト追跡部103におけるオブジェクトの追跡処理の一例を説明するための図 オブジェクト検出部102、オブジェクト追跡部103、及びオブジェクト識別部104によって生成される、オブジェクトの検出・追跡・識別に関する情報の一例 シーン検出部105によって生成される、動画におけるシーンの切れ目情報の一例 実施の形態1に係るオブジェクト関連区間特定の処理を示すフローチャート オブジェクト検出部102において検出可能な顔の向きの一例 オブジェクト検出部102において検出可能なオブジェクトの検出領域の一例 実施の形態1に係るオブジェクト関連区間特定の処理を説明するための図 オブジェクト関連区間特定部106において生成される、動画におけるオブジェクト関連区間情報の一例 実施の形態2に係るオブジェクト関連区間特定の処理を示すフローチャート 各フレームにおける映像のブレに関する情報の一例 実施の形態2に係るオブジェクト関連区間特定の処理を説明するための図 実施の形態3-1に係るオブジェクト関連区間特定の処理を示すフローチャート 実施の形態3-1に係るオブジェクト関連区間特定の処理を説明するための図 実施の形態3-2に係るオブジェクト関連区間特定の処理を示すフローチャート 実施の形態3-2に係るオブジェクト関連区間特定の処理を説明するための図 実施の形態3-2に係るオブジェクト関連区間特定の処理において用いられる周辺所定領域の一例 実施の形態3-2に係るオブジェクト関連区間特定の処理において用いられる周辺所定領域のさらに一例 実施の形態4に係るオブジェクト関連区間特定の処理を示すフローチャート 実施の形態4に係るオブジェクト関連区間特定の処理を説明するための図 実施の形態5に係る動画解析装置1000の機能ブロック図 実施の形態5に係る動画解析装置1000の全体動作を示すフローチャート 実施の形態5に係るオブジェクト関連区間特定の処理を示すフローチャート (a)~(c)実施の形態5に係るオブジェクト関連区間特定の処理を説明するための図
 <本発明に係る一形態を得るに至った経緯>
 上述したように、オブジェクトの検出技術及び追跡技術には限界があり、動画において、オブジェクトが実際には写っているが、そのオブジェクトを検出できない区間は、そのオブジェクトが撮影された区間としては抽出することができない。
 また、撮影者は、特定のオブジェクト(例えば人物)を被写体とした動画を撮影する際、必ずしもそのオブジェクトが動画に写り続けるように撮影できるとは限らない。例えば、被写体である人物の動きが大きく、撮影者がその人物をカメラで追いきれずに、その人物がフレームアウトしてしまう場合がある。また、撮影者が移動しながら被写体である人物を撮影する際、撮影者の動きが大きく、その人物がフレームアウトしてしまう場合もある。さらに、撮影者が意図的に、被写体である人物を撮影している合間に、一時的にその人物とは別のオブジェクトや、風景を撮影することで、その人物がフレームアウトする場合もある。このような、被写体である人物がフレームアウトしている区間も、当然、当該人物は検出されず、当該人物が撮影された区間としては抽出することができない。
 そのため、オブジェクトの検出情報を基に、動画からある特定の人物が撮影された区間を抽出し、例えば動画ダイジェストを作成した場合、上述したような当該人物が検出されない区間は抽出することができないため、作成された動画ダイジェストは断続的になってしまう場合がある。ユーザは、特定のオブジェクトが被写体として撮影された一連の区間を、オブジェクトの検出に拘らず見続けたいと思われる。
 以上を鑑み、発明者は、動画において一のオブジェクトが検出されない非検出区間であっても、当該一のオブジェクトが検出された検出区間と連続する一連の区間であると推定される区間は、当該一のオブジェクトに関する区間として取り扱うことができればよいという知見を得た。
 本発明に係る実施の形態では、上記の知見に基づき、動画において、一のオブジェクトが検出されない非検出区間について、当該一のオブジェクトに関連する区間であるか否かを特定する処理を行う動画解析装置の提供を目的とする。
 <実施の形態1>
 以下、実施の形態1に係る動画解析装置について、図面を参照しながら説明する。
 図1は、実施の形態1に係る動画解析装置100の機能ブロック図である。
 動画解析装置100は、撮影装置120及び表示装置130に接続されている。
 撮影装置120は、動画を撮影する機能、及び撮影した動画を蓄積する機能を有する装置である。撮影装置120は、例えば、デジタルムービから構成されている。また、動画解析装置100と撮影装置120とは、例えばUSB(Universal Serial Bus)ケーブルを介して接続されている。
 表示装置130は、動画解析装置100から出力される動画などを表示する機能を有する。表示装置130は、例えば、デジタルテレビから構成されている。また、動画解析装置100と表示装置130とは、例えばHDMI(登録商標/High-Definition Multimedia Interface)ケーブルを介して接続されている。
 次に、動画解析装置100の内部構成について説明する。
 図1に示すように、動画解析装置100は、動画取得部101、オブジェクト検出部102、オブジェクト追跡部103、オブジェクト識別部104、シーン検出部105、及びオブジェクト関連区間特定部106を備える。
 動画取得部101は、撮影装置120が蓄積している動画を取得する。動画取得部101は、例えば、USBケーブルを挿入するためのUSBポート及びUSBドライバなどのインターフェイスを制御するソフトウェアから構成されている。
 オブジェクト検出部102は、動画取得部101において取得された動画の各フレームから、各フレームに映っているオブジェクトを検出する。検出されるオブジェクトとして、人物の顔、犬や猫などの動物、車、建物等が挙げられる。
 オブジェクト追跡部103は、オブジェクト検出部102において検出された各オブジェクトについて追跡処理を行う。具体的には、オブジェクト追跡部103は、一のフレームにおいて検出された一のオブジェクトが、当該一のフレームの次のフレームにおいてどの領域に存在するかを確認することで、各オブジェクトの追跡処理を行う。
 オブジェクト識別部104は、オブジェクト追跡部103によって追跡された各オブジェクトについて識別処理を行う。具体的には、オブジェクト識別部104は、動画において一の区間で追跡されたオブジェクトと、当該一の区間とは別の区間で追跡されたオブジェクトとが、同じオブジェクトであるか否かを識別する。
 シーン検出部105は、動画取得部101において取得された動画からシーンの切れ目を検出する。
 「シーン」とは動画において、映像の内容にまとまりのある区間や、時間的にまとまりのある区間等を意味する。シーン検出部105は、例えば、運動会の様子が撮影された動画において、開会式と徒競争競技が夫々撮影された区間は別のシーンとして検出する。
 オブジェクト関連区間特定部106は、動画において、オブジェクト識別部104において識別される各オブジェクトに関するオブジェクト関連区間を特定する。なお、オブジェクト関連区間特定部106は、当該オブジェクトが検出される検出区間だけでなく、当該オブジェクトに関連する区間であろうと推定される区間も、当該オブジェクトに関するオブジェクト関連区間として特定する。オブジェクト関連区間特定部106の詳細な処理内容については後述する。
 なお、これらオブジェクト検出部102、オブジェクト追跡部103、オブジェクト識別部104、シーン検出部105、及びオブジェクト関連区間特定部106は、例えば、それぞれの処理用のプログラム等を格納するROMなどのメモリと、プログラムを実行するCPUと、プログラムのデータを展開するためのRAMなどのメモリとから構成されている。
 図2のフローチャートを用いて、動画解析装置100の全体動作を説明する。
 先ず、動画取得部101は撮影装置120に蓄積されている動画を取得する(S201)。
 次に、オブジェクト検出部102は、取得された動画の各フレームからオブジェクトを検出する(S202)。
 図3を用いて、ステップS202の処理を詳しく説明する。図3では、オブジェクトとして人物の顔が検出される例を挙げる。
 図3において、301は取得された動画であり、302は動画301のt番目のフレームであり、303は、動画301の(t+1)番目のフレームである。オブジェクト検出部102は、例えば、動画301から302や303等の複数のフレームを取得し、取得した各フレームからオブジェクトとして人物の顔を検出する。
 オブジェクトの検出方法として、例えば、動画の各フレームについて、フレームに対してあらかじめ用意された顔学習辞書を用いてオブジェクトが含まれる領域を切り出す方法がある。この方法が用いられる場合、例えば図3では、フレーム302からはオブジェクト304の領域、フレーム303からはオブジェクト305の領域が切り出され、人物の顔としてオブジェクト304及び305が検出される。
 次に、オブジェクト追跡部103は、動画において各フレームから検出された各オブジェクトに対して追跡処理を行う(S203)。
 オブジェクトの追跡方法として、例えば、一のフレームから検出された一のオブジェクトと、一のフレームの次のフレームから検出されたオブジェクトの内、その検出領域が、一のフレームから検出された一のオブジェクトの検出領域と一致又は十分近い位置に存在するオブジェクトとを、同一のオブジェクトであると判断することで、一のオブジェクトを追跡する方法がある。この方法が用いられる場合、例えば図3では、フレーム302からは検出されたオブジェクト304の検出領域と、フレーム303から検出されたオブジェクト305の領域とが、ほぼ同じ位置にあるため、オブジェクト追跡部103は、オブジェクト304とオブジェクト305とは同じオブジェクトと判断し、フレーム302からフレーム303で、オブジェクト304(305)を追跡する。
 オブジェクト識別部104は、オブジェクト追跡部103によって追跡された各オブジェクトについて識別処理を行う(S204)。具体的には、オブジェクト識別部104は、動画において一の区間で追跡されたオブジェクトと、当該一の区間とは別の区間で追跡されたオブジェクトとが、同じオブジェクトであるか否かを識別する。
 オブジェクトを識別する方法として、例えば、先ず、オブジェクト追跡部103によって、各オブジェクトが追跡された区間である、各オブジェクトの検出区間の任意のフレームから、当該追跡対象であるオブジェクトの画像特徴量を夫々抽出する。そして、抽出された画像特徴量が類似する追跡対象のオブジェクト同士を、同一のオブジェクトであると識別する方法がある。
 また、オブジェクトを識別する方法はこの方法に限定されず、例えば、事前に特定のオブジェクトの画像特徴量を登録しておき、抽出された各追跡区間の追跡対象であるオブジェクトの画像特徴量と、登録してある特定のオブジェクトの画像特徴量とを比較することで、その特定のオブジェクトを識別する方法がある。
 なお、「画像特徴量」とは、画像における各画素に係る画素値の分布の特徴を示したものである。画像特徴量は、例えば、画像の特徴を示す複数の数値を成分とするベクトルで表される。画像の特徴には、Gaborフィルタを用いて得られる画像データの画素値の分布の周期性や方向性などがある。人物の顔に係る画像特徴量の場合、画素値の分布の周期性や方向性などから目と認識された点2つの間の距離や、鼻と認識された点と口と認識された点との距離などの量を、ベクトルの成分とすることができる。
 図4は、以上のステップS202~S204の処理によって生成される、オブジェクトの検出・追跡・識別に関する情報の一例を示す図である。なお、このオブジェクトの検出・追跡・識別に関する情報は、動画解析装置100に更に備えられる記憶部において格納されてもよいし、動画解析装置100からアクセス可能な外部の記憶部において格納されてもよい。
 図4において、オブジェクトの検出・追跡・識別に関する情報は、動画における各オブジェクトの検出区間情報と、各検出区間において検出対象であるオブジェクトの識別ID情報と、各検出区間の始点及び終点フレーム情報とを含む。また、各検出区間の始点及び終点フレーム情報は、フレームID情報と、当該識別IDのオブジェクトの検出領域情報及び向き情報とを含む。また、この一例において、オブジェクトの検出領域情報は、フレームにおけるオブジェクトが検出された矩形領域の左上の座標点と、その矩形領域の縦横幅とで表されている。
 図2に戻って説明を続ける。
 シーン検出部105は、動画取得部101で取得された動画において、シーンの切れ目を検出する(S205)。
 シーンの切れ目を検出する方法として、例えば、連続するフレーム間における映像情報の変化を基に、シーンの切れ目を検出する方法がある。
 映像情報とは、色相や輝度などの情報である。例えば、シーン検出部105は、一のフレームから、当該一のフレームの次のフレームにおける、フレーム全体の映像情報の変化が所定の度合い以上である場合、一のフレームと、当該一のフレームの次のフレームとの境界をシーンの切れ目として検出してもよい。また、シーンの切れ目を検出する方法は、この方法に限定されず、例えば、音響情報の変化を基に、シーンの切れ目を検出する方法が用いられてもよい。
 図5は、シーンの切れ目情報の一例を示す図である。なお、このシーンの切れ目情報も、上記のオブジェクトの検出・追跡・識別に関する情報と同様、動画解析装置100に更に備えられる記憶部において格納されてもよいし、動画解析装置100からアクセス可能な外部の記憶部において格納されてもよい。
 図5において、シーンの切れ目情報は、動画における各シーンのID情報と、各シーンの始点及び終点フレーム情報とを含む。
 次に、オブジェクト関連区間特定部106は、ステップS202~S204の処理によって生成されるオブジェクトの検出・追跡・識別に関する情報と、ステップS205の処理によって生成されるシーンの切れ目情報とに基づいて、動画におけるオブジェクト関連区間を特定する(S206)。
 図6のフローチャートを用いて、このステップS206の処理を説明する。
 先ず、オブジェクト関連区間特定部106は、同一シーンに含まれる検出区間であって、且つ、オブジェクト識別部104によって同一であると識別されたオブジェクト(以下、このオブジェクトを「処理対象オブジェクト」と言う。)が検出された検出区間を抽出する(S601)。なお、このステップS601において、抽出される検出区間は、少なくとも一部が当該同一シーンに含まれていればよい。
 図4と図5を用いて、このステップS601の処理を具体的に説明する。
 図5において、シーン1はフレーム0からフレーム182までの区間である。よって、図4において、シーン1に含まれる検出区間は、検出区間1~5である。なお、このとき、検出区間5は、フレーム113からフレーム224までの区間であり、検出区間5の一部がシーン1に含まれるため、同一シーンに含まれる検出区間と見なされる。
 そして、この検出区間1~5の内、同一であると識別されたオブジェクト(処理対象オブジェクト)が検出される検出区間は、オブジェクト1が検出される検出区間1、3及び5である。従って、ステップS601では、検出区間1、3及び5が抽出される。
 続いて、オブジェクト関連区間特定部106は、ステップS601において抽出された検出区間の内、間に別のステップS601において抽出された検出区間を挟まない2つの検出区間を選択する(S602)。
 図4を用いて、このステップS602の処理を具体的に説明する。
 図4において、ステップS601で検出区間1、3、及び5が検出されたとする。このとき、検出区間1、3及び5の内、間に別のステップS601において抽出された検出区間を挟まない2つの検出区間の組み合わせは、検出区間1と3、又は検出区間3と5の組み合わせである。よって、ステップ602では、検出区間1と3、又は検出区間3と5が選択される。なお検出区間1と5の組み合わせは、検出区間1と5の間に検出区間3が存在するため選択されない。
 続いて、オブジェクト関連区間特定部106は、ステップS602において選択された2つの検出区間の内、時間的に前に存在する検出区間の終点フレームにおける当該処理対象オブジェクトの検出結果が、限界値であるか否かを確認する(S603)。
 「限界値」とは、オブジェクト検出部102において定められる、オブジェクトの検出の限界を値で表したものである。以下、限界値の例について説明する。
 例えば、オブジェクトが人物の顔である場合、一般的に検出できる顔について、向き・大きさ・フレームの座標等の制限がある。
 先ず、図7を用いて、人物の顔の「向き」に関する限界値を説明する。動画に映る顔は、正面を向いた顔だけでなく、上下左右に様々な方向を向いた顔が存在するが、オブジェクト検出部102で検出可能な顔の向きが、例えば図7に示しように、正面から各回転軸に対して30度以内に制限されていたとする。この場合、オブジェクト検出部102は、それ以上傾いた顔を検出することはできないため、人物の顔の「向き」に関する限界値は「各回転軸に対して30度」となる。
 なお、オブジェクト検出部102で検出可能な顔の向きに関する制限は、図7の例に限定されず、例えば、人物の顔の大きさに応じて、検出可能な顔の向きが異なる場合もある。このような場合は、人物の顔の大きさと向きを対応付けた限界値を設定すればよい。
 次に、人物の顔の「大きさ」に関する限界値について説明する。例えば、オブジェクト検出部102で検出可能な顔の最小サイズは35ピクセルであり、最大サイズは200ピクセルであるとする。この場合、35ピクセル未満や200ピクセルより大きな顔は検出することができないため、人物の顔の「大きさ」に関する限界値は、「35ピクセル」及び「200ピクセル」となる。
 次に、図8を用いて、「フレームの座標点」に関する限界値について説明する。例えば、フレームサイズを640×480とし、オブジェクト検出部102によって検出される顔の矩形領域について、(左上のX座標,左上のY座標,縦横幅)を(x1,y1,wh1)とする。そして、顔が写る領域がフレーム枠と接する領域にある場合が、顔が検出できる限界であり、顔全体がフレーム枠に収まっていない場合、言い換えると、顔の一部しかフレームに写っていない場合は、顔を検出することができないとする。この場合、「フレームの座標点」に関する限界値は、x1の最小値0、(x1+wh1)の最大値640、y1の最小値0、及び(y1+wh1)の最大値480となる。例えば図8では、(x1,y1,wh1)=(0、400、50)の矩形領域で人物の顔が検出されている。この矩形領域は、フレーム枠と接しており、x1=0であるため、この検出された人物の顔の検出結果は限界値であることを意味する。
 なお、本実施の形態1のステップS603及び後述するS604において、オブジェクト関連区間特定部106は、当該処理対象オブジェクトの検出結果が限界値であるか否かを確認するが、これに限定されず、当該処理対象オブジェクトの検出結果が限界値から所定の範囲内、言い換えると当該処理対象オブジェクトの検出の限界を基に定められた値の範囲内にあるか否かを確認するとしてもよい。
 例えば「フレームの座標点」に関して、オブジェクト関連区間特定部106は、当該処理対象オブジェクトの検出領域が、フレーム枠から所定の範囲内側の領域、言い換えると、フレーム枠の近傍の領域にあるか否かを確認するとしてもよい。
 なお、このフレーム枠の近傍の領域は、フレームサイズに応じて設定されてもよい。例えば、フレームサイズ640×480の場合において、フレーム枠の上辺及び下辺から夫々、フレーム幅640ピクセルの5パーセント=32ピクセル内側の領域と、フレーム枠の右辺及び左辺から夫々、フレーム高さ480ピクセルの5パーセント=24ピクセル内側の領域とを、所定の範囲の領域としてもよい。この場合、オブジェクト関連区間特定部106は、当該処理対象オブジェクトの検出領域が、0<x1<32、(640-wh1-32)<x1<(640-wh1-32)、0<y1<24、及び(480-wh1-24)<y1<(480-wh1)の内1以上を満たすか否かを確認すればよい。
 また、「顔の向き」に関して、オブジェクト関連区間特定部106は、当該処理対象オブジェクトの向きが、限界値から所定の範囲の向きにあるか否かを確認するとしてもよい。また、所定の範囲の向きは、オブジェクト検出部102の検出精度に応じて設定してもよい。例えば、図7の各回転軸に対して30度が限界値である場合、限界値からの所定の範囲を、28度(限界値30度-(30度の5パーセント≒2度))から30度の範囲としてもよい。
 ステップS603の処理において、オブジェクト関連区間特定部106は、選択された2つの検出区間の内、時間的に前に存在する検出区間の終点フレームにおける当該処理対象オブジェクトの検出結果が限界値である場合(S603:YES)、ステップS604の処理に進み、検出結果が限界値でない場合(S603:NO)、S606の処理へ進む。
 ステップS604において、オブジェクト関連区間特定部106は、ステップS602において選択された2つの検出区間の内、時間的に後に存在する検出区間の始点フレームにおける当該処理対象オブジェクトの検出結果が限界値であるか否かを確認する。そして、当該処理対象オブジェクトの検出結果が限界値である場合は(S604:YES)、2つの検出区間と、2つの検出区間の間の非検出区間とを、当該処理対象のオブジェクトに関するオブジェクト関連区間であると特定する(S605)。言い換えると、2つの検出区間の内、時間的に前に存在する検出区間の始点フレームから、時間的に後に存在する検出区間の終点フレームまでの区間を、当該処理対象オブジェクトに関するオブジェクト関連区間であると特定する(S605)。当該処理対象オブジェクトの検出結果が限界値でない場合は(S604:NO)、オブジェクト関連区間特定部106は、ステップS606の処理へ進む。
 図4及び図9を用いて、ステップS603及びS604の処理について具体的に説明する。例えば、ステップS602において、2つの検出区間として検出区間1及び3が選択されたとする。この2つの検出区間の内、時間的に前に存在する検出区間とは検出区間1であり、時間的に後に存在する検出区間とは検出区間3である。また、図9において、フレーム55は検出区間1の終点フレームであり、フレーム78は検出区間3の始点フレームである。また、フレーム55及びフレーム78に映るオブジェクトは、図4において識別ID1が付与されているオブジェクト1であり、ステップS603及びS604の処理における当該処理対象オブジェクトである。また、オブジェクト関連区間特定部106において、上記で説明した「フレームの座標点」に関する限界値が設定されているとする。
 このとき、オブジェクト関連区間特定部106は、検出区間1の終点フレーム(フレーム55)における、オブジェクト1の検出領域の左上のX座標は0、即ち限界値であるため(S603:YES)、ステップS604の処理に進む。
 続いて、オブジェクト関連区間特定部106は、検出区間3の始点フレーム(フレーム78)における、オブジェクト1の検出領域の左上のX座標は0、即ち限界値であるため(S604:YES)、検出区間1の始点フレーム(フレーム4)から、検出区間3の終点フレーム(フレーム98)までの区間を、オブジェクト1に関するオブジェクト関連区間であると特定する。
 このように、選択された2つの検出区間の内、時間的に前に存在する検出区間の終点フレーム、及び時間的に後に存在する検出区間の始点フレーム夫々における当該処理対象オブジェクトの検出結果が限界値であれば、選択された2つの検出区間の間の区間において当該処理対象オブジェクトが検出されなかった原因は、オブジェクト検出部102で検出できるオブジェクトの限界を超えたからであると推定できる。
 なお、上記の具体例では、オブジェクト関連区間特定部106において、「フレームの座標点」に関する限界値が設定されている場合について説明したが、「フレームの座標点」に関する限界値だけでなく、例えば、上記で説明した人物の顔の「向き」や「大きさ」に関する限界値が設定されていてもよい。また、オブジェクト関連区間特定部106において、上記で説明した「フレームの座標点」、人物の顔の「向き」及び「大きさ」等に関する限界値の内、複数又は全ての限界値が設定されていてもよい。この場合、ステップS603及びS604において、オブジェクト関連区間特定部106は、当該フレームにおける当該処理対象オブジェクトの検出結果が、設定されている限界値の内、少なくとも一つの限界値であるか否かを確認するとしてもよい。
 図6に戻って説明を続ける。
 ステップS606において、オブジェクト関連区間特定部106は、ステップS602において、選択可能な2つの検出区間の全ての組み合わせが選択されている場合は(S606:YES)、ステップS607の処理へ進み、全ての組み合わせが選択されていない場合は(S606:NO)、S602の処理へ戻る。
 ステップS607において、オブジェクト関連区間特定部106は、ステップS601において、全シーンかつ全オブジェクトについて検出区間が抽出されている場合は(S607:YES)、ステップS608の処理に進み、抽出されていない場合は(S607:NO)、S601の処理に戻る。
 ステップS608において、オブジェクト関連区間特定部106は、ステップS605の特定結果を基に、ステップS204で識別された各オブジェクトに関するオブジェクト関連区間を決定する。
 図10は、ステップS608において決定される、動画における各オブジェクトに関するオブジェクト関連区間情報の一例である。なお、オブジェクト関連区間情報も、動画解析装置100に更に備えられる記憶部において格納されてもよいし、動画解析装置100及び表示装置130からアクセス可能な外部の記憶部において格納されてもよい。
 図10において、オブジェクト関連区間情報は、各オブジェクト関連区間のID情報と、各オブジェクト関連区間における処理対象オブジェクトの識別ID情報と、各オブジェクト関連区間の始点及び終点フレーム情報とを含む。
 図4及び図10を用いて、ステップS608の処理について、具体的に説明する。なお、ステップS605において、検出区間1の始点フレーム(フレーム4)から検出区間3の終点フレーム(フレーム98)までの区間と、検出区間3の始点フレーム(フレーム78)から検出区間5の終点フレーム(フレーム224)までの区間夫々が、オブジェクト1に関するオブジェクト関連区間であると特定されたとする。また、本具体例において、オブジェクト1が検出された検出区間は、検出区間1、3及び5のみであったとする。
 このとき、このステップS605の特定結果を基に、オブジェクト関連区間特定部106は、ステップS608において、図10に示すように、検出区間1の始点フレーム(フレーム4)から検出区間5の終点フレーム(フレーム224)までの区間を、オブジェクト1に関するオブジェクト関連区間であると決定する。このように、ステップS608において、オブジェクト関連区間特定部106は、ステップS605の特定結果を整理する処理を行うことで、各オブジェクトに関するオブジェクト関連区間を決定する。
 表示装置130は、例えば、ユーザから一のオブジェクトに関連する動画の再生が指示された場合、この動画解析装置100によって生成された、動画における各オブジェクトに関するオブジェクト関連区間情報を参照し、当該一のオブジェクトに関するオブジェクト関連区間を抽出し、再生することができる。
 <まとめ>
 実施の形態1に係る動画解析装置100において、オブジェクト関連区間特定部106は、動画において一のオブジェクトが検出されない非検出区間を、下記(1)及び(2)を満たす場合に、当該一のオブジェクトに関するオブジェクト関連区間と特定する。
 (1)当該非検出区間と、当該非検出区間と時間的に連続する前方及び後方の、当該一のオブジェクトが検出される各検出区間とが同一のシーンに含まれる。
 (2)当該前方の検出区間の終点フレーム及び当該後方の検出区間の始点フレームにおいて夫々検出される当該一のオブジェクト夫々が、当該一のオブジェクトの検出の限界として定められた1以上の限界条件の内少なくとも1つを満たす。限界条件は、当該一のオブジェクトの検出の限界として定められた条件であり、例えば、当該一のオブジェクトが当該終点フレーム又は始点フレームの所定領域において検出される、当該一のオブジェクトの向きが所定の範囲内である、又は当該一のオブジェクトの大きさが所定の大きさの範囲内である等が挙げられる。
 上記(1)及び(2)の条件を満たす場合、当該一のオブジェクトが検出されない当該非検出区間は、例えば、(i)実際には当該一のオブジェクトが映っているが、オブジェクト検出技術によって、当該一のオブジェクトが検出されなかったのであろう、(ii)当該一のオブジェクトの動きや、撮影者の動きが大きく、当該一のオブジェクトがフレームアウトしまった区間であろうと推定される。本実施の形態1に係る動画解析装置100によれば、特定のオブジェクトが検出される区間だけでなく、上記(i)及び(ii)のように、当該オブジェクトに関連する区間であろうと推定される区間も、当該オブジェクトに関するオブジェクト関連区間として管理することができる。よって、ユーザは手軽に、動画から特定のオブジェクトに関連する区間を抽出することができ、また抽出されたその動画はユーザにとって見易い動画となる。
 <実施の形態2>
 実施の形態1に係る動画解析装置100では、オブジェクト関連区間特定部106において、オブジェクトの検出・追跡・識別に関する情報と、シーンの切れ目情報とに基づいて、動画におけるオブジェクト関連区間を特定すると説明した。特に、実施の形態1に係る動画解析装置100では、一のオブジェクトが検出されない非検出区間の両端フレームと夫々隣接する各フレームにおいて、当該一のオブジェクトが限界値であるか否かを判定することで、当該一のオブジェクトが検出されない当該非検出区間が、当該一のオブジェクトに関するオブジェクト関連区間であるか否かを特定した。
 これに対して、本実施の形態2に係る動画解析装置では、特に、一のオブジェクトが検出されない非検出区間における映像のブレ(又は、撮影機器の加速度)について判定処理を行うことで、当該一のオブジェクトが検出されない当該非検出区間が、当該一のオブジェクトに関するオブジェクト関連区間であるか否かを特定する。
 以下、実施の形態2に係る動画解析装置について説明する。なお、上記実施の形態と重複する構成及び処理ステップには同じ符号を付し、その説明を省略する。
 実施の形態2に係る動画解析装置は、上記実施の形態1に係る動画解析装置100と同様、撮影装置及び表示装置と接続される(図1)。撮影装置120及び表示装置130の機能等は、上記実施の形態1と同様であるため説明を省略する。
 実施の形態2に係る動画解析装置の内部構成は、上記実施の形態1に係る動画解析装置100(図1)と同様であるため、説明を省略する。ただし、実施の形態2に係る動画解析装置のオブジェクト関連区間特定部106が行う具体的な処理内容は、上記実施の形態1に係る動画解析装置100のそれとは異なる。詳細については、後述する。
 次に、実施の形態2に係る動画解析措置の動作について説明する。
 実施の形態2に係る動画解析装置は、先ず、上記実施の形態1に係る動画解析装置100と同様、動画の取得(図2:S201)、オブジェクトの検出・追跡・識別(S202~S204)、及び動画におけるシーンの切れ目を検出(S205)する処理を行う。これらの処理は、実施の形態1のそれと同様であるため、説明を省略する。
 続いて、実施の形態2に係る動画解析装置は、オブジェクト関連区間特定部106において、オブジェクトの検出・追跡・識別に関する情報と、シーンの切れ目情報とに基づいて、動画におけるオブジェクト関連区間を特定する(S206A)。このステップS206Aの具体的な処理内容が、上記実施の形態1のステップS206とは異なる。
 図11のフローチャートを用いて、このステップS206Aの処理を説明する。
 ステップS601及びS602の処理は、実施の形態1と同様である。
 ステップS601において、オブジェクト関連区間特定部106は、同一シーンに含まれる検出区間であって、且つ、オブジェクト識別部によって同一であると識別されたオブジェクトが検出された検出区間を抽出する。
 ステップS602において、オブジェクト関連区間特定部106は、ステップS601において抽出された検出区間の内、間に別のステップS601において抽出された検出区間を挟まない2つの検出区間を選択する。
 続いて、オブジェクト関連区間特定部106は、ステップS602で選択された2つの検出区間の間の非検出区間のおける映像のブレが、所定の条件を満たすか否かを判定する(S1001)。そして、当該映像のブレが所定の条件を満たす場合(S1001:YES)、選択された2つの検出区間と、2つの検出区間の間の非検出区間とを、当該処理対象オブジェクトに関するオブジェクト関連区間であると特定する(S605)。言い換えると、選択された2つの検出区間の内、時間的に前に存在する検出区間の始点フレームから、時間的に後に存在する検出区間の終点フレームまでの区間を、当該処理対象オブジェクトに関するオブジェクト関連区間であると特定する(S605)。当該映像のブレが所定の条件を満たさない場合(S1001:NO)、ステップS606の処理に進む。
 ステップS1001の判定基準となる所定の条件を、例えば、2つの検出区間の間の区間において、全フレームの映像のブレの大きさが一定の大きさ以上であるとしてもよい。
 映像のブレの大きさを取得する方法として、例えば、連続するフレーム間における各画素の変位を表すオプティカルフローを算出し、算出した各オプティカルフローの平均を計算する。そして、計算した各オプティカルフローの平均を、連続するフレーム間の画像全体の変位とみなし、その各オプティカルフローの平均の大きさを映像のブレの大きさとする方法を用いてもよい。
 なお、連続するフレーム間における各画素のオプティカルフローは、各画素の平面方向の変位として表される。これは、連続するフレーム間では、フレーム間の回転量は0に近似できるからである。即ち、連続するフレーム間における各画素のオプティカルフローは、各画素のX軸方向の変位uiと、Y軸方向の変位viを要素とするベクトル(ui,vi)で表すことができる。
 図12に、各フレームにおいて算出される映像のブレに関する情報の一例を示す。図12は、フレームID、及び各フレームにおける映像の変位の項目を含む。図12において、各フレームの映像の変位とは、各フレームと、各フレームの一つ前のフレームとの間の画像全体の変位であり、ベクトル(ui,vi)で表されている。例えば、フレーム55の映像の変位は、フレーム55と、フレーム55の一つ前のフレーム54との間の画像全体の変位であり、ベクトル55で表されている。
 ここで、図4、図12及び図13を用いて、ステップS1001の処理を具体的に説明する。
 なお、本具体例では、ステップS1001の判定基準となる所定の条件として、オブジェクト関連区間特定部106は、2つの検出区間の間の非検出区間において、全フレームの映像のブレの大きさが一定の大きさ以上であるか否かを判定するとする。また、ステップS602において、2つの検出区間として、検出区間1及び3が選択されたとする。検出区間1と3の間の区間は、フレーム56からフレーム77までの区間である。
 このとき、ステップS1001において、オブジェクト関連区間特定部106は、検出区間1と3の間の区間である、フレーム56からフレーム77までの区間における、全フレームの映像のブレの大きさが、一定の大きさ以上であるか否かを確認する。図11において、フレーム56からフレーム77までの映像のブレは、ベクトル56からベクトル77で表されている。このベクトル56からベクトル77全ての大きさが、設定されている一定の大きさ以上である場合(S1001:YES)、検出区間1の始点フレーム(フレーム4)から検出区間3の終点フレーム(フレーム98)を、オブジェクト1に関するオブジェクト関連区間であると特定する(S605)。
 なお、ステップS1001の判定基準となる所定の条件は、上記の条件に限定されない。例えば、[所定の条件1]2つの検出区間の間の非検出区間における映像のブレの最大値が、設定された閾値以上であるとしてもよい。また、[所定の条件2]2つの区間の間の非検出区間における映像のブレの平均が、設定された閾値以上であるとしてもよい。また、[所定の条件3]2つの区間の間の非検出区間において、映像のブレが閾値以上であるフレームの数が一定数以上であるとしてもよい。また、[所定の条件4]2つの検出区間の間の非検出区間において、各フレームの映像のブレの変化量が一定の変化量以上であるとしてもよい。
 また、上記では、ステップS1001において、オブジェクト関連区間特定部106は、ステップS602で選択された2つの検出区間の間の非検出区間における映像のブレが所定の条件を満たすか否かを判定することで、オブジェクト関連区間を特定すると説明したが、オブジェクト関連区間を特定するための処理は、このステップS1001に限定されない。
 例えば、オブジェクト関連区間特定部106は、撮影装置にジャイロセンサ等の手振れ感知センサが内蔵されている場合は、この手振れ感知センサによって計測された撮影装置の加速度情報を用いて、オブジェクト関連区間を特定してもよい。具体的には、ステップS602の処理後、ステップS1001の代わりに、オブジェクト関連区間特定部106は、ステップS602で選択された2つの検出区間の間の非検出区間が撮影された際の、撮影装置の加速度が所定の条件を満たすか否かを確認する(S1001A)としてもよい。そして、当該加速度が所定の条件を満たす場合は(S1001A:YES)、2つの検出区間と、2つの検出区間の間の非検出区間とを、当該処理対象オブジェクトに関するオブジェクト関連区間であると特定し(S605)、当該加速度が所定の条件を満たさない場合は(S1001A:NO)、ステップS606の処理に進むとしてもよい。
 なお、このステップS1001Aの判定基準となる所定の条件を、2つの検出区間の間の非検出区間が撮影された際の、撮影装置の加速度の大きさの最大値が一定の大きさ以上であるとしてもよい。
 このように、選択された2つの検出区間の間の非検出区間における、映像のブレが所定の大きさ以上であるという条件や、撮影機器の加速度の大きさが所定の大きさ以上であるといった条件を満たせば、当該非検出区間で当該処理対象オブジェクトが検出されなかった原因は、映像のブレ又は撮影機器のブレのためであると推定できる。
 続く、ステップS606及びS607の処理は実施の形態1と同様であるため、説明を省略する。
 <まとめ>
 実施の形態2に係る動画解析装置において、オブジェクト関連区間特定部106は、動画において一のオブジェクトが検出されない非検出区間を、下記(1A)及び(2A)を満たす場合に、当該一のオブジェクトに関するオブジェクト関連区間と特定する。
 (1A)当該非検出区間と、当該非検出区間と時間的に連続する前方及び後方の、当該一のオブジェクトが検出される各検出区間とが同一のシーンに含まれる。
 (2A)当該非検出区間における映像のブレ(又は撮影機器の加速度の変位)が所定の度合い以上である。
 上記(1A)及び(2A)の条件を満たす場合、当該一のオブジェクトが検出されない当該非検出区間は、例えば、(iii)実際には当該一のオブジェクトが映っているが、映像のブレによって、当該一のオブジェクトが検出されなかったのであろう、(iv)撮影者の動きが大きく、当該一のオブジェクトがフレームアウトしまった区間であろうと推定される。本実施の形態2に係る動画解析装置によれば、特定のオブジェクトが検出される区間だけでなく、上記(iii)や(iv)のように、当該オブジェクトに関連する区間であろうと推定される区間も、オブジェクト関連区間として管理することができる。よって、ユーザは手軽に、動画から特定のオブジェクトに関する区間を抽出することができ、また抽出された動画はユーザにとって見易い動画となる。
 <実施の形態3-1>
 本実施の形態3-1に係る動画解析装置では、特に、一のオブジェクトが検出されない非検出区間において検出される、当該一のオブジェクトとは別のオブジェクトについて判定処理を行うことで、当該一のオブジェクトが検出されない当該非検出区間が、当該一のオブジェクトに関するオブジェクト関連区間であるか否かを特定する。
 以下、実施の形態3-1に係る動画解析装置について説明する。なお、上記各実施の形態と重複する構成及び処理ステップには同じ符号を付し、その説明を省略する。
 実施の形態3-1に係る動画解析装置は、上記実施の形態1に係る動画解析装置100と同様、撮影装置及び表示装置と接続される(図1)。撮影装置120及び表示装置130の機能等は、上記実施の形態1と同様であるため説明を省略する。
 実施の形態3-1に係る動画解析装置の内部構成は、上記実施の形態1に係る動画解析装置100(図1)と同様であるため、説明を省略する。ただし、実施の形態3-1に係る動画解析装置のオブジェクト関連区間特定部106が行う具体的な処理内容は、上記実施の形態1に係る動画解析装置100のそれとは異なる。詳細については、後述する。
 次に、実施の形態3-1に係る動画解析装置の動作について説明する。
 実施の形態3-1に係る動画解析装置は、先ず、上記実施の形態1に係る動画解析装置100と同様、動画の取得(図2:S201)、オブジェクトの検出・追跡・識別(S202~S204)、及び動画におけるシーンの切れ目を検出(S205)する処理を行う。これらの処理は、実施の形態1のそれと同様であるため、説明を省略する。
 続いて、実施の形態3-1に係る動画解析装置は、オブジェクト関連区間特定部106において、オブジェクトの検出・追跡・識別に関する情報と、シーンの切れ目情報とに基づいて、動画におけるオブジェクト関連区間を特定する(S206B)。このステップS206Bの具体的な処理内容が、上記実施の形態1のステップS206とは異なる。
 図14のフローチャートを用いて、このステップS206Bの処理を説明する。
 ステップS601及びステップS602の処理は実施の形態1と同様である。
 ステップS601において、オブジェクト関連区間特定部106は、同一シーンに含まれる検出区間であって、且つ、オブジェクト識別部104によって同一であると識別されたオブジェクトが検出された検出区間を抽出する。
 ステップS602において、オブジェクト関連区間特定部106は、ステップS601において抽出された検出区間の内、間に別のステップS601において抽出された検出区間を挟まない2つの検出区間を選択する。
 続いて、オブジェクト関連区間特定部106は、ステップS602で選択された2つの検出区間の間の非検出区間において、当該処理対象オブジェクトとは別のオブジェクトが検出される区間長が所定の条件を満たすか否かを判定する(S1201)。そして、別のオブジェクトが検出される区間長が所定の条件を満たす場合(S1201:YES)、選択された2つの検出区間と、2つの検出区間の間の非検出区間とを、当該処理対象オブジェクトに関するオブジェクト関連区間であると特定する(S605)。言い換えると、選択された2つの検出区間の内、時間的に前に存在する検出区間の始点フレームから、時間的に後に存在する検出区間の終点フレームまでの区間を、当該処理対象オブジェクトに関するオブジェクト関連区間のであると特定する(S605)。そして、別のオブジェクトが検出される区間長が所定の条件を満たさない場合(S1201:NO)、ステップS605の処理に進む。
 ステップS1201の判定基準となる所定の条件を、オブジェクト関連区間特定部106は、例えば、当該別のオブジェクトが検出される区間長が一定時間以上であるとしてもよい。
 なお、この一定時間として、例えば、ステップS602で選択された2つの検出区間の内、時間的に前に存在する検出区間の始点フレームから、時間的に後に存在する検出区間の終点フレームまでの区間に対して十分短い区間長である、2つの検出区間の間の区間長に対して、当該処理対象オブジェクトとは別のオブジェクトが検出された区間の区間長の割合が一定の割合以上の時間を設定してもよい。
 続く、ステップ606~S608の処理は、上記実施の形態1と同様であるため、説明を省略する。
 ここで、図4及び図15を用いて、ステップS1201の処理を具体的に説明する。
 なお、本具体例では、ステップS1201の判定基準となる所定の条件を、当該非検出区間の区間長に対する、当該別のオブジェクトが検出される区間長の割合が5割以上であるとする。また、ステップS602において、2つの検出区間として、検出区間1及び3が選択されたとする。検出区間1と3の間の非検出区間は、フレーム56からフレーム77までの区間であり、フレーム数は22である。よって、検出区間1と3の間の非検出区間の区間長の5割以上とは、フレーム数22×0.5=11以上を意味する。また、このフレーム56からフレーム77の区間の内、フレーム60からフレーム74の区間は、オブジェクト2が検出される検出区間2である。よって、ステップS1201における、当該別のオブジェクトはオブジェクト2である。また、当該非検出区間におけるオブジェクト2が検出される区間とは検出区間2であり、そのフレーム数は15である。
 このとき、ステップS1201において、オブジェクト関連区間特定部106は、オブジェクト2が検出される区間長は、フレーム数15であり、検出区間1と3の間の区間長の5割、フレーム数11以上であるため(S1201:YES)、2つの検出区間の内、時間的に前に存在する検出区間の始点フレーム(フレーム4)から、時間的に後に存在する検出区間の終点フレーム(フレーム98)までの区間を、オブジェクト1に関するオブジェクト関連区間であると特定する。
 このように、選択された2つの検出区間の間の非検出区間の区間長に対して、当該処理対象オブジェクトとは別のオブジェクトが検出される区間長が所定時間以上であるといった条件を満たせば、選択された2つの検出区間の間の非検出区間で当該一のオブジェクトが検出されなかった原因は、撮影者が、ある一定の時間だけ当該一のオブジェクトとは別のオブジェクトに視点を向けて、動画を撮影したためであろうと推定できる。
 <まとめ>
 実施の形態3-1に係る動画解析装置において、オブジェクト関連区間特定部106は、動画において一のオブジェクトが検出されない非検出区間を、下記(1B)及び(2B)を満たす場合に、当該一のオブジェクトに関するオブジェクト関連区間と特定する。
 (1B)当該非検出区間と、当該非検出区間と時間的に連続する前方及び後方の、当該一のオブジェクトが検出される各検出区間とが同一のシーンに含まれる。
 (2B)当該非検出区間において検出される当該一のオブジェクトとは別のオブジェクトが検出される区間長が、所定の時間以上である。
 上記(1B)及び(2B)の条件を満たす場合、当該一のオブジェクトが検出されない当該非検出区間は、例えば、(v)撮影者が一定時間だけ、例えば気まぐれで、当該一のオブジェクトの代わりに、当該一のオブジェクトとは別のオブジェクトを撮影した区間であろうと推定される。本実施の形態3に係る動画解析装置によれば、特定のオブジェクトが検出される区間だけでなく、上記(v)のように、当該オブジェクトに関連する区間であろうと推定される区間も、オブジェクト関連区間として管理することができる。よって、ユーザは手軽に、動画から特定のオブジェクトに関する区間を抽出することができ、また抽出された動画はユーザにとって見易い動画となる。
 <実施の形態3-2>
 本実施の形態3-2に係る動画解析装置では、特に、一のオブジェクトが検出されない非検出区間において、当該一のオブジェクトが映っているであろうと推定される領域の少なくとも一部に、当該一のオブジェクトとは別のオブジェクトが存在する場合は、当該一のオブジェクトが検出されない当該非検出区間を、当該一のオブジェクトに関するオブジェクト関連区間であると特定する。
 以下、実施の形態3-2に係る動画解析装置について説明する。なお、上記各実施の形態と重複する構成及び処理ステップには同じ符号を付し、その説明を省略する。
 実施の形態3-2に係る動画解析装置は、上記実施の形態1係る動画解析装置100と同様、撮影装置及び表示装置と接続される(図1)。撮影装置120及び表示装置130の機能等は、上記実施の形態1と同様であるため説明を省略する。
 実施の形態3-2に係る動画解析装置の内部構成は、上記実施の形態1に係る動画解析装置100(図1)と同様であるため、説明を省略する。ただし、実施の形態3-2に係る動画解析装置のオブジェクト関連区間特定部106が行う具体的な処理内容は、上記実施の形態1に係る動画解析装置100のそれとは異なる。詳細については、後述する。
 次に、実施の形態3-2に係る動画解析措置の動作について説明する。
 実施の形態3-2に係る動画解析装置は、先ず、上記実施の形態1に係る動画解析装置100と同様、動画の取得(図2:S201)、オブジェクトの検出・追跡・識別(S202~S204)、及び動画におけるシーンの切れ目を検出(S205)する処理を行う。これらの処理は、実施の形態1のそれと同様であるため、説明を省略する。
 続いて、実施の形態3-2に係る動画解析装置は、オブジェクト関連区間特定部106において、オブジェクトの検出・追跡・識別に関する情報と、シーンの切れ目情報とに基づいて、動画におけるオブジェクト関連区間を特定する(S206C)。このステップS206Cの具体的な処理内容が、上記実施の形態1のステップS206とは異なる。
 図16のフローチャートを用いて、このステップS206Cの処理を説明する。
 ステップS601及びステップS602の処理は実施の形態1と同様である。
 ステップS601において、オブジェクト関連区間特定部106は、同一シーンに含まれる検出区間であって、且つ、オブジェクト識別部104によって同一であると識別されたオブジェクトが検出された検出区間を抽出する。
 ステップS602において、オブジェクト関連区間特定部106は、ステップS601において抽出された検出区間の内、間に別のステップS601において抽出された検出区間を挟まない2つの検出区間を選択する。
 続いて、オブジェクト関連区間特定部106は、2つの検出区間の間の非検出区間の全フレームにおいて、当該処理対象オブジェクトとは異なる別のオブジェクトが検出される場合(S2201:YES)、ステップS2202の処理に進み、当該処理対象オブジェクトとは異なる別オブジェクトが検出されない場合(S2201:NO)、ステップS606の処理へ進む。
 ステップS2202において、オブジェクト関連区間特定部106は、ステップS602で選択された2つの検出区間の間の非検出区間の全フレームにおける、当該別のオブジェクトが検出された検出領域夫々と、2つの検出区間の内、時間的に前に存在する検出区間の終点フレームにおける、当該処理対象オブジェクトの検出領域に、その検出領域の周辺所定領域を加えた領域とが、一部でも重なるか否かを判定する。そして、一部でも重なる場合は(S2202:YES)、ステップS2203の処理に進み、全く重ならない場合は(S:2202:NO)、ステップS606の処理に進む。
 ステップS2203において、オブジェクト関連区間特定部106は、2つの検出区間の内、時間的に後に存在する検出区間の始点フレームにおける、当該処理対象オブジェクトの検出領域と、2つの検出区間の内、時間的に前に存在する検出区間の終点フレームにおける、当該処理対象オブジェクトの検出領域に、その検出領域の周辺所定領域を加えた領域とが、一部でも重なるか否かを判定する。そして、一部でも重なる場合は(S2203:YES)、2つの検出区間と、2つの検出区間の間の非検出区間とを、当該処理対象オブジェクトに関するオブジェクト関連区間であると特定する(S605)。言い換えると、2つの検出区間の内、時間的に前に存在する検出区間の始点フレームから、時間的に後に存在する検出区間の終点フレームまでの区間を、当該処理対象オブジェクトに関するオブジェクト関連区間であると特定する(S605)。そして、全く重ならない場合は(S2203:NO)、ステップS606の処理に進む。
 続く、ステップ606~S608の処理は、上記実施の形態1と同様であるため、説明を省略する。
 ここで、図4及び図17を用いて、ステップS2201~S2203の処理を具体的に説明する。
 なお、本具体例では、ステップS602において、2つの検出区間として、検出区間3及び検出区間5が選択されたとする。検出区間3及び5で検出される同一のオブジェクトである処理対象オブジェクトとは、オブジェクト1であり、図17においてこのオブジェクト1を人物Aとする。
 また、検出区間3と検出区間5の間の区間は、フレーム99からフレーム112であり、この間の区間は、検出区間4(フレーム92からフレーム133)の区間に含まれる。検出区間4は、オブジェクト3が検出される区間である。このオブジェクト3が、検出区間3と検出区間5の間の非検出区間の全フレームにおいて検出される、当該処理対象オブジェクトとは異なる別のオブジェクトであり、図17においてこのオブジェクト3を人物Bとする。
 このとき、検出区間3と検出区間5の間の非検出区間、即ちフレーム99からフレーム112の区間の全フレームにおいて、オブジェクト1(人物A)とは別のオブジェクト3(人物B)が検出されるため(S2201:YES)、オブジェクト関連区間特定部106は、ステップS2202の処理に進む。
 また、検出区間3と検出区間5の間の非検出区間、即ちフレーム99からフレーム112の区間において、当該別のオブジェクトである人物Bが検出された検出領域とは、例えば、図17に示すように、フレーム104では104b、フレーム105では105bの領域である。また、検出区間3と検出区間5の内、時間的に前に存在する検出区間は、検出区間3であり、その終点フレームはフレーム98である。そして、フレーム98における、当該処理対象オブジェクトである人物Aが検出される検出領域は、98aの領域である。また、この98aの領域の周辺所定領域を、図17において斜線が付されている98cの領域とする。
 図17のフレーム104に着目すると、フレーム104の人物Bの検出領域である104bの領域と、フレーム98における人物Aの検出領域である98aの領域に、98aの領域の周辺所定領域である98cの領域を加えた領域とが、一部重なっている。また、フレーム105についても同様に、105bの領域と、98aの領域に98cの領域を加えた領域とが一部重なっている。このフレーム105及びフレーム106と同様に、検出区間3と検出区間5の間の非検出区間である、フレーム99からフレーム112の全フレームにおいて、人物Bが検出された検出領域と、98aの領域に98cの領域を加えた領域とが一部でも重なっている場合(S2202:YES)、オブジェクト関連区間特定部106は、ステップS2203の処理へ進む。
 一方、検出区間3と検出区間5の内、時間的に後に存在する検出区間は、検出区間5であり、その始点フレームはフレーム113である。そして、フレーム113における、当該処理対象オブジェクトである人物Aが検出される検出領域は、113aの領域である。
 図17のフレーム113に着目すると、フレーム113における人物Aの検出領域である113aの領域と、フレーム98における人物Aの検出領域である98aの領域に、98aの領域の周辺所定領域である98cの領域を加えた領域とが、一部重なっている(S2203:YES)。この場合、オブジェクト関連区間特定部106は、検出区間3の始点フレーム(フレーム78)から、検出区間5の終点フレーム(フレーム224)までの区間を、人物A(オブジェクト1)に関するオブジェクト関連区間であると特定する(S605)。
 このようにステップS2201~S2203の処理が行われることで、2つの検出区間の間の区間で人物Aが検出されない原因は、この間の区間が撮影された際に、撮影者から見て、人物Bが人物Aの前に重なる位置に存在していたためであろうと推定できる。
 このように、選択された2つの検出区間の間の非検出区間の全フレームにおける、当該処理対象オブジェクトとは別のオブジェクトの各検出領域と、2つの検出区間の内、時間的に後に存在する検出領域の始点フレームにおける当該処理対象オブジェクトの検出領域の夫々と、2つの検出区間の内、時間的に前に存在する検出領域の終点フレームにおける当該処理対象オブジェクトの検出領域に、その周辺所定領域を加えた領域とが、少なくとも一部重なる場合、選択された2つの検出区間の間の非検出区間で当該処理対象オブジェクトが検出されなかった原因は、撮影者から見て、当該処理対象オブジェクトの前に、当該処理対象オブジェクトとは別のオブジェクトが存在し、当該処理対象オブジェクトがその別のオブジェクトの後ろに隠れてしまっていたためであろうと推定される。
 また、ステップS2202及びS2203において、当該処理対象オブジェクトの検出領域に、その周辺所定領域を加えて、当該処理対象オブジェクトと当該別のオブジェクトの重なりについて判定処理を行うと説明したが、周辺所定領域を加えるのは、オブジェクトが検出されない区間における当該処理対象オブジェクトの移動を考慮するためである。
 例えば、図17に示すように、検出区間3の始点フレームから検出区間5の終点フレームまでは、人物Aと人物Bがサッカーボールを追って競り合っている区間である。この区間において、人物Aと人物Bは静止し続けてはおらず、競り合って動いている。そのため、図17に示すように、検出区間3の終点フレーム(フレーム98)で検出される人物Aの検出領域と、検出区間5の始点フレーム(フレーム113)で検出される人物Aの検出領域とは必ずしも一致しないと考えられる。また同様に、人物Aが検出されない検出区間3と検出区間5の間の区間においても、人物Aが写っているであろうと思われる領域、即ち、人物Aが撮影者から見て人物Bの後方に重なって写っているであろうと思われる領域は、変化すると考えられる。このような、当該処理対象オブジェクトの検出領域の変位を考慮し、ステップS2202及びS2203において、オブジェクト関連区間特定部106は、当該処理対象オブジェクトの検出領域に、その周辺所定領域を加えて、当該処理対象オブジェクトと当該処理対象オブジェクトとは別のオブジェクトとの重なりについて判定処理を行うことが好ましい。
 ここで、図18及び図19を用いて、当該処理対象オブジェクトの検出領域に対する、その周辺所定領域の設定例について説明する。
 図18は、当該検出領域に対する周辺所定領域を、当該検出領域の大きさに応じて設定する一例を説明する図である。図18では、検出区間3のフレーム98における、オブジェクト1の検出領域98aに対する周辺所定領域を、斜線を付した領域98dとしている。領域98dは、検出領域98aの四辺から、検出領域98aの縦横幅100に対して10パーセント=10ピクセル外側の領域である。このように、当該検出領域に対する周辺所定領域を、例えば、当該検出領域の四辺から、当該検出領域の縦横幅に対して所定の割合外側の領域としてもよい。
 なお、図18の例では、当該検出領域の縦横幅に対して一律10パーセント外側の領域を周辺所定領域としたが、縦幅に対して10パーセント、横幅に対して15パーセントといったように、縦横でその割合を変えてもよい。
 図19は、当該検出領域に対する周辺所定領域を、複数のフレームにおける、当該処理対象オブジェクトの検出領域の変位に応じて設定する一例を説明する図である。図19では、フレーム83からフレーム98までの区間において、当該処理対象オブジェクト(オブジェクト1)の検出領域が、一定移動量ずつ、X軸方向に50ピクセル移動しているとする(83a→98a)。この移動から、フレーム98からフレーム113までの区間においても、当該処理対象オブジェクトは、フレーム83からフレーム98までの区間と同様に移動する可能性が高いと推定される。そこで、フレーム83からフレーム98までの区間における当該処理対象オブジェクトの移動を考慮し、図19(下図)に示すように、検出領域98aに対しする周辺所定領域を、斜線が付された領域98eとしてもよい。領域98eは、図19(下図)に示すように、検出領域98aの右辺に関しては、右辺から50ピクセル外側の領域を周辺所定領域と設定している。このように、当該検出領域に対する周辺所定領域を、例えば、当該処理対象オブジェクトの検出領域の変位を考慮して設定してもよい。
 なお、図19の例では、2つの検出区間の内、時間的に前に存在する検出区間の終点フレーム(フレーム98)から、時間的に後に存在する検出区間の始点フレーム(フレーム113)までの間が、15フレームであったため、フレーム98から時間的に15フレーム前に存在するフレーム83から、フレーム98までの当該処理対象オブジェクトの変位を考慮し、周辺所定領域を設定した。周辺所定領域を設定する方法はこれに限定されず、時間的に前に存在する検出区間の終点フレーム(フレーム98)から一定数前に存在するフレームから、フレーム98までの当該処理対象オブジェクトの変位を考慮し、周辺所定領域を設定してもよい。
 また、図19の例では、X軸プラス方向に当該処理対象オブジェクトの検出領域が移動した場合を例に挙げたが、この他の方向に当該処理対象オブジェクトの検出領域が移動する場合は、その移動した方向の変位に応じて、周辺所定領域を設定すればよい。
 また、図19の例では、フレーム83からフレーム98までの区間において、当該処理対象オブジェクトは、一定移動量ずつ変位する例を挙げたが、当該処理対象オブジェクトの変位は一定移動量ずつとは限らない。そのため、フレーム83とフレーム98の2つのフレーム間での変位を考慮するだけでなく、オブジェクト追跡部103によって生成される当該処理対象オブジェクトの追跡情報に基づいて、連続する2つのフレーム間における当該処理対象オブジェクトの変位を算出し、その変位の平均を計算することで、フレーム83からフレーム98までの平均変位を算出し、その平均変位に応じて周辺所定領域を設定してもよい。
 また、オブジェクトの変位は、オブジェクトの検出領域の移動に限定されず、オブジェクトの検出領域の大きさが変化する場合も考えられる。オブジェクトの検出領域の大きさが変化する場合は、そのオブジェクトの検出領域の大きさの変化に応じて、周辺所定領域を設定してもよい。
 <まとめ>
 実施の形態3-2に係る動画解析装置において、オブジェクト関連区間特定部106は、動画において一のオブジェクトが検出されない非検出区間を、下記(1C)~(3C)を満たす場合に、当該一のオブジェクトに関するオブジェクト関連区間と特定する。
 (1C)当該非検出区間と、当該非検出区間と時間的に連続する前方及び後方の、当該一のオブジェクトが検出される各検出区間とが同一のシーンに含まれる。
 (2C)当該非検出区間は、当該一のオブジェクトとは別のオブジェクトが検出される区間である。
 (3C)当該非検出区間の各フレームにおいて検出される、当該一のオブジェクトとは別のオブジェクトの検出領域、及び当該検出領域と時間的に連続する後方の(当該一のオブジェクトが検出される)検出区間の始点フレームにおいて検出される、当該一のオブジェクトの検出領域の夫々と、当該検出領域と時間的に連続する前方の(当該一のオブジェクトが検出される)検出区間の終点フレームにおける、当該一のオブジェクトの検出領域に、その周辺所定領域を加えた領域とが、少なくとも一部重なる。
 上記(1C)~(3C)の条件を満たす場合、当該一のオブジェクトが検出されない当該非検出区間は、(vi)撮影者から見て当該一のオブジェクトの前に、当該一のオブジェクトとは別のオブジェクトが存在し、当該一のオブジェクトがその別のオブジェクトの後ろに隠れてしまっているのであろうと推定される。本実施の形態3-2に係る動画解析装置によれば、オブジェクトが検出される区間だけでなく、上記(vi)のように推定される区間も、オブジェクト関連区間として管理することができる。よってユーザは手軽に、動画から特定のオブジェクトに関する区間を抽出することができ、また抽出された動画はユーザにとって見易い動画となる。
 <実施の形態4>
 本実施の形態4に係る動画解析装置では、特に、一のオブジェクトが検出されない非検出区間の区間長について判定処理を行うことで、当該一のオブジェクトが検出されない当該非検出区間が、当該一のオブジェクトに関するオブジェクト関連区間であるか否かを特定する。
 以下、実施の形態4に係る動画解析装置について説明する。なお、上記各実施の形態と重複する構成及び処理ステップには同じ符号を付し、その説明を省略する。
 実施の形態4に係る動画解析装置は、上記実施の形態1に係る動画解析装置100と同様、撮影装置及び表示装置と接続される(図1)。撮影装置120及び表示装置130の機能等は、上記実施の形態1と同様であるため説明を省略する。
 実施の形態4に係る動画解析装置の内部構成は、上記実施の形態1に係る動画解析装置100(図1)と同様であるため、説明を省略する。ただし、実施の形態4に係る動画解析装置のオブジェクト関連区間特定部106が行う具体的な処理内容は、上記実施の形態1に係る動画解析装置100のそれとは異なる。詳細については、後述する。
 次に、実施の形態4に係る動画解析措置の動作について説明する。
 実施の形態4に係る動画解析装置は、先ず、上記実施の形態1に係る動画解析装置100と同様、動画の取得(図2:S201)、オブジェクトの検出・追跡・識別(S202~S204)、及び動画におけるシーンの切れ目を検出(S205)する処理を行う。これらの処理は、実施の形態1のそれと同様であるため、説明を省略する。
 続いて、実施の形態4に係る動画解析装置は、オブジェクト関連区間特定部106において、オブジェクトの検出・追跡・識別に関する情報と、シーンの切れ目情報とに基づいて、動画におけるオブジェクト関連区間を特定する(S206D)。このステップS206Dの具体的な処理内容が、上記実施の形態1のステップS206とは異なる。
 図20のフローチャートを用いて、このステップS206Dの処理を説明する。
 ステップS601及びS602の処理は実施の形態1と同様である。
 ステップS601において、オブジェクト関連区間特定部106は、同一シーンに含まれる検出区間であって、且つ、オブジェクト識別部によって同一であると識別されたオブジェクトが検出された検出区間を抽出する。
 ステップS602において、オブジェクト関連区間特定部106は、ステップS601において抽出された検出区間の内、間に別のステップS601において抽出された検出区間を挟まない2つの検出区間を選択する。
 続いて、オブジェクト関連区間特定部106は、ステップS602において選択された2つの検出区間の間の非検出区間の区間長が、所定の条件を満たすか否かを判定する(S1301)。そして、2つの検出区間の間の非検出区間の区間長が、所定の条件を満たす場合は(S1301:YES)、2つの検出区間と、2つの検出区間の間の非検出区間とを、当該処理対象オブジェクトに関するオブジェクト関連区間であると特定する(S605)。言い換えると、2つの検出区間の内、時間的に前に存在する検出区間の始点フレームから、時間的に後に存在する検出区間の終点フレームまでの区間を、当該処理対象オブジェクトに関するオブジェクト関連区間であると特定する(S605)。そして、2つの検出区間の間の区間長が、所定の条件を満たさない場合は(S1301:NO)、ステップS606の処理に進む。
 ステップS1301の判定基準とする所定の条件を、例えば、一定時間以下であるとしてもよい。また、2つの検出区間の内、時間的に前に存在する検出区間の始点フレームから、時間的に後に存在する検出区間の終点フレームまでの区間の区間長に対して、十分短いとしてもよい。
 ここで、図4及び図21を用いて、ステップS1301の処理を具体的に説明する。
 なお、本具体例では、ステップS1301の判定基準となる所定の条件を、2つの検出区間の内、時間的に前に存在する検出区間の始点フレームから、時間的に後に存在する区間の終点フレームまでの区間長に対する、2つの検出区間の間の区間長の割合が3割以下であるとする。また、ステップS602において、2つの検出区間として、検出区間1及び3が選択されたとする。検出区間1の始点フレームから検出区間3の終点フレームまで区間は、フレーム4からフレーム98までの区間であり、フレーム数は95である。よって、フレーム数95の3割以下とは、フレーム数28以下を意味する。また、検出区間1と検出区間3の間の非検出区間は、フレーム56からフレーム77の区間であり、フレーム数は22である。
 このとき、ステップS1301において、オブジェクト関連区間特定部106は、検出区間1と検出区間3の間の非検出区間の区間長は、フレーム数22であり、検出区間1の始点フレームから検出区間3の終点フレームまでの区間長の3割、即ちフレーム数28以下であるため(1301:YES)、2つの検出区間の内、時間的に前に存在する検出区間の始点フレーム(フレーム4)から、時間的に後に存在する検出区間の終点フレーム(フレーム98)までの区間を、オブジェクト1に関するオブジェクト関連区間であると特定する。
 このように、選択された2つの検出区間の間の非検出区間の区間長が所定時間以内であるといった条件を満たせば、選択された2つの検出区間の間の非検出区間で当該処理対象オブジェクトが検出されなかった原因は、撮影者が、ある一定の時間だけ当該処理対象オブジェクトを映さなかったためであろうと推定できる。
 ステップS606及びS607の処理は実施の形態1と同様である。
 <まとめ>
 実施の形態4に係る動画解析装置において、オブジェクト関連区間特定部106は、動画において一のオブジェクトが検出されない非検出区間を、下記(1D)及び(2D)を満たす場合に、当該一のオブジェクトに関するオブジェクト関連区間と特定する。
 (1D)当該非検出区間と、当該非検出区間と時間的に連続する前方及び後方の、当該一のオブジェクトが検出される各検出区間とが同一のシーンに含まれる。
 (2D)当該非検出区間の区間長は、所定の時間以内である。
 上記(1D)及び(2D)の条件を満たす場合、当該一のオブジェクトが検出されない当該非検出区間は、例えば、(vii)撮影者が、例えば気まぐれで、ある一定の時間だけ当該一のオブジェクトを映さなかった区間であろう、(viii)区間長が一定時間以内と当該一のオブジェクトが検出される区間に対して相対的に短いので、当該一のオブジェクトに関する区間として管理されても問題ないだろうと推定される。本実施の形態4に係る動画解析装置によれば、特定のオブジェクトが検出される区間だけでなく、上記(vii)や(viii)のように、当該オブジェクトに関連する区間であろうと推定される区間も、オブジェクト関連区間として管理することができる。よって、ユーザは手軽に、動画から特定のオブジェクトに関する区間を抽出することができ、また抽出された動画はユーザにとって見易い動画となる。
 <実施の形態5>
 本実施の形態5においても、上記実施の形態1~4に係る動画解析装置と同様、一のオブジェクトが検出される検出区間だけでなく、当該一のオブジェクトが検出されない非検出区間が、当該一のオブジェクトに関するオブジェクト関連区間であるか否か特定する。
 また、本実施の形態5では、更に、動画における盛り上がりのある区間であるハイライト区間に着目する。
 例えば、ハイライト区間として、サッカーのゴールシーンを例に挙げる。例えば、ある動画において、被写体である子供がゴールに向かってボールを蹴った映像から、ボールがゴールネットを揺らす映像に切り替わり、その後、観客の歓声の様子を撮影した映像に切り替わり、その後、子供がゴールを喜ぶ映像に切り替わるといった一連の区間が存在するとする。この動画において、その被写体である子供についてダイジェスト動画を作る際、従来技術では、この子供が検出されない区間(ボールがゴールネットを揺らす区間、観客の歓声の区間)は、そのダイジェスト動画として抽出することができない。そのため、そのダイジェスト動画は断続的なものとなってしまい、ユーザにとって見易いダイジェスト動画とはならない。ユーザは、この子供が写る区間だけでなく、動画におけるハイライト区間を含めた一連の区間を、この子供に関する区間として閲覧したいと考えられる。
 なお、動画から抽出される各ハイライト区間において、全てのフレームから一のオブジェクトが検出される場合や、一部のフレームから一のオブジェクトが検出される場合や、全てのフレームから一のオブジェクトが検出されない場合がある。
 以上を鑑み、実施の形態5に係る動画解析装置は、動画における一のオブジェクトに関するオブジェクト関連区間を特定する。
 図22は、実施の形態5に係る動画解析装置1000の機能ブロック図である。
 動画解析装置1000は、上記実施の形態1に係る動画解析装置100(図1)と同様、撮影装置120及び表示装置130に接続されている。撮影装置120及び表示装置130の機能は、上記実施の形態1と同様であるため説明を省略する。
 次に、動画解析装置1000の内部構成について説明する。
 動画解析装置1000は、上記実施の形態1に係る動画解析装置100の構成(図1)に加えて、ハイライト検出部1401を備える。また、動画解析装置1000は、動画解析装置100の構成からオブジェクト関連区間特定部106を除き、その代わりにオブジェクト関連区間特定部1106を備える。
 ハイライト検出部1401は、動画取得部101において取得された動画から、ハイライト区間を検出する。ハイライト検出部1401の詳細な処理内容については後述する。
 オブジェクト関連区間特定部1106は、動画において、各オブジェクトに関するオブジェクト関連区間を特定する。このオブジェクト関連区間特定部1106の処理の詳細は後述する。
 次に、動画解析措置1000の動作について説明する。
 図15は、実施の形態5に係る動画解析装置1000の全体動作を示すフローチャートである。
 動画解析装置1000は、先ず、上記実施の形態1に係る動画解析装置100と同様、動画の取得(図2:S201)、オブジェクトの検出・追跡・識別(S202~S204)、及び動画におけるシーンの切れ目を検出(S205)する処理を行う。これらの処理は、実施の形態1のそれと同様であるため、説明を省略する。
 次に、動画解析装置1000は、ハイライト検出部1401において、動画におけるハイライト区間を検出する(S1501)。
 「ハイライト区間」とは、動画において盛り上がりのある区間を示す。ハイライト区間を検出する方法としては、例えば音響のパワーが一定以上になる区間を抽出し、ハイライト区間とする方法がある。この方法を用いることで、ハイライト検出部1401は、歓声などにより周りにいる人物が盛り上がっている区間や、花火大会における打ち上げ花火が上がる区間などを、ハイライト区間として検出することができる。なお、ハイライト区間を検出する方法は、これに限定されない。例えば、動画において、シーンを識別するための情報や、ズームイン・ズームアウト等の撮影時の操作に関する情報が付加されている場合は、これらの情報をハイライト区間の検出に用いてもよい。例えば、ズームイン操作が行われた区間が所定の時間以上の場合、そのズームイン操作が行われた始点フレームから、当該ズームイン操作が行われた区間が含まれるシーンの終点フレームまでを、ハイライト区間とするとしてもよい。
 なお、このハイライト区間情報は、動画における各ハイライトのID情報と、各ハイライト区間の始点及び終点フレーム情報とを含むとし、例えば、動画解析装置100に更に備えられる記憶部において格納されてもよいし、動画解析装置100からアクセス可能な外部の記憶部において格納されてもよい。
 次に、オブジェクト関連区間特定部1106は、ステップS202~S204の処理によって生成されるオブジェクトの検出・追跡・識別に関する情報と、ステップS205の処理によって生成されるシーンの切れ目情報と、ステップS1501の処理によって生成されるハイライト区間情報とに基づいて、動画におけるオブジェクト関連区間を特定する(S206E)。
 図24のフローチャートを用いて、ステップS206Eの処理について説明する。
 上記実施の形態1では、オブジェクト関連区間特定部106は、先ず、同一シーンに含まれる検出区間であって、且つ、オブジェクト識別部104によって同一であると識別されたオブジェクトが検出された検出区間を抽出する(図6:S601)と説明した。
 これに対して、オブジェクト関連区間特定部1106は、同一シーンに含まれる区間であって、且つ、同一の識別IDが付与されたオブジェクトが検出される検出区間に加え、更に、同一シーンに含まれる区間であって、且つ、ステップS1501で検出されたハイライト区間を抽出する(S1601)。
 次に、オブジェクト関連区間特定部1106は、ステップS1601において抽出された検出区間及びハイライト区間の内、間に別のステップS1601において抽出された区間を挟まない2つの区間を選択する(S1602)。
 図4を用いて、このステップS1602の処理を具体的に説明する。
 先ず、ステップS1601において抽出された区間が、検出区間1、3及び5と、ハイライト区間Aであるとする。また、ハイライト区間の始点フレームはフレーム106であり、終点フレームはフレーム123であるとする。
 このとき、ステップS1602において、間に別のステップS1601において抽出された区間を挟まない2つの区間として、検出区間1と3、又は検出区間3とハイライト区間A、又はハイライト区間Aと検出区間5の組み合わせが選択される。その他の区間の組み合わせは、間に別のステップS1601において抽出された区間を挟むため選択されない。
 続く、ステップS1301及びS605の処理は、実施の形態4と同様である。ステップS1301において、オブジェクト関連区間特定部1106は、ステップS1602において選択された2つの区間の間の非検出区間の区間長が所定の条件を満たす場合(1301:YES)、2つの検出区間の内、時間的に前に存在する検出区間の始点フレームから、時間的に後に存在する区間の終点フレームまでを、当該処理対象オブジェクトに関するオブジェクト関連区間であると特定する(S605)。
 続く、ステップS606~S608の処理は、実施の形態1と同様であるため説明を省略する。
 なお、ステップS1602で選択される2つの区間が、検出区間とハイライト区間である場合は、図21(a)~(c)に示すような場合が想定される。なお、図21(a)~(c)において、ステップS1602で選択された2つの区間は、検出区間3(図4)と、各ハイライト区間A~Cであるとする。
 図21(a)において、ハイライト区間Aの始点フレームはフレーム106であり、終点フレームはフレーム123であるとする。このとき、検出区間3とハイライト区間Aとの間の区間は、フレーム99からフレーム105である。よって、検出区間3とハイライト区間Aとの間の区間は、6フレームと区間長が十分短いため、検出区間3の始点フレームからハイライト区間Aの終点フレームまでの区間を、当該処理対象オブジェクトに関するオブジェクト関連区間と特定するとしてもよい。
 図21(b)において、ハイライト区間Bの始点フレームはフレーム99であり、終点フレームはフレーム23であるとする。このとき、検出区間3の終点フレームとハイライト区間Bの始点フレームは連続するフレームである。このように、検出区間3とハイライト区間Bとの間の区間は0フレームである場合も、検出区間3の始点フレームからハイライト区間Bの終点フレームまでの区間を、当該処理対象オブジェクトに関するオブジェクト関連区間と特定するとしてもよい。
 図21(c)において、ハイライト区間Cの始点フレームはフレーム96であり、終点フレームはフレーム123であるとする。このとき、検出区間3とハイライト区間Cとは一部区間が重複しているが、このような場合も、検出区間3の始点フレームからハイライト区間Cの終点フレームまでの区間を、当該処理対象オブジェクトに関するオブジェクト関連区間と特定するとしてもよい。
 このように、ステップS1601において、当該処理対象オブジェクトが検出される検出区間に加え、ハイライト区間も抽出することで、ハイライト区間も当該処理対象オブジェクトに関するオブジェクト関連区間として特定し、管理することができる。
 <まとめ>
 実施の形態5に係る動画解析装置において、オブジェクト関連区間特定部1106は、動画において一のオブジェクトが検出されない非検出区間と、当該非検出区間と連続する前方の検出区間と後方の検出区間の内の一方の検出区間と、当該一方の検出区間とは異なる他方の検出区間、又は当該一方の検出区間とは異なる他方において当該非検出区間と連続する、若しくは当該非検出区間と少なくとも一部区間が重複する区間であるハイライト区間とを、下記(1E)及び(2E)を満たす場合に、当該一のオブジェクトに関するオブジェクト関連区間と特定する。
 (1E)当該非検出区間と、当該非検出区間と連続する前方の検出区間と後方の検出区間の内の一方の検出区間と、当該ハイライト区間とが同一のシーンに含まれる。
 (2E)当該非検出区間の区間長は、所定の時間以内である。
 本実施の形態5に係る動画解析装置によれば、上記の(1E)及び(2E)の条件を満たす、当該非検出区間及び当該ハイライト区間を当該一のオブジェクトに関するオブジェクト関連区間として管理することができる。
 例えば、子供がサッカーをしている様子が撮影された動画において、子供がシュートし、その後ボールがゴールネットを揺らした様子を撮影した区間がある場合、そのボールがゴールネットを揺らした区間がハイライト区間として検出されれば、ボールがゴールネットを揺らした区間において全く子供が検出されなくとも、この子供がシュートし、その後ボールがゴールネットを揺らした一連の区間を、その子供に関するオブジェクト関連区間として管理することができる。また、花火大会の様子が撮影された動画において、ある人物を撮影し、そのすぐ後に打ち上げられた花火にカメラを向けたような場合、その花火が映る区間において全くその人物が検出されなくとも、ある人物を撮影し、そのすぐ後に打ち上げられた花火が撮影された一連の区間を、その人物に関するオブジェクト関連区間として管理することができる。
 このように、特定のオブジェクトに関する区間を管理することができるため、ユーザは、動画から特定のオブジェクトに関する区間を抽出する際、そのオブジェクトが検出される検出区間だけでなく、その検出区間と連続するそのオブジェクトが検出されない非検出区間や、そのオブジェクトと関連すると推定されるハイライト区間を抽出することができ、抽出された動画はユーザにとって見易い動画となる。
 <変形例>
 以上、本発明の一態様に係る動画解析装置について説明したが、本発明は、上記実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したもの、あるいは異なる実施の形態における構成要素を組み合わせて構築される形態も、本発明の範囲内に含まれる。
 上記実施の各形態に係る動画解析装置において、オブジェクト関連区間特定部は、一のオブジェクトが検出されない非検出区間と、当該非検出区間と時間的に連続する一のオブジェクトが検出される前方及び後方の検出区間に着目し、当該前方及び後方の検出区間だけでなく、当該非検出区間を当該一のオブジェクトに関するオブジェクト関連区間と特定すると説明したが、上記実施の各形態に係る動画解析装置は、これに限定されない。例えば、一のオブジェクトが検出されない非検出区間と、当該非検出区間と時間的に隣接する一のオブジェクトが検出される前方又は後方何れか一方の検出区間に着目し、当該非検出区間を当該一のオブジェクトに関するオブジェクト関連区間と特定してもよい。以下にその一例を説明する。
 例えば、ステップS201で取得された動画において、当該シーンの始点フレームから1フレーム以上一のオブジェクトが検出されない非検出区間が存在する場合、下記(1F)~(3F)を満たす場合に、当該非検出区間を、当該一のオブジェクトに関するオブジェクト関連区間と特定するとしてもよい。
 (1F)当該非検出区間と、当該非検出区間と時間的に連続する後方の当該一のオブジェクトが検出される検出区間とが同一のシーンに含まれる。
 (2F)当該後方の検出区間の始点フレームにおいて検出される当該一のオブジェクトが、当該一のオブジェクトの検出の限界として定められた1以上の限界条件の内少なくとも1つを満たす。限界条件は、当該一のオブジェクトの検出の限界として定められた条件であり、例えば、当該一のオブジェクトが当該終点フレーム又は始点フレームの所定領域において検出される、当該一のオブジェクトの向きが所定の範囲内である、又は当該一のオブジェクトの大きさが一定の大きさの範囲内である。
 (3F)当該非検出区間の区間長が、所定の時間以内である。
 図4及び図5を用いて具体的に説明する。なお、オブジェクト1に関するオブジェクト関連区間を特定する場合を例に挙げる。また、本具体例において、上記の所定時間は10フレームと設定されているとする。また、オブジェクトの限界条件として、人物の顔の「向き」に関する限界値が設定されており、その限界値は「図7の各回転軸に対して30度」であるとする。
 図5において、シーン1に着目すると、シーン1の始点フレームはフレーム0であり、図4を参照すると、このフレーム0からフレーム3までの区間は、オブジェクト1が検出されない非検出区間である。このとき、オブジェクト関連区間特定部106は、フレーム0からフレーム3までの非検出区間を、上記の(1F)~(3F)を満たす場合、オブジェクト1に関するオブジェクト関連区間と特定する。
 先ず、(1F)フレーム0からフレーム3までの非検出区間と時間的に連続する後方のオブジェクト1が検出される検出区間1は、フレーム4からフレーム55であり、シーン1(フレーム0からフレーム182の区間)に含まれる。また、(2F)当該後方の検出区間である検出区間1の始点フレーム(フレーム4)におけるオブジェクト1の向きは、限界値「(左30度)」である。また、(3F)フレーム0からフレーム3までの区間長は、フレーム数4でフレーム数10以内である。従って、フレーム0からフレーム3までの非検出区間は、オブジェクト1に関するオブジェクト関連区間であると特定され、例えば、オブジェクト関連区間特定部106は、フレーム0から検出区間1の終点フレーム(フレーム55)までの区間を、オブジェクト1に関するオブジェクト関連区間と特定する。
 なお、ステップS201において取得された動画において、当該シーンの終点フレームから時間的に前に1フレーム以上一のオブジェクトが検出されない非検出区間が存在する場合も同様に、下記(1G)~(3G)を満たす場合に、当該非検出区間を、当該一のオブジェクトに関するオブジェクト関連区間と特定するとしてもよい。
(1G)当該非検出区間と、当該非検出区間と時間的に連続する前方の当該一のオブジェクトが検出される検出区間とが同一のシーンに含まれる。
(2G)当該前方の検出区間の始点フレームにおいて検出される当該一のオブジェクトが、当該一のオブジェクトの検出の限界として定められた1以上の限界条件の内少なくとも1つを満たす。限界条件は、当該一のオブジェクトの検出の限界として定められた条件であり、例えば、当該一のオブジェクトが当該終点フレーム又は始点フレームの所定領域において検出される、当該一のオブジェクトの向きが所定の範囲内である、又は当該一のオブジェクトの大きさが一定の大きさの範囲内であるである。
(3G)当該非検出区間の区間長が、所定の時間以内である。
 上記実施の形態1~4において、動画解析装置は、オブジェクトの検出(S202)、オブジェクトの追跡(S203)、及びオブジェクトの識別(S204)の処理の後に、動画におけるシーンの切れ目を検出(S205)する処理を行うと説明したが、動画におけるシーンの切れ目を検出(S205)する処理は、オブジェクト関連区間を特定(S206、S206A~E)する処理の前に行われればよく、オブジェクトの検出・追跡・識別(S202~S204)のいずれかのステップの間、又はこれらのステップより前に行われていてもよい。
 また、上記実施の形態5において、動画解析装置1000は、オブジェクトの検出(S202)、オブジェクトの追跡(S203)、及びオブジェクトの識別(S204)の処理の後に、動画におけるシーンの切れ目を検出(S205)する処理を行い、その後動画におけるハイライト区間検出(S1501)の処理を行うと説明したが、動画におけるハイライト区間検出(S1501)の処理は、動画におけるシーンの切れ目を検出(S205)する処理と同様、オブジェクト関連区間を特定(S206、S206A~E)する処理の前に行われればよく、オブジェクトの検出・追跡・識別(S202~S204)、又はシーンの切れ目を検出(S205)する処理の何れかのステップの間、またはこれらのステップより前に行われていてもよい。
 上記実施の各形態に係る動画解析装置は、ステップS601(又はステップS1601)において、動画におけるシーン情報にも基づいて各区間を抽出すると説明したが、これに限定されない。例えば、ステップS601(又はステップS1601)において、同一の識別IDが付与されたオブジェクトが検出された検出区間(とハイライト区間)を抽出するとし、ステップS608において、動画におけるシーン情報に基づいて、最終的に動画における各オブジェクトに関するオブジェクト関連区間を決定するとしてもよい。
 上記実施の各形態において、動画解析装置はオブジェクト追跡部を備えると説明したが、その構成からオブジェクト追跡部を除いてもよい。オブジェクト追跡部が除かれる場合、オブジェクト識別部において、オブジェクト検出部によって各フレームから検出されたオブジェクトについて識別処理を行えばよい。また、この場合、オブジェクト関連区間特定部106は、オブジェクトの検出・識別に関する情報と、シーンの切れ目情報と、(実施の形態5のオブジェクト関連区間特定部においては、動画におけるハイライト区間情報と)に基づいて、動画における各オブジェクトに関するオブジェクト関連区間を特定する処理を行えばよい。
 上記実施の各形態に係る動画解析装置において、オブジェクト関連区間を特定する処理は、上記実施の各形態で説明したステップS206、及びS206A~S206Eに限定されず、これらの各処理が組み合わせられた処理を行うことで、オブジェクト関連区間を特定してもよい。
 上記実施の形態1~4において、動画解析装置は、オブジェクト検出部102、オブジェクト追跡部103、オブジェクト識別部104、及びシーン検出部105を備え、オブジェクト関連区間特定部106は、オブジェクトの検出(S202)、オブジェクトの追跡(S203)、及びオブジェクトの識別(S204)の処理により得られた、オブジェクトの検出・追跡・識別に関する情報と、動画におけるシーンの切れ目を検出(S205)する処理により得られた、動画におけるシーンの切れ目情報とに基づいて、動画における各オブジェクトに関するオブジェクト関連区間を特定する(S206、S206A~D)と説明したが、上記各実施の形態に係る動画解析装置はこれに限定されない。例えば、オブジェクト関連区間特定部106は、ステップS206及びS206A~Dにおいて、外部の装置により動画に付加された、オブジェクトの検出・追跡・識別に関する情報や動画におけるシーンの切れ目情報を用いてもよい
 上記実施の形態5において、動画解析装置1000は、ハイライト検出部1401を備え、オブジェクト関連区間特定部1106は、オブジェクトの検出・追跡・識別に関する情報と、動画におけるシーンの切れ目情報と、更に、ハイライト区間の検出(S1501)の処理により得られた、動画におけるハイライト区間情報とに基づいて、動画における各オブジェクトに関するオブジェクト関連区間を特定する(S206E)と説明したが、上記実施の形態5に係る動画解析装置1000はこれに限定されない。例えば、オブジェクト関連区間特定部1106は、ステップS206Eにおいて、外部の装置により動画に付加された、動画におけるハイライト区間情報を用いてもよい。
 上記実施の形態1~5に係る動画解析装置が備える構成要素の一部または全ては、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしてもよい。
 システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM(Read Only Memory)、RAM(Ramdom Access Memory)などを含んで構成されるコンピュータシステムである。前記ROMには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムに従って動作することにより、システムLSIは、その機能を達成する。
 なお、ここでは、システムLSIとしたが、集積度の違いにより、IC、LSI、スーパーLSI、ウルトラLSIと呼称されることもある。また、集積回路化の手法はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)、あるいはLSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
 さらには、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。
 また、本発明は、このような特徴的な処理部を備える、動画解析装置として実現することができるだけでなく、動画解析装置に含まれる特徴的な処理部をステップとする動画解析方法などとして実現することもできる。また、そのような方法に含まれる特徴的な各ステップをコンピュータに実行させるコンピュータプログラムとして実現することもできる。そして、そのようなコンピュータプログラムを、CD-ROM等のコンピュータ読取可能な非一時的な記録媒体あるいはインターネット等の通信ネットワークを介して流通させることができるのは、言うまでもない。
 <補足>
 以下、本発明の実施形態に係る動画解析装置の構成及びその変形例と各効果について説明する。
 第1の動画解析装置は、動画において、一のオブジェクトに関するオブジェクト関連区間を特定する動画解析装置であって、前記一のオブジェクトが検出される検出区間と時間的に連続する区間であって、且つ前記一のオブジェクトが検出されない区間である非検出区間を、所定の条件が満たされると判定する場合に、前記オブジェクト関連区間として特定し、前記所定の条件が満たされないと判定する場合に、前記オブジェクト関連区間として特定しないオブジェクト関連区間特定部、を備える動画解析装置。
 この構成により、第1の動画解析装置は、動画において、一のオブジェクトに関連する区間を適切に特定することができる。
 第2の動画解析装置は、第1の動画解析装置において、前記所定の条件は、前記非検出区間と、前記非検出区間と時間的に連続する前方の検出区間及び後方の検出区間とが同一のシーンに含まれ、且つ、前記前方の検出区間の終点フレームにおける前記一のオブジェクト及び前記後方の検出区間の始点フレームにおける前記一のオブジェクトの夫々が、前記一のオブジェクトの検出の限界に基づいて定められた1以上の限界条件の少なくとも1つを満たすである、としても構わない。
 この構成により、第2の動画解析装置は、前記所定の条件が満たされる場合に、前記非検出区間は、例えば、実際には当該一のオブジェクトが映っているが、オブジェクト検出技術によって、当該一のオブジェクトが検出されなかったのであろう、当該一のオブジェクトの動きや、撮影者の動きが大きく、当該一のオブジェクトがフレームアウトしまった区間であろうと推定されるため、前記非検出区間は、当該一のオブジェクトが検出される検出区間と連続する一連の区間であると特定することができる。
 第3の動画解析装置は、第2の動画解析装置において、前記限界条件は、前記一のオブジェクトが前記終点フレーム又は前記始点フレームの所定領域において検出される、前記一のオブジェクトの向きが所定の範囲内である、前記一のオブジェクトの大きさが閾値A以上である、及び、前記一のオブジェクトの大きさが前記閾値Aより小さい閾値B以下である、としても構わない。
 この構成により、第3の動画解析装置は、特に、前記一のオブジェクトの検出可能な、フレーム領域、前記一のオブジェクトの向き、及び前記一のオブジェクトの大きさに関する限界条件の内の少なくとも1つの限界条件を、前記非検出区間の両端のフレームと夫々連続する各フレームにおいて検出される前記一のオブジェクトが満たす場合に、前記非検出区間を、当該一のオブジェクトが検出される検出区間と連続する一連の区間であると特定することができる。
 第4の動画解析装置は、第3の動画解析装置において、前記所定領域は、前記終点フレーム又は前記始点フレームの枠の近傍の領域である、としても構わない。
 この構成により、第4の動画解析装置は、前記一のオブジェクトが検出可能なフレーム領域に関する限界条件については、当該一のオブジェクトが、前記終点フレーム又は前記始点フレームの枠の近傍の領域に存在する場合に、当該限界条件を満たすとすることができる。
 第5の動画解析装置は、第1の動画解析装置において、前記所定の条件は、前記非検出区間と、前記非検出区間と時間的に連続する前方の検出区間及び後方の検出区間とが同一のシーンに含まれ、且つ、前記非検出区間における映像のブレが所定の度合い以上である、としても構わない。
 この構成により、第5の動画解析装置は、前記所定の条件が満たされる場合に、前記非検出区間は、例えば、実際には当該一のオブジェクトが映っているが、映像のブレによって、当該一のオブジェクトが検出されなかったのであろう、撮影者の動きが大きく、当該一のオブジェクトがフレームアウトしまった区間であろうと推定されるため、前記非検出区間は、当該一のオブジェクトが検出される検出区間と連続する一連の区間であると特定することができる。
 第6の動画解析装置は、第1の動画解析装置において、前記所定の条件は、前記非検出区間と、前記非検出区間と時間的に連続する前方の検出区間及び後方の検出区間とが同一のシーンに含まれ、前記非検出区間において、前記一のオブジェクトとは別のオブジェクトが検出され、且つ、前記非検出区間において、前記別のオブジェクトが検出される区間長が所定の時間以上である、又は、前記非検出区間における、前記別のオブジェクトが検出される区間の比率が所定割合以上である、としても構わない。
 この構成により、第6の動画解析装置は、前記所定の条件が満たされる場合に、前記非検出区間は、例えば、撮影者が一定時間だけ、例えば気まぐれで、当該一のオブジェクトの代わりに、当該一のオブジェクトとは別のオブジェクトを撮影した区間であろうと推定されるため、前記非検出区間は、当該一のオブジェクトが検出される検出区間と連続する一連の区間であると特定することができる。
 第7の動画解析装置は、第1の動画解析装置において、前記所定の条件は、前記非検出区間と、前記非検出区間と時間的に連続する前方の検出区間及び後方の検出区間とが同一のシーンに含まれ、前記非検出区間の区間長が所定の時間以内であり、前記非検出区間において、前記一のオブジェクトとは別のオブジェクトが検出され、且つ、前記非検出区間において、前記別のオブジェクトが検出される時間が所定の時間以上である、又は、前記非検出区における、前記別のオブジェクトが検出される区間の比率が所定割合以上である、としても構わない。
 この構成により、第7の動画解析装置は、前記所定の条件が満たされる場合に、前記非検出区間は、例えば、撮影者が一定時間だけ、例えば気まぐれで、当該一のオブジェクトの代わりに、当該一のオブジェクトとは別のオブジェクトを撮影した区間であろうと推定されるため、前記非検出区間は、当該一のオブジェクトが検出される検出区間と連続する一連の区間であると特定することができる。
 第8の動画解析装置は、第1の動画解析装置において、前記所定の条件は、前記非検出区間と、前記非検出区間と時間的に連続する前方の検出区間及び後方の検出区間とが同一のシーンに含まれ、前記非検出区間において、前記一のオブジェクトとは別のオブジェクトが検出され、且つ、前記非検出区間の各フレームにおいて検出される前記別のオブジェクトの検出領域、及び、前記後方の検出区間の始点フレームにおいて検出される前記一のオブジェクトの検出領域の夫々と、前記前方の検出区間の終点フレームにおいて検出される前記一のオブジェクトの検出領域に、その周辺領域を加えた領域とが、少なくとも一部重なることである、としても構わない。
 この構成により、第8の動画解析装置は、前記所定の条件が満たされる場合に、前記非検出区間では、前記所定の条件撮影者から見て当該一のオブジェクトの前に、当該一のオブジェクトとは別のオブジェクトが存在し、当該一のオブジェクトがその別のオブジェクトの後ろに隠れてしまっているのであろうと推定されるため、前記非検出区間を、当該一のオブジェクトが検出される検出区間と連続する一連の区間であると特定することができる。
 第9の動画解析装置は、第8の動画解析装置において、前記周辺領域は、前記前方の検出区間の終点フレームにおいて検出される前記一のオブジェクトの大きさ、及び前記前方の検出区間の少なくとも一部における、前記一のオブジェクトの変位に関する情報の内少なくとも一方に基づいて設定される、としても構わない。
 この構成により、第9の動画解析装置は、前記周辺所定領域を、前記前方の検出区間の終点フレームにおいて検出される前記一のオブジェクトの大きさや、前記前方の検出区間の少なくとも一部における、前記一のオブジェクトの変位(例えば、前記一のオブジェクトが検出される検出領域の移動量や大きさの変位)、に応じて設定することができる。
 第10の動画解析装置は、第1の動画解析装置において、前記所定の条件は、前記非検出区間と、前記非検出区間と時間的に連続する前方の検出区間及び後方の検出区間とが同一のシーンに含まれ、且つ、前記非検出区間の区間長が所定の時間以内である、としても構わない。
 この構成により、第10の動画解析装置は、前記所定の条件が満たされる場合に、前記非検出区間は、例えば、撮影者が、例えば気まぐれで、ある一定の時間だけ当該一のオブジェクトを映さなかった区間であろう、区間長が一定時間以内と当該一のオブジェクトが検出される区間に対して相対的に短いので、当該一のオブジェクトに関する区間として管理されても問題ないだろうと推定されるため、前記非検出区間は、当該一のオブジェクトが検出される検出区間と連続する一連の区間であると特定することができる。
 第11の動画解析装置は、第1の動画解析装置において、前記所定の条件は、前記非検出区間と、前記非検出区間と時間的に連続する前方の検出区間と後方の検出区間の内の一方の検出区間とが同一のシーンに含まれ、前記一方の検出区間において、前記非検出区間と時間的に連続する側の端点となるフレームで検出される前記一のオブジェクトが、前記一のオブジェクトの検出の限界に基づいて定められた1以上の限界条件の少なくとも1つを満たし、且つ、前記非検出区間の区間長が所定の時間以内である、としても構わない。
 この構成により、第11の動画解析装置は、前記所定条件が満たされる場合に、前記非検出区間は、例えば、実際には当該一のオブジェクトが映っているが、オブジェクト検出技術によって、当該一のオブジェクトが検出されなかったのであろう、当該一のオブジェクトの動きや、撮影者の動きが大きく、当該一のオブジェクトがフレームアウトしまった区間であろうと推定されるため、前記非検出区間は、当該一のオブジェクトが検出される検出区間と連続する一連の区間であると特定することができる。
 第12の動画解析装置は、第1の動画解析装置において、前記所定の条件は、前記非検出区間と、前記非検出区間と時間的に連続する前方の検出区間と後方の検出区間の内の一方の検出区間と、前記一方の検出区間とは異なる他方において、前記非検出区間と連続する又は前記非検出区間と一部若しくは全てが重なる区間であって、前記動画における盛り上がりのある区間であるハイライト区間とが同一のシーンに含まれ、且つ、前記非検出区間の区間長が所定の時間以内である、としても構わない。
 この構成により、第12の動画解析装置は、前記非検出区間や、前記ハイライト区間を、当該一のオブジェクトが検出される検出区間と連続する一連の区間であると特定することができる。
 第1の動画解析方法は、動画において、一のオブジェクトに関するオブジェクト関連区間を特定する動画解析装置が実行する、動画解析方法であって、前記一のオブジェクトが検出される検出区間と時間的に連続する区間であって、且つ前記一のオブジェクトが検出されない区間である非検出区間を、所定の条件が満たされると判定する場合に、前記オブジェクト関連区間として特定し、前記所定の条件が満たされないと判定する場合に、前記オブジェクト関連区間として特定しないオブジェクト関連区間特定ステップ、を有する。
 この構成により、動画において、一のオブジェクトに関連する区間を適切に特定することができる。
 第1のプログラムは、動画において、一のオブジェクトに関するオブジェクト関連区間を特定する動画解析装置が実行する、動画解析処理をコンピュータに実行させるプログラムであって、前記一のオブジェクトが検出される検出区間と時間的に連続する区間であって、且つ前記一のオブジェクトが検出されない区間である非検出区間を、所定の条件が満たされると判定する場合に、前記オブジェクト関連区間として特定し、前記所定の条件が満たされないと判定する場合に、前記オブジェクト関連区間として特定しないオブジェクト関連区間特定ステップを前記動画解析処理は有する。
 この構成により、動画において、一のオブジェクトに関連する区間を適切に特定することができる。
 第1の集積回路は、動画において、一のオブジェクトに関するオブジェクト関連区間を特定する集積回路であって、前記一のオブジェクトが検出される検出区間と時間的に連続する区間であって、且つ前記一のオブジェクトが検出されない区間である非検出区間を、所定の条件が満たされると判定する場合に、前記オブジェクト関連区間として特定し、前記所定の条件が満たされないと判定する場合に、前記オブジェクト関連区間として特定しないオブジェクト関連区間特定部、を備える。
 この構成により、第1の集積回路は、動画において、一のオブジェクトに関連する区間を適切に特定することができる。
 本発明に係る動画解析装置は、動画を蓄積する装置、デジタルカメラ、カメラ付き携帯電話やムービーカメラなどの撮影装置及び、PC(Personal Computer)等に適用することができる。
 100、1000 動画解析装置
 101 動画取得部
 102 オブジェクト検出部
 103 オブジェクト追跡部
 104 オブジェクト識別部
 105 シーン検出部
 106、1106 オブジェクト関連区間特定部
 120 撮影装置
 130 表示装置
 301 取得した動画
 302 t番目のフレーム
 303 t+1番目のフレーム
 304、305 オブジェクト
 1401 ハイライト検出部

Claims (15)

  1.  動画において、一のオブジェクトに関するオブジェクト関連区間を特定する動画解析装置であって、
     前記一のオブジェクトが検出される検出区間と時間的に連続する区間であって、且つ前記一のオブジェクトが検出されない区間である非検出区間を、所定の条件が満たされると判定する場合に、前記オブジェクト関連区間として特定し、前記所定の条件が満たされないと判定する場合に、前記オブジェクト関連区間として特定しないオブジェクト関連区間特定部、
     を備える動画解析装置。
  2.  前記所定の条件は、
     前記非検出区間と、前記非検出区間と時間的に連続する前方の検出区間及び後方の検出区間とが同一のシーンに含まれ、
     且つ、
     前記前方の検出区間の終点フレームにおける前記一のオブジェクト及び前記後方の検出区間の始点フレームにおける前記一のオブジェクトの夫々が、前記一のオブジェクトの検出の限界に基づいて定められた1以上の限界条件の少なくとも1つを満たすである、
     請求項1記載の動画解析装置。
  3.  前記限界条件は、
     前記一のオブジェクトが前記終点フレーム又は前記始点フレームの所定領域において検出される、
     前記一のオブジェクトの向きが所定の範囲内である、
     前記一のオブジェクトの大きさが閾値A以上である、
     及び、
     前記一のオブジェクトの大きさが前記閾値Aより小さい閾値B以下である、
     請求項2記載の動画解析装置。
  4.  前記所定領域は、
     前記終点フレーム又は前記始点フレームの枠の近傍の領域である、
     請求項3記載の動画解析装置。
  5.  前記所定の条件は、
     前記非検出区間と、前記非検出区間と時間的に連続する前方の検出区間及び後方の検出区間とが同一のシーンに含まれ、
     且つ、
     前記非検出区間における映像のブレが所定の度合い以上である、
     請求項1記載の動画解析装置。
  6.  前記所定の条件は、
     前記非検出区間と、前記非検出区間と時間的に連続する前方の検出区間及び後方の検出区間とが同一のシーンに含まれ、
     前記非検出区間において、前記一のオブジェクトとは別のオブジェクトが検出され、
     且つ、
     前記非検出区間において、前記別のオブジェクトが検出される区間長が所定の時間以上である、又は、前記非検出区間における、前記別のオブジェクトが検出される区間の比率が所定割合以上である、
     請求項1記載の動画解析装置。
  7.  前記所定の条件は、
     前記非検出区間と、前記非検出区間と時間的に連続する前方の検出区間及び後方の検出区間とが同一のシーンに含まれ、
     前記非検出区間の区間長が所定の時間以内であり、
     前記非検出区間において、前記一のオブジェクトとは別のオブジェクトが検出され、
     且つ、
     前記非検出区間において、前記別のオブジェクトが検出される時間が所定の時間以上である、又は、前記非検出区における、前記別のオブジェクトが検出される区間の比率が所定割合以上である、
     請求項1記載の動画解析装置。
  8.  前記所定の条件は、
     前記非検出区間と、前記非検出区間と時間的に連続する前方の検出区間及び後方の検出区間とが同一のシーンに含まれ、
     前記非検出区間において、前記一のオブジェクトとは別のオブジェクトが検出され、
     且つ、
     前記非検出区間の各フレームにおいて検出される前記別のオブジェクトの検出領域、及び、前記後方の検出区間の始点フレームにおいて検出される前記一のオブジェクトの検出領域の夫々と、前記前方の検出区間の終点フレームにおいて検出される前記一のオブジェクトの検出領域に、その周辺領域を加えた領域とが、少なくとも一部重なることである、
     請求項1記載の動画解析装置。
  9.  前記周辺領域は、
     前記前方の検出区間の終点フレームにおいて検出される前記一のオブジェクトの大きさ、及び前記前方の検出区間の少なくとも一部における、前記一のオブジェクトの変位に関する情報の内少なくとも一方に基づいて設定される、
     請求項8記載の動画解析装置。
  10.  前記所定の条件は、
     前記非検出区間と、前記非検出区間と時間的に連続する前方の検出区間及び後方の検出区間とが同一のシーンに含まれ、
     且つ、
     前記非検出区間の区間長が所定の時間以内である、
     請求項1記載の動画解析装置。
  11.  前記所定の条件は、
     前記非検出区間と、前記非検出区間と時間的に連続する前方の検出区間と後方の検出区間の内の一方の検出区間とが同一のシーンに含まれ、
     前記一方の検出区間において、前記非検出区間と時間的に連続する側の端点となるフレームで検出される前記一のオブジェクトが、前記一のオブジェクトの検出の限界に基づいて定められた1以上の限界条件の少なくとも1つを満たし、
     且つ、
     前記非検出区間の区間長が所定の時間以内である、
     請求項1記載の動画解析装置。
  12.  前記所定の条件は、
     前記非検出区間と、前記非検出区間と時間的に連続する前方の検出区間と後方の検出区間の内の一方の検出区間と、前記一方の検出区間とは異なる他方において、前記非検出区間と連続する又は前記非検出区間と一部若しくは全てが重なる区間であって、前記動画における盛り上がりのある区間であるハイライト区間とが同一のシーンに含まれ、
     且つ、
     前記非検出区間の区間長が所定の時間以内である、
     請求項1記載の動画解析装置。
  13.  動画において、一のオブジェクトに関するオブジェクト関連区間を特定する動画解析装置が実行する、動画解析方法であって、
     前記一のオブジェクトが検出される検出区間と時間的に連続する区間であって、且つ前記一のオブジェクトが検出されない区間である非検出区間を、所定の条件が満たされると判定する場合に、前記オブジェクト関連区間として特定し、前記所定の条件が満たされないと判定する場合に、前記オブジェクト関連区間として特定しないオブジェクト関連区間特定ステップ、
     を有する動画解析方法。
  14.  動画において、一のオブジェクトに関するオブジェクト関連区間を特定する動画解析装置が実行する、動画解析処理をコンピュータに実行させるプログラムであって、
     前記一のオブジェクトが検出される検出区間と時間的に連続する区間であって、且つ前記一のオブジェクトが検出されない区間である非検出区間を、所定の条件が満たされると判定する場合に、前記オブジェクト関連区間として特定し、前記所定の条件が満たされないと判定する場合に、前記オブジェクト関連区間として特定しないオブジェクト関連区間特定ステップを前記動画解析処理は有する、
     プログラム。
  15.  動画において、一のオブジェクトに関するオブジェクト関連区間を特定する集積回路であって、
     前記一のオブジェクトが検出される検出区間と時間的に連続する区間であって、且つ前記一のオブジェクトが検出されない区間である非検出区間を、所定の条件が満たされると判定する場合に、前記オブジェクト関連区間として特定し、前記所定の条件が満たされないと判定する場合に、前記オブジェクト関連区間として特定しないオブジェクト関連区間特定部、
     を備える集積回路。
PCT/JP2013/002307 2012-04-05 2013-04-03 動画解析装置、動画解析方法、プログラム、及び集積回路 WO2013150789A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US14/123,326 US9779305B2 (en) 2012-04-05 2013-04-03 Video analyzing device, video analyzing method, program, and integrated circuit
CN201380001598.XA CN103597817B (zh) 2012-04-05 2013-04-03 运动图像解析装置、运动图像解析方法及集成电路
JP2014509059A JP6141829B2 (ja) 2012-04-05 2013-04-03 動画解析装置、動画解析方法、プログラム、及び集積回路

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2012086120 2012-04-05
JP2012-086120 2012-04-05

Publications (1)

Publication Number Publication Date
WO2013150789A1 true WO2013150789A1 (ja) 2013-10-10

Family

ID=49300292

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/002307 WO2013150789A1 (ja) 2012-04-05 2013-04-03 動画解析装置、動画解析方法、プログラム、及び集積回路

Country Status (4)

Country Link
US (1) US9779305B2 (ja)
JP (1) JP6141829B2 (ja)
CN (1) CN103597817B (ja)
WO (1) WO2013150789A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016031439A (ja) * 2014-07-28 2016-03-07 ソニー株式会社 情報処理装置及び情報処理方法、コンピューター・プログラム、並びに画像表示システム
JP2020129763A (ja) * 2019-02-08 2020-08-27 キヤノン株式会社 動画再生装置、動画再生方法及びプログラム

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6354229B2 (ja) * 2014-03-17 2018-07-11 富士通株式会社 抽出プログラム、方法、及び装置
JP6287498B2 (ja) * 2014-04-01 2018-03-07 日本電気株式会社 電子ホワイトボード装置、電子ホワイトボードの入力支援方法、及びプログラム
GB2528330B (en) * 2014-07-18 2021-08-04 Unifai Holdings Ltd A method of video analysis
US20180249056A1 (en) * 2015-08-18 2018-08-30 Lg Electronics Inc. Mobile terminal and method for controlling same
US10277960B2 (en) * 2017-01-30 2019-04-30 Tap Media Labs, Inc. Method and system for seeding video programs with episodic interactive items
US10740654B2 (en) 2018-01-22 2020-08-11 Qualcomm Incorporated Failure detection for a neural network object tracker
TWI717021B (zh) * 2019-09-18 2021-01-21 義隆電子股份有限公司 影像處理系統及其人工智慧晶片
CN112733666A (zh) * 2020-12-31 2021-04-30 湖北亿咖通科技有限公司 一种难例图像的搜集、及模型训练方法、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005277531A (ja) * 2004-03-23 2005-10-06 Seiko Epson Corp 動画像処理装置
JP2007281858A (ja) * 2006-04-06 2007-10-25 Omron Corp 動画編集装置
JP2009123095A (ja) * 2007-11-16 2009-06-04 Oki Electric Ind Co Ltd 映像解析装置及び映像解析方法
JP2012054810A (ja) * 2010-09-02 2012-03-15 Olympus Corp 画像処理装置、画像処理方法、撮像装置、および画像処理プログラム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6928233B1 (en) * 1999-01-29 2005-08-09 Sony Corporation Signal processing method and video signal processor for detecting and analyzing a pattern reflecting the semantics of the content of a signal
US6724933B1 (en) * 2000-07-28 2004-04-20 Microsoft Corporation Media segmentation system and related methods
US7802188B2 (en) * 2004-05-13 2010-09-21 Hewlett-Packard Development Company, L.P. Method and apparatus for identifying selected portions of a video stream
JP4830650B2 (ja) 2005-07-05 2011-12-07 オムロン株式会社 追跡装置
CN101867679B (zh) * 2006-03-27 2013-07-10 三洋电机株式会社 缩略图生成装置及摄像装置
WO2009004901A1 (ja) * 2007-06-29 2009-01-08 Olympus Corporation 顔検出装置、デジタルカメラ及び顔検出プログラム
JP2009201041A (ja) 2008-02-25 2009-09-03 Oki Electric Ind Co Ltd コンテンツ検索装置およびその表示方法
JP2009246935A (ja) * 2008-03-14 2009-10-22 Sanyo Electric Co Ltd 画像処理装置およびそれを搭載した撮像装置
JP4561919B2 (ja) * 2008-04-21 2010-10-13 ソニー株式会社 撮像装置、画像処理装置及び画像処理方法
JP5219697B2 (ja) 2008-08-25 2013-06-26 キヤノン株式会社 画像処理装置、撮像装置、画像処理装置の制御方法及びプログラム
JP5247356B2 (ja) * 2008-10-29 2013-07-24 キヤノン株式会社 情報処理装置およびその制御方法
US8351757B2 (en) * 2008-11-21 2013-01-08 Mitsubishi Electric Corporation Television broadcast receiving device
JP2011123529A (ja) * 2009-12-08 2011-06-23 Sony Corp 情報処理装置、情報処理方法、およびプログラム
US20110188720A1 (en) * 2010-02-02 2011-08-04 General Electric Company Method and system for automated volume of interest segmentation
JP5625995B2 (ja) * 2010-05-10 2014-11-19 カシオ計算機株式会社 被写体追跡装置、被写体追跡方法及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005277531A (ja) * 2004-03-23 2005-10-06 Seiko Epson Corp 動画像処理装置
JP2007281858A (ja) * 2006-04-06 2007-10-25 Omron Corp 動画編集装置
JP2009123095A (ja) * 2007-11-16 2009-06-04 Oki Electric Ind Co Ltd 映像解析装置及び映像解析方法
JP2012054810A (ja) * 2010-09-02 2012-03-15 Olympus Corp 画像処理装置、画像処理方法、撮像装置、および画像処理プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016031439A (ja) * 2014-07-28 2016-03-07 ソニー株式会社 情報処理装置及び情報処理方法、コンピューター・プログラム、並びに画像表示システム
JP2020129763A (ja) * 2019-02-08 2020-08-27 キヤノン株式会社 動画再生装置、動画再生方法及びプログラム
JP7218198B2 (ja) 2019-02-08 2023-02-06 キヤノン株式会社 動画再生装置、動画再生方法及びプログラム

Also Published As

Publication number Publication date
CN103597817A (zh) 2014-02-19
CN103597817B (zh) 2018-05-08
JPWO2013150789A1 (ja) 2015-12-17
JP6141829B2 (ja) 2017-06-07
US20140093176A1 (en) 2014-04-03
US9779305B2 (en) 2017-10-03

Similar Documents

Publication Publication Date Title
JP6141829B2 (ja) 動画解析装置、動画解析方法、プログラム、及び集積回路
EP2120210B1 (en) Composition determination device, composition determination method, and program
US8774456B2 (en) Detective information registration device and target object detection device for detecting an object in an image
JP4581924B2 (ja) 画像再生装置、および画像再生プログラム
AU2009243442B2 (en) Detection of abnormal behaviour in video objects
JP4840426B2 (ja) 電子機器、ぼけ画像選別方法及びプログラム
US8254630B2 (en) Subject extracting method and device by eliminating a background region using binary masks
US10079974B2 (en) Image processing apparatus, method, and medium for extracting feature amount of image
EP2547089A1 (en) Electronic zoom device, electronic zoom method, and program
KR20120022512A (ko) 전자 카메라, 화상 처리 장치 및 화상 처리 방법
JP2010021943A (ja) 撮像装置
JP6892524B2 (ja) 対象追跡に基づくスローモーションビデオキャプチャ
JP6924064B2 (ja) 画像処理装置およびその制御方法、ならびに撮像装置
JP5960691B2 (ja) 興味区間特定装置、興味区間特定方法、興味区間特定プログラム
CN112017137A (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
JP2012105205A (ja) キーフレーム抽出装置、キーフレーム抽出プログラム、キーフレーム抽出方法、撮像装置、およびサーバ装置
US11019251B2 (en) Information processing apparatus, image capturing apparatus, information processing method, and recording medium storing program
JP2011040993A (ja) 被写体追尾プログラム、およびカメラ
JP4913801B2 (ja) 遮蔽物映像識別装置及び方法
JP2009089220A (ja) 撮像装置
JP2014085845A (ja) 動画処理装置、動画処理方法、プログラム、および集積回路
KR102042131B1 (ko) 단말기에서 실시간 글자 인식시 영상을 안정화하는 방법
US8675958B2 (en) Subject determination method, computer program product for determining subject, and camera
CN107431756B (zh) 自动图像帧处理可能性检测的方法和装置
US20150381903A1 (en) Image generation device, imaging device, image generation method, and program

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2014509059

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13772045

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 14123326

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13772045

Country of ref document: EP

Kind code of ref document: A1