WO2024062971A1 - 情報処理装置、情報処理方法および情報処理プログラム - Google Patents

情報処理装置、情報処理方法および情報処理プログラム Download PDF

Info

Publication number
WO2024062971A1
WO2024062971A1 PCT/JP2023/033130 JP2023033130W WO2024062971A1 WO 2024062971 A1 WO2024062971 A1 WO 2024062971A1 JP 2023033130 W JP2023033130 W JP 2023033130W WO 2024062971 A1 WO2024062971 A1 WO 2024062971A1
Authority
WO
WIPO (PCT)
Prior art keywords
tracking
subject
information processing
processing device
imaging
Prior art date
Application number
PCT/JP2023/033130
Other languages
English (en)
French (fr)
Inventor
広志 池田
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2024062971A1 publication Critical patent/WO2024062971A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G03PHOTOGRAPHY; CINEMATOGRAPHY; ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ELECTROGRAPHY; HOLOGRAPHY
    • G03BAPPARATUS OR ARRANGEMENTS FOR TAKING PHOTOGRAPHS OR FOR PROJECTING OR VIEWING THEM; APPARATUS OR ARRANGEMENTS EMPLOYING ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ACCESSORIES THEREFOR
    • G03B15/00Special procedures for taking photographs; Apparatus therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/66Remote control of cameras or camera parts, e.g. by remote control devices
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/69Control of means for changing angle of the field of view, e.g. optical zoom objectives or electronic zooming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/695Control of camera direction for changing a field of view, e.g. pan, tilt or based on tracking of objects

Definitions

  • the present disclosure relates to an information processing device, an information processing method, and an information processing program.
  • Patent Document 1 proposes a method for reliably tracking the original tracking target even when multiple people intersect on the screen.
  • a process is executed in which the correct tracking target is detected from among the people in the current one frame image by matching the face direction, and this process is performed continuously as frame images are captured.
  • the above-mentioned conventional technology for example, when another person crosses in front of the person being tracked, the problem of failure in tracking or chasing a person who is not the tracking target can be solved. can be done.
  • the above-mentioned conventional technology still has the problem that if the person passing by has a similar face, the person may be erroneously tracked.
  • this disclosure proposes an information processing device, an information processing method, and an information processing program that can effectively reduce the chances of obtaining worthless footage due to erroneous tracking shooting.
  • an information processing device determines whether or not the state of the subject being tracked and shot satisfies a predetermined condition. and a control section that stops tracking photographing of the subject in accordance with the determination result of the necessity.
  • FIG. 1 is a diagram illustrating a configuration of a system according to an embodiment.
  • FIG. 3 is a diagram illustrating an overview of tracking determination processing according to the embodiment.
  • 1 is a diagram illustrating an example of a schematic configuration of an information processing device according to an embodiment.
  • 3 is a flowchart showing the overall flow of information processing executed by the imaging device.
  • 5 is a flowchart showing the flow of a tracking determination process executed by the imaging apparatus.
  • It is a figure showing an example (1) of a schematic structure of an information processing device in a modification concerning an embodiment.
  • It is a figure showing an example (2) of a schematic structure of an information processing device in a modification concerning an embodiment.
  • It is a figure showing an example (3) of a schematic structure of an information processing device in a modification concerning an embodiment.
  • FIG. 2 is a block diagram showing an example of a hardware configuration of a computer corresponding to the information processing device according to the embodiment.
  • FIG. 1 is a diagram showing the configuration of a system according to an embodiment.
  • FIG. 1 shows a system 1 as an example of a system according to an embodiment.
  • the system 1 may include an imaging device 10, a user device 20, and an external device X. Further, the imaging device 10, the user device 20, and the external device X may be communicably connected via the network N by wire or wirelessly.
  • the imaging device 10 may be a camera that can be equipped with a function (determination processing function DV) that realizes the tracking determination process according to the embodiment.
  • the imaging device 10 equipped with the determination processing function DV can be understood as an information processing device according to an embodiment of the present disclosure.
  • the imaging device 10 may be any camera as long as it is capable of tracking and photographing, for example.
  • the imaging device 10 may be a PTZ (pan-tilt-zoom) camera.
  • the external device X is a device that is communicably connected to the imaging device 10.
  • the determination processing function DV it may not be possible to install the determination processing function DV.
  • the external device X by installing the determination processing function DV in the external device X, it is possible to adopt a configuration in which the external device X performs the tracking determination process instead of the imaging device 10.
  • Examples of the external device X that can be equipped with the determination processing function DV include a notebook PC (Personal Computer), a desktop PC, and a server device on the cloud side. In this way, the external device X equipped with the determination processing function DV can be understood as an information processing device according to the embodiment of the present disclosure.
  • system 1 may include a plurality of imaging devices 10 that can communicate with each other, and it is possible to employ multi-camera cooperation in which the plurality of imaging devices 10 cooperate to realize tracking determination processing.
  • the main imaging device 10 that performs tracking shooting is equipped with a determination processing function DV, and the other imaging devices 10 (sub imaging device 10) are made to perform information processing to support the main imaging device 10. configuration can be adopted.
  • the main imaging device 10 can be understood as an information processing device according to an embodiment of the present disclosure.
  • a configuration is adopted in which the determination processing function DV is distributed and installed between the main imaging device 10 that is responsible for tracking shooting and the sub imaging device 10 that has the role of supporting the main imaging device 10. It can also be adopted.
  • a system including the main imaging device 10 and the sub imaging device 10 can be understood as an information processing device according to an embodiment of the present disclosure.
  • the user device 20 is a device that can control the information processing device according to the embodiment of the present disclosure, and is a terminal device used by a user who desires a video captured by tracking.
  • the user device 20 may be a smartphone, a tablet terminal, a notebook PC, a desktop PC, a mobile phone, a PDA, or the like.
  • FIG. 1 also shows an example of a suitable case to which the tracking determination process according to the embodiment can be applied.
  • the imaging device 10 equipped with the determination processing function DV follows the photographing according to the movement of the teacher T in front of the teacher's podium.
  • the imaging device 10 determines whether it is necessary to stop the tracking photographing with the teacher T as the tracking target, based on the state of the subject being tracked, that is, the teacher T.
  • the imaging device 10 determines whether to stop tracking photography or continue tracking photography based on the state of the teacher T who is the tracking target. A determination as to whether to stop or continue tracking photography is made based on whether or not the state of teacher T, who is the main subject, satisfies the tracking stop condition.
  • Such tracking determination processing is applicable not only to the example in FIG. 1 but also to various event EV scenes.
  • Such tracking determination processing is applicable not only to the example in FIG. 1 but also to various event EV scenes.
  • the information processing device is applicable to a conference (an example of an event EV).
  • the information processing device can perform the tracking determination process while shooting a conference video in which a specific subject (for example, a facilitator of a conference) is being tracked.
  • the imaging device 10 may be installed in a conference room, such as a workplace, for example.
  • the information processing device can also be applied to seminars (an example of an event EV).
  • the information processing device can perform a tracking determination process when shooting a seminar video in which a specific subject (e.g., a lecturer) is tracked.
  • the information processing device is an imaging device 10
  • the imaging device 10 may be installed in, for example, a large lecture hall used as a seminar venue.
  • the information processing device can be applied to competitions (an example of event EV).
  • the information processing device can perform the tracking determination process while shooting a live video in which a specific subject (for example, an athlete) is tracked.
  • the information processing device is an imaging device 10
  • the imaging device 10 may be installed at a competition venue, for example.
  • the information processing device can also be used at the production site of a television program (an example of an event EV). For example, the information processing device can perform a tracking determination process when a television image is being shot in which a specific subject (e.g., a performer) is being tracked. If the information processing device is an imaging device 10, the imaging device 10 may be installed, for example, at the program shooting site (e.g., a shooting studio).
  • a program shooting site e.g., a shooting studio
  • the information processing device may be used in a movie theater.
  • the information processing device can perform tracking determination processing while shooting a movie cutout video in which a specific subject shown on a screen is tracked.
  • the information processing device is an imaging device 10
  • the imaging device 10 may be installed in a movie theater, for example.
  • the information processing device can also be applied when tracking and photographing a specific performer (for example, a singer, performer, backup dancer, etc.) at a live event.
  • a specific performer for example, a singer, performer, backup dancer, etc.
  • the imaging device 10 may be installed at a live venue (eg, a concert hall, a theater, etc.), for example.
  • FIG. 2 is a diagram illustrating an overview of tracking determination processing according to the embodiment.
  • FIG. 2 shows a scene where a class is held at a university as an event EV.
  • the imaging device 10 follows, for example, the movement of a teacher giving a lecture in a large lecture hall (for example, movement left and right on the podium).
  • the operation of the imaging device 10 is broadly divided into image recognition (step S1), tracking determination (step S2), and view angle control (step S3), and the processes are repeated in this order. It's okay to be fed.
  • the tracking determination process according to the embodiment is performed during tracking shooting. Therefore, as pre-processing related to the tracking determination process, the image recognition process in step S1 may be performed first.
  • Image recognition processing performed as preprocessing may be performed for the purpose of identifying a tracking target. Therefore, the imaging device 10 controls the angle of view of its own device to be the angle of view A1 suitable for identifying the tracking target, and performs image recognition processing while photographing the angle of view A1. That is, the imaging device 10 performs imaging in a normal imaging mode in which objective images are acquired.
  • the angle of view A1 may be an angle of view that allows capturing a bird's-eye view of the entire event EV (university class) (an image with enhanced objectivity that does not focus on a specific subject).
  • the imaging device 10 captures one frame worth of captured images at a specific timing through a lens. For example, the imaging device 10 acquires one frame worth of captured images corresponding to the angle of view A1 at the timing when the tracking shooting mode is selected by the user (for example, the operator of the imaging device 10).
  • the imaging device 10 identifies the subject to be tracked among the subjects in the captured image by performing image recognition processing on the captured image. For example, if an image of a person to be tracked is registered in advance, the imaging device 10 identifies the subject to be tracked by matching this registered image with images of each subject included in the acquired captured images. May be specified. For example, the imaging device 10 uses feature quantities extracted from registered images (e.g., facial features, skeletal features, clothing features, etc.) and feature quantities extracted from each subject image included in the captured image (e.g., , facial features, skeletal features, worn object features, etc.) may be used to identify the subject to be tracked.
  • feature quantities extracted from registered images e.g., facial features, skeletal features, clothing features, etc.
  • feature quantities extracted from each subject image included in the captured image e.g., facial features, skeletal features, worn object features, etc.
  • the user can operate the user device 20 to check images captured by the imaging device 10 in real time. Therefore, the user can specify the tracking target using a specific GUI (Graphical User Interface) displayed on the user device 20. For example, a user can specify a tracking target by a user operation such as enclosing a specific target included in a captured image with a rectangle. Therefore, when the imaging device 10 receives a designation of a tracking target from the user device 20, the imaging device 10 may recognize the target specified in the captured image as the tracking target.
  • GUI Graphic User Interface
  • the imaging device 10 performs control to start tracking photographing of the subject identified as the tracking target (the main subject for the user). For example, the imaging device 10 may switch from the normal shooting mode to the tracking shooting mode and start tracking shooting when the tracking target is identified.
  • the imaging device 10 may switch to the tracking shooting mode and start tracking shooting when the main subject, which is the subject specified as the tracking target, satisfies a specific condition.
  • the specific conditions include conditions regarding the position/area of the subject to be tracked in the captured image, the movement of the subject to be tracked, the state of the subject to be tracked, and the relationship between the captured scene and the subject to be tracked. For example, if the imaging device 10 is able to recognize that the main subject has entered a specific imaging range through image recognition of captured images captured from time to time through a lens, it may start tracking imaging.
  • the imaging device 10 may start tracking imaging.
  • the specific conditions are preferably conditions suitable for the relationship between the photographed scene in the event EV and the tracking target.
  • the photographed scene in event EV is a scene in which a teacher teaches to students in a university class.
  • the conditions for switching to the tracking shooting mode include the main subject speaking, the main subject smiling, and the main subject possessing a certain item (for example, a penlight).
  • Such conditions may be determined dynamically by the imaging device 10 by understanding the content of the event EV by applying captured images to existing machine learning technology, or by the user applying the captured images to the imaging device 10. It may be set in advance.
  • switching to the tracking shooting mode by the imaging device 10 may include processing for switching from the current angle of view A1 to the angle of view A2 in which the main subject is in focus.
  • the imaging device 10 moves to tracking determination processing in step S2.
  • the imaging device 10 identifies the person P1 as the main subject, and focuses on the person P1 while detecting the whole body and face of the person P1 from the photographed image G1 that is captured from time to time.
  • An example of tracking shooting is shown.
  • the imaging device 10 may perform tracking photography while detecting the person P1 by cutting out the whole body or face of the person P1 by segmentation or the like.
  • the person P1 may be referred to as the main subject P1.
  • the imaging device 10 performs image recognition to recognize the state of the main subject P1 by analyzing the captured image G1 in which the main subject P1 is tracked and photographed. The imaging device 10 then performs a tracking determination process of determining whether or not tracking photography needs to be stopped, based on whether the state obtained as the recognition result satisfies the tracking stop condition.
  • the imaging device 10 can recognize the state of the main subject P1 by analyzing partial images obtained by segmenting (extracting rectangles) the captured image G1.
  • the imaging device 10 may extract a facial feature quantity that is a feature quantity corresponding to the feature point by acquiring feature points indicating a facial pattern from a partial image and converting the acquired feature points into numerical values.
  • the imaging device 10 also detects the orientation of the face of the main subject P1 based on the positional relationship of facial parts (eyes, ears, nose, mouth, etc.) included in the partial image, and also detects the duration of the detected orientation. May be detected.
  • the imaging device 10 can detect the duration of the currently detected face orientation state based on the time series data of the captured image G1.
  • the imaging device 10 may extract a whole body feature quantity that is a feature quantity corresponding to the feature point by acquiring feature points indicating the whole body pattern from the partial image and converting the obtained feature points into numerical values.
  • the imaging device 10 may also detect the body orientation of the main subject P1 based on the relative positions of the body parts (neck, waist, shoulders, etc.) included in the partial images, and detect the duration of the detected orientation. For example, the imaging device 10 may detect the duration of the detected overall body orientation based on the time series data of the captured image G1. Note that when the imaging device 10 detects the face orientation as described above, it may regard the face orientation indicated by the detection result as the overall body orientation.
  • the imaging device 10 may detect the position of the main subject P1 starting from a characteristic object in the shooting scene in the event EV.
  • the characteristic objects in the photographed scene at the event EV may be a lectern, a lectern, a whiteboard, or the like.
  • the imaging device 10 may detect the position of the main subject P1 with respect to a predetermined range that is determined to include the teacher's desk.
  • the imaging device 10 may detect what kind of action the main subject P1 is taking, the content of the action indicating the action, and the duration of the action. For example, the imaging device 10 can detect the action content and duration based on the time series data of the photographed image G1.
  • the imaging device 10 may detect the amount of movement of the main subject P1.
  • the imaging device 10 can detect the amount of movement of the main subject P1 based on the time series data of the captured image G1.
  • the photographed image G1 shown in FIG. 2 includes other people in addition to the main subject P1. In this way, if another person who is not the subject of tracking photography is included in the image, the imaging device 10 may also detect the amount of movement of this other person.
  • the imaging device 10 may also estimate the emotional response of the main subject P1. For example, the imaging device 10 detects a change in the facial expression of the main subject P1 (e.g., from a neutral expression to a smile) based on the facial expression obtained as a result of analyzing the captured image G1, and if a change is detected, it can estimate the emotional response corresponding to that facial expression (e.g., a feeling of praise toward the student) from the facial expression after the change.
  • a change in the facial expression of the main subject P1 e.g., from a neutral expression to a smile
  • the emotional response corresponding to that facial expression e.g., a feeling of praise toward the student
  • the imaging device 10 When the imaging device 10 recognizes the various states of the main subject P1 as described above, it starts tracking shooting with the main subject P1 as the tracking target based on whether the state of the main subject P1 satisfies the tracking stop condition. Determine the necessity of stopping. Specifically, when the state of the main subject P1 satisfies the tracking stop condition, the imaging device 10 determines that it is necessary to stop tracking shooting with the main subject P1 as the tracking target, and changes the state of the main subject P1. If does not satisfy the tracking stop condition, it is determined that there is no need to stop tracking imaging (tracking imaging may continue). A specific example of the tracking determination process using the tracking stop condition will be described later.
  • the tracking determination process using the tracking stop condition assumes a case where tracking shooting starts but ends up tracking the wrong person midway through, and the current subject being tracked is This corresponds to the process of determining whether or not is the correct tracking target.
  • the imaging device 10 determines that it is necessary to stop tracking photography, the imaging device 10 moves to the view angle control process in step S3.
  • the view angle control process the view angle is controlled according to the determination result that it is necessary to stop tracking photography.
  • the imaging device 10 first stops tracking photography with the main subject P1 as the tracking target. Then, the imaging device 10 changes the angle of view A2 that focused on the main subject P1 for tracking shooting to the angle of view A1 in the preprocessing stage that does not focus on the main subject P1, and Switch to video recording.
  • the image obtained by tracking the main subject P1 may be the result of a person (for example, a specific student) who is not suitable for the current shooting scene continuing to pursue it.
  • the result is a worthless video.
  • the imaging device 10 switches to the normal shooting mode for acquiring objective images. , it is possible to guarantee the value of the video to a certain extent. Specifically, in the bird's-eye view image captured at the angle of view A1, although the specific subject is not tracked, the overall image of the event EV is captured, so the viewer can easily see the content of the event EV. It can be said that it is fully understandable and the value is guaranteed.
  • the imaging device 10 when it is determined in the tracking stop determination that it is necessary to stop tracking shooting, the angle of view is changed to angle of view A1 that allows capturing a bird's-eye view of the entire event EV. It is not limited to this. That is, the imaging device 10 may change the angle of view to be wider than the angle of view A2 that was focused on the tracking target (it may control the imaging unit 11 to zoom out). More specifically, when the imaging device 10 determines that it is necessary to stop tracking shooting in the tracking stop determination, the imaging device 10 selects a view angle A3 (view angle The angle of view A3 may be wider than the angle of view A2).
  • FIG. 3 is a diagram illustrating an example of a schematic configuration of an information processing device according to an embodiment.
  • FIG. 3 shows a schematic configuration when the imaging device 10 is implemented as an information processing device according to an embodiment of the present disclosure.
  • the imaging device 10 includes an imaging section 11, an image recognition section 12, a tracking determination section 13, a view angle control section 14, an output section 15, and a storage section 16.
  • the image recognition unit 12, the tracking determination unit 13, and the view angle control unit 14 are processing units that manage the tracking determination process according to the embodiment, and correspond to the determination processing function DV.
  • These processing units corresponding to the determination processing function DV such as the CPU (Central Processing Unit) and MPU (Micro Processing Unit), execute various programs (for example, information processing programs) stored in the storage device inside the imaging device 10.
  • This is a processing unit that is implemented by using RAM (Random Access Memory) as a work area.
  • these processing units are realized by, for example, an integrated circuit such as an ASIC (Application Specific Integrated Circuit) or an FPGA (Field Programmable Gate Array).
  • the imaging device 10 may further include a communication unit that is wirelessly connected to the network N and that transmits and receives information to and from the user device 20 and the external device X, for example.
  • the imaging unit 11 captures an image of a subject and generates a captured image.
  • the imaging unit 11 is, for example, an image sensor.
  • the image recognition unit 12 analyzes the captured image acquired by the imaging unit 11 to recognize the subject of the captured image. Specifically, the image recognition unit 12 recognizes who/what is shown and the content of the subject based on the photographed image.
  • the image recognition unit 12 may also perform image recognition processing as preprocessing described in step S1 of FIG. 2. Specifically, the image recognition unit 12 identifies the object to be tracked by matching the feature amount extracted by analyzing the photographed image with the feature amount extracted by analyzing the registered image, and also identifies the object as the object to be tracked. It may be determined whether the start conditions for tracking photography are met.
  • the image recognition unit 12 may also perform image recognition processing in the tracking determination described in step S2 of FIG. Specifically, the image recognition unit 12 also performs various recognition processes to recognize the state of the subject by analyzing the photographed image of the subject (the main subject identified by the above method) obtained by tracking photography. It's fine.
  • the image recognition unit 12 may detect the feature amount of the subject's body (for example, face or skeleton) from the captured image of the subject.
  • the feature amount of the subject's body for example, face or skeleton
  • the image recognition unit 12 determines the orientation of the subject's face and this orientation based on the positional relationship of facial parts (eyes, ears, nose, mouth, etc.) included in the facial image of the captured image of the subject. may be detected.
  • the image recognition unit 12 determines the orientation of the subject's body and this orientation based on the positional relationship of body parts (neck, waist, shoulders, etc.) included in the whole body image of the photographed image of the subject. A maintained duration may be detected.
  • the image recognition unit 12 may detect the position of the subject based on the photographed image of the subject.
  • the image recognition unit 12 may detect the position of the subject based on a characteristic object in the photographed scene in the event EV.
  • characteristic objects in the photographed scene of the event EV include a lectern, a lectern, a whiteboard, and the like.
  • Information on characteristic objects may be registered by the user, or may be extracted by the image recognition unit 12 through image analysis.
  • the image recognition unit 12 may detect, based on the photographed image of the subject, the behavior content indicating the behavior of the subject, and the duration for which the behavior is maintained.
  • the image recognition unit 12 may detect the amount of movement of the subject based on the captured image of the subject. For example, the image recognition unit 12 may detect the amount of movement of the subject based on time-series data of captured images. Note that if another person who is not the subject of tracking photography is included in the captured image of the subject, the image recognition unit 12 may also estimate the amount of movement of the other person.
  • the tracking determination unit 13 determines the necessity of stopping the currently executed tracking shooting based on whether the state of the subject being tracked (the main subject identified by the above method) satisfies a predetermined condition. Determine. Specifically, if the tracking determination unit 13 determines that the state of the subject satisfies the tracking stop condition based on the state recognized by the image recognition unit 12, the tracking determination unit 13 determines whether it is necessary to stop the tracking shooting that is currently being performed. It is determined that there is. Specific examples are given below.
  • the tracking determination unit 13 determines whether the subject and the tracking target are different by comparing the body feature of the subject with the body feature detected from a captured image of a person registered in advance as a tracking target. If it is estimated that the person is a different person, it is determined that tracking photography needs to be stopped.
  • the tracking determination unit 13 stops tracking shooting if it is determined that the subject is facing in a predetermined direction for a certain period of time or more based on the detection result of the detected body orientation of the subject. It is determined that it is necessary to More specifically, if it is determined that the subject is facing away from the imaging device 10 for a certain period of time or more, it is determined that tracking photography needs to be stopped.
  • the tracking determination unit 13 determines a position where the original tracking target is estimated to exist (for example, within a predetermined range centered on the lectern, or within a predetermined range centered on the lectern), based on the detection result of the detected position of the subject. If it is determined that the subject does not exist at a position within a predetermined range centered on the whiteboard or a position within a predetermined range centered on the whiteboard, it is determined that tracking photographing needs to be stopped.
  • the tracking determination unit 13 is required to stop tracking shooting if it is determined that the subject has not shown a predetermined behavior for a certain period of time or more based on the detection result of the detection of the subject's behavior. It is determined that there is. More specifically, if it is determined that the subject has not spoken for a certain period of time or more, the tracking determination unit 13 determines that it is necessary to stop tracking photography.
  • the tracking determination unit 13 needs to stop tracking shooting when it is determined that the amount of movement of the subject deviates from a predetermined range of action amount depending on the movement that the tracking target should take. It is determined that there is. Note that, if another person who is not the target of tracking shooting is included in the photographed image of the subject, the tracking determination unit 13 compares the amount of movement of the other person with the amount of movement of the subject. Based on the comparison result, if it is estimated that the subject is not performing the action that the tracking target should take, it may be determined that tracking photography needs to be stopped.
  • the tracking target may be stopped.
  • the amount of movement corresponding to the subject may fall outside of that range. If the tracking target is moving too much (for example, if the tracking target is moving too much and the amount of movement of the tracking target is larger than the threshold value TH2), the tracking target may be stopped.
  • the view angle control unit 14 stops tracking and photographing the subject according to the necessity determination result. Specifically, when it is determined that it is necessary to stop the tracking shooting, the view angle control unit 14 stops the tracking shooting of the subject and changes the current imaging range in which the subject is focused (for example, Control is performed to switch from the angle of view A2 in FIG. 2 to a broader imaging range that does not focus on the subject (for example, the angle of view A1 in FIG. 2). Note that, as described with reference to FIG. 2, the view angle control unit 14 does not necessarily need to change the view angle to the view angle A1 that allows capturing an overhead image. For example, the angle of view control unit 14 may change the angle of view to the angle of view A3 by zooming out to the angle of view A3 at which major objects existing around the subject are within the imaging range.
  • the output unit 15 outputs the captured image captured by the imaging unit 11 to a predetermined device.
  • the output unit 15 may output the photographed image to a front screen (not shown) of its own device (imaging device 10). Further, the output unit 15 may output the photographed image to a display screen (not shown) of the user device 20 or external device X.
  • the storage unit 16 stores captured images captured by the imaging unit 11. Further, the storage unit 16 may also store an information processing program according to the embodiment.
  • FIG. 4 is a flowchart showing the overall flow of information processing performed by the imaging device 10.
  • the view angle control unit 14 controls the imaging unit 11 to start photographing the event EV at the view angle A1 for pre-processing related to tracking determination processing (for example, image recognition processing to identify a tracking target). do. That is, the view angle control unit 14 causes the imaging unit 11 to shift to the normal imaging mode and start imaging (step S401).
  • the angle of view A1 may be a wide angle of view suitable for specifying a tracking target.
  • the imaging unit 11 captures one frame worth of captured images at a specific timing via a lens in response to the start of shooting in the normal shooting mode.
  • the view angle control unit 14 determines whether the imaging unit 11 is tracking the subject in the captured image (step S402). That is, the view angle control unit 14 determines whether the shooting mode is the normal shooting mode or the tracking shooting mode.
  • step S403 the image recognition unit 12 identifies a subject to be tracked from among the subjects in the captured images by subjecting the captured captured images to image recognition processing in a time-series manner. For example, if an image of a person to be tracked is registered in advance, the image recognition unit 12 performs matching (based on feature amounts) between this registered image and each subject image included in the captured captured image. The subject to be tracked may be identified by matching). In this manner, the view angle control unit 14 may determine to start the tracking determination process when the subject to be tracked is specified.
  • the view angle control unit 14 controls so that tracking photographing of the main subject, which is the subject specified as the tracking target, is started.
  • the view angle control unit 14 switches to the tracking shooting mode (that is, determines the shooting mode to the tracking shooting mode) when the main subject satisfies a specific condition, and controls the imaging unit 11 to start tracking shooting. You can control it.
  • the view angle control unit 14 changes the main subject from the angle of view A1.
  • the imaging unit 11 is controlled to switch to the focused view angle A2 and take an image.
  • the imaging device 10 identifies the subject to be tracked and determines to start shooting in the tracking shooting mode. Note that, if the tracking target cannot be specified, the imaging device 10 determines to continue shooting in the normal shooting mode.
  • step S404 tracking determination processing using the tracking stop condition is performed (step S404).
  • the view angle control unit 14 determines the shooting mode to be the normal shooting mode. Furthermore, when it is determined that there is no need to stop tracking, the view angle control unit 14 determines the shooting mode to be the tracking shooting mode.
  • the view angle control unit 14 determines whether the currently determined shooting mode is the tracking shooting mode based on the result of the tracking start judgment in step S403 or the result of the tracking judgment process in step S404 (step S405). For example, based on the determination result by the tracking determination unit 13, if it is determined that there is a need to stop tracking, the shooting mode is determined to be the normal shooting mode, and if it is determined that there is no need to stop tracking, the shooting mode is determined. is set to tracking shooting mode.
  • the view angle control unit 14 stops tracking shooting and takes a bird's-eye view at the original angle of view A1.
  • the imaging unit 11 is controlled to capture a video (step S407).
  • the view angle control unit 14 continues tracking shooting of the main subject identified in step S403. (step S406).
  • the view angle control unit 14 may perform PTZ control so that the main subject falls within a predetermined view angle (for example, view angle A2).
  • the output unit 15 outputs to a designated destination video (for example, streaming video) that is a captured image accumulated in the storage unit 16 and that is generated from a captured image during the period when the event EV was being performed. Step S408).
  • a designated destination video for example, streaming video
  • the view angle control unit 14 determines whether or not the shooting of the event EV has ended. For example, the view angle control unit 14 determines whether shooting has ended based on whether an instruction to end shooting has been input to the imaging device 10 (step S409). That is, the view angle control unit 14 determines that the shooting has ended when an instruction to end the shooting has been input. Further, for example, the view angle control unit 14 may perform the following based on the image recognition result for the captured image or the notification indicating the end of the event EV received from the user device 20 (input by the user reporting the end of the event EV). It may be determined that the event EV has ended, and when it is determined that the event EV has ended, it may be determined that the imaging has ended.
  • step S409 When the shooting is finished (step S409; Yes), the view angle control unit 14 ends the information processing in shooting the event EV. On the other hand, while the photographing is not completed (step S409; No), the view angle control unit 14 shifts the process to step S402 for the next frame.
  • steps S402 to S409 is not limited to being performed every frame, but may be performed every several frames.
  • FIG. 5 is a flowchart showing the flow of tracking determination processing executed by the imaging device 10.
  • FIG. 5 shows a seven-step tracking determination process using seven tracking stop conditions, there is no limitation as to which tracking stop conditions are used and in what order to perform the tracking determination process. Furthermore, it is not necessarily necessary to use all seven tracking stop conditions, and it is sufficient to use at least one condition.
  • the tracking determination unit 13 determines whether or not the main subject is lost in tracking based on the result of image recognition processing on a photographed image obtained by tracking photography. For example, if the main subject is not shown within the captured image (within the shooting range) for a predetermined time or longer, the tracking determination unit 13 determines that the main subject is lost, and the tracking determination unit 13 determines that the main subject is lost, and If the subject is shown, it may be determined that the main subject is not lost. If the main subject is lost (Yes), the tracking determining unit 13 recognizes that the tracking stop condition is satisfied and determines that tracking photography needs to be stopped.
  • the tracking determination unit 13 recognizes that the tracking stop condition is not satisfied and determines that there is no need to stop tracking photography. Examples of losing the main subject include when the main subject moves out of the shooting range while trying to pick up something that has been dropped, or when the main subject moves faster than the tracking speed and moves out of the shooting range. There may be cases where the main subject is in a posture, hairstyle, or clothing that cannot be recognized by the image recognition unit 12, or where the lighting in the photographing environment is of such brightness that the main subject cannot be recognized by the image recognition unit 12.
  • the tracking determination unit 13 uses feature quantities extracted from the captured image of the main subject (for example, facial feature quantity, skeletal feature quantity, and worn object feature quantity) and a captured image of a person registered in advance as a tracking target. By comparing the extracted feature amounts, it is determined whether the main subject and the original tracking target are different people. For example, the tracking determination unit 13 determines that the main subject and the original tracking target are different people when the feature quantities of both do not match, and the tracking determination unit 13 determines that the main subject and the original tracking target are different people when the feature quantities of both match. It may be determined that the tracking target is the same person.
  • the tracking determination unit 13 recognizes that the tracking stop condition is satisfied and determines that tracking photography needs to be stopped. On the other hand, if the main subject and the original tracking target are the same person (No), the tracking determination unit 13 recognizes that the tracking stop condition is not satisfied and determines that there is no need to stop tracking shooting. .
  • the tracking determination unit 13 determines the main subject based on the body orientation (for example, face orientation or whole body orientation) detected from the photographed image of the main subject and the duration for which this orientation is maintained. It is determined whether the subject continues to face a predetermined direction for a predetermined period of time or more.
  • the predetermined direction here may be changed as appropriate depending on the shooting scene of the event EV. For example, if the shooting scene of the event EV is a scene in which a teacher is teaching to students in a university class, the original tracking target (teacher) should be facing the direction of the imaging device 10 (that is, the front), and (If the back of the main subject's head is shown), it is suspected that the current main subject is not the original tracking target. Therefore, if the event EV is a scene in which a teacher teaches to students in a university class, the predetermined direction may be determined as the direction opposite to the direction of the imaging device 10 (ie, the rear).
  • the main subject generally faces in a fixed direction, but there are cases where the main subject faces in a different direction for just an instant.
  • the duration during which the main subject faces in a fixed direction may be reset, and the imaging device 10 may be controlled so as not to switch to measuring the duration during which the main subject faces in a different direction.
  • a predetermined direction for example, a direction unsuitable for the shooting scene of the event EV: for example, backward
  • the tracking determination unit 13 recognizes that the tracking stop condition is not satisfied and determines that there is no need to stop tracking shooting. .
  • the tracking determination unit 13 also determines whether the main subject has not been present at the position where the original tracking target is estimated to be present for a predetermined period of time or more, based on the position of the main subject detected from the captured image of the main subject (the position of the subject based on a characteristic object in the captured scene in the event EV) and the duration that the main subject remains at this position.
  • the original tracking target (teacher) should be within the range of the podium, around the desk, within the range of a whiteboard, etc., and if the main subject is in a position that does not include these objects (for example, around the student's desk), it is suspected that the current main subject is not the original tracking target. Therefore, if the event EV is a scene in which a teacher is teaching students in a university class, the podium, desk, whiteboard, etc. may be defined as objects.
  • the imaging device 10 may reset the duration in the state of being around the object and control the imaging device 10 so as not to switch to measurement of the duration in a distant position.
  • the tracking determination unit 13 determines that the tracking stop condition is satisfied if the main subject is not present at the position where the original tracking target is estimated to exist for a predetermined period of time or more (Yes). The camera recognizes this and determines that it is necessary to stop tracking photography. On the other hand, if the main subject continues to exist at the position where the original tracking target is estimated to exist (No), the tracking determination unit 13 recognizes that the tracking stop condition is not satisfied and performs tracking shooting. It is determined that there is no need to stop.
  • the tracking determination unit 13 determines that the main subject continues to exhibit a specific behavior for a predetermined period of time or more, based on the behavior of the main subject detected from the photographed image of the main subject and the duration for which the behavior is maintained. It is determined whether or not the state is not. For example, if the shooting scene of the event EV is a scene in which a teacher teaches to students in a university class, the original tracking target (teacher) should take the action of speaking to the students; , it is suspected that the current main subject is not the original tracking target. Therefore, if the event EV is a scene in which a teacher teaches to students in a university class, the action of talking to the other person may be determined as a specific action.
  • the imaging device 10 may reset the duration of the speaking state and control the imaging device 10 so as not to switch to measurement of the duration of the non-speaking state.
  • the tracking determination unit 13 recognizes that the tracking stop condition is satisfied and needs to stop tracking shooting. It is determined that there is. On the other hand, if the main subject continues to exhibit a specific behavior (No), the tracking determination unit 13 recognizes that the tracking stop condition is not satisfied and determines that there is no need to stop tracking shooting. .
  • the tracking determination unit 13 also determines whether the main subject has not shown a specific emotional reaction for a predetermined period of time or more, based on the emotional reaction of the main subject detected from the photographed image of the main subject. Determine whether For example, if the shooting scene of the event EV is a scene in which a teacher teaches to students in a university class, the original tracking target (teacher) should regularly show emotional reactions such as laughing or getting angry; If not, it is suspected that the current main subject is not the original tracking target. Therefore, if the event EV is a scene in which a teacher teaches to students in a university class, laughing/getting angry may be determined as the emotional reaction.
  • the tracking determination unit 103 recognizes that the tracking stop condition is met and determines that it is necessary to stop tracking and photographing. On the other hand, if the main subject periodically shows a specific emotional response (No), the tracking determination unit 103 recognizes that the tracking stop condition is not met and determines that it is not necessary to stop tracking and photographing.
  • the tracking determination unit 103 also determines whether the amount of movement of the main subject detected from the photographed image of the main subject is outside the range of the amount of movement predetermined according to the movement that the original tracking target should take. judge. For example, assume that statistics have been obtained that show that the amount of movement of the original tracking target conceptually falls within the range of AC1-AC5 (for example, greater than or equal to the threshold value TH1) in the shooting scene of the event EV. In such an example, if the amount of movement of the main subject detected from the photographed image of the subject is outside the movement amount range AC1-AC5 (for example, smaller than the threshold TH1), the tracking determination unit 103 performs tracking (Yes). It is recognized that the stop condition has been met, and it is determined that tracking photography needs to be stopped.
  • the tracking determination unit 103 determines the tracking stop condition. It is recognized that the conditions are not satisfied, and it is determined that there is no need to stop tracking photography.
  • the tracking determination unit 103 detects the amount of movement of another person who is not the target of tracking shooting because the image of the main subject is captured. In this case, it may be determined whether or not the main subject is performing an action that should be taken by the tracking target by comparing the amount of movement of another person with the amount of movement of the main subject. For example, if the amount of movement of the main subject is small compared to the amount of movement of other people, the tracking determination unit 13 determines that the movement that should be taken by the tracking target is not performed by the main subject, and other people If the amount of movement of the main subject is greater than the amount of movement of the person, it may be determined that the action that should be taken by the tracking target is being performed by the main subject.
  • the tracking determination unit 13 recognizes that the tracking stop condition is satisfied and determines that tracking photography needs to be stopped. On the other hand, if the amount of movement of the main subject is large (No), the tracking determination unit 13 recognizes that the tracking stop condition is not satisfied and determines that there is no need to stop tracking photography.
  • the information processing device may be implemented in a manner different from the above example. Therefore, a modification of the information processing apparatus according to the embodiment will be described below.
  • the imaging device 10 may track and photograph a plurality of subjects so as to fit them within the angle of view.
  • the imaging device 10 may be able to match each person with a person in the photographed image by registering in advance images of a plurality of people to be tracked, or When multiple people are designated as tracking targets, tracking photography is performed so that the multiple subjects are included in the angle of view.
  • the tracking determination unit 13 determines whether the state of each of the plurality of main subjects satisfies the tracking stop condition, and based on the relationship of the determination results between the main subjects, the tracking determination unit 13 It may be determined whether tracking photography for the subject needs to be stopped.
  • the tracking determination unit 13 determines that it is necessary to stop the tracking photography for the plurality of main subjects. For example, when the person P1 is photographed to be included in the angle of view A2 of the persons P1 and P2 having a discussion with each other on the podium, and the person P1 is out of the imaging range, the tracking determination unit 13 performs tracking. It is determined that it is necessary to stop shooting.
  • the tracking determination unit 13 determines that it is necessary to stop tracking photography for the plurality of main subjects when all of the plurality of main subjects satisfy the tracking stop condition. For example, the tracking determination unit 13 determines whether the tracking determination unit 13 detects the tracking when the persons P1 and P2 are photographed to be included in the angle of view A2 of the persons P1 and P2 who are discussing with each other on the podium, and when both the persons P1 and P2 are out of the imaging range. It is determined that it is necessary to stop shooting. On the other hand, if at least one of the plurality of main subjects does not satisfy the tracking stop condition, tracking photography is continued for all the main subjects including the main subject that satisfies the tracking stop condition.
  • the tracking determination unit 13 determines whether or not the plurality of main subjects satisfy the tracking stop condition. It may be determined that there is no need to stop tracking photography for the subject. For example, the tracking determination unit 13 determines that even if the person P1 is photographed to be included in the angle of view A2 of the persons P1 and P2 discussing with each other on the podium, and the person P1 is out of the image capturing range, the person P2 is within the image capturing range. Tracking shooting may continue until the object deviates from the object.
  • the tracking determination process is performed by the determination processing function DV included in the imaging device 10. That is, in the embodiment described above, the tracking determination process is shown when the imaging device 10 is implemented as an information processing device according to the embodiment. However, the tracking determination process may be performed by an external device X that is communicably connected to the imaging device 10. In such a case, the determination processing function DV is installed in the external device X.
  • the external device X implemented as the information processing device according to the embodiment instead of the imaging device 10 may be a notebook PC, a desktop PC, a server device, etc.; Now, an example will be shown in which the server device 30 is implemented as the information processing device according to the embodiment instead of the imaging device 10.
  • FIG. 6 is a diagram illustrating an example (1) of a schematic configuration of an information processing apparatus in a modified example of the embodiment.
  • FIG. 6 shows an example in which the imaging device 10a that does not have the determination processing function DV and the server device 30 are communicably connected.
  • the imaging device 10a may include an imaging section 11a, a control section 12a, a transmission section 13a, an output section 15a, and a storage section 16a.
  • the imaging unit 11a captures an image of a subject and generates a captured image.
  • the imaging unit 11a is, for example, an image sensor.
  • the control section 12a controls the imaging by the imaging section 11a, and transmits the photographed image obtained by the imaging according to the control to the output section 15a and the storage section 16a.
  • the transmitting unit 13a transmits the captured image captured by the imaging unit 11a to the server device 30.
  • the server device 30 is communicably connected to the imaging device 10a having a shooting function, and includes an acquisition section 301, an image recognition section 312, a tracking determination section 313, and a view angle control section 314. You can prepare.
  • the acquisition unit 301, the image recognition unit 312, the tracking determination unit 313, and the view angle control unit 314 are processing units that control tracking determination processing, and correspond to the determination processing function DV.
  • These processing units corresponding to the determination processing function DV use the RAM as a work area for various programs (for example, information processing programs) stored in the storage device (not shown) inside the server device 30 by the CPU, MPU, etc.
  • This is a processing unit that is realized by execution.
  • these processing units are realized by, for example, integrated circuits such as ASIC and FPGA.
  • the acquisition unit 301 acquires a photographed image obtained by tracking photographing on the imaging device 10a side. Such a captured image may be transmitted by the transmitter 13a of the imaging device 10a.
  • the image recognition unit 312 is a processing unit corresponding to the image recognition unit 12 in FIG. 3, and performs image recognition processing on captured images. For example, the image recognition unit 312 may identify the main subject by analyzing a photographed image obtained by overhead photographing on the imaging device 10a side. Further, the image recognition unit 312 may recognize the state of the main subject by analyzing the photographed image of the main subject obtained by tracking photography on the imaging device 10a side.
  • the tracking determination unit 313 is a processing unit corresponding to the tracking determination unit 13 in FIG. 3, and performs tracking determination processing according to the embodiment. Specifically, the tracking determination unit 313 determines whether the currently executed tracking imaging needs to be stopped based on whether the state of the main subject satisfies the tracking stop condition. More specifically, if the tracking determination unit 313 determines that the state of the main subject satisfies the tracking stop condition based on the state recognized by the image recognition unit 312, the tracking determination unit 313 determines whether or not to stop the tracking shooting that is currently being performed. It is determined that there is a need.
  • the angle of view control unit 314 is a processing unit corresponding to the angle of view control unit 14 in FIG. 3, and stops tracking and photographing the main subject depending on the result of the determination of the need to stop tracking.
  • the angle of view control unit 314 controls the imaging device 10a (control unit 12a) to stop tracking and photographing the main subject, and to switch from the current imaging range (angle of view A2) focused on the main subject to a wider imaging range (angle of view A1) not focused on the main subject.
  • the view angle control unit 314 controls the imaging device 10a (control unit 12a) to track and shoot the main subject identified by the image recognition unit 312. You may also perform processing to The control unit 12a controls the imaging unit 11b to perform tracking photography of the main subject based on the information received from the view angle control unit 314.
  • the imaging device 10a only needs to provide the captured image to the server device 30, and the tracking determination process itself is performed on the server device 30 side. According to such a configuration, for example, even an imaging device (imaging device 10a) that is an old model and does not have computational resources can be used at the site of tracking determination processing. There is no need to introduce In other words, there is an advantage that there is no introduction cost.
  • FIG. 7 shows, as an example of multi-camera cooperation, an example in which an imaging device 10b that performs tracking photography and an imaging device 10c that performs overhead photography are cooperated.
  • FIG. 7 is a diagram illustrating an example (2) of a schematic configuration of an information processing apparatus in a modified example of the embodiment. As shown in FIG. 7, an imaging device 10b that does not have the determination processing function DV and is specialized only for tracking photography, and an imaging device 10b that has the determination processing function DV may be multi-linked.
  • the imaging device 10b may include an imaging section 11b, a control section 12b, an output section 15b, and a storage section 16b.
  • the imaging unit 11b captures an image of a subject and generates a captured image.
  • the imaging unit 11b is, for example, an image sensor.
  • the control section 12b controls the imaging by the imaging section 11b, and transmits the captured image obtained by the imaging according to the control to the output section 15b and the storage section 16b.
  • the control unit 12b controls the imaging unit 11b to perform tracking photography of the main subject based on information received from the view angle control unit 14c of the imaging device 10c.
  • the imaging device 10c is communicably connected to the imaging device 10b having a shooting function, and includes an imaging section 11c, an image recognition section 12c, a tracking determination section 13c, a view angle control section 14c, It may include an output section 15c and a storage section 16c.
  • the image recognition unit 12c, the tracking determination unit 13c, and the view angle control unit 14c are processing units that manage the tracking determination process according to the embodiment, and correspond to the determination processing function DV.
  • various programs for example, information processing programs stored in the storage unit 16c inside the imaging device 10c are executed by the CPU, MPU, etc. using the RAM as a work area.
  • This is a processing unit realized by Further, these processing units are realized by, for example, integrated circuits such as ASIC and FPGA.
  • the imaging unit 11c captures an image of a subject and generates a captured image.
  • the imaging unit 11c is, for example, an image sensor.
  • the imaging unit 11c may perform bird's-eye photography at an angle of view controlled by the angle of view control unit 14c.
  • the image recognition unit 12c is a processing unit corresponding to the image recognition unit 12 in FIG. 3, and performs image recognition processing on the photographed image.
  • the image recognition unit 12c may identify the main subject by analyzing a photographed image obtained by overhead photographing of its own device (imaging device 10c).
  • the view angle control section 14c may instruct the control section 12b to track and photograph the main subject specified by the image recognition section 12c.
  • the control unit 12b controls the imaging unit 11b to perform tracking photography of the main subject based on information regarding the main subject received from the view angle control unit 14c.
  • the image recognition unit 12c may recognize the state of the main subject by analyzing a captured image including the main subject obtained by overhead photography.
  • the tracking determination unit 13c is a processing unit corresponding to the tracking determination unit 13 in FIG. 3, and performs tracking determination processing according to the embodiment. Specifically, the tracking determination unit 13c determines whether or not the currently executed tracking imaging needs to be stopped, based on whether the state of the main subject satisfies the tracking stop condition. More specifically, if the tracking determination unit 13c determines that the state of the main subject satisfies the tracking stop condition based on the state recognized by the image recognition unit 12c, the tracking determination unit 13c determines whether or not to stop the tracking shooting that is currently being performed. It is determined that there is a need.
  • the view angle control unit 14c is a processing unit corresponding to the view angle control unit 14 in FIG. 3, and stops tracking photography of the main subject according to the determination result of the necessity of stopping tracking. In the example of FIG. 7, if it is determined that tracking shooting needs to be stopped, the view angle control unit 14c stops tracking shooting of the main subject, and sets the current imaging range focused on the main subject ( The imaging device 10b (control unit 12b) is controlled to switch from the angle of view A2) to a wider imaging range (angle of view A1) that does not focus on the main subject.
  • the angle-of-view control unit 14c may also control overhead photography by the imaging unit 11c, and transmit the captured image obtained by imaging in accordance with the control to the output unit 15b and the storage unit 16b.
  • the imaging device 10b that performs bird's-eye photography is caused to perform tracking determination processing, and the viewing angle control is performed on the imaging device 10c in accordance with the determination result.
  • the imaging device 10b performs everything from image recognition processing for a bird's-eye photographed image that captures the entire event EV to tracking determination processing based on the recognition result, so although it has a tracking shooting function, it is subjected to tracking determination processing.
  • a conventional imaging device imaging device 10c
  • imaging device 10c that does not have sufficient computational resources can be used as is.
  • FIG. 7 Other configurations of the information processing device>
  • a series of tracking determination processes are performed on the side of the imaging device 10b that performs bird's-eye imaging, and the imaging device 10c that performs tracking imaging receives control from the imaging device 10b according to the determination result to perform tracking imaging.
  • the tracking determination processing may be realized in a form in which both imaging devices 10 cooperate.
  • FIG. 8 shows an example of multi-camera cooperation in which an imaging device 10d that performs overhead photography and an imaging device 10e that performs tracking photography are cooperated.
  • FIG. 8 is a diagram illustrating an example (3) of a schematic configuration of an information processing apparatus in a modified example of the embodiment.
  • the imaging device 10d may have the image recognition function
  • the imaging device 10e may have the tracking determination processing function using the tracking stop condition.
  • the imaging device 10e performs tracking based on state information indicating the state of the main subject recognized by the imaging device 10d, which is obtained as an analysis result of the captured image obtained by overhead shooting by the imaging device 10d. Perform judgment processing.
  • the imaging device 10d may include an imaging section 11d, an image recognition section 12d, a transmission section 13d, a control section 14d, an output section 15d, and a storage section 16d.
  • the imaging unit 11d images the subject and generates a captured image.
  • the imaging unit 11d is, for example, an image sensor.
  • the image recognition unit 12d is a processing unit corresponding to the image recognition unit 12 in FIG. 3, and performs image recognition processing on the photographed image.
  • the image recognition unit 12d may identify the main subject by analyzing a photographed image obtained by overhead photographing by its own device (imaging device 10d). Further, the image recognition unit 12d may recognize the state of the main subject by analyzing a photographed image including the main subject obtained by overhead photography.
  • the transmitting unit 13d transmits information regarding the recognition result by the image recognizing unit 12d to the imaging device 10e.
  • the transmitter 13d may transmit information indicating the main subject (information indicating who the main subject is) to the imaging device 10e, thereby causing the imaging device 10e to perform tracking photography of the main subject.
  • the transmitting unit 13d may cause the imaging device 10e to perform tracking determination processing based on the state of the main subject by transmitting state information indicating the state of the main subject to the imaging device 10e.
  • the status information includes, for example, information indicating the orientation of the main subject's face and entire body, information indicating a predetermined action, and the like.
  • the control unit 14d may control bird's-eye photography by the imaging unit 11d, and transmit the photographed image obtained by imaging according to the control to the output unit 15d and the storage unit 16d.
  • the imaging device 10e may include an imaging section 11e, an acquisition section 12e, a tracking determination section 13e, a view angle control section 14e, an output section 15e, and a storage section 16e.
  • the imaging unit 11e captures an image of a subject and generates a captured image.
  • the imaging unit 11e is, for example, an image sensor.
  • the imaging unit 11e may perform tracking photography at an angle of view controlled by the angle of view control unit 14e.
  • the acquisition unit 12e acquires information transmitted by the transmission unit 13d of the imaging device 10d.
  • the acquisition unit 12e may acquire information indicating the main subject or state information indicating the state of the main subject.
  • the tracking determination unit 13e is a processing unit corresponding to the tracking determination unit 13 in FIG. 3, and performs tracking determination processing according to the embodiment. Specifically, the tracking determination unit 13e determines whether or not the tracking shooting that is currently being performed is based on whether the state (state of the main subject) indicated by the state information acquired by the acquisition unit 12e satisfies the tracking stop condition. Determine the necessity of stopping. More specifically, if it can be determined that the state of the main subject satisfies the tracking stop condition, the tracking determination unit 13e determines that there is a need to stop the currently executed tracking imaging.
  • the view angle control unit 14e is a processing unit corresponding to the view angle control unit 14 in FIG. 3, and stops tracking photography of the main subject according to the determination result of the necessity of stopping tracking.
  • the view angle control unit 14e controls the imaging unit 11e to stop tracking photography of the main subject when it is determined that tracking photography needs to be stopped.
  • the view angle control unit 14e may control tracking photography by the imaging unit 11e, and transmit a captured image obtained by imaging according to the control to the output unit 15e and the storage unit 16e.
  • the tracking determination function DV is distributed between the imaging device 10d that performs bird's-eye photography and the imaging device 10e that performs tracking imaging, so that both imaging devices 10 cooperate to determine tracking. Processing is accomplished.
  • the imaging device 10d is good at image recognition processing in that it can acquire a bird's-eye shot image that captures the entire event EV
  • the imaging device 10e is good at tracking determination processing in that it performs tracking shooting. Since this is combined, it is possible to more accurately determine whether or not to stop tracking photography of the main subject.
  • FIG. 9 is a block diagram illustrating an example hardware configuration of a computer corresponding to the information processing apparatus according to the embodiment of the present disclosure. Note that FIG. 9 shows an example of the hardware configuration of a computer corresponding to the information processing apparatus according to the embodiment of the present disclosure, and the configuration is not limited to that shown in FIG. 9.
  • the computer 1000 includes a CPU (Central Processing Unit) 1100, a RAM (Random Access Memory) 1200, a ROM (Read Only Memory) 1300, an HDD (Hard Disk Drive) 1400, a communication interface 1500, and an input/output It has an interface 1600.
  • CPU Central Processing Unit
  • RAM Random Access Memory
  • ROM Read Only Memory
  • HDD Hard Disk Drive
  • the CPU 1100 operates based on a program stored in the ROM 1300 or the HDD 1400 and controls each part. For example, the CPU 1100 loads programs stored in the ROM 1300 or HDD 1400 into the RAM 1200, and executes processes corresponding to various programs.
  • the ROM 1300 stores boot programs such as BIOS (Basic Input Output System) that are executed by the CPU 1100 when the computer 1000 is started, programs that depend on the hardware of the computer 1000, and the like.
  • BIOS Basic Input Output System
  • HDD 1400 is a computer-readable recording medium that non-temporarily records programs executed by CPU 1100 and data used by such programs. Specifically, HDD 1400 records program data 1450.
  • Program data 1450 is an example of an information processing program for realizing an information processing method according to an embodiment of the present disclosure, and data used by such information processing program.
  • the communication interface 1500 is an interface for connecting the computer 1000 to an external network 1550 (for example, the Internet).
  • CPU 1100 receives data from other devices or transmits data generated by CPU 1100 to other devices via communication interface 1500.
  • the input/output interface 1600 is an interface for connecting the input/output device 1650 and the computer 1000.
  • CPU 1100 receives data from an input device such as a keyboard or mouse via input/output interface 1600. Further, the CPU 1100 transmits data to an output device such as a display device, speaker, or printer via the input/output interface 1600.
  • the input/output interface 1600 may function as a media interface that reads programs and the like recorded on a predetermined recording medium. Examples of media include optical recording media such as DVD (Digital Versatile Disc) and PD (Phase change rewritable disk), magneto-optical recording media such as MO (Magneto-Optical disk), tape media, magnetic recording media, semiconductor memory, etc. It is.
  • the CPU 1100 of the computer 1000 executes the information processing program loaded on the RAM 1200, as shown in FIG.
  • the various processing functions executed by each process are realized. That is, the CPU 1100, the RAM 1200, and the like realize the information processing method by the information processing apparatus according to the embodiment of the present disclosure in cooperation with software (information processing program loaded onto the RAM 1200).
  • the present disclosure can also have the following configuration.
  • a determination unit that determines whether or not the state of the subject being tracked and photographed satisfies a predetermined condition, and determines whether it is necessary to stop the currently executed tracking and photographing;
  • An information processing device comprising: a control unit that stops tracking photographing of the subject according to the necessity determination result.
  • the control unit stops the tracking photography of the subject and does not focus on the subject from the current imaging range where the subject is focused.
  • (3) further comprising an image recognition unit that recognizes the state of the subject by analyzing the photographed image of the subject obtained by the tracking photography;
  • the information described in (1) above wherein the determination unit determines that there is a need to stop the tracking photography that is currently being executed when the state of the subject indicated by the recognition result satisfies the predetermined condition. Processing equipment.
  • the image recognition unit detects a feature amount of the body of the subject from a photographed image of the subject, The determination unit determines that the subject and the tracking target are different by comparing the body feature quantity of the subject with the body feature quantity detected from a photographed image of a person registered in advance as a tracking target.
  • the information processing device according to (3) above, in which it is determined that it is necessary to stop the tracking photographing when it is estimated.
  • the image recognition unit detects a body orientation of the subject from a photographed image of the subject, The determination unit stops the tracking photographing when it is determined that the subject continues to face a predetermined direction for a certain period of time or more based on the detection result of the body orientation of the subject.
  • the information processing device determines that it is necessary to perform the following operations.
  • the image recognition unit detects the position of the subject based on a captured image of the subject, The determining unit is configured to perform the tracking shooting when it is determined that the subject is not present at a position where the original tracking target is estimated to exist based on the detection result of the position of the subject.
  • the information processing device according to (3) above which determines that it needs to be stopped.
  • the image recognition unit detects the behavior of the subject based on the photographed image of the subject, The determining unit is required to stop the tracking photographing when it is determined that the subject does not exhibit a predetermined behavior for a certain period of time or more based on the detection result of the detected behavior of the subject.
  • the information processing device which determines that there is.
  • the image recognition unit detects the amount of movement of the subject based on a captured image of the subject, The determination unit is required to stop the tracking and photographing when it is determined that the amount of movement of the subject deviates from a predetermined range of movement amount according to the movement that the tracking target should take.
  • the information processing device according to (3) above.
  • the image recognition unit determines the amount of movement of the subject based on the photographed image; detecting the amount of movement of the other person;
  • the determination unit is configured to perform the tracking when it is estimated that the movement that should be taken by the tracking target is not performed by the subject based on a comparison between the amount of movement of the subject and the amount of movement of the other person.
  • the determination unit determines whether the state of each of the multiple subjects satisfies the predetermined condition, and determines whether or not the status of each of the multiple subjects satisfies the predetermined condition.
  • the information processing device according to (1), wherein the necessity of stopping tracking photography for the plurality of subjects is determined based on the relationship of the determination results.
  • the determination unit determines that tracking photography for the plurality of subjects needs to be stopped when any one of the plurality of subjects satisfies the predetermined condition. ).
  • (12) The information set forth in (11) above, wherein the determination unit determines that tracking photography for the plurality of subjects needs to be stopped when all of the plurality of subjects satisfy the predetermined condition. Processing equipment.
  • the determination unit performs tracking of the plurality of subjects until the remaining subjects also satisfy the predetermined condition.
  • the information processing device according to (11) above, wherein it is determined that there is no need to stop photographing.
  • the information processing device is communicably connected to an imaging device having a shooting function, The determination unit determines whether or not the currently executed tracking photography needs to be stopped, based on whether the state of the subject being tracked and photographed by the imaging device satisfies a predetermined condition; If it is determined that the tracking photography needs to be stopped, the control unit stops the tracking photography of the subject, and changes the current imaging range focused on the subject from not focusing on the subject.
  • the information processing device wherein the imaging device is controlled to switch to a wide imaging range and take pictures.
  • the information processing device is communicably connected to an imaging device that performs a type of imaging different from that of the information processing device,
  • the information processing device includes an acquisition unit that acquires state information indicating a state of the subject recognized by the imaging device and obtained as an analysis result of an image of the subject captured by the imaging device. More prepared,
  • the determination unit determines whether or not the state of the subject indicated by the state information satisfies a predetermined condition, based on whether or not the currently executed tracking imaging needs to be stopped; If it is determined that the tracking photography needs to be stopped, the control unit stops the tracking photography of the subject and does not focus on the subject from the current imaging range where the subject is focused.
  • the information processing device controls itself so as to switch to a wider imaging range.
  • the information processing device is communicably connected to another imaging device that performs a different type of imaging from the information processing device,
  • the information processing device further includes an acquisition unit that acquires state information indicating a state of the subject recognized by the device and obtained as a result of an analysis of an image of the subject taken by the device. Prepare,
  • the determination unit determines whether or not the state of the subject indicated by the state information satisfies a predetermined condition, based on whether or not the currently executed tracking imaging needs to be stopped; If it is determined that the tracking photography needs to be stopped, the control unit stops the tracking photography of the subject, and changes the current imaging range focused on the subject from not focusing on the subject.
  • the information processing device wherein the other imaging device is controlled to switch to a wide imaging range and take pictures.
  • An information processing method executed by an information processing device comprising: a determination step of determining whether or not the state of the subject being tracked and photographed satisfies a predetermined condition, and whether or not the currently executed tracking and photographing needs to be stopped; and a control step of stopping tracking photographing of the subject according to the necessity determination result.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Studio Devices (AREA)
  • Image Analysis (AREA)

Abstract

本開示に係る一形態の情報処理装置は、追尾撮影されている被写体の状態が所定の条件を満たすか否かに基づいて、現在実行されている追尾撮影の停止の必要性を判定する判定部と、必要性の判定結果に応じて、被写体の追尾撮影を停止させる制御部とを備える。

Description

情報処理装置、情報処理方法および情報処理プログラム
 本開示は、情報処理装置、情報処理方法および情報処理プログラムに関する。
 従来、撮影画像に映された物体を追尾する技術が提案されている。例えば、特許文献1では、画面内で複数の人物が交差したような場合であっても、本来の追尾対象を確実に追尾する手法が提案されている。
特開2010-243730号公報
 例えば、上記の従来技術では、追尾中において、今回取り込まれた1フレーム画像中に複数人物が存在する場合、各人物の顔および顔向きと、前回取り込まれた1フレーム画像中の人物の顔および顔向きとの照合により、今回の1フレーム画像中の人物の中から正しい追尾対象を検出するという処理を、フレーム画像の取り込みに応じて連続して行うという処理が実行されている。
 このような上記の従来技術によれば、例えば、追尾している人物の前を他の人物が横切った場合に、追尾を失敗したり追尾対象でない人物を追いかけたりしてしまうという問題については解決され得る。一方で、上記の従来技術には、横切った人物との顔が似ていた場合には、この人物が誤って追尾されてしまうという問題が依然として残されている。
 このように、本来の追尾対象とは異なる誤った物体が追尾され続けてしまうと、利用者にとって価値のない映像が得られてしまう。そこで、追尾撮影されている被写体が本来の追尾対象とは異なることが疑われる場合には、本来の追尾対象を再認識し直すことができる自動リカバリー機能が求められている。
 そこで、本開示では、誤った追尾撮影による無価値な映像が得られる機会を効果的に減らすことができる情報処理装置、情報処理方法および情報処理プログラムを提案する。
 上記の課題を解決するために、本開示に係る一形態の情報処理装置は、追尾撮影されている被写体の状態が所定の条件を満たすか否かに基づいて、現在実行されている前記追尾撮影の停止の必要性を判定する判定部と、前記必要性の判定結果に応じて、前記被写体の追尾撮影を停止させる制御部とを備える。
実施形態に係るシステムの構成を示す図である。 実施形態に係る追尾判定処理の概要を示す図である。 実施形態に係る情報処理装置の概略構成の一例を示す図である。 撮像装置が実行する情報処理全体の流れを示すフローチャートである。 撮像装置が実行する追尾判定処理の流れを示すフローチャートである。 実施形態に係る変形例における情報処理装置の概略構成の一例(1)を示す図である。 実施形態に係る変形例における情報処理装置の概略構成の一例(2)を示す図である。 実施形態に係る変形例における情報処理装置の概略構成の一例(3)を示す図である。 実施形態に係る情報処理装置に対応するコンピュータのハードウェア構成例を示すブロック図である。
 以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、この実施形態により本開示に係る情報処理装置、情報処理方法および情報処理プログラムが限定されるものではない。また、以下の実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。
[実施形態]
〔1.システム構成〕
 まず、図1を用いて、実施形態に係るシステムの構成を説明する。図1は、実施形態に係るシステムの構成を示す図である。図1には、実施形態に係るシステムの一例として、システム1が示される。
 図1に示すように、システム1は、撮像装置10と、利用者装置20と、外部装置Xとを備えて構成されてよい。また、撮像装置10と、利用者装置20と、外部装置Xとは、ネットワークNを介して、有線または無線により通信可能に接続されてよい。
 撮像装置10は、実施形態に係る追尾判定処理を実現する機能(判定処理機能DV)が搭載され得るカメラであってよい。判定処理機能DVが搭載された撮像装置10は、本開示の実施形態に係る情報処理装置と解することができる。
 撮像装置10は、例えば、追尾撮影が可能なカメラであればいかなるカメラであってよい。一例として、撮像装置10は、PTZ(パン・チルト・ズーム)カメラであってよい。
 外部装置Xは、撮像装置10と通信可能に接続される装置である。ここで、撮像装置10の型やスペックによっては、判定処理機能DVの搭載が不可能な場合がある。この場合、外部装置Xに判定処理機能DVを搭載することにより、撮像装置10の代わりに外部装置Xに追尾判定処理を行わせる構成を採用することができる。判定処理機能DVが搭載され得る外部装置Xとしては、ノート型PC(Personal Computer)や、デスクトップPCや、クラウド側のサーバ装置が挙げられる。このように、判定処理機能DVが搭載された外部装置Xは、本開示の実施形態に係る情報処理装置と解することができる。
 なお、システム1には、互いに通信可能な複数の撮像装置10が含まれてよく、複数の撮像装置10間で協働して追尾判定処理を実現するマルチカメラ連携を採用することができる。
 マルチカメラ連携では、追尾撮影の主となる主撮像装置10に判定処理機能DVを搭載し、他の撮像装置10(副撮像装置10)に対して主撮像装置10をサポートする情報処理を行わせる構成を採用可能である。係る例では、主撮像装置10を本開示の実施形態に係る情報処理装置と解することができる。
 また、マルチカメラ連携では、追尾撮影の主となる主撮像装置10と、主撮像装置10をサポートする役割を有する副撮像装置10との間で、判定処理機能DVを分散して搭載する構成を採用することもできる。係る例では、主撮像装置10と、副撮像装置10とで構成されるシステムを本開示の実施形態に係る情報処理装置と解することができる。
 利用者装置20は、本開示の実施形態に係る情報処理装置を制御可能な装置であり、追尾撮影による映像を所望する利用者によって利用される端末装置である。例えば、利用者装置20は、スマートフォンや、タブレット型端末や、ノート型PCや、デスクトップPCや、携帯電話機や、PDA等であってよい。
 図1には、実施形態に係る追尾判定処理が適用され得る好適なケースの一例も示される。図1の例によれば、判定処理機能DVが搭載された撮像装置10が、教壇前の教師Tの移動に合わせて撮影を追従している例が示される。係る例では、撮像装置10は、追尾撮影されている被写体すなわち教師Tの状態に基づいて、教師Tを追尾対象とする追尾撮影の停止の必要性を判定する。
 つまり、撮像装置10は、追尾対象である教師Tの状態に基づいて、追尾撮影を停止するか、あるいは、追尾撮影を継続するかを判定する。追尾撮影を停止するか、継続するかの判定は、主要な被写体となっている教師Tの状態が追尾停止条件を満たすか否かに基づき行われる。
 このような追尾判定処理は、図1の例に限らず各種のイベントEVのシーンで適用可能である。以下、ユースケースの一例を挙げる。
 例えば、本開示の実施形態に係る情報処理装置は、会議(イベントEVの一例)で適用可能である。係る例では、情報処理装置は、特定の被写体(例えば、会議の進行役)が追尾される会議映像を撮影している際に、追尾判定処理を行うことができる。情報処理装置を撮像装置10とすると、撮像装置10は、例えば、職場等の会議室に設置される場合がある。
 また、情報処理装置は、セミナー(イベントEVの一例)で適用可能である。係る例では、情報処理装置は、特定の被写体(例えば、講師)が追尾されたセミナー映像を撮影している際に、追尾判定処理を行うことができる。情報処理装置を撮像装置10とすると、撮像装置10は、例えば、セミナー会場として利用される大講堂等に設置される場合がある。
 また、情報処理装置は、競技(イベントEVの一例)で適用可能である。係る例では、情報処理装置は、特定の被写体(例えば、選手)が追尾されたライブ映像を撮影している際に、追尾判定処理を行うことができる。情報処理装置を撮像装置10とすると、撮像装置10は、例えば、競技会場に設置される場合がある。
 また、情報処理装置は、テレビ番組の作成現場(イベントEVの一例)でも利用可能である。例えば、情報処理装置は、特定の被写体(例えば、出演者)が追尾されたテレビ映像を撮影している際に、追尾判定処理を行うことができる。情報処理装置を撮像装置10とすると、撮像装置10は、例えば、番組撮影現場(例えば、撮影スタジオ)に設置される場合がある。
 また、応用的なケースとして、情報処理装置は、映画館での利用が考えられる。例えば、情報処理装置は、スクリーンに映された特定の被写体が追尾された映画切り出し映像を撮影している際に、追尾判定処理を行うことができる。情報処理装置を撮像装置10とすると、撮像装置10は、例えば、映画館に設置される場合がある。
 また、上記例以外にも情報処理装置は、ライブイベントでの特定の演者(例えば、歌い手、演奏者、バックダンサー等)を追尾撮影する際にも適用可能である。情報処理装置を撮像装置10とすると、撮像装置10は、例えば、ライブ会場(例えば、コンサートホール、劇場など)に設置される場合がある。
 以下の実施形態では、判定処理機能DVが搭載される1の撮像装置10によって実施形態に係る追尾判定処理が行われる例を示し、実施形態に係る情報処理装置の他の構成例については変形例として説明する。また、撮像は撮影に言い換えられるものとする。
〔2.追尾判定処理の全体像〕
 続いて、図2を用いて、実施形態に係る追尾判定処理の全体像を示す。図2は、実施形態に係る追尾判定処理の概要を示す図である。図2では、イベントEVとして大学での授業が行われる場面を示す。係る場合、撮像装置10は、例えば、大講堂で講義を行う教師の動き(例えば、教壇の上を左右に移動する動き)に合わせて追従する。図2に示すように、撮像装置10の動作は、画像認識(ステップS1)と、追尾判定(ステップS2)と、画角制御(ステップS3)とに大きく分けられ、この順番で処理が繰り返えされてよい。
 ここで、実施形態に係る追尾判定処理は、追尾撮影中に行われる。このため、追尾判定処理に係る前処理として、まずは、ステップS1の画像認識処理が行われてよい。
 前処理として行われる画像認識処理は、追尾対象を特定する目的で行われてよい。このため、撮像装置10は、自装置の画角を追尾対象の特定に適した画角A1になるよう制御し、画角A1を撮影した状態で画像認識処理を行う。すなわち、撮像装置10は、客観的な映像の取得を行う通常撮影モードで撮影を行う。画角A1は、イベントEV(大学での授業)の様子全体を見渡す俯瞰的な映像(特定の被写体にフォーカスしない客観性を強めた映像)を撮影可能な画角であってよい。
 追尾撮影の前処理では、撮像装置10は、レンズを介して、特定のタイミングでの1フレーム分の撮影画像を取り込む。例えば、撮像装置10は、利用者(例えば、撮像装置10のオペレーター)によって追尾撮影モードが選択されたタイミングで、画角A1に対応する1フレーム分の撮影画像を取得する。
 そして、撮像装置10は、撮影画像に対する画像認識処理によって、撮影画像中の被写体のうち、追尾対象の被写体を特定する。例えば、撮像装置10は、追尾対象となる人物の画像が予め登録されている場合には、この登録画像と、取得した撮影画像に含まれる各被写体の画像とのマッチングにより、追尾対象の被写体を特定してよい。例えば、撮像装置10は、登録画像から抽出された特徴量(例えば、顔特徴量、骨格特徴量、着用物特徴量等)と、撮影画像に含まれる各被写体画像から抽出された特徴量(例えば、顔特徴量、骨格特徴量、着用物特徴量等)とのマッチングにより、追尾対象の被写体を特定してよい。
 また、利用者は、利用者装置20を操作して、撮像装置10による撮影画像をリアルタイムに確認することができる。このため、利用者は、利用者装置20に表示される特定のGUI(Graphical User Interface)を用いて、追尾対象を指定することができる。例えば、利用者は、撮影画像に含まれる特定の対象を矩形で囲むといったユーザ操作によって、追尾対象を指定することができる。そこで、撮像装置10は、利用者装置20から追尾対象の指定を受け付けた場合には、撮影画像において指定された対象を追尾対象として認識してもよい。
 次に、撮像装置10は、追尾対象を特定できた場合には、追尾対象として特定した被写体(利用者にとっての主要な被写体)の追尾撮影を開始するための制御を行う。例えば、撮像装置10は、追尾対象を特定できた時点で、通常撮影モードから追尾撮影モードに切り替えて、追尾撮影を開始してよい。
 また、撮像装置10は、追尾対象として特定した被写体である主要被写体が特定の条件を満たした時点で追尾撮影モードに切り替えて、追尾撮影を開始してよい。特定の条件とは、追尾対象の被写体の撮影画像における位置・領域、追尾対象の被写体の動き、追尾対象の被写体の状態、撮影シーンと追尾対象の被写体との関係性に関する条件が挙げられる。例えば、撮像装置10は、レンズを介して随時取り込まれる撮影画像に対する画像認識により、主要被写体が特定の撮像範囲に入ったことを認識できた場合には、追尾撮影を開始してよい。
 また、撮像装置10は、レンズを介して随時取り込まれる撮影画像に対する画像認識により、主要被写体が特定の条件を満たしたことを認識できた場合には、追尾撮影を開始してもよい。ここで、特定の条件とは、イベントEVでの撮影シーンと、追尾対象との関係性に適した条件であることが好ましい。
 図2の例では、イベントEVでの撮影シーンとは、大学授業において教師が生徒に向かって教えるシーンである。このようなシーンでは、主要被写体が話し出す、主要被写体が笑顔になる、主要被写体がある物品(例えば、ペンライト)を所持するといった条件が、追尾撮影モードに切り替える条件として挙げられる。このような条件は、撮像装置10が、既存の機械学習技術に撮影画像を適用することでイベントEVの内容を理解して動的に定めてもよいし、利用者が撮像装置10に対して予め設定してもよい。
 また、撮像装置10による追尾撮影モードへの切り替えとは、現在の画角A1から、主要被写体にピントを合わせてフォーカスした画角A2へと切り替える処理を含むものであってよい。
 このように追尾撮影を開始すると、撮像装置10は、ステップS2の追尾判定処理に移行する。図2の例では、撮像装置10は、人物P1を主要被写体として特定したことで、随時取り込まれる撮影画像G1の中から人物P1の全身や顔部分を検出しながら、人物P1にフォーカスした状態で追尾撮影している例が示される。図2に示すように、撮像装置10は、セグメンテーション等により、人物P1の全身や顔部分を切り出すことで、人物P1を検出しながら追尾撮影してよい。以下では、人物P1を主要被写体P1と表記する場合がある。
 撮像装置10は、追尾判定処理では、主要被写体P1が追尾撮影された撮影画像G1を解析することで、主要被写体P1の状態を認識する画像認識を行う。そして、撮像装置10は、認識結果として得られた状態が追尾停止条件を満たすか否かに基づいて、追尾撮影の停止の必要性を判定するという追尾判定処理を行う。
 撮像装置10は、撮影画像G1に対してセグメンテーション(矩形で抽出)した部分画像を解析することで、主要被写体P1の状態を認識することができる。
 例えば、撮像装置10は、部分画像から顔パターンを示す特徴点を取得し、取得した特徴点を数値化することで、特徴点に対応する特徴量である顔特徴量を抽出してよい。
 また、撮像装置10は、部分画像に含まれる顔パーツ(目、耳、鼻、口等)の位置関係に基づいて、主要被写体P1の顔の向きを検出するとともに、検出した向きの継続時間を検出してよい。例えば、撮像装置10は、撮影画像G1の時系列データに基づいて、今回検出した顔の向きの状態が続いた継続時間を検出することができる。
 また、撮像装置10は、部分画像から全身パターンを示す特徴点を取得し、取得した特徴点を数値化することで、特徴点に対応する特徴量である全身特徴量を抽出してよい。
 また、撮像装置10は、部分画像に含まれる身体の部位(首、腰、肩等)の位置関係に基づいて、主要被写体P1の身体の向きを検出するとともに、検出した向きの継続時間を検出してよい。例えば、撮像装置10は、撮影画像G1の時系列データに基づいて、今回検出した身体全体の向きの状態が続いた継続時間を検出することができる。なお、撮像装置10は、上記のように顔の向きを検出した場合、検出結果が示す顔の向きを身体全体の向きと捉えてもよい。
 また、撮像装置10は、イベントEVでの撮影シーンで特徴的なオブジェクトを起点とする主要被写体P1の位置を検出してもよい。図2の例によれば、イベントEVでの撮影シーンで特徴的なオブジェクトとは、教壇、教卓、ホワイトボード等であってよい。教卓を例に挙げると、撮像装置10は、教卓を含むように定められた所定範囲に対する主要被写体P1の位置を検出してよい。
 また、撮像装置10は、主要被写体P1がどのような行動をとっているかその行動を示す行動内容と、その行動の継続時間とを検出してよい。例えば、撮像装置10は、撮影画像G1の時系列データに基づいて、行動内容や継続時間を検出することができる。
 また、撮像装置10は、主要被写体P1の動き量を検出してよい。例えば、撮像装置10は、撮影画像G1の時系列データに基づいて、主要被写体P1の動き量を検出することができる。なお、図2に示す撮影画像G1には、主要被写体P1以外にも他の人物が映り込んでいる。このように、追尾撮影の対象となっていない他の人物が映り込んでいる場合には、撮像装置10は、この他の人物の動き量も検出してよい。
 また、撮像装置10は、主要被写体P1の感情的反応を推定してもよい。例えば、撮像装置10は、撮影画像G1に対する解析結果として得られた表情に基づいて、主要被写体P1の表情の変化(例えば、無表情から笑顔へ変化)を検出し、変化を検出できた場合には、変化後の表情からその表情に対応する感情的反応(例えば、生徒に対して称賛する感情)を推定することができる。
 撮像装置10は、上記のようにして、主要被写体P1の各種状態を認識すると、主要被写体P1の状態が追尾停止条件を満たすか否かに基づいて、主要被写体P1を追尾対象とする追尾撮影の停止の必要性を判定する。具体的には、撮像装置10は、主要被写体P1の状態が追尾停止条件を満たす場合には、主要被写体P1を追尾対象とする追尾撮影を停止する必要があると判定し、主要被写体P1の状態が追尾停止条件を満たさない場合には、追尾撮影を停止する必要なし(追尾撮影を継続してよい)と判定する。追尾停止条件を用いた追尾判定処理の具体例については後述する。
 なお、主要被写体P1の状態が追尾停止条件を満たす場合というのは、利用者が望む本来の追尾対象(正しい追尾対象)とは異なる誤った被写体が追尾撮影されていることが疑わしい事態の発生を意味する。このようなことから、追尾停止条件を用いた追尾判定処理とは、追尾撮影を開始したものの、誤った人物を途中から追尾してしまうといったケースを想定し、追尾対象となっている現在の被写体が正しい追尾対象であるか否かを判定する処理に相当する。
 撮像装置10は、追尾撮影を停止する必要があると判定した場合には、ステップS3の画角制御処理に移行する。画角制御処理では、追尾撮影の停止の必要性ありとする判定結果に応じた画角に制御される。画角制御処理では、撮像装置10は、まず、主要被写体P1を追尾対象とする追尾撮影を停止する。そして、撮像装置10は、追尾撮影のため主要被写体P1にフォーカスしていた画角A2を、主要被写体P1にフォーカスしない前処理段階での画角A1へと変更し、画角A1での客観的な映像撮影に切り替える。
 ここで、主要被写体P1が本来の追尾対象ではなかった場合、主要被写体P1が追尾して得られた映像は、今回の撮影シーンには適さない人物(例えば、特定の生徒)がひたすら追い続けられた価値のない映像となってしまう。
 しかしながら、撮像装置10は、追尾停止条件を用いた追尾判定処理によって、主要被写体P1が本来の追尾対象ではないことが疑われる場合には、客観的な映像の取得を行う通常撮影モードに切り替えるため、映像の価値をある程度担保することができる。具体的には、画角A1でとらえられた俯瞰的な映像では、特定の被写体が追尾された内容ではないものの、イベントEVの全体像がとらえられているため、閲覧者はイベントEVの内容を十分把握可能であり価値が担保されているといえる。
 また、実施形態に係る撮像装置10によれば、主要被写体P1が本来の追尾対象ではないことが疑われる場合には、主要被写体P1にフォーカスしないより広範囲な画角A1に戻されるため、追尾対象をサーチし直す機会(リカバリーの機会)を利用者に提供することができる。なお、図2では、追尾停止判定において追尾撮影を停止する必要があると判定した場合に、イベントEVの様子全体を見渡す俯瞰的な映像を撮影可能な画角A1へ画角を変更したが、これに限定されない。すなわち、撮像装置10は、追尾対象にフォーカスしていた画角A2より広い画角に変更すればよい(ズームアウトするよう撮像部11を制御すればよい)。より具体的には、撮像装置10は、追尾停止判定において追尾撮影を停止する必要があると判定した場合に、所定のオブジェクト(例えば、黒板、ディスプレイ、教壇など)を含む画角A3(画角A3は画角A2より広い)に変更してもよい。
〔3.情報処理装置の構成例〕
 本実施形態に係る情報処理装置の構成例について図3を用いて説明する。図3は、実施形態に係る情報処理装置の概略構成の一例を示す図である。図3では、撮像装置10が本開示の実施形態に係る情報処理装置として実装される場合の概略構成を示す。
 図3に示すように、撮像装置10は、撮像部11と、画像認識部12と、追尾判定部13と、画角制御部14と、出力部15と、記憶部16とを備える。
 例えば、上記処理部のうち、画像認識部12と、追尾判定部13と、画角制御部14とは、実施形態に係る追尾判定処理を司る処理部であり、判定処理機能DVに対応する。判定処理機能DVに対応するこれらの処理部、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、撮像装置10内部の記憶装置に記憶されている各種プログラム(例えば、情報処理プログラム)がRAM(Random Access Memory)を作業領域として実行されることにより実現される処理部である。また、これらの処理部は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
 図3では不図示であるが、撮像装置10は、ネットワークNと無線で接続され、例えば、利用者装置20や外部装置Xとの間で情報の送受信を行う通信部をさらに備えてよい。
<撮像部11について>
 撮像部11は、被写体の撮像を行って撮影画像を生成する。撮像部11は、例えばイメージセンサである。
<画像認識部12について>
 画像認識部12は、撮像部11により取得された撮影画像を解析することで、撮影画像の被写体を認識する。具体的には、画像認識部12は、撮影画像に基づいて、誰が/何が映っているか被写体の内容を認識する。
 また、画像認識部12は、図2のステップS1で説明した前処理としての画像認識処理も行ってよい。具体的には、画像認識部12は、撮影画像の解析によって抽出した特徴量と、登録画像の解析によって抽出した特徴量とのマッチングにより、追尾対象の被写体と特定するとともに、特定したこの被写体が追尾撮影の開始条件を満たしたか否かを判定してよい。
 さらに、画像認識部12は、図2のステップS2で説明した追尾判定での画像認識処理も行ってよい。具体的には、画像認識部12は、追尾撮影により得られた被写体(上記の手法で特定された主要被写体)の撮影画像を解析することで、この被写体の状態を認識する各種認識処理も行ってよい。
 例えば、画像認識部12は、被写体の撮影画像から被写体の身体(例えば、顔や骨格)の特徴量を検出してよい。
 また、画像認識部12は、被写体の撮影画像のうち、顔部分の画像に含まれる顔パーツ(目、耳、鼻、口等)の位置関係に基づいて、被写体の顔の向きと、この向きが維持された継続時間とを検出してよい。
 また、画像認識部12は、被写体の撮影画像のうち、全身部分の画像に含まれる身体の部位(首、腰、肩等)の位置関係に基づいて、被写体の身体の向きと、この向きが維持された継続時間を検出してよい。
 また、画像認識部12は、被写体の撮影画像に基づいて、被写体の位置を検出してよい。例えば、画像認識部12は、イベントEVでの撮影シーンで特徴的なオブジェクトを基準とする被写体の位置を検出してもよい。図2の例によれば、イベントEVでの撮影シーンで特徴的なオブジェクトとは、教壇、教卓、ホワイトボード等が挙げられる。特徴的なオブジェクトの情報は利用者によって登録されてもよいし、画像認識部12が画像解析により抽出してもよい。
 また、画像認識部12は、被写体の撮影画像に基づいて、被写体がどのような行動をとっているかその行動を示す行動内容と、その行動が維持された継続時間とを検出してよい。
 また、画像認識部12は、被写体の撮影画像に基づいて、被写体の動き量を検出してよい。例えば、画像認識部12は、撮影画像の時系列データに基づいて、被写体の動き量を検出してよい。なお、画像認識部12は、被写体の撮影画像の中に、追尾撮影の対象となっていない他の人物が映り込んでいる場合には、他の人物の動き量も推定してよい。
<追尾判定部13について>
 追尾判定部13は、追尾撮影されている被写体(上記の手法で特定された主要被写体)の状態が所定の条件を満たすか否かに基づいて、現在実行されている追尾撮影の停止の必要性を判定する。具体的には、追尾判定部13は、画像認識部12により認識された状態に基づき被写体の状態が追尾停止条件を満たすと判定できる場合には、現在実行されている追尾撮影の停止の必要性があると判定する。以下に具体例を挙げる。
 例えば、追尾判定部13は、被写体の身体の特徴量と、追尾対象として予め登録されている人物の撮影画像から検出された身体の特徴量との比較により、被写体と、追尾対象とが異なる(別人である)と推定される場合には、追尾撮影を停止させる必要があると判定する。
 また、追尾判定部13は、被写体の身体の向きが検出された検出結果に基づいて、被写体が一定時間以上継続して所定の方向を向いていると判定された場合には、追尾撮影を停止させる必要があると判定する。より具体的には、被写体が撮像装置10に対して背を向ける方向に一定時間以上向いていると判定された場合には、追尾撮影を停止させる必要があると判断する。
 また、追尾判定部13は、被写体の位置が検出された検出結果に基づいて、本来の追尾対象が存在すべきと推定される位置(例えば、教壇を中心とする所定範囲内、教卓を中心とする所定範囲内の位置、ホワイトボードを中心とする所定範囲内の位置)に被写体が存在しないと判定された場合には、追尾撮影を停止させる必要があると判定する。
 また、追尾判定部13は、被写体の行動が検出された検出結果に基づいて、被写体が一定時間以上継続して所定の行動を示していないと判定された場合には、追尾撮影を停止させる必要があると判定する。より具体的には、追尾判定部13は、被写体が一定時間以上話していないと判定された場合には、追尾撮影を停止させる必要があると判定する。
 また、追尾判定部13は、本来の追尾対象がとるべき動作に応じて予め定められた行動量の範囲から、被写体の動き量が外れたと判定された場合には、追尾撮影を停止させる必要があると判定する。なお、追尾判定部13は、被写体の撮影画像の中に追尾撮影の対象となっていない他の人物が映り込んでいる場合には、他の人物の動き量と、被写体の動き量との比較を行い、比較結果に基づいて、本来の追尾対象がとるべき動作が被写体によって行われていないと推定される場合には、追尾撮影を停止させる必要があると判定してもよい。例えば、音楽ライブ、スポーツ、講義などのユースケースでは、本来の追尾対象の動き量の範囲は所定の範囲(例えば閾値TH1以上)になるだろうという統計があったとすると、被写体に対応する動き量がその範囲から下に外れている場合(例えば、動きが鈍く、追尾対象の動き量が閾値TH1より小さい場合)には停止するようにしてもよい。また、他のユースケースでは、本来の追尾対象の動き量の範囲は所定の範囲(例えば閾値TH2以下)になるだろうという統計があったとすると、被写体に対応する動き量がその範囲から外れている場合(例えば、動き過ぎていて、追尾対象の動き量が閾値TH2より大きい場合)には停止するようにしてもよい。
<画角制御部14について>
 画角制御部14は、必要性の判定結果に応じて、被写体の追尾撮影を停止させる。具体的には、画角制御部14は、追尾撮影を停止させる必要があると判定された場合には、被写体の追尾撮影を停止させるとともに、被写体にフォーカスされている現在の撮像範囲(例えば、図2の画角A2)から、被写体にフォーカスしないより広範囲な撮像範囲(例えば、図2の画角A1)へと切り替えられるよう制御する。なお、図2で説明したように、画角制御部14は、必ずしも俯瞰的な映像を撮影可能な画角A1へ画角を変更せずともよい。例えば、画角制御部14は、被写体の周辺に存在する主要なオフジェクトが撮像範囲に入る程度の画角A3までズームアウトさせることで、画角A3へ画角を変更させてもよい。
<出力部15について>
 出力部15は、撮像部11により撮像された撮影画像を所定のデバイスに出力する。例えば、出力部15は、撮影画像を自装置(撮像装置10)の表画面(不図示)に出力させてよい。また、出力部15は、撮影画像を利用者装置20や外部装置Xの表示画面(不図示)に出力してもよい。
<記憶部16について>
 記憶部16は、撮像部11により撮像された撮影画像を記憶する。また、記憶部16には、実施形態に係る情報処理プログラムも記憶されてよい。
〔4.情報処理の具体例〕
<4-1.情報処理全体の具体例>
 続いて、本開示の実施形態に係る情報処理装置として、図3に示す撮像装置10が実行する情報処理について説明する。図4は、撮像装置10が実行する情報処理全体の流れを示すフローチャートである。
 まず、画角制御部14は、追尾判定処理に係る前処理(例えば、追尾対象を特定するための画像認識処理)用の画角A1でイベントEVの様子を撮影開始するよう撮像部11を制御する。すなわち、画角制御部14は、撮像部11に対して、通常撮影モードに移行し撮像を開始させる(ステップS401)。画角A1は、追尾対象の特定に適した広範囲な画角であってよい。
 撮像部11は、通常撮影モードでの撮影の開始に応じて、レンズを介して、特定のタイミングことに、1フレーム分の撮影画像を取り込んでゆく。
 画角制御部14は、撮像部11が撮像画像中の被写体を追尾中であるかどうかを判定する(ステップS402)。すなわち、画角制御部14は、撮影モードが通常撮影モードであるか追尾撮影モードであるかを判定する。
 被写体を追尾中でないと判定された場合(ステップS402;No)、すなわち通常撮影モードである場合には、画像認識部12および画角制御部14の間で、追尾判定処理を開始させるか否かの判断である追尾開始判断が行われる(ステップS403)。まず、画像認識部12は、取り込まれた撮影画像を時系列に応じて画像認識処理することにより、撮影画像中の被写体の中から追尾対象の被写体を特定する。例えば、画像認識部12は、追尾対象となる人物の画像が予め登録されている場合には、この登録画像と、取り込まれた撮影画像に含まれる各被写体の画像とのマッチング(特徴量でのマッチング)により、追尾対象の被写体を特定してよい。このように、画角制御部14は、追尾対象の被写体が特定された場合には、追尾判定処理を開始させるとの判断を下してよい。
 さらに、画角制御部14は、追尾対象が特定された場合に、追尾対象として特定された被写体である主要被写体の追尾撮影が開始されるよう制御する。例えば、画角制御部14は、主要被写体が特定の条件を満たした時点で追尾撮影モードに切り替えて(すなわち、撮影モードを追尾撮影モードに決定し)、追尾撮影を開始するよう撮像部11を制御してよい。例えば、画角制御部14は、レンズを介して随時取り込まれる撮影画像に対する画像認識結果に基づき、主要被写体が追尾撮影の開始条件を満たしたと判定された場合には、画角A1から、主要被写体にピントを合わせてフォーカスした画角A2へと切り替えて撮像するよう撮像部11を制御する。このように、ステップS403において撮像装置10は、追尾対象の被写体を特定して、追尾撮影モードで撮影を開始することを決定する。なお、撮像装置10は、追尾対象を特定できない場合は、通常撮影モードでの撮影を継続することを決定する。
 一方、追尾判定部13は、画角制御部14の制御に応じて撮像部11が追尾撮影を実行している最中であることを認識した場合(ステップS402;Yes)、すなわち追尾撮影モードである場合、追尾停止条件を用いた追尾判定処理を行う(ステップS404)。ここで、画角制御部14は、追尾判定処理において、追尾停止の必要性ありと判定された場合には、撮影モードを通常撮影モードに決定する。また、画角制御部14は、追尾停止の必要性なしと判定された場合には、撮影モードを追尾撮影モードに決定する。
 画角制御部14は、ステップS403の追尾開始判断の結果、または、ステップS404の追尾判定処理の結果に基づいて、現時点で決定されている撮影モードが追尾撮影モードであるかを判定する(ステップS405)。例えば、追尾判定部13による判定結果に基づき、追尾停止の必要性ありと判断された場合には撮影モードは通常撮影モードに決定され、追尾停止の必要性なしと判定された場合には撮影モードは追尾撮影モードに決定される。
 画角制御部14は、通常撮影モードに決定されている場合、すなわち追尾停止の必要性がある場合には(ステップS405;No)、追尾撮影を停止し、元の画角A1で俯瞰的な映像を撮影するよう撮像部11を制御する(ステップS407)。
 一方、画角制御部14は、追尾撮影モードに決定されている場合、すなわち追尾停止の必要性がない場合には(ステップS405;Yes)、ステップS403で特定された主要被写体の追尾撮影を継続させる(ステップS406)。例えば、画角制御部14は、主要被写体が所定の画角(例えば、画角A2)に収まるようにPTZ制御してよい。
 また、出力部15は、記憶部16に蓄積される撮影画像であって、イベントEVが行われていた期間中の撮影画像から生成された映像(例えば、ストリーミング映像)を指定先に出力する(ステップS408)。
 画角制御部14は、イベントEVの撮影が終了したか否かを判定する。例えば、画角制御部14は、撮像装置10に対して撮影終了の指示が入力されたか否かに基づいて、撮影が終了したか否かを判定する(ステップS409)。すなわち、画角制御部14は、撮影終了の指示が入力された場合に、撮影が終了したと判定する。また、例えば、画角制御部14は、撮影画像に対する画像認識結果や、利用者装置20から受け付けたイベントEVの終了を示す通知(利用者がイベントEVの終了を報告する入力)に基づいて、イベントEVの終了を判定し、イベントEVが終了されたと判定された場合に撮影が終了したと判定してもよい。
 画角制御部14は、撮影が終了した場合(ステップS409;Yes)、イベントEVの撮影における情報処理を終了する。一方、画角制御部14は、撮影が終了していない間は(ステップS409;No)、次のフレームについてステップS402へと処理を移行する。
 なお、ステップS402~S409の処理を毎フレームごとに行うことに限定されず、数フレームごとに行うようにしてもかまわない。
<4-2.追尾判定処理の具体例>
 続いて、撮像装置10が図4のステップS404で実行する追尾判定処理について具体的に説明する。図5は、撮像装置10が実行する追尾判定処理の流れを示すフローチャートである。なお、図5には7つの追尾停止条件をそれぞれ用いた場合の7段階の追尾判定処理が示されるが、どの追尾停止条件をどの順番で用いて追尾判定処理を行うかは限定されない。また、必ずしも7つの追尾停止条件全てが用いられる必要はなく、少なくとも1つの条件を用いればよい。
 例えば、追尾判定部13は、追尾撮影により得られた撮影画像に対する画像認識処理の結果に基づいて、追尾において主要被写体がロストされたか否かを判定する。例えば、追尾判定部13は、撮影画像内(撮影範囲内)に主要被写体が所定時間以上映されていない場合には、主要被写体がロストされたと判定し、撮影画像内(撮影範囲内)に主要被写体が映されている場合には、主要被写体のロストなしと判定してよい。そして、追尾判定部13は、主要被写体がロストされた場合には(Yes)、追尾停止条件が満たされたと認識し、追尾撮影を停止させる必要があると判定する。一方、追尾判定部13は、主要被写体のロストなしの場合には(No)、追尾停止条件が満たされていないと認識し、追尾撮影を停止させる必要なしと判定する。主要被写体をロストする具体例としては、主要被写体が落とした物を拾おうとして撮影範囲内から外れた場合、主要被写体の移動速度が追尾速度よりも速くて撮影範囲から外れた場合、主要被写体が画像認識部12によって認識できないような姿勢、髪型、服装であった場合、撮影環境の照明が画像認識部12によって主要被写体を認識できない明度であった場合などがある。
 また、追尾判定部13は、主要被写体の撮影画像から抽出された特徴量(例えば、顔特徴量、骨格特徴量、着用物特徴量)と、追尾対象として予め登録されている人物の撮影画像から抽出された特徴量との比較により、主要被写体と、本来の追尾対象とが別人であるか否かを判定する。例えば、追尾判定部13は、双方の特徴量が一致しない場合には、主要被写体と本来の追尾対象とが別人であると判定し、双方の特徴量が一致する場合には、主要被写体と本来の追尾対象とが同一人物であると判定してよい。そして、追尾判定部13は、主要被写体と本来の追尾対象とが別人である場合には(Yes)、追尾停止条件が満たされたと認識し、追尾撮影を停止させる必要があると判定する。一方、追尾判定部13は、主要被写体と本来の追尾対象とが同一人物である場合には(No)、追尾停止条件が満たされていないと認識し、追尾撮影を停止させる必要なしと判定する。
 また、追尾判定部13は、主要被写体の撮影画像から検出された被写体の身体の向き(例えば、顔の向き、あるいは全身の向き)と、この向きが維持された継続時間とに基づいて、主要被写体が所定時間以上継続して所定方向を向いているか否かを判定する。ここでいう所定の方向は、イベントEVの撮影シーンに応じて適宜変更されてよい。例えば、イベントEVの撮影シーンを大学授業において教師が生徒に向かって教えるシーンとすると、本来の追尾対象(教師)は、撮像装置10の方向(つまり正面)を向くはずであり、後方を向いている場合(主要被写体の後頭部が映っている場合)には、現在の主要被写体は本来の追尾対象ではないことが疑われる。そこで、イベントEVを大学授業において教師が生徒に向かって教えるシーンとするならば、所定の方向=撮像装置10の方向を正面とする反対方向(すなわち、後方)と定められてよい。
 また、主要被写体は、基本的には一定の方向に顔を向けているが、一瞬だけ別の方向に顔を向けるといったケースがある。このような場合に、一定の方向に顔を向けている状態での継続時間がリセットされて、別の方向に顔を向けている状態での継続時間の測定に切り替えられないよう撮像装置10によって制御されてよい。
 説明を戻し、追尾判定部13は、主要被写体が所定時間以上継続して所定方向(例えば、イベントEVの撮影シーンに適さない方向:例えば、後方)を向いている場合(Yes)、換言すると、主要被写体の顔を継続的に検出できない場合には、追尾停止条件が満たされたと認識し、追尾撮影を停止させる必要があると判定する。一方、追尾判定部13は、主要被写体が継続して適切な方向を向いている場合には(No)、追尾停止条件が満たされていないと認識し、追尾撮影を停止させる必要なしと判定する。
 また、追尾判定部13は、主要被写体の撮影画像から検出された主要被写体の位置(イベントEVでの撮影シーンで特徴的なオブジェクトを基準とする被写体の位置)と、主要被写体がこの位置に居る継続時間とに基づいて、本来の追尾対象が存在すべきと推定される位置に、主要被写体が居ない状態が所定時間以上継続したか否かを判定する。例えば、イベントEVの撮影シーンを大学授業において教師が生徒に向かって教えるシーンとすると、本来の追尾対象(教師)は、教壇の範囲内、教卓の周辺、ホワイトボードの範囲内等に居るはずであり、これらのオブジェクトを含まない位置(例えば、生徒机の周辺)に居る場合には、現在の主要被写体は本来の追尾対象ではないことが疑われる。そこで、イベントEVを大学授業において教師が生徒に向かって教えるシーンとするならば、オブジェクトとして、教壇、教卓、ホワイトボード等が定められてよい。
 また、主要被写体は、基本的には特徴的なオブジェクトの周辺に居るが、一時的にオブジェクトから離れた位置に移動するといったケースがある。このような場合に、オブジェクト周辺にいる状態での継続時間がリセットされて、離れた位置での継続時間の測定に切り替えられないよう撮像装置10によって制御されてよい。
 説明を戻し、追尾判定部13は、本来の追尾対象が存在すべきと推定される位置に、主要被写体が居ない状態が所定時間以上継続した場合には(Yes)、追尾停止条件が満たされたと認識し、追尾撮影を停止させる必要があると判定する。一方、追尾判定部13は、本来の追尾対象が存在すべきと推定される位置において継続して主要被写体が居る場合には(No)、追尾停止条件が満たされていないと認識し、追尾撮影を停止させる必要なしと判定する。
 また、追尾判定部13は、主要被写体の撮影画像から検出された主要被写体の行動と、その行動が維持された継続時間とに基づいて、主要被写体が所定時間以上継続して特定の行動を示していない状態であるか否かを判定する。例えば、イベントEVの撮影シーンを大学授業において教師が生徒に向かって教えるシーンとすると、本来の追尾対象(教師)は、生徒に向かって話すという行動をとるはずであり、話していない場合には、現在の主要被写体は本来の追尾対象ではないことが疑われる。そこで、イベントEVを大学授業において教師が生徒に向かって教えるシーンとするならば、特定の行動として相手に対して話しかける行動が定められてよい。
 また、主要被写体は、基本的には話し続けているが、一時的に話を辞めるといったケースがある。このような場合に、話している状態での継続時間がリセットされて、話していない状態での継続時間の測定に切り替えられないよう撮像装置10によって制御されてよい。
 説明を戻し、追尾判定部13は、主要被写体が所定時間以上継続して特定の行動を示していない場合には(Yes)、追尾停止条件が満たされたと認識し、追尾撮影を停止させる必要があると判定する。一方、追尾判定部13は、継続的に主要被写体が特定の行動を示している場合には(No)、追尾停止条件が満たされていないと認識し、追尾撮影を停止させる必要なしと判定する。
 また、追尾判定部13は、主要被写体の撮影画像から検出された主要被写体の感情的反応に基づいて、主要被写体が所定時間以上継続して特定の感情的反応を示していない状態であるか否かを判定する。例えば、イベントEVの撮影シーンを大学授業において教師が生徒に向かって教えるシーンとすると、本来の追尾対象(教師)は、笑う、怒る等の感情的反応を定期的に示すはずであり、示されていない場合には、現在の主要被写体は本来の追尾対象ではないことが疑われる。そこで、イベントEVを大学授業において教師が生徒に向かって教えるシーンとするならば、感情的反応として笑う/怒ることが定められてよい。
 追尾判定部103は、主要被写体が所定時間以上継続して特定の感情的反応を示していない場合には(Yes)、尾停止条件が満たされたと認識し、追尾撮影を停止させる必要があると判定する。一方、追尾判定部103は、定期的に主要被写体が特定の感情的反応を示している場合には(No)、追尾停止条件が満たされていないと認識し、追尾撮影を停止させる必要なしと判定する。
 また、追尾判定部103は、主要被写体の撮影画像から検出された主要被写体の動き量が、本来の追尾対象がとるべき動作に応じて予め定められた行動量の範囲から外れているか否かを判定する。例えば、イベントEVの撮影シーンにおいて、本来の追尾対象の動き量は、概念的にAC1-AC5の範囲(例えば閾値TH1以上)であるとの統計が得られているとする。係る例では、追尾判定部103は、被写体の撮影画像から検出された主要被写体の動き量が、動き量範囲AC1-AC5から外れている(例えば閾値TH1より小さい)場合には(Yes)、追尾停止条件が満たされたと認識し、追尾撮影を停止させる必要があると判定する。一方、追尾判定部103は、被写体の撮影画像から検出された主要被写体の動き量が、動き量範囲AC1-AC5内である(例えば閾値TH1以上である)場合には(No)、追尾停止条件が満たされていないと認識し、追尾撮影を停止させる必要なしと判定する。
 なお、不図示であるが、追尾判定部103は、主要被写体の撮影画像の中に、追尾撮影の対象となっていない他の人物が映り込んだことで、他の人物の動き量も検出された場合には、他の人物の動き量と、主要被写体の動き量との比較により、本来の追尾対象がとるべき動作が主要被写体によって行われているか否かを判定してもよい。例えば、追尾判定部13は、他の人物の動き量と比較して主要被写体の動き量が少ない場合には、本来の追尾対象がとるべき動作が主要被写体によって行われていないと判定し、他の人物の動き量と比較して主要被写体の動き量が多い場合には、本来の追尾対象がとるべき動作が主要被写体によって行われていると判定してよい。
 そして、追尾判定部13は、主要被写体の動き量が少ない場合には(Yes)、追尾停止条件が満たされたと認識し、追尾撮影を停止させる必要があると判定する。一方、追尾判定部13は、主要被写体の動き量が多い場合には(No)、追尾停止条件が満たされていないと認識し、追尾撮影を停止させる必要なしと判定する。
〔5.変形例〕
 実施形態に係る情報処理装置は、上記例とは異なる態様で実施されてよい。そこで、以下では、実施形態に係る情報処理装置の変形例について説明する。
<5-1.複数の被写体を追尾撮影>
 例えば、撮像装置10は、複数の被写体を画角に収めるよう追尾撮影する場合がある。例えば、撮像装置10は、追尾対象となる複数の人物の画像が予め登録されることで、各人物と、撮影画像中の人物との間でマッチングできた場合や、利用者装置20を介して複数の人物が追尾対象として指定された場合には、複数の被写体を画角に収めるよう追尾撮影する。
 このような場合、追尾判定部13は、複数の主要被写体それぞれの状態が追尾停止条件を満たしているか否かを判定し、主要被写体の間での判定結果の関係性に基づいて、複数の主要被写体を対象とする追尾撮影の停止の必要性を判定してよい。
 例えば、追尾判定部13は、複数の主要被写体のうち、少なくとも1人が追尾停止条件を満たした場合には、複数の主要被写体を対象とする追尾撮影を停止させる必要があると判定する。具体例を挙げると、追尾判定部13は、壇上で互いに討論する人物P1およびP2の画角A2に含めるように撮影されている状態で、人物P1が撮像範囲内から外れた場合には、追尾撮影を停止させる必要があると判定する。
 他の例として、追尾判定部13は、複数の主要被写体の全てが追尾停止条件を満たした場合には、複数の主要被写体を対象とする追尾撮影を停止させる必要があると判定する。例えば、追尾判定部13は、壇上で互いに討論する人物P1およびP2の画角A2に含めるように撮影されている状態で、人物P1、P2の双方が撮像範囲内から外れた場合には、追尾撮影を停止させる必要があると判定する。一方で、複数の主要被写体のうち、少なくとも1人が追尾停止条件を満たさなければ、追尾停止条件を満たす主要被写体を含む全ての主要被写体を対象とする追尾撮影を継続される。
 さらに他の例として、追尾判定部13は、複数の主要被写体のうち、いずれかの主要被写体が追尾停止条件を満たしたとしても、残りの主要被写体が追尾停止条件を満たすまでは、複数の主要被写体を対象とする追尾撮影を停止させる必要なしと判定してよい。例えば、追尾判定部13は、壇上で互いに討論する人物P1およびP2の画角A2に含めるように撮影されている状態で、人物P1が撮像範囲内から外れたとしても、人物P2が撮像範囲内から外れるまでは追尾撮影を継続させてよい。
<5-2.情報処理装置の他の構成>
 上記実施形態では、撮像装置10が有する判定処理機能DVによって追尾判定処理が行われる例を示した。つまり、上記実施形態では、撮像装置10が実施形態に係る情報処理装置として実装された場合の追尾判定処理を示した。しかしながら、撮像装置10と通信可能に接続される外部装置Xによって追尾判定処理が行われてもよい。係る場合、判定処理機能DVが外部装置Xに搭載される。
 図1で説明したように、撮像装置10の代わりに実施形態に係る情報処理装置として実装される外部装置Xは、ノート型PCや、デスクトップPCや、サーバ装置等であってよいが、図6では、撮像装置10の代わりにサーバ装置30が実施形態に係る情報処理装置として実装される例を示す。図6は、実施形態に係る変形例における情報処理装置の概略構成の一例(1)を示す図である。
 なお、サーバ装置30側で追尾判定処理が行われる場合、撮像装置10には判定処理機能DVが搭載されずともよい。したがって、図6には、判定処理機能DVを有しない撮像装置10aと、サーバ装置30とが通信可能に接続される例が示される。
(撮像装置10aについて)
 図6に示すように、撮像装置10aは、撮像部11aと、制御部12aと、送信部13aと、出力部15aと、記憶部16aとを備えてよい。
 撮像部11aは、被写体の撮像を行って撮影画像を生成する。撮像部11aは、例えばイメージセンサである。制御部12aは、撮像部11aによる撮像を制御し、制御に応じた撮像によって得られた撮影画像を出力部15aおよび記憶部16aに伝送する。
 送信部13aは、撮像部11aが撮像した撮影画像をサーバ装置30に送信する。
(サーバ装置30について)
 図6に示すように、サーバ装置30は、撮影機能を有する撮像装置10aと通信可能に接続され、取得部301と、画像認識部312と、追尾判定部313と、画角制御部314とを備えてよい。
 取得部301と、画像認識部312と、追尾判定部313と、画角制御部314とは、追尾判定処理を司る処理部であり、判定処理機能DVに対応する。判定処理機能DVに対応するこれらの処理部は、CPUやMPU等によって、サーバ装置30内部の記憶装置(不図示)に記憶されている各種プログラム(例えば、情報処理プログラム)がRAMを作業領域として実行されることにより実現される処理部である。また、これらの処理部は、例えば、ASICやFPGA等の集積回路により実現される。
 取得部301は、撮像装置10a側の追尾撮影により得られた撮影画像を取得する。係る撮影画像は、撮像装置10aの送信部13aによって送信されてよい。
 画像認識部312は、図3の画像認識部12に対応する処理部であり、撮影画像に対する画像認識処理を行う。例えば、画像認識部312は、撮像装置10a側の俯瞰撮影により得られた撮影画像を解析することで主要被写体を特定してよい。また、画像認識部312は、撮像装置10a側の追尾撮影により得られた主要被写体の撮影画像を解析することで、主要被写体の状態を認識してよい。
 追尾判定部313は、図3の追尾判定部13に対応する処理部であり、実施形態に係る追尾判定処理を行う。具体的には、追尾判定部313は、主要被写体の状態が追尾停止条件を満たすか否かに基づいて、現在実行されている追尾撮影の停止の必要性を判定する。より具体的には、追尾判定部313は、画像認識部312により認識された状態に基づき主要被写体の状態が追尾停止条件を満たすと判定できる場合には、現在実行されている追尾撮影の停止の必要性があると判定する。
 画角制御部314は、図3の画角制御部14に対応する処理部であり、追尾停止の必要性の判定結果に応じて、主要被写体の追尾撮影を停止させる。図6の例では、画角制御部314は、追尾撮影を停止させる必要があると判定された場合には、主要被写体の追尾撮影を停止し、主要被写体にフォーカスされている現在の撮像範囲(画角A2)から、主要被写体にフォーカスしないより広範囲な撮像範囲(画角A1)へと切り替えて撮影するよう撮像装置10a(制御部12a)を制御する。
 また、画角制御部314は、追尾撮影を停止させる必要がないと判定された場合には、画像認識部312により特定された主要被写体を追尾撮影するよう撮像装置10a(制御部12a)を制御する処理も行ってよい。制御部12aは、画角制御部314から受け付けた情報に基づいて、主要被写体の追尾撮影を行うよう撮像部11bを制御する。
(本変形例のまとめ)
 例えば、図6の例では、撮像装置10aは、撮影画像をサーバ装置30に提供するだけでよく、追尾判定処理自体は、サーバ装置30側で行われる。このような構成によれば、例えば、旧機種につき演算リソースを有しない撮像装置(撮像装置10a)でも、追尾判定処理の現場で利用することができるため、例えば、利用者は高性能な撮像装置を導入する必要がない。すなわち、導入コストがかからないというメリットがある。
<5-3.情報処理装置の他の構成>
 撮影の現場では、互いに撮影種別の異なる複数の撮像装置10を連携することで、例えば、アングルや画角の異なる複数の映像を取得するマルチカメラ連携を採用される場合がある。図7には、マルチカメラ連携の一例として、追尾撮影を行う撮像装置10bと、俯瞰撮影を行う撮像装置10cとが連携される例が示される。
 そこで、図7を用いて、撮影種別の異なる複数の撮像装置10(撮像装置10b、10c)が連携された場合の追尾判定処理を説明する。図7は、実施形態に係る変形例における情報処理装置の概略構成の一例(2)を示す図である。図7に示すように、判定処理機能DVを有せず単に追尾撮影だけに特化した撮像装置10bと、判定処理機能DVを有する撮像装置10bとがマルチ連携されてよい。
(撮像装置10bについて)
 図6に示すように、撮像装置10bは、撮像部11bと、制御部12bと、出力部15bと、記憶部16bとを備えてよい。
 撮像部11bは、被写体の撮像を行って撮影画像を生成する。撮像部11bは、例えばイメージセンサである。制御部12bは、撮像部11bによる撮像を制御し、制御に応じた撮像によって得られた撮影画像を出力部15bおよび記憶部16bに伝送する。例えば、制御部12bは、撮像装置10cの画角制御部14cから受け付けた情報に基づいて、主要被写体の追尾撮影を行うよう撮像部11bを制御する。
(撮像装置10cについて)
 図7に示すように、撮像装置10cは、撮影機能を有する撮像装置10bと通信可能に接続され、撮像部11cと、画像認識部12cと、追尾判定部13cと、画角制御部14cと、出力部15cと、記憶部16cとを備えてよい。
 例えば、上記処理部のうち、画像認識部12cと、追尾判定部13cと、画角制御部14cとは、実施形態に係る追尾判定処理を司る処理部であり、判定処理機能DVに対応する。判定処理機能DVに対応するこれらの処理部は、CPUやMPU等によって、撮像装置10c内部の記憶部16cに記憶されている各種プログラム(例えば、情報処理プログラム)がRAMを作業領域として実行されることにより実現される処理部である。また、これらの処理部は、例えば、ASICやFPGA等の集積回路により実現される。
 撮像部11cは、被写体の撮像を行って撮影画像を生成する。撮像部11cは、例えばイメージセンサである。撮像部11cは、画角制御部14cの制御に応じた画角で俯瞰撮影を行ってよい。
 画像認識部12cは、図3の画像認識部12に対応する処理部であり、撮影画像に対する画像認識処理を行う。例えば、画像認識部12cは、自装置(撮像装置10c)の俯瞰撮影により得られた撮影画像を解析することで主要被写体を特定してよい。このとき、画角制御部14cは、画像認識部12cにより特定された主要被写体を追尾撮影するよう制御部12bに対して指示してよい。係る場合、制御部12bは、画角制御部14cから受け付けた主要被写体に関する情報に基づいて、主要被写体の追尾撮影を行うよう撮像部11bを制御する。
 また、画像認識部12cは、俯瞰撮影により得られた主要被写体を含む撮影画像を解析することで、主要被写体の状態を認識してよい。
 追尾判定部13cは、図3の追尾判定部13に対応する処理部であり、実施形態に係る追尾判定処理を行う。具体的には、追尾判定部13cは、主要被写体の状態が追尾停止条件を満たすか否かに基づいて、現在実行されている追尾撮影の停止の必要性を判定する。より具体的には、追尾判定部13cは、画像認識部12cにより認識された状態に基づき主要被写体の状態が追尾停止条件を満たすと判定できる場合には、現在実行されている追尾撮影の停止の必要性があると判定する。
 画角制御部14cは、図3の画角制御部14に対応する処理部であり、追尾停止の必要性の判定結果に応じて、主要被写体の追尾撮影を停止させる。図7の例では、画角制御部14cは、追尾撮影を停止させる必要があると判定された場合には、主要被写体の追尾撮影を停止し、主要被写体にフォーカスされている現在の撮像範囲(画角A2)から、主要被写体にフォーカスしないより広範囲な撮像範囲(画角A1)へと切り替えて撮影するよう撮像装置10b(制御部12b)を制御する。
 また、画角制御部14cは、撮像部11cによる俯瞰撮影を制御し、制御に応じた撮像によって得られた撮影画像を出力部15bおよび記憶部16bに伝送してよい。
(本変形例のまとめ)
 図7の例では、俯瞰撮影を行う撮像装置10b側に追尾判定処理を行わせ、判定結果に応じた画角制御が撮像装置10cに対して行われる。係る構成では、イベントEV全体を捉えた俯瞰的な撮影画像に対する画像認識処理から、認識結果に基づく追尾判定処理の全てが撮像装置10bによって行われるため、追尾撮影機能は有するが追尾判定処理にかけられる十分な演算リソースまでは有しない従来の撮像装置(撮像装置10c)をそのまま流用できるメリットがある。
<5-4.情報処理装置の他の構成>
 図7では、俯瞰撮影を行う撮像装置10b側で一連の追尾判定処理が行われることで、追尾撮影を行う撮像装置10cは、判定結果に応じた制御を撮像装置10bから受けることで追尾撮影を行えばよい例を示した。しかしながら、互いに撮影種別の異なる複数の撮像装置10の間で追尾判定機能DVが分散されることにより、双方の撮像装置10が協働する形で追尾判定処理が実現されてよい。
 図8には、マルチカメラ連携の一例として、俯瞰撮影を行う撮像装置10dと、追尾撮影を行う撮像装置10eとが連携される例が示される。
 そこで、図8を用いて、撮影種別の異なる複数の撮像装置10(撮像装置10d、10e)が連携された場合の追尾判定処理を説明する。図8は、実施形態に係る変形例における情報処理装置の概略構成の一例(3)を示す図である。図8の例によれば、画像認識機能は撮像装置10dが有し、追尾停止条件を用いた追尾判定処理機能は撮像装置10eが有してよい。この結果、撮像装置10eは、撮像装置10dによって認識された主要被写体の状態であって、撮像装置10dによる俯瞰撮影で得られた撮影画像に対する解析結果として得られた状態を示す状態情報に基づき追尾判定処理を行う。
(撮像装置10dについて)
 図8に示すように、撮像装置10dは、撮像部11dと、画像認識部12dと、送信部13dと、制御部14dと、出力部15dと、記憶部16dとを備えてよい。
 撮像部11dは、被写体の撮像を行って撮影画像を生成する。撮像部11dは、例えばイメージセンサである。
 画像認識部12dは、図3の画像認識部12に対応する処理部であり、撮影画像に対する画像認識処理を行う。例えば、画像認識部12dは、自装置(撮像装置10d)の俯瞰撮影により得られた撮影画像を解析することで主要被写体を特定してよい。また、画像認識部12dは、俯瞰撮影により得られた主要被写体を含む撮影画像を解析することで、主要被写体の状態を認識してよい。
 送信部13dは、画像認識部12dによる認識結果に関する情報を撮像装置10eに送信する。例えば、送信部13dは、主要被写体を示す情報(主要被写体が誰であるかを示す情報)を撮像装置10e送信することで、この主要被写体の追尾撮影を撮像装置10eに実行させてよい。また、送信部13dは、主要被写体の状態を示す状態情報を撮像装置10e送信することで、主要被写体の状態に基づく追尾判定処理を撮像装置10eに実行させてよい。なお、状態情報は、例えば、主要被写体の顔や身体全体の向きを示す情報、所定の行動を示す情報などである。
 制御部14dは、撮像部11dによる俯瞰撮影を制御し、制御に応じた撮像によって得られた撮影画像を出力部15dおよび記憶部16dに伝送してよい。
(撮像装置10eについて)
 図8に示すように、撮像装置10eは、撮像部11eと、取得部12eと、追尾判定部13eと、画角制御部14eと、出力部15eと、記憶部16eとを備えてよい。
 撮像部11eは、被写体の撮像を行って撮影画像を生成する。撮像部11eは、例えばイメージセンサである。撮像部11eは、画角制御部14eの制御に応じた画角で追尾撮影を行ってよい。
 取得部12eは、撮像装置10dの送信部13dによって送信された情報を取得する。例えば、取得部12eは、主要被写体を示す情報や、主要被写体の状態を示す状態情報を取得してよい。
 追尾判定部13eは、図3の追尾判定部13に対応する処理部であり、実施形態に係る追尾判定処理を行う。具体的には、追尾判定部13eは、取得部12eにより取得された状態情報が示す状態(主要被写体の状態)が追尾停止条件を満たすか否かに基づいて、現在実行されている追尾撮影の停止の必要性を判定する。より具体的には、追尾判定部13eは、主要被写体の状態が追尾停止条件を満たすと判定できる場合には、現在実行されている追尾撮影の停止の必要性があると判定する。
 画角制御部14eは、図3の画角制御部14に対応する処理部であり、追尾停止の必要性の判定結果に応じて、主要被写体の追尾撮影を停止させる。図8の例では、画角制御部14eは、追尾撮影を停止させる必要があると判定された場合には、主要被写体の追尾撮影を停止するよう撮像部11eを制御する。
 また、画角制御部14eは、撮像部11eによる追尾撮影を制御し、制御に応じた撮像によって得られた撮影画像を出力部15eおよび記憶部16eに伝送してよい。
(本変形例のまとめ)
 図8の例では、俯瞰撮影を行う撮像装置10dと、追尾撮影を行う撮像装置10eとの間で追尾判定機能DVが分散されることで、双方の撮像装置10が協働する形で追尾判定処理が実現される。このような構成では、イベントEV全体を捉えた俯瞰的な撮影画像を取得できる点で画像認識処理を得意とする撮像装置10dと、追尾撮影を行う点で追尾判定処理を得意とする撮像装置10eとが組み合わされるため、主要被写体の追尾撮影を停止させるか否より高精度に判定することができるようになる。
〔6.ハードウェア構成〕
 図9を用いて、上述した実施形態に係る情報処理装置(撮像装置10等)に対応するコンピュータのハードウェア構成例について説明する。図9は、本開示の実施形態に係る情報処理装置に対応するコンピュータのハードウェア構成例を示すブロック図である。なお、図9は、本開示の実施形態に係る情報処理装置に対応するコンピュータのハードウェア構成の一例を示すものであり、図9に示す構成には限定される必要はない。
 図9に示すように、コンピュータ1000は、CPU(Central Processing Unit)1100、RAM(Random Access Memory)1200、ROM(Read Only Memory)1300、HDD(Hard Disk Drive)1400、通信インターフェイス1500、および入出力インターフェイス1600を有する。コンピュータ1000の各部は、バス1050によって接続される。
 CPU1100は、ROM1300またはHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、CPU1100は、ROM1300またはHDD1400に格納されたプログラムをRAM1200に展開し、各種プログラムに対応した処理を実行する。
 ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるBIOS(Basic Input Output System)等のブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
 HDD1400は、CPU1100によって実行されるプログラム、および、係るプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、HDD1400は、プログラムデータ1450を記録する。プログラムデータ1450は、本開示の実施形態に係る情報処理方法を実現するための情報処理プログラム、および、係る情報処理プログラムによって使用されるデータの一例である。
 通信インターフェイス1500は、コンピュータ1000が外部ネットワーク1550(例えばインターネット)と接続するためのインターフェイスである。例えば、CPU1100は、通信インターフェイス1500を介して、他の機器からデータを受信したり、CPU1100が生成したデータを他の機器へ送信したりする。
 入出力インターフェイス1600は、入出力デバイス1650とコンピュータ1000とを接続するためのインターフェイスである。たとえば、CPU1100は、入出力インターフェイス1600を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、CPU1100は、入出力インターフェイス1600を介して、表示装置やスピーカーやプリンタ等の出力デバイスにデータを送信する。また、入出力インターフェイス1600は、所定の記録媒体(メディア)に記録されたプログラム等を読み取るメディアインターフェイスとして機能してもよい。メディアとは、たとえばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
 例えば、コンピュータ1000が、本開示の実施形態に係る情報処理装置が撮像装置10として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされた情報処理プログラムを実行することにより、図3に示された各処理が実行する各種処理機能を実現する。すなわち、CPU1100およびRAM1200等は、ソフトウェア(RAM1200上にロードされた情報処理プログラム)との協働により、本開示の実施形態に係る情報処理装置による情報処理方法を実現する。
〔7.まとめ〕
 以上、本開示の実施形態について説明したが、本開示の技術的範囲は、上述の実施形態そのままに限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。また、実施形態および変形例にわたる構成要素を適宜組み合わせてもよい。
 また、本明細書に記載された各実施形態における効果はあくまで例示であって限定されるものでは無く、他の効果があってもよい。
 なお、本開示は以下のような構成も取ることができる。
(1)
 追尾撮影されている被写体の状態が所定の条件を満たすか否かに基づいて、現在実行されている前記追尾撮影の停止の必要性を判定する判定部と、
 前記必要性の判定結果に応じて、前記被写体の追尾撮影を停止させる制御部と
 を備える情報処理装置。
(2)
 前記制御部は、前記追尾撮影を停止させる必要があると判定された場合には、前記被写体の追尾撮影を停止させるとともに、前記被写体にフォーカスされている現在の撮像範囲から、前記被写体にフォーカスしないより広範囲な撮像範囲へと切り替えられるよう制御する
 前記(1)に記載の情報処理装置。
(3)
 前記追尾撮影により得られた前記被写体の撮影画像を解析することで、前記被写体の状態を認識する画像認識部をさらに備え、
 前記判定部は、認識結果が示す前記被写体の状態が前記所定の条件を満たす場合には、現在実行されている前記追尾撮影の停止の必要性があると判定する
 前記(1)に記載の情報処理装置。
(4)
 前記画像認識部は、前記被写体の撮影画像から前記被写体の身体の特徴量を検出し、
 前記判定部は、前記被写体の身体の特徴量と、追尾対象として予め登録されている人物の撮影画像から検出された身体の特徴量との比較により、前記被写体と、前記追尾対象とが異なると推定される場合には、前記追尾撮影を停止させる必要があると判定する
 前記(3)に記載の情報処理装置。
(5)
 前記画像認識部は、前記被写体の撮影画像から前記被写体の身体の向きを検出し、
 前記判定部は、前記被写体の身体の向きが検出された検出結果に基づいて、前記被写体が一定時間以上継続して所定の方向を向いていると判定された場合には、前記追尾撮影を停止させる必要があると判定する
 前記(3)に記載の情報処理装置。
(6)
 前記画像認識部は、前記被写体の撮影画像に基づいて、前記被写体の位置を検出し、
 前記判定部は、前記被写体の位置が検出された検出結果に基づいて、本来の追尾対象が存在すべきと推定される位置に前記被写体が存在しないと判定された場合には、前記追尾撮影を停止させる必要があると判定する
 前記(3)に記載の情報処理装置。
(7)
 前記画像認識部は、前記被写体の撮影画像に基づいて、前記被写体の行動を検出し、
 前記判定部は、前記被写体の行動が検出された検出結果に基づいて、前記被写体が一定時間以上継続して所定の行動を示していないと判定された場合には、前記追尾撮影を停止させる必要があると判定する
 前記(3)に記載の情報処理装置。
(8)
 前記画像認識部は、前記被写体の撮影画像に基づいて、前記被写体の動き量を検出し、
 前記判定部は、本来の追尾対象がとるべき動作に応じて予め定められた行動量の範囲から、前記被写体の動き量が外れたと判定された場合には、前記追尾撮影を停止させる必要があると判定する
 前記(3)に記載の情報処理装置。
(9)
 前記画像認識部は、前記被写体の撮影画像の中に、前記追尾撮影の対象となっていない他の人物が映り込んでいる場合には、当該撮影画像に基づいて、前記被写体の動き量と、前記他の人物の動き量とを検出し、
 前記判定部は、前記被写体の動き量と、前記他の人物の動き量との比較により、本来の追尾対象がとるべき動作が前記被写体によって行われていないと推定される場合には、前記追尾撮影を停止させる必要があると判定する
 前記(3)に記載の情報処理装置。
(10)
 前記判定部は、複数の被写体を画角に収めるよう追尾撮影されている場合には、前記複数の被写体それぞれの状態が前記所定の条件を満たしているか否かを判定し、各被写体の間での判定結果の関係性に基づいて、前記複数の被写体を対象とする追尾撮影の停止の必要性を判定する
 前記(1)に記載の情報処理装置。
(11)
 前記判定部は、前記複数の被写体のうち、いずれかの被写体が前記所定の条件を満たした場合には、前記複数の被写体を対象とする追尾撮影を停止させる必要があると判定する
 前記(10)に記載の情報処理装置。
(12)
 前記判定部は、前記複数の被写体の全てが前記所定の条件を満たした場合には、前記複数の被写体を対象とする追尾撮影を停止させる必要があると判定する
 前記(11)に記載の情報処理装置。
(13)
 前記判定部は、前記複数の被写体のうち、いずれかの被写体が前記所定の条件を満たした場合には、残りの被写体も前記所定の条件を満たすまでは、前記複数の被写体を対象とする追尾撮影を停止させる必要が無いと判定する
 前記(11)に記載の情報処理装置。
(14)
 前記情報処理装置は、撮影機能を有する撮像装置と通信可能に接続され、
 前記判定部は、前記撮像装置により追尾撮影されている被写体の状態が所定の条件を満たすか否かに基づいて、現在実行されている前記追尾撮影の停止の必要性を判定し、
 前記制御部は、前記追尾撮影を停止させる必要があると判定された場合には、前記被写体の追尾撮影を停止し、前記被写体にフォーカスされている現在の撮像範囲から、前記被写体にフォーカスしないより広範囲な撮像範囲へと切り替えて撮影するよう前記撮像装置を制御する
 前記(1)に記載の情報処理装置。
(15)
 前記情報処理装置は、前記情報処理装置とは異なる種別の撮影を行う撮像装置と通信可能に接続され、
 前記情報処理装置は、前記撮像装置によって認識された前記被写体の状態であって、前記撮像装置が撮影した前記被写体の撮影画像に対する解析結果として得られた状態を示す状態情報を取得する取得部をさらに備え、
 前記判定部は、前記状態情報が示す前記被写体の状態が所定の条件を満たすか否かに基づいて、現在実行されている前記追尾撮影の停止の必要性を判定し、
 前記制御部は、前記追尾撮影を停止させる必要があると判定された場合には、前記被写体の追尾撮影を停止させるとともに、前記被写体にフォーカスされている現在の撮像範囲から、前記被写体にフォーカスしないより広範囲な撮像範囲へと切り替えられるよう自装置を制御する
 前記(1)に記載の情報処理装置。
(16)
 前記情報処理装置は、前記情報処理装置とは異なる種別の撮影を行う他の撮像装置と通信可能に接続され、
 前記情報処理装置は、自装置によって認識された前記被写体の状態であって、前記自装置が撮影した前記被写体の撮影画像に対する解析結果として得られた状態を示す状態情報を取得する取得部をさらに備え、
 前記判定部は、前記状態情報が示す前記被写体の状態が所定の条件を満たすか否かに基づいて、現在実行されている前記追尾撮影の停止の必要性を判定し、
 前記制御部は、前記追尾撮影を停止させる必要があると判定された場合には、前記被写体の追尾撮影を停止し、前記被写体にフォーカスされている現在の撮像範囲から、前記被写体にフォーカスしないより広範囲な撮像範囲へと切り替えて撮影するよう前記他の撮像装置を制御する
 前記(1)に記載の情報処理装置。
(17)
 情報処理装置が実行する情報処理方法であって、
 追尾撮影されている被写体の状態が所定の条件を満たすか否かに基づいて、現在実行されている前記追尾撮影の停止の必要性を判定する判定工程と、
 前記必要性の判定結果に応じて、前記被写体の追尾撮影を停止させる制御工程と
 を含む情報処理方法。
(18)
 追尾撮影されている被写体の状態が所定の条件を満たすか否かに基づいて、現在実行されている前記追尾撮影の停止の必要性を判定する判定手順と、
 前記必要性の判定結果に応じて、前記被写体の追尾撮影を停止させる制御手順と
 を情報処理装置に実行させるための情報処理プログラム。
  1   システム
  10  撮像装置
  12  画像認識部
  13  追尾判定部
  14  画角制御部
  15  出力部
  16  記憶部
  20  利用者装置
  X   外部装置

Claims (18)

  1.  追尾撮影されている被写体の状態が所定の条件を満たすか否かに基づいて、現在実行されている前記追尾撮影の停止の必要性を判定する判定部と、
     前記必要性の判定結果に応じて、前記被写体の追尾撮影を停止させる制御部と
     を備える情報処理装置。
  2.  前記制御部は、前記追尾撮影を停止させる必要があると判定された場合には、前記被写体の追尾撮影を停止させるとともに、前記被写体にフォーカスされている現在の撮像範囲から、前記被写体にフォーカスしないより広範囲な撮像範囲へと切り替えられるよう制御する
     請求項1に記載の情報処理装置。
  3.  前記追尾撮影により得られた前記被写体の撮影画像を解析することで、前記被写体の状態を認識する画像認識部をさらに備え、
     前記判定部は、認識結果が示す前記被写体の状態が前記所定の条件を満たす場合には、現在実行されている前記追尾撮影の停止の必要性があると判定する
     請求項1に記載の情報処理装置。
  4.  前記画像認識部は、前記被写体の撮影画像から前記被写体の身体の特徴量を検出し、
     前記判定部は、前記被写体の身体の特徴量と、追尾対象として予め登録されている人物の撮影画像から検出された身体の特徴量との比較により、前記被写体と、前記追尾対象とが異なると推定される場合には、前記追尾撮影を停止させる必要があると判定する
     請求項3に記載の情報処理装置。
  5.  前記画像認識部は、前記被写体の撮影画像から前記被写体の身体の向きを検出し、
     前記判定部は、前記被写体の身体の向きが検出された検出結果に基づいて、前記被写体が一定時間以上継続して所定の方向を向いていると判定された場合には、前記追尾撮影を停止させる必要があると判定する
     請求項3に記載の情報処理装置。
  6.  前記画像認識部は、前記被写体の撮影画像に基づいて、前記被写体の位置を検出し、
     前記判定部は、前記被写体の位置が検出された検出結果に基づいて、本来の追尾対象が存在すべきと推定される位置に前記被写体が存在しないと判定された場合には、前記追尾撮影を停止させる必要があると判定する
     請求項3に記載の情報処理装置。
  7.  前記画像認識部は、前記被写体の撮影画像に基づいて、前記被写体の行動を検出し、
     前記判定部は、前記被写体の行動が検出された検出結果に基づいて、前記被写体が一定時間以上継続して所定の行動を示していないと判定された場合には、前記追尾撮影を停止させる必要があると判定する
     請求項3に記載の情報処理装置。
  8.  前記画像認識部は、前記被写体の撮影画像に基づいて、前記被写体の動き量を検出し、
     前記判定部は、本来の追尾対象がとるべき動作に応じて予め定められた行動量の範囲から、前記被写体の動き量が外れたと判定された場合には、前記追尾撮影を停止させる必要があると判定する
     請求項3に記載の情報処理装置。
  9.  前記画像認識部は、前記被写体の撮影画像の中に、前記追尾撮影の対象となっていない他の人物が映り込んでいる場合には、当該撮影画像に基づいて、前記被写体の動き量と、前記他の人物の動き量とを検出し、
     前記判定部は、前記被写体の動き量と、前記他の人物の動き量との比較により、本来の追尾対象がとるべき動作が前記被写体によって行われていないと推定される場合には、前記追尾撮影を停止させる必要があると判定する
     請求項3に記載の情報処理装置。
  10.  前記判定部は、複数の被写体を画角に収めるよう追尾撮影されている場合には、前記複数の被写体それぞれの状態が前記所定の条件を満たしているか否かを判定し、各被写体の間での判定結果の関係性に基づいて、前記複数の被写体を対象とする追尾撮影の停止の必要性を判定する
     請求項1に記載の情報処理装置。
  11.  前記判定部は、前記複数の被写体のうち、いずれかの被写体が前記所定の条件を満たした場合には、前記複数の被写体を対象とする追尾撮影を停止させる必要があると判定する
     請求項10に記載の情報処理装置。
  12.  前記判定部は、前記複数の被写体の全てが前記所定の条件を満たした場合には、前記複数の被写体を対象とする追尾撮影を停止させる必要があると判定する
     請求項11に記載の情報処理装置。
  13.  前記判定部は、前記複数の被写体のうち、いずれかの被写体が前記所定の条件を満たした場合には、残りの被写体も前記所定の条件を満たすまでは、前記複数の被写体を対象とする追尾撮影を停止させる必要が無いと判定する
     請求項11に記載の情報処理装置。
  14.  前記情報処理装置は、撮影機能を有する撮像装置と通信可能に接続され、
     前記判定部は、前記撮像装置により追尾撮影されている被写体の状態が所定の条件を満たすか否かに基づいて、現在実行されている前記追尾撮影の停止の必要性を判定し、
     前記制御部は、前記追尾撮影を停止させる必要があると判定された場合には、前記被写体の追尾撮影を停止し、前記被写体にフォーカスされている現在の撮像範囲から、前記被写体にフォーカスしないより広範囲な撮像範囲へと切り替えて撮影するよう前記撮像装置を制御する
     請求項1に記載の情報処理装置。
  15.  前記情報処理装置は、前記情報処理装置とは異なる種別の撮影を行う撮像装置と通信可能に接続され、
     前記情報処理装置は、前記撮像装置によって認識された前記被写体の状態であって、前記撮像装置が撮影した前記被写体の撮影画像に対する解析結果として得られた状態を示す状態情報を取得する取得部をさらに備え、
     前記判定部は、前記状態情報が示す前記被写体の状態が所定の条件を満たすか否かに基づいて、現在実行されている前記追尾撮影の停止の必要性を判定し、
     前記制御部は、前記追尾撮影を停止させる必要があると判定された場合には、前記被写体の追尾撮影を停止させるとともに、前記被写体にフォーカスされている現在の撮像範囲から、前記被写体にフォーカスしないより広範囲な撮像範囲へと切り替えられるよう自装置を制御する
     請求項1に記載の情報処理装置。
  16.  前記情報処理装置は、前記情報処理装置とは異なる種別の撮影を行う他の撮像装置と通信可能に接続され、
     前記情報処理装置は、自装置によって認識された前記被写体の状態であって、前記自装置が撮影した前記被写体の撮影画像に対する解析結果として得られた状態を示す状態情報を取得する取得部をさらに備え、
     前記判定部は、前記状態情報が示す前記被写体の状態が所定の条件を満たすか否かに基づいて、現在実行されている前記追尾撮影の停止の必要性を判定し、
     前記制御部は、前記追尾撮影を停止させる必要があると判定された場合には、前記被写体の追尾撮影を停止し、前記被写体にフォーカスされている現在の撮像範囲から、前記被写体にフォーカスしないより広範囲な撮像範囲へと切り替えて撮影するよう前記他の撮像装置を制御する
     請求項1に記載の情報処理装置。
  17.  情報処理装置が実行する情報処理方法であって、
     追尾撮影されている被写体の状態が所定の条件を満たすか否かに基づいて、現在実行されている前記追尾撮影の停止の必要性を判定する判定工程と、
     前記必要性の判定結果に応じて、前記被写体の追尾撮影を停止させる制御工程と
     を含む情報処理方法。
  18.  追尾撮影されている被写体の状態が所定の条件を満たすか否かに基づいて、現在実行されている前記追尾撮影の停止の必要性を判定する判定手順と、
     前記必要性の判定結果に応じて、前記被写体の追尾撮影を停止させる制御手順と
     を情報処理装置に実行させるための情報処理プログラム。
PCT/JP2023/033130 2022-09-22 2023-09-12 情報処理装置、情報処理方法および情報処理プログラム WO2024062971A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022151845 2022-09-22
JP2022-151845 2022-09-22

Publications (1)

Publication Number Publication Date
WO2024062971A1 true WO2024062971A1 (ja) 2024-03-28

Family

ID=90454327

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/033130 WO2024062971A1 (ja) 2022-09-22 2023-09-12 情報処理装置、情報処理方法および情報処理プログラム

Country Status (1)

Country Link
WO (1) WO2024062971A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005033570A (ja) * 2003-07-04 2005-02-03 Chuo Electronics Co Ltd 移動体画像提供方法、移動体画像提供システム
JP2010145965A (ja) * 2008-12-22 2010-07-01 Fujinon Corp オートフォーカスシステム
JP2021164008A (ja) * 2020-03-30 2021-10-11 大日本印刷株式会社 情報処理方法、情報処理装置、プログラム及び情報処理システム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005033570A (ja) * 2003-07-04 2005-02-03 Chuo Electronics Co Ltd 移動体画像提供方法、移動体画像提供システム
JP2010145965A (ja) * 2008-12-22 2010-07-01 Fujinon Corp オートフォーカスシステム
JP2021164008A (ja) * 2020-03-30 2021-10-11 大日本印刷株式会社 情報処理方法、情報処理装置、プログラム及び情報処理システム

Similar Documents

Publication Publication Date Title
US10904485B1 (en) Context based target framing in a teleconferencing environment
US11924580B2 (en) Generating real-time director's cuts of live-streamed events using roles
US8314854B2 (en) Apparatus and method for image recognition of facial areas in photographic images from a digital camera
JP5088507B2 (ja) 同一性判定装置、同一性判定方法および同一性判定用プログラム
WO2020076356A1 (en) Systems and methods for providing feedback for artificial intelligence-based image capture devices
KR20090024086A (ko) 정보 처리 장치, 정보 처리 방법, 및 컴퓨터 프로그램
CN113973190A (zh) 视频虚拟背景图像处理方法、装置及计算机设备
US11076127B1 (en) System and method for automatically framing conversations in a meeting or a video conference
WO2020057353A1 (zh) 基于高速球的物体跟踪方法、监控服务器、视频监控系统
US10297285B2 (en) Video data processing method and electronic apparatus
US20170054904A1 (en) Video generating system and method thereof
US11509818B2 (en) Intelligent photography with machine learning
WO2021033592A1 (en) Information processing apparatus, information processing method, and program
WO2024062971A1 (ja) 情報処理装置、情報処理方法および情報処理プログラム
Lampi et al. An automatic cameraman in a lecture recording system
KR100711950B1 (ko) 하이브리드 광학 및 가상 주밍 장치를 사용한 관심있는물체의 실시간 트래킹
EP4075794A1 (en) Region of interest based adjustment of camera parameters in a teleconferencing environment
KR102299565B1 (ko) 실시간 방송 영상에서 실시간으로 인물 객체를 인식하고 영상 처리하는 방법 및 이러한 방법을 수행하는 장치
KR20230173667A (ko) Ai 기반 객체인식을 통한 감시 카메라의 셔터값 조절
US8203593B2 (en) Audio visual tracking with established environmental regions
TWI840300B (zh) 視訊會議系統及方法
WO2023189079A1 (ja) 画像処理装置、および画像処理方法、並びにプログラム
WO2022269999A1 (ja) 制御装置、制御方法、およびプログラム
Vervoort Automatische regie
US20230199299A1 (en) Imaging device, imaging method and program

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23868094

Country of ref document: EP

Kind code of ref document: A1