WO2022244314A1 - 情報処理装置、情報処理方法およびプログラム - Google Patents

情報処理装置、情報処理方法およびプログラム Download PDF

Info

Publication number
WO2022244314A1
WO2022244314A1 PCT/JP2022/003240 JP2022003240W WO2022244314A1 WO 2022244314 A1 WO2022244314 A1 WO 2022244314A1 JP 2022003240 W JP2022003240 W JP 2022003240W WO 2022244314 A1 WO2022244314 A1 WO 2022244314A1
Authority
WO
WIPO (PCT)
Prior art keywords
composition
subject
transition mode
information processing
video
Prior art date
Application number
PCT/JP2022/003240
Other languages
English (en)
French (fr)
Inventor
秀敏 永野
和博 嶋内
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to US18/557,685 priority Critical patent/US20240223883A1/en
Priority to JP2023522211A priority patent/JPWO2022244314A1/ja
Publication of WO2022244314A1 publication Critical patent/WO2022244314A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/667Camera operation mode switching, e.g. between still and video, sport and normal or high- and low-resolution modes
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/103Detecting, measuring or recording devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
    • A61B5/11Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb
    • A61B5/1116Determining posture transitions
    • GPHYSICS
    • G03PHOTOGRAPHY; CINEMATOGRAPHY; ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ELECTROGRAPHY; HOLOGRAPHY
    • G03BAPPARATUS OR ARRANGEMENTS FOR TAKING PHOTOGRAPHS OR FOR PROJECTING OR VIEWING THEM; APPARATUS OR ARRANGEMENTS EMPLOYING ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ACCESSORIES THEREFOR
    • G03B15/00Special procedures for taking photographs; Apparatus therefor
    • GPHYSICS
    • G03PHOTOGRAPHY; CINEMATOGRAPHY; ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ELECTROGRAPHY; HOLOGRAPHY
    • G03BAPPARATUS OR ARRANGEMENTS FOR TAKING PHOTOGRAPHS OR FOR PROJECTING OR VIEWING THEM; APPARATUS OR ARRANGEMENTS EMPLOYING ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ACCESSORIES THEREFOR
    • G03B17/00Details of cameras or camera bodies; Accessories therefor
    • GPHYSICS
    • G03PHOTOGRAPHY; CINEMATOGRAPHY; ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ELECTROGRAPHY; HOLOGRAPHY
    • G03BAPPARATUS OR ARRANGEMENTS FOR TAKING PHOTOGRAPHS OR FOR PROJECTING OR VIEWING THEM; APPARATUS OR ARRANGEMENTS EMPLOYING ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ACCESSORIES THEREFOR
    • G03B17/00Details of cameras or camera bodies; Accessories therefor
    • G03B17/56Accessories
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • H04N23/611Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/64Computer-aided capture of images, e.g. transfer from script file into camera, check of taken image quality, advice or proposal for image composition or decision on when to take image
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/69Control of means for changing angle of the field of view, e.g. optical zoom objectives or electronic zooming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/268Signal distribution or switching
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B2503/00Evaluating a particular growth phase or type of persons or animals
    • A61B2503/12Healthy persons not otherwise provided for, e.g. subjects of a marketing survey

Definitions

  • the present invention relates to an information processing device, an information processing method, and a program.
  • the conditions such as the direction of movement and orientation are not always the same.
  • the subject does not always face right, but turns.
  • the timing for changing the orientation also changes from time to time, and there are cases where the orientation changes frequently depending on the content of the lecture and the interaction with the audience.
  • a technique for determining the orientation of a subject includes, for example, Patent Document 1.
  • Patent Document 1 since framing is not the purpose of Patent Document 1, proper framing as described above cannot be obtained by applying the orientation of the subject obtained here as it is.
  • the orientation of the subject is determined using the orientation of the hand, but the orientation in which the hand is extended does not necessarily match the direction in which the subject faces.
  • no consideration is given to appropriately capture the continuity and change in the orientation of the subject in the time direction.
  • Patent Document 2 Patent Document 3, and Patent Document 4.
  • the direction of the line of sight is determined, and the composition of the space in that direction is devised.
  • no consideration is given to how changes in the direction of the line of sight are captured in the time direction and applied to framing.
  • the present disclosure proposes an information processing device, an information processing method, and a program capable of setting an appropriate composition according to changes in the state of a subject.
  • a target composition calculation unit that calculates a target composition based on the state of a subject
  • An information processing device having a composition transition determination unit for switching between a smooth composition transition mode in which composition transitions and an instantaneous composition transition mode in which the composition instantaneously transitions toward the target composition is provided. Further, according to the present disclosure, there are provided an information processing method in which the information processing of the information processing device is executed by a computer, and a program for causing the computer to implement the information processing of the information processing device.
  • FIG. 5 is a diagram showing an example of posture information acquired by a posture acquisition unit; It is a figure explaining the determination method of the direction of a to-be-photographed object. It is a figure explaining the determination method of the direction of a to-be-photographed object. It is a figure which shows an example of an orientation determination flow.
  • FIG. 5 is a diagram showing an example of posture information acquired by a posture acquisition unit; It is a figure explaining the determination method of the direction of a to-be-photographed object. It is a figure explaining the determination method of the direction of a to-be-photographed object. It is a figure which shows an example of an orientation determination flow.
  • FIG. 10 is a diagram showing an example in which orientation determination is performed based on the distance between the wrist and the body axis instead of the orientation determination based on the subject area; It is a figure explaining the determination method of the to-be-photographed object's size. It is a figure which shows an example of a size determination flow. It is a figure which shows an example of a motion determination flow. It is a figure explaining the calculation method of target composition.
  • FIG. 7 is a diagram illustrating an example of a target composition calculation flow
  • FIG. 7 is a diagram illustrating an example of a target composition calculation flow
  • FIG. 10 is a diagram showing a smooth transition of composition when starting to walk from a resting state;
  • FIG. 10 is a diagram showing an example in which the subject frequently changes direction due to exchange of questions and calls from listeners;
  • FIG. 11 is a diagram showing an example of composition transition in an instantaneous composition transition mode; It is a figure which shows the example which performs an instantaneous transition first and then performs a smooth transition. It is a figure which shows an example of the determination flow of a transition mode. It is a figure which shows the imaging system of 2nd Embodiment. It is a figure which shows the imaging system of 3rd Embodiment.
  • FIG. 3 is a diagram showing an example of a functional configuration of a video switcher; FIG. FIG.
  • FIG. 10 is a diagram showing an example of a selection flow of captured video; It is a figure explaining the outline
  • FIG. 21 is a diagram illustrating an overview of framing according to the fifth embodiment;
  • FIG. It is a figure which shows an example of the functional structure of a video processing apparatus.
  • FIG. 4 is a diagram showing an example of a control flow of a PTZ camera; It is a figure which shows the hardware structural example of an imaging system.
  • FIG. 1 is a diagram showing an imaging system CS1 of the first embodiment.
  • the photography system CS1 is a system that performs lecture capture (lecture recording).
  • the photographing system CS1 automatically tracks the lecturer, who is the subject SU, and automatically records the content of the lecture.
  • the imaging system CS1 has a video processing device 10, a camera 20, a display device 30 and a recording device 40.
  • the camera 20 can photograph the range in which the subject SU moves around.
  • the video processing device 10 performs framing on the captured video CV captured by the camera 20 .
  • Framing is a process of cutting out a video area according to the composition from the shot video CV. Since this process is similar to the work of adjusting the angle of view, in the following description, the image area to be clipped will be referred to as angle of view AV (see FIG. 9).
  • composition means the composition regarding the position and size of the subject SU captured in the video.
  • the screen is vertically and horizontally divided into three, and the subject SU is arranged at the intersection of the division lines DL (see FIG. 15).
  • a composition is adopted in which the subject SU is arranged on the left division line DL (a lead room is provided on the right side of the subject SU).
  • a composition is adopted in which the subject SU is placed on the right division line DL (a lead room is provided on the left side of the subject SU).
  • the size of the subject SU compositions such as long shot, full figure, knee shot, waist shot, bust shot and close-up are known depending on the range of the subject SU to be photographed.
  • the video processing device 10 determines a target composition (target composition) based on the state of the subject SU. For example, the video processing device 10 stores a plurality of types of compositions with different positions or sizes of the subject SU as standard compositions. The video processing device 10 selects a specific type of composition according to the state of the subject SU as the target composition.
  • the video processing device 10 places the subject SU on the division line DL on the left side of the screen and determines a composition in which the subject SU is framed with a bust shot as the target composition. do.
  • the video processing device 10 arranges the subject SU on the division line DL on the right side of the screen and determines a composition in which the subject SU is framed in a full figure as a target composition.
  • the state of the subject SU is obtained, for example, by image analysis of the captured video CV of the subject SU.
  • the video processing device 10 determines the next composition based on the current composition and the target composition TCP.
  • the video processing device 10 generates angle-of-view information indicating the position and size of the angle-of-view AV (image area to be clipped) based on the determined composition.
  • the video processing device 10 cuts out a video region based on the angle-of-view information.
  • the video processing device 10 outputs the video region cut out from the shot video CV as the framing video OV.
  • the display device 30 displays the framing video OV output by the video processing device 10 .
  • the recording device 40 records the framing video OV.
  • Each device included in the imaging system CS1 may be directly connected via HDMI (registered trademark) (High-Definition Multimedia Interface) or SDI (Serial Digital Interface), or may be connected via a wired or wireless network. may be connected to each other.
  • FIG. 2 is a block diagram showing the functional configuration of the video processing device 10. As shown in FIG.
  • the video processing device 10 is an information processing device that processes various types of information.
  • the video processing device 10 has a posture acquisition unit 11, a subject tracking unit 12, an orientation determination unit 13, a size determination unit 14, a motion determination unit 15, a target composition calculation unit 16, a composition transition determination unit 17, and a video clipping unit 18. .
  • Fig. 3 is a flow chart showing the flow of the overall video processing.
  • the image processing device 10 After initializing the states of counters required for processing (step SA1), the image processing device 10 acquires the posture of the subject SU and the head area HEA (see FIG. 14) in the posture acquisition unit 11. (Step SA2). Next, the video processing device 10 acquires the motion of the subject SU by the subject tracking section 12 by matching with the previous frame (step SA3). Based on the information acquired in this way, the image processing device 10 determines the orientation of the subject SU, the size of the subject SU, and the movement of the subject SU by the orientation determining section 13, the size determining section 14, and the movement determining section 15. (Steps SA4, SA5, SA6).
  • the video processing device 10 calculates the target composition TCP (see FIG. 15) suitable for the input frame in the target composition calculation unit 16 (step SA7). Subsequently, the composition transition determining unit 17 of the video processing apparatus 10 determines the transition from the current composition CP (see FIG. 15) to the target composition TCP, and determines the composition CP for the input frame (step SA8). The video clipping unit 18 clips and outputs the framing video OV based on the determined composition CP (step SA9).
  • the video processing device 10 determines whether framing has been performed for all frames (step SA10). If there is a next frame (step SA10: no), the process returns to step SA2 and the above processing is repeated until framing is performed for all frames. If there is no next frame (step SA10: yes), the video processing device 10 terminates the process.
  • FIG. 4 is a diagram showing an example of posture information acquired by the posture acquisition unit 11. As shown in FIG.
  • the posture acquisition unit 11 acquires the body part BP used by the orientation determination unit 13 and the size determination unit 14 from the captured video CV by image analysis processing.
  • the posture acquisition unit 11 extracts posture information of the subject SU by analyzing the image of the body part BP.
  • skeleton data SK as shown on the left side of FIG. It is possible to obtain the position of JT.
  • the position of the joint JT can be used as part of the posture information.
  • the head area HEA can also be used as part of the pose information.
  • the position of the joint JT and the head area HEA may be obtained by separate estimation processes, or may be obtained by one estimation process.
  • the subject tracking unit 12 detects movement of the subject SU between frames. For this, there is a movement amount calculation process in which an image is directly input, such as an optical flow process that performs matching for each pixel, and a one-time image processing such as a matching process between frames of the body part BP obtained by the posture acquisition unit 11. It is possible to use a movement amount calculation process based on the data obtained by the above. In order to improve robustness, it is also possible to calculate the movement amount using both the image and the matching of the body part BP.
  • Orientation determination unit 5 and 6 are diagrams for explaining a method of determining the orientation of the subject SU.
  • the orientation determination unit 13 uses the orientation information obtained by the orientation acquisition unit 11 to determine the orientation of the subject SU.
  • the determination of the orientation is performed based on, for example, the displacement of the body part BP with respect to the body axis AX of the subject SU.
  • the displacement of the position of the nose NS with respect to the body axis AX exceeds the threshold, is determined to be
  • it is also possible to use the deviation of other facial parts such as the eyes EY from the body axis AX.
  • the orientation determination unit 13 determines the orientation of the subject SU based on the pose of the subject SU. For example, even if the subject SU faces the front, depending on the pose of the subject SU, a well-balanced image may be obtained by shifting the subject SU from the center of the screen.
  • FIG. 6 shows an example in which the subject SU spreads his right hand for explanation, but in this example, it is preferable to shift the subject SU to the right side of the screen.
  • the orientation determination unit 13 detects the bias in posture based on the pose of the subject SU, and determines the bias in the posture as the orientation of the subject SU.
  • the pose-based determination for example, whether or not the distance D1 between the subject SU's right wrist (the fourth joint on the left side in FIG. 4) and the body axis AX exceeds a threshold (left side in FIG. 6), whether or not the subject area SUA Information such as whether or not the distance D2 between the center and the body axis AX exceeds a threshold (right side of FIG. 6) can be used.
  • the subject area SUA means an area of the subject SU that includes the main part of the subject SU to be photographed. For example, in a bust shot, a rectangular area including joints of the upper body of the subject SU is the subject area SUA.
  • the orientation determination unit 13 determines the orientation using a plurality of calculation means such as body axis AX and facial parts, and body axis AX and pose.
  • FIG. 7 is a diagram showing an example of the orientation determination flow.
  • the orientation of the subject SU is determined from the relationship between the nose NS, the body axis AX, the shoulder width SW, and the subject area SUA and the body axis AX.
  • the orientation determining unit 13 first calculates a body axis AX along the body from the base of the neck (step SB1). Since the posture of the subject SU assumed in lecture capture is a standing posture, the body axis AX is normally a line extending vertically from the base of the neck.
  • three types of orientation determination processing are performed. From the left of the figure, orientation determination by face (steps SB2 to SB7), orientation determination by shoulder width SW (steps SB8 to SB11), orientation using subject area SUA. Judgment (steps SB12 to SB17) is made.
  • step SB7 it is calculated whether the nose NS is on the left side or the right side of the screen with respect to the body axis AX.
  • the nose NS is determined to be on the right side of the body axis AX on the screen. If the distance d is a negative value, the nose NS is determined to be on the left side of the body axis AX.
  • d x0-b. If the nose NS is on the right side (x0>b) of the body axis AX, then d>0. If the nose NS is on the left side of the body axis AX (x0 ⁇ b), then d ⁇ 0.
  • the orientation determination unit 13 determines whether or not the absolute value of the distance d is greater than a threshold (step SB3). If the absolute value of the distance d is equal to or less than the threshold (step SB3: no), the orientation determination unit 13 determines that the subject SU is facing forward (step SB7). If the absolute value of the distance d is greater than the threshold (step SB3: yes), the orientation determining unit 13 determines whether the direction is rightward or leftward based on the sign of the distance d (steps SB4 to SB6).
  • the orientation determination unit 13 calculates the distance between the shoulders as the shoulder width SW (step SB8). The orientation determination unit 13 determines whether or not the absolute value of the shoulder width SW is greater than a threshold (step SB9). If the absolute value of the shoulder width SW is larger than the threshold (step SB9: yes), the orientation determination unit 13 determines that the subject SU is facing forward (step SB10). If the absolute value of the shoulder width SW is equal to or less than the threshold (step SB9: no), the orientation determination unit 13 determines that the subject SU is not facing the front (step SB11).
  • the orientation determination unit 13 calculates an area including upper body parts obtained by the posture acquisition unit 11 as the subject area SUA. Orientation determination unit 13 calculates a distance D1 between the center of subject area SUA and body axis AX by a method similar to the method for calculating distance d (step SB12). The orientation determination unit 13 determines whether or not the absolute value of the distance D1 is greater than a threshold (step SB13). If the absolute value of the distance D1 is equal to or less than the threshold (step SB13: no), the orientation determination unit 13 determines that the subject SU is facing forward (step SB17). If the absolute value of the distance D1 is greater than the threshold (step SB13: yes), the direction determination unit 13 determines whether the direction is rightward or leftward based on the sign of the distance D1 (steps SB14 to SB16).
  • the orientation determination unit 13 comprehensively determines left/right/front when a plurality (three types) of orientation determination results are obtained (step SB18). Considering a case where the neck position cannot be obtained, the orientation determination unit 13 adopts the orientation when two of the three orientation determination results indicate the same direction, thereby enhancing orientation robustness. If it is determined in step SB11 that the orientation of the subject SU is not the front, the orientation of the subject SU may be right or left.
  • FIG. 8 is a diagram showing an example of orientation determination based on the distance D2 between the wrist and the body axis AX instead of the orientation determination based on the subject area SUA.
  • Direction determination by the face steps SC2 to SC7
  • direction determination by the shoulder width SW steps SC8 to SC11
  • the orientation determination unit 13 calculates the distance D2 between the right wrist and the body axis AX by the same method as the method for calculating the distance d (step SC12). The orientation determination unit 13 determines whether or not the absolute value of the distance D2 is greater than a threshold (step SC13). If the absolute value of the distance D2 is equal to or less than the threshold (step SC13: no), the orientation determination unit 13 determines that the subject SU faces the front (step SC17). If the absolute value of the distance D2 is greater than the threshold (step SC13: yes), the direction determining unit 13 determines whether the direction is rightward or leftward based on the sign of the distance D2 (steps SC14 to SC16).
  • the orientation determination unit 13 performs the same orientation determination flow for the left wrist as for the right wrist. That is, the orientation determination unit 13 calculates the distance D2 between the left wrist and the body axis AX by the same method as the method for calculating the distance d (step SC18). The orientation determination unit 13 determines whether or not the absolute value of the distance D2 is greater than a threshold (step SC19). When the absolute value of the distance D2 is equal to or less than the threshold (step SC19: no), the orientation determination unit 13 determines that the subject SU faces the front (step SC23). If the absolute value of the distance D2 is greater than the threshold (step SC19: yes), the direction determination unit 13 determines whether the direction is rightward or leftward based on the sign of the distance D2 (steps SC20 to SC22).
  • the orientation determination unit 13 uses the four types of orientation determination results to determine the overall orientation (step SC24). At this time, it is desirable to first integrate the determination results using the right wrist and the left wrist, and then integrate the integrated determination results with the other two types of determination results.
  • the orientation determination unit 13 determines three types of orientation determination results by combining one type of integrated determination result and the remaining two types of determination results (orientation determination result based on the face and orientation determination result based on the shoulder width SW). to determine the orientation of the subject SU.
  • the orientation determination unit 13 outputs the determination result that the orientation of the subject SU is the front as an integrated determination result, and performs left/right/front determination in combination with the other two types of determination results. . If two of the three orientation determination results indicate the same orientation, the orientation determination unit 13 adopts that orientation. This increases orientation robustness.
  • the thresholds used in the flows of FIGS. 7 and 8 are set to appropriate values according to the part of the body to be measured.
  • the threshold is preferably represented by a ratio based on the size of the specific part of the subject SU. For example, if the threshold is set to 0.2 times the height of the head area HEA, it is possible to cope with changes in the size of a person due to changes in zoom.
  • FIG. 9 is a diagram for explaining a method of determining the size of the subject SU.
  • the size determination unit 14 determines whether the pose of the subject SU is large or small. On the left side of FIG. 9, the subject SU is shown expressing joy by spreading both hands HA. The right side of FIG. 9 shows the subject SU with a small fist pose. For these subjects SU, the size determination unit 14 extracts, for example, an area surrounding the upper body or the whole body of the subject SU as a subject area SUA, and determines the size of the subject area SUA as the size of the subject SU. The determination result of the size is reflected in the composition CP.
  • FIG. 10 is a diagram showing an example of the size determination flow.
  • the user often designates an approximate size in advance.
  • description will be made on the assumption that the user has designated the extraction of a bust shot.
  • the size determination unit 14 uses the position of the body part BP and the head area HEA obtained by the posture acquisition unit 11 to calculate a rectangular area surrounding the upper body of the subject SU as the subject area SUA (step SD1). .
  • the size determination unit 14 calculates how much the subject area SUA has increased from the previous frame as a difference from the previous frame (step SD2). As the difference, the difference between the vertical direction and the horizontal direction of the subject SU is obtained, and the size determination unit 14 selects the difference with the larger absolute value, for example.
  • the magnitude determination unit 14 determines whether or not the absolute value of the calculated difference is greater than the threshold (step SD3). When the absolute value of the difference is equal to or less than the threshold (step SD3: no), the size determination unit 14 determines that there is no change in size (step SD7). If the absolute value of the difference is greater than the threshold (step SD3: yes), the size determination unit 14 determines whether the size has been reduced or expanded based on the sign of the difference (steps SD4 to SD6). ).
  • the size determination unit 14 basically determines the reduction ratio and enlargement ratio of the angle of view AV (image area in the shot image CV to be cut out) so as to include the subject area SUA.
  • the reduction ratio and enlargement ratio can also be determined in advance. If the enlargement ratio and the reduction ratio are determined in advance, although it depends on the user's request, the switching of the angle of view AV becomes clear, and the image becomes easy to see.
  • the motion determination unit 15 calculates the direction and amount of movement of the subject SU in the current frame with respect to the previous frame from the subject tracking result obtained by the subject tracking unit 12 .
  • the motion determination unit 15 determines whether the subject SU has moved based on the calculation result of the movement method and the movement amount.
  • FIG. 11 is a diagram showing an example of the motion determination flow.
  • the motion determination unit 15 acquires the subject position of the current frame and the subject position of the previous frame based on the tracking result.
  • the subject position is obtained, for example, as the coordinates of the subject SU in the camera coordinate system.
  • the motion determination unit 15 calculates the amount of movement of the subject SU by subtracting the subject position in the previous frame from the subject position in the current frame (step SE1).
  • the amount of movement is calculated as a signed amount of movement in which the right direction is positive. When moving to the right side of the screen, the amount of movement is positive, and when moving to the left side, the amount of movement is negative.
  • the motion determination unit 15 determines whether or not the absolute value of the movement amount is greater than the threshold (step SE2). When the absolute value of the movement amount is equal to or less than the threshold (step SE2: no), the motion determination unit 15 determines that the subject SU is not moving (step SE6). When the absolute value of the movement amount is larger than the threshold (step SE2: yes), the movement determination unit 15 determines whether the movement direction is rightward or leftward based on the sign of the movement amount (steps SE3 to SE5).
  • FIG. 12 is a diagram illustrating a method of calculating the target composition.
  • the state of the subject SU is specified based on the determination results of the orientation determination unit 13, the size determination unit 14, and the motion determination unit 15.
  • the state of the subject SU includes, for example, a state related to at least one of the moving direction of the subject SU, the orientation of the subject SU, and the size of the subject SU. For example, in the left example of FIG. 12, a state in which the subject SU faces left and moves leftward is detected.
  • the target composition calculation unit 16 calculates the target composition (target composition TCP) of the framing video OV based on the state of the subject SU. For example, the target composition calculation unit 16 determines the size of the target composition TCP (the size of the angle of view AV) based on the determination result of the size. The target composition calculation unit 16 determines the spatial margins on the left and right sides of the subject SU based on the direction and motion determination results. As a result, the target composition TCP including left and right margins is determined.
  • the determination result of the movement direction and the determination result of the orientation of the subject SU may differ. Judgment results take precedence. In many cases, the composition CP of the previous frame is continued.
  • FIG. 13 and 14 are diagrams showing an example of the target composition calculation flow.
  • the target composition calculation unit 16 decrements the counter by a preset set number when the orientation determination unit 13 determines that the direction is leftward, and increases the counter by the same set number when the direction determination unit 13 determines that the direction is rightward.
  • the target composition calculation unit 16 does not change the counter.
  • the target composition calculation unit 16 determines leftward or rightward based on the sign of the counter.
  • the target composition calculation unit 16 When the motion determination unit 15 determines left direction, right direction, or no motion, the target composition calculation unit 16 performs processing to decrease, increase, or keep the motion counter, respectively. When the absolute value of the counter exceeds the threshold, the target composition calculation unit 16 determines that there is movement, and determines leftward or rightward based on the sign of the counter.
  • the determination result of direction determination and movement determination is used as an index for creating a margin in the direction of the determination result by shifting the subject SU from the center of the screen.
  • the target composition calculation unit 16 determines the shift amount of the subject SU by prioritizing this movement direction.
  • the target composition calculation unit 16 gives priority to the direction determination result.
  • the target composition calculation unit 16 places the subject SU at the center of the screen when the direction determination determines that the subject is facing forward, and when the direction determination determines that the subject SU faces left or right, the target composition calculation unit 16
  • the shift amount of the subject SU is determined so that there is a margin in that direction.
  • the target composition calculation unit 16 increases the size counter.
  • the target composition calculation unit 16 decrements the size counter when the size determination unit 14 determines that the subject area SUA has been reduced.
  • the target composition calculation unit 16 does not change the size of the angle of view AV if the absolute value is less than or equal to the threshold, and if it exceeds the absolute value, based on the sign of the size counter, Determines enlargement and reduction of the angle of view AV.
  • the output of the target composition calculation unit 16 is, for example, the size of the angle of view AV and the relative position of the body axis AV starting from the top of the head of the subject SU within the angle of view AV.
  • the starting point is obtained as the intersection of the upper side of the head area HEA in FIG. 14 and the body axis AX.
  • Composition transition determination unit 15 to 18 are diagrams for explaining the composition CP transition method.
  • the current composition CCP, the target composition TCP, and the next composition NCP are shown as image areas (angle of view AV) to be clipped.
  • the current composition CCP means the composition CP of the video area cut out as the framing video OV of the current frame.
  • the next composition NCP means the composition CP of the video area to be cut out as the framing video OV of the next frame.
  • the composition transition determining unit 17 determines the transition mode from the current composition CP to the target composition TCP. The composition transition determining unit 17 determines the next composition NCP based on the determined transition mode.
  • the transition modes include a smooth composition transition mode and an instant composition transition mode.
  • the smooth composition transition mode is a transition mode in which the composition CP gradually transitions from the current composition CCP to the target composition TCP.
  • the instantaneous composition transition mode is a transition mode in which the composition CP instantaneously transitions from the current composition CCP to the target composition TCP.
  • the composition CP transitions quickly in a shorter period than in the smooth composition transition mode.
  • An instant means, for example, a period within several preset frames. The duration of this transition is, for example, 5 frames or less, preferably 1 frame.
  • the composition transition determining unit 17 switches the transition mode to the target composition TCP between the smooth composition transition mode and the instantaneous composition transition mode based on the change in the state of the subject SU.
  • the state of change in the state of the subject SU is, for example, the state of at least one of the speed at which the direction of movement of the subject SU is switched, the speed at which the direction of the subject SU is switched, and the change in the size of the subject SU. include.
  • a situation in which the transition mode should be switched from the smooth composition transition mode to the instantaneous composition transition mode is, for example, a situation in which the type of the target composition TCP changes while the composition is smoothly transitioning toward the target composition TCP. means.
  • the position where the lead room should be provided is from left to right or from right to left. to the left. Therefore, another type of target composition TCP with a different installation direction of the lead room is determined.
  • the type of target composition TCP also changes when the pose of the subject SU changes and it becomes appropriate to shoot from a bust shot to a full shot. In such a case, the transition mode is switched from the smooth composition transition mode to the instant composition transition mode.
  • the occurrence of a situation in which the transition mode should be switched from the smooth composition transition mode to the instant composition transition mode is defined as a change in the orientation or movement direction of the subject SU within a predetermined reference time that causes a change in composition type as described above. or there is a change in the size of the subject SU by a predetermined reference magnification or more. Note that the reference time and the reference magnification can be appropriately set according to the user.
  • FIG. 15 is a diagram showing a smooth transition of the composition CP when walking from a stationary state.
  • the target composition TCP is determined based on the rule of thirds.
  • the dashed-dotted line in FIG. 15 indicates the position of the division line DL that divides the screen into three.
  • the subject SU In the initial stationary state, the subject SU is placed in the center of the angle of view AV.
  • the target composition calculation unit 16 calculates the position and size of the angle of view AV (target angle of view) of the target composition TCP so that a margin is formed in the traveling direction.
  • the composition transition determining unit 17 calculates the result of interpolation between the angle of view AV of the current composition CCP and the target angle of view as the angle of view AV of the next composition NCP. do.
  • the composition transition determination unit 17 generates information about the position and size of the angle of view AV of the next composition NCP as angle of view information, and supplies the information to the video clipping unit 18 .
  • the composition transition determination unit 17 gradually brings the position and size of the angle of view AV closer to the target angle of view by obtaining the angle of view AV of the next composition NCP by interpolation processing.
  • a smooth transition of the angle of view AV is natural, and is an effective transition method when the movement direction and the orientation of the subject SU do not change frequently.
  • FIG. 16 is a diagram showing an example in which the subject SU frequently changes direction due to exchanges of questions and calls by listeners.
  • the composition transition determining unit 17 instantaneously transitions the composition CP toward the target composition TCP.
  • FIG. 17 is a diagram showing an example of transitioning the composition CP in the instant composition transition mode.
  • the composition transition determining unit 17 When a new target composition TCP with a different position and size of the target angle of view is determined while the composition CP is transitioning in the smooth composition transition mode, the composition transition determining unit 17 instantly changes the transition mode. Switch to composition transition mode. For example, immediately after the transition starts in the smooth composition transition mode, or in a situation away from the target composition TCP, the orientation of the subject SU changes and the position and size of the target angle of view change. , the composition transition determining unit 17 instantaneously transitions the position and size of the angle of view AV of the next composition NCP toward the position and size of the target angle of view.
  • the composition transition determining unit 17 determines the change rate (enlargement ratio or reduction ratio) of the angle of view AV immediately after the transition mode is switched from the smooth composition transition mode to the instant composition transition mode as the angle of view immediately before switching the transition mode. Differentiate the rate of change of the AV magnitude. This is because by adjusting the size of the angle of view AV as well as the position of the angle of view AV, an instantaneous change in the composition CP is less likely to be recognized as disturbance of the image. For example, if only the position of the angle of view AV is changed without changing the rate of change of the angle of view AV, it may give the impression that the camera 20 has hit something and the image is disturbed. When the size of the angle of view AV is changed, such a sense of incongruity is less likely to occur.
  • the composition transition determining unit 17 when the rate of change in the magnitude of the angle of view AV at the instantaneous transition calculated from the size of the target angle of view is different from the rate of change in the magnitude of the angle of view AV immediately before the instantaneous transition, the composition transition determining unit 17 , the size of the target angle of view is set as it is as the size of the angle of view AV of the next composition NCP.
  • the composition transition determining unit 17 An angle of view larger than the target angle of view is set as the size of the angle of view AV of the next composition NCP.
  • the composition transition determining unit 17 prohibits selection of the instantaneous composition transition mode for a predetermined period after the instantaneous composition transition mode is selected.
  • the composition transition determining unit 17 selects a smooth transition instead of an instantaneous transition when a certain period of time has not elapsed since the previous instantaneous transition.
  • FIG. 18 is a diagram showing an example in which an instantaneous transition is first performed and then a smooth transition is performed.
  • FIG. 19 is a diagram illustrating an example of a transition mode determination flow.
  • the composition CP transition is performed using the instantaneous counter and smooth counter cleared in the initialization (step SA1) of FIG.
  • the instantaneous counter indicates the number of frames after the transition in the instantaneous composition transition mode.
  • the smooth counter indicates the number of frames after transition in the smooth composition transition mode.
  • the composition transition determining unit 17 increments the instantaneous counter and the smooth counter by 1 for each frame (steps SG1 to SG2). In the instantaneous composition transition mode, the composition transition determination unit 17 clears only the instantaneous counter (step SG8). In the smooth composition transition mode, the composition transition determining unit 17 clears only the smooth counter (step SG10).
  • the composition transition determination unit 17 selects the smooth composition transition mode (step SG9). Even if the composition CP changes due to a change in the orientation of the subject SU, if the smooth counter is equal to or greater than the threshold value or the instantaneous counter is equal to or less than the threshold value, the composition transition determination unit 17 selects the smooth composition transition mode instead of the instantaneous composition transition mode. Select a mode (step SG9).
  • the composition transition determining unit 17 selects the instantaneous composition transition mode (step SG7 ).
  • the composition transition determining unit 17 determines that the rate of change of the angle of view AV of the next frame calculated from the target angle of view (the rate of change of the angle of view AV at the time of instantaneous transition) is the rate of change of the angle of view AV of the current frame (the rate of change of the angle of view AV immediately before the instantaneous transition). change rate of the angle of view AV), the magnification of the angle of view AV is increased, and the instantaneous composition CP is changed.
  • Video clipping section Based on the angle-of-view information acquired from the composition transition determination unit 17, the video clipping unit 18 clips a video region corresponding to the angle of view AV of the next composition NCP from the captured video CV.
  • the video clipping unit 18 outputs the clipped video of the video region as a framing video OV.
  • the video processing device 10 has a target composition calculation unit 16 and a composition transition determination unit 17 .
  • the target composition calculation unit 16 calculates the target composition TCP based on the state of the subject SU.
  • the composition transition determining unit 17 switches the transition mode to the target composition TCP between a smooth composition transition mode and an instant composition transition mode based on the change in the state of the subject SU.
  • the smooth composition transition mode is a transition mode in which the composition CP gradually transitions toward the target composition TCP.
  • the instantaneous composition transition mode is a transition mode in which the composition CP instantaneously transitions toward the target composition TCP.
  • the processing of the video processing device 10 is executed by a computer.
  • the program of the present embodiment causes a computer to implement the processing of the video processing device 10 .
  • the state of the subject SU includes a state related to at least one of the moving direction of the subject SU, the orientation of the subject SU, and the size of the subject SU.
  • the state of change in the state of the subject SU includes at least one of the speed at which the moving direction is switched, the speed at which the orientation of the subject SU is switched, and the change in the size of the subject SU.
  • the composition transition determining unit 17 determines the rate of change in the magnitude of the angle of view AV immediately after switching the transition mode from the smooth composition transition mode to the instant composition transition mode as the rate of change in the magnitude of the angle of view AV immediately before switching the transition mode. be different from
  • the composition transition determining unit 17 switches the transition mode to the instantaneous composition transition mode when a new target composition TCP is determined while the composition CP is transitioning in the smooth composition transition mode.
  • the composition transition determining unit 17 prohibits selection of the instantaneous composition transition mode for a predetermined period after the instantaneous composition transition mode is selected.
  • the state of the subject SU is obtained by image analysis of the captured video CV of the subject SU.
  • the state of the subject SU can be easily obtained without using any sensor other than the camera.
  • FIG. 20 is a diagram showing the imaging system CS2 of the second embodiment.
  • the difference between this embodiment and the first embodiment is that the state of the subject SU is obtained based on the sensor position information POI of the position sensor SE attached to the subject SU.
  • the following description will focus on differences from the first embodiment.
  • the sensor position information POI includes information on the position of the body part BP of the subject SU to which the position sensor SE is attached.
  • the video processing device 50 acquires the sensor position information POI via the sensor signal receiver RC.
  • the video processing device 50 performs calibration with the camera 20 and transforms the position of the body part BP into a position in the camera coordinate system.
  • arithmetic processing using the sensor position information POI replaces the processing of the orientation acquisition unit 11 and the subject tracking unit 12 (or both). Therefore, the state of the subject SU can be accurately detected without performing complicated image analysis.
  • FIG. 21 is a diagram showing the imaging system CS3 of the third embodiment.
  • a plurality of cameras 20 are installed at the shooting site.
  • a plurality of cameras 20 photograph the subject SU from different viewpoints.
  • the image processing device 60 is installed for each camera 20 .
  • the configuration of the video processing device 60 is the same as that of the video processing device 10 of the first embodiment.
  • individual cameras 20 are distinguished by numbers attached after the reference numerals.
  • Equipment and information corresponding to each camera 20 are given the same numbers as those of the cameras 20 after the reference numerals. This number matches, for example, the video number assigned to each shot video CV.
  • the video processing device 60 performs image analysis on the captured video CV to generate angle-of-view information CPI and subject information SUI.
  • the angle-of-view information CPI indicates the position and size of the angle-of-view AV (video area cut out from the shot video CV) corresponding to the composition NCP of the next frame.
  • the subject information SUI indicates the state of the subject SU (moving direction of the subject SU, direction of the subject SU, size of the subject SU).
  • the subject information SUI is generated by the target composition calculator 16 based on the determination results of the orientation determiner 13 , size determiner 14 and motion determiner 15 .
  • the imaging system CS3 has a video switcher 70.
  • Video processing device 60 outputs angle-of-view information CPI and subject information SUI to video switcher 70 .
  • the video switcher 70 switches the captured video CV to be framed based on the subject information SUI acquired from each video processing device 60 .
  • the video switcher 70 outputs a framing video OV cut out from the selected captured video CV.
  • the framing video OV is cut out from the captured video CV based on the angle of view information CPI.
  • the clipping of the framing video OV may be performed by the video processing device 60 or may be performed by the video switcher 70 .
  • the video switcher 70 cuts out the framing video OV, the video clipping section 18 of the video processing device 60 is not used.
  • FIG. 22 is a diagram showing an example of the functional configuration of the video switcher 70. As shown in FIG. 22
  • the video switcher 70 has a selected video determination unit 71 and a video switching unit 72 .
  • the selected image determination unit 71 acquires subject information SUI and angle-of-view information CPI from each image processing device 60 .
  • the selected image determination unit 71 selects one captured image CV according to the state of the subject SU from the captured images CV of the plurality of subjects SU based on the obtained plurality of pieces of subject information SUI.
  • the image switching unit 72 acquires angle of view information CPI corresponding to the selected captured image CV from the selected image determination unit 71 .
  • the video switching unit 72 cuts out a video region corresponding to the angle-of-view information CPI from the selected shot video CV.
  • the image switching unit 72 outputs the image area cut out from the selected captured image CV as the framing image OV.
  • the selected video determination unit 71 selects a shot video CV closer to the front (or a preset direction), for example, using the orientation of the subject SU obtained from the subject information SUI.
  • the moving direction of the subject SU obtained from the subject information SUI is used to select the captured image CV of the camera 20 that is close to the approaching direction of the subject SU.
  • FIG. 23 is a diagram showing an example of a flow for selecting a shot video CV.
  • the user sets the preferred orientation of the subject SU (step SH1). By default, for example, front is set as the preferred orientation.
  • the selected video determination unit 71 acquires subject information SUI and angle-of-view information CPI synchronized with the shot video CV from a plurality of video processing devices 60 .
  • the selected video determination unit 71 detects the orientation of the subject SU from the subject information SUI for each shot video CV.
  • the selected video determination unit 71 obtains the degree of similarity between the orientation of the subject SU and the preferred orientation for each shot video CV (steps SH2 to SH3).
  • the orientation similarity can be calculated using, for example, the distance d between the nose NS and the body axis AX. Since the distance d differs depending on whether the face is oriented sideways or obliquely, it is possible to set the orientation more precisely than left, right, or front.
  • the selected video determination unit 71 detects the shot video CV that indicates the orientation of the subject SU with the highest degree of similarity.
  • the selected video determination unit 71 outputs the video number of the detected captured video CV and the field angle information CPI corresponding to this captured video CV to the video switching unit 72 (step SH4).
  • the image switching unit 72 cuts out the captured image CV indicated by the acquired image number at an appropriate angle of view AV based on the angle of view information CPI.
  • the image switching unit 72 outputs the clipped image area as the framing image OV.
  • the switching of the shot video CV is instantaneous.
  • selection of the instantaneous composition transition mode is prohibited for a predetermined period after the instant composition transition mode is selected. This is to reduce discomfort caused by frequent instantaneous transitions of the composition CP.
  • the selected video determination unit 71 prohibits selection of another captured video CV for a predetermined period after one captured video CV is selected. For example, the selected video determination unit 71 performs the next switching after several seconds from the previous switching. Such control becomes possible by providing a counter for measuring the switching interval in the flow of FIG.
  • the selected video determination unit 71 determines the rate of change in the magnitude of the angle of view AV immediately after another captured video CV is selected as the change in the magnitude of the angle of view AV immediately before the other captured video CV is selected. make the rate different. As a result, an instantaneous change in composition CP is less likely to be recognized as image disturbance.
  • the selected video determination unit 71 selects one captured video CV according to the state of the subject SU from a plurality of captured video CVs of the subject SU captured from different viewpoints.
  • the image switching unit 72 outputs the image area cut out from the selected captured image CV as the framing image OV.
  • the viewpoint (camera 20) is selected based on the state of the subject SU.
  • a video with a more appropriate composition CP can be obtained.
  • FIG. 26 is a diagram showing an example of the functional configuration of the video processing device 80. As shown in FIG.
  • the target composition TCP When calculating the target composition TCP, it may be desired to consider not only the subject SU but also the specific object OB at the same time. For example, in a scene in which a new product is advertised as shown in FIG. 24, it is desirable to determine the composition CP including not only the speaker (subject SU) but also the product (object OB).
  • the speaker and the product are the basis for calculating the composition CPB.
  • a region containing the speaker and the product is extracted as the subject region, and the center line of the subject region is placed in the center of the screen.
  • this composition CPB a well-balanced image can be obtained because the viewer's attention area is arranged in the center of the screen.
  • composition CP including not only the main speaker (subject SU) but also the monitor (object OB) showing the teleconference participants.
  • a video processing device 80 as shown in FIG. 26, which is obtained by adding an object recognition unit 81 to the video processing device 10 of FIG.
  • the object recognition unit 81 detects the subject SU and the object OB that serves as a basis for calculating the target composition TCP from the captured video CV of the subject SU.
  • the target composition TCP is calculated based on the object recognition result as well. Therefore, an image with an appropriate composition CP including the target object OB can be obtained.
  • FIG. 27 is a diagram for explaining the outline of framing according to the fifth embodiment.
  • FIG. 28 is a diagram showing an example of the functional configuration of the video processing device 90. As shown in FIG.
  • camera 20 a fixed camera (overhead camera) with a fixed field of view that covers the entire range in which the subject SU moves around is used.
  • camera 20 is not limited to a fixed camera.
  • the PTZ camera 22 can control the orientation (pan, tilt) and zoom of the lens, it is possible to obtain a higher quality image than a fixed camera.
  • FIG. 27 shows the difference in field of view between the fixed camera 21 and the PTZ camera 22 when photographing the subject SU.
  • the moving range of the subject SU lecturer
  • a range including all of it must be included in the field of view FV1 to output the image of the subject SU during the lecture.
  • the PTZ camera 22 can rotate the lens, so it is possible to photograph the subject SU with the narrowed field of view FV2 and the resolution.
  • the image A on the right side of FIG. 27 shows the image captured by the fixed camera 21.
  • a video area (angle of view AV) near the subject SU is clipped out of a wide range of video, and much of the shooting resolution is not used for output.
  • Video B is a video captured by the PTZ camera 22 in consideration of instantaneous transitions. Since the PTZ camera 22 rotates the lens by mechanical control, the composition CP cannot be changed instantaneously. Therefore, taking into account the image range to be framed after the instantaneous transition, the field of view FV2 is photographed with a larger margin than the target composition TCP. If the field of view FV2 is set so as to include the target composition TCP (including the enlargement of the angle of view AV at the time of instantaneous transition), even if the subject SU faces in the opposite direction to the image B, as in the image C, the instantaneous composition CP transition becomes possible.
  • the shooting resolution of the PTZ camera 22 is utilized to achieve higher quality framing than the fixed camera 21.
  • FIG. 28 shows a video processing device 90 to which a camera control section 91 for controlling the PTZ camera 22 is added.
  • the camera control unit 91 controls the field of view (pan, tilt, zoom) of the PTZ camera 22 that captures the subject SU based on the state of the subject SU (moving direction of the subject SU, direction of the subject SU, size of the subject SU). do.
  • the camera control unit 91 sets the field of view of the PTZ camera 22 so that there is a spatial margin on the right side of the subject SU.
  • the camera control unit 91 sets the field of view of the PTZ camera 22 so that a similar spatial margin is generated on the left side of the subject SU so that the composition CP for leftward can be instantly changed.
  • FIG. 29 is a diagram showing an example of the control flow of the PTZ camera 22. As shown in FIG.
  • the camera control unit 91 outputs a control signal for the PTZ camera 22 based on the position of the subject SU's body axis AX and the assumed maximum field of view. For example, the camera control unit 91 calculates the field of view when the body axis AX is placed in the left 1/3 of the screen (step SJ1), and calculates the field of view when the body axis AX is placed in the right 1/3 of the screen. is calculated (step SJ2). The camera control unit 91 calculates the margin taking into account the delay in the turning motion of the PTZ camera 22 (step SJ3).
  • the camera control unit 91 calculates a field of view that includes the two fields of view calculated in steps SJ1 and SJ2, adds the margins calculated in step SJ3 to this, and calculates the range of the field of view captured by the PTZ camera 22. (step SJ4).
  • the camera control unit 91 controls pan, tilt and zoom of the PTZ camera so as to obtain the calculated field of view (step SJ5).
  • the camera control unit 91 sets the pan and tilt so that the body axis AX starting from the top of the head is placed in the center of the screen, and sets the zoom so that the size of the field of view obtained is obtained. As a result, an image corresponding to image B in FIG. 27 is acquired.
  • the camera control unit 91 appropriately controls the field of view of the PTZ camera 22 . Therefore, a high-resolution video image with an appropriate composition can be obtained.
  • the transition mode is switched to the instantaneous composition transition mode when a new target composition TCP is determined while the composition CP is transitioning in the smooth composition transition mode.
  • the timing of switching the transition mode to the instantaneous composition transition mode is not limited to this.
  • the composition transition determining unit 17 switches the transition mode to the instantaneous composition transition mode when the state of the subject SU greatly changes beyond the permissible standard while the composition CP is transitioning in the smooth composition transition mode. be able to.
  • the allowable standard means the standard regarding the amount of change in the state that requires the target composition TCP to be changed. If the state of the subject SU changes significantly beyond the permissible standard, it is determined that the target composition TCP cannot be maintained.
  • the composition transition determining unit 17 switches the composition CP in the instant composition transition mode.
  • the sense of discomfort caused by the discrepancy between the state of the subject SU and the composition CP is reduced.
  • the state of the subject SU changes significantly, it takes time for the change in composition CP to catch up with the state of the subject SU in a smooth transition of the composition CP. If the time period during which the state of the subject SU and the composition CP are different from each other becomes longer, the viewer feels uncomfortable. If the composition CP is instantaneously changed to the target composition TCP when the state of the subject SU changes significantly, such discomfort is less likely to occur.
  • the framing method of the fifth embodiment can also be applied to shooting with a hand-held camera.
  • the hand-held camera is similar to the PTZ camera 22 in that the field of view can be adjusted by changing the orientation of the lens. Therefore, like the PTZ camera 22, the camera control unit 91 can control the field of view of the camera 20 that captures the subject SU based on the state of the subject SU. For example, the camera control unit 91 automatically controls the zoom of the hand-held camera so that the image can be captured in a field of view that can be reversed in orientation or enlarged or reduced in composition.
  • the camera control unit 91 can also notify the user who shoots the subject of recommendation information based on the difference between the field of view of the current frame and the target field of view. For example, the camera control unit 91 presents recommendation information regarding changes in the panning direction, zoom ratio, etc. within the finder in order to bring the current field of view of the hand-held camera closer to the target field of view. Accordingly, it is possible to prompt the user to change the field of view.
  • the framing method of the third embodiment can be combined with the control method of the PTZ camera 22 described in the fifth embodiment.
  • the next angle of view AV is assumed based on the angle of view AV of the framing video OV currently being output, and the field of view of the PTZ camera 22 not selected is adjusted to the field of view corresponding to the next angle of view AV.
  • the camera control unit 91 calculates the field of view of the PTZ camera 22 that captured the non-selected captured video CV based on the angle of view AV of the video area cut out from the selected captured video CV. As a result, it is possible to smoothly deal with changes in the orientation and movement direction of the subject.
  • FIG. 30 is a diagram showing a hardware configuration example of the imaging system CS.
  • the imaging system CS is implemented by, for example, a computer 1000 configured as shown in FIG.
  • the computer 1000 has a CPU 1100 , a RAM 1200 , a ROM (Read Only Memory) 1300 , a HDD (Hard Disk Drive) 1400 , a communication interface 1500 and an input/output interface 1600 .
  • Each part of computer 1000 is connected by bus 1050 .
  • the CPU 1100 operates based on programs stored in the ROM 1300 or HDD 1400 and controls each section. For example, the CPU 1100 loads programs stored in the ROM 1300 or HDD 1400 into the RAM 1200 and executes processes corresponding to various programs.
  • the ROM 1300 stores a boot program such as BIOS (Basic Input Output System) executed by the CPU 1100 when the computer 1000 is started, and programs dependent on the hardware of the computer 1000.
  • BIOS Basic Input Output System
  • the HDD 1400 is a computer-readable recording medium that non-temporarily records programs executed by the CPU 1100 and data used by such programs.
  • HDD 1400 is a recording medium that records an information processing program according to the present disclosure, which is an example of program data 1450 .
  • a communication interface 1500 is an interface for connecting the computer 1000 to an external network 1550 (for example, the Internet).
  • CPU 1100 receives data from another device via communication interface 1500, and transmits data generated by CPU 1100 to another device.
  • the input/output interface 1600 is an interface for connecting the input/output device 1650 and the computer 1000 .
  • the CPU 1100 receives data from input devices such as a keyboard and mouse via the input/output interface 1600 .
  • the CPU 1100 also transmits data to an output device such as a display, speaker, or printer via the input/output interface 1600 .
  • the input/output interface 1600 may function as a media interface for reading a program or the like recorded on a predetermined recording medium.
  • Media include, for example, optical recording media such as DVDs (Digital Versatile Discs), magneto-optical recording media such as MOs (Magneto-Optical disks), tape media, magnetic recording media, semiconductor memories, and the like.
  • the CPU 1100 of the computer 1000 implements the functions of each unit of the video processing device by executing programs loaded on the RAM 1200 .
  • the HDD 1400 stores programs according to the present disclosure and data in the video processing device and the recording device 40 .
  • CPU 1100 reads and executes program data 1450 from HDD 1400 , as another example, these programs may be obtained from another device via external network 1550 .
  • a target composition calculation unit that calculates a target composition based on the state of the subject;
  • a smooth composition transition mode in which the composition gradually transitions toward the target composition and a smooth composition transition mode in which the composition transitions instantaneously toward the target composition are transition modes to the target composition based on the status of the state change.
  • composition transition determining unit that switches between an instantaneous composition transition mode;
  • Information processing device having (2) the state of the subject includes a state related to at least one of a moving direction of the subject, an orientation of the subject, and a size of the subject;
  • the status of the state change includes a status related to at least one of the speed at which the direction of movement is switched, the speed at which the direction is switched, and a change in the size of the subject.
  • the information processing apparatus according to (1) above.
  • the composition transition determining unit determines a change rate of the angle of view immediately after switching the transition mode from the smooth composition transition mode to the instantaneous composition transition mode as the rate of change of the angle of view immediately before switching the transition mode. to differ from the rate of change, The information processing apparatus according to (1) or (2) above.
  • the composition transition determining unit switches the transition mode to the instantaneous composition transition mode when the new target composition is determined while the composition is transitioning in the smooth composition transition mode.
  • the information processing apparatus according to any one of (1) to (3) above.
  • the composition transition determining unit switches the transition mode to the instantaneous composition transition mode when the state greatly changes beyond an allowable standard while the composition is transitioning in the smooth composition transition mode.
  • the information processing apparatus according to any one of (1) to (3) above.
  • the composition transition determining unit prohibits selection of the instantaneous composition transition mode for a predetermined period after the instantaneous composition transition mode is selected.
  • the information processing apparatus according to any one of (1) to (5) above.
  • the state of the subject is obtained by image analysis of the captured video of the subject, The information processing apparatus according to any one of (1) to (6) above.
  • the state of the subject is obtained based on sensor position information of a position sensor attached to the subject;
  • the information processing apparatus according to any one of (1) to (6) above. (9) a selected image determination unit that selects one captured image according to the state of the subject from a plurality of captured images of the subject that are captured from different viewpoints; a video switching unit that outputs a video region clipped from the selected captured video as a framing video;
  • the selected image determination unit prohibits selection of the other captured images for a predetermined period after one of the captured images is selected.
  • the selected image determination unit makes the rate of change in the size of the angle of view immediately after the other photographed image is selected different from the rate of change in the size of the angle of view immediately before the other photographed image is selected.
  • An object recognition unit that detects an object that serves as a basis for calculating the target composition together with the subject from the captured image of the subject, The information processing apparatus according to any one of (1) to (11) above.
  • a camera control unit that controls a field of view of a camera that captures the subject based on the state of the subject, The information processing apparatus according to any one of (1) to (12) above.
  • the camera control unit presents recommendation information to the user who shoots the subject based on the difference between the field of view of the current frame and the target field of view.
  • the information processing device according to (13) above.
  • a camera control unit that calculates the field of view of the camera that captured the unselected captured image based on the angle of view of the image area cut out from the selected captured image, The information processing apparatus according to any one of (9) to (11) above.
  • (16) Calculate the target composition based on the subject's condition, A smooth composition transition mode in which the composition gradually transitions toward the target composition and a smooth composition transition mode in which the composition transitions instantaneously toward the target composition are transition modes to the target composition based on the status of the state change.
  • switch between instantaneous composition transition mode and A computer-implemented information processing method comprising: (17) Calculate the target composition based on the subject's condition, A smooth composition transition mode in which the composition gradually transitions toward the target composition and a smooth composition transition mode in which the composition transitions instantaneously toward the target composition are transition modes to the target composition based on the status of the state change. switch between instantaneous composition transition mode and A program that makes a computer do something.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Dentistry (AREA)
  • Biomedical Technology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Medical Informatics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Physiology (AREA)
  • Image Analysis (AREA)

Abstract

情報処理装置(10)は、目標構図算出部(16)と構図遷移決定部(17)とを有する。目標構図算出部(16)は、被写体の状態に基づいて目標構図を算出する。構図遷移決定部(17)は、被写体の状態の変化の状況に基づいて、目標構図への遷移モードをスムーズ構図遷移モードと瞬時構図遷移モードとの間で切り替える。スムーズ構図遷移モードは、目標構図に向けて徐々に構図が遷移する遷移モードである。瞬時構図遷移モードは、目標構図に向けて瞬時に構図が遷移する遷移モードである。

Description

情報処理装置、情報処理方法およびプログラム
 本発明は、情報処理装置、情報処理方法およびプログラムに関する。
 レクチャーキャプチャなどの分野において、被写体(例えば講師)を自動撮影する技術が提案されている。自動撮影では、被写体が追尾され、被写体の位置に合わせてフレーミングが行われる。フレーミングを行う際には、構図の決定と、構図を適切に遷移させることが重要である。例えば、被写体が右を向いている場合や、右側に移動している場合には、被写体の右側にスペースを取った構図が望ましい。
 しかしながら、移動方向や向きなどの状態は常に同じではない。例えば、被写体は常に右側を向いているわけではなく、向きを変える。また、向きを変えるタイミングもその時々で変化し、講義内容や聴講者とのやりとりによっては頻繁に向きが変わる場合もある。
特開2019-191736号公報 特開2010-081246号公報 特開2016-158241号公報 特開2017-063340号公報
 自動撮影結果は動画であるため、それまで望ましい構図であったとしても、被写体の状態(例えば、被写体の移動方向や向きなど)が変わった瞬間に望ましい構図ではなくなってしまう。このため、被写体の状態が変わった後の望ましい構図を目標の構図として現在の構図から構図調整を行う必要があるが、不自然な構図調整となる場合があった。
 被写体の向きを判定する技術には、例えば、特許文献1がある。しかし、特許文献1では、フレーミングを目的としていないことから、ここで得られた被写体の向きをそのまま適用しても、上記のような適切なフレーミングとはならない。例えば、特許文献1では、手の向きを用いて被写体の向きを判定しているが、手を伸ばしている向きが必ずしも被写体が向いている方向と一致しているとは限らない。また、時間方向の被写体の向きの連続性や変化を適切に捉えるような考慮がなされていない。
 フレーミングに関する技術には、例えば、特許文献2、特許文献3および特許文献4がある。いずれも視線の向きなどを判定し、その方向にスペースを取る構図に関して工夫がなされている。しかし、視線の向きの変化などをどう時間方向に捉え、フレーミングに適用するかについては考慮されていない。
 そこで、本開示では、被写体の状態の変化に応じた適切な構図を設定することが可能な情報処理装置、情報処理方法およびプログラムを提案する。
 本開示によれば、被写体の状態に基づいて目標構図を算出する目標構図算出部と、前記状態の変化の状況に基づいて、前記目標構図への遷移モードを、前記目標構図に向けて徐々に構図が遷移するスムーズ構図遷移モードと、前記目標構図に向けて瞬時に前記構図が遷移する瞬時構図遷移モードと、の間で切り替える構図遷移決定部と、を有する情報処理装置が提供される。また、本開示によれば、前記情報処理装置の情報処理がコンピュータにより実行される情報処理方法、ならびに、前記情報処理装置の情報処理をコンピュータに実現させるプログラムが提供される。
第1実施形態の撮影システムを示す図である。 映像処理装置の機能構成を示すブロック図である。 全体の映像処理の流れを示したフローチャートである。 姿勢取得部で取得される姿勢情報の一例を示す図である。 被写体の向きの判定方法を説明する図である。 被写体の向きの判定方法を説明する図である。 向き判定フローの一例を示す図である。 被写体領域による向き判定の代わりに、手首と体軸との距離による向き判定を行った例を示す図である。 被写体の大きさの判定方法を説明する図である。 大きさ判定フローの一例を示す図である。 動き判定フローの一例を示す図である。 目標構図の算出方法を説明する図である。 目標構図の算出フローの一例を示す図である。 目標構図の算出フローの一例を示す図である。 静止状態から歩き出した場合のスムーズな構図の遷移を示す図である。 聴講者の質問のやり取りや呼びかけなどで頻繁に被写体が向きを変える例を示す図である。 瞬時構図遷移モードで構図を遷移させる例を示す図である。 最初に瞬時遷移を行い、その後スムーズな遷移を行う例を示す図である。 遷移モードの決定フローの一例を示す図である。 第2実施形態の撮影システムを示す図である。 第3実施形態の撮影システムを示す図である。 映像スイッチャの機能構成の一例を示す図である。 撮影映像の選択フローの一例を示す図である。 第4実施形態のフレーミングの概要を説明する図である。 第4実施形態のフレーミングの概要を説明する図である。 映像処理装置の機能構成の一例を示す図である。 第5実施形態のフレーミングの概要を説明する図である。 映像処理装置の機能構成の一例を示す図である。 PTZカメラの制御フローの一例を示す図である。 撮影システムのハードウェア構成例を示す図である。
 以下に、本開示の実施形態について図面に基づいて詳細に説明する。以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。
 なお、説明は以下の順序で行われる。
[1.第1実施形態]
 [1-1.撮影システムの構成]
 [1-2.映像処理方法]
  [1-2-1.姿勢取得部]
  [1-2-2.被写体追尾部]
  [1-2-3.向き判定部]
  [1-2-4.大きさ判定部]
  [1-2-5.動き判定部]
  [1-2-6.目標構図算出部]
  [1-2-7.構図遷移決定部]
  [1-2-8.映像切り出し部]
 [1-3.効果]
[2.第2実施形態]
[3.第3実施形態]
 [3-1.撮影システムの構成]
 [3-2.映像スイッチャの構成]
 [3-3.映像処理方法]
 [3-4.効果]
[4.第4実施形態]
[5.第5実施形態]
 [5-1.映像処理装置の機能構成]
 [5-2.映像処理方法]
 [5-3.効果]
[6.変形例1]
[7.変形例2]
[8.変形例3]
[9.撮影システムのハードウェア構成例]
[1.第1実施形態]
[1-1.撮影システムの構成]
 以下、図面を参照しながら、撮影システムCSの構成の一例を説明する。図1は、第1実施形態の撮影システムCS1を示す図である。
 撮影システムCS1は、レクチャーキャプチャ(講義収録)を行うシステムである。撮影システムCS1は、被写体SUである講師を自動追尾し、講義内容を自動収録する。例えば、撮影システムCS1は、映像処理装置10、カメラ20、表示装置30および記録装置40を有する。
 カメラ20は、被写体SUが動き回る範囲を撮影可能である。映像処理装置10は、カメラ20が撮影した撮影映像CVに対してフレーミングを実施する。フレーミングとは、撮影映像CVから、構図に応じた映像領域を切り出す処理をいう。この処理は、画角を調整する作業と類似するため、以下の説明では、切り出しの対象となる映像領域を画角AV(図9参照)と記載する。
 構図とは、映像に写る被写体SUの位置および大きさに関する構成を意味する。例えば3分割法では、画面を縦横それぞれ三分割にし、分割ラインDL(図15参照)どうしが交わる点に被写体SUが配置される。被写体SUが右を向いているときは、左側の分割ラインDL上に被写体SUが配置される(被写体SUの右側にリードルームが設けられる)構図が採用される。被写体SUが左を向いているときは、右側の分割ラインDL上に被写体SUが配置される(被写体SUの左側にリードルームが設けられる)構図が採用される。被写体SUの大きさについては、撮影対象となる被写体SUの範囲に応じて、ロングショット、フルフィギュア、ニーショット、ウエストショット、バストショットおよびクローズアップなどの構図が知られている。
 映像処理装置10は、被写体SUの状態に基づいて目標となる構図(目標構図)を決定する。例えば、映像処理装置10は、標準的な構図として、被写体SUの位置または大きさの異なる複数のタイプの構図を記憶している。映像処理装置10は、被写体SUの状態に応じた特定のタイプの構図を目標構図として選択する。
 例えば、被写体SUが右側を向いて講義をしているときには、映像処理装置10は、画面の左側の分割ラインDLに被写体SUを配置し、被写体SUをバストショットでフレーミングする構図を目標構図として決定する。被写体SUが左側に移動しているときには、映像処理装置10は、画面の右側の分割ラインDLに被写体SUを配置し、被写体SUをフルフィギュアでフレーミングする構図を目標構図として決定する。被写体SUの状態は、例えば、被写体SUの撮影映像CVを画像解析することにより取得される。
 映像処理装置10は、現在の構図と目標構図TCPとに基づいて、次の構図を決定する。映像処理装置10は、決定された構図に基づいて画角AV(切り出しの対象となる映像領域)の位置および大きさを示す画角情報を生成する。映像処理装置10は、画角情報に基づいて映像領域の切り出しを行う。映像処理装置10は、撮影映像CVから切り出した映像領域をフレーミング映像OVとして出力する。
 表示装置30は、映像処理装置10が出力するフレーミング映像OVを表示する。記録装置40は、フレーミング映像OVを記録する。撮影システムCS1に含まれる各機器は、HDMI(登録商標))(High-Definition Multimedia Interface)やSDI(Serial Digital Interface)などを介して直接接続されていても良いし、有線および無線のネットワークを介して接続されていても良い。
[1-2.映像処理方法]
 図2は、映像処理装置10の機能構成を示すブロック図である。
 映像処理装置10は、各種情報を処理する情報処理装置である。映像処理装置10は、姿勢取得部11、被写体追尾部12、向き判定部13、大きさ判定部14、動き判定部15、目標構図算出部16、構図遷移決定部17および映像切り出し部18を有する。
 図3は全体の映像処理の流れを示したフローチャートである。
 映像処理装置10は、処理に必要なカウンタなどの状態の初期設定を行った後(ステップSA1)、姿勢取得部11にて被写体SUの姿勢や頭部領域HEA(図14参照)の取得を行う(ステップSA2)。次に、映像処理装置10は、被写体SUの動きを前フレームとのマッチング等により被写体追尾部12にて取得する(ステップSA3)。こうして取得した情報をもとに、映像処理装置10は、被写体SUの向き、被写体SUの大きさ、被写体SUの動きを向き判定部13、大きさ判定部14および動き判定部15にて判定する(ステップSA4、SA5、SA6)。
 映像処理装置10は、これらの判定結果をもとに、目標構図算出部16で入力フレームに適した目標構図TCP(図15参照)を算出する(ステップSA7)。続いて、映像処理装置10は、構図遷移決定部17にて現在の構図CP(図15参照)から目標構図TCPへの遷移を決定し、入力フレームに対する構図CPを決定する(ステップSA8)。映像切り出し部18では、決定された構図CPに基づいてフレーミング映像OVを切り出して出力する(ステップSA9)。
 映像処理装置10は、全てのフレームに対してフレーミングが行われたか否かを判定する(ステップSA10)。次のフレームがある場合には(ステップSA10:no)、ステップSA2に戻り、全てのフレームに対してフレーミングが行われるまで上述の処理が繰り返される。次のフレームがない場合には(ステップSA10:yes)、映像処理装置10は、処理を終了する。
[1-2-1.姿勢取得部]
 図4は、姿勢取得部11で取得される姿勢情報の一例を示す図である。
 姿勢取得部11は、撮影映像CVから、向き判定部13および大きさ判定部14で使用する身体部位BPを画像解析処理により取得する。姿勢取得部11は、身体部位BPの画像を解析することにより、被写体SUの姿勢情報を抽出する。
 例えば、ディープラーニング技術を用いることで、撮影映像CVから図4の左側に示すような骨格データSKを抽出したり、顔のパーツや首、肩、肘、手首、腰、膝、足首などの関節JTの位置を取得したりすることができる。関節JTの位置は、姿勢情報の一部として用いることができる。また、ディープラーニング技術を用いて、図4の右側に示すような頭部領域HEAを推定する画像処理方法も存在する。頭部領域HEAも姿勢情報の一部として用いることができる。関節JTの位置および頭部領域HEAは別々の推定処理で求められてもよいし、一つの推定処理で求められてもよい。
[1-2-2.被写体追尾部]
 被写体追尾部12は、被写体SUのフレーム間での移動を検出する。これには、ピクセル毎のマッチングを行うオプティカルフロー処理のような画像を直接入力とする移動量算出処理や、姿勢取得部11で得た身体部位BPのフレーム間でのマッチング処理といった一度画像を処理して得られたデータによる移動量算出処理を用いることができる。ロバスト性を上げるために画像と身体部位BPのマッチングを両方用いて移動量算出を行うこともできる。
[1-2-3.向き判定部]
 図5および図6は、被写体SUの向きの判定方法を説明する図である。
 向き判定部13は、姿勢取得部11で得た姿勢情報を用いて被写体SUの向きを判定する。向きの判定は、例えば、被写体SUの体軸AXに対する身体部位BPのズレに基づいて行われる。例えば、図5の例では、体軸AXに対する鼻NSの位置のズレ(左方向を正として算出された体軸AXから鼻NSまでの距離d)が閾値を越えた場合に左方向を向いていると判定される。この判定には目EYなどの他の顔パーツの体軸AXに対するズレを使用することも可能である。判定をより安定に求めるために、同時に複数の顔パーツの体軸AXに対する相対位置を用いることもできる。身体全体が横方向を向く場合には画像内の肩幅SWが狭まることから、肩幅SWが閾値以下になるかどうかといった指標により向きの判定のロバスト性を高めることもできる。
 上記の判定と並行して、向き判定部13は、被写体SUのポーズに基づいて、被写体SUの向きを判定する。例えば、被写体SUが正面を向いていても、被写体SUのポーズによっては、被写体SUを画面の中央からずらした方がバランスのよい映像が得られる場合がある。図6は被写体SUが右手を広げて説明を行う例であるが、この例では、被写体SUは画面の右側にずらした方が望ましい。向き判定部13は、被写体SUのポーズに基づいて姿勢の偏りを検出し、この姿勢の偏りを被写体SUの向きとして判定する。
 ポーズに基づく判定では、例えば、被写体SUの右手首(図4の左側の4番目の関節)と体軸AXとの距離D1が閾値を越えたかどうかや(図6の左側)、被写体領域SUAの中央と体軸AXとの距離D2が閾値を越えたかどうか(図6の右側)などの情報を用いることができる。被写体領域SUAは、撮影対象となる被写体SUの主要部位を包含する被写体SUの領域を意味する。例えば、バストショットでは、被写体SUの上半身の関節を含む矩形領域が被写体領域SUAとなる。向き判定部13は、体軸AXと顔パーツ、体軸AXとポーズといった複数の算出手段を用いて向きを判定する。
 図7は、向き判定フローの一例を示す図である。
 図7では、鼻NSと体軸AX、肩幅SW、および、被写体領域SUAと体軸AXとの関係から被写体SUの向きが判定される。向き判定部13は、最初に首の付け根から身体に沿った体軸AXを算出する(ステップSB1)。レクチャーキャプチャで想定される被写体SUの姿勢は立ち姿勢であるため、通常は、体軸AXは首の付け根から鉛直に伸ばした線となる。図7では3種類の向き判定処理が行われており、図の左から、顔による向き判定(ステップSB2~SB7)、肩幅SWによる向き判定(ステップSB8~SB11)、被写体領域SUAを用いた向き判定(ステップSB12~SB17)となっている。
 顔による向き判定では(ステップSB2~SB7)、体軸AXに対して鼻NSが画面の左側にあるのか右側にあるのかが算出される。画面の横をx軸、縦をy軸とすると、体軸はx=a*y+bのような直線の式で表される。この直線に対して鼻NSの座標が(x0,y0)である場合、向き判定部13は、符号付きの距離d=(x0-a*y0-b)/√(1+a*a)を算出する(ステップSB2)。距離dが正の値である場合には、鼻NSは画面上で体軸AXの右側にあると判定される。距離dが負の値である場合には、鼻NSは体軸AXの左側にあると判定される。
 体軸AXを鉛直に引いた場合には、a=0でx=bとなり、bは首のx座標となる。このとき、d=x0-bとなる。鼻NSが体軸AXの右側(x0>b)にあれば、d>0となる。鼻NSが体軸AXの左側(x0<b)にあれば、d<0となる。向き判定部13は、距離dの絶対値が閾値よりも大きいか否かを判定する(ステップSB3)。向き判定部13は、距離dの絶対値が閾値以下である場合には(ステップSB3:no)、被写体SUの向きは正面であると判定する(ステップSB7)。向き判定部13は、距離dの絶対値が閾値よりも大きい場合には(ステップSB3:yes)、距離dの符号に基づいて右向きか左向きかを判定する(ステップSB4~SB6)。
 肩幅SWによる向き判定では(ステップSB8~SB11)、向き判定部13は、両肩の間の距離を肩幅SWとして算出する(ステップSB8)。向き判定部13は、肩幅SWの絶対値が閾値よりも大きいか否かを判定する(ステップSB9)。向き判定部13は、肩幅SWの絶対値が閾値よりも大きい場合には(ステップSB9:yes)、被写体SUの向きは正面であると判定する(ステップSB10)。向き判定部13は、肩幅SWの絶対値が閾値以下であれば(ステップSB9:no)、被写体SUの向きは正面ではないと判定する(ステップSB11)。
 被写体領域SUAを用いた向き判定では(ステップSB12~SB17)、例えば、向き判定部13は、姿勢取得部11で得た上半身パーツを含む領域を被写体領域SUAとして算出する。向き判定部13は、被写体領域SUAの中央と体軸AXとの距離D1を距離dの算出方法と同様の方法で算出する(ステップSB12)。向き判定部13は、距離D1の絶対値が閾値よりも大きいか否かを判定する(ステップSB13)。向き判定部13は、距離D1の絶対値が閾値以下である場合には(ステップSB13:no)、被写体SUの向きが正面であると判定する(ステップSB17)。向き判定部13は、距離D1の絶対値が閾値よりも大きい場合には(ステップSB13:yes)、距離D1の符号に基づいて右向きか左向きかを判定する(ステップSB14~SB16)。
 このようにして、向き判定部13は、複数(3種)の向き判定結果が揃ったところで総合的に左/右/正面の判定を行う(ステップSB18)。向き判定部13は、首の位置が取得できないケースなどを考え、3種のうち2種の向き判定結果が同方向を示す場合にその向きを採用するなどして、向きのロバスト性を高める。なお、ステップSB11において被写体SUの向きが正面ではないと判定された場合には、被写体SUの向きは右でも左でもよいものとして扱われる。
 図8は、被写体領域SUAによる向き判定の代わりに、手首と体軸AXとの距離D2による向き判定を行った例を示す図である。顔による向き判定(ステップSC2~SC7)および肩幅SWによる向き判定(ステップSC8~SC11)は、図7と同様である。
 向き判定部13は、右手首と体軸AXとの距離D2を距離dの算出方法と同様の方法で算出する(ステップSC12)。向き判定部13は、距離D2の絶対値が閾値よりも大きいか否かを判定する(ステップSC13)。向き判定部13は、距離D2の絶対値が閾値以下である場合には(ステップSC13:no)、被写体SUの向きが正面であると判定する(ステップSC17)。向き判定部13は、距離D2の絶対値が閾値よりも大きい場合には(ステップSC13:yes)、距離D2の符号に基づいて右向きか左向きかを判定する(ステップSC14~SC16)。
 向き判定部13は、左手首についても右手首と同様の向き判定フローを実施する。すなわち、向き判定部13は、左手首と体軸AXとの距離D2を距離dの算出方法と同様の方法で算出する(スップSC18)。向き判定部13は、距離D2の絶対値が閾値よりも大きいか否かを判定する(ステップSC19)。向き判定部13は、距離D2の絶対値が閾値以下である場合には(ステップSC19:no)、被写体SUの向きが正面であると判定する(ステップSC23)。向き判定部13は、距離D2の絶対値が閾値よりも大きい場合には(ステップSC19:yes)、距離D2の符号に基づいて右向きか左向きかを判定する(ステップSC20~SC22)。
 図8の例では、向き判定部13は、4種の向き判定結果を用いて総合的な向きを判定する(ステップSC24)。この際、右手首と左手首を用いた判定結果を先に統合し、統合された判定結果を、他の2種の判定結果とさらに統合することが望ましい。向き判定部13は、統合された1種の判定結果と、残りの2種の判定結果(顔による向き判定結果、肩幅SWによる向き判定結果)と、を合わせた3種の向き判定結果に基づいて、被写体SUの向きを判定する。
 例えば、両手を開いた場合には右手首と左手首で判定結果が左向きと右向きに分かれて判定されるが、身体としては正面を向いていると考えられる。そのため、向き判定部13は、統合された判定結果として、被写体SUの向きが正面であるとの判定結果をだし、他の2種の判定結果と合わせて、左/右/正面の判定を行う。向き判定部13は、3種のうち2種の向き判定結果が同方向を示す場合にその向きを採用する。これにより、向きのロバスト性が高まる。
 なお、図7および図8のフローで用いられる閾値に関しては、計測の対象となる身体の部位に応じて適切な値が設定される。閾値は、被写体SUの特定部位のサイズを基準とした比率によって表されることが好ましい。例えば、閾値を頭部領域HEAの高さの0.2倍などに設定すると、ズーム変化による人の大きさの変化にも対応できる。
[1-2-4.大きさ判定部]
 図9は、被写体SUの大きさの判定方法を説明する図である。
 大きさ判定部14は、被写体SUのポーズが大きいか小さいかを判定する。図9の左側には、両手HAを広げて喜びを表現する被写体SUが示されている。図9の右側には、小さくガッツポーズをした被写体SUが示されている。大きさ判定部14は、これらの被写体SUに対して、例えば、被写体SUの上半身もしくは全身を囲む領域を被写体領域SUAとして抽出し、被写体領域SUAの大きさを被写体SUの大きさとして判定する。大きさの判定結果は構図CPに反映される。
 図10は、大きさ判定フローの一例を示す図である。
 被写体SUの大きさについては、ユーザからあらかじめおおよその大きさを指定される場合も多い。ここでは、ユーザからバストショットの切り出しを指定されていることを想定して説明を行う。
 例えば、大きさ判定部14は、姿勢取得部11で得た身体部位BPの位置や頭部領域HEAを用いて、被写体SUの上半身を囲む矩形の領域を被写体領域SUAとして算出する(ステップSD1)。大きさ判定部14は、被写体領域SUAが前フレームからどのくらい大きくなったかを、前フレームからの差分として算出する(ステップSD2)。差分としては、被写体SUの縦方向と横方向の差分が得られるが、大きさ判定部14は、例えば絶対値が大きい方の差分を選択する。
 大きさ判定部14は、算出された差分の絶対値が閾値よりも大きいか否かを判定する(ステップSD3)。差分の絶対値が閾値以下の場合には(ステップSD3:no)、大きさ判定部14は、大きさの変化はないと判定する(ステップSD7)。差分の絶対値が閾値よりも大きい場合には(ステップSD3:yes)、大きさ判定部14は、差分の符号に基づいて、大きさが縮小したか拡大したかを判定する(ステップSD4~SD6)。
 大きさが変化する場合、大きさ判定部14は、基本的には被写体領域SUAを含むように画角AV(切り出しの対象となる撮影映像CV中の映像領域)の縮小率および拡大率を決めるが、あらかじめ縮小率および拡大率を決めておくこともできる。ユーザの要望次第なところもあるが、あらかじめ拡大率および縮小率を決めておくと、画角AVの大きさの切り替わりがはっきりし、見やすい映像となる。
[1-2-5.動き判定部]
 動き判定部15は、被写体追尾部12で得た被写体追尾結果から前フレームに対して現フレームで被写体SUが移動した向きと移動量を算出する。動き判定部15は、移動方およびと移動量の算出結果に基づいて、被写体SUが動いたかどうかを判定する。
 図11は、動き判定フローの一例を示す図である。
 動き判定部15は、追尾結果に基づいて、現フレームの被写体位置と前フレームの被写体位置とを取得する。被写体位置は、例えば、カメラ座標系における被写体SUの座標として取得される。動き判定部15は、現フレームの被写体位置から前フレームの被写体位置を減じることにより、被写体SUの移動量を算出する(ステップSE1)。例えば、移動量は、右方向を正とした符号付きの移動量として算出される。画面右側に移動している場合には正の移動量、左側に移動している場合には負の移動量となる。
 動き判定部15は、移動量の絶対値が閾値よりも大きいか否かを判定する(ステップSE2)。動き判定部15は、移動量の絶対値が閾値以下である場合には(ステップSE2:no)、被写体SUは動いていないと判定する(ステップSE6)。動き判定部15は、移動量の絶対値が閾値よりも大きい場合には(ステップSE2:yes)、移動量の符号に基づいて、移動方向が右方向か左方向かを判定する(ステップSE3~SE5)。
[1-2-6.目標構図算出部]
 図12は、目標構図の算出方法を説明する図である。
 向き判定部13、大きさ判定部14および動き判定部15の判定結果により、被写体SUの状態が特定される。被写体SUの状態は、例えば、被写体SUの移動方向、被写体SUの向き、および、被写体SUの大きさ、のうちの少なくとも1つに関する状態を含む。例えば、図12の左側の例では、被写体SUが左を向いて左方向に移動している状態が検出される。
 目標構図算出部16は、被写体SUの状態に基づいて、目標となるフレーミング映像OVの構図(目標構図TCP)を算出する。例えば、目標構図算出部16は、大きさの判定結果に基づいて目標構図TCPの大きさ(画角AVの大きさ)を決める。目標構図算出部16は、向きおよび動きの判定結果に基づいて、被写体SUの左右の空間的な余裕を決める。これにより、左右の余裕を含めた目標構図TCPが決定される。
 図12の右側の例のように、被写体SUが振り返りつつ歩くような場合には、移動方向の判定結果と被写体SUの向きの判定結果とは異なる場合があるが、その場合には移動方向の判定結果が優先される。多くの場合は、前フレームの構図CPが継続される。
 図13および図14は、目標構図の算出フローの一例を示す図である。
 図13のフローチャートでは、図3の初期設定(ステップSA1)においてクリアされた向き判定用カウンタ、動き判定用カウンタおよび大きさ判定用カウンタを用いて、時間方向の安定性が図られる。
 目標構図算出部16は、向き判定部13で左向きと判定された場合には、カウンタをあらかじめ設定された設定数だけ減少し、右向きと判定された場合には同じ設定数だけカウンタを増加させる。向き判定部13で正面と判定された場合には、目標構図算出部16は、カウンタを変更しない。このカウンタの絶対値が閾値を越えた場合には、目標構図算出部16は、カウンタの符号に基づいて、左向きまたは右向きと判定する。
 目標構図算出部16は、動き判定部15で左方向・右方向・動きなしの判定が得られた場合に、それぞれ動きカウンタに対して減少・増加・不変の処理を行う。カウンタの絶対値が閾値を越えた場合には、目標構図算出部16は、動きがあったと判定し、カウンタの符号に基づいて、左方向または右方向と判定する。
 向き判定および動き判定の判定結果は、被写体SUを画面中央からずらして判定結果の方向に余裕を作るための指標として用いられる。目標構図算出部16は、動き判定で左方向もしくは右方向と判定された場合には、この移動方向を優先して被写体SUのずらし量を決める。動き判定で動きなしと判定された場合には、目標構図算出部16は、向き判定の判定結果を優先する。向き判定において正面と判定された場合には、目標構図算出部16は、被写体SUを画面の中央に配置し、向き判定において左向きまたは右向きと判定された場合には、目標構図算出部16は、被写体SUのずらし量をその方向に余裕があるように決定する。
 目標構図算出部16は、大きさ判定部14で被写体領域SUAが拡大されたと判定された場合には、大きさカウンタを増加させる。目標構図算出部16は、大きさ判定部14で被写体領域SUAが縮小されたと判定された場合には、大きさカウンタを減少させる。大きさカウンタについても、目標構図算出部16は、絶対値が閾値以下の場合には画角AVのサイズの変更を行わず、絶対値を越える場合には、大きさカウンタの符号に基づいて、画角AVの拡大および縮小を決定する。
 目標構図算出部16の出力は、例えば、画角AVのサイズと画角AV内での被写体SUの頭頂を始点とする体軸AVの相対位置である。例えば、始点は図14の頭部領域HEAの上辺と体軸AXの交点として求められる。
[1-2-7.構図遷移決定部]
 図15ないし図18は、構図CPの遷移方法を説明する図である。現在の構図CCP、目標構図TCPおよび次の構図NCPは、切り出しの対象となる映像領域(画角AV)として示されている。現在の構図CCPは、現フレームのフレーミング映像OVとして切り出されている映像領域の構図CPを意味する。次の構図NCPは、次フレームのフレーミング映像OVとして切り出されるべき映像領域の構図CPを意味する。
 構図遷移決定部17は、現在の構図CPから目標構図TCPへの遷移モードを決定する。構図遷移決定部17は、決定された遷移モードに基づいて次の構図NCPを決定する。
 遷移モードには、スムーズ構図遷移モードと瞬時構図遷移モードとがある。スムーズ構図遷移モードは、現在の構図CCPから目標構図TCPに向けて徐々に構図CPが遷移する遷移モードである。瞬時構図遷移モードは、現在の構図CCPから目標構図TCPに向けて瞬時に構図CPが遷移する遷移モードである。瞬時構図遷移モードでは、スムーズ構図遷移モードよりも短い期間で素早く構図CPが遷移する。瞬時とは、例えば、予め設定された数フレーム以内の期間を意味する。この遷移の期間は、例えば5フレーム以下であり、好ましくは1フレームである。
 構図遷移決定部17は、被写体SUの状態の変化の状況に基づいて、目標構図TCPへの遷移モードをスムーズ構図遷移モードと瞬時構図遷移モードとの間で切り替える。被写体SUの状態の変化の状況は、例えば、被写体SUの移動方向が切り替わる速さ、被写体SUの向きが切り替わる速さ、および、被写体SUの大きさの変化、のうちの少なくとも1つに関する状況を含む。
 遷移モードをスムーズ構図遷移モードから瞬時構図遷移モードへ切り替えるべき状況とは、例えば、目標構図TCPに向けてスムーズに構図を遷移させている最中に目標構図TCPのタイプが変化するような状況を意味する。
 例えば、目標構図TCPへの遷移が完了する前に、被写体SUの向きが左から右、または、右から左へと変化した場合には、リードルームを設けるべき位置が左から右、または、右から左へと変化する。そのため、リードルームの設置方向が異なる、別のタイプの目標構図TCPが決定される。被写体SUのポーズが変化することにより、バストショットからフルショットで撮影することが適切となった場合なども、目標構図TCPのタイプが変化する。このような場合には、遷移モードがスムーズ構図遷移モードから瞬時構図遷移モードへ切り替えられる。
 遷移モードをスムーズ構図遷移モードから瞬時構図遷移モードへ切り替えるべき状況が生じたとは、上述のような構図のタイプの変化が発生するような所定の基準時間以内の被写体SUの向きもしくは移動方向の変化があった場合、または、所定の基準倍率以上の被写体SUの大きさの変化があった場合を意味する。なお、基準時間および基準倍率は、ユーザに応じて適宜設定可能である。
 図15は、静止状態から歩き出した場合のスムーズな構図CPの遷移を示す図である。図15の例では、3分割法に基づいて目標構図TCPが決定される。図15の一点鎖線は、画面を3分割する分割ラインDLの位置を示す。
 当初の静止状態では画角AVの中央に被写体SUが配置される。動き判定部15によって被写体SUが動いたと判定されると、目標構図算出部16は、進行方向に余白ができるように目標構図TCPの画角AV(目標画角)の位置および大きさを算出する。構図遷移決定部17は、スムーズに画角AVを遷移させるために、現在の構図CCPの画角AVと目標画角との間で補間を行った結果を次の構図NCPの画角AVとして算出する。
 構図遷移決定部17は、次の構図NCPの画角AVの位置および大きさに関する情報を画角情報として生成し、映像切り出し部18に供給する。構図遷移決定部17は、次の構図NCPの画角AVを補間処理によって求めることで、画角AVの位置および大きさを徐々に目標画角に近づける。スムーズな画角AVの遷移は自然であり、移動方向や被写体SUの向きが頻繁に変化しない場合には有効な遷移方法である。
 図16は、聴講者の質問のやり取りや呼びかけなどで頻繁に被写体SUが向きを変える例を示す図である。
 図16の例では、目標画角に向けて徐々に画角AVを遷移させようとしても、遷移が完了する前に被写体SUの向きが変化する。そのため、目標画角に近づかない。この状況が連続すると、視聴者はふらふらした画角AVの変化を見ることになり、望ましくない。そのため、構図遷移決定部17は、目標構図TCPに向けて瞬時に構図CPを遷移させる。
 図17は、瞬時構図遷移モードで構図CPを遷移させる例を示す図である。
 構図遷移決定部17は、スムーズ構図遷移モードで構図CPが遷移している最中に、目標画角の位置および大きさの異なる新たな目標構図TCPが決定された場合には、遷移モードを瞬時構図遷移モードに切り替える。例えば、スムーズ構図遷移モードで遷移が開始してすぐに、もしくは、目標構図TCPから離れた状況で、被写体SUの向きなどが変化し、目標画角の位置および大きさが変更された場合には、構図遷移決定部17は、次の構図NCPの画角AVの位置および大きさを目標画角の位置および大きさに向けて瞬時に遷移させる。
 構図遷移決定部17は、遷移モードをスムーズ構図遷移モードから瞬時構図遷移モードに切り替えた直後の画角AVの大きさの変化率(拡大率または縮小率)を、遷移モードを切り替える直前の画角AVの大きさの変化率と異ならせる。これは、画角AVの位置とともに画角AVの大きさも調整することで、瞬時の構図CPの変化が映像の乱れとして認識されにくくなるためである。例えば、画角AVの変化率を変えずに画角AVの位置のみを変化させると、カメラ20が何かにぶつかって映像が乱れたかのような印象を与える場合がある。画角AVの大きさを変化させると、そのような違和感が生じにくい。
 したがって、構図遷移決定部17は、目標画角の大きさから算出される瞬時遷移時の画角AVの大きさの変化率が瞬時遷移の直前の画角AVの大きさの変化率と異なる場合には、目標画角の大きさをそのまま次の構図NCPの画角AVの大きさとして設定する。構図遷移決定部17は、目標画角から算出される瞬時遷移時の画角AVの大きさの変化率が瞬時遷移の直前の画角AVの大きさの変化率と同じである場合には、目標画角よりも大きい画角を次の構図NCPの画角AVの大きさとして設定する。
 瞬時遷移とは異なるが、複数のカメラを切り替えながら映像を配信する場合、カメラの切り替え時間は早くても5秒から7秒程度であることが知られている。早過ぎるカメラの切り替えは、視聴者に違和感を与えてしまい、望ましい映像とはならないためである。瞬時の構図CPの遷移はカメラの切り替えとは異なるが、切り替えの時間間隔が短すぎるとカメラの切り替えと同様に望ましい映像とはならない。したがって、構図遷移決定部17は、瞬時構図遷移モードが選択されてから所定の期間は瞬時構図遷移モードの選択を禁止する。構図遷移決定部17は、前回の瞬時遷移から一定時間が経過しない場合には、瞬時遷移とせずにスムーズな遷移を選択する。
 図18は、最初に瞬時遷移を行い、その後スムーズな遷移を行う例を示す図である。図19は、遷移モードの決定フローの一例を示す図である。
 図19のフローチャートでは、図3の初期設定(ステップSA1)においてクリアされた瞬時カウンタおよびスムーズカウンタを用いて構図CPの遷移を行う。瞬時カウンタは、瞬時構図遷移モードによる遷移が行われてからのフレーム数を示す。スムーズカウンタは、スムーズ構図遷移モードによる遷移が行われてからのフレーム数を示す。
 構図遷移決定部17は、瞬時カウンタおよびスムーズカウンタをそれぞれ1フレームごとに1ずつ加算する(ステップSG1~SG2)。瞬時構図遷移モードでは、構図遷移決定部17は、瞬時カウンタのみクリアする(ステップSG8)。スムーズ構図遷移モードでは、構図遷移決定部17は、スムーズカウンタのみクリアする(ステップSG10)。
 目標構図算出部16で算出された構図CPが前フレームの構図CPに対して変化しない場合、もしくは、変化した場合でも被写体SUの向きの変更によらない変化の場合には、構図遷移決定部17は、スムーズ構図遷移モードを選択する(ステップSG9)。被写体SUの向きの変更によって構図CPの変化が起きた場合でも、スムーズカウンタが閾値以上もしくは瞬時カウンタが閾値以下の場合には、構図遷移決定部17は、瞬時構図遷移モードではなく、スムーズ構図遷移モードを選択する(ステップSG9)。
 被写体SUの向きの変更による構図CPの変化であって、スムーズカウンタが閾値未満、かつ、瞬時カウンタが閾値を越える場合には、構図遷移決定部17は、瞬時構図遷移モードを選択する(ステップSG7)。構図遷移決定部17は、目標画角から算出される次フレームの画角AVの変化率(瞬時遷移時の画角AVの変化率)が現フレームの画角AVの変化率(瞬時遷移直前の画角AVの変化率)と同じである場合には、画角AVの拡大率を高めて瞬時の構図CPの遷移を行う。
[1-2-8.映像切り出し部]
 映像切り出し部18は、構図遷移決定部17から取得した画角情報に基づいて、撮影映像CVから次の構図NCPの画角AVに対応した映像領域を切り出す。映像切り出し部18は、切り出された映像領域の映像をフレーミング映像OVとして出力する。
[1-3.効果]
 映像処理装置10は、目標構図算出部16と構図遷移決定部17とを有する。目標構図算出部16は、被写体SUの状態に基づいて目標構図TCPを算出する。構図遷移決定部17は、被写体SUの状態の変化の状況に基づいて、目標構図TCPへの遷移モードをスムーズ構図遷移モードと瞬時構図遷移モードとの間で切り替える。スムーズ構図遷移モードは、目標構図TCPに向けて徐々に構図CPが遷移する遷移モードである。瞬時構図遷移モードは、目標構図TCPに向けて瞬時に構図CPが遷移する遷移モードである。本実施形態の情報処理方法は、映像処理装置10の処理がコンピュータにより実行される。本実施形態のプログラムは、映像処理装置10の処理をコンピュータに実現させる。
 この構成によれば、被写体SUの状態の変化に応じた適切な構図CPが得られる。
 被写体SUの状態は、被写体SUの移動方向、被写体SUの向き、および、被写体SUの大きさ、のうちの少なくとも1つに関する状態を含む。被写体SUの状態の変化の状況は、移動方向が切り替わる速さ、被写体SUの向きが切り替わる速さ、および、被写体SUの大きさの変化、のうちの少なくとも1つに関する状況を含む。
 この構成によれば、被写体SUの移動方向、向きおよび大きさの変化の状況に応じた適切な構図CPが得られる。
 構図遷移決定部17は、遷移モードをスムーズ構図遷移モードから瞬時構図遷移モードに切り替えた直後の画角AVの大きさの変化率を、遷移モードを切り替える直前の画角AVの大きさの変化率と異ならせる。
 この構成によれば、瞬時の構図CPの変化が映像の乱れとして認識されにくくなる。
 構図遷移決定部17は、スムーズ構図遷移モードで構図CPが遷移している最中に新たな目標構図TCPが決定された場合には遷移モードを瞬時構図遷移モードに切り替える。
 この構成によれば、構図CPが頻繁に変更されることによる映像のふらつきが低減される。
 構図遷移決定部17は、瞬時構図遷移モードが選択されてから所定の期間は瞬時構図遷移モードの選択を禁止する。
 この構成によれば、瞬時の構図CPの遷移が頻繁に生じることによる違和感が低減される。
 被写体SUの状態は被写体SUの撮影映像CVを画像解析することにより取得される。
 この構成によれば、カメラ以外のセンサを用いることなく、簡便に被写体SUの状態が取得される。
 なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。
[2.第2実施形態]
 図20は、第2実施形態の撮影システムCS2を示す図である。
 本実施形態において第1実施形態と異なる点は、被写体SUの状態が、被写体SUに取り付けられた位置センサSEのセンサ位置情報POIに基づいて取得される点である。以下、第1実施形態との相違点を中心に説明を行う。
 センサ位置情報POIは、位置センサSEが取り付けられた被写体SUの身体部位BPの位置の情報を含む。映像処理装置50は、センサ信号受信機RCを介してセンサ位置情報POIを取得する。映像処理装置50は、カメラ20とのキャリブレーションを行って、身体部位BPの位置をカメラ座標系における位置に変換する。
 本実施形態では、センサ位置情報POIを用いた演算処理によって、姿勢取得部11もしくは被写体追尾部12(あるいはその両方)の処理が代替される。そのため、複雑な画像解析を行わなくても精度よく被写体SUの状態が検出される。
[3.第3実施形態]
[3-1.撮影システムの構成]
 図21は、第3実施形態の撮影システムCS3を示す図である。
 本実施形態において第1実施形態と異なる点は、複数のカメラ20を用いて講義内容が収録される点である。以下、第1実施形態との相違点を中心に説明を行う。
 撮影現場には、複数のカメラ20が設置されている。複数のカメラ20は、被写体SUを異なる視点から撮影する。映像処理装置60は、カメラ20ごとに設置される。映像処理装置60の構成は、第1実施形態の映像処理装置10と同様である。図21では、個々のカメラ20が、符号の後に付された番号によって区別されている。各カメラ20に対応する機器および情報には、符号の後にカメラ20と同じ番号が付される。この番号は、例えば、各撮影映像CVに付与される映像番号と一致する。
 映像処理装置60は、撮影映像CVを画像解析して画角情報CPIおよび被写体情報SUIを生成する。画角情報CPIは、次フレームの構図NCPに対応した画角AV(撮影映像CVから切り出される映像領域)の位置および大きさを示す。被写体情報SUIは、被写体SUの状態(被写体SUの移動方向、被写体SUの向き、被写体SUの大きさ)を示す。被写体情報SUIは、向き判定部13、大きさ判定部14および動き判定部15の判定結果に基づいて目標構図算出部16により生成される。
 撮影システムCS3は、映像スイッチャ70を有する。映像処理装置60は、画角情報CPIおよび被写体情報SUIを映像スイッチャ70に出力する。映像スイッチャ70は、各映像処理装置60から取得した被写体情報SUIに基づいて、フレーミングの対象となる撮影映像CVを切り替える。映像スイッチャ70は、選択された撮影映像CVから切り出されたフレーミング映像OVを出力する。
 フレーミング映像OVは、画角情報CPIに基づいて撮影映像CVから切り出される。フレーミング映像OVの切り出しは、映像処理装置60によって行われてもよいし、映像スイッチャ70によって行われてもよい。映像スイッチャ70がフレーミング映像OVの切り出しを行う場合には、映像処理装置60の映像切り出し部18は使用されない。
[3-2.映像スイッチャの構成]
 図22は、映像スイッチャ70の機能構成の一例を示す図である。
 映像スイッチャ70は、選択映像判定部71および映像切り替え部72を有する。選択映像判定部71は、各映像処理装置60から被写体情報SUIおよび画角情報CPIを取得する。選択映像判定部71は、取得した複数の被写体情報SUIに基づいて、複数の被写体SUの撮影映像CVから被写体SUの状態に応じた1つの撮影映像CVを選択する。
 映像切り替え部72は、選択映像判定部71から、選択された撮影映像CVに対応する画角情報CPIを取得する。映像切り替え部72は、選択された撮影映像CVから、画角情報CPIに応じた映像領域を切り出す。映像切り替え部72は、選択された撮影映像CVから切り出された映像領域をフレーミング映像OVとして出力する。
 選択映像判定部71では、例えば、被写体情報SUIから得られる被写体SUの向きを利用して、より正面(あるいは予め設定された方向)に近い撮影映像CVが選択される。あるいは、被写体情報SUIから得られる被写体SUの移動方向を利用して、被写体SUが近づいてくる方向に近いカメラ20の撮影映像CVが選択される。
[3-3.映像処理方法]
 図23は、撮影映像CVの選択フローの一例を示す図である。
 ユーザは、被写体SUの好適な向きを設定する(ステップSH1)。デフォルトでは、例えば、正面が好適な向きとして設定されている。選択映像判定部71は、複数の映像処理装置60から、撮影映像CVに同期した被写体情報SUIおよび画角情報CPIを取得する。選択映像判定部71は、撮影映像CVごとに、被写体情報SUIから被写体SUの向きを検出する。選択映像判定部71は、撮影映像CVごとに、被写体SUの向きと好適な向きとの類似度を求める(ステップSH2~SH3)。
 向きの類似度は、例えば、鼻NSと体軸AXとの距離dなどを用いて算出することができる。顔が真横を向く場合と斜め方向を向く場合などで距離dが異なるため、左向き・右向き・正面よりも細かく向きを設定することができる。
 選択映像判定部71は、最も類似度の高い被写体SUの向きを示す撮影映像CVを検出する。選択映像判定部71は、検出された撮影映像CVの映像番号と、この撮影映像CVに対応する画角情報CPIと、を映像切り替え部72に出力する(ステップSH4)。映像切り替え部72は、取得した映像番号が示す撮影映像CVを画角情報CPIに基づいて適切な画角AVで切り出す。映像切り替え部72は、切り出された映像領域をフレーミング映像OVとして出力する。
 撮影映像CV(カメラ20)の切り替えは瞬時に行われる。第1実施形態では、瞬時構図遷移モードが選択されてから所定の期間は瞬時構図遷移モードの選択が禁止された。これは、瞬時の構図CPの遷移が頻繁に生じることによる違和感を低減するためである。これと同様の理由により、選択映像判定部71は、1つの撮影映像CVが選択されてから所定の期間は他の撮影映像CVの選択を禁止することが望ましい。例えば、選択映像判定部71は、前回の切り替えから数秒をおいてから次の切り替えを行う。図23のフローに切り替え間隔を測るためのカウンタを設けることで、こうした制御が可能になる。
 この際、瞬時構図遷移で行われたように、撮影映像CVの切り替え時に画角AVの大きさも変更するように制御することも可能である。例えば、選択映像判定部71は、他の撮影映像CVが選択された直後の画角AVの大きさの変化率を、他の撮影映像CVが選択される直前の画角AVの大きさの変化率と異ならせる。これにより、瞬時の構図CPの変化が映像の乱れとして認識されにくくなる。
[3-4.効果]
 本実施形態では、選択映像判定部71は、異なる視点から撮影された複数の被写体SUの撮影映像CVから、被写体SUの状態に応じた1つの撮影映像CVを選択する。映像切り替え部72は、選択された撮影映像CVから切り出された映像領域をフレーミング映像OVとして出力する。
 この構成によれば、被写体SUの状態に基づいて視点(カメラ20)が選択される。選択された視点の撮影映像CVからフレーミング映像OVが切り出されることで、より適切な構図CPの映像が得られる。
[4.第4実施形態]
 図24および図25は、第4実施形態のフレーミングの概要を説明する図である。図26は、映像処理装置80の機能構成の一例を示す図である。
 本実施形態において第1実施形態と異なる点は、特定の物体OBが被写体SUとともに構図CPの対象となる点である。以下、第1実施形態との相違点を中心に説明を行う。
 目標構図TCPを算出する際に、被写体SUだけでなく、特定の物体OBも同時に考慮したい場合がある。例えば、図24のような新製品の宣伝を行うシーンでは、話者(被写体SU)だけでなく製品(物体OB)を含めた構図CPを決定することが望ましい。
 図24の左側の例では、話者のみが構図CPAの算出の基礎となっている。話者のみを包含する領域が被写体領域として抽出される。被写体領域の中心線は体軸AXと一致し、体軸AXが画面の中央に配置されている。しかし、視聴者は話者だけでなく製品にも注目する。そのため、全体として左に偏った映像として認識される可能性がある。
 図24の右側の例では、話者および製品が構図CPBの算出の基礎となっている。話者および製品を包含する領域が被写体領域として抽出され、被写体領域の中心線が画面の中央に配置されている。この構図CPBでは、視聴者が注目する領域が画面の中央に配置されるため、バランスの良い映像が得られる。
 図25のようなテレビ会議を取り入れた番組の映像についても同様である。この種の映像では、メインの話者(被写体SU)だけでなく、テレビ会議参加者を写すモニタ(物体OB)を含めた構図CPを決定することが望ましい。
 図25の左側の例では、メインの話者のみが構図CPAの算出の基礎となっており、左側にあるモニタは構図CPの対象となっていない。そのため、全体として左側に偏った映像として認識される可能性がある。図25の右側の例では、メインの話者だけでなくモニタも構図CPBの算出の基礎となっているため、バランスの良い映像が得られる。
 こうした状況を反映するためには、図2の映像処理装置10に物体認識部81を追加した図26のような映像処理装置80を用いることが好ましい。物体認識部81は、被写体SUの撮影映像CVから、被写体SUとともに目標構図TCPの算出の基礎となる物体OBを検出する。この構成によれば、物体認識結果も踏まえて目標構図TCPが算出される。そのため、ターゲットとなる物体OBを含めた適切な構図CPの映像が得られる。
[5.第5実施形態]
[5-1.映像処理装置の機能構成]
 図27は、第5実施形態のフレーミングの概要を説明する図である。図28は、映像処理装置90の機能構成の一例を示す図である。
 本実施形態において第1実施形態と異なる点は、カメラ20としてPTZカメラ22が用いられている点である。以下、第1実施形態との相違点を中心に説明を行う。
 第1実施形態では、カメラ20として、被写体SUの動き回る範囲全体を画角に収める、視野が固定された固定カメラ(俯瞰カメラ)が用いられた。しかし、カメラ20は固定カメラに限定されない。例えば、PTZカメラ22を使用しても同様の処理は可能である。PTZカメラ22では、レンズの向き(パン、チルト)やズームを制御できることから、固定カメラよりも高品質な映像が得られる。
 図27の左側には、被写体SUを写す際の固定カメラ21とPTZカメラ22の視野の違いが示されている。固定カメラ21を使用する場合には、被写体SU(講師)の動く範囲を想定し、それを全て包含するような範囲を視野FV1に収めないと講義中の被写体SUの映像が出力できない。その点、PTZカメラ22は、レンズを旋回させることができるので、絞った視野FV2で解像度を活かした被写体SUの撮影が可能である。
 図27の右側の映像Aは、固定カメラ21で撮影された映像を示している。広範囲な映像のうち、被写体SU付近の映像領域(画角AV)が切り出されており、撮影解像度の多くが出力に使用されない。
 映像Bは、瞬時遷移を考慮したPTZカメラ22の撮影映像である。PTZカメラ22は、メカニカル制御によりレンズの旋回を行うため、瞬時の構図CPの遷移はできない。このため、瞬時遷移後にフレーミングの対象となる映像範囲を考慮して、目標構図TCPよりも余裕を持たせた視野FV2の撮影が行われる。映像Cのように映像Bとは逆向きの被写体SUであっても目標構図TCP(瞬時遷移時の画角AVの拡大を含む)を内包できるように視野FV2を設定すれば、瞬時の構図CPの遷移が可能になる。
 映像Aと映像B,Cとの比較で明らかなように、本実施形態では、PTZカメラ22の撮影解像度を活かして固定カメラ21より高品質なフレーミングが行われる。
 図28には、PTZカメラ22を制御するためのカメラ制御部91を追加した映像処理装置90が示されている。カメラ制御部91は、被写体SUを撮影するPTZカメラ22の視野(パン、チルト、ズーム)を被写体SUの状態(被写体SUの移動方向、被写体SUの向き、被写体SUの大きさ)に基づいて制御する。
 例えば、被写体SUが右側を向いている場合には、カメラ制御部91は、被写体SUの右側に空間的な余裕が生じるようにPTZカメラ22の視野を設定する。しかし、被写体SUが左側に向きを変えたときには、被写体SUの左側に空間的な余裕がないと、左向き用の適切な構図CPを有する映像領域が切り出せない。そのため、カメラ制御部91は、瞬時に左向き用の構図CPに遷移できるように、被写体SUの左側にも同様の空間的な余裕が生じるようにPTZカメラ22の視野を設定する。これにより、フレーミング映像OVの解像度を高めつつ、瞬時の構図CPの遷移にも対応可能となる。
[5-2.映像処理方法]
 図29は、PTZカメラ22の制御フローの一例を示す図である。
 カメラ制御部91は、被写体SUの体軸AXの位置と、想定される最大視野をもとにしてPTZカメラ22の制御信号を出力する。例えば、カメラ制御部91は、体軸AXが画面の左1/3に配置された場合の視野を算出し(ステップSJ1)、体軸AXが画面の右1/3に配置された場合の視野を算出する(ステップSJ2)。カメラ制御部91は、PTZカメラ22の旋回動作での遅れ分を加味した余白を算出する(ステップSJ3)。
 カメラ制御部91は、ステップSJ1およびステップSJ2で算出された2つの視野を包含する視野を算出し、これにステップSJ3で算出された余白を加えて、PTZカメラ22で撮影する視野の範囲を算出する(ステップSJ4)。カメラ制御部91は、算出された視野が得られるように、PTZカメラのパン、チルトおよびズームを制御する(ステップSJ5)。
 例えば、カメラ制御部91は、頭頂を始点とする体軸AXが画面の中央に配置されるようにパンとチルトを設定し、求めた視野のサイズが得られるようにズームを設定する。これにより、図27の映像Bに相当する映像が取得される。
[5-3.効果]
 本実施形態では、カメラ制御部91により、PTZカメラ22の視野が適切に制御される。そのため、適切な構図を有する解像度の高い映像が得られる。
[6.変形例1]
 第1実施形態では、スムーズ構図遷移モードで構図CPが遷移している最中に新たな目標構図TCPが決定された場合に遷移モードが瞬時構図遷移モードに切り替えられた。しかし、遷移モードを瞬時構図遷移モードに切り替えるタイミングはこれに限定されない。例えば、構図遷移決定部17は、スムーズ構図遷移モードで構図CPが遷移している最中に被写体SUの状態が許容基準を超えて大きく変化した場合には、遷移モードを瞬時構図遷移モードに切り替えることができる。
 許容基準とは、目標構図TCPの変更が必要となる状態の変化量に関する基準を意味する。被写体SUの状態が許容基準を超えて大きく変化した場合には、目標構図TCPを維持できないと判定される。
 例えば、被写体SUが、静止した状態から、両手を大きく広げたり、身振り手振りを交えて話をし始めたりした場合には、被写体SUの大きさが大きく変化する。静止状態ではバストショットが適切であったとしても、被写体SUの大きさが大きく変化した場合には、ウエストショット、ニーショット、フルフィギュアまたはロングショットなどが適切となる場合がある。目標構図TCPの変更が必要となるほど被写体SUの状態が大きく変化した場合には、構図遷移決定部17は瞬時構図遷移モードで構図CPを切り替える。
 この構成によれば、被写体SUの状態と構図CPとの間の乖離によって生じる違和感が低減される。被写体SUの状態が大きく変化すると、スムーズな構図CPの遷移では、被写体SUの状態に構図CPの変化が追いつくまでに時間がかかる。被写体SUの状態と構図CPとの間に乖離が生じている時間が長くなると、視聴者に違和感を与える。被写体SUの状態が大きく変化した場合に、瞬時に目標構図TCPに構図CPを遷移させれば、このような違和感は生じにくい。
[7.変形例2]
 第5実施形態のフレーミングの手法は、手持ちカメラで撮影を行う場合にも適用できる。手持ちカメラは、レンズの向きによって視野が調整できる点でPTZカメラ22と共通する。そのため、カメラ制御部91は、PTZカメラ22と同様に、被写体SUを撮影するカメラ20の視野を被写体SUの状態に基づいて制御することができる。例えば、カメラ制御部91は、向き反転や構図の拡縮に対応可能な視野で撮影できるように、手持ちカメラのズームの自動制御を行う。
 カメラ制御部91は、現フレームの視野と目標となる視野との差異に基づいて、被写体を撮影するユーザにレコメンド情報を通知することもできる。例えば、カメラ制御部91は、現在の手持ちカメラの視野を目標となる視野に近づけるために、ファインダ内でパン方向やズーム率などの変更に関するレコメンド情報を提示する。これにより、視野の変更をユーザに促すことができる。
[8.変形例3]
 第3実施形態のフレーミングの手法に、第5実施形態で説明したPTZカメラ22の制御手法を組み合わせることができる。この際、現在出力しているフレーミング映像OVの画角AVをもとに次の画角AVを想定し、選択されていないPTZカメラ22の視野を、次の画角AVに対応した視野に合わせこんでおく。例えば、カメラ制御部91は、選択されていない撮影映像CVを撮影したPTZカメラ22の視野を、選択されている撮影映像CVから切り出された映像領域の画角AVに基づいて算出する。これにより、被写体の向きや移動方向が変化したときにスムーズに対応することができる。
[9.撮影システムのハードウェア構成例]
 図30は、撮影システムCSのハードウェア構成例を示す図である。
 撮影システムCSは、例えば、図30に示すような構成のコンピュータ1000によって実現される。コンピュータ1000は、CPU1100、RAM1200、ROM(Read Only Memory)1300、HDD(Hard Disk Drive)1400、通信インターフェイス1500、及び入出力インターフェイス1600を有する。コンピュータ1000の各部は、バス1050によって接続される。
 CPU1100は、ROM1300又はHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、CPU1100は、ROM1300又はHDD1400に格納されたプログラムをRAM1200に展開し、各種プログラムに対応した処理を実行する。
 ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるBIOS(Basic Input Output System)等のブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
 HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、HDD1400は、プログラムデータ1450の一例である本開示に係る情報処理プログラムを記録する記録媒体である。
 通信インターフェイス1500は、コンピュータ1000が外部ネットワーク1550(例えばインターネット)と接続するためのインターフェイスである。例えば、CPU1100は、通信インターフェイス1500を介して、他の機器からデータを受信したり、CPU1100が生成したデータを他の機器へ送信したりする。
 入出力インターフェイス1600は、入出力デバイス1650とコンピュータ1000とを接続するためのインターフェイスである。例えば、CPU1100は、入出力インターフェイス1600を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、CPU1100は、入出力インターフェイス1600を介して、ディスプレイやスピーカーやプリンタ等の出力デバイスにデータを送信する。また、入出力インターフェイス1600は、所定の記録媒体(メディア)に記録されたプログラム等を読み取るメディアインターフェイスとして機能してもよい。メディアとは、例えばDVD(Digital Versatile Disc)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
 例えば、コンピュータ1000が映像処理装置として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、映像処理装置の各部の機能を実現する。また、HDD1400には、本開示に係るプログラムや、映像処理装置および記録装置40内のデータが格納される。なお、CPU1100は、プログラムデータ1450をHDD1400から読み取って実行するが、他の例として、外部ネットワーク1550を介して、他の装置からこれらのプログラムを取得してもよい。
[付記]
 なお、本技術は以下のような構成も取ることができる。
(1)
 被写体の状態に基づいて目標構図を算出する目標構図算出部と、
 前記状態の変化の状況に基づいて、前記目標構図への遷移モードを、前記目標構図に向けて徐々に構図が遷移するスムーズ構図遷移モードと、前記目標構図に向けて瞬時に前記構図が遷移する瞬時構図遷移モードと、の間で切り替える構図遷移決定部と、
 を有する情報処理装置。
(2)
 前記被写体の状態は、前記被写体の移動方向、前記被写体の向き、および、前記被写体の大きさ、のうちの少なくとも1つに関する状態を含み、
 前記状態の変化の状況は、前記移動方向が切り替わる速さ、前記向きが切り替わる速さ、および、前記被写体の大きさの変化、のうちの少なくとも1つに関する状況を含む、
 上記(1)に記載の情報処理装置。
(3)
 前記構図遷移決定部は、前記遷移モードを前記スムーズ構図遷移モードから前記瞬時構図遷移モードに切り替えた直後の画角の大きさの変化率を、前記遷移モードを切り替える直前の画角の大きさの変化率と異ならせる、
 上記(1)または(2)に記載の情報処理装置。
(4)
 前記構図遷移決定部は、前記スムーズ構図遷移モードで前記構図が遷移している最中に新たな前記目標構図が決定された場合には、前記遷移モードを前記瞬時構図遷移モードに切り替える、
 上記(1)ないし(3)のいずれか1つに記載の情報処理装置。
(5)
 前記構図遷移決定部は、前記スムーズ構図遷移モードで前記構図が遷移している最中に前記状態が許容基準を超えて大きく変化した場合には、前記遷移モードを前記瞬時構図遷移モードに切り替える、
 上記(1)ないし(3)のいずれか1つに記載の情報処理装置。
(6)
 前記構図遷移決定部は、前記瞬時構図遷移モードが選択されてから所定の期間は前記瞬時構図遷移モードの選択を禁止する、
 上記(1)ないし(5)のいずれか1つに記載の情報処理装置。
(7)
 前記被写体の状態は、前記被写体の撮影映像を画像解析することにより取得される、
 上記(1)ないし(6)のいずれか1つに記載の情報処理装置。
(8)
 前記被写体の状態は、前記被写体に取り付けられた位置センサのセンサ位置情報に基づいて取得される、
 上記(1)ないし(6)のいずれか1つに記載の情報処理装置。
(9)
 異なる視点から撮影された複数の前記被写体の撮影映像から、前記被写体の状態に応じた1つの撮影映像を選択する選択映像判定部と、
 選択された前記撮影映像から切り出された映像領域をフレーミング映像として出力する映像切り替え部と、
 を有する上記(1)ないし(8)のいずれか1つに記載の情報処理装置。
(10)
 前記選択映像判定部は、1つの前記撮影映像が選択されてから所定の期間は他の前記撮影映像の選択を禁止する、
 上記(9)に記載の情報処理装置。
(11)
 前記選択映像判定部は、他の前記撮影映像が選択された直後の画角の大きさの変化率を、他の前記撮影映像が選択される直前の画角の大きさの変化率と異ならせる、
 上記(10)に記載の情報処理装置。
(12)
 前記被写体の撮影映像から、前記被写体とともに前記目標構図の算出の基礎となる物体を検出する物体認識部を有する、
 上記(1)ないし(11)のいずれか1つに記載の情報処理装置。
(13)
 前記被写体を撮影するカメラの視野を前記被写体の状態に基づいて制御するカメラ制御部を有する、
 上記(1)ないし(12)のいずれか1つに記載の情報処理装置。
(14)
 前記カメラ制御部は、現フレームの視野と目標となる視野との差異に基づいて、前記被写体を撮影するユーザにレコメンド情報を提示する、
 上記(13)に記載の情報処理装置。
(15)
 選択されていない前記撮影映像を撮影したカメラの視野を、選択されている前記撮影映像から切り出された前記映像領域の画角に基づいて算出するカメラ制御部を有する、
 上記(9)ないし(11)のいずれか1つに記載の情報処理装置。
(16)
 被写体の状態に基づいて目標構図を算出し、
 前記状態の変化の状況に基づいて、前記目標構図への遷移モードを、前記目標構図に向けて徐々に構図が遷移するスムーズ構図遷移モードと、前記目標構図に向けて瞬時に前記構図が遷移する瞬時構図遷移モードと、の間で切り替える、
 ことを有する、コンピュータにより実行される情報処理方法。
(17)
 被写体の状態に基づいて目標構図を算出し、
 前記状態の変化の状況に基づいて、前記目標構図への遷移モードを、前記目標構図に向けて徐々に構図が遷移するスムーズ構図遷移モードと、前記目標構図に向けて瞬時に前記構図が遷移する瞬時構図遷移モードと、の間で切り替える、
 ことをコンピュータに実現させるプログラム。
10,50,60,80,90 映像処理装置(情報処理装置)
20 カメラ
16 目標構図算出部
17 構図遷移決定部
71 選択映像判定部
72 映像切り替え部
81 物体認識部
91 カメラ制御部
1000 コンピュータ
1450 プログラムデータ(プログラム)
AV 画角
CP 構図
CV 撮影映像
OB 物体
OV フレーミング映像
POI センサ位置情報
SE 位置センサ
SU 被写体
TCP 目標構図

Claims (17)

  1.  被写体の状態に基づいて目標構図を算出する目標構図算出部と、
     前記状態の変化の状況に基づいて、前記目標構図への遷移モードを、前記目標構図に向けて徐々に構図が遷移するスムーズ構図遷移モードと、前記目標構図に向けて瞬時に前記構図が遷移する瞬時構図遷移モードと、の間で切り替える構図遷移決定部と、
     を有する情報処理装置。
  2.  前記被写体の状態は、前記被写体の移動方向、前記被写体の向き、および、前記被写体の大きさ、のうちの少なくとも1つに関する状態を含み、
     前記状態の変化の状況は、前記移動方向が切り替わる速さ、前記向きが切り替わる速さ、および、前記被写体の大きさの変化、のうちの少なくとも1つに関する状況を含む、
     請求項1に記載の情報処理装置。
  3.  前記構図遷移決定部は、前記遷移モードを前記スムーズ構図遷移モードから前記瞬時構図遷移モードに切り替えた直後の画角の大きさの変化率を、前記遷移モードを切り替える直前の画角の大きさの変化率と異ならせる、
     請求項1に記載の情報処理装置。
  4.  前記構図遷移決定部は、前記スムーズ構図遷移モードで前記構図が遷移している最中に新たな前記目標構図が決定された場合には、前記遷移モードを前記瞬時構図遷移モードに切り替える、
     請求項1に記載の情報処理装置。
  5.  前記構図遷移決定部は、前記スムーズ構図遷移モードで前記構図が遷移している最中に前記状態が許容基準を超えて大きく変化した場合には、前記遷移モードを前記瞬時構図遷移モードに切り替える、
     請求項1に記載の情報処理装置。
  6.  前記構図遷移決定部は、前記瞬時構図遷移モードが選択されてから所定の期間は前記瞬時構図遷移モードの選択を禁止する、
     請求項1に記載の情報処理装置。
  7.  前記被写体の状態は、前記被写体の撮影映像を画像解析することにより取得される、
     請求項1に記載の情報処理装置。
  8.  前記被写体の状態は、前記被写体に取り付けられた位置センサのセンサ位置情報に基づいて取得される、
     請求項1に記載の情報処理装置。
  9.  異なる視点から撮影された複数の前記被写体の撮影映像から、前記被写体の状態に応じた1つの撮影映像を選択する選択映像判定部と、
     選択された前記撮影映像から切り出された映像領域をフレーミング映像として出力する映像切り替え部と、
     を有する請求項1に記載の情報処理装置。
  10.  前記選択映像判定部は、1つの前記撮影映像が選択されてから所定の期間は他の前記撮影映像の選択を禁止する、
     請求項9に記載の情報処理装置。
  11.  前記選択映像判定部は、他の前記撮影映像が選択された直後の画角の大きさの変化率を、他の前記撮影映像が選択される直前の画角の大きさの変化率と異ならせる、
     請求項10に記載の情報処理装置。
  12.  前記被写体の撮影映像から、前記被写体とともに前記目標構図の算出の基礎となる物体を検出する物体認識部を有する、
     請求項1に記載の情報処理装置。
  13.  前記被写体を撮影するカメラの視野を前記被写体の状態に基づいて制御するカメラ制御部を有する、
     請求項1に記載の情報処理装置。
  14.  前記カメラ制御部は、現フレームの視野と目標となる視野との差異に基づいて、前記被写体を撮影するユーザにレコメンド情報を提示する、
     請求項13に記載の情報処理装置。
  15.  選択されていない前記撮影映像を撮影したカメラの視野を、選択されている前記撮影映像から切り出された前記映像領域の画角に基づいて算出するカメラ制御部を有する、
     請求項9に記載の情報処理装置。
  16.  被写体の状態に基づいて目標構図を算出し、
     前記状態の変化の状況に基づいて、前記目標構図への遷移モードを、前記目標構図に向けて徐々に構図が遷移するスムーズ構図遷移モードと、前記目標構図に向けて瞬時に前記構図が遷移する瞬時構図遷移モードと、の間で切り替える、
     ことを有する、コンピュータにより実行される情報処理方法。
  17.  被写体の状態に基づいて目標構図を算出し、
     前記状態の変化の状況に基づいて、前記目標構図への遷移モードを、前記目標構図に向けて徐々に構図が遷移するスムーズ構図遷移モードと、前記目標構図に向けて瞬時に前記構図が遷移する瞬時構図遷移モードと、の間で切り替える、
     ことをコンピュータに実現させるプログラム。
PCT/JP2022/003240 2021-05-21 2022-01-28 情報処理装置、情報処理方法およびプログラム WO2022244314A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US18/557,685 US20240223883A1 (en) 2021-05-21 2022-01-28 Information processing device, information processing method, and program
JP2023522211A JPWO2022244314A1 (ja) 2021-05-21 2022-01-28

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021086376 2021-05-21
JP2021-086376 2021-05-21

Publications (1)

Publication Number Publication Date
WO2022244314A1 true WO2022244314A1 (ja) 2022-11-24

Family

ID=84140455

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/003240 WO2022244314A1 (ja) 2021-05-21 2022-01-28 情報処理装置、情報処理方法およびプログラム

Country Status (3)

Country Link
US (1) US20240223883A1 (ja)
JP (1) JPWO2022244314A1 (ja)
WO (1) WO2022244314A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007067510A (ja) * 2005-08-29 2007-03-15 Toshiba Corp 映像撮影システム
JP2014007653A (ja) * 2012-06-26 2014-01-16 Jvc Kenwood Corp 撮像装置、撮像方法、撮像システム及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007067510A (ja) * 2005-08-29 2007-03-15 Toshiba Corp 映像撮影システム
JP2014007653A (ja) * 2012-06-26 2014-01-16 Jvc Kenwood Corp 撮像装置、撮像方法、撮像システム及びプログラム

Also Published As

Publication number Publication date
US20240223883A1 (en) 2024-07-04
JPWO2022244314A1 (ja) 2022-11-24

Similar Documents

Publication Publication Date Title
KR100542370B1 (ko) 보이지 않는 마커를 이용하는 비전기반 증강현실 시스템
CN109960401B (zh) 一种基于人脸追踪的动向投影方法、装置及其系统
JP4389901B2 (ja) スポーツ競技におけるカメラ自動制御システム、カメラ自動制御方法、カメラ自動制御装置、およびプログラム
JP2007129480A (ja) 撮像装置
WO2020162193A1 (ja) 情報処理装置および方法、並びにプログラム
CN106873933B (zh) 显示方法及电子设备
JP6621565B2 (ja) 表示制御装置、表示制御方法、及びプログラム
JP6294054B2 (ja) 映像表示装置、映像提示方法及びプログラム
KR20110132260A (ko) 모니터 기반 증강현실 시스템
WO2019187732A1 (ja) 情報処理装置、情報処理方法およびプログラム
JP2007251429A (ja) 動画撮影装置及びズーム調整方法
JP2020042206A (ja) 画像表示制御装置および画像表示制御用プログラム
KR20110103692A (ko) 사용자의 움직임을 반영한 파노라마 영상 재생 장치 및 파노라마 영상 재생 방법
WO2022244314A1 (ja) 情報処理装置、情報処理方法およびプログラム
WO2021200184A1 (ja) 情報処理装置、情報処理方法、及び、プログラム
KR101810671B1 (ko) 전방향 영상의 방향 정보를 생성하는 방법 및 이러한 방법을 수행하는 장치
JP6602726B2 (ja) 仮想環境生成装置、仮想環境生成方法、プログラム
US12051148B2 (en) Image processing apparatus, method for controlling the same, and non-transitory computer-readable storage medium
JP2022016929A (ja) 情報処理装置、情報処理方法、及びプログラム
KR20090078085A (ko) 입체 영상 디스플레이 장치 및 그 입체 영상 디스플레이장치에서의 표시부 위치 조절 방법
KR102178990B1 (ko) 전방향 영상의 방향 정보를 생성하는 방법 및 이러한 방법을 수행하는 장치
JP2008178089A (ja) 出力装置、出力方法、及びプログラム
WO2020184188A1 (ja) 画像処理装置、画像処理方法及び画像処理プログラム
JP7065708B2 (ja) 録画再生装置及びプログラム
JP6356928B1 (ja) 画像提供装置、画像提供方法、プログラム、ならびに、非一時的なコンピュータ読取可能な情報記録媒体

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22804237

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023522211

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 18557685

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 22804237

Country of ref document: EP

Kind code of ref document: A1