WO2021192931A1 - 情報処理装置、情報処理方法、および情報処理プログラム - Google Patents

情報処理装置、情報処理方法、および情報処理プログラム Download PDF

Info

Publication number
WO2021192931A1
WO2021192931A1 PCT/JP2021/008779 JP2021008779W WO2021192931A1 WO 2021192931 A1 WO2021192931 A1 WO 2021192931A1 JP 2021008779 W JP2021008779 W JP 2021008779W WO 2021192931 A1 WO2021192931 A1 WO 2021192931A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
information
display
information processing
processing device
Prior art date
Application number
PCT/JP2021/008779
Other languages
English (en)
French (fr)
Inventor
和博 嶋内
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to JP2022509494A priority Critical patent/JPWO2021192931A1/ja
Priority to US17/908,770 priority patent/US20230124466A1/en
Priority to CN202180022555.4A priority patent/CN115315936A/zh
Publication of WO2021192931A1 publication Critical patent/WO2021192931A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/06Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B7/00Electrically-operated teaching apparatus or devices working with questions and answers
    • G09B7/02Electrically-operated teaching apparatus or devices working with questions and answers of the type wherein the student is expected to construct an answer to the question which is presented or wherein the machine gives an answer to the question presented by a student
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • G09G5/36Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators characterised by the display of a graphic pattern, e.g. using an all-points-addressable [APA] memory
    • G09G5/38Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators characterised by the display of a graphic pattern, e.g. using an all-points-addressable [APA] memory with means for controlling the display position
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/01Indexing scheme relating to G06F3/01
    • G06F2203/011Emotion or mood input determined on the basis of sensed human body parameters such as pulse, heart rate or beat, temperature of skin, facial expressions, iris, voice pitch, brain activity patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/22Cropping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/62Semi-transparency

Definitions

  • This disclosure relates to an information processing device, an information processing method, and an information processing program.
  • the technology of taking a picture of a presentation such as a seminar and generating a video including a lecturer's video and presentation materials is known.
  • Patent Document 1 discloses a technique for changing the layout of a video including a person and the material according to the position of the person explaining the material.
  • the information processing device of one aspect according to the present disclosure includes a control unit that generates display control information that is information related to display control of a display image corresponding to scene information indicating a scene of a seminar.
  • FIG. 1 is a diagram for explaining an outline of an information processing system according to an embodiment.
  • the information processing system 1 includes an image pickup device 100, an input device 200, an information processing device 300, a display device 400, and a recording / playback device 500.
  • the image pickup device 100, the input device 200, the information processing device 300, the display device 400, and the recording / playback device 500 are HDMI (High-Definition Multimedia Interface) (registered trademark), SDI (Serial Digital Interface), etc., respectively. May be connected directly with.
  • the image pickup device 100, the input device 200, the information processing device 300, the display device 400, and the recording / playback device 500 may be connected via a wired or wireless network, respectively.
  • the information processing system 1 captures the state of the seminar, distributes it in real time, and records it in the recording / reproducing device 500.
  • seminars include various lectures, classes, talk shows, trainings, and the like.
  • the image pickup device 100 is arranged at the seminar venue and images the state of the seminar.
  • the image pickup device 100 is realized by, for example, a bird's-eye view camera that captures the entire venue of the seminar.
  • the image pickup apparatus 100 may be composed of, for example, a plurality of cameras, and may have a configuration in which the entire seminar venue is imaged by the plurality of cameras.
  • the image pickup apparatus 100 may be a camera that captures a high-resolution image such as 4K or 8K.
  • the image pickup apparatus 100 is provided with a microphone to collect the sound of the seminar venue.
  • the image pickup apparatus 100 images the main subject 10, the presentation object 20, and the sub-subject 30.
  • the main subject 10 is a speaker, a speaker, a lecturer, or the like when the seminar is a lecture or a class.
  • the main subject 10 is a moderator, an organizer, a speaker, a guest of honor, etc. when the seminar is a talk show or the like.
  • the presentation object 20 is an object presented by the main subject 10.
  • the presentation object 20 is, for example, a material related to a seminar projected on a screen by a projector or the like.
  • the presentation object 20 may be, for example, a description written on a blackboard, a whiteboard, or a touch panel on which the main subject 10 can be written on a board.
  • the sub-subject 30 is a student, a participant, a listener, or the like who attends the seminar.
  • the image pickup apparatus 100 outputs captured images of the main subject 10, the presentation object 20, and the sub-subject 30 to the information processing apparatus 300.
  • the input device 200 outputs information about the presentation object 20 used in the seminar to the information processing device 300.
  • the input device 200 is, for example, a PC (Personal Computer) in which materials used by the main subject 10 in the seminar are stored.
  • the input device 200 may be, for example, a projector that projects materials at a seminar.
  • the information processing device 300 determines the seminar scene based on the captured image received from the image pickup device 100.
  • the information processing device 300 determines the scene of the seminar based on the captured image received from the imaging device 100 and the captured image received from the input device 200.
  • the information processing device 300 generates scene information indicating a seminar scene.
  • the information processing device 300 generates display control information which is information related to display control of a display image corresponding to the scene information.
  • the display control information is information related to the display control of the display image corresponding to the scene information indicating the seminar scene.
  • the display control information is information generated for controlling the display of the display image corresponding to the scene information.
  • the display control information includes posture estimation information, scene information, tracking result information, and layout information. Various information will be described in detail later.
  • the display control information may include other information as long as it is information used for controlling the display of the display image.
  • the information processing device 300 generates a display image to be displayed on the display device 400 according to the scene of the seminar.
  • the information processing device 300 outputs the generated display image to the display device 400 and the recording / playback device 500.
  • the display device 400 displays various images.
  • the display device 400 displays a display image received from the information processing device 300.
  • the user can grasp the contents of the seminar by viewing the displayed image.
  • the display device 400 includes, for example, a display including a liquid crystal display (LCD: Liquid Crystal Display) or an organic EL (Organic Electro-Luminescence) display.
  • LCD Liquid Crystal Display
  • organic EL Organic Electro-Luminescence
  • the recording / playback device 500 records various types of images.
  • the recording / reproducing device 500 records a display image received from the information processing device 300.
  • the user can display the display image on the display device 400 by reproducing the display image recorded on the recording / playback device 500. As a result, the user can grasp the contents of the seminar.
  • FIG. 2 is a diagram showing an example of the configuration of the information processing apparatus according to the embodiment.
  • the information processing device 300 includes a communication unit 310, a storage unit 320, and a control unit 330.
  • the communication unit 310 is a communication circuit that inputs and outputs signals between the information processing device 300 and an external device.
  • the communication unit 310 receives the captured image from the imaging device 100.
  • the communication unit 310 receives information on the seminar materials from the input device 200.
  • the communication unit 310 outputs the display image generated by the information processing device 300 to the display device 400 and the recording / playback device 500.
  • the storage unit 320 stores various data.
  • the storage unit 320 can be realized by, for example, a semiconductor memory element such as a RAM (Random Access Memory) or a flash memory (Flash Memory), or a storage device such as a hard disk or a solid state drive.
  • a semiconductor memory element such as a RAM (Random Access Memory) or a flash memory (Flash Memory)
  • flash memory Flash Memory
  • a storage device such as a hard disk or a solid state drive.
  • the control unit 330 is a program stored in a storage unit (not shown) by, for example, a CPU (Central Processing Unit), an MPU (Micro Processing Unit), a GPU (Graphics Processing Unit), or the like (for example, an information processing program according to the present disclosure). ) Is realized by executing RAM or the like as a work area.
  • the control unit 330 may be realized by, for example, an integrated circuit such as an ASIC (Application Specific Integrated Circuit) or an FPGA (Field Programmable Gate Array).
  • the control unit 330 may be realized by a combination of hardware and software.
  • the control unit 330 includes a posture estimation unit 331, a tracking unit 332, an action recognition unit 333, a layout determination unit 334, a crop unit 335, and a display image generation unit 336.
  • the posture estimation unit 331 estimates the posture of a person included in the captured image received from the image pickup device 100.
  • the posture of the person includes skeletal information. Specifically, the posture estimation unit 331 estimates the posture of the person based on the positions of the joints and the bones included in the skeletal information.
  • FIG. 3 is a diagram for explaining a person whose posture is estimated by the posture estimation unit 331.
  • FIG. 3 shows an captured image IM1 in which the imaging device 100 captured the state of the seminar.
  • the captured image IM1 includes a main subject 10 and a plurality of sub-subjects 30.
  • the main subject 10 is a lecturer of the seminar
  • the sub-subject 30 is a participant of the seminar.
  • the posture estimation unit 331 estimates the posture of the main subject 10.
  • the posture estimation unit 331 estimates the posture of the sub-subject 30.
  • the posture estimation unit 331 may estimate the posture of one of the plurality of sub-subjects 30, or may estimate the posture of all of them.
  • the posture estimation unit 331 estimates the skeleton information 11 indicating the skeleton of the main subject 10 in order to estimate the posture of the main subject 10.
  • the posture estimation unit 331 estimates the skeleton information 31 indicating the skeleton of the sub-subject 30 in order to estimate the posture of the sub-subject 30.
  • FIG. 4 is a diagram for explaining a method in which the posture estimation unit 331 estimates the posture of a person.
  • FIG. 4 shows a skeleton model M1 showing skeleton information of a person.
  • the posture estimation unit 331 estimates the skeleton information 11 of the main subject 10 and the skeleton information 31 of the sub-subject 30 as the skeleton model M1 as shown in FIG.
  • the skeletal model M1 includes joints J1 to J18 and bones B1 to B13 connecting the joints.
  • the joint portion J1 and the joint portion J2 correspond to the neck of a person.
  • the joints J3 to J5 correspond to the right arm of the person.
  • the joints J6 to J8 correspond to the left arm of the person.
  • the joints J9 to J11 correspond to the right foot of the person.
  • the joints J12 to J14 correspond to the left foot of the person.
  • the joints J15 to J18 correspond to the head of a person.
  • the posture estimation unit 331 estimates the positions of the joints and the bones of the main subject 10 and the sub-subject 30.
  • the posture estimation unit 331 estimates the postures of the main subject 10 and the sub-subject 30 based on the positions of the joints and the bones.
  • the posture estimation unit 331 outputs the posture estimation information regarding the estimated postures of the main subject 10 and the sub-subject 30 to the tracking unit 332.
  • the posture estimation unit 331 may estimate the facial expressions of the main subject 10 and the sub-subject 30.
  • FIG. 5 is a diagram for explaining a method in which the posture estimation unit 331 estimates the facial expression of a person.
  • FIG. 5 shows a face model M2 showing a person's face.
  • the face model M2 includes feature points F1 to feature points F10 of the contour of the face.
  • the face model M2 includes feature points BR1 to feature points BR6 of the right eyebrow.
  • the face model M2 includes feature points BL1 to feature points BL6 of the left eyebrow.
  • the face model M2 includes feature points ER1 to feature points ER6 of the contour of the right eye and feature points PR of the right eye.
  • the face model M2 includes feature points EL1 to feature points EL6 of the contour of the left eye and feature points PL of the left eye.
  • the face model M2 includes feature points N1 to N5 of the nose.
  • the face model M2 includes mouth feature points M1 to feature points M9.
  • the posture estimation unit 331 features the contour of the face, the right eyebrow, the left eyebrow, the contour of the right eye, the contour of the right eye, the contour of the right eye, the contour of the left eye, the left eye, and the mouth.
  • the facial expressions of the main subject 10 and the sub-subject 30 are estimated based on the position and movement of the main subject 10.
  • the posture estimation unit 331 outputs facial expression estimation data regarding the estimated facial expressions of the main subject 10 and the sub-subject 30 to the tracking unit 332.
  • the tracking unit 332 receives the captured image captured by the image pickup device 100 and the posture estimation information from the posture estimation unit 331.
  • the tracking unit 332 tracks the main subject 10 and the sub-subject 30 included in the captured image. Specifically, when the main subject 10 and the sub-subject 30 move across the frames of the captured image, the tracking unit 332 tracks the subject moved between the frames. As a result, it is possible to obtain data in which the main subject 10 and the sub-subject 30 are individually identified in the captured image.
  • the tracking unit 332 may track the main subject 10 and the sub-subject 30 by using, for example, a well-known technique such as a moving object detection process.
  • the tracking unit 332 may determine the color of the clothes of the main subject 10 and the sub-subject 30, and may track the main subject 10 and the sub-subject 30 based on the color of the clothes.
  • the tracking unit 332 may track the movements of the main subject 10 and the sub-subject 30 by using only the posture estimation information received from the posture estimation unit 331.
  • the tracking unit 332 may track the movements of the main subject 10 and the sub-subject 30 by using only the captured image received from the image pickup device 100.
  • the tracking unit 332 may track the movements of the main subject 10 and the sub-subject 30 by using both the captured image and the posture estimation information.
  • the tracking unit 332 outputs information regarding the tracking result to the action recognition unit 333.
  • the tracking unit 332 may add the attributes of the main subject 10 and the sub-subject 30 to be tracked. For example, when the face image of the main subject 10 and the face image of the instructor registered in advance in the storage unit 320 match, the tracking unit 332 sets the attributes of the instructor to be tracked with respect to the main subject 10. It may be added. The tracking unit 332 may add the attribute of the student to a person other than the person determined as the instructor, for example.
  • the tracking target may be set by the user based on the captured image. Each attribute may be set by the user based on the captured image.
  • the behavior recognition unit 333 determines the seminar scene based on the seminar captured image captured by the imaging device 100.
  • the action recognition unit 333 generates scene information according to the determination result of the scene.
  • the lecturer and the student determine the posture direction as a seminar scene.
  • the behavior recognition unit 333 determines whether or not the instructor is explaining, whether or not the instructor is walking, whether or not the materials have been switched, and whether or not the materials projected on the screen have been slid. Judge whether or not it is written on the board and whether or not a question and answer session is being held.
  • the action recognition unit 333 outputs the scene information regarding the determined scene to the layout determination unit 334.
  • the layout determination unit 334 determines the layout of the display image based on the determination result of the scene information by the action recognition unit 333.
  • the layout determination unit 334 determines the layout of the display image based on, for example, the table in which the scene information and the layout are associated with each other, which is stored in the storage unit 320.
  • the layout determination unit 334 determines a constituent image, which is an image constituting at least a part of the displayed image, based on the scene information.
  • the layout determination unit 334 generates layout information indicating the layout of the display image.
  • the layout information may include information indicating a constituent image.
  • the constituent image means an image that constitutes at least a part of the displayed image.
  • the layout determination unit 334 determines the layout of the display image from one or more constituent images.
  • the constituent images include various images captured by the imaging device 100 at the seminar. Specifically, the constituent image includes an image of the main subject 10 captured by the image pickup apparatus 100 at the seminar, an image including the presentation object 20, and an image of the sub-subject 30 as the subject. An image in which at least one of the main subject 10 and the sub-subject 30 is the subject is also called a person image.
  • the person image includes a whole image which is a bird's-eye view image and a gaze image which is a close-up image of a specific person.
  • the overall image includes an entire image including the main subject 10 as a subject (overall image including the main subject 10) and an overall image including the sub-subject 30 as a subject (overall image including the sub-subject 30). ..
  • the entire image including the main subject 10 is a bird's-eye view image including the main subject 10 and the sub-subject 30.
  • the entire image including the main subject 10 may not include the sub-subject 30.
  • the entire image including the sub-subject 30 is a bird's-eye view image including a plurality of sub-subjects 30.
  • the entire image including the sub-subject 30 may be a bird's-eye view image of only one sub-subject 30.
  • the gaze image includes an image in which the main subject 10 is close-up or an image in which the sub-subject 30 is close-up.
  • the close-up image of the sub-subject 30 is a close-up image of the specific sub-subject 30.
  • the image of the presentation object 20 is also called a presentation object image.
  • the presented object image includes an image of a material related to the seminar projected on the screen by a projector or the like.
  • the presented object image includes a descriptive image that includes information about the description on the board written by the main subject 10 on the blackboard, the whiteboard, and the touch panel.
  • the descriptive image includes a captured image of a blackboard, a whiteboard, and a touch panel.
  • the description image includes an image showing the description result obtained by extracting the description from the captured images of the blackboard, the whiteboard, and the touch panel.
  • the layout determination unit 334 determines the display arrangement in the display image of the constituent image, which is an image constituting at least a part of the displayed image, based on the scene information.
  • the layout determination unit 334 determines the number of constituent images, which are images constituting at least a part of the displayed image, based on the scene information.
  • the layout determination unit 334 determines a close-up image of one constituent image as the layout of the display image. For example, the layout determination unit 334 determines the layout by arranging a plurality of constituent images in combination. When the number of constituent images is a plurality, the layout determination unit 334 determines an arrangement of either parallel arrangement or superimposition arrangement as the layout.
  • the parallel arrangement means an arrangement in which a plurality of constituent images are arranged in parallel vertically or horizontally when viewed from the viewer. In the present disclosure, it is described as a side-by-side arrangement in which two constituent images are arranged side by side in parallel, but this is an example and does not limit the number of constituent images and the direction of arrangement.
  • the superimposed arrangement means an arrangement in which at least one part of the constituent images is superimposed on each other.
  • the superimposed arrangement includes a picture-in-picture arrangement, an extraction arrangement, and a transparent arrangement. Specific examples of parallel arrangement and superimposition arrangement will be described later.
  • the layout determination unit 334 is based on the direction of the posture of the person in the person image (first display image) which is one of the plurality of constituent images. Determine the display arrangement of the image.
  • the layout determination unit 334 is a second with respect to the direction of the posture of the person in the person image and the position of the center of the person image in the display image.
  • the display arrangement is determined so as to correspond to the positional relationship of the centers of the constituent images.
  • the second constituent image is, for example, an image of the presentation object 20 to be explained.
  • the layout determination unit 334 generates layout information indicating the layout of the display image.
  • the layout information may include information indicating the number of constituent images and the arrangement of the constituent images. That is, the layout information may include various types of information for generating a display image.
  • the layout determination unit 334 specifies the cutout position in the captured image for generating the display image.
  • the layout determination unit 334 receives an image captured from the image pickup device 100, for example, the layout determination unit 334 specifies a plurality of cutout positions from the captured image, and selects a cutout position corresponding to the constituent image from the specified plurality of cutout positions. It may be specified. For example, when the layout determination unit 334 receives captured images from a plurality of imaging devices 100, the layout determining unit 334 may select a constituent image from the plurality of captured images.
  • the layout determining unit 334 determines a cutout position from the captured images selected from the plurality of captured images, and configures an image corresponding to the cutout position. It may be an image.
  • the layout information generated by the layout determination unit 334 may include information indicating a cutout position.
  • the crop unit 335 executes a process of cutting out a predetermined region from the captured image captured by the imaging device 100.
  • the crop unit 335 executes a process of cutting out an image of a predetermined region from the captured image based on the layout information received from the layout determination unit 334.
  • the crop unit 335 generates a cropped image by cutting out an image of a predetermined region from the captured image.
  • the crop unit 335 outputs the cut-out image to the display image generation unit 336.
  • FIG. 6 is a diagram for explaining the cutting process of the crop portion 335.
  • the crop unit 335 executes a process of cutting out an image of the region R from the captured image IM1 based on the layout information received from the layout determination unit 334.
  • the crop unit 335 generates a cut-out image 50 by cutting out an image of the region R from the captured image IM1.
  • the crop unit 335 outputs the generated cutout image 50 to the display image generation unit 336.
  • the display image generation unit 336 generates a display image by synthesizing the material received from the input device 200 and the image received from the crop unit 335.
  • the display image generation unit 336 generates a display image based on the layout information received from the layout determination unit 334.
  • the display image generation unit 336 may perform enlargement processing, reduction processing, and the like on at least a part of the cutout image and the material to generate the display image.
  • the display image generation unit 336 may add an effect to the display image when generating the display image.
  • the display image generation unit 336 may add effects such as moving the material, applying an effect to the material, and fading out to the generated display image.
  • the display image generation unit 336 may output the material, the cut-out image, or the like independently or after processing them as a display image.
  • the scene information indicating the scene is the main subject behavior information indicating the behavior of the main subject 10.
  • the main subject behavior information includes various scene information. Information indicating scenes such as “question and answer scenes”, “walking scenes”, “material switching scenes”, “board writing scenes”, and “explanatory scenes” is an example of scene information according to the present disclosure.
  • the main subject behavior information includes presentation object-related behavior information indicating actions performed by the main subject 10 in relation to the presentation object 20 presented at the seminar.
  • the presentation object-related action information includes information indicating a scene such as a "material switching scene”, a "board writing scene”, and a "explanatory scene” among various scenes.
  • the presentation object-related action information is not particularly limited as long as the main subject 10 is scene information related to the action using the presentation object 20.
  • the scene information includes information indicating the posture direction of the main subject 10 or the sub-subject 30.
  • the "question and answer scene” means a scene in which a question and answer session is held between the instructor and the students. That is, the scene information corresponding to the "question and answer scene” is the information indicating the question and answer.
  • the layout of the display image of the "question and answer scene” is "single arrangement of the bird's-eye view image including the instructor” which is the whole image including the instructor who is the main subject 10, and "the whole image of the student who is the sub-subject 30". Single placement of student bird's-eye view images, single placement of student close-up images, parallel placement of student close-up images and instructor images, and student close-up images "Overlapping arrangement with the image of the instructor” is illustrated. That is, the constituent image of the display image of the "question and answer scene” includes an image in which the student, who is the sub-subject 30, is the subject.
  • “Single arrangement of bird's-eye view images including the instructor” is a layout in which only the bird's-eye view image including the instructor is the constituent image.
  • “Single arrangement of the bird's-eye view image of the student” means a bird's-eye view image including at least the student.
  • “Single placement of student close-up images” means single placement of student close-up images.
  • "Parallel arrangement of the student's close-up image and the instructor's image” means the layout of the image in which the student's close-up image and the instructor's image are displayed in parallel.
  • “Overlapping arrangement of the student's close-up image and the instructor's image” means the layout of the image in which the student's close-up image and the instructor's image are displayed in the superimposed arrangement.
  • the layout determination unit 334 determines that the seminar scene is a "question and answer scene"
  • the layout determination unit 334 determines "single arrangement of the bird's-eye view image including the instructor" as the main layout.
  • the layout determination unit 334 depending on the situation, "single arrangement of the bird's-eye view image of the student", “single arrangement of the close-up image of the student", “close-up image of the student and the image of the instructor”. Switch to the layout of "Parallel layout” and "Superimposition layout of student close-up image and instructor image”.
  • "Walking scene” means a scene in which the instructor is walking during a lecture at a seminar. That is, the scene information indicating the "walking scene” is the information related to the walking of the instructor who is the main subject 10.
  • Examples of the layout of the display image of the "walking scene” include “single arrangement of the instructor's tracking cutout image", “single arrangement of the instructor's bird's-eye view image", and “single arrangement of the instructor's bird's-eye view image”.
  • “Single arrangement of the instructor's tracking cut-out image” means the layout of the image to be tracked with the instructor in close-up. That is, the constituent image of the display image of the "walking scene” includes an image in which the instructor, which is the main subject 10, is the subject.
  • the layout determination unit 334 determines that the seminar scene is a "walking scene"
  • the layout determination unit 334 indicates "single arrangement of the instructor's tracking cut-out image", “single arrangement of the instructor's bird's-eye view image", or "instructor".
  • the layout of "single arrangement of bird's-eye view images including” is determined as the layout of the display image.
  • the layout determination unit 334 determines the main layout of the “instructor's tracking cutout image”. Then, the layout determination unit 334 switches to the layout of "single arrangement of the bird's-eye view image of the instructor” or “single arrangement of the bird's-eye view image including the instructor” depending on the situation.
  • the “material switching scene” means a scene in which the material, which is the presentation object 20 presented to the student in the seminar lecture by the lecturer, is switched. That is, the scene information indicating the "material switching scene” is information including the presentation object-related behavior information indicating the switching of the material by the main subject 10.
  • the “material switching scene” includes a scene in which slide feed is performed as a presentation material.
  • the layout of the display image of the material switching scene "single arrangement of the presented object image” is exemplified.
  • the presented object image is an image of the material being presented.
  • “Single arrangement of presentation object image” means a layout in which the presentation object image is displayed on the entire surface of the display screen.
  • the layout determination unit 334 determines “single arrangement of the presented object image” as the layout of the display image.
  • Board writing scene means a scene in which a lecturer writes on a writing object such as a blackboard or a whiteboard at a seminar. That is, the scene information indicating the "board writing scene” is the information indicating the board writing by the main subject 10 included in the presentation object-related action information.
  • the layout of the display image of the "board writing scene” includes "parallel arrangement of the descriptive image and the instructor's image", “superimposition arrangement of the descriptive image and the instructor's image”, and "single arrangement of the descriptive image”.
  • "Parallel arrangement of the descriptive image and the instructor's image” means the layout of the image in which the descriptive image and the instructor's image are displayed in parallel.
  • "Superimposition arrangement of the descriptive image and the instructor's image” means the layout of the image in which the descriptive image and the instructor's image are displayed in the superimposition arrangement.
  • Single arrangement of descriptive image means a layout in which the descriptive image is displayed on the entire surface of the display screen in a single manner.
  • "Extracting and arranging the instructor's image and the descriptive image by extracting the instructor and superimposing it on the descriptive image” means the layout of the image in which the instructor is superimposed on the descriptive image.
  • Transparent arrangement in which the instructor is transparently superimposed on the description image means the layout of the image in which the instructor is transparently superimposed on the description image.
  • Layout decision unit 334 when it is determined that the scene of the seminar is a "board writing scene", “side-by-side arrangement of the descriptive image and the instructor's image”, “picture-in-picture arrangement of the descriptive image and the instructor's image”, “ Either "single placement of the descriptive image”, “extracting the instructor and superimposing it on the descriptive image, extracting and arranging the instructor's image and the descriptive image", and “transparently superimposing the instructor on the board writing extraction result, transparent placement”
  • the layout is determined as the layout of the display screen. In this case, the layout determination unit 334 determines "transparent arrangement in which the instructor is transparent and superimposed on the description image" as the main layout.
  • the layout determination unit 334 depending on the situation, "side-by-side arrangement of the descriptive image and the instructor's image", “picture-in-picture arrangement of the descriptive image and the instructor's image”, “single arrangement of the descriptive image”, And switch to one of the layouts of "extracting the instructor and superimposing it on the descriptive image, extracting and arranging the instructor's image and the descriptive image".
  • the “explanatory scene” means a scene in which the lecturer is explaining the presented object 20 at the seminar. That is, the scene information indicating the "explanatory scene” is information indicating the explanation of the presentation object 20 by the main subject 10 included in the presentation object-related action information.
  • the layout of the display image of the "explanatory scene” includes "parallel arrangement of the descriptive image and the instructor's image", “superimposition arrangement of the descriptive image and the instructor's image”, and "single arrangement of the descriptive image”.
  • the constituent image of the display image of the "explanatory scene” includes a presentation object image, that is, an image showing a material or a board writing extraction result.
  • the layout determination unit 334 determines that the seminar scene is an "explanatory scene", “side-by-side arrangement of the descriptive image and the instructor's image”, “picture-in-picture arrangement of the descriptive image and the instructor's image”, One of “single arrangement of descriptive image”, “superimposing the instructor on the descriptive image, extraction arrangement”, and “transparently superimposing the instructor on the descriptive image, transparent arrangement” is determined as the layout of the display image. .. In this case, the layout determination unit 334 determines "side-by-side arrangement of the description image and the instructor's image” as the main layout.
  • the layout determination unit 334 depending on the situation, "picture-in-picture arrangement of the descriptive image and the image of the instructor", “single arrangement of the descriptive image”, “extracting the instructor and superimposing it on the descriptive image, the instructor Switch to either the layout of "extracting and arranging images and descriptive images” and “transparent arrangement that allows the instructor to be transparent and superimposed on the material and board writing extraction results.”
  • the layout determination unit 334 may determine the layout using, for example, the facial expression estimation data estimated by the posture estimation unit 331. For example, the layout determination unit 334 may determine the layout to display the instructor in close-up when the instructor's tension is increased by the facial expression estimation data. For example, the layout determination unit 334 may decide on a layout that gives a bird's-eye view of the instructor or displays the material on the full screen when the instructor is lowered by the facial expression estimation data committee. For example, the layout determination unit 334 may decide on a layout that displays a bird's-eye view image of the students including the participants when it is found that the participants of the seminar are concentrated on the seminar. For example, the layout determination unit 334 may decide on a layout in which the participants of the seminar are displayed in close-up when they are found to be surprised.
  • the layout of the display image includes a parallel arrangement, a superimposed arrangement, and a single arrangement of the description image.
  • Parallel arrangements include side-by-side arrangements.
  • the superimposed arrangement will be described as a picture-in-picture arrangement, an extraction arrangement, a transparent arrangement, and a single arrangement of descriptive images.
  • the side-by-side arrangement is a layout in which two constituent images are arranged side by side.
  • 7A and 7B show display images of side-by-side arrangement.
  • FIG. 7A is a diagram for explaining a first example of side-by-side arrangement.
  • the display image 40 includes a first image display area 41 and a second image display area 42. An image of the main subject 10 is displayed in the first image display area 41.
  • FIG. 7B is a diagram for explaining a second example of the side-by-side arrangement.
  • the display image 40A includes a first image display area 41A and a second image display area 42A. An image of the main subject 10 is displayed in the first image display area 41A.
  • the picture-in-picture arrangement is an arrangement method in which a plurality of images are superimposed and arranged.
  • the picture-in-picture arrangement is, for example, an arrangement in which the second image is superimposed on a partial area of the first image displayed on the entire display screen.
  • the position where the second image is superimposed is not particularly limited, and for example, the second image may be superimposed on the central region of the first image, or the second image may be superimposed on any of the four corners of the first image. It may be superimposed.
  • a plurality of images such as a third image, a fourth image, ... May be superimposed on the first image.
  • the second image is arranged at any of the four corners of the first image will be described.
  • 8A, 8B, 8C, and 8D show display images of the picture-in-picture arrangement.
  • FIG. 8A is a diagram for explaining a first example of a display image in a picture-in-picture arrangement.
  • the display image 40B includes a first image display area 41B and a second image display area 42B.
  • An image of the main subject 10 is displayed in the first image display area 41B.
  • the layout determination unit 334 may determine the layout of the picture-in-picture arrangement in which the image of the material is displayed on the entire display screen and the main subject 10 is displayed in the upper left corner.
  • FIG. 8B is a diagram for explaining a second example of the display image of the picture-in-picture arrangement.
  • the display image 40C includes a first image display area 41C and a second image display area 42C.
  • An image of the main subject 10 is displayed in the first image display area 41C.
  • the layout determination unit 334 may determine the layout of the picture-in-picture arrangement in which the video of the material is displayed on the entire display screen and the main subject 10 is displayed in the upper right corner.
  • FIG. 8C is a diagram for explaining a third example of the display image of the picture-in-picture arrangement.
  • the display image 40D includes a first image display area 41D and a second image display area 42D. An image of the main subject 10 is displayed in the first image display area 41D. In the second image display area 42D, materials and the like projected on the screen at the time of the seminar are displayed. That is, the layout determination unit 334 may determine the layout of the picture-in-picture arrangement in which the video of the material is displayed on the entire display screen and the main subject 10 is displayed in the lower left corner.
  • FIG. 8D is a diagram for explaining a fourth example of the display image of the picture-in-picture arrangement.
  • the display image 40E includes a first image display area 41E and a second image display area 42E. An image of the main subject 10 is displayed in the first image display area 41E. In the second image display area 42E, materials and the like projected on the screen at the time of the seminar are displayed. That is, the layout determination unit 334 may determine the layout of the picture-in-picture arrangement in which the video of the material is displayed on the entire display screen and the main subject 10 is displayed in the lower right corner.
  • the layout determination unit 334 When deciding the layout of the picture-in-picture arrangement, the layout determination unit 334 causes the image of the main subject 10 to be displayed in a part of the material displayed on the entire display screen where characters, figures, etc. are not described. May be good.
  • the layout determination unit 334 may determine the layout of the extraction arrangement in which the image of the main subject 10 is extracted and superimposed on the presentation object 20.
  • 9A and 9B show display images of transparent arrangement.
  • FIG. 9A is a diagram for explaining the first example of the display image of the extraction arrangement.
  • the display image 40F includes a second image display area 42F.
  • the display image 40F does not include an area in which the main subject 10 is displayed.
  • the main subject 10 is displayed superimposed on the second image display area 42F.
  • the main subject 10 may be extracted by using a well-known person extraction process based on the captured image and superimposed on the second image display area 42F.
  • FIG. 9B is a diagram for explaining a second example of the display image of the extraction arrangement.
  • the display image 40G includes a second image display area 42G.
  • the main subject 10 is displayed superimposed on the second image display area 42G in a reduced state.
  • the layout determination unit 334 may determine the layout of the display image to be a transparent layout in which the image of the main subject 10 is superimposed on the material so as to be transparent.
  • FIG. 10 shows a display image of the transparent arrangement.
  • FIG. 10 is a diagram for explaining an example of the transparent arrangement.
  • the display image 40H includes a second image display area 42H.
  • the main subject 10 is displayed superimposed on the second image display area 42H in a transparent state.
  • the layout determination unit 334 may be a layout in which one constituent image is singly displayed on the entire display image as the layout of the display image.
  • the presentation object image is displayed as a single image on the entire display screen.
  • the presentation object 20 may be displayed on the full screen without displaying the main subject 10 in the display image.
  • a person image including the main subject 10 or the sub-subject 30 as a subject may be displayed as a single image on the entire display screen.
  • a single arrangement including only the image of the main subject 10 may be used, or a single arrangement including only the image of the sub-subject 30 may be used.
  • a single arrangement including only the main subject 10 and the sub-subject 30 may be used.
  • FIG. 11 is a flowchart showing an example of the processing flow of the information processing apparatus according to the first embodiment.
  • the flowchart shown in FIG. 11 is a flow of processing in which the lecturer, who is the main subject 10, determines the scene of the seminar in which the lecturer who is the main subject 10 is giving a lecture using the material projected on the screen by a projector or the like, and generates a display image according to the scene. Is shown.
  • the control unit 330 estimates the posture of the instructor (step S10). Specifically, the posture estimation unit 331 estimates the posture of the instructor based on the captured image captured by the imaging device 100.
  • the control unit 330 executes the tracking process (step S11). Specifically, the tracking unit 332 tracks the instructor between the frames of the captured image based on the captured image captured by the imaging device 100 and the estimation result of the posture of the instructor.
  • the control unit 330 determines the seminar scene (step S12). Specifically, the behavior recognition unit 333 determines the scene based on the captured image captured by the imaging device 100.
  • the control unit 330 determines the layout according to the seminar scene (step S13). Specifically, the layout determination unit 334 determines the layout of the display image to be displayed on the display screen based on the scene determination result by the action recognition unit 333.
  • the control unit 330 executes a cutout process for the captured image (step S14). Specifically, the crop unit 335 executes a cropping process on the captured image based on the layout determined by the layout determining unit 334 to generate a cropped image.
  • the control unit 330 generates a display image to be displayed on the display device 400 (step S15). Specifically, the display image generation unit 336 uses the cut-out image to generate a display image according to the layout determined by the layout determination unit 334C.
  • the control unit 330 determines whether or not the display image generation process is completed (step S16). Specifically, the control unit 330 determines that the display image generation process is completed when the seminar is completed or when the user receives an instruction to end the generation process. If Yes is determined in step S16, the process of FIG. 6 ends. On the other hand, if No is determined in step S16, the process proceeds to step S10, and the processes of steps S10 to S15 are repeated.
  • the scene of the seminar is determined, and the layout of the display image is determined according to the determination result of the scene.
  • the first embodiment can generate an appropriate display image according to the scene of the seminar.
  • the information processing device 300 performs all the processes for generating the display image to be displayed on the display device 400 by itself, but this is an example and does not limit the present disclosure. ..
  • the information processing device 300 may be configured to include any one of a posture estimation unit 331, a tracking unit 332, an action recognition unit 333, and a layout determination unit 334. That is, in the present disclosure, the posture estimation unit 331, the tracking unit 332, the action recognition unit 333, and the layout determination unit 334 may be provided in a plurality of devices in a distributed manner. In other words, in the present disclosure, the process of generating the display image to be displayed on the display device 400 may be distributed among a plurality of different devices.
  • Second Embodiment> Next, the second embodiment will be described. It is expected that the situation of the lecture will change in the lecture by the lecturer using the material projected on the screen. For example, when the instructor explains using the material projected on the screen, there are situations where the instructor's posture is facing right when viewed from the viewer and situations where the instructor is facing left. is assumed. Therefore, in the second embodiment, the layout is changed to an appropriate display arrangement according to the posture direction of the instructor.
  • FIG. 12 is a block diagram showing a configuration of the information processing apparatus according to the second embodiment.
  • the information processing device 300A is different from the information processing device 300 shown in FIG. 2 in the processing executed by the action recognition unit 333A of the control unit 330A and the layout determination unit 334A.
  • the action recognition unit 333A specifies the posture direction of the main subject 10 or the sub-subject 30.
  • the posture direction is the direction in which the person is facing.
  • the action recognition unit 333A identifies the posture direction of each of the main subject 10 and the sub-subject 30 by using the tracking result and the posture estimation information.
  • the tracking result may include posture estimation information.
  • the action recognition unit 333A may specify the directions in which the main subject 10 and the sub-subject 30 are facing on a rule basis.
  • a rule base for example, the state of the joint and the bone of the skeleton, which is the posture estimation information, and the posture direction are associated in advance, and the behavior recognition unit 333A has the joint and the bone of the skeleton.
  • the main subject 10 and the sub-subject 30 may specify the posture direction based on the estimation result of the state.
  • the action recognition unit 333A may specify the posture direction for all the persons of the main subject 10 and the sub-subject 30, or may specify the posture direction of only a specific person.
  • the action recognition unit 333A outputs information regarding the recognition result to the layout determination unit 334.
  • the action recognition unit 333A refers to the data stored in the storage unit 320, performs learning for specifying the posture directions of the main subject 10 and the sub-subject 30 by a neural network, and generates a determination model from the learning result. You can.
  • the action recognition unit 333A may specify the directions in which the main subject 10 and the sub-subject 30 are facing by using the generated determination model. That is, the behavior recognition unit 333A may specify the posture directions of the main subject 10 and the sub-subject 30 by using machine learning. In this case, the behavior recognition unit 333A learns the images in which the posture directions of the person are in various directions by machine learning without using the tracking result and the posture estimation information, and the captured image captured by the image pickup device 100.
  • the posture directions of the main subject 10 and the sub-subject 30 may be specified based on the above. In the present embodiment, the behavior recognition unit 333A specifies, for example, whether the main subject 10 is facing right or left when viewed from the viewer.
  • the layout determination unit 334A determines the layout of the display image to be displayed on the display device 400.
  • the layout determination unit 334A determines the display image based on the captured image received from the image pickup device 100, the information regarding the material (presentation object 20) received from the input device 200, and the recognition result received from the action recognition unit 333A. Determine the layout.
  • the layout determination unit 334A determines, for example, a constituent image which is an image constituting at least a part of the displayed image based on the scene information.
  • the layout determination unit 334A determines the layout of the display image to be displayed on the display device 400, for example, based on the posture direction of the main subject 10.
  • the layout determining unit 334A in the displayed image is based on the posture direction of the person in the person image which is the first constituent image which is one of the plurality of constituent images.
  • the display arrangement of the first constituent image is determined.
  • the person image is arranged so that the center of the display image is on the left side of the center of the person image.
  • the layout determining unit 334A determines the posture direction of the person in the person image which is the first constituent image and the first in the displayed image.
  • the layout determination unit 334A determines the display arrangement so that the posture direction of the person, which is the first constituent image, faces the center of the second constituent image.
  • the center of the image may be the center of gravity of the image.
  • the layout determination unit 334A specifies the cutout position in the captured image for generating the display image. For example, when the layout determination unit 334A receives an image captured from the image pickup apparatus 100, the layout determination unit 334A may specify a plurality of cutout positions from the captured image and specify a display image from the specified plurality of cutout positions. .. When the layout determination unit 334A receives captured images from a plurality of imaging devices 100, for example, the layout determining unit 334A may select a display image from the plurality of captured images. The layout determination unit 334 outputs the layout information regarding the determined layout to the crop unit 335 and the display image generation unit 336 with the information regarding the cutout position.
  • the layout determination unit 334A determines the display arrangement according to the posture direction of the main subject 10 as seen by the viewer.
  • the layout determination unit 334A determines the display arrangement to be, for example, either parallel arrangement or superimposition arrangement.
  • Parallel arrangements include side-by-side arrangements.
  • Overlapping arrangements include picture-in-picture arrangements, extraction arrangements, and transparent arrangements.
  • the layout determination unit 334A changes the layout of the side-by-side arrangement according to the posture direction of the main subject 10 as seen by the viewer.
  • the layout determination unit 334A determines the layout of the display image to be the side-by-side layout shown in FIG. 7A.
  • FIG. 7A shows a display image 40 when the main subject 10 is facing to the right when viewed from the viewer.
  • the display image 40 includes a first image display area 41 and a second image display area 42. An image of the main subject 10 is displayed in the first image display area 41. In the second image display area 42, materials and the like projected on the screen at the time of the seminar are displayed.
  • the layout determination unit 334 determines the layout in which the main subject 10 is displayed on the left side and the material is displayed on the right side when the main subject 10 is facing to the right.
  • the layout determination unit 334A describes the layout of the display image as shown in FIG. 7B in the side-by-side arrangement of the display image. It is a figure to do.
  • FIG. 7B shows a display image 40A when the main subject 10 is facing left when viewed from the viewer.
  • the display image 40A includes a first image display area 41A and a second image display area 42A.
  • the image of the main subject 10 is displayed in the first image display area 41A, and the material projected on the screen at the time of the seminar is displayed in the second image display area 42A.
  • the layout determination unit 334 determines the layout in which the material is displayed on the left side and the main subject 10 is displayed on the right side when the main subject 10 is facing left when viewed from the viewer.
  • the layout determination unit 334 determines the layout of the side-by-side arrangement in which the images of the main subject 10 and the material are arranged adjacent to each other.
  • the image of the material is positioned in the direction of the main subject 10, so that the user can easily see the display image 40 and the display image 40A. Become.
  • the layout determination unit 334 is expected to make it difficult for the user to visually recognize the display image, so that the layout of the display image is stable.
  • the process may be executed.
  • the layout determination unit 334 may change the layout when the main subject 10 faces the same direction for a predetermined time or longer (for example, 5 seconds or longer).
  • the layout determination unit 334A may change the layout when the main subject 10 is facing the same direction for a predetermined time or longer (for example, 10 seconds or longer).
  • FIG. 13 is a flowchart showing an example of the processing flow of the information processing apparatus according to the second embodiment.
  • the flowchart shown in FIG. 13 shows the flow of processing for generating a display image in which a lecturer, who is the main subject 10, is giving a lecture using materials projected on a screen by a projector or the like at a seminar or the like.
  • the flowchart shown in FIG. 13 can be similarly applied even when the instructor explains while writing on the board.
  • the control unit 330A estimates the posture of the instructor (step S20). Specifically, the posture estimation unit 331 estimates the posture of the instructor based on the captured image captured by the imaging device 100.
  • the control unit 330A executes the tracking process (step S21). Specifically, the tracking unit 332 tracks the instructor between the frames of the captured image based on the captured image captured by the imaging device 100 and the estimation result of the posture of the instructor.
  • the control unit 330A determines whether or not the instructor is facing to the right when viewed from the viewer (step S22). Specifically, the behavior recognition unit 333A proceeds to step S23 when it is determined that the instructor is facing right when viewed from the viewer (step S22; Yes) based on the estimation result of the instructor's posture. On the other hand, if it is determined that the instructor is not facing to the right when viewed from the viewer (step S22; No), the instructor proceeds to step S24.
  • control unit 330A determines the layout of the display image as the first layout (step S23). Specifically, the layout determination unit 334A determines the layout of the display image to be a layout in which the instructor is displayed on the left side and the material is displayed on the right side.
  • control unit 330A determines the layout of the display image as the second layout (step S24). Specifically, the layout determination unit 334A determines the layout of the display image to be a layout in which the material is displayed on the left side and the instructor is displayed on the right side.
  • the control unit 330A specifies the cutout position in the captured image (step S25). Specifically, the layout determination unit 334A specifies a cutout position for generating a cutout image for use in the display image.
  • the control unit 330A executes a cutout process for the captured image (step S26). Specifically, the crop unit 335 executes a cutout process on the captured image based on the result of specifying the cutout position by the layout determination unit 334A to generate the cutout image.
  • the control unit 330 generates a display image to be displayed on the display device 400 (step S27). Specifically, the display image generation unit 336 generates a display image of the cutout image and the image of the material according to the layout determined by the layout determination unit 334A.
  • the control unit 330A determines whether or not the display image generation process is completed (step S28). Specifically, the control unit 330A determines that the display image generation process is completed when the seminar is completed or when the user receives an instruction to end the generation process. If Yes is determined in step S28, the process of FIG. 9 ends. On the other hand, if No is determined in step S28, the process proceeds to step S20, and the processes of steps S20 to S27 are repeated.
  • the layout can be changed to a side-by-side arrangement in which the lecturer and the material are displayed side by side according to the orientation of the lecturer who gives a lecture using the material.
  • the first embodiment can provide a display screen that does not give a sense of discomfort even if the direction of the instructor changes.
  • the third embodiment will be described. It is expected that the situation of the lecture will change in the lecture by the lecturer using the material projected on the screen. For example, in a situation where the instructor is explaining while walking, it is assumed that the lecturer is explaining without using materials. In such a case, if the displayed image contains a material, it may explain that it has nothing to do with the material. Therefore, in the second embodiment, when it is determined that the instructor is explaining while walking, the layout of the display image is changed to an appropriate layout so that the material is not included.
  • FIG. 14 is a block diagram showing a configuration of the information processing apparatus according to the third embodiment.
  • the information processing device 300B is different from the information processing device 300 shown in FIG. 2 in the processing executed by the action recognition unit 333B of the control unit 330B and the layout determination unit 334B.
  • the action recognition unit 333B determines whether or not each of the main subject 10 and the sub-subject 30 is walking.
  • the action recognition unit 333B determines whether or not the main subject 10 and the sub-subject 30 are walking by using the tracking result. For example, the action recognition unit 333B calculates the motion vectors of the main subject 10 and the sub-subject 30 by using the tracking result, and when the motion vector determined to be the walking speed is calculated, the person walks. Judge that there is.
  • the motion vector determined to be the walking speed may be stored as information in the storage unit 320 in advance.
  • the action recognition unit 333B may determine whether or not all the persons of the main subject 10 and the sub-subject 30 are walking, or may determine whether or not only a specific person is walking.
  • the action recognition unit 333B outputs walking information indicating whether or not the person is walking to the layout determination unit 334B.
  • the action recognition unit 333B refers to the data stored in the storage unit 320, performs learning for determining whether or not the main subject 10 and the sub-subject 30 are walking by a neural network, and performs a determination model from the learning result. May be generated.
  • the action recognition unit 333B may specify that the main subject 10 and the sub-subject 30 are walking by using the generated determination model. That is, the behavior recognition unit 333B may specify that the main subject 10 and the sub-subject 30 are walking by using machine learning. In this case, the behavior recognition unit 333B learns the image of the person walking by machine learning without using the tracking result and the posture estimation information, and the main subject 10 is based on the image captured by the image pickup device 100. And whether or not the sub-subject 30 is walking may be determined.
  • the layout determination unit 334B determines the layout of the display image to be displayed on the display device 400.
  • the layout determination unit 334B changes the layout depending on whether or not the main subject 10 is walking.
  • the layout determination unit 334B changes the layout to an appropriate display arrangement depending on whether or not the main subject 10 is walking.
  • the layout determination unit 334B determines the layout of the display image to be a single arrangement of the gaze image in which the main subject 10 is close-up.
  • FIG. 15 is a diagram for explaining the layout of the display image when it is determined that the main subject 10 is walking.
  • FIG. 15 shows a display image 60 including the instructor 61 as the main subject 10.
  • the layout determination unit 334B identifies the area 62 including the instructor 61 when the action recognition unit 333B determines that the instructor 61 is walking.
  • the layout determination unit 334B determines the layout of the display image for displaying the enlarged image 62A of the area 62 on the display device 400.
  • the layout determination unit 334B outputs information regarding the position of the specified area 62 to the crop unit 335.
  • the layout determination unit 334B is expected to make it difficult for the user to visually recognize the display image, so that the layout of the display image is stable. Processing may be executed.
  • the layout determination unit 334B may change the layout when the instructor 61 is walking for a predetermined time or more (for example, 3 seconds or more).
  • FIG. 16 is a flowchart showing an example of the processing flow of the information processing apparatus according to the third embodiment.
  • the flowchart shown in FIG. 16 shows the flow of processing for generating a display image in which a lecturer, who is the main subject 10, is giving a lecture using materials projected on a screen by a projector or the like at a seminar or the like.
  • the flowchart shown in FIG. 16 can be similarly applied even when the instructor explains while writing on the board.
  • steps S30 and S31 are the same as the processes of steps S20 and S21 shown in FIG. 13, the description thereof will be omitted.
  • the control unit 330B determines whether or not the instructor is walking (step S32). Specifically, the behavior recognition unit 333B determines whether or not the instructor is walking by calculating the motion vector of the instructor based on the posture estimation information. If it is determined that the instructor is walking (step S32; Yes), the process proceeds to step S33. On the other hand, if it is determined that the instructor is not walking (step S32; No), the process proceeds to step S37.
  • control unit 330B determines the layout of the display image to be the third layout (step S33). Specifically, the layout determination unit 334B determines the layout of the display image as the layout of the single arrangement of the gaze image with the instructor 61 close-up.
  • the control unit 330B specifies the cutout position in the captured image (step S34). Specifically, the layout determination unit 334B specifies a cutout position for generating a cutout image.
  • the control unit 330B executes a cropping process on the captured image (step S35). Specifically, the crop unit 335 executes a cutout process on the captured image based on the result of specifying the cutout position by the layout determination unit 334B to generate the cutout image.
  • the control unit 330B generates a display image to be displayed on the display device 400 (step S36). Specifically, the display image generation unit 336 generates a cut-out image as a display image.
  • steps S37 to S43 are the same as the processes of steps S22 to S28 shown in FIG. 13, the description thereof will be omitted.
  • the layout of the display screen can be changed depending on whether or not the instructor is walking.
  • the third embodiment can provide a display screen that does not give a sense of discomfort even in a scene where the instructor explains while walking without using materials.
  • the fourth embodiment will be described. It is assumed that the lecturer will have a question and answer session in the lecture using the materials projected on the screen. In such cases, it may be desirable to generate a display image that includes the instructor, the questioner, and the material. Therefore, in the fourth embodiment, when it is determined that a question and answer session is being conducted in the lecture, the layout of the display image is determined to be a single arrangement of the entire image including the speaker and the questioner.
  • FIG. 17 is a block diagram showing a configuration of the information processing apparatus according to the fourth embodiment.
  • the information processing device 300C is different from the information processing device 300 shown in FIG. 2 in the processing executed by the action recognition unit 333C of the control unit 330C and the layout determination unit 334C.
  • the behavior recognition unit 333C determines whether or not a question and answer session is being held in a lecture such as a seminar.
  • the action recognition unit 333C determines whether or not a question and answer session is being performed based on the captured images of the main subject 10 and the sub-subject 30.
  • the action recognition unit 333C determines that a question and answer session is being performed when, for example, the main subject 10 detects an action of pointing a finger or reaching out toward the sub-subject 30.
  • the action recognition unit 333C detects, for example, an action in which the main subject 10 faces the sub-subject 30 and nods or shakes its head vertically or horizontally, the main subject 10 is the sub-subject 30.
  • the action recognition unit 333C determines that a question and answer session is being performed when at least one of the sub-subjects 30 detects a motion of raising a hand or standing up.
  • the action recognition unit 333C refers to the data stored in the storage unit 320, performs learning for determining whether or not a question and answer session is being performed by a neural network, and generates a determination model from the learning result. good.
  • the behavior recognition unit 333C may determine whether or not a question and answer session is being performed using the generated determination model. That is, the behavior recognition unit 333C may use machine learning to identify that a question and answer session is taking place. In this case, the behavior recognition unit 333C learns the video in which the question and answer session is performed by machine learning without using the tracking result and the posture estimation information, and the question and answer session is based on the captured image captured by the imaging device 100. It may be determined whether or not a response has been made.
  • the layout determination unit 334C determines the layout of the display image to be displayed on the display device 400.
  • the layout determination unit 334C determines the layout according to whether or not a question and answer session is being conducted.
  • the layout determination unit 334C changes the layout to an appropriate display arrangement depending on whether or not a question and answer session is being conducted.
  • the layout determination unit 334C sets the display device 400 as a display image including only the bird's-eye view image including the main subject 10 and the sub-subject 30. do.
  • the bird's-eye view image is sometimes called the whole image.
  • FIG. 18 is a diagram for explaining the layout of the display image when it is determined that the question and answer session is being performed.
  • FIG. 18 shows a display image 70 including a lecturer 71 as a main subject 10 and a student 72 as a sub-subject 30.
  • the layout determination unit 335B is a display image 70 composed of only the constituent images including the instructor 71 and the student 72. Such a layout is determined as the layout of the display image.
  • the layout determination unit 334C is expected to make it difficult for the user to visually recognize the display image when the layout of the display image is changed due to an erroneous detection of the action recognition unit 333C, so that the layout of the display image is stable. Processing may be executed. For example, the layout determination unit 334C may change the layout when it is determined that the instructor 71 and the student 72 have a conversation for a predetermined time or longer (for example, 10 seconds or longer).
  • FIG. 19 is a diagram showing an example of a processing flow of the information processing apparatus according to the fourth embodiment.
  • the flowchart shown in FIG. 19 shows the flow of processing for generating a display image in which a lecturer, who is the main subject 10, is giving a lecture using materials projected on a screen by a projector or the like at a seminar or the like.
  • the flowchart shown in FIG. 19 can be similarly applied even when the instructor explains while writing on the board.
  • steps S50 and S51 are the same as the processes of steps S20 and S21 shown in FIG. 13, the description thereof will be omitted.
  • the control unit 330C determines whether or not a question and answer session is being conducted (step S52). Specifically, the behavior recognition unit 333C determines whether or not a question and answer session is being conducted based on the captured images of the instructor and the student. If it is determined that a question and answer session is being conducted (step S52; Yes), the process proceeds to step S53. If it is determined that the question and answer session has not been performed (step S52; No), the process proceeds to step S57.
  • the control unit 330C determines the layout of the display image to be the fourth layout (step S53). Specifically, the layout determination unit 334C determines as the layout of the display image a layout in which only the bird's-eye view image including the lecturer and the learner is used as the constituent image.
  • the control unit 330C specifies the entire screen of the captured image as a cropped image (step S54). Specifically, the layout determination unit 334C specifies the entire bird's-eye view image as a cutout position.
  • the control unit 330C executes a cutout process for the captured image (step S55). Specifically, the crop unit 335 executes a cutout process on the captured image based on the result of specifying the cutout position by the layout determination unit 334C to generate the cutout image.
  • the control unit 330C generates a display image to be displayed on the display device 400 (step S56). Specifically, the display image generation unit 336 generates a display image using the cut-out image as a constituent image.
  • steps S57 to S63 are the same as the processes of steps S22 to S28 shown in FIG. 13, the description thereof will be omitted.
  • the layout of the display image can be changed depending on whether or not a question and answer session is being conducted.
  • the third embodiment can be changed to an appropriate layout when a question and answer session is held at the seminar.
  • FIG. 20 is a diagram showing a first modification of the layout of the display image according to the third embodiment.
  • FIG. 20 shows a bird's-eye view image (also referred to as an overall image) of the student.
  • the display image 70A includes a plurality of students 72.
  • the layout determination unit 334C may decide the layout so that only the entire image, which is a bird's-eye view of the student 72, is used as the constituent image. This makes it easier for the student 72 to understand the situation in response to the instructor's question.
  • FIG. 21 is a diagram showing a second modification of the layout of the display image according to the fourth embodiment.
  • FIG. 21 shows a close-up image of the questioner.
  • a close-up image is sometimes called a gaze image.
  • the display image 70B includes the student 72.
  • the student 72 in the display image 70B is a student who has a question and answer session with the instructor.
  • the student 72 is, for example, a student who has a question and answer session with the instructor.
  • the layout determination unit 334C may determine the layout of the gaze image in which the student 72 is close-up when it is determined that the question and answer session has started between the instructor 71 and the student 72. This makes it easier for the students 72 to understand the situation during the question and answer session.
  • FIG. 22 is a diagram showing a third modification of the layout of the display image according to the fourth embodiment.
  • FIG. 22 shows a side-by-side layout of a close-up gaze image of the instructor 71 and a close-up gaze image of the student 72.
  • the display image 70C includes a first image display area 74 and a first image display area 75.
  • the image of the instructor 71 is displayed in the first image display area 74.
  • the instructor 71 and the student 72 are having a question and answer session.
  • the layout determination unit 334C has a close-up image of the instructor 71 and a close-up image of the student 72. You may decide on a side-by-side layout, which is a parallel layout in which and are displayed side by side.
  • the layout determination unit 334C may determine the layout of the display image according to the determination result of at least one of the posture directions of the instructor 71 and the student 72 by the action recognition unit 333C. This makes it easier to understand the state of the question and answer session between the instructor 71 and the student 72.
  • FIG. 23 is a diagram showing a fourth modification of the layout of the display image according to the fourth embodiment.
  • FIG. 23 shows a layout of a picture-in-picture arrangement of a close-up gaze image of the instructor 71 and a close-up gaze image of the student 72.
  • the display image 70D includes a first image display area 74A and a first image display area 75A.
  • the first image display area 74A is located in the lower right corner of the display image 70D.
  • the first image display area 74A may be located in the upper left corner, the upper right corner, or the lower left corner in the display image 70D.
  • the first image display area 74A is not limited to the corner of the display image 70D, and may be located at any position including, for example, the central portion of the display image 70D.
  • the layout determination unit 334C may determine the layout of the display image according to the determination result of at least one of the posture directions of the instructor 71 and the student 72 by the action recognition unit 333B.
  • the first image display area 74A a gaze image in which the instructor 71 is close-up is displayed.
  • the first image display area 75A occupies the entire display image 70D.
  • a gaze image that is a close-up of the student 72 is displayed.
  • FIG. 24 is a diagram showing a fifth modification of the layout of the display image according to the fourth embodiment.
  • FIG. 24 shows a layout of a picture-in-picture arrangement, which is a superposition arrangement of a close-up gaze image of the instructor 71 and a close-up gaze image of the student 72.
  • the display image 70E includes a first image display area 73B and a second image display area 75B.
  • the first image display area 74B occupies the entire display image 70E.
  • a gaze image in which the instructor 71 is close-up is displayed.
  • the second image display area 75B is located in the lower left corner of the display image 70E.
  • the second image display area 75B may be located in the upper right corner, the upper left corner, or the lower right corner in the display image 70E.
  • the second image display area 75B is not limited to the corner of the display image 70E, and may be located at any position including, for example, the central portion of the display image 70E.
  • the layout determination unit 334C may determine the layout of the display image according to the determination result of at least one of the posture directions of the instructor 71 and the student 72 by the action recognition unit 333B.
  • a gaze image that is a close-up of the student 72 is displayed.
  • FIG. 25 is a flowchart showing an example of a flow of a modified example of the processing of the information processing apparatus according to the fourth embodiment.
  • the layout of the displayed image is changed according to the posture direction of the instructor.
  • the layout of the displayed image is changed depending on whether or not the instructor is walking.
  • the layout of the display image is changed depending on whether or not it is a question and answer session.
  • the posture direction of the instructor, whether or not the instructor is walking, and whether or not the question and answer session may all be determined.
  • steps S70 to S76 are the same as the processes of steps S50 to S56 shown in FIG. 19, the description thereof will be omitted.
  • steps S77 to S79 are the same as the processes of steps S32 to S34 shown in FIG. 16, the description thereof will be omitted.
  • steps S80 to S96 are the same as the processes of steps S22 to S28 shown in FIG. 13, the description thereof will be omitted.
  • a display image to be displayed on the display screen is generated.
  • the display image may be controlled or the display control information may be recorded as metadata.
  • FIG. 26 is a block diagram showing a configuration of the information processing apparatus according to the fifth embodiment.
  • the information processing device 300D is different from the information processing device 300 shown in FIG. 2 in that the control unit 330D includes an output control unit 337 and a related unit 338.
  • the output control unit 337 controls the output of various images to be displayed on the display device 400.
  • the output control unit 337 controls the display device 400 to display the display image synthesized by the display image generation unit 336 based on the display control information.
  • the related unit 338 associates the display control information with one or more captured images.
  • the related unit 338 associates the display control information with the captured image as metadata.
  • the related unit 338 associates the scene information with the captured image as metadata.
  • the related unit 338 may associate the information regarding the posture direction and the layout information with the captured image.
  • the related unit 338 may associate other information with the captured image.
  • FIG. 29 is a hardware configuration diagram showing an example of the computer 1000.
  • the computer 1000 includes a CPU 1100, a RAM 1200, a ROM (Read Only Memory) 1300, an HDD (Hard Disk Drive) 1400, a communication interface 1500, and an input / output interface 1600.
  • Each part of the computer 1000 is connected by a bus 1050.
  • the computer 1000 may have a GPU instead of the CPU 1100.
  • the CPU 1100 operates based on the program stored in the ROM 1300 or the HDD 1400, and controls each part. For example, the CPU 1100 expands the program stored in the ROM 1300 or the HDD 1400 into the RAM 1200 and executes processing corresponding to various programs.
  • the ROM 1300 stores a boot program such as a BIOS (Basic Input Output System) executed by the CPU 1100 when the computer 1000 is started, a program that depends on the hardware of the computer 1000, and the like.
  • BIOS Basic Input Output System
  • the HDD 1400 is a computer-readable recording medium that non-temporarily records a program executed by the CPU 1100 and data used by the program.
  • the HDD 1400 is a recording medium for recording the development support program according to the present disclosure, which is an example of the program data 1450.
  • the communication interface 1500 is an interface for the computer 1000 to connect to an external network 1550 (for example, the Internet).
  • the CPU 1100 receives data from another device or transmits data generated by the CPU 1100 to another device via the communication interface 1500.
  • the input / output interface 1600 is an interface for connecting the input / output device 1650 and the computer 1000.
  • the CPU 1100 receives data from an input device such as a keyboard or mouse via the input / output interface 1600. Further, the CPU 1100 transmits data to an output device such as a display, a speaker, or a printer via the input / output interface 1600. Further, the input / output interface 1600 may function as a media interface for reading a program or the like recorded on a predetermined recording medium (media).
  • the media is, for example, an optical recording medium such as DVD (Digital Versatile Disc) or PD (Phase change rewritable Disk), a magneto-optical recording medium such as MO (Magneto-Optical disk), a tape medium, a magnetic recording medium, or a semiconductor memory.
  • an optical recording medium such as DVD (Digital Versatile Disc) or PD (Phase change rewritable Disk)
  • a magneto-optical recording medium such as MO (Magneto-Optical disk)
  • tape medium such as DVD (Digital Versatile Disc) or PD (Phase change rewritable Disk)
  • MO Magneto-optical disk
  • the CPU 1100 of the computer 1000 executes the information processing program loaded on the RAM 1200 to execute each functional unit included in the control unit 330.
  • the information processing program according to the present disclosure and the data in the storage unit 320 are stored in the HDD 1400.
  • the CPU 1100 reads the program data 1450 from the HDD 1400 and executes the program, but as another example, these programs may be acquired from another device via the external network 1550.
  • the information processing device 300 includes a control unit 330 that generates display control information that is information related to display control of a display image corresponding to scene information indicating a scene of a seminar.
  • the information processing device 300 can generate an appropriate image according to the seminar scene.
  • Scene information is determined based on one or more captured images.
  • the information processing apparatus 300 can generate an appropriate image according to the scene of the seminar based on one or a plurality of captured images of the state of the seminar.
  • the scene information is the main subject behavior information indicating the behavior of the main subject 10 of the seminar.
  • the information processing device 300 can generate an appropriate image according to the scene of the seminar because the information processing device 300 is based on the behavior of the main subject 10 such as the lecturer.
  • the main subject 10 action information includes the presentation object-related action information indicating the action performed by the main subject 10 in relation to the presentation object 20 presented at the seminar.
  • the information processing device 300 can generate an appropriate image according to the scene of the seminar based on the information related to the presented objects such as the information processing device 300 and the materials shown in the seminar.
  • Scene information is information determined based on the posture of a person.
  • the information processing device 300 can generate an appropriate image according to the scene of the seminar based on the posture of the person included in the scene information.
  • the person is the main subject 10 or the sub-subject 30 of the seminar.
  • the information processing device 300 can generate an appropriate image according to the scene of the seminar based on the postures of the main subject 10 such as the lecturer and the sub-subject 30 such as the student.
  • the display control is a control for determining a constituent image which is an image constituting at least a part of the displayed image based on the scene information.
  • the information processing apparatus 300 can determine the constituent image included in the display image based on the scene information, so that it is possible to generate an appropriate image according to the scene of the seminar.
  • the constituent image includes a person image in which at least one of the main subject 10 and the sub-subject 30 of the seminar is the subject.
  • the information processing device 300 can generate an appropriate image according to the scene of the seminar based on the postures of the main subject 10 such as the lecturer and the sub-subject 30 such as the student.
  • the scene information is information related to walking of the main subject 10.
  • the person image is an image in which the main subject 10 is the subject.
  • the information processing device 300 can determine an image in which the target person is walking as a constituent image of the display image, so that it is possible to generate an appropriate image according to the scene of the seminar.
  • Scene information is information indicating a question and answer session.
  • the person image is an image in which the sub-subject 30 is the subject.
  • the information processing apparatus 300 can determine the image in which the target person is asking and answering questions as the constituent image of the display image, so that it is possible to generate an appropriate image according to the scene of the seminar.
  • the person image includes the whole image or the gaze image.
  • the information processing apparatus 300 can determine the entire image including the target person or the gaze image as the constituent image of the display image, so that it is possible to generate an appropriate image according to the scene of the seminar.
  • the scene information is the presentation object-related action information indicating the action performed by the main subject 10 of the seminar in relation to the presentation object 20 presented in the seminar.
  • the constituent image corresponding to the scene information includes the presentation object image of the presentation object 20.
  • the information processing apparatus 300 can determine the image of the presentation object such as the material projected on the screen as the constituent image of the display image, so that it is possible to generate an appropriate image according to the scene of the seminar. ..
  • the presentation object-related action information is information indicating the explanation of the presentation object 20 by the main subject 10.
  • the information processing apparatus 300 can generate an appropriate image according to the scene of the seminar based on the state explained by the lecturer or the like.
  • the presented object-related action information is information indicating a board writing by the main subject 10.
  • the information processing apparatus 300 can generate an appropriate image according to the scene of the seminar based on the state of being written on the blackboard or the whiteboard.
  • the presented object image includes a descriptive image containing information regarding the description in the board.
  • the information processing apparatus 300 can determine the description image including the description on the board as the constituent image of the display image, so that it is possible to generate an appropriate image according to the scene of the seminar.
  • the description image is an image showing the description extraction result obtained by extracting the description from one or more captured images.
  • the information processing apparatus 300 can extract the contents of the board writing based on the image including the board writing, so that it is possible to generate an appropriate image according to the scene of the seminar.
  • the display control is a control that determines the display arrangement in the display image of the constituent image, which is an image that constitutes at least a part of the displayed image, based on the scene information.
  • the information processing apparatus 300 can determine the layout of the display image, so that it is possible to generate an appropriate image according to the scene of the seminar.
  • the display control is a control for determining the number of constituent images, which are images constituting at least a part of the displayed image, based on the scene information.
  • the information processing apparatus 300 can select the constituent images constituting the display image, so that it is possible to generate an appropriate image according to the scene of the seminar.
  • the number of constituent images is multiple.
  • the display arrangement is a parallel arrangement or a superimposition arrangement.
  • the information processing apparatus 300 can generate a display image by arranging the constituent images in parallel or superposed arrangement, so that an appropriate image according to the seminar scene can be produced. Can be generated.
  • the scene information includes information indicating the posture direction of a person in a person image including a person as a subject in the constituent images.
  • the information processing apparatus 300 can generate an appropriate image according to the scene of the seminar based on the direction of the posture included in the constituent image.
  • the display control is based on the posture direction of the person in the person image which is the first constituent image which is one of the plurality of constituent images. This is a control for determining the display arrangement of the constituent images of 1.
  • the information processing apparatus 300 can determine the position of the first constituent image in the display image based on the direction of the posture of the person included in the first constituent image, so that the information processing device 300 can be used in the seminar scene. It is possible to generate an appropriate image according to the situation.
  • the display control controls the posture direction of the person in the person image which is the first constituent image and the inside of the displayed image. This is a control for determining the display arrangement so that the positional relationship of the center of the second constituent image corresponds to the position of the center of the first constituent image in the above.
  • the information processing apparatus 300 arranges the first constituent image and the second constituent image so that the posture of the person included in the first image faces the center of the second image. Since it is possible to determine, it is possible to generate an appropriate image according to the scene of the seminar.
  • the second constituent image is a presentation eject image of the presentation object 20 presented at the seminar.
  • the information processing apparatus 300 determines the layout so that the posture direction of the person included in the first constituent image faces the presentation object 20 such as the material projected on the screen included in the second constituent image. Therefore, it is possible to generate an appropriate image according to the scene of the seminar.
  • the control unit 330 associates display control information with one or more captured images.
  • the information processing apparatus 300 can analyze the generated display control information, and by using the analysis result, it is possible to generate an appropriate image according to the scene of the seminar.
  • the control unit 330 generates a display image based on the display control information.
  • the information processing apparatus 300 can perform various display controls, so that appropriate display control can be performed according to the seminar scene.
  • An information processing device including a control unit that generates display control information, which is information related to display control of a display image corresponding to scene information indicating a seminar scene.
  • the scene information is determined based on one or more captured images.
  • the scene information is main subject behavior information indicating the behavior of the main subject of the seminar.
  • the main subject behavior information includes presentation object-related behavior information indicating actions performed by the main subject in relation to the presentation object presented at the seminar.
  • the scene information is information determined based on the posture of the person.
  • the information processing device according to any one of (1) to (4) above.
  • the person is the main subject or sub-subject of the seminar.
  • the display control is It is a control for determining a constituent image which is an image constituting at least a part of the displayed image based on the scene information.
  • the constituent image includes a person image in which at least one of the main subject and the sub-subject of the seminar is the subject.
  • the scene information is information related to walking of the main subject, and is The person image is an image in which the main subject is a subject.
  • the scene information is information indicating a question and answer session, and is The person image is an image in which the sub-subject is a subject.
  • the person image includes a whole image or a gaze image.
  • the scene information is presentation object-related action information indicating an action performed by a main subject of the seminar in relation to the presentation object presented in the seminar, and the constituent image corresponding to the scene information is the presentation object. Including the presentation object image, The information processing device according to (7) above.
  • the presentation object-related behavior information is information indicating an explanation of the presentation object by the main subject.
  • the presented object-related action information is information indicating a board writing by the main subject.
  • the presented object image includes a descriptive image containing information about the description in the board.
  • the description image is an image showing a description extraction result obtained by extracting a description from one or a plurality of captured images.
  • the display control is It is a control for determining the display arrangement in the display image of the constituent image which is an image constituting at least a part of the display image based on the scene information.
  • the display control is It is a control for determining the number of constituent images which are images constituting at least a part of the displayed image based on the scene information.
  • the number of the constituent images is plural,
  • the display arrangement is a parallel arrangement or a superimposition arrangement.
  • the scene information includes information indicating the posture direction of the person in a person image including the person as a subject in the constituent images.
  • the display control is It is a control for determining the display arrangement of the first constituent image in the displayed image based on the posture direction of the person in the person image which is the first constituent image which is one of the plurality of constituent images.
  • the information processing device according to (19) above.
  • the display control is The posture direction of the person in the person image which is the first constituent image corresponds to the positional relationship of the center of the second constituent image with respect to the position of the center of the first constituent image in the display image.
  • the control unit associates the display control information with one or more captured images.
  • the control unit generates the display image based on the display control information.
  • (26) Generate display control information, which is information related to display control of the display image corresponding to the scene information indicating the seminar scene. An information processing method in which a computer executes processing.
  • (27) Generate display control information, which is information related to display control of the display image corresponding to the scene information indicating the seminar scene.
  • Imaging device 200
  • Input device 300, 300A, 300B, 300C, 300D
  • Information processing device 310
  • Communication unit 320
  • Storage unit 330
  • Control unit 331
  • Attitude estimation unit 332
  • Tracking unit 333
  • Action recognition unit 334
  • Layout determination unit 335
  • Crop unit 336
  • Display image generation unit 337
  • Display device 500 Recording / playback device

Abstract

情報処理装置は、セミナーのシーンを示すシーン情報に対応する表示画像の表示制御に関する情報である表示制御情報を生成する制御部を備える。

Description

情報処理装置、情報処理方法、および情報処理プログラム
 本開示は、情報処理装置、情報処理方法、および情報処理プログラムに関する。
 セミナーなどのプレゼンテーションの様子を撮影し、講演者の映像と、プレゼンテーションの資料とを含む映像を生成する技術が知られている。
 例えば、特許文献1には、資料を説明する人物の位置に応じて、人物と資料とを含む映像のレイアウトを変更する技術が開示されている。
特開2014-175941号公報
 セミナーのシーンに応じた適切な映像を生成することが望まれている。
 そこで、本開示では、セミナーのシーンに応じた適切な映像を生成することのできる情報処理装置、情報処理方法、および情報処理プログラムを提案する。
 本開示に係る一態様の情報処理装置は、セミナーのシーンを示すシーン情報に対応する表示画像の表示制御に関する情報である表示制御情報を生成する制御部を備える。
実施形態に係る情報処理システムの概要を説明するための図である。 実施形態に係る情報処理装置の構成の一例を示すブロック図である。 姿勢推定部が姿勢を推定する人物を説明するための図である。 姿勢推定部が人物の姿勢を推定する方法を説明するための図である。 姿勢推定部が人物の顔の表情を推定する方法を説明するための図である。 クロップ部の切り出し処理を説明するための図である。 サイドバイサイド配置の第1の例を説明するための図である。 サイドバイサイド配置の第2の例を説明するための図である。 ピクチャインピクチャ配置の表示画像の第1の例を説明するための図である。 ピクチャインピクチャ配置の表示画像の第2の例を説明するための図である。 ピクチャインピクチャ配置の表示画像の第3の例を説明するための図である。 ピクチャインピクチャ配置の表示画像の第4の例を説明するための図である。 抽出配置の表示画像の第1の例を説明するための図である。 抽出配置の表示画像の第2の例を説明するための図である。 透過配置の一例を説明するための図である。 第1実施形態に係る情報処理装置の処理の流れの一例を示すフローチャートである。 第2実施形態に係る情報処理装置の構成を示すブロック図である。 第2実施形態に係る情報処理装置の処理の流れの一例を示すフローチャートである。 第3実施形態に係る情報処理装置の構成を示すブロック図である。 主要被写体が歩いていると判定された場合の表示画像のレイアウトを説明するための図である。 第3実施形態に係る情報処理装置の処理の流れの一例を示すフローチャートである。 第4実施形態に係る情報処理装置の構成を示すブロック図である。 質疑応答が行われていると判定された場合の表示画像のレイアウトを説明するための図である。 第4実施形態に係る情報処理装置の処理の流れの一例を示す図である。 第4実施形態に係る表示画像のレイアウトの第1の変形例を示す図である。 第4実施形態に係る表示画像のレイアウトの第2の変形例を示す図である。 第4実施形態に係る表示画像のレイアウトの第3の変形例を示す図である。 第4実施形態に係る表示画像のレイアウトの第4の変形例を示す図である。 第4実施形態に係る表示画像のレイアウトの第5の変形例を示す図である。 第4実施形態に係る情報処理装置の処理の変形例の流れの一例を示すフローチャートである。 第5実施形態に係る情報処理装置の構成を示すブロック図である。 情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
 以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。
 なお、説明は以下の順序で行うものとする。
  1.第1実施形態
   1-1.概要
   1-2.情報処理装置の構成
   1-3.レイアウトの決定
    1-3-1.質疑応答シーン
    1-3-2.質問シーン
    1-3-3.資料切り替えシーン
    1-3-4.板書シーン
    1-3-5.説明シーン
   1-4.表示画像のレイアウト
    1-4-1.サイドバイサイド配置
    1-4-2.ピクチャインピクチャ配置
    1-4-3.抽出配置
    1-4-4.透過配置
    1-4-5.単一配置
   1-5.情報処理装置の処理
  2.第2実施形態
   2-1.情報処理装置の構成
   2-2.情報処理装置の処理
  3.第3実施形態
   3-1.情報処理装置の構成
   3-2.情報処理装置の処理
  4.第4実施形態
   4-1.情報処理装置の構成
   4-2.情報処理装置の処理
   4-3.レイアウトの変形例
   4-4.情報処理装置の処理の変形例
  5.第5実施形態
   5-1.情報処理装置の構成
  6.ハードウェア構成
  7.効果
<1.第1実施形態>
[1-1.概要]
 図1を用いて、実施形態に係る情報処理システムの概要について説明する。図1は、実施形態に係る情報処理システムの概要を説明するための図である。
 図1に示すように、情報処理システム1は、撮像装置100と、入力装置200と、情報処理装置300と、表示装置400と、記録再生装置500と、を含む。撮像装置100と、入力装置200と、情報処理装置300と、表示装置400と、記録再生装置500とは、それぞれ、HDMI(High-Definition Multimedia Interface)(登録商標)およびSDI(Serial Digital Interface)などで直接接続されてよい。撮像装置100と、入力装置200と、情報処理装置300と、表示装置400と、記録再生装置500とは、それぞれ、有線又は無線のネットワークを介して接続されてもよい。情報処理システム1は、セミナーの様子を撮像し、リアルタイムで配信したり、記録再生装置500に記録したりする。本開示において、セミナーとは、各種の講演、授業、トークショー、研修などを含む。
 撮像装置100は、セミナーの会場に配置されており、セミナーの様子を撮像する。撮像装置100は、例えば、セミナーの会場の全体を撮像する俯瞰カメラで実現される。撮像装置100は、例えば、複数のカメラで構成され、複数のカメラでセミナー会場の全体を撮像する構成であってもよい。撮像装置100は、4Kまたは8Kなどの高解像度の映像を撮像するカメラであってもよい。撮像装置100には、マイクロフォンが設けられ、セミナーの会場の音声を収音する。撮像装置100は、主要被写体10と、提示オブジェクト20と、副被写体30と、を撮像する。主要被写体10は、セミナーが講演および授業などである場合には、講演者、登壇者、講師などである。主要被写体10は、セミナーがトークショーなどである場合には、司会者、主催者、発言者、主賓者などである。提示オブジェクト20は、主要被写体10により提示されるオブジェクトである。提示オブジェクト20は、例えば、プロジェクタなどでスクリーンに投影されたセミナーに関する資料である。提示オブジェクト20は、例えば、主要被写体10が板書可能な黒板、ホワイトボード、タッチパネルに記載された板書による記述であってもよい。副被写体30は、セミナーを受講する生徒、参加者、聴講者などである。撮像装置100は、主要被写体10、提示オブジェクト20、および副被写体30の撮像画像を情報処理装置300に出力する。
 入力装置200は、セミナーで使用される提示オブジェクト20に関する情報を情報処理装置300に出力する。入力装置200は、例えば、主要被写体10がセミナーで使用する資料が保存されたPC(Personal Computer)などである。入力装置200は、例えば、セミナーで資料を投影するプロジェクタなどであってもよい。
 情報処理装置300は、撮像装置100から受けた撮像画像に基づいて、セミナーのシーンを判定する。情報処理装置300は、撮像装置100から受けた撮像画像と、入力装置200から受けた撮像画像とに基づいて、セミナーのシーンを判定する。情報処理装置300は、セミナーのシーンを示すシーン情報を生成する。情報処理装置300は、シーン情報に対応する表示画像の表示制御に関する情報である表示制御情報を生成する。ここで、表示制御情報は、セミナーのシーンを示すシーン情報に対応する表示画像の表示制御に関する情報である。言い換えれば、表示制御情報は、シーン情報に対応する表示画像の表示制御を行うために生成される情報である。表示制御情報は、姿勢推定情報、シーン情報、追尾結果に関する情報、レイアウト情報を含む。各種情報についてはのちに詳述する。表示制御情報は、表示画像の表示制御を行うために用いられる情報であれば、その他の情報を含んでもよい。具体的には、情報処理装置300は、セミナーのシーンに応じて、表示装置400に表示させるための表示画像を生成する。情報処理装置300は、生成した表示画像を表示装置400と、記録再生装置500とに出力する。
 表示装置400は、各種の画像を表示する。表示装置400は、情報処理装置300から受けた表示画像を表示する。ユーザは、表示画像を視聴することで、セミナーの内容を把握することができる。表示装置400は、例えば、液晶ディスプレイ(LCD:Liquid Crystal Display)または有機EL(Organic Electro-Luminescence)ディスプレイなどを含むディスプレイで構成される。
 記録再生装置500は、各種の映像を記録する。記録再生装置500は、情報処理装置300から受けた表示画像を記録する。ユーザは、記録再生装置500に記録された表示画像を再生することで、表示装置400に表示することができる。これにより、ユーザは、セミナーの内容を把握することができる。
[1-2.情報処理装置の構成]
 図2を用いて、実施形態に係る情報処理装置の構成について説明する。図2は、実施形態に係る情報処理装置の構成の一例を示す図である。
 図2に示すように、情報処理装置300は、通信部310と、記憶部320と、制御部330と、を含む。
 通信部310は、情報処理装置300と、外部の装置との間で信号を入出力する通信回路である。通信部310は、撮像装置100から撮像画像を受ける。通信部310は、入力装置200からセミナーの資料に関する情報を受ける。通信部310は、表示装置400および記録再生装置500に情報処理装置300が生成した表示画像を出力する。
 記憶部320は、各種のデータを記憶する。記憶部320は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)などの半導体メモリ素子、またはハードディスク、ソリッドステートドライブなどの記憶装置で実現することができる。
 制御部330は、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、またはGPU(Graphics Processing Unit)等によって、図示しない記憶部に記憶されたプログラム(例えば、本開示に係る情報処理プログラム)がRAM等を作業領域として実行されることにより実現される。制御部330は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。制御部330は、ハードウェアと、ソフトウェアとの組み合わせで実現されてもよい。
 制御部330は、姿勢推定部331と、追尾部332と、行動認識部333と、レイアウト決定部334と、クロップ部335と、表示画像生成部336と、を含む。
 姿勢推定部331は、撮像装置100から受けた撮像画像に含まれる人物の姿勢を推定する。人物の姿勢は、骨格情報を含む。具体的には、姿勢推定部331は、骨格情報に含まれる各関節部と、各骨部との位置に基づいて、人物の姿勢を推定する。
 図3は、姿勢推定部331が姿勢を推定する人物を説明するための図である。図3には、撮像装置100がセミナーの様子を撮像した撮像画像IM1が示されている。撮像画像IM1には、主要被写体10と、複数の副被写体30と、を含む。図3においては、主要被写体10はセミナーの講演者、副被写体30はセミナーの受講者である。姿勢推定部331は、主要被写体10の姿勢を推定する。姿勢推定部331は、副被写体30の姿勢を推定する。姿勢推定部331は、複数の副被写体30のうちの、1人の姿勢を推定してもよいし、全員の姿勢を推定してもよい。姿勢推定部331は、主要被写体10の姿勢を推定するために、主要被写体10の骨格を示す骨格情報11を推定する。姿勢推定部331は、副被写体30の姿勢を推定するために、副被写体30の骨格を示す骨格情報31を推定する。
 図4は、姿勢推定部331が人物の姿勢を推定する方法を説明するための図である。図4には、人物の骨格情報を示す骨格モデルM1が示されている。姿勢推定部331は、主要被写体10の骨格情報11および副被写体30の骨格情報31を、図4に示すような骨格モデルM1として推定する。
 骨格モデルM1には、関節部J1~関節部J18と、各関節部を繋ぐ骨部B1~B13と、を含む。関節部J1と、関節部J2とは、人物の首に対応している。関節部J3~関節部J5は、人物の右腕に対応している。関節部J6~関節部J8は、人物の左腕に対応している。関節部J9~関節部J11は、人物の右足に対応している。関節部J12~関節部J14は、人物の左足に対応している。関節部J15~関節部J18は、人物の頭部に対応している。
 姿勢推定部331は、図4に示したように、主要被写体10および副被写体30の各関節部の位置および各骨部の位置を推定する。姿勢推定部331は、各関節部の位置および各骨部の位置に基づいて、主要被写体10および副被写体30の姿勢を推定する。姿勢推定部331は、主要被写体10および副被写体30の推定された姿勢に関する姿勢推定情報を追尾部332に出力する。姿勢推定部331は、主要被写体10および副被写体30の顔の表情を推定してもよい。
 図5は、姿勢推定部331が人物の顔の表情を推定する方法を説明するための図である。図5には、人物の顔を示す顔モデルM2が示されている。顔モデルM2には、顔の輪郭の特徴点F1~特徴点F10が含まれる。顔モデルM2には、右眉の特徴点BR1~特徴点BR6が含まれる。顔モデルM2には、左眉の特徴点BL1~特徴点BL6が含まれる。顔モデルM2には、右目の輪郭の特徴点ER1~特徴点ER6と、右目の特徴点PRと、が含まれる。顔モデルM2には、左目の輪郭の特徴点EL1~特徴点EL6と、左目の特徴点PLと、が含まれる。顔モデルM2には、鼻の特徴点N1~特徴点N5が含まれる。顔モデルM2には、口の特徴点M1~特徴点M9が含まれる。
 姿勢推定部331は、顔モデルM2に示したように、顔の輪郭と、右眉と、左眉と、右目の輪郭と、右目と、左目の輪郭と、左目と、口との各特徴点の位置や動きに基づいて、主要被写体10および副被写体30の表情を推定する。姿勢推定部331は、主要被写体10および副被写体30の推定された表情に関する表情推定データを、追尾部332に出力する。
 図2に戻る。追尾部332は、撮像装置100が撮像した撮像画像と、姿勢推定部331から姿勢推定情報とを受ける。追尾部332は、撮像画像に含まれる主要被写体10および副被写体30を追尾する。具体的には、追尾部332は、主要被写体10および副被写体30が撮像画像のフレーム間をまたがって移動した場合に、フレーム間で移動した被写体を追尾する。これにより、撮像画像において、主要被写体10および副被写体30の個々が識別されたデータを得ることができる。追尾部332は、例えば、動体検出処理などの周知技術を用いて主要被写体10および副被写体30を追尾するようにすればよい。追尾部332は、主要被写体10および副被写体30の服の色を判定し、服の色に基づいて、主要被写体10および副被写体30を追尾してもよい。追尾部332は、姿勢推定部331から受けた姿勢推定情報のみを用いて、主要被写体10および副被写体30の動きを追尾してよい。追尾部332は、撮像装置100から受けた撮像画像のみを用いて、主要被写体10および副被写体30の動きを追尾してよい。追尾部332は、撮像画像と、姿勢推定情報との両方を用いて、主要被写体10および副被写体30の動きを追尾してよい。追尾部332は、追尾結果に関する情報を行動認識部333に出力する。
 追尾部332は、追尾対象となる主要被写体10および副被写体30の属性を付加してもよい。追尾部332は、例えば、主要被写体10の顔画像と、記憶部320に予め登録されている講師の顔画像とが一致した場合には、主要被写体10に対して追尾対象となる講師の属性を付加してもよい。追尾部332は、例えば、講師として判定された以外の人物に対して、受講者の属性を付加してよい。追尾対象は、撮像画像に基づいて、ユーザが設定するようにしてもよい。各属性は、撮像画像に基づいて、ユーザが設定するようにしてもよい。
 行動認識部333は、撮像装置100が撮像したセミナー撮像画像に基づいて、セミナーのシーンを判定する。行動認識部333は、シーンの判定結果に応じたシーン情報を生成する。行動認識部333は、セミナーのシーンとして、講師および受講者が姿勢方向を判定する。行動認識部333は、セミナーのシーンとして、講師が説明しているか否か、講師が歩いているか否か、資料を切り替えたか否か、スクリーンに投影されている資料をスライド送りしたか否か、板書しているか否か、質疑応答が行われている否かを判定する。行動認識部333は、判定されたシーンに関するシーン情報をレイアウト決定部334に出力する。
 レイアウト決定部334は、行動認識部333によるシーン情報の判定結果に基づいて、表示画像のレイアウトを決定する。レイアウト決定部334は、例えば、記憶部320に記憶された、シーン情報とレイアウトが対応付けられたテーブルに基づいて、表示画像のレイアウトを決定する。レイアウト決定部334は、シーン情報に基づいて、表示画像の少なくとも一部を構成する画像である構成画像を決定する。レイアウト決定部334は、表示画像のレイアウトを示すレイアウト情報を生成する。レイアウト情報には、構成画像を示す情報が含まれうる。
 本開示において、構成画像は、表示画像の少なくとも一部を構成する画像のことを意味する。言い換えれば、レイアウト決定部334は、1つまたは複数の構成画像から表示画像のレイアウトを決定する。構成画像は、セミナーにおいて、撮像装置100によって撮像された各種の画像を含む。具体的には、構成画像は、セミナーにおいて、撮像装置100によって撮像された主要被写体10を被写体とする画像、提示オブジェクト20を含む画像、および副被写体30を被写体とする画像を含む。主要被写体10または副被写体30の少なくとも一方を被写体とする画像は、人物画像とも呼ばれる。
 人物画像は、俯瞰画像である全体画像と、特定の人物をクローズアップした画像である注視画像を含む。具体的には、全体画像としては、主要被写体10を被写体として含む全体画像(主要被写体10を含む全体画像)と、副被写体30を被写体として含む全体画像(副被写体30を含む全体画像)がある。例えば、主要被写体10を含む全体画像は、主要被写体10と、副被写体30とを含む俯瞰画像である。主要被写体10を含む全体画像に含まれる副被写体30の人数に制限はない。主要被写体10を含む全体画像には、副被写体30が含まれていなくてもよい。副被写体30を含む全体画像は、複数の副被写体30を含む俯瞰画像である。副被写体30を含む全体画像は、副被写体30が1人のみの俯瞰画像であってもよい。
 注視画像としては、主要被写体10をクローズアップした画像、または、副被写体30をクローズアップした画像を含む。副被写体30をクローズアップした画像は、特定の副被写体30をクローズアップした画像である。提示オブジェクト20の画像は提示オブジェクト画像とも呼ばれる。提示オブジェクト画像はプロジェクタなどでスクリーンに投影されたセミナーに関する資料の画像を含む。提示オブジェクト画像は、黒板、ホワイトボード、タッチパネルに主要被写体10により記載された板書による記述に関する情報を含む記述画像を含む。記述画像は、黒板、ホワイトボード、タッチパネルの撮像画像を含む。記述画像は、黒板、ホワイトボード、タッチパネルの撮像画像から記述を抽出した記述結果を示す画像を含む。
 レイアウト決定部334は、シーン情報に基づいて、表示画像の少なくとも一部を構成する画像である構成画像の表示画像内での表示配置を決定する。レイアウト決定部334は、シーン情報に基づいて、表示画像の少なくとも一部を構成する画像である構成画像の数を決定する。レイアウト決定部334は、1つの構成画像をクローズアップした画像を表示画像のレイアウトとして決定する。例えば、レイアウト決定部334は、複数の構成画像を組み合わせて配置して、レイアウトを決定する。レイアウト決定部334は、構成画像の数が複数であるときは、レイアウトとして、並列配置または重畳配置のいずれかの配置を決定する。並列配列とは、複数の構成画像を、視聴者からみて上下または左右に並列に配置した配置を意味する。本開示では、2つの構成画像を左右に並列に配置したサイドバイサイド配置であるものとして説明するが、これは例示であり、構成画像の数および配置の方向を限定するものではない。重畳配置は、構成画像の少なくとも1部が互いに重畳している配置のことを意味する。重畳配置は、ピクチャインピクチャ配置、抽出配置、透過配置を含む。並列配置および重畳配置の具体例については後述する。レイアウト決定部334は、表示画像が複数の構成画像により構成されているときは、複数の構成画像の1つである人物画像(第1の表示画像)における人物の姿勢の方向に基づいて、人物画像の表示配置を決定する。レイアウト決定部334は、表示画像が少なくとも人物画像と、第2の構成画像により構成されているとき、人物画像における人物の姿勢の方向と、表示画像内における人物画像の中心の位置に対する第2の構成画像の中心の位置関係とが対応するように表示配置を決定する。ここで、第2の構成画像は、例えば、説明対象の提示オブジェクト20の画像である。レイアウト決定部334は、表示画像のレイアウトを示すレイアウト情報を生成する。レイアウト情報には、構成画像の数、構成画像の配置を示す情報が含まれうる。すなわち、レイアウト情報には、表示画像を生成するための各種の情報が含まれうる。
 レイアウト決定部334は、表示画像を生成するための撮像画像における切り出し位置を特定する。レイアウト決定部334は、例えば、撮像装置100から撮像画像を受けた場合に、その撮像画像から複数の切り出し位置を特定し、特定した複数の切り出し位置の中から、構成画像に対応する切り出し位置を特定してもよい。レイアウト決定部334は、例えば、複数の撮像装置100からそれぞれ撮像画像を受けた場合には、複数の撮像画像の中から、構成画像を選択してもよい。レイアウト決定部334は、例えば、複数の撮像装置100からそれぞれ撮像画像を受けた場合には、複数の撮像画像の中から選択した撮像画像から切り出し位置を決定し、切り出し位置に対応する画像を構成画像としてもよい。レイアウト決定部334が生成するレイアウト情報には、切り出し位置を示す情報が含まれてもよい。
 クロップ部335は、撮像装置100が撮像した撮像画像から所定の領域の切り出す処理を実行する。クロップ部335は、レイアウト決定部334から受けたレイアウト情報に基づいて、撮像画像から所定の領域の画像を切り出す処理を実行する。クロップ部335は、撮像画像から所定の領域の画像を切り出すことで、切り出し画像を生成する。クロップ部335は、切り出し画像を表示画像生成部336に出力する。
 図6は、クロップ部335の切り出し処理を説明するための図である。図6に示すようにクロップ部335は、レイアウト決定部334から受けたレイアウト情報に基づいて、撮像画像IM1から領域Rの画像を切り出す処理を実行する。クロップ部335は、撮像画像IM1から領域Rの画像を切り出した、切り出し画像50を生成する。クロップ部335は、生成した切り出し画像50を表示画像生成部336に出力する。
 表示画像生成部336は、入力装置200から受けた資料と、クロップ部335から受けた画像とを合成して、表示画像を生成する。表示画像生成部336は、レイアウト決定部334から受けたレイアウト情報に基づいて、表示画像を生成する。表示画像生成部336は、表示画像を生成する際に、切り出し画像および資料の少なくとも一部に対して、拡大処理および縮小処理などを実行して、表示画像を生成してもよい。表示画像生成部336は、表示画像を生成する際に、表示画像に効果をつけてもよい。例えば、表示画像生成部336は、生成した表示画像に対して、資料が動く、資料にエフェクトをかける、フェードアウトするなどの効果をつけてよい。表示画像生成部336は、資料および切り出し画像などを単独または加工して、表示画像として出力してよい。
[1-3.レイアウトの決定]
 次に、セミナーのシーンに応じて、表示画像のレイアウトを決定する方法について説明する。例えば、セミナーのシーンとしては、「質疑応答シーン」、「歩行シーン」、「資料切り替えシーン」、「板書シーン」、「説明シーン」といったシーンが例示される。シーンを示すシーン情報は主要被写体10の行動を示す主要被写体行動情報である。主要被写体行動情報には、各種のシーン情報が含まれる。「質疑応答シーン」、「歩行シーン」、「資料切り替えシーン」、「板書シーン」、「説明シーン」といったシーンを示す情報が、本開示に係るシーン情報の一例となる。主要被写体行動情報は、セミナーにおいて提示される提示オブジェクト20に関連して主要被写体10が行う行動を示す提示オブジェクト関連行動情報を含む。ここで、提示オブジェクト関連行動情報は、種々のシーンのうち「資料切り替えシーン」、「板書シーン」、「説明シーン」といったシーンを示す情報、が含まれる。言い換えれば、提示オブジェクト関連行動情報は、主要被写体10が提示オブジェクト20を用いた行動に関するシーン情報であれば、特に制限はない。シーン情報には、主要被写体10または副被写体30の姿勢方向を示す情報が含まれる。
(1-3-1.質疑応答シーン)
 「質疑応答シーン」は、講師と受講者との間で質疑応答が行われているシーンを意味する。すなわち、「質疑応答シーン」に対応するシーン情報は質疑応答を示す情報である。「質疑応答シーン」の表示画像のレイアウトとしては、主要被写体10である講師を含む全体画像である「講師を含む俯瞰画像の単一配置」、副被写体30である受講者の全体画像である「受講者の俯瞰画像の単一配置」、「受講者のクローズアップ画像の単一配置」、「受講者のクローズアップ画像と講師の画像との並列配置」、および「受講者のクローズアップ画像と講師の画像との重畳配置」が例示される。すなわち、「質疑応答シーン」の表示画像の構成画像には、副被写体30である受講者を被写体とする画像が含まれる。
 「講師を含む俯瞰画像の単一配置」は、講師を含む俯瞰画像をのみを構成画像とするレイアウトである。「受講者の俯瞰画像の単一配置」は、少なくとも受講者を含む俯瞰画像を意味する。「受講者のクローズアップ画像の単一配置」は、受講者のクローズアップの画像の単一配置を意味する。「受講者のクローズアップ画像と講師の画像との並列配置」は、受講者のクローズアップの画像と、講師の画像とを並列配置で表示した画像のレイアウトを意味する。「受講者のクローズアップ画像と講師の画像との重畳配置」は、受講者のクローズアップの画像と、講師の画像とを重畳配置で表示した画像のレイアウトを意味する。
 レイアウト決定部334は、セミナーのシーンが「質疑応答シーン」であると判定された場合には、「講師を含む俯瞰画像の単一配置」、「受講者の俯瞰画像の単一配置」、「受講者のクローズアップ画像の単一配置」、「受講者のクローズアップ画像と講師の画像との並列配置」、および「受講者のクローズアップ画像と講師の画像との重畳配置」のいずれかのレイアウトを表示画像のレイアウトとして決定する。この場合、レイアウト決定部334は、「講師を含む俯瞰画像の単一配置」を主要なレイアウトとして決定する。そして、レイアウト決定部334は、状況に応じて、「受講者の俯瞰画像の単一配置」、「受講者のクローズアップ画像の単一配置」、「受講者のクローズアップ画像と講師の画像との並列配置」、および「受講者のクローズアップ画像と講師の画像との重畳配置」のレイアウトに切り替える。
(1-3-2.歩行シーン)
 「歩行シーン」は、講師がセミナーでの講演中に歩いているシーンを意味する。すなわち、「歩行シーン」を示すシーン情報は主要被写体10である講師の歩行に関する情報である。「歩行シーン」の表示画像のレイアウトとしては、「講師の追尾切り出し画像の単一配置」、「講師の俯瞰画像の単一配置」、および「講師を含む俯瞰画像の単一配置」が例示される。「講師の追尾切り出し画像の単一配置」は、講師をクローズアップした状態で追尾する画像のレイアウトを意味する。すなわち、「歩行シーン」の表示画像の構成画像には、主要被写体10である講師を被写体とする画像が含まれる。
 レイアウト決定部334は、セミナーのシーンが「歩行シーン」であると判定された場合には、「講師の追尾切り出し画像の単一配置」、「講師の俯瞰画像の単一配置」、または「講師を含む俯瞰画像の単一配置」のレイアウトを表示画像のレイアウトとして決定する。この場合、レイアウト決定部334は、「講師の追尾切り出し画像」を主要なレイアウトして決定する。そして、レイアウト決定部334は、状況に応じて、「講師の俯瞰画像の単一配置」または「講師を含む俯瞰画像の単一配置」のレイアウトに切り替える。
(1-3-3.資料切り替えシーン)
 「資料切り替えシーン」は、講師によりセミナーの講演で受講者に提示される提示オブジェクト20である資料を切り替えたシーンを意味する。すなわち、「資料切り替えシーン」を示すシーン情報は提示オブジェクト関連行動情報に含まれる、主要被写体10による資料の切り替えを示す情報である。ここで、「資料切り替えシーン」は、提示資料であるスライド送りを行うシーンも含まれる。「資料切り替えシーンの表示画像のレイアウトとしては、「提示オブジェクト画像の単一配置」が例示される。特に、提示オブジェクト画像は提示されている資料の画像である。
 「提示オブジェクト画像の単一配置」は、提示オブジェクト画像を表示画面の全面に表示するレイアウトを意味する。レイアウト決定部334は、セミナーのシーンが「資料切り替えシーン」であると判定された場合には、「提示オブジェクト画像の単一配置」を表示画像のレイアウトとして決定する。
(1-3-4.板書シーン)
 「板書シーン」は、セミナーで講師が黒板やホワイトボードなどの筆記対象に筆記しているシーンを意味する。すなわち、「板書シーン」を示すシーン情報は提示オブジェクト関連行動情報に含まれる、主要被写体10による板書を示す情報である。「板書シーン」の表示画像のレイアウトとしては、「記述画像と講師の画像との並列配置」、「記述画像と講師の画像との重畳配置」、「記述画像の単一配置」がある。「記述画像と講師の画像との重畳配置」として、「記述画像と講師の画像とのピクチャインピクチャ配置」、「講師を抽出して記述画像に重畳させる、講師の画像と記述画像の抽出配置」、および「講師を透過させて記述画像に重畳させる、透過配置」が例示される。すなわち、「板書シーン」の表示画像の構成画像には、記述画像が含まれる。記述画像は板書抽出結果を示す画像であってもよい。
 「記述画像と講師の画像との並列配置」は、記述画像と、講師の画像とを並列配置で表示した画像のレイアウトを意味する。「記述画像と講師の画像との重畳配置」は、記述画像と、講師の画像とをピ重畳配置で表示した画像のレイアウトを意味する。「記述画像の単一配置」は、記述画像を表示画面の全面に単一で表示するレイアウトを意味する。「講師を抽出して記述画像に重畳させる、講師の画像と記述画像の抽出配置」は、記述画像に、講師を重畳させた画像のレイアウトを意味する。「講師を透過させて記述画像に重畳させる、透過配置」は、記述画像に、講師を透過して重畳させた画像のレイアウトを意味する。
 レイアウト決定部334、セミナーのシーンが「板書シーン」であると判定された場合、「記述画像と講師の画像とのサイドバイサイド配置」、「記述画像と講師の画像とのピクチャインピクチャ配置」、「記述画像の単一配置」、「講師を抽出して記述画像に重畳させる、講師の画像と記述画像の抽出配置」、および「講師を透過させて板書抽出結果に重畳させる、透過配置」のいずれかのレイアウトを、表示画面のレイアウトとして決定する。この場合、レイアウト決定部334は、「講師を透過させて記述画像に重畳させる、透過配置」を主要なレイアウトとして決定する。そして、レイアウト決定部334は、状況に応じて、「記述画像と講師の画像とのサイドバイサイド配置」、「記述画像と講師の画像とのピクチャインピクチャ配置」、「記述画像の単一配置」、および「講師を抽出して記述画像に重畳させる、講師の画像と記述画像の抽出配置」のいずれかのレイアウトに切り替える。
(1-3-5.説明シーン)
 「説明シーン」は、セミナーで講師が提示オブジェクト20の説明をしているシーンを意味する。すなわち、「説明シーン」を示すシーン情報は、提示オブジェクト関連行動情報に含まれる、主要被写体10による提示オブジェクト20の説明を示す情報である。「説明シーン」の表示画像のレイアウトとしては、「記述画像と講師の画像との並列配置」、「記述画像と講師の画像との重畳配置」、「記述画像の単一配置」がある。「記述画像と講師の画像との重畳配置」として、「記述画像と講師の画像とのピクチャインピクチャ配置」、「講師を抽出して記述画像に重畳させる、講師の画像と記述画像の抽出配置」、「講師を透過させて記述画像に重畳させる、透過配置」が例示される。「記述画像の単一配置」として、資料または板書の記述画像を全画面に表示する「記述画像の単一配置」が例示される。すなわち、「説明シーン」の表示画像の構成画像には、提示オブジェクト画像、すなわち、資料または板書抽出結果を示す画像が含まれる。
 レイアウト決定部334は、セミナーのシーンが「説明シーン」であると判定された場合、「記述画像と講師の画像とのサイドバイサイド配置」、「記述画像と講師の画像とのピクチャインピクチャ配置」、「記述画像の単一配置」、「講師を記述画像に重畳させる、抽出配置」、および「講師を透過させて、記述画像に重畳させる、透過配置」のいずれかを表示画像のレイアウトとして決定する。この場合、レイアウト決定部334は、「記述画像と講師の画像とのサイドバイサイド配置」を主要なレイアウトとして決定する。そして、レイアウト決定部334は、状況に応じて、「記述画像と講師の画像とのピクチャインピクチャ配置」、「記述画像の単一配置」、「講師を抽出して記述画像に重畳させる、講師の画像と記述画像の抽出配置」、および「講師を透過させて資料や板書抽出結果に重畳させる、透過配置」のいずれかのレイアウトに切り替える。
 レイアウト決定部334は、例えば、姿勢推定部331により推定された表情推定データを用いて、レイアウトを決定してもよい。例えば、レイアウト決定部334は、表情推定データにより講師のテンションの上昇がみられたときは、講師をクローズアップして表示するレイアウトに決定してもよい。例えば、レイアウト決定部334は、表情推定データ委より講師の低下がみられたときは、講師を俯瞰する表示や、資料を全画面に表示するレイアウトに決定してもよい。例えば、レイアウト決定部334は、セミナーの受講者がセミナーに集中していることがみられたときは、その受講者を含む受講者たちの俯瞰映像を表示するレイアウトに決定してもよい。例えば、レイアウト決定部334は、セミナーの受講者が驚いていることがみられたときは、その受講者をクローズアップして表示するレイアウトに決定してもよい。
[1-4.表示画像のレイアウト]
 次に、本開示に係る表示画像のレイアウトについて説明する。本開示おいて表示画像のレイアウトは、並列配置と、重畳配置と、記述画像の単一配置とがある。並列配置は、サイドバイサイド配置を含む。重畳配置は、ピクチャインピクチャ配置と、抽出配置と、透過配置と、記述画像の単一配置とについて説明する。
(1-4-1.サイドバイサイド配置)
 サイドバイサイド配置は、2つの構成画像を左右に並べて配置するレイアウトである。図7Aと、図7Bとは、サイドバイサイド配置の表示画像を示している。
 図7Aは、サイドバイサイド配置の第1の例を説明するための図である。表示画像40は、第1画像表示領域41と、第2画像表示領域42と、を含む。第1画像表示領域41には、主要被写体10の画像が表示される。
 図7Bは、サイドバイサイド配置の第2の例を説明するための図である。表示画像40Aは、第1画像表示領域41Aと、第2画像表示領域42Aと、を含む。第1画像表示領域41Aには、主要被写体10の画像が表示される。
(1-4-2.ピクチャインピクチャ配置)
 ピクチャインピクチャ配置は、複数の画像を重畳して配置する配置方法である。具体的には、ピクチャインピクチャ配置は、例えば、表示画面の全体に表示される第1画像のうち、部分的な領域に第2画像を重畳させる配置である。この場合、第2画像を重畳させる位置に特に制限なく、例えば、第1画像の中心の領域に第2画像を重畳させてもよいし、第1画像の4隅のいずれかに第2画像を重畳させてもよい。また、第1画像に対して、第3画像、第4画像、・・・、といった複数の画像を重畳させてもよい。以下では、ピクチャインピクチャ配置の例として、第1画像の4隅のいずれかに第2画像を配置させる例を説明する。
 図8Aと、図8Bと、図8Cと、図8Dは、ピクチャインピクチャ配置の表示画像を示している。
 図8Aは、ピクチャインピクチャ配置の表示画像の第1の例を説明するための図である。表示画像40Bは、第1画像表示領域41Bと、第2画像表示領域42Bと、を含む。第1画像表示領域41Bには、主要被写体10の画像が表示される。第2画像表示領域42Bには、セミナー時にスクリーンに投影された資料などが表示される。すなわち、レイアウト決定部334は、資料の映像が表示画面の全体に表示され、左上隅に主要被写体10が表示されるピクチャインピクチャ配置のレイアウトに決定してよい。
 図8Bは、ピクチャインピクチャ配置の表示画像の第2の例を説明するための図である。表示画像40Cは、第1画像表示領域41Cと、第2画像表示領域42Cと、を含む。第1画像表示領域41Cには、主要被写体10の画像が表示される。第2画像表示領域42Cには、セミナー時にスクリーンに投影された資料などが表示される。すなわち、レイアウト決定部334は、資料の映像が表示画面の全体に表示され、右上隅に主要被写体10が表示されるピクチャインピクチャ配置のレイアウトに決定してよい。
 図8Cは、ピクチャインピクチャ配置の表示画像の第3の例を説明するための図である。表示画像40Dは、第1画像表示領域41Dと、第2画像表示領域42Dと、を含む。第1画像表示領域41Dには、主要被写体10の画像が表示される。第2画像表示領域42Dには、セミナー時にスクリーンに投影された資料などが表示される。すなわち、レイアウト決定部334は、資料の映像が表示画面の全体に表示され、左下隅に主要被写体10が表示されるピクチャインピクチャ配置のレイアウトに決定してよい。
 図8Dは、ピクチャインピクチャ配置の表示画像の第4の例を説明するための図である。表示画像40Eは、第1画像表示領域41Eと、第2画像表示領域42Eと、を含む。第1画像表示領域41Eには、主要被写体10の画像が表示される。第2画像表示領域42Eには、セミナー時にスクリーンに投影された資料などが表示される。すなわち、レイアウト決定部334は、資料の映像が表示画面の全体に表示され、右下隅に主要被写体10が表示されるピクチャインピクチャ配置のレイアウトに決定してよい。
 レイアウト決定部334は、ピクチャインピクチャ配置のレイアウトに決定する場合には、表示画面の全体に表示された資料うち、文字や図などが記載されていない箇所に主要被写体10の画像を表示させてもよい。
(1-4-3.抽出配置)
 レイアウト決定部334は、表示画像のレイアウトとして、提示オブジェクト20に主要被写体10の画像を抽出して重畳させる、抽出配置のレイアウトに決定してもよい。図9Aと、図9Bとは、透過配置の表示画像を示している。
 図9Aは、抽出配置の表示画像の第1の例を説明するための図である。表示画像40Fは、第2画像表示領域42Fを含む。表示画像40Fは、主要被写体10が表示される領域を含んでいない。表示画像40Fでは、主要被写体10は、第2画像表示領域42Fに重畳して表示される。この場合、撮像画像に基づいて、周知の人物抽出処理を用いて主要被写体10を抽出し、第2画像表示領域42Fに重畳させるようにすればよい。
 図9Bは、抽出配置の表示画像の第2の例を説明するための図である。表示画像40Gは、第2画像表示領域42Gを含む。表示画像40Gでは、主要被写体10は、縮小された状態で第2画像表示領域42Gに重畳して表示される。これにより、第2画像表示領域42Gの文字などが重畳された主要被写体10で隠れてしまうことが防止されるので、表示画像40Gを視認しやすくなる。
(1-4-4.透過配置)
 レイアウト決定部334は、表示画像のレイアウトとして、資料に主要被写体10の画像を透過するように重畳させる、透過配置のレイアウトに決定してもよい。図10は、透過配置の表示画像を示している。
 図10は、透過配置の一例を説明するための図である。表示画像40Hは、表示画像40Hは、第2画像表示領域42Hを含む。表示画像40Gでは、主要被写体10は、透過された状態で第2画像表示領域42Hに重畳して表示される。これにより、第2画像表示領域42Hの文字などが重畳された主要被写体10で隠れてしまうことが防止されるので、表示画像40Hを視認しやすくなる。
(1-4-5.単一配置)
 レイアウト決定部334は、表示画像のレイアウトとして、1つの構成画像を表示画像の全体に単一で表示するレイアウトとしてよい。例えば、提示オブジェクト画像を表示画面の全体に単一で表示する。この場合、表示画像には主要被写体10は表示されずに、提示オブジェクト20を全画面に表示するようにしてよい。また、例えば、主要被写体10または副被写体30を被写体として含む人物画像を表示画面の全体に単一で表示してもよい。この場合、主要被写体10の画像のみを含む単一配置でもよいし、副被写体30の画像のみを含む単一配置でもよい。また、主要被写体10と、副被写体30のみを含む単一配置でもよい。 
[1-5.情報処理装置の処理]
 図11を用いて、第1実施形態に係る情報処理装置の処理の流れについて説明する。図11は、第1実施形態に係る情報処理装置の処理の流れの一例を示すフローチャートである。
 図11に示すフローチャートは、主要被写体10である講師が、プロジェクタなどでスクリーンに投影された資料を用いて講演しているセミナーのシーンを判定し、シーンに応じた表示画像を生成する処理の流れを示している。
 制御部330は、講師の姿勢を推定する(ステップS10)。具体的には、姿勢推定部331は、撮像装置100が撮像した撮像画像に基づいて、講師の姿勢を推定する。
 制御部330は、追尾処理を実行する(ステップS11)。具体的には、追尾部332は、撮像装置100が撮像した撮像画像と、講師の姿勢の推定結果に基づいて、撮像画像のフレーム間において講師を追尾する。
 制御部330は、セミナーのシーンを判定する(ステップS12)。具体的には、行動認識部333は、撮像装置100が撮像した撮像画像に基づいて、シーンを判定する。
 制御部330は、セミナーのシーンに応じたレイアウトを決定する(ステップS13)。具体的には、レイアウト決定部334は、行動認識部333によるシーンの判定結果に基づいて、表示画面に表示させる表示画像のレイアウトを決定する。
 制御部330は、撮像画像に対して切り出し処理を実行する(ステップS14)。具体的には、クロップ部335は、レイアウト決定部334により決定されたレイアウトに基づいて、撮像画像に対して切り出し処理を実行して、切り出し画像を生成する。
 制御部330は、表示装置400に表示させるための表示画像を生成する(ステップS15)。具体的には、表示画像生成部336は、切り出し画像を用いて、レイアウト決定部334Cにより決定されたレイアウトに従って、表示画像を生成する。
 制御部330は、表示画像の生成処理が終了したか否かを判定する(ステップS16)。具体的には、制御部330は、セミナーが終了した場合や、ユーザによる生成処理を終了する旨の指示を受け付けた場合に、表示画像の生成処理が終了したと判定する。ステップS16でYesと判定された場合、図6の処理を終了する。一方、ステップS16でNoと判定された場合、ステップS10に進み、ステップS10~ステップS15の処理を繰り返す。
 上述のとおり、第1実施形態では、セミナーのシーンを判定し、シーンの判定結果に応じて、表示画像のレイアウトを決定する。これにより、第1実施形態は、セミナーのシーンに応じた適切な表示画像を生成することができる。
 なお、上述の実施形態では、表示装置400に表示させる表示画像を生成する処理の全てを情報処理装置300が単一で行っていたが、これは例示であり、本開示を限定するものではない。情報処理装置300は、姿勢推定部331、追尾部332、行動認識部333、レイアウト決定部334のいずれか1つを含む構成であってもよい。すなわち、本開示では、姿勢推定部331、追尾部332、行動認識部333、レイアウト決定部334とは複数の装置に分散して設けられてもよい。言い換えれば、本開示では、表示装置400に表示させる表示画像を生成する処理を複数の異なる装置で分散して行ってもよい。
<2.第2実施形態>
 次に、第2実施形態について説明する。講師がスクリーンに投影された資料を用いて講演において、講演の状況が変化することが想定される。例えば、講師がスクリーンに投影された資料を用いて説明する際に、講師の姿勢方向が視聴者から見て右を向いて説明している状況と、左を向いて説明している状況とが想定される。そこで、第2実施形態では、講師の姿勢方向に応じて適切な表示配置のレイアウトに変更する。
[2-1.情報処理装置の構成]
 図12を用いて、第2実施形態に係る情報処理装置の構成について説明する。図12は、第2実施形態に係る情報処理装置の構成を示すブロック図である。
 図12に示すように、情報処理装置300Aは、制御部330Aの行動認識部333Aと、レイアウト決定部334Aが実行する処理が、図2に示す情報処理装置300と、異なっている。
 行動認識部333Aは、主要被写体10または副被写体30の姿勢方向を特定する。姿勢方向とは人物の向いている方向である。行動認識部333Aは、追尾結果と姿勢推定情報を用いて、主要被写体10および副被写体30の各々が姿勢方向を特定する。追尾結果には、姿勢推定情報が含まれてもよい。行動認識部333Aは、ルールベースで主要被写体10および副被写体30の向いている方向を特定してもよい。ルールベースとしては、例えば、姿勢推定情報である骨格の関節部と骨部との状態と、姿勢方向とが予め対応付けられており、行動認識部333Aは、骨格の関節部と骨部との状態との推定結果に基づいて、主要被写体10および副被写体30が姿勢方向を特定してもよい。行動認識部333Aは、主要被写体10および副被写体30の全ての人物について姿勢方向を特定してもよいし、特定の人物のみの姿勢方向を特定してもよい。行動認識部333Aは、認識結果に関する情報をレイアウト決定部334に出力する。
 行動認識部333Aは、記憶部320に記憶されているデータを参照し、主要被写体10および副被写体30の姿勢方向を特定するための学習をニューラルネットワークによって行い、学習した結果から判定モデルを生成してよい。行動認識部333Aは、生成した判定モデルを用いて、主要被写体10および副被写体30の向いている方向を特定してよい。すなわち、行動認識部333Aは、機械学習を用いて、主要被写体10および副被写体30の姿勢方向を特定してもよい。この場合、行動認識部333Aは、追尾結果や姿勢推定情報を用いずに、人物の姿勢方向が各種の方向となっている映像を機械学習で学習することで、撮像装置100が撮像した撮像画像に基づいて、主要被写体10および副被写体30の姿勢方向を特定してもよい。本実施形態では、行動認識部333Aは、例えば、主要被写体10が視聴者からみて右を向いているか、または左を向いているかを特定する。
 レイアウト決定部334Aは、表示装置400に表示させる表示画像のレイアウトを決定する。レイアウト決定部334Aは、撮像装置100から受けた撮像画像と、入力装置200から受けた資料に関する情報(提示オブジェクト20)と、行動認識部333Aから受けた認識結果と、に基づいて、表示画像のレイアウトを決定する。レイアウト決定部334Aは、例えば、シーン情報に基づいて、表示画像の少なくとも一部を構成する画像である構成画像を決定する。レイアウト決定部334Aは、例えば、主要被写体10の姿勢方向に基づいて、表示装置400に表示させる表示画像のレイアウトを決定する。レイアウト決定部334Aは、表示画像が複数の構成画像により構成されているとき、複数の構成画像の1つである第1の構成画像である人物画像における人物の姿勢方向に基づいて、表示画像における第1の構成画像の表示配置を決定する。人物画像における人物が視聴者から見て右を向いているときは、人物画像を表示画像の中心が人物画像の中心よりも左側に配置するように配置する。レイアウト決定部334Aは、表示画像が、少なくとも第1の構成画像と第2の構成画像により構成されているとき、第1の構成画像である人物画像における人物の姿勢方向と、表示画像内における第1の構成画像の中心の位置に対する第2の構成画像の中心の位置関係とが対応するように表示配置を決定する制御である。具体的には、レイアウト決定部334Aは、第1の構成画像である人物の姿勢方向が第2の構成画像の中心を向くように表示配置を決定する。ここで、画像の中心は画像の重心であってもよい。
 レイアウト決定部334Aは、表示画像を生成するための撮像画像における切り出し位置を特定する。レイアウト決定部334Aは、例えば、撮像装置100から撮像画像を受けた場合に、その撮像画像から複数の切り出し位置を特定し、特定した複数の切り出し位置の中から、表示画像を特定してもよい。レイアウト決定部334Aは、例えば、複数の撮像装置100からそれぞれ撮像画像を受けた場合には、複数の撮像画像の中から、表示画像を選択してもよい。レイアウト決定部334は、決定したレイアウトに関するレイアウト情報を、切り出し位置に関する情報をクロップ部335と、表示画像生成部336とに出力する。
 レイアウト決定部334Aは、視聴者から見た主要被写体10の姿勢方向に応じて、表示配置を決定する。レイアウト決定部334Aは、表示配置として、例えば、並列配置および重畳配置のいずれかに配置に決定する。並列配置は、サイドバイサイド配置を含む。重畳配置は、ピクチャインピクチャ配置、抽出配置、および透過配置を含む。本開示では、レイアウト決定部334Aは、例えば、表示画像のレイアウトをサイドバイサイド配置に決定した場合には、視聴者から見た主要被写体10の姿勢方向に応じて、サイドバイサイド配置のレイアウトを変更する。
 レイアウト決定部334Aは、行動認識部333Aにより主要被写体10が視聴者から見て右を向いていると特定された場合、表示画像のレイアウトを図7Aに図示のサイドバイサイド配置のレイアウトに決定する。図7Aには、主要被写体10が視聴者から見て右を向いている場合の表示画像40が示されている。表示画像40は、第1画像表示領域41と、第2画像表示領域42と、を含む。第1画像表示領域41には、主要被写体10の画像が表示される。第2画像表示領域42には、セミナー時にスクリーンに投影された資料などが表示される。レイアウト決定部334は、主要被写体10が向かって右を向いている場合には、左側に主要被写体10が表示され、右側に資料が表示されるレイアウトに決定する。
 レイアウト決定部334Aは、行動認識部333Aにより主要被写体10が視聴者から見て左を向いていると特定された場合、表示画像のレイアウトを図7Bに図示のサイドバイサイド配置の表示画像のレイアウトを説明するための図である。図7Bには、主要被写体10が視聴者から見て左を向いている場合の表示画像40Aが示されている。表示画像40Aは、第1画像表示領域41Aと、第2画像表示領域42Aと、を含む。第1画像表示領域41Aには、主要被写体10の画像が表示される、第2画像表示領域42Aには、セミナー時にスクリーンに投影された資料などが表示される。レイアウト決定部334は、主要被写体10が視聴者から見て左を向いている場合には、左側に資料が表示され、右側に主要被写体10が表示されるレイアウトに決定する。
 すなわち、レイアウト決定部334は、主要被写体10と、資料との画像が隣接して並んだサイドバイサイド配置のレイアウトに決定する。図7Aおよび図7Bに示すようなサイドバイサイド配置の表示画像にすることで、主要被写体10の向きに資料の映像が位置することになるので、ユーザは、表示画像40および表示画像40Aを視認しやすくなる。
 レイアウト決定部334は、主要被写体10の向きが変わるごとに表示画像のレイアウトが変更されると、ユーザが表示画像を視認しづらくなることが想定されるので、表示画像のレイアウトが安定するような処理を実行してもよい。例えば、レイアウト決定部334は、主要被写体10が所定時間以上(例えば、5秒以上)同一の方向を向いている場合に、レイアウトを変更するようにしてもよい。
 レイアウト決定部334A、行動認識部333Aの誤検出などにより、表示画像のレイアウトが変更されると、ユーザが表示画像を視認しづらくなることが想定されるので、表示画像のレイアウトが安定するような処理を実行してもよい。例えば、レイアウト決定部334Aは、主要被写体10が所定時間以上(例えば、10秒以上)同一の方向を向いている場合に、レイアウトを変更するようにしてもよい。
[2-2.情報処理装置の処理]
 図13を用いて、第2実施形態に係る情報処理装置の処理の流れについて説明する。図13は、第2実施形態に係る情報処理装置の処理の流れの一例を示すフローチャートである。
 図13に示すフローチャートは、主要被写体10である講師がセミナーなどで、プロジェクタなどでスクリーンに投影された資料を用いて講演している様子の表示画像を生成する処理の流れを示している。なお、図13に示すフローチャートは、講師が板書をしながら説明する場合であっても、同様に適用することができる。
 制御部330Aは、講師の姿勢を推定する(ステップS20)。具体的には、姿勢推定部331は、撮像装置100が撮像した撮像画像に基づいて、講師の姿勢を推定する。
 制御部330Aは、追尾処理を実行する(ステップS21)。具体的には、追尾部332は、撮像装置100が撮像した撮像画像と、講師の姿勢の推定結果に基づいて、撮像画像のフレーム間において講師を追尾する。
 制御部330Aは、講師は視聴者から見て右を向いているか否かを判定する(ステップS22)。具体的には、行動認識部333Aは、講師の姿勢の推定結果に基づいて、講師は視聴者から見て右を向いていると判定された場合(ステップS22;Yes)、ステップS23に進む。一方、講師は視聴者から見て右を向いていないと判定された場合(ステップS22;No)、ステップS24に進む。
 ステップS22でYesと判定された場合、制御部330Aは、表示画像のレイアウトを第1レイアウトに決定する(ステップS23)。具体的には、レイアウト決定部334Aは、表示画像のレイアウトを、左側に講師、右側に資料が表示されるレイアウトに決定する。
 ステップS22でNoと判定された場合、制御部330Aは、表示画像のレイアウトを第2レイアウトに決定する(ステップS24)。具体的には、レイアウト決定部334Aは、表示画像のレイアウトを、左側に資料、右側に講師が表示されるレイアウトに決定する。
 制御部330Aは、撮像画像における切り出し位置を特定する(ステップS25)。具体的には、レイアウト決定部334Aは、表示画像に使用するための切り出し画像を生成するための、切り出し位置を特定する。
 制御部330Aは、撮像画像に対して切り出し処理を実行する(ステップS26)。具体的には、クロップ部335は、レイアウト決定部334Aによる切り出し位置の特定結果に基づいて、撮像画像に対して切り出し処理を実行して、切り出し画像を生成する。
 制御部330は、表示装置400に表示させるための表示画像を生成する(ステップS27)。具体的には、表示画像生成部336は、切り出し画像と、資料の画像とを、レイアウト決定部334Aにより決定されたレイアウトに従って、表示画像を生成する。
 制御部330Aは、表示画像の生成処理が終了したか否かを判定する(ステップS28)。具体的には、制御部330Aは、セミナーが終了した場合や、ユーザによる生成処理を終了する旨の指示を受け付けた場合に、表示画像の生成処理が終了したと判定する。ステップS28でYesと判定された場合、図9の処理を終了する。一方、ステップS28でNoと判定された場合、ステップS20に進み、ステップS20~ステップS27の処理を繰り返す。
 上述のとおりに、第1実施形態では、資料を用いて講演する講師の向きに応じて、講師と資料とを並べて表示するサイドバイサイド配置のレイアウトに変更することができる。これにより、第1実施形態は、講師の向きが変わっても、違和感のない表示画面を提供することができる。
<3.第3実施形態>
 次に、第3実施形態について説明する。講師がスクリーンに投影された資料を用いて講演において、講演の状況が変化することが想定される。例えば、講師が歩きながら説明している状況などでは、資料を用いずに説明している状況が想定される。このような場合に、表示画像に資料が含まれている場合、その資料とは関係のないことを説明している可能性がある。そこで、第2実施形態では、講師が歩きながら説明していると判定された場合には、表示画像のレイアウトを資料が含まれないような適切なレイアウトに変更する。
[3-1.情報処理装置の構成]
 図14を用いて、第3実施形態に係る情報処理装置の構成について説明する。図14は、第3実施形態に係る情報処理装置の構成を示すブロック図である。
 図14に示すように、情報処理装置300Bは、制御部330Bの行動認識部333Bと、レイアウト決定部334Bが実行する処理が、図2に示す情報処理装置300と、異なっている。
 行動認識部333Bは、主要被写体10および副被写体30の各々が歩いているか否かを判定する。行動認識部333Bは、追尾結果を用いて、主要被写体10および副被写体30が歩いているか否かを判定する。行動認識部333Bは、例えば、追尾結果を用いて、主要被写体10および副被写体30の各々の動きベクトルを算出し、歩行速度と判定される動きベクトルが算出された場合に、その人物は歩いていると判定する。歩行速度と判定される動きベクトルは、予め記憶部320に情報として記憶されていればよい。行動認識部333Bは、主要被写体10および副被写体30の全ての人物について歩いているか否かを判定してもよいし、特定の人物のみ歩いているか否かを判定してもよい。行動認識部333Bは、歩いているか否かを示す歩行情報をレイアウト決定部334Bに出力する。
 行動認識部333Bは、記憶部320に記憶されているデータを参照し、主要被写体10および副被写体30が歩いているか否かを判定するための学習をニューラルネットワークによって行い、学習した結果から判定モデルを生成してよい。行動認識部333Bは、生成した判定モデルを用いて、主要被写体10および副被写体30が歩いていることを特定してよい。すなわち、行動認識部333Bは、機械学習を用いて、主要被写体10および副被写体30が歩いていることを特定してもよい。この場合、行動認識部333Bは、追尾結果や姿勢推定情報を用いずに、人物が歩いている映像を機械学習で学習することで、撮像装置100が撮像した撮像画像に基づいて、主要被写体10および副被写体30が歩いているか否かを判定してよい。
 レイアウト決定部334Bは、表示装置400に表示させる表示画像のレイアウトを決定する。レイアウト決定部334Bは、主要被写体10が歩いているか否かに応じてレイアウトを変更する。レイアウト決定部334Bは、主要被写体10が歩いているか否かに応じて、適切な表示配置のレイアウトに変更する。レイアウト決定部334Bは、主要被写体10が歩いていると判定された場合には、表示画像のレイアウトを、主要被写体10をクローズアップした注視画像の単一配置に決定する。
 図15は、主要被写体10が歩いていると判定された場合の表示画像のレイアウトを説明するための図である。図15には、主要被写体10としての講師61を含む表示画像60が示されている。レイアウト決定部334Bは、行動認識部333Bによって、講師61が歩いていると判定された場合、講師61を含む領域62を特定する。レイアウト決定部334Bは、領域62の拡大映像62Aを表示装置400に表示させる表示映像のレイアウトとして決定する。レイアウト決定部334Bは、特定されて領域62の位置に関する情報をクロップ部335に出力する。
 レイアウト決定部334Bは、行動認識部333Bの誤検出などにより、表示画像のレイアウトが変更されると、ユーザが表示画像を視認しづらくなることが想定されるので、表示画像のレイアウトが安定するような処理を実行してもよい。例えば、レイアウト決定部334Bは、講師61が所定時間以上(例えば、3秒以上)歩いている場合に、レイアウトを変更するようにしてもよい。
[3-2.情報処理装置の処理]
 図16を用いて、第3実施形態に係る情報処理装置の処理の流れについて説明する。図16は、第3実施形態に係る情報処理装置の処理の流れの一例を示すフローチャートである。
 図16に示すフローチャートは、主要被写体10である講師がセミナーなどで、プロジェクタなどでスクリーンに投影された資料を用いて講演している様子の表示画像を生成する処理の流れを示している。なお、図16に示すフローチャートは、講師が板書をしながら説明する場合であっても、同様に適用することができる。
 ステップS30およびステップS31の処理は、図13に図示のステップS20およびステップS21の処理と同一の処理なので、説明を省略する。
 制御部330Bは、講師が歩いているか否かを判定する(ステップS32)。具体的には、行動認識部333Bは、姿勢推定情報に基づいて講師の動きベクトルを算出することで、講師が歩いているか否かを判定する。講師が歩いていると判定された場合(ステップS32;Yes)、ステップS33に進む。一方、講師が歩いていないと判定された場合(ステップS32;No)、ステップS37に進む。
 ステップS32でYesと判定された場合、制御部330Bは、表示画像のレイアウトを第3レイアウトに決定する(ステップS33)。具体的には、レイアウト決定部334Bは、表示画像のレイアウトを、講師61をクローズアップした注視画像の単一配置をレイアウトに決定する。
 制御部330Bは、撮像画像における切り出し位置を特定する(ステップS34)。具体的には、レイアウト決定部334Bは、切り出し画像を生成するための、切り出し位置を特定する。
 制御部330Bは、撮像画像に対して切り出し処理を実行する(ステップS35)。具体的には、クロップ部335は、レイアウト決定部334Bによる切り出し位置の特定結果に基づいて、撮像画像に対して切り出し処理を実行して、切り出し画像を生成する。
 制御部330Bは、表示装置400に表示させるための表示画像を生成する(ステップS36)。具体的には、表示画像生成部336は、切り出し画像を表示画像として生成する。
 ステップS37~ステップS43の処理は、それぞれ、図13に図示のステップS22~ステップS28の処理と同一なので、説明を省略する。
 上述のとおりに、第3実施形態では、講師が歩いているか否かに応じて、表示画面のレイアウトを変更することができる。これにより、第3実施形態は、講師が資料を用いずに歩きながら説明しているシーンであっても、違和感のない表示画面を提供することができる。
<4.第4実施形態>
 次に、第4実施形態について説明する。講師がスクリーンに投影された資料を用いて講演において、例えば、質疑応答が行われることが想定される。このような場合、講師と、質問者と、資料とを含むように表示画像を生成することが望ましいことがある。そこで、第4実施形態では、講演において質疑応答が行われていると判定された場合には、表示画像のレイアウトを講演者と、質問者と、を含む全体画像の単一配置に決定する。
[4-1.情報処理装置の構成]
 図17を用いて、第4実施形態に係る情報処理装置の構成について説明する。図17は、第4実施形態に係る情報処理装置の構成を示すブロック図である。
 図17に示すように、情報処理装置300Cは、制御部330Cの行動認識部333Cと、レイアウト決定部334Cが実行する処理が、図2に示す情報処理装置300と、異なっている。
 行動認識部333Cは、セミナーなどの講演において、質疑応答が行われているか否かを判定する。行動認識部333Cは、主要被写体10および副被写体30の撮像画像に基づいて、質疑応答が行われているか否かを判定する。行動認識部333Cは、例えば、主要被写体10が副被写体30に向かって指を指していたり、手を差し伸べていたりする動作を検出した場合に、質疑応答が行われていると判定する。行動認識部333Cは、例えば、主要被写体10が副被写体30の方を向いて、うなずいたり、首を縦又は横に振ったりしている動作を検出した場合には、主要被写体10が副被写体30の話を聞いている可能性が高いため、質疑応答が行われていると判定する。行動認識部333Cは、副被写体30の少なくとも1人が手を挙げていたり、起立していたりする動作を検出した場合に、質疑応答が行われていると判定する。
 行動認識部333Cは、記憶部320に記憶されているデータを参照し、質疑応答が行われているか否かを判定するための学習をニューラルネットワークによって行い、学習した結果から判定モデルを生成してよい。行動認識部333Cは、生成した判定モデルを用いて、質疑応答が行われているか否かを判定してよい。すなわち、行動認識部333Cは、機械学習を用いて、質疑応答が行われていることを特定してもよい。この場合、行動認識部333Cは、追尾結果や姿勢推定情報を用いずに、質疑応答が行われている映像を機械学習で学習することで、撮像装置100が撮像した撮像画像に基づいて、質疑応答が行われているか否かを判定してよい。
 レイアウト決定部334Cは、表示装置400に表示させる表示画像のレイアウトを決定する。レイアウト決定部334Cは、質疑応答が行われているか否かに応じてレイアウトを決定する。レイアウト決定部334Cは、質疑応答が行われている否かに応じて、適切な表示配置のレイアウトに変更する。レイアウト決定部334Cは、質疑応答が行われていると判定された場合には、表示装置400においては、主要被写体10と、副被写体30と、を含む俯瞰画像のみを構成画像とする表示画像とする。俯瞰画像は、全体画像と呼ぶこともある。
 図18は、質疑応答が行われていると判定された場合の表示画像のレイアウトを説明するための図である。図18には、主要被写体10としての講師71と、副被写体30としての受講者72と、を含む表示画像70が示されている。レイアウト決定部335Bは、行動認識部333Bによって、質疑応答が行われていると判定された場合には、講師71と、受講者72と、を含む構成画像のみで構成されている表示画像70のようなレイアウトを表示画像のレイアウトとして決定する。
 レイアウト決定部334Cは、行動認識部333Cの誤検出などにより、表示画像のレイアウトが変更されると、ユーザが表示画像を視認しづらくなることが想定されるので、表示画像のレイアウトが安定するような処理を実行してもよい。例えば、レイアウト決定部334Cは、講師71と、受講者72とが所定時間以上(例えば、10秒以上)会話をしていると判定された場合に、レイアウトを変更するようにしてもよい。
[4-2.情報処理装置の処理]
 図19を用いて、第4実施形態に係る情報処理装置の処理の流れについて説明する。図19は、第4実施形態に係る情報処理装置の処理の流れの一例を示す図である。
 図19に示すフローチャートは、主要被写体10である講師がセミナーなどで、プロジェクタなどでスクリーンに投影された資料を用いて講演している様子の表示画像を生成する処理の流れを示している。なお、図19に示すフローチャートは、講師が板書をしながら説明する場合であっても、同様に適用することができる。
 ステップS50およびステップS51の処理は、図13に図示のステップS20およびステップS21の処理と同一の処理なので、説明を省略する。
 制御部330Cは、質疑応答が行われているか否かを判定する(ステップS52)。具体的には、行動認識部333Cは、講師と受講者との撮像画像に基づいて、質疑応答が行われているか否かを判定する。質疑応答が行われていると判定された場合(ステップS52;Yes)、ステップS53に進む。質疑応答が行われていないと判定された場合(ステップS52;No)、ステップS57に進む。
 ステップS52でYesと判定された場合、制御部330Cは、表示画像のレイアウトを第4レイアウトに決定する(ステップS53)。具体的には、レイアウト決定部334Cは、講師と、受講者と、を含む俯瞰画像のみを構成画像とするレイアウトを表示画像のレイアウトとして決定する。
 制御部330Cは、撮像画像の全画面を切り出し画像として特定する(ステップS54)。具体的には、レイアウト決定部334Cは、俯瞰画像全体を切り出し位置として特定する。
 制御部330Cは、撮像画像に対して切り出し処理を実行する(ステップS55)。具体的には、クロップ部335は、レイアウト決定部334Cによる切り出し位置の特定結果に基づいて、撮像画像に対して切り出し処理を実行して、切り出し画像を生成する。
 制御部330Cは、表示装置400に表示させるための表示画像を生成する(ステップS56)。具体的には、表示画像生成部336は、切り出し画像を構成画像として表示画像を生成する。
 ステップS57~ステップS63の処理は、それぞれ、図13に図示のステップS22~ステップS28の処理と同一なので、説明を省略する。
 上述のとおり、第4実施形態は、質疑応答が行われているか否かに応じて、表示画像のレイアウトを変更することができる。これにより、第3実施形態は、セミナーにおいて質疑応答が行われた場合に、適切なレイアウトに変更することができる。
[4-3.レイアウトの変形例]
 次に、第4実施形態に係る表示画像のレイアウトの変形例について説明する。第4実施形態では、表示画像のレイアウトは、講師と、受講者と、スクリーンに投影された資料などを含む俯瞰レイアウトであるものとして説明したが、本開示はこれに限定されない。
 図20は、第3実施形態に係る表示画像のレイアウトの第1の変形例を示す図である。図20は、受講者の俯瞰画像(全体画像ともいう)を示している。
 表示画像70Aは、複数の受講者72を含む。レイアウト決定部334Cは、例えば、講師から受講者72に対して、質問が投げかけられた場合には、受講者72を俯瞰した画像である全体画像のみを構成画像とするレイアウトに決定してよい。これにより、講師の質問に対する受講者72に様子が把握しやすくなる。
 図21は、第4実施形態に係る表示画像のレイアウトの第2の変形例を示す図である。図21は、質問者のクローズアップした画像を示している。クローズアップした画像は、注視画像と呼ぶこともある。
 表示画像70Bは、受講者72を含む。表示画像70Bにおける受講者72は、講師と質疑応答をしている受講者である。受講者72は、例えば、講師と質疑応答している受講者である。レイアウト決定部334Cは、講師71と、受講者72との間で質疑応答が開始されたと判定された場合に、受講者72がクローズアップされた注視画像をレイアウトに決定してよい。これにより、質疑応答のおける受講者72に様子を把握しやすくなる。
 図22は、第4実施形態に係る表示画像のレイアウトの第3の変形例を示す図である。図22は、講師71をクローズアップした注視画像と受講者72をクローズアップした注視画像とのサイドバイサイド配置のレイアウトを示している。
 表示画像70Cは、第1画像表示領域74と、第1画像表示領域75と、を含む。第1画像表示領域74には、講師71の画像が表示される。講師71と、受講者72とは、質疑応答をしている。レイアウト決定部334Cは、講師71と、受講者72との間で質疑応答が開始されていると判定された場合に、講師71をクローズアップした注視画像と、受講者72をクローズアップした注視画像とが並んで表示された並列配置であるサイドバイサイド配置のレイアウトに決定してよい。レイアウト決定部334Cは、行動認識部333Cによる講師71および受講者72の少なくとも一方の姿勢方向の判定結果に応じて、表示画像のレイアウトを決定してよい。これにより、講師71と、受講者72との質疑応答の様子がより把握しやすくなる。
 図23は、第4実施形態に係る表示画像のレイアウトの第4の変形例を示す図である。図23は、講師71をクローズアップした注視画像と、受講者72をクローズアップした注視画像とのピクチャインピクチャ配置のレイアウトを示している。
 表示画像70Dは、第1画像表示領域74Aと、第1画像表示領域75Aと、を含む。第1画像表示領域74Aは、表示画像70Dにおいて、右下隅に位置している。第1画像表示領域74Aは、表示画像70Dにおいて、左上隅、右上隅、または左下隅に位置してもよい。第1画像表示領域74Aは、表示画像70Dの隅に限らず、例えば、表示画像70Dの中央部を含む任意の場所に位置してもよい。レイアウト決定部334Cは、行動認識部333Bによる講師71および受講者72の少なくとも一方の姿勢方向の判定結果に応じて、表示画像のレイアウトを決定してよい。第1画像表示領域74Aには、講師71をクローズアップした注視画像が表示される。第1画像表示領域75Aは、表示画像70Dの全体を占める。第1画像表示領域75には、受講者72をクローズアップした注視画像が表示される。これにより、講師71と、受講者72とが、質疑応答をしている際に、受講者72が発言していると判定された場合などに、講師71と、受講者72との質疑応答の様子がより把握しやすくなる。
 図24は、第4実施形態に係る表示画像のレイアウトの第5の変形例を示す図である。図24は、講師71をクローズアップした注視画像と、受講者72をクローズアップした注視画像との重畳配置であるピクチャインピクチャ配置のレイアウトを示している。
 表示画像70Eは、第1画像表示領域73Bと、第2画像表示領域75Bと、を含む。第1画像表示領域74Bは、表示画像70Eの全体を占める。第1画像表示領域74Bには、講師71をクローズアップした注視画像が表示される。第2画像表示領域75Bは、表示画像70Eにおいて、左下隅に位置している。第2画像表示領域75Bは、表示画像70Eにおいて、右上隅、左上隅、または右下隅に位置してもよい。第2画像表示領域75Bは、表示画像70Eの隅に限らず、例えば、表示画像70Eの中央部を含む任意の場所に位置してもよい。レイアウト決定部334Cは、行動認識部333Bによる講師71および受講者72の少なくとも一方の姿勢方向の判定結果に応じて、表示画像のレイアウトを決定してよい。第2画像表示領域75Bには、受講者72をクローズアップした注視画像が表示される。これにより、講師71と、受講者72とが、質疑応答をしている際に、講師71が発言していると判定された場合などに講師71と、受講者72との質疑応答の様子がより把握しやすくなる。
[4-4.情報処理装置の処理の変形例]
 図25を用いて、第4実施形態に係る情報処理装置の処理の変形例について説明する。図25は、第4実施形態に係る情報処理装置の処理の変形例の流れの一例を示すフローチャートである。
 第2実施形態では、講師の姿勢方向に応じて表示画像のレイアウトを変更する。第3実施形態では、講師が歩いているか否かに応じて表示画像のレイアウトを変更する。第4実施形態では、質疑応答であるか否かに応じて表示画像のレイアウトを変更する。第4実施形態の変形例では、講師の姿勢方向、講師が歩いているか否か、質疑応答であるか否かの全てを判定してよい。
 ステップS70~ステップS76の処理は、それぞれ、図19に図示のステップS50~ステップS56の処理と同一なので、説明を省略する。
 ステップS77~ステップS79の処理は、それぞれ、図16に図示のステップS32~ステップS34の処理と同一なので、説明を省略する。
 ステップS80~ステップS96の処理は、ぞれぞれ、図13に図示のステップS22~ステップS28の処理と同一なので、説明を省略する。
 <5.第5実施形態>
 次に、第5実施形態について説明する。第1実施形態~第4実施形態では、表示画面に表示させる表示画像を生成する。本開示では、第5実施形態に示すように、表示画像を制御したり、表示制御情報をメタデータとして記録したりするようにしてもよい。
[5-1.情報処理装置の構成]
 図26を用いて、第5実施形態に係る情報処理装置の構成について説明する。図26は、第5実施形態に係る情報処理装置の構成を示すブロック図である。
 図26に示すように、情報処理装置300Dは、制御部330Dが出力制御部337と関連部338とを備える点で、図2に示す情報処理装置300と、異なっている。
 出力制御部337は、表示装置400に表示させる各種の画像の出力を制御する。例えば、出力制御部337は、表示制御情報に基づいて、表示画像生成部336で合成された表示画像を表示装置400に表示させる制御を行う。
 関連部338は、1または複数の撮像画像に表示制御情報を関連付ける。関連部338は、表示制御情報をメタデータとして、撮像画像に関連付ける。関連部338は、シーン情報をメタデータとして、撮影画像に関連付ける。関連部338は、姿勢方向に関する情報やレイアウト情報を撮像画像に関連付けてよい。関連部338は、その他の情報を撮影画像に関連付けてよい。
<6.ハードウェア構成>
 上述してきた各実施形態に係る情報処理装置300~情報処理装置300Dは、例えば図27に示すような構成のコンピュータ1000によって実現される。以下、上述の実施形態に係る情報処理装置300を例に挙げて説明する。図29は、コンピュータ1000の一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM(Read Only Memory)1300、HDD(Hard Disk Drive)1400、通信インターフェイス1500、及び入出力インターフェイス1600を有する。コンピュータ1000の各部は、バス1050によって接続される。また、コンピュータ1000は、CPU1100の代わりにGPUを有してもよい。
 CPU1100は、ROM1300又はHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、CPU1100は、ROM1300又はHDD1400に格納されたプログラムをRAM1200に展開し、各種プログラムに対応した処理を実行する。
 ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるBIOS(Basic Input Output System)等のブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
 HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、HDD1400は、プログラムデータ1450の一例である本開示に係る開発支援プログラムを記録する記録媒体である。
 通信インターフェイス1500は、コンピュータ1000が外部ネットワーク1550(例えばインターネット)と接続するためのインターフェイスである。例えば、CPU1100は、通信インターフェイス1500を介して、他の機器からデータを受信したり、CPU1100が生成したデータを他の機器へ送信したりする。
 入出力インターフェイス1600は、入出力デバイス1650とコンピュータ1000とを接続するためのインターフェイスである。例えば、CPU1100は、入出力インターフェイス1600を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、CPU1100は、入出力インターフェイス1600を介して、ディスプレイやスピーカーやプリンタ等の出力デバイスにデータを送信する。また、入出力インターフェイス1600は、所定の記録媒体(メディア)に記録されたプログラム等を読み取るメディアインターフェイスとして機能してもよい。メディアとは、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
 例えば、コンピュータ1000が上述の実施形態に係る情報処理装置300として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされた情報処理プログラムを実行することにより、制御部330に含まれる各機能部を実現する。また、HDD1400には、本開示に係る情報処理プログラムや、記憶部320内のデータが格納される。なお、CPU1100は、プログラムデータ1450をHDD1400から読み取って実行するが、他の例として、外部ネットワーク1550を介して、他の装置からこれらのプログラムを取得してもよい。
<7.効果>
 本開示に係る情報処理装置300は、セミナーのシーンを示すシーン情報に対応する表示画像の表示制御に関する情報である表示制御情報を生成する制御部330を備える。
 これにより、情報処理装置300は、セミナーのシーンに応じた適切な映像を生成することができる。
 シーン情報は、1または複数の撮像画像に基づいて決定される。これにより、情報処理装置300は、セミナーの様子を撮像した1または複数の撮像画像に基づくことで、セミナーのシーンに応じた適切な映像を生成することができる。
 シーン情報は、セミナーの主要被写体10の行動を示す主要被写体行動情報である。これにより、情報処理装置300は、講師などの主要被写体10の行動に基づくことで、情報処理装置300は、セミナーのシーンに応じた適切な映像を生成することができる。
 主要被写体10行動情報は、セミナーにおいて提示される提示オブジェクト20に関連して主要被写体10が行う行動を示す提示オブジェクト関連行動情報を含む。これにより、情報処理装置300、セミナーにおいて示された資料などの提示オブジェクト関連情報に基づくことで、情報処理装置300は、セミナーのシーンに応じた適切な映像を生成することができる。
 シーン情報は、人物の姿勢に基づいて決定された情報である。これにより、情報処理装置300は、シーン情報に含まれる人物の姿勢に基づくことで、セミナーのシーンに応じた適切な映像を生成することができる。
 人物とは、セミナーの主要被写体10または副被写体30である。これにより、情報処理装置300は、講師などの主要被写体10と、受講者などの副被写体30との姿勢に基づくことで、セミナーのシーンに応じた適切な映像を生成することができる。
 表示制御は、シーン情報に基づいて、表示画像の少なくとも一部を構成する画像である構成画像を決定する制御である。これにより、情報処理装置300は、シーン情報に基づいて表示画像に含まれる構成画像を決定することができるので、セミナーのシーンに応じた適切な映像を生成することができる。
 構成画像はセミナーの主要被写体10または副被写体30の少なくとも一方を被写体とする人物画像を含む。これにより、情報処理装置300は、講師などの主要被写体10と、受講者などの副被写体30との姿勢に基づくことで、セミナーのシーンに応じた適切な映像を生成することができる。
 シーン情報は、主要被写体10の歩行に関する情報である。人物画像は、主要被写体10を被写体とする画像である。これにより、情報処理装置300は、対象人物が歩行している画像を表示画像の構成画像として決定することができるので、セミナーのシーンに応じた適切な映像を生成することができる。
 シーン情報は、質疑応答を示す情報である。人物画像は、副被写体30を被写体とする画像である。これにより、情報処理装置300は、対象人物が質疑応答している画像を表示画像の構成画像として決定することができるので、セミナーのシーンに応じた適切な映像を生成することができる。
 人物画像は、全体画像または注視画像を含む。これにより、情報処理装置300は、対象人物を含む全体画像または注視画像を表示画像の構成画像として決定するができるので、セミナーのシーンに応じた適切な映像を生成することができる。
 シーン情報は、セミナーにおいて提示される提示オブジェクト20に関連してセミナーの主要被写体10が行う行動を示す提示オブジェクト関連行動情報である。シーン情報に対応する構成画像は、提示オブジェクト20の提示オブジェクト画像を含む。これにより、情報処理装置300は、スクリーンに投影された資料などの提示オブジェクトの画像を表示画像の構成画像として決定することができるので、セミナーのシーンに応じた適切な映像を生成することができる。
 提示オブジェクト関連行動情報は、主要被写体10による提示オブジェクト20の説明を示す情報である。これにより、これにより、情報処理装置300は、講師などが説明している様子に基づくことで、セミナーのシーンに応じた適切な映像を生成することができる。
 提示オブジェクト関連行動情報は、主要被写体10による板書を示す情報である。れにより、情報処理装置300は、黒板やホワイボードの板書されている様子に基づくことで、セミナーのシーンに応じた適切な映像を生成することができる。
 提示オブジェクト画像は、板書による記述に関する情報を含む記述画像を含む。これにより、情報処理装置300は、板書の記述を含む記述画像を表示画像の構成画像として決定することができるので、セミナーのシーンに応じた適切な映像を生成することができる。
 記述画像は、1または複数の撮像画像から記述を抽出した記述抽出結果を示す画像である。これにより、情報処理装置300は、板書を含む画像に基づいて板書の内容を抽出することができるので、セミナーのシーンに応じた適切な映像を生成することができる。
 表示制御は、シーン情報に基づいて、表示画像の少なくとも一部を構成する画像である構成画像の表示画像内での表示配置を決定する制御である。これにより、情報処理装置300は、表示画像のレイアウトを決定することができるので、セミナーのシーンに応じた適切な映像を生成することができる。
 表示制御は、シーン情報に基づいて、表示画像の少なくとも一部を構成する画像である構成画像の数を決定する制御である。これにより、情報処理装置300は、表示画像を構成する構成画像を選択することができるので、セミナーのシーンに応じた適切な映像を生成することができる。
 構成画像の数は複数である。表示配置は、並列配置または重畳配置である。これにより、情報処理装置300は、構成画像が複数ある場合には構成画像を並列配置または重畳配置とすることで、表示画像を生成することができるので、セミナーのシーンに応じた適切な映像を生成することができる。
 シーン情報は、構成画像のうち人物を被写体として含む人物画像における人物の姿勢方向を示す情報を含む。これにより、情報処理装置300は、構成画像に含まれる姿勢の方向に基づくことで、セミナーのシーンに応じた適切な映像を生成することができる。
 表示画像が複数の構成画像により構成されているとき、表示制御は、複数の構成画像の1つである第1の構成画像である人物画像における人物の姿勢方向に基づいて、表示画像における前記第1の構成画像の表示配置を決定する制御である。これにより、情報処理装置300は、第1の構成画像に含まれる人物の姿勢の方向に基づいて、表示画像における第1の構成画像の配置する位置を決定することができるので、セミナーのシーンに応じた適切な映像を生成することができる。
 表示画像が、少なくとも構成画像である第1の構成画像と第2の構成画像により構成されているとき、表示制御は、第1の構成画像である人物画像における人物の姿勢方向と、表示画像内における第1の構成画像の中心の位置に対する第2の構成画像の中心の位置関係とが対応するように表示配置を決定する制御である。これにより、情報処理装置300は、第1の画像に含まれる人物の姿勢の方向を第2の画像の中心を向くように、第1の構成画像と、第2の構成画像とを配置する位置を決定することができるので、セミナーのシーンに応じた適切な映像を生成することができる。
 第2の構成画像は、セミナーにおいて提示される提示オブジェクト20の提示オジェクト画像である。これにより、情報処理装置300は、第1の構成画像に含まれる人物の姿勢方向を、第2の構成画像に含まれるスクリーンに投影された資料などの提示オブジェクト20を向くようにレイアウトを決定することができるので、セミナーのシーンに応じた適切な映像を生成することができる。
 制御部330は、1または複数の撮像画像に表示制御情報を関連付ける。これにより、情報処理装置300は、生成した表示制御情報を分析することができるので、分析結果を利用することで、セミナーのシーンに応じた適切な映像を生成することができる。
 制御部330は、前記表示制御情報に基づいて表示画像を生成する。これにより、情報処理装置300は、各種の表示制御を行うことができるので、セミナーのシーンに応じた適切な表示制御を行うことができる。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。 
 なお、本技術は以下のような構成も取ることができる。
(1)
 セミナーのシーンを示すシーン情報に対応する表示画像の表示制御に関する情報である表示制御情報を生成する制御部を備える、情報処理装置。
(2)
 前記シーン情報は、1または複数の撮像画像に基づいて決定される、
 前記(1)に記載の情報処理装置。
(3)
 前記シーン情報は、前記セミナーの主要被写体の行動を示す主要被写体行動情報である、
 前記(1)または(2)に記載の情報処理装置。
(4)
 前記主要被写体行動情報は、前記セミナーにおいて提示される提示オブジェクトに関連して前記主要被写体が行う行動を示す提示オブジェクト関連行動情報を含む、
 前記(3)に記載の情報処理装置。
(5)
 前記シーン情報は、人物の姿勢に基づいて決定された情報である、
 前記(1)~(4)のいずれか1つに記載の情報処理装置。
(6)
 前記人物とは、前記セミナーの主要被写体または副被写体である、
 前記(5)に記載の情報処理装置。
(7)
 前記表示制御は、
 前記シーン情報に基づいて、前記表示画像の少なくとも一部を構成する画像である構成画像を決定する制御である、
 前記(1)~(6)のいずれか1つに記載の情報処理装置。
(8)
 前記構成画像は前記セミナーの主要被写体または副被写体の少なくとも一方を被写体とする人物画像を含む、
 前記(7)に記載の情報処理装置。 
(9)
 前記シーン情報は、前記主要被写体の歩行に関する情報であり、
 前記人物画像は、前記主要被写体を被写体とする画像である、
 前記(8)に記載の情報処理装置。
(10)
 前記シーン情報は、質疑応答を示す情報であり、
 前記人物画像は、前記副被写体を被写体とする画像である、
 前記(8)に記載の情報処理装置。
(11)
 前記人物画像は、全体画像または注視画像を含む、
 前記(8)~(10)のいずれか1つに記載の情報処理装置。
(12)
 前記シーン情報は、前記セミナーにおいて提示される提示オブジェクトに関連して前記セミナーの主要被写体が行う行動を示す提示オブジェクト関連行動情報であり、前記シーン情報に対応する前記構成画像は、前記提示オブジェクトの提示オブジェクト画像を含む、
 前記(7)に記載の情報処理装置。
(13)
 前記提示オブジェクト関連行動情報は、前記主要被写体による前記提示オブジェクトの説明を示す情報である、
 前記(12)に記載の情報処理装置。
(14)
 前記提示オブジェクト関連行動情報は、前記主要被写体による板書を示す情報である、
 前記(12)または(13)に記載の情報処理装置。
(15)
 前記提示オブジェクト画像は、前記板書による記述に関する情報を含む記述画像を含む、
 前記(14)に記載の情報処理装置。
(16)
 前記記述画像は、1または複数の撮像画像から記述を抽出した記述抽出結果を示す画像である、
 前記(15)に記載の情報処理装置。
(17)
 前記表示制御は、
 前記シーン情報に基づいて、前記表示画像の少なくとも一部を構成する画像である構成画像の前記表示画像内での表示配置を決定する制御である、
 前記(1)~(16)のいずれか1つに記載の情報処理装置。
(18)
 前記表示制御は、
 前記シーン情報に基づいて、前記表示画像の少なくとも一部を構成する画像である構成画像の数を決定する制御である、
 前記(17)に記載の情報処理装置。
(19)
 前記構成画像の数は複数であり、
 前記表示配置は、並列配置または重畳配置である、
 前記(18)に記載の情報処理装置。
(20)
 前記シーン情報は、前記構成画像のうち人物を被写体として含む人物画像における前記人物の姿勢方向を示す情報を含む、
 前記(19)に記載の情報処理装置。
(21)
 前記表示画像が複数の前記構成画像により構成されているとき、
 前記表示制御は、
 複数の前記構成画像の1つである第1の構成画像である人物画像における人物の姿勢方向に基づいて、前記表示画像における前記第1の構成画像の表示配置を決定する制御である、
 前記(19)に記載の情報処理装置。
(22)
 前記表示画像が、少なくとも前記構成画像である前記第1の構成画像と第2の構成画像により構成されているとき、
 前記表示制御は、
 前記第1の構成画像である前記人物画像における前記人物の姿勢方向と、前記表示画像内における前記第1の構成画像の中心の位置に対する前記第2の構成画像の中心の位置関係とが対応するように表示配置を決定する制御である、
 前記(21)に記載の情報処理装置。
(23)
 前記第2の構成画像は、前記セミナーにおいて提示される提示オブジェクトの提示オジェクト画像である、
 前記(22)に記載の情報処理装置。
(24)
 前記制御部は、1または複数の撮像画像に前記表示制御情報を関連付ける、
 前記(1)~(23)のいずれか1つに記載の情報処理装置。
(25)
 前記制御部は、前記表示制御情報に基づいて前記表示画像を生成する、
 前記(1)~(24)のいずれか1つに記載の情報処理装置。
(26)
 セミナーのシーンを示すシーン情報に対応する表示画像の表示制御に関する情報である表示制御情報を生成する、
 処理をコンピュータが実行する情報処理方法。
(27)
 セミナーのシーンを示すシーン情報に対応する表示画像の表示制御に関する情報である表示制御情報を生成する、
 処理をコンピュータに実行させる情報処理プログラム。
 100 撮像装置
 200 入力装置
 300,300A,300B,300C,300D 情報処理装置
 310 通信部
 320 記憶部
 330 制御部
 331 姿勢推定部
 332 追尾部
 333 行動認識部
 334 レイアウト決定部
 335 クロップ部
 336 表示画像生成部
 337 出力制御部
 338 関連部
 400 表示装置
 500 記録再生装置

Claims (27)

  1.  セミナーのシーンを示すシーン情報に対応する表示画像の表示制御に関する情報である表示制御情報を生成する制御部を備える、情報処理装置。
  2.  前記シーン情報は、1または複数の撮像画像に基づいて決定される、
     請求項1に記載の情報処理装置。
  3.  前記シーン情報は、前記セミナーの主要被写体の行動を示す主要被写体行動情報である、
     請求項1に記載の情報処理装置。
  4.  前記主要被写体行動情報は、前記セミナーにおいて提示される提示オブジェクトに関連して前記主要被写体が行う行動を示す提示オブジェクト関連行動情報を含む、
     請求項3に記載の情報処理装置。
  5.  前記シーン情報は、人物の姿勢に基づいて決定された情報である、
     請求項1に記載の情報処理装置。
  6.  前記人物とは、前記セミナーの主要被写体または副被写体である、
     請求項5に記載の情報処理装置。
  7.  前記表示制御は、
     前記シーン情報に基づいて、前記表示画像の少なくとも一部を構成する画像である構成画像を決定する制御である、
     請求項1に記載の情報処理装置。
  8.  前記構成画像は前記セミナーの主要被写体または副被写体の少なくとも一方を被写体とする人物画像を含む、
     請求項7に記載の情報処理装置。
  9.  前記シーン情報は、前記主要被写体の歩行に関する情報であり、
     前記人物画像は、前記主要被写体を被写体とする画像である、
     請求項8に記載の情報処理装置。
  10.  前記シーン情報は、質疑応答を示す情報であり、
     前記人物画像は、前記副被写体を被写体とする画像である、
     請求項8に記載の情報処理装置。
  11.  前記人物画像は、全体画像または注視画像を含む、
     請求項8に記載の情報処理装置。
  12.  前記シーン情報は、前記セミナーにおいて提示される提示オブジェクトに関連して前記セミナーの主要被写体が行う行動を示す提示オブジェクト関連行動情報であり、前記シーン情報に対応する前記構成画像は、前記提示オブジェクトの提示オブジェクト画像を含む、
     請求項7に記載の情報処理装置。
  13.  前記提示オブジェクト関連行動情報は、前記主要被写体による前記提示オブジェクトの説明を示す情報である、
     請求項12に記載の情報処理装置。
  14.  前記提示オブジェクト関連行動情報は、前記主要被写体による板書を示す情報である、
     請求項12に記載の情報処理装置。
  15.  前記提示オブジェクト画像は、前記板書による記述に関する情報を含む記述画像を含む、
     請求項14に記載の情報処理装置。
  16.  前記記述画像は、1または複数の撮像画像から記述を抽出した記述抽出結果を示す画像である、
     請求項15に記載の情報処理装置。
  17.  前記表示制御は、
     前記シーン情報に基づいて、前記表示画像の少なくとも一部を構成する画像である構成画像の前記表示画像内での表示配置を決定する制御である、
     請求項1に記載の情報処理装置。
  18.  前記表示制御は、
     前記シーン情報に基づいて、前記表示画像の少なくとも一部を構成する画像である構成画像の数を決定する制御である、
     請求項1に記載の情報処理装置。
  19.  前記構成画像の数は複数であり、
     前記表示配置は、並列配置または重畳配置である、
     請求項17に記載の情報処理装置。
  20.  前記シーン情報は、前記構成画像のうち人物を被写体として含む人物画像における前記人物の姿勢方向を示す情報を含む、
     請求項17に記載の情報処理装置。
  21.  前記表示画像が複数の前記構成画像により構成されているとき、
     前記表示制御は、
     複数の前記構成画像の1つである第1の構成画像である人物画像における人物の姿勢方向に基づいて、前記表示画像における前記第1の構成画像の表示配置を決定する制御である、
     請求項20に記載の情報処理装置。
  22.  前記表示画像が、少なくとも前記構成画像である前記第1の構成画像と第2の構成画像により構成されているとき、
     前記表示制御は、
     前記第1の構成画像である前記人物画像における前記人物の姿勢方向と、前記表示画像内における前記第1の構成画像の中心の位置に対する前記第2の構成画像の中心の位置関係とが対応するように表示配置を決定する制御である、
     請求項21に記載の情報処理装置。
  23.  前記第2の構成画像は、前記セミナーにおいて提示される提示オブジェクトの提示オジェクト画像である、
     請求項22に記載の情報処理装置。
  24.  前記制御部は、1または複数の撮像画像に前記表示制御情報を関連付ける、
     請求項1に記載の情報処理装置。
  25.  前記制御部は、前記表示制御情報に基づいて前記表示画像を生成する、
     請求項1に記載の情報処理装置。
  26.  セミナーのシーンを示すシーン情報に対応する表示画像の表示制御に関する情報である表示制御情報を生成する、
     処理をコンピュータが実行する情報処理方法。
  27.  セミナーのシーンを示すシーン情報に対応する表示画像の表示制御に関する情報である表示制御情報を生成する、
     処理をコンピュータに実行させる情報処理プログラム。
PCT/JP2021/008779 2020-03-27 2021-03-05 情報処理装置、情報処理方法、および情報処理プログラム WO2021192931A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2022509494A JPWO2021192931A1 (ja) 2020-03-27 2021-03-05
US17/908,770 US20230124466A1 (en) 2020-03-27 2021-03-05 Information processing apparatus, information processing method, and information processing program
CN202180022555.4A CN115315936A (zh) 2020-03-27 2021-03-05 信息处理装置、信息处理方法和信息处理程序

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020058989 2020-03-27
JP2020-058989 2020-03-27

Publications (1)

Publication Number Publication Date
WO2021192931A1 true WO2021192931A1 (ja) 2021-09-30

Family

ID=77890051

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/008779 WO2021192931A1 (ja) 2020-03-27 2021-03-05 情報処理装置、情報処理方法、および情報処理プログラム

Country Status (4)

Country Link
US (1) US20230124466A1 (ja)
JP (1) JPWO2021192931A1 (ja)
CN (1) CN115315936A (ja)
WO (1) WO2021192931A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114786032A (zh) * 2022-06-17 2022-07-22 深圳市必提教育科技有限公司 一种培训视频管理方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006197238A (ja) * 2005-01-13 2006-07-27 Tdk Corp 遠隔プレゼンテーションシステム、画像配信装置、画像配信方法及びプログラム
JP2014175941A (ja) * 2013-03-11 2014-09-22 Ricoh Co Ltd 情報処理装置、表示制御システムおよびプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2835385B1 (fr) * 2002-01-30 2004-06-04 France Telecom Systeme de visioconference pour tele-travail
US8593502B2 (en) * 2006-01-26 2013-11-26 Polycom, Inc. Controlling videoconference with touch screen interface
US20100318921A1 (en) * 2009-06-16 2010-12-16 Marc Trachtenberg Digital easel collaboration system and method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006197238A (ja) * 2005-01-13 2006-07-27 Tdk Corp 遠隔プレゼンテーションシステム、画像配信装置、画像配信方法及びプログラム
JP2014175941A (ja) * 2013-03-11 2014-09-22 Ricoh Co Ltd 情報処理装置、表示制御システムおよびプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114786032A (zh) * 2022-06-17 2022-07-22 深圳市必提教育科技有限公司 一种培训视频管理方法及系统
CN114786032B (zh) * 2022-06-17 2022-08-23 深圳市必提教育科技有限公司 一种培训视频管理方法及系统

Also Published As

Publication number Publication date
CN115315936A (zh) 2022-11-08
US20230124466A1 (en) 2023-04-20
JPWO2021192931A1 (ja) 2021-09-30

Similar Documents

Publication Publication Date Title
US9164590B2 (en) System and method for automated capture and compaction of instructional performances
US7780450B2 (en) Video instructional system and method for teaching motor skills
US6881067B2 (en) Video instructional system and method for teaching motor skills
DeCamp et al. An immersive system for browsing and visualizing surveillance video
US20130218542A1 (en) Method and system for driving simulated virtual environments with real data
JPH11219446A (ja) 映像音響再生システム
KR102186607B1 (ko) 증강현실을 통한 발레 공연 시스템 및 방법
McIlvenny The future of ‘video’in video-based qualitative research is not ‘dumb’flat pixels! Exploring volumetric performance capture and immersive performative replay
Carroll et al. Bodies in critique: a technological intervention in the dance production process
Brůža et al. VRdeo: Creating engaging educational material for asynchronous student-teacher exchange using virtual reality
JP2011040921A (ja) コンテンツ生成装置,コンテンツ生成方法およびコンテンツ生成プログラム
JP2014102664A (ja) コンテンツ作成・記録・再生システム
Chi et al. Authoring illustrations of human movements by iterative physical demonstration
WO2021192931A1 (ja) 情報処理装置、情報処理方法、および情報処理プログラム
Zimmerman Video Sketches: Exploring pervasive computing interaction designs
US20040078805A1 (en) System method and apparatus for capturing recording transmitting and displaying dynamic sessions
Langlotz et al. AR record&replay: situated compositing of video content in mobile augmented reality
RU2652503C2 (ru) Автоматическая съемка и монтаж видеоролика
Verlinden et al. Recording augmented reality experiences to capture design reviews
Gholap et al. Past, present, and future of the augmented reality (ar)-enhanced interactive techniques: A survey
Chu et al. Navigable videos for presenting scientific data on affordable head-mounted displays
Kostaras et al. Assessing the usability of augmented reality systems
Zhou et al. Design research and practice of augmented reality textbook
EP3922009A1 (en) Augmented reality assisted training
Šedivý Multimedia support of parametric modeling

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21776747

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022509494

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21776747

Country of ref document: EP

Kind code of ref document: A1