WO2022249555A1 - Image output device, image output method, and program - Google Patents

Image output device, image output method, and program Download PDF

Info

Publication number
WO2022249555A1
WO2022249555A1 PCT/JP2022/004219 JP2022004219W WO2022249555A1 WO 2022249555 A1 WO2022249555 A1 WO 2022249555A1 JP 2022004219 W JP2022004219 W JP 2022004219W WO 2022249555 A1 WO2022249555 A1 WO 2022249555A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
output
hand
images
detection
Prior art date
Application number
PCT/JP2022/004219
Other languages
French (fr)
Japanese (ja)
Inventor
和博 嶋内
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2022249555A1 publication Critical patent/WO2022249555A1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/265Mixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/268Signal distribution or switching
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast

Definitions

  • the present disclosure relates to an image output device, an image output method, and a program, and more particularly to an image output device, an image output method, and a program that enable more suitable switching between different types of images.
  • video images of lectures, lessons, product reviews, etc. are not only shots with only the instructor as the subject, but also shots of objects in the instructor's hands and the state of work at hand, and to convey PC operations. It is often constructed by combining the PC images of the A user who shoots and creates such moving images needs to appropriately switch and edit a plurality of camera inputs according to the progress of a lecture or the like.
  • Patent Literature 1 and Patent Literature 2 disclose techniques for accepting a plurality of moving images as input and appropriately switching between them. In either case, the line of sight of the user is detected, and the image from the camera corresponding to the line of sight is specified and output.
  • Patent Document 1 In order to detect the line of sight correctly, the user's face must be fixed so that it faces the front to some extent with respect to the camera for detecting the line of sight.
  • Patent Document 2 The configuration of Patent Document 1 requires the user to wear the head-mounted display, and the configuration of Patent Document 2 assumes that the user is always facing the camera. In lectures, lessons, product reviews, etc., these restrictions are factors that hinder the performance of lecturers and the progress of lectures.
  • a surveillance camera system can also be cited as a configuration that accepts multiple moving images as input and switches them appropriately.
  • a uniform abnormality detection process or the like is performed on a plurality of camera images, and a camera image in which an abnormality or the like is detected is selected.
  • the present disclosure has been made in view of such circumstances, and is intended to make it possible to switch between different types of images in a more suitable manner.
  • the image output device of the present disclosure is an image output device including an image selection unit that selects one or more images to be output based on detection results obtained by different types of detection processing for each of a plurality of images.
  • the image output method of the present disclosure is an image output method in which an image output device selects one or more images to be output based on detection results of different types of detection processes for each of a plurality of images.
  • the program of the present disclosure is a program for causing a computer to execute processing for selecting one or more images to be output based on detection results obtained by different types of detection processing for each of a plurality of images.
  • one or more images to be output are selected based on detection results obtained by different types of detection processing for each of the plurality of images.
  • FIG. 1 is a block diagram showing a configuration example of an image output device to which technology according to the present disclosure is applied;
  • FIG. 1 is a diagram illustrating a configuration example of an image output system according to a first embodiment of the present disclosure;
  • FIG. 3 is a block diagram showing a functional configuration example of a switcher;
  • FIG. 10 is a diagram showing an example of an output image;
  • FIG. 4 is a flowchart for explaining the flow of image output processing; 4 is a flowchart for explaining the flow of image output processing; 4 is a flowchart for explaining the flow of image output processing;
  • 4 is a flowchart for explaining the flow of image output processing;
  • FIG. 10 is a diagram showing an example of a synthesized image;
  • FIG. It is a figure which shows the structural example of the image output system which concerns on 2nd Embodiment of this indication.
  • FIG. 3 is a block diagram showing a functional configuration example of a switcher;
  • FIG. FIG. 10 is a diagram showing an example of an output image;
  • FIG. FIG. 11 is a diagram illustrating a configuration example of an image output system according to a third embodiment of the present disclosure;
  • FIG. 3 is a block diagram showing a functional configuration example of a switcher;
  • FIG. 10 is a diagram showing an example of an output image;
  • FIG. 4 is a flowchart for explaining the flow of image output processing;
  • FIG. 12 is a diagram illustrating a configuration example of an image output system according to a fourth embodiment of the present disclosure;
  • FIG. 3 is a block diagram showing a functional configuration example of a switcher (PC);
  • FIG. 4 is a flowchart for explaining the flow of image output processing; 10 is a flowchart for explaining the flow of student image selection; FIG. 10 is a diagram showing an example of a synthesized image; FIG. It is a block diagram which shows the structural example of the hardware of a computer.
  • the technology according to the present disclosure is a system for live distribution of lectures, lessons, product reviews, etc. using moving images (hereinafter simply referred to as images), and for editing these images. It realizes appropriate switching and output according to the progress of the lecture (instructor's behavior).
  • FIG. 1 is a block diagram showing a configuration example of an image output device to which technology according to the present disclosure is applied.
  • the image output device 10 of FIG. 1 accepts as input a plurality of images captured by a plurality of cameras, performs different types of detection processing on each image, and selects an image to be output based on the detection results. and output.
  • At least one of the images input to the image output device 10 is a person image (first image) with a person as the subject, and the other images are object images (second image) with an arbitrary object as the subject. image).
  • the person here is, for example, a lecturer who gives lectures, lessons, product reviews, etc.
  • the object is, for example, the hands of the lecturer or various objects handled by the lecturer.
  • the object images also include the display screen of the computer operated by the lecturer, and the audience image centering on the audience listening to the lecturer's speech over the network.
  • the images input to the image output device 10 can be said to be different types of images.
  • the image output device 10 includes state detection units 11 , 12 , 13 , an image selection unit 14 , and an image output/synthesis unit 15 .
  • the state detection units 11, 12, and 13 perform different types of detection processing on each of the plurality of images input to the image output device 10.
  • the state detection unit 11 detects the state of the person in the person image input to the image output device 10 and supplies the detection result to the image selection unit 14 .
  • the person's state detected by the state detection unit 11 includes at least one of the person's posture, position, and presence/absence of speech.
  • the state detection units 12 and 13 each detect the state of the object in the object image input to the image output device 10 and supply the detection result to the image selection unit 14 .
  • the object image targeted for detection processing by the state detection unit 12 and the object image targeted for detection processing by the state detection unit 13 may be images with different objects as subjects, or personal computers (PCs) operated by people. ) is a display screen (PC image).
  • the state of the object detected by the state detection units 12 and 13 is at least one of the presence/absence, number, position, orientation, and shape of the object, or changes in the display screen of the PC operated by the instructor. do.
  • the state of the object detected by the state detection units 12 and 13 may be the result of voice detection, or at least the attitude of the listener in the image of the listener input via the network and the presence or absence of speech. It can be either.
  • the image selection unit 14 selects one or more images to be output from the person image and the object image input to the image output device 10 based on the detection results from the state detection units 11, 12, and 13. do.
  • the image selection unit 14 selects the object image as an output target when the state of the object in the object image satisfies a predetermined condition and the state of the person in the person image indicates a predetermined relationship with the object. For example, when an object is detected in the object image and the person in the person image faces the object or is positioned near the object, the object image is selected as an output target.
  • the selected image (selected image) is supplied to the image output/synthesis section 15 .
  • the image selection unit 14 has a metadata generation unit 14m.
  • the metadata generation unit 14 m generates metadata of the selected image selected as an output target by the image selection unit 14 and supplies the metadata to the image output/synthesis unit 15 .
  • This metadata includes what was detected from the image, the state of the detected object, the detection conditions, the timing of switching the selected image, etc. is included.
  • the image output/synthesis unit 15 functions as an image output unit that outputs an image selected as an output target by the image selection unit 14 as an output image.
  • the image output/synthesis unit 15 outputs a synthesized image obtained by synthesizing the two or more images.
  • the image output/synthesis unit 15 outputs an output image based on the metadata from the metadata generation unit 14m. For example, the image output/synthesis unit 15 outputs an output image at timing based on the metadata, or synthesizes the selected images in a layout based on the metadata when two or more selected images are selected. do.
  • the image output/synthesis unit 15 outputs an output image and its metadata.
  • the metadata of the output image includes the layout information of the synthesized image and the like in addition to the metadata from the metadata generation unit 14m.
  • An output image output from the image output device 10 is live-delivered via a network such as the Internet, or supplied to an editing device or the like for editing moving images. Further, the metadata of the output image may be recorded on a recording medium detachably attached to the image output device 10 or recorded in a recording unit (not shown) provided in the image output device 10 . The metadata recorded in this way can be used for editing the output image.
  • the image input to the image output device 10 includes a portrait image, but may include a plurality of portrait images with different subjects as subjects, and the image output device 10 may All images input to 10 may be object images.
  • FIG. 2 is a diagram illustrating a configuration example of an image output system according to the first embodiment of the present disclosure.
  • the image output system 100 is composed of an instructor camera 101 , a hand camera 102 , a PC 103 and a switcher 110 .
  • the lecturer camera 101 is a camera that shoots reviewer L1 as a lecturer as a central subject.
  • the reviewer L1 looks at the lecturer camera 101 and explains or talks to the audience.
  • the instructor's camera 101 is photographed at a camera angle in which the orientation of the body of the reviewer L1 when giving an explanation toward the instructor's camera 101 is different from the orientation of the body of the reviewer L1 when working at hand or operating the PC 103. is installed to For example, as shown in FIG. 2, the instructor camera 101 is installed so as to photograph the reviewer L1 from the side of the reviewer L1 facing the desk. The instructor camera 101 is connected to the switcher 110, and the instructor image of the reviewer L1 is output to the switcher 110. FIG.
  • the hand camera 102 is a camera that captures the hand of the reviewer L1 as a shooting range.
  • the handheld camera 102 captures images of the reviewer L1's work and objects in the reviewer's hand.
  • the hand camera 102 is installed so that the reviewer L1's hand and objects at hand are within the shooting range. For example, as shown in FIG. 2, the hand camera 102 is installed so as to photograph the desk from directly above the desk. The hand camera 102 is connected to the switcher 110 , and a hand image obtained by photographing the hand of the reviewer L ⁇ b>1 is output to the switcher 110 .
  • PC 103 is a computer used by reviewer L1 for explanation.
  • the PC 103 presents materials for product review and screens for explaining applications and programming to the viewer.
  • PC 103 is connected to switcher 110 , and PC images presented by PC 103 are output to switcher 110 .
  • the instructor camera 101, hand camera 102, PC 103, and switcher 110 are directly connected via interfaces such as HDMI (High-Definition Multimedia Interface) (registered trademark), SDI (Serial Digital Interface), and USB (Universal Serial Bus).
  • interfaces such as HDMI (High-Definition Multimedia Interface) (registered trademark), SDI (Serial Digital Interface), and USB (Universal Serial Bus).
  • HDMI High-Definition Multimedia Interface
  • SDI Serial Digital Interface
  • USB Universal Serial Bus
  • they may be connected to each other by a wired or wireless LAN (Local Area Network) or WAN (Wide Area Network).
  • the switcher 110 performs various image analysis, detection processing, recognition processing, etc. corresponding to the images from the instructor camera 101, the hand camera 102, and the PC 103, respectively. Based on these processing results, the switcher 110 selects and outputs an image suitable for the progress of the product review (the behavior of the reviewer L1) as an output target. The switcher 110 can also output the metadata of the output image along with the output image selected for output.
  • the switcher 110 is connected to a network NW such as the Internet, and the output image and its metadata are supplied to the distribution server of the video distribution site via the network NW. Also, the switcher 110 may be directly connected to a distribution server, recording device, or the like via an interface such as HDMI, SDI, or USB.
  • FIG. 3 is a block diagram showing a functional configuration example of the switcher 110. As shown in FIG.
  • the switcher 110 receives the teacher image from the teacher camera 101, the hand image from the hand camera 102, and the PC image from the PC 103 as inputs, and outputs the output image and its metadata.
  • the switcher 110 includes a body orientation detection unit 111 , a hand detection unit 112 , a screen change detection unit 113 , an image selection unit 114 , and an image output/synthesis unit 115 .
  • the body orientation detection unit 111 performs body orientation detection processing to detect the body orientation of the reviewer L1 in the lecturer image input to the switcher 110 and supplies the detection result to the image selection unit 114 .
  • the body direction detection processing is, for example, obtaining a person's skeleton by a skeleton estimation technique using general deep learning or the like, and specifying which direction the skeleton is facing with respect to the lecturer camera 101. This is the processing for detecting the orientation of the body.
  • the detection result of the body orientation detection process is indicated by a position (x, y, z), an angle (picth, yaw, row), etc., for example, by defining an arbitrary coordinate system and reference point.
  • the position (x, y, z) and angle (picth, yaw, row) are "directed toward the lecturer's camera", “directed toward the working direction at hand”. It may be converted into a meaningful orientation such as “facing the PC” or “facing the PC”. If the position (x, y, z) and angle (picth, yaw, row) are within each range, “the direction of the lecturer's camera", “the direction of the work at hand”, “the PC's It is set in advance whether it is "facing the direction”.
  • the range may be set by, for example, inputting a value by the user or by automatically recognizing the desk or PC appearing in the lecturer image.
  • the hand detection unit 112 performs hand detection processing to detect the state of the hand of the reviewer L1 in the hand image input to the switcher 110, and supplies the detection result to the image selection unit 114.
  • Hand detection processing detects at least one of the number of hands, position (coordinates), orientation, and shape (shape of fingers) in addition to the presence or absence of hands in the hand image. As a processing result of the hand detection processing, these hand states may be output, or information ("holding hands”, “opening hands”, etc.) given meanings from these hand states may be output. may be output.
  • the screen change detection unit 113 performs screen change detection processing for detecting changes in the display screen of the PC image input to the switcher 110 and supplies the detection result to the image selection unit 114 .
  • Screen change detection processing is, for example, processing for detecting cursor movement in a PC image.
  • the detection result of the screen change detection process may be information indicating not only the presence or absence of movement of the cursor, but also the position of the cursor on the PC image, the movement speed and acceleration of the cursor, and the like.
  • the screen change detection process may include a process of detecting page transitions of slides of presentation materials and a process of detecting playback of moving images.
  • the detection result of the screen change detection processing may include not only the presence or absence of a screen change, but also the type of screen change indicating which of cursor movement, slide page transition, and video playback was detected. good.
  • Image selection unit 114 selects one of the instructor image, hand image, and PC image input to switcher 110 based on the detection results from body orientation detection unit 111, hand detection unit 112, and screen change detection unit 113, respectively. , to select one or more images to be output. The selected image is supplied to the image output/synthesis unit 115 .
  • the image selection unit 114 has a metadata generation unit 114m.
  • the metadata generation unit 114 m generates metadata of the selected image selected as an output target by the image selection unit 114 and supplies the metadata to the image output/synthesis unit 115 .
  • This metadata includes what was detected from the image, the state of the detected object, detection conditions, and the timing of switching the selected image as the detection result of the detection process for the image selected as the output target. included.
  • the image output/synthesis unit 115 outputs one or more images selected as output targets by the image selection unit 114 as output images based on the metadata from the metadata generation unit 114m.
  • the output image may be a through image of one selected image, or may be a synthesized image obtained by synthesizing two or more selected images side-by-side or picture-in-picture, for example. Also, a telop, other content, an effect, or the like may be superimposed on the through image or the synthesized image of the selected image.
  • the switcher 110 can select at least one of the instructor image 151, the hand image 152, and the PC image 153 and output it as an output image, as shown in FIG.
  • either the instructor image 151 or the hand image 152 may be output as the output image as indicated by arrow #1, or either the instructor image 151 or the PC image 153 may be output as indicated by arrow #2. or may be output as an output image.
  • the instructor image 151 is mainly output. Any of the images 153 may be output as the output image.
  • FIG. 5 is a flowchart for explaining the flow of image output processing for selecting and outputting either the instructor image 151 or the hand image 152 indicated by arrow #1 in FIG.
  • step S ⁇ b>11 the hand detection unit 112 of the switcher 110 performs hand detection processing on the hand image 152 .
  • step S12 the hand detection unit 112 determines whether or not a hand has been detected in the hand image 152 based on the detection result of the hand detection process. If it is determined that the hand has been detected, the process proceeds to step S13.
  • step S ⁇ b>13 the body orientation detection unit 111 performs body orientation detection processing on the instructor image 151 .
  • step S14 the body orientation detection unit 111 determines whether or not the body of the reviewer L1 is oriented in the direction of working at hand, based on the detection result of the body orientation detection processing. If it is determined that it faces the direction of working at hand, the process proceeds to step S15.
  • step S15 the image selection unit 114 selects the hand image 152 as an output target.
  • step S12 determines whether the hand has not been detected, or if it is determined in step S14 that the body is not facing the direction of working at hand.
  • step S16 the image selection unit 114 selects the lecturer image 151 as an output target.
  • step S17 the image output/synthesis unit 115 outputs the image selected by the image selection unit 114 as an output target.
  • the hand image 152 will be output even if the hand is placed on the desk by chance.
  • the processing described above not only the hand is detected in the hand image 152 but also the orientation of the body is detected in the lecturer image 151 .
  • the reviewer L1 can talk to the lecturer camera 101 or operate the PC. Since there is a high possibility that the hand image 152 is present, the hand image 152 is not output. Also, even if the body is facing the direction of working with the hand, if the hand is not detected in the hand image 152, there is a high possibility that the reviewer L1 is not working with the hand. Image 152 is not output.
  • FIG. 6 is a flowchart for explaining the flow of image output processing for selecting and outputting either the instructor image 151 or the PC image 153 indicated by arrow #2 in FIG.
  • step S ⁇ b>21 the screen change detection unit 113 of the switcher 110 performs cursor movement detection processing for detecting cursor movement on the PC image 153 .
  • step S22 the screen change detection unit 113 determines whether or not a cursor movement has been detected in the PC image 153 based on the detection result of the cursor movement detection process. If it is determined that the movement of the cursor has been detected, the process proceeds to step S23.
  • step S ⁇ b>23 the body orientation detection unit 111 performs body orientation detection processing on the instructor image 151 .
  • step S24 the body orientation detection unit 111 determines whether or not the body of the reviewer L1 is facing the PC 103 based on the detection result of the body orientation detection process. If it is determined that the direction of the PC 103 is facing, the process proceeds to step S25.
  • step S25 the image selection unit 114 selects the PC image 153 as an output target.
  • step S22 determines whether cursor movement has been detected, or if it is determined in step S24 that the body is not facing the PC 103, the process proceeds to step S26.
  • step S26 the image selection unit 114 selects the lecturer image 151 as an output target.
  • step S27 the image output/synthesis unit 115 outputs the image selected by the image selection unit 114 as an output target.
  • FIG. 7 is a flowchart for explaining the flow of image output processing for selecting and outputting any one of the instructor image 151, the hand image 152, and the PC image 153 indicated by arrows #1, #2, and #3 in FIG. is.
  • the instructor image 151 is mainly output in product reviews, so the instructor image 151 is output in step S31.
  • step S ⁇ b>32 the body orientation detection unit 111 performs body orientation detection processing on the instructor image 151 to determine whether or not the body of the reviewer L ⁇ b>1 faces the instructor camera 101 . If it is determined that the body is facing the instructor camera 101, it is considered that the reviewer L1 is speaking toward the instructor camera 101, so the process returns to step S31 and the instructor image 151 is continuously output.
  • step S33 if it is determined that the body is not facing the instructor camera 101, the process proceeds to step S33.
  • step S33 the body orientation detection unit 111 performs body orientation detection processing on the instructor image 151 to determine whether the body of the reviewer L1 is facing the direction of working at hand or facing the direction of the PC 103. determine whether
  • step S34 If it is determined that the body is facing the direction of working at hand, proceed to step S34.
  • step S ⁇ b>34 the hand detection unit 112 performs hand detection processing on the hand image 152 to determine whether or not a hand is detected in the hand image 152 . If it is determined that the hand is not detected, it is considered that the reviewer L1 is not working at hand, so the process returns to step S31 and the instructor image 151 is output.
  • step S35 the image selection unit 114 selects the hand image as the output image, and the image output/synthesis unit 115 outputs the hand image. After that, the process returns to step S32 and the subsequent processes are repeated.
  • step S33 determines that the body is facing the direction of the PC 103.
  • step S ⁇ b>36 the screen change detection unit 113 performs cursor movement detection processing on the PC image 153 to determine whether cursor movement is detected in the PC image 153 . If it is determined that the movement of the cursor has not been detected, it is considered that the reviewer L1 is not operating the PC.
  • step S37 the image selection unit 114 selects the PC image as the output image, and the image output/synthesis unit 115 outputs the PC image. . After that, the process returns to step S32 and the subsequent processes are repeated.
  • step S33 if it is determined that the body is facing in any direction (neither the direction of working at hand nor the direction of the PC 103), for example, the reviewer L1 is facing backwards. In that case, the process returns to step S31 and the instructor image 151 is output.
  • the state of the person in the human image is detected after the state of the object in the object image is detected. After the detection of the state of the object is performed.
  • either the detection of the state of the person or the detection of the state of the object may be executed first, or they may be executed in parallel.
  • the instructor image 151 is assumed to be mainly output, and the image to be output is switched to the hand image 152 or the PC image 153 according to the detection result.
  • the hand image 152 may be mainly output, and the image to be output may be switched to the lecturer image 151 or the PC image 153 according to the detection result.
  • the PC image 153 is mainly output, the image to be output may be switched to the lecturer image 151 or the hand image 152 according to the detection result.
  • an object detection unit may be provided so that it can be detected whether or not a product desired to be shown to the viewer appears in the image at hand.
  • an object detection unit may be provided instead of the hand detection unit 112, or both the hand detection unit 112 and the object detection unit may be provided.
  • step S12 of FIG. 5 or step S34 of FIG. 7 it is determined whether or not a hand has been detected in the image at hand and a product to be shown to the viewer has been detected.
  • switcher 110 may be provided with a body position detection unit.
  • the position of the body of the reviewer L1 may be detected.
  • a body position detection unit may be provided instead of the body orientation detection unit 111, or both the body orientation detection unit 111 and the body position detection unit may be provided.
  • the image selection unit 114 can select an image to be output at various timings and switch the output image.
  • the image selection unit 114 can select an image to be output based on the frame-by-frame detection result of the detection process for each image. In this case, the image is selected and the output image is switched at the moment when the detection result satisfying the condition to be output is obtained in one frame of the predetermined image.
  • the image selection unit 114 may select an image to be output based on the detection result obtained continuously for a certain period of time in the detection process for each image, or may select an image to be output based on the detection result obtained at a specific frequency. An image to be output may be selected based on the detection result.
  • Selection of images to be output may be performed on multiple images that are being input in real time, or may be performed on multiple images that have been recorded in advance.
  • the selection timing of an image to be output (output image switching timing), selection conditions (switching conditions), and the like are output as metadata.
  • the image selection unit 114 can select two or more images as output targets. Accordingly, the image output/synthesis unit 115 can output a synthesized image obtained by side-by-side synthesis or picture-in-picture synthesis.
  • the image output/synthesis unit 115 can output the selected image from the image selection unit 114 as a through image, and can superimpose a telop, other contents, effects, and the like on the through image.
  • the image output/synthesis unit 115 can output, as an output image, a synthesized image P101 in which a telop 171 is superimposed on the hand image 152, as shown in FIG. 8A.
  • the image output/synthesis unit 115 can synthesize the plurality of selected images based on the plurality of selected images from the image selection unit 114 and the metadata.
  • the image output/synthesis unit 115 synthesizes the PC image 153 with the lecturer image 151 as picture-in-picture as shown in FIG. 8B.
  • the resulting composite image P102 can be output as an output image.
  • the image output/synthesis unit 115 adds the instructor image 151 and the hand image 152 to the PC image 153 as shown in FIG. 8C.
  • the side-by-side composite image P103 can also be output as an output image.
  • the combination and layout of images in each of the combined images P101, P102, and P103 shown in FIG. 8 are not limited to this. Also, the layout of the synthesized images P101, P102, and P103 and the output timing (combination switching timing) may be determined based on the metadata, or may be determined based on the user's instruction.
  • FIG. 9 is a diagram showing a configuration example of an image output system according to the second embodiment of the present disclosure.
  • the image output system 200 is composed of an instructor camera 201 , a hand camera 202 , a foot camera 203 and a switcher 210 .
  • the lecturer camera 201 is a camera that shoots the lecturer L2 as the main subject.
  • the lecturer L2 looks at the lecturer camera 201 and explains or talks to the students.
  • the instructor camera 201 is installed at a camera angle such that the orientation of the body of the instructor L2 when giving an explanation toward the instructor camera 201 is different from the orientation of the body of the instructor L2 when playing the piano. be.
  • the lecturer camera 201 is connected to the switcher 210 , and the lecturer image of the lecturer L2 is output to the switcher 210 .
  • the hand camera 202 is a camera that captures the hand of the lecturer L2 as a shooting range.
  • the hand camera 202 is installed so that the hand of the lecturer L2 and the keyboard of the piano are within the shooting range.
  • the hand camera 202 is connected to the switcher 210 , and a hand image of the hand of the lecturer L ⁇ b>2 is output to the switcher 210 .
  • the foot camera 203 is a camera that captures the feet of the lecturer L2 as a shooting range.
  • the foot camera 203 is installed so that the feet of the lecturer L2 and the pedals of the piano are within the photographing range.
  • the foot camera 203 is connected to the switcher 210 , and a foot image of the instructor L2's feet is output to the switcher 210 .
  • the switcher 210 performs various image analysis, detection processing, recognition processing, etc. corresponding to the images from the instructor camera 201, the hand camera 202, and the foot camera 203, respectively. Based on these processing results, the switcher 210 selects and outputs an image suitable for the progress of the lesson (behavior of the lecturer L2) as an output target.
  • FIG. 10 is a block diagram showing a functional configuration example of the switcher 210. As shown in FIG.
  • the switcher 210 receives as inputs the instructor image from the instructor camera 201, the hand image from the hand camera 202, and the foot image from the foot camera 203, and outputs an output image and its metadata.
  • the switcher 210 includes a body orientation detection section 211 , a hand detection section 212 , an image selection section 213 , and an image output/synthesis section 214 .
  • the body orientation detection unit 211, the hand detection unit 212, the image selection unit 213, and the image output/synthesis unit 214 basically correspond to the body orientation detection unit 111, the hand detection unit 212, and the image output/synthesis unit 214 described with reference to FIG. It has functions similar to those of the hand detection unit 112 , the image selection unit 114 , and the image output/synthesis unit 115 .
  • a metadata generation unit 213m included in the image selection unit 213 basically has the same function as the metadata generation unit 114m described with reference to FIG.
  • the switcher 210 does not perform detection processing on the foot image.
  • the switcher 210 selects the instructor image 251 shown on the left side of FIG. , can be output as the output image.
  • the foot image may be selected while playing the piano.
  • the area of the keyboard that the viewer wants to pay attention to in the hand image is the area of the keyboard. If only the keyboard area is cut out as an output image, the image will have an extremely horizontally long aspect ratio.
  • the instructor image 251 and the foot image 253 are supplied from the image selection unit 213 to the image output/synthesis unit 214 .
  • the flow of image output processing in which the switcher 210 selects and outputs either the instructor image or the hand image is basically the same as the flow of the image output processing described with reference to the flowchart of FIG.
  • the hand image 252 will be output even when the hand is accidentally placed on the keyboard.
  • the hand image 252 in the configuration described above, not only the hand is detected in the hand image 252 but also the orientation of the body is detected in the lecturer image 251 .
  • a speaker detection unit may be provided to detect the speech of the lecturer L2.
  • a conventional general technique may be applied to the speaker detection. For example, face parts may be detected in the lecturer image 251 to detect that the mouth is open, or the voice of lecturer L2 may be detected based on the voice input together with the lecturer image 251. good.
  • a speaker detection unit may be provided instead of the body orientation detection unit 211, or both the body orientation detection unit 211 and the speaker detection unit may be provided.
  • a sound detection unit that detects the sound of a piano, or the sound of a metronome or other musical instrument played in time with the performance of the piano, in response to voices from a microphone (not shown). may be provided.
  • a pedal usage detection unit may be provided for detecting whether or not the pedal is being used for the foot image.
  • a sound detection section or a pedal use detection section may be provided instead of the hand detection section 212, or both the hand detection section 212 and the sound detection section or pedal use detection section may be provided.
  • the image output/synthesis unit 214 cuts out the keyboard region from the hand image 252, and produces the lecturer image 251 and the foot image as shown in FIG. 253 can be output.
  • the combination of images in the synthesized image P201 shown in FIG. 11 is not limited to this, and the hand image 252 selected as an output target may be output as it is. It does not have to be synthesized.
  • FIG. 12 is a diagram showing a configuration example of an image output system according to the third embodiment of the present disclosure.
  • a plurality of images are appropriately switched and output according to the progress of the lesson (behavior of the instructor L3) while the instructor L3 is conducting the lesson of the online cooking class.
  • the image output system 300 is composed of an instructor camera 301, three hand cameras 302A, 302B, and 302C, and a switcher 310.
  • the lecturer camera 301 is a camera that shoots the lecturer L3 as the main subject.
  • the lecturer L3 looks at the lecturer camera 301 and explains or talks to the students.
  • the instructor camera 301 is installed so that the instructor L3, who works while changing his standing position for each kitchen sink, cooking table, stove, etc., is photographed from one camera angle.
  • the lecturer camera 301 is connected to the switcher 310 , and the lecturer image of the lecturer L3 is output to the switcher 310 .
  • Hand cameras 302A, 302B, and 302C are cameras that photograph the hands of instructor L3 as a photographing range.
  • Hand cameras 302A, 302B, and 302C capture images of instructor L3 cooking.
  • the hand camera 302A is installed so that the hand of the lecturer L3 working in front of the sink, cooking utensils such as a cutting board, and the like are within the photographing range.
  • the hand camera 302B is installed so that the hands of the instructor L3 working in front of the cooking table, cooking utensils such as bowls, and the like are within the photographing range.
  • the hand camera 302C is installed so that the hand of the instructor L3 who is working in front of the stove, cooking utensils such as a frying pan, and the like are within the imaging range.
  • the hand cameras 302A, 302B, and 302C are connected to the switcher 310, and the hand images of the hands of the lecturer L3 are output to the switcher 310.
  • the switcher 310 performs various image analysis, detection processing, recognition processing, etc. corresponding to the images from the instructor camera 301 and the hand cameras 302A, 302B, and 302C. Based on these processing results, the switcher 310 selects and outputs an image appropriate for the progress of the lesson (behavior of the lecturer L3) as an output target.
  • FIG. 13 is a block diagram showing a functional configuration example of the switcher 310. As shown in FIG.
  • the switcher 310 receives the instructor image from the instructor camera 301 and the hand images from the hand cameras 302A, 302B, and 302C as inputs, and outputs output images and their metadata.
  • the switcher 310 includes a body position detection section 311 , cooking utensil detection sections 312 , 313 and 314 , an image selection section 315 , and an image output/synthesis section 316 .
  • image selection unit 315 and the image output/synthesis unit 316 basically have the same functions as the image selection unit 114 and the image output/synthesis unit 115 described with reference to FIG.
  • a metadata generation unit 315m included in the image selection unit 315 basically has the same function as the metadata generation unit 114m described with reference to FIG.
  • the body position detection unit 311 performs body position detection processing to detect the body position of the lecturer L3 in the lecturer image input to the switcher 310 and supplies the detection result to the image selection unit 315 .
  • Body position detection processing finds the skeleton of a person by using skeleton estimation technology using general deep learning, etc., and detects the position of the body by specifying the position of the skeleton. It is a process to The detection result of the body position detection process is indicated by position (x, y, z), angle (picth, yaw, row), etc., for example, by defining an arbitrary coordinate system and reference point.
  • the position of the instructor L3's body detected by the body position detection process is necessary to associate with the positions of a plurality of cooking utensils, which will be described later. Therefore, in the same coordinate system, the position of the cooking utensil in the range of the body position (x, y, z) and the angle (picth, yaw, row) of the instructor L3 is determined in advance by calibration. be set.
  • the range is set by a user's operation such as enclosing a predetermined area of the instructor image with a frame or by clicking a predetermined position, or the value is set by automatically recognizing the cooking utensils shown in the instructor image. It may be done.
  • Cooking utensils that are automatically recognized here include fixed-position kitchen sinks, countertops, and cutting boards, bowls, frying pans, and pots that are used relatively immobile on the stove.
  • the position of the body of the instructor L3 and the position of each cooking utensil may be associated with each other by automatically recognizing the cooking utensils appearing in the instructor image and the cooking utensils appearing in the images at hand.
  • the cooking utensil detection units 312 , 313 , and 314 perform cooking utensil detection processing for detecting the presence or absence of cooking utensils in the hand image input to the switcher 310 and supply the detection results to the image selection unit 315 .
  • the cooking utensil detection process includes the cooking utensils used relatively stationary on the kitchen sink, countertop, and stove as described above, as well as the corresponding knives and tongs that basically move together with the hand of instructor L3. , cooking utensils such as chopsticks.
  • a conventional general object recognition technique using deep learning or the like is used in the cookware detection process.
  • the detection result of cooking utensils that are used relatively unmoved is used for coordinate matching and position correspondence between the above-described instructor image and hand image.
  • the detection result of cooking utensils that basically move together with the hand of lecturer L3 is used for selecting (switching) hand images in which those cooking utensils are detected.
  • the switcher 310 displays the instructor image 351 when the instructor L4 is speaking toward the instructor camera 301, and switches to Any one of the hand images 352A, 352B, and 352C can be selected and output as an output image.
  • the images 352B and 352C at hand are synthesized with telops and output.
  • FIG. 15 is a flowchart for explaining the flow of image output processing for selecting and outputting one of the instructor image 351 and the hand images 352A, 352B, and 352C.
  • step S111 the cookware detection units 312, 313, and 314 of the switcher 310 perform cookware detection processing on the hand images 352A, 352B, and 352C, respectively.
  • step S112 the cooking utensil detection units 312, 313, and 314 determine whether cooking utensils have been detected in any of the hand images 352A, 352B, and 352C based on the detection results of the cooking utensil detection process.
  • Cooking utensils to be detected here are cooking utensils such as kitchen knives, tongs, and chopsticks that basically move together with the hand of instructor L3. If it is determined that cooking utensils have been detected in any of the hand images 352A, 352B, and 352C, the process proceeds to step S113.
  • step S ⁇ b>113 the body position detection unit 311 performs body position detection processing on the lecturer image 351 .
  • step S114 the body position detection unit 311 determines whether the instructor L3 is in front of any cooking utensil based on the detection result of the body position detection process. Specifically, it is determined whether or not the instructor L3 is in front of any of the cutting boards, bowls, frying pans, pots, etc. that are used relatively unmoved. If it is determined that instructor L3 is in front of any cookware, the process proceeds to step S115.
  • step S115 the image selection unit 315 selects the hand image corresponding to the position of the body as an output target. For example, when it is determined that instructor L3 is in front of the chopping board above the sink, hand image 352A from hand camera 302A whose shooting range is the sink is selected as an output target.
  • step S112 determines whether cooking utensils are not detected in any of the images at hand, or if it is determined in step S114 that instructor L3 is not in front of any cooking utensils. If it is determined in step S112 that cooking utensils are not detected in any of the images at hand, or if it is determined in step S114 that instructor L3 is not in front of any cooking utensils, the process proceeds to step S116. .
  • step S116 the image selection unit 315 selects the lecturer image 351 as an output target.
  • step S117 the image output/synthesis unit 316 outputs the image selected by the image selection unit 315 as an output target.
  • the image at hand will be output even when a kitchen knife is placed on a cutting board.
  • the cookware for example, kitchen knife
  • the body position of the instructor L3 is detected in the instructor image 351 .
  • a hand detection unit may be provided to detect the hand of the lecturer L3 in each of the hand images 352A, 352B, and 352C.
  • hand detection units instead of each of the cooking utensil detection units 312, 313, and 314 that detect cooking utensils that basically move together with the hands of the lecturer L3, hand detection units may be provided, or the cooking utensil detection units 312 and 313 may be provided. , 314 and a hand detector may be provided.
  • the image selection unit 315 uses the skeleton obtained from the instructor image by the body position detection unit 311 to estimate a posture such as a hand reaching for food at a position corresponding to each hand image.
  • a posture such as a hand reaching for food at a position corresponding to each hand image.
  • the hand image corresponding to the position (coordinates) to which the is extended may be selected.
  • the image output/synthesis unit 316 outputs the selected image from the image selection unit 315 as a through image, and superimposes a telop or the like on the through image, such as the hand images 352B and 352C in FIG. be able to.
  • the image output/synthesis unit 316 performs picture-in-picture synthesis or side-by-side synthesis of either the instructor image or the hand image, for example, based on the plurality of selected images and the metadata from the image selection unit 315.
  • a composite image may be output.
  • a composite image may be output in which images of the hands of the respective instructors are displayed at the same time.
  • the layout of these synthesized images and the output timing may be determined based on metadata or may be determined based on a user's instruction.
  • FIG. 16 is a diagram illustrating a configuration example of an image output system according to the fourth embodiment of the present disclosure.
  • the image output system 400 is composed of an instructor camera 401 , a hand camera 402 and a switcher 410 .
  • the lecturer camera 401 is a camera that shoots the lecturer L4 as the main subject.
  • the lecturer L4 looks at the lecturer camera 401 and explains or talks to the students.
  • the lecturer camera 401 is set so that the orientation of the body of the lecturer L4 when giving an explanation toward the lecturer camera 401 is different from the orientation of the body of the lecturer L4 when working on the lecture desk. Installed.
  • the lecturer camera 401 is connected to the switcher 410 , and the lecturer image of the lecturer L4 is output to the switcher 410 .
  • the hand camera 402 is a camera that captures the hand of the lecturer L4 as a shooting range.
  • the camera at hand 402 is configured as a document camera, and the camera at hand 402 captures the text and writing utensils on the lecturer's table, and how the lecturer L4 writes on them.
  • the hand camera 402 is connected to the switcher 410 , and a hand image of the hand of the lecturer L ⁇ b>4 is output to the switcher 410 .
  • the switcher 410 is configured by a PC. This eliminates the need for the switcher 410 to accept PC images as input from the outside.
  • the switcher 410 is connected via the network NW to a PC 420 used by a student U4 who is taking an online lecture (a student listening to lecturer L4's speech). From the PC 420 , a student image centering on the student U 4 photographed by a PC camera incorporated in the PC 420 is input to the switcher 410 .
  • the switcher 410 performs various image analysis, detection processing, recognition processing, etc. corresponding to the images from the instructor camera 401, the hand camera 402, and the PC 420, respectively. Based on these processing results, the switcher 410 selects and outputs an image suitable for the progress of the online lecture (behavior of lecturer L4) as an output target.
  • FIG. 17 is a block diagram showing a functional configuration example of the switcher 410. As shown in FIG.
  • the switcher 410 receives as input the instructor image from the instructor camera 401, the hand image from the hand camera 402, and the student image from the PC 420, and outputs the output image and its metadata. Note that the description of the PC image of the main body of the switcher 410 (PC) is omitted here.
  • the switcher 410 includes a body orientation detection unit 411 , an object detection unit 412 , a speaker detection unit 413 , a body orientation detection unit 414 , an image selection unit 415 , and an image output/synthesis unit 416 .
  • image selection unit 415 and the image output/synthesis unit 416 basically have the same functions as the image selection unit 114 and the image output/synthesis unit 115 described with reference to FIG.
  • a metadata generation unit 415m included in the image selection unit 415 basically has the same function as the metadata generation unit 114m described with reference to FIG.
  • the body orientation detection unit 411 performs body orientation detection processing for detecting the orientation of the body of the instructor L4 in the instructor image input to the switcher 410 and supplies the detection result to the image selection unit 415 .
  • the object detection unit 412 performs object detection processing to detect whether or not an object to be shown to the student U4 appears in the hand image input to the switcher 410, and supplies the detection result to the image selection unit 415.
  • Objects to be detected here are texts, printed matter, writing utensils, and other educational materials.
  • the speaker detection unit 413 performs speaker detection processing to detect the utterance of the student U4 in the student image input to the switcher 410, and supplies the detection result to the image selection unit 415.
  • the speaker detection unit 413 may, for example, detect facial parts in the student image to detect that the student's mouth is open. U4's voice may be detected.
  • the body orientation detection unit 414 performs body orientation detection processing to detect the body orientation of the student U4 in the student image input to the switcher 410, and supplies the detection result to the image selection unit 415.
  • the switcher 410 can select at least one of the instructor image, the hand image, and the student image and output it as an output image.
  • step S211 the object detection unit 412 of the switcher 410 performs object detection processing on the hand image.
  • step S212 the object detection unit 412 determines whether an object has been detected in the hand image based on the detection result of the object detection process. Specifically, it is determined whether or not texts, printed materials, writing utensils, and other teaching materials have been detected on the teacher's desk. If it is determined that these objects have been detected, the process proceeds to step S213.
  • step S213 the body orientation detection unit 411 performs body orientation detection processing on the lecturer image.
  • step S214 the body orientation detection unit 411 determines whether the body of the instructor L4 is facing the direction in which the instructor L4 is working, based on the detection result of the body orientation detection processing. It is determined whether or not the posture is for giving an explanation. If it is determined that it faces the direction of working at hand, the process proceeds to step S215.
  • step S215 the image selection unit 415 selects the hand image as an output target.
  • step S212 determines whether an object has been detected, or if it is determined in step S214 that the body is not facing the direction of working at hand, the process proceeds to step S216.
  • step S16 the image selection unit 114 selects the lecturer image as an output target.
  • step S217 the image output/synthesis unit 416 outputs the image selected by the image selection unit 415 as an output target.
  • the image at hand will be output even if the text or printed matter is placed on the lecturer's desk.
  • the above-described processing not only the text and printed matter are detected in the image at hand, but also the orientation of the body is detected in the lecturer image.
  • the image output system 400 of this embodiment in addition to the instructor image and hand image, the student image is output as an output target according to the detection results of the speaker detection processing and the body direction detection processing for the student image. It can also be selected.
  • FIG. 19 is a flowchart for explaining the flow of student image selection. The processing of FIG. 19 can be executed in parallel with the image output processing described with reference to the flowchart of FIG.
  • step S231 the speaker detection unit 413 performs speaker detection processing on the student image.
  • step S232 the speaker detection unit 413 determines whether or not the utterance of student U4 has been detected based on the detection result of the speaker detection process. If it is determined that student U4's speech has been detected, the process proceeds to step S233.
  • step S233 the body orientation detection unit 414 performs body orientation detection processing on the student image.
  • step S234 the body orientation detection unit 414 determines whether or not the student U4's body is facing the PC camera of the PC 420 based on the detection result of the body orientation detection processing. If it is determined that the camera is directed toward the PC camera, the process proceeds to step S235.
  • step S235 the image selection unit 415 selects the student image as an output target.
  • the image selection unit 415 may select the lecturer image as output targets together with the student image, or both the lecturer image and the hand image may be selected as output targets.
  • step S235 is skipped. That is, the student image is not selected as an output target.
  • the student image is output as an output image, and even in the online lecture, smooth communication between the lecturer L4 and the student U4 at a remote location can be realized. can.
  • the object detection unit 412 does not detect an object by image processing, but uses sensor data from a physical sensor to detect an object in a work area such as a classroom. It may detect that an object is placed.
  • the object detection unit 412 uses OCR (Optical Character Recognition) technology to recognize characters printed on text or printed matter, or handwritten characters written by the lecturer L4, so that the object to be shown to the student U4 is identified. It may be detected whether or not the image is displayed. Furthermore, in this case, actions such as writing and erasing of characters performed in time series may be detected.
  • OCR Optical Character Recognition
  • a hand detection unit may be provided to detect the hand of the instructor L4 in the hand image, or a body position detection unit may be provided to detect the body position of the instructor L4 in the instructor image. may be detected.
  • a face orientation detection unit may be provided to detect the orientation of the instructor L4's face in the instructor image and the orientation of the student U4 in the student image. .
  • the image selection unit 415 may select an image based on the result of recognition of a specific facial expression or emotion by performing facial expression recognition or emotion recognition on the student image.
  • the image output/synthesis unit 416 can output at least one of the instructor image, the hand image, and the student image as an output image.
  • the image output/synthesis unit 416 when the lecturer image is selected as an output target, the image output/synthesis unit 416 outputs only the lecturer image as an output image, or outputs the lecturer image 451 as shown on the left side of FIG.
  • a composite image P401 obtained by combining at least one student image 461 may be output as an output image.
  • the image output/synthesis unit 416 outputs only the hand image as an output image, or outputs the hand image 452 as shown on the right side of FIG.
  • a composite image P402 obtained by combining the lecturer image 451 and at least one student image 461 may be output as an output image.
  • the image output/synthesis unit 416 outputs only the student image in which the student who speaks is shown (not shown), or outputs the student image.
  • a composite image obtained by combining an image with an image of the instructor, an image at hand, and an image of a student in which another student is shown may be output as an output image.
  • the combination and layout of images in each of the synthesized images P401 and P402 shown in FIG. 20 are not limited to this. Also, the layout of the synthesized images P401 and P402 and the output timing (combination switching timing) may be determined based on the metadata, or may be determined based on the user's instruction.
  • the subject of the lecturer image as the person image is one lecturer, but there may be a plurality of lecturers.
  • a plurality of lecturer images obtained by photographing each lecturer as a subject are input to the switcher.
  • the switcher performs similar detection processing on each of the plurality of lecturer images, and selects the lecturer image to be output based on the respective detection results.
  • all instructor images input to the switcher are selected as output images
  • all instructor images may be output as output images.
  • An image may be identified.
  • a priority may be given to the teacher's face registered in advance, and the teacher image to be output may be specified based on the priority given to the face recognized in the teacher image. .
  • a priority may be given to each camera that captures the lecturer, and the lecturer image to be output may be specified based on the priority given to the camera that captured the lecturer image.
  • priority is assigned to each instructor image in the order of the time when the instructor starts appearing in each instructor image. good.
  • the switcher (image output device) is provided in an on-premises environment together with each camera. Not limited to this, some functions of the switcher may be provided in the cloud environment.
  • the image selection unit and the image output/synthesis unit included in the switcher may be provided in the cloud environment.
  • detection processing for images captured by each camera is performed in an edge environment. From the edge environment, each image and the detection result of detection processing for each image are uploaded to the cloud environment. In the cloud environment, an image to be output is selected based on the image from the edge environment and the detection result.
  • FIG. 21 is a block diagram showing a hardware configuration example of a computer that executes the series of processes described above by a program.
  • a switcher as an image output device to which the technology according to the present disclosure can be applied is implemented by a computer 500 having the configuration shown in FIG.
  • the CPU 501 , ROM (Read Only Memory) 502 and RAM (Random Access Memory) 503 are interconnected by a bus 504 .
  • An input/output interface 505 is further connected to the bus 504 .
  • the input/output interface 505 is connected to an input unit 506 such as a keyboard and a mouse, and an output unit 507 such as a display and a speaker.
  • the input/output interface 505 is also connected to a storage unit 508 including a hard disk or nonvolatile memory, a communication unit 509 including a network interface, and a drive 510 for driving a removable medium 511 .
  • the CPU 501 loads a program stored in the storage unit 508 into the RAM 503 via the input/output interface 505 and the bus 504 and executes the above-described series of processes. is done.
  • the programs executed by the CPU 501 are recorded on the removable media 511, or provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital broadcasting, and installed in the storage unit 508.
  • the program executed by the computer may be a program in which processing is performed in chronological order according to the order described in this specification, or in parallel or at a necessary timing such as when a call is made. It may be a program in which processing is performed.
  • An image output device comprising: an image selection unit that selects one or more images to be output based on detection results obtained by different types of detection processing for each of a plurality of images.
  • the image selection unit selects at least one of the first image and the second image based on the state of the person in the first image and the state of the object in the second image as the detection result. , is selected as the output target.
  • the image output apparatus according to (1).
  • the image output apparatus according to (2) wherein the image of 2 is selected as the output target.
  • the first image is a person image photographed with the person as a center subject;
  • the image output apparatus according to (2) wherein the state of the person includes at least one of posture, position, and presence or absence of speech of the person.
  • the second image includes a hand image in which the hand of the person is a shooting range;
  • the image output device according to (2) wherein the state of the object includes at least one of presence/absence, number, position, orientation, and shape of the object.
  • the image output device according to (5), wherein the object is the person's hand.
  • the second image includes a display screen of a computer operated by the person;
  • the image output device according to (2) wherein the state of the object includes a change in the display screen.
  • the second image includes a listener image centering on the listener who listens to the person's utterance via a network;
  • the image output device according to (2) wherein the state of the object includes at least one of the posture of the listener and the presence or absence of speech.
  • (11) further comprising an image output unit that outputs the image selected as the output target,
  • the image output device according to any one of (1) to (10), wherein, when two or more of the images are selected as the output target, the image output unit synthesizes and outputs the two or more images.
  • the image output apparatus according to (11), wherein the image output unit outputs the image based on metadata of the image selected as the output target.
  • the image output unit outputs the image at timing based on the metadata.
  • (12) The image output device according to (12), wherein, when two or more of the images are selected as the output targets, the image output unit synthesizes the two or more images in a layout based on the metadata.
  • the image selection unit generates the metadata including the detection result, The image output device according to (12), wherein the image output unit outputs the image based on the metadata generated by the image selection unit.
  • the image output apparatus according to any one of (1) to (15), wherein the image selection unit selects the image to be output based on the detection result for each frame.
  • the image output device according to any one of (1) to (15), wherein the image selection unit selects the image to be output based on the detection result continuously obtained for a certain period of time.
  • the image output apparatus according to any one of (1) to (18), further comprising a plurality of detection units that perform different types of detection processing on each of the plurality of images.
  • the image output device An image output method, comprising: selecting one or more images to be output based on detection results obtained by different types of detection processing for each of a plurality of images.

Abstract

The present disclosure pertains to an image output device, an image output method, and a program that enable more suitable switching of different types of images. An image selection unit selects at least one image to be outputted, on the basis of a detection result obtained by performing a different type of a detection process on each of a plurality of images. The feature of the present disclosure can be applied to, for example, a switcher.

Description

画像出力装置、画像出力方法、およびプログラムImage output device, image output method, and program
 本開示は、画像出力装置、画像出力方法、およびプログラムに関し、特に、より好適に異なる種類の画像の切り替えを実現することができるようにした画像出力装置、画像出力方法、およびプログラムに関する。 The present disclosure relates to an image output device, an image output method, and a program, and more particularly to an image output device, an image output method, and a program that enable more suitable switching between different types of images.
 一般的に、講義やレッスン、商品レビューなどの動画像は、講師だけを被写体としたカットだけでなく、講師の手元にある物体や手元での作業の様子を撮影したカット、PC操作を伝えるためのPC画像などを組み合わせて構成されることが多い。このような動画像を撮影・作成するユーザは、複数のカメラ入力を講義などの進行に合わせて適切に切り替え・編集する必要がある。 In general, video images of lectures, lessons, product reviews, etc. are not only shots with only the instructor as the subject, but also shots of objects in the instructor's hands and the state of work at hand, and to convey PC operations. It is often constructed by combining the PC images of the A user who shoots and creates such moving images needs to appropriately switch and edit a plurality of camera inputs according to the progress of a lecture or the like.
 特許文献1および特許文献2には、複数の動画像を入力として受け付け、適切に切り替える技術が開示されている。いずれも、ユーザの視線を検出し、視線の先に対応するカメラからの画像を特定して出力するものである。 Patent Literature 1 and Patent Literature 2 disclose techniques for accepting a plurality of moving images as input and appropriately switching between them. In either case, the line of sight of the user is detected, and the image from the camera corresponding to the line of sight is specified and output.
 視線を正しく検出するためには、ユーザの顔が、視線検出用のカメラに対してある程度正面を向くように固定される必要がある。特許文献1の構成では、ユーザがヘッドマウントディスプレイを装着する必要があり、特許文献2の構成では、ユーザが常にカメラに対面していることが前提となる。講義やレッスン、商品レビューなどにおいて、これらの制約は、講師のパフォーマンスや講義などの進行を妨げる要因となる。  In order to detect the line of sight correctly, the user's face must be fixed so that it faces the front to some extent with respect to the camera for detecting the line of sight. The configuration of Patent Document 1 requires the user to wear the head-mounted display, and the configuration of Patent Document 2 assumes that the user is always facing the camera. In lectures, lessons, product reviews, etc., these restrictions are factors that hinder the performance of lecturers and the progress of lectures.
国際公開第2017/145645号WO2017/145645 特開2010-161655号公報JP 2010-161655 A
 複数の動画像を入力として受け付け、適切に切り替える構成として、監視カメラシステムも挙げられる。監視カメラシステムにおいては、複数のカメラ画像に対して一律な異常検知処理などを行うことで、異常などが検知されたカメラ画像が選択される。 A surveillance camera system can also be cited as a configuration that accepts multiple moving images as input and switches them appropriately. In a monitoring camera system, a uniform abnormality detection process or the like is performed on a plurality of camera images, and a camera image in which an abnormality or the like is detected is selected.
 しかしながら、必ずしも、ユーザひいては視聴者にとって適切に画像を切り替えることはできなかった。 However, it was not always possible to switch the images appropriately for the user and the viewer.
 本開示は、このような状況に鑑みてなされたものであり、より好適に異なる種類の画像の切り替えを実現することができるようにするものである。 The present disclosure has been made in view of such circumstances, and is intended to make it possible to switch between different types of images in a more suitable manner.
 本開示の画像出力装置は、複数の画像それぞれに対する異なる種類の検出処理による検出結果に基づいて、出力対象とする1以上の前記画像を選択する画像選択部を備える画像出力装置である。 The image output device of the present disclosure is an image output device including an image selection unit that selects one or more images to be output based on detection results obtained by different types of detection processing for each of a plurality of images.
 本開示の画像出力方法は、画像出力装置が、複数の画像それぞれに対する異なる種類の検出処理による検出結果に基づいて、出力対象とする1以上の前記画像を選択する画像出力方法である。 The image output method of the present disclosure is an image output method in which an image output device selects one or more images to be output based on detection results of different types of detection processes for each of a plurality of images.
 本開示のプログラムは、コンピュータに、複数の画像それぞれに対する異なる種類の検出処理による検出結果に基づいて、出力対象とする1以上の前記画像を選択する処理を実行させるためのプログラムである。 The program of the present disclosure is a program for causing a computer to execute processing for selecting one or more images to be output based on detection results obtained by different types of detection processing for each of a plurality of images.
 本開示においては、複数の画像それぞれに対する異なる種類の検出処理による検出結果に基づいて、出力対象とする1以上の前記画像が選択される。 In the present disclosure, one or more images to be output are selected based on detection results obtained by different types of detection processing for each of the plurality of images.
本開示に係る技術を適用した画像出力装置の構成例を示すブロック図である。1 is a block diagram showing a configuration example of an image output device to which technology according to the present disclosure is applied; FIG. 本開示の第1の実施形態に係る画像出力システムの構成例を示す図である。1 is a diagram illustrating a configuration example of an image output system according to a first embodiment of the present disclosure; FIG. スイッチャの機能構成例を示すブロック図である。3 is a block diagram showing a functional configuration example of a switcher; FIG. 出力画像の例を示す図である。FIG. 10 is a diagram showing an example of an output image; FIG. 画像出力処理の流れについて説明するフローチャートである。4 is a flowchart for explaining the flow of image output processing; 画像出力処理の流れについて説明するフローチャートである。4 is a flowchart for explaining the flow of image output processing; 画像出力処理の流れについて説明するフローチャートである。4 is a flowchart for explaining the flow of image output processing; 合成画像の例を示す図である。FIG. 10 is a diagram showing an example of a synthesized image; FIG. 本開示の第2の実施形態に係る画像出力システムの構成例を示す図である。It is a figure which shows the structural example of the image output system which concerns on 2nd Embodiment of this indication. スイッチャの機能構成例を示すブロック図である。3 is a block diagram showing a functional configuration example of a switcher; FIG. 出力画像の例を示す図である。FIG. 10 is a diagram showing an example of an output image; FIG. 本開示の第3の実施形態に係る画像出力システムの構成例を示す図である。FIG. 11 is a diagram illustrating a configuration example of an image output system according to a third embodiment of the present disclosure; FIG. スイッチャの機能構成例を示すブロック図である。3 is a block diagram showing a functional configuration example of a switcher; FIG. 出力画像の例を示す図である。FIG. 10 is a diagram showing an example of an output image; FIG. 画像出力処理の流れについて説明するフローチャートである。4 is a flowchart for explaining the flow of image output processing; 本開示の第4の実施形態に係る画像出力システムの構成例を示す図である。FIG. 12 is a diagram illustrating a configuration example of an image output system according to a fourth embodiment of the present disclosure; FIG. スイッチャ(PC)の機能構成例を示すブロック図である。3 is a block diagram showing a functional configuration example of a switcher (PC); FIG. 画像出力処理の流れについて説明するフローチャートである。4 is a flowchart for explaining the flow of image output processing; 受講者画像の選択の流れについて説明するフローチャートである。10 is a flowchart for explaining the flow of student image selection; 合成画像の例を示す図である。FIG. 10 is a diagram showing an example of a synthesized image; FIG. コンピュータのハードウェアの構成例を示すブロック図である。It is a block diagram which shows the structural example of the hardware of a computer.
 以下、本開示を実施するための形態(以下、実施形態とする)について説明する。なお、説明は以下の順序で行う。 Hereinafter, modes for carrying out the present disclosure (hereinafter referred to as embodiments) will be described. The description will be given in the following order.
 1.本開示に係る技術の概要
 2.第1の実施形態(商品レビューへの適用例)
 3.第2の実施形態(ピアノのレッスンへの適用例)
 4.第3の実施形態(料理のレッスンへの適用例)
 5.第4の実施形態(オンライン講義への適用例)
 6.変形例
 7.コンピュータの構成例
1. Outline of technology according to the present disclosure 2 . 1st embodiment (example of application to product review)
3. Second embodiment (example of application to piano lessons)
4. Third Embodiment (Example of Application to Cooking Lessons)
5. Fourth embodiment (example of application to online lectures)
6. Modification 7. Computer configuration example
<1.本開示に係る技術の概要>
 本開示に係る技術は、動画像(以下、単に画像という)を用いた講義、レッスン、商品レビューなどをライブ配信したり、それらの画像を編集したりするシステムにおいて、複数の画像を、講義などの進行(講師の振る舞い)に応じて適切に切り替え・出力することを実現するものである。
<1. Overview of technology according to the present disclosure>
The technology according to the present disclosure is a system for live distribution of lectures, lessons, product reviews, etc. using moving images (hereinafter simply referred to as images), and for editing these images. It realizes appropriate switching and output according to the progress of the lecture (instructor's behavior).
 図1は、本開示に係る技術を適用した画像出力装置の構成例を示すブロック図である。 FIG. 1 is a block diagram showing a configuration example of an image output device to which technology according to the present disclosure is applied.
 図1の画像出力装置10は、複数のカメラにより撮影された複数の画像を入力として受け付け、画像それぞれに対する異なる種類の検出処理を行い、それらの検出結果に基づいて、出力対象とする画像を選択して出力する。 The image output device 10 of FIG. 1 accepts as input a plurality of images captured by a plurality of cameras, performs different types of detection processing on each image, and selects an image to be output based on the detection results. and output.
 画像出力装置10に入力される画像のうちの少なくとも1つは、人物を被写体とした人物画像(第1の画像)であり、それ以外は、任意のオブジェクトを被写体としたオブジェクト画像(第2の画像)である。ここでいう人物は、例えば、講義やレッスン、商品レビューなどを行う講師とされ、オブジェクトは、例えば、その講師の手や講師が扱う各種の物体などとされる。 At least one of the images input to the image output device 10 is a person image (first image) with a person as the subject, and the other images are object images (second image) with an arbitrary object as the subject. image). The person here is, for example, a lecturer who gives lectures, lessons, product reviews, etc., and the object is, for example, the hands of the lecturer or various objects handled by the lecturer.
 また、オブジェクト画像には、その講師が操作するコンピュータの表示画面や、ネットワークを介してその講師の発話を聴講する聴講者を中心の被写体とした聴講者画像も含まれる。 The object images also include the display screen of the computer operated by the lecturer, and the audience image centering on the audience listening to the lecturer's speech over the network.
 すなわち、画像出力装置10に入力される画像は、それぞれ異なる種類の画像といえる。 That is, the images input to the image output device 10 can be said to be different types of images.
 画像出力装置10は、状態検出部11,12,13、画像選択部14、および画像出力・合成部15を備えている。 The image output device 10 includes state detection units 11 , 12 , 13 , an image selection unit 14 , and an image output/synthesis unit 15 .
 状態検出部11,12,13は、画像出力装置10に入力される複数の画像それぞれに対して、異なる種類の検出処理を実行する。 The state detection units 11, 12, and 13 perform different types of detection processing on each of the plurality of images input to the image output device 10.
 状態検出部11は、画像出力装置10に入力される人物画像における人物の状態を検出し、その検出結果を、画像選択部14に供給する。状態検出部11により検出される人物の状態には、人物の姿勢、位置、および、発話の有無の少なくともいずれかが含まれる。 The state detection unit 11 detects the state of the person in the person image input to the image output device 10 and supplies the detection result to the image selection unit 14 . The person's state detected by the state detection unit 11 includes at least one of the person's posture, position, and presence/absence of speech.
 状態検出部12,13はそれぞれ、画像出力装置10に入力されるオブジェクト画像におけるオブジェクトの状態を検出し、その検出結果を、画像選択部14に供給する。 The state detection units 12 and 13 each detect the state of the object in the object image input to the image output device 10 and supply the detection result to the image selection unit 14 .
 状態検出部12による検出処理の対象となるオブジェクト画像と、状態検出部13による検出処理の対象となるオブジェクト画像は、それぞれ異なるオブジェクトを被写体とした画像であったり、人物が操作するPC(Personal Computer)の表示画面(PC画像)であったりする。 The object image targeted for detection processing by the state detection unit 12 and the object image targeted for detection processing by the state detection unit 13 may be images with different objects as subjects, or personal computers (PCs) operated by people. ) is a display screen (PC image).
 したがって、状態検出部12,13により検出されるオブジェクトの状態は、オブジェクトの有無、数、位置、向き、および形状の少なくともいずれかであったり、講師が操作するPCの表示画面の変化であったりする。また、状態検出部12,13により検出されるオブジェクトの状態は、音声検出結果であってもよいし、ネットワークを介して入力された聴講者画像における聴講者の姿勢、および、発話の有無の少なくともいずれかであってもよい。 Therefore, the state of the object detected by the state detection units 12 and 13 is at least one of the presence/absence, number, position, orientation, and shape of the object, or changes in the display screen of the PC operated by the instructor. do. The state of the object detected by the state detection units 12 and 13 may be the result of voice detection, or at least the attitude of the listener in the image of the listener input via the network and the presence or absence of speech. It can be either.
 画像選択部14は、状態検出部11,12,13それぞれからの検出結果に基づいて、画像出力装置10に入力される人物画像とオブジェクト画像の中から、出力対象とする1以上の画像を選択する。特に、画像選択部14は、オブジェクト画像におけるオブジェクトの状態が所定の条件を満たし、かつ、人物画像における人物の状態がオブジェクトとの所定の関連性を示す場合、オブジェクト画像を出力対象として選択する。例えば、オブジェクト画像においてオブジェクトが検出され、かつ、人物画像において人物がオブジェクトの方向を向いていたり、オブジェクトの近くに位置する場合に、オブジェクト画像が出力対象として選択される。選択された画像(選択画像)は、画像出力・合成部15に供給される。 The image selection unit 14 selects one or more images to be output from the person image and the object image input to the image output device 10 based on the detection results from the state detection units 11, 12, and 13. do. In particular, the image selection unit 14 selects the object image as an output target when the state of the object in the object image satisfies a predetermined condition and the state of the person in the person image indicates a predetermined relationship with the object. For example, when an object is detected in the object image and the person in the person image faces the object or is positioned near the object, the object image is selected as an output target. The selected image (selected image) is supplied to the image output/synthesis section 15 .
 画像選択部14は、メタデータ生成部14mを有している。メタデータ生成部14mは、画像選択部14において出力対象として選択された選択画像のメタデータを生成し、画像出力・合成部15に供給する。このメタデータには、出力対象として選択された選択画像に対する検出処理による検出結果として、その画像から何が検出されたか、検出された対象の状態、検出の条件のほか、選択画像の切り替えタイミングなどが含まれる。 The image selection unit 14 has a metadata generation unit 14m. The metadata generation unit 14 m generates metadata of the selected image selected as an output target by the image selection unit 14 and supplies the metadata to the image output/synthesis unit 15 . This metadata includes what was detected from the image, the state of the detected object, the detection conditions, the timing of switching the selected image, etc. is included.
 画像出力・合成部15は、画像選択部14において出力対象として選択された画像を、出力画像として出力する画像出力部として機能する。画像選択部14において出力対象として2以上の画像が選択された場合、画像出力・合成部15は、その2以上の画像を合成した合成画像を出力する。 The image output/synthesis unit 15 functions as an image output unit that outputs an image selected as an output target by the image selection unit 14 as an output image. When two or more images are selected as output targets in the image selection unit 14, the image output/synthesis unit 15 outputs a synthesized image obtained by synthesizing the two or more images.
 画像出力・合成部15は、メタデータ生成部14mからのメタデータに基づいて、出力画像を出力する。例えば、画像出力・合成部15は、メタデータに基づいたタイミングで出力画像を出力したり、2以上の選択画像が選択された場合には、メタデータに基づいたレイアウトで選択画像を合成したりする。画像出力・合成部15は、出力画像とそのメタデータを出力する。出力画像のメタデータには、メタデータ生成部14mからのメタデータに加え、合成画像のレイアウト情報などが含まれる。 The image output/synthesis unit 15 outputs an output image based on the metadata from the metadata generation unit 14m. For example, the image output/synthesis unit 15 outputs an output image at timing based on the metadata, or synthesizes the selected images in a layout based on the metadata when two or more selected images are selected. do. The image output/synthesis unit 15 outputs an output image and its metadata. The metadata of the output image includes the layout information of the synthesized image and the like in addition to the metadata from the metadata generation unit 14m.
 画像出力装置10から出力された出力画像は、インターネットなどのネットワークを介してライブ配信されたり、動画像編集のための編集装置などに供給されたりする。また、出力画像のメタデータは、画像出力装置10に着脱可能に装着される記録媒体に記録されたり、画像出力装置10が備える図示せぬ記録部に記録されてもよい。このようにして記録されたメタデータは、出力画像の編集などに用いることができる。 An output image output from the image output device 10 is live-delivered via a network such as the Internet, or supplied to an editing device or the like for editing moving images. Further, the metadata of the output image may be recorded on a recording medium detachably attached to the image output device 10 or recorded in a recording unit (not shown) provided in the image output device 10 . The metadata recorded in this way can be used for editing the output image.
 以上の構成により、人物画像やオブジェクト画像を、講義などの進行に応じて適切に切り替え・出力することが可能となる。 With the above configuration, it is possible to appropriately switch and output human images and object images according to the progress of lectures and the like.
 なお、図1の例では、画像出力装置10に入力される画像に、人物画像が含まれるものとしたが、異なる人物を被写体とした複数の人物画像が含まれてもよいし、画像出力装置10に入力される画像全てが、オブジェクト画像であってもよい。 In the example of FIG. 1, the image input to the image output device 10 includes a portrait image, but may include a plurality of portrait images with different subjects as subjects, and the image output device 10 may All images input to 10 may be object images.
 以下、本開示に係る技術を適用した画像出力システムの実施形態について説明する。 An embodiment of an image output system to which the technology according to the present disclosure is applied will be described below.
<2.第1の実施形態>
(画像出力システムの構成例)
 図2は、本開示の第1の実施形態に係る画像出力システムの構成例を示す図である。
<2. First Embodiment>
(Configuration example of image output system)
FIG. 2 is a diagram illustrating a configuration example of an image output system according to the first embodiment of the present disclosure.
 図2の画像出力システム100においては、レビュアL1が商品レビューを行う中で、複数の画像が商品レビューの進行(レビュアL1の振る舞い)に応じて適切に切り替わり、出力される。 In the image output system 100 of FIG. 2, while the reviewer L1 is reviewing the product, a plurality of images are appropriately switched and output according to the progress of the product review (behavior of the reviewer L1).
 画像出力システム100は、講師カメラ101、手元カメラ102、PC103、およびスイッチャ110から構成される。 The image output system 100 is composed of an instructor camera 101 , a hand camera 102 , a PC 103 and a switcher 110 .
 講師カメラ101は、講師としてのレビュアL1を中心の被写体として撮影するカメラである。レビュアL1は、講師カメラ101に向かって視聴者に対して説明したり、話しかけたりする。 The lecturer camera 101 is a camera that shoots reviewer L1 as a lecturer as a central subject. The reviewer L1 looks at the lecturer camera 101 and explains or talks to the audience.
 講師カメラ101は、講師カメラ101に向かって説明する際のレビュアL1の体の向きが、手元で作業したりPC103を操作する際のレビュアL1の体の向きとは異なる向きとなるカメラアングルで撮影するように設置される。例えば、講師カメラ101は、図2に示されるように、デスクに向かうレビュアL1の横から、レビュアL1を撮影するように設置される。講師カメラ101は、スイッチャ110に接続され、レビュアL1を撮影した講師画像は、スイッチャ110に出力される。 The instructor's camera 101 is photographed at a camera angle in which the orientation of the body of the reviewer L1 when giving an explanation toward the instructor's camera 101 is different from the orientation of the body of the reviewer L1 when working at hand or operating the PC 103. is installed to For example, as shown in FIG. 2, the instructor camera 101 is installed so as to photograph the reviewer L1 from the side of the reviewer L1 facing the desk. The instructor camera 101 is connected to the switcher 110, and the instructor image of the reviewer L1 is output to the switcher 110. FIG.
 手元カメラ102は、レビュアL1の手元を撮影範囲として撮影するカメラである。手元カメラ102により、レビュアL1の手元での作業の様子や、レビュアL1の手元にある物体が撮影される。 The hand camera 102 is a camera that captures the hand of the reviewer L1 as a shooting range. The handheld camera 102 captures images of the reviewer L1's work and objects in the reviewer's hand.
 手元カメラ102は、レビュアL1の手や手元にある物体が撮影範囲に入るように設置される。例えば、手元カメラ102は、図2に示されるように、デスクの直上からデスク上を撮影するように設置される。手元カメラ102は、スイッチャ110に接続され、レビュアL1の手元を撮影した手元画像は、スイッチャ110に出力される。 The hand camera 102 is installed so that the reviewer L1's hand and objects at hand are within the shooting range. For example, as shown in FIG. 2, the hand camera 102 is installed so as to photograph the desk from directly above the desk. The hand camera 102 is connected to the switcher 110 , and a hand image obtained by photographing the hand of the reviewer L<b>1 is output to the switcher 110 .
 PC103は、レビュアL1が説明のために用いるコンピュータである。PC103により、商品レビューのための資料、アプリケーションやプログラミングの解説を行うための画面が視聴者に提示される。PC103は、スイッチャ110に接続され、PC103により提示されるPC画像は、スイッチャ110に出力される。 PC 103 is a computer used by reviewer L1 for explanation. The PC 103 presents materials for product review and screens for explaining applications and programming to the viewer. PC 103 is connected to switcher 110 , and PC images presented by PC 103 are output to switcher 110 .
 講師カメラ101、手元カメラ102,PC103それぞれとスイッチャ110とは、HDMI(High-Definition Multimedia Interface)(登録商標)、SDI(Serial Digital Interface)、USB(Universal Serial Bus)などのインタフェースを介して直接接続されてもよいし、有線または無線のLAN(Local Area Network)やWAN(Wide Area Network)により互いに接続されてもよい。 The instructor camera 101, hand camera 102, PC 103, and switcher 110 are directly connected via interfaces such as HDMI (High-Definition Multimedia Interface) (registered trademark), SDI (Serial Digital Interface), and USB (Universal Serial Bus). Alternatively, they may be connected to each other by a wired or wireless LAN (Local Area Network) or WAN (Wide Area Network).
 スイッチャ110は、講師カメラ101、手元カメラ102,PC103それぞれからの画像に対応した種々の画像解析・検出処理・認識処理などを行う。そして、スイッチャ110は、それらの処理結果に基づいて、商品レビューの進行(レビュアL1の振る舞い)に対して適切な画像を、出力対象として選択して出力する。また、スイッチャ110は、出力対象として選択された出力画像とともに、その出力画像のメタデータを出力することもできる。 The switcher 110 performs various image analysis, detection processing, recognition processing, etc. corresponding to the images from the instructor camera 101, the hand camera 102, and the PC 103, respectively. Based on these processing results, the switcher 110 selects and outputs an image suitable for the progress of the product review (the behavior of the reviewer L1) as an output target. The switcher 110 can also output the metadata of the output image along with the output image selected for output.
 スイッチャ110は、インターネットなどのネットワークNWに接続され、出力画像やそのメタデータは、ネットワークNWを介して、動画配信サイトの配信サーバに供給される。また、スイッチャ110は、HDMI,SDI,USBなどのインタフェースを介して、配信サーバや記録装置などと直接接続されてもよい。 The switcher 110 is connected to a network NW such as the Internet, and the output image and its metadata are supplied to the distribution server of the video distribution site via the network NW. Also, the switcher 110 may be directly connected to a distribution server, recording device, or the like via an interface such as HDMI, SDI, or USB.
(スイッチャの機能構成例)
 図3は、スイッチャ110の機能構成例を示すブロック図である。
(Example of switcher functional configuration)
FIG. 3 is a block diagram showing a functional configuration example of the switcher 110. As shown in FIG.
 スイッチャ110は、講師カメラ101からの講師画像、手元カメラ102からの手元画像、および、PC103からのPC画像を入力として受け付け、出力画像とそのメタデータを出力する。 The switcher 110 receives the teacher image from the teacher camera 101, the hand image from the hand camera 102, and the PC image from the PC 103 as inputs, and outputs the output image and its metadata.
 スイッチャ110は、体の向き検出部111、手検出部112、画面変化検出部113、画像選択部114、および画像出力・合成部115を備えている。 The switcher 110 includes a body orientation detection unit 111 , a hand detection unit 112 , a screen change detection unit 113 , an image selection unit 114 , and an image output/synthesis unit 115 .
 体の向き検出部111は、スイッチャ110に入力される講師画像におけるレビュアL1の体の向きを検出する体の向き検出処理を行い、その検出結果を、画像選択部114に供給する。 The body orientation detection unit 111 performs body orientation detection processing to detect the body orientation of the reviewer L1 in the lecturer image input to the switcher 110 and supplies the detection result to the image selection unit 114 .
 体の向き検出処理は、例えば、一般的なディープラーニングなどを用いた骨格推定技術などにより人物の骨格を求め、その骨格の向きが講師カメラ101に対してどの方向を向いているかを特定することで、体の向きを検出する処理である。体の向き検出処理による検出結果は、例えば、任意の座標系と基準点を定めることで、位置(x,y,z)や角度(picth,yaw,row)などで示される。 The body direction detection processing is, for example, obtaining a person's skeleton by a skeleton estimation technique using general deep learning or the like, and specifying which direction the skeleton is facing with respect to the lecturer camera 101. This is the processing for detecting the orientation of the body. The detection result of the body orientation detection process is indicated by a position (x, y, z), an angle (picth, yaw, row), etc., for example, by defining an arbitrary coordinate system and reference point.
 また、体の向き検出処理による検出結果として、位置(x,y,z)や角度(picth,yaw,row)が、「講師カメラの方向を向いている」、「手元で作業する方向を向いている」、「PCの方向を向いている」といった意味付けされた向きに変換されてもよい。位置(x,y,z)や角度(picth,yaw,row)がそれぞれどの範囲であれば「講師カメラの方向を向いている」、「手元で作業する方向を向いている」、「PCの方向を向いている」とするのかはあらかじめ設定されるようにする。その範囲は、例えば、ユーザにより値が入力されたり、講師画像に映るデスクやPCが自動認識されることで値が設定されたりしてもよい。 In addition, as a detection result of the body direction detection processing, the position (x, y, z) and angle (picth, yaw, row) are "directed toward the lecturer's camera", "directed toward the working direction at hand". It may be converted into a meaningful orientation such as "facing the PC" or "facing the PC". If the position (x, y, z) and angle (picth, yaw, row) are within each range, "the direction of the lecturer's camera", "the direction of the work at hand", "the PC's It is set in advance whether it is "facing the direction". The range may be set by, for example, inputting a value by the user or by automatically recognizing the desk or PC appearing in the lecturer image.
 手検出部112は、スイッチャ110に入力される手元画像におけるレビュアL1の手の状態を検出する手検出処理を行い、その検出結果を、画像選択部114に供給する。 The hand detection unit 112 performs hand detection processing to detect the state of the hand of the reviewer L1 in the hand image input to the switcher 110, and supplies the detection result to the image selection unit 114.
 手検出処理は、手の状態として、手元画像における手の有無の他、手の数、位置(座標)、向き、形状(指の形状)の少なくともいずれかを検出する処理である。手検出処理の処理結果として、これら手の状態が出力されてもよいし、これらの手の状態から意味付けされた情報(「手を握っている」、「手を開いている」など)が出力されてもよい。 Hand detection processing detects at least one of the number of hands, position (coordinates), orientation, and shape (shape of fingers) in addition to the presence or absence of hands in the hand image. As a processing result of the hand detection processing, these hand states may be output, or information ("holding hands", "opening hands", etc.) given meanings from these hand states may be output. may be output.
 画面変化検出部113は、スイッチャ110に入力されるPC画像における表示画面の変化を検出する画面変化検出処理を行い、その検出結果を、画像選択部114に供給する。 The screen change detection unit 113 performs screen change detection processing for detecting changes in the display screen of the PC image input to the switcher 110 and supplies the detection result to the image selection unit 114 .
 画面変化検出処理は、例えば、PC画像におけるカーソルの動きを検出する処理である。この場合、画面変化検出処理の検出結果は、カーソルの動きの有無だけでなく、PC画像上でのカーソルの位置、カーソルの移動速度や加速度などを示す情報であってもよい。 Screen change detection processing is, for example, processing for detecting cursor movement in a PC image. In this case, the detection result of the screen change detection process may be information indicating not only the presence or absence of movement of the cursor, but also the position of the cursor on the PC image, the movement speed and acceleration of the cursor, and the like.
 また、画面変化検出処理は、プレゼンテーション資料のスライドのページ遷移を検出する処理や、動画像の再生を検出する処理を含んでいてもよい。この場合、画面変化検出処理の検出結果は、画面変化の有無だけでなく、カーソルの動き、スライドのページ遷移、動画像の再生のいずれが検出されたかを示す画面変化の種別が含まれてもよい。 In addition, the screen change detection process may include a process of detecting page transitions of slides of presentation materials and a process of detecting playback of moving images. In this case, the detection result of the screen change detection processing may include not only the presence or absence of a screen change, but also the type of screen change indicating which of cursor movement, slide page transition, and video playback was detected. good.
 画像選択部114は、体の向き検出部111、手検出部112、画面変化検出部113それぞれからの検出結果に基づいて、スイッチャ110に入力される講師画像、手元画像、およびPC画像の中から、出力対象とする1以上の画像を選択する。選択された選択画像は、画像出力・合成部115に供給される。 Image selection unit 114 selects one of the instructor image, hand image, and PC image input to switcher 110 based on the detection results from body orientation detection unit 111, hand detection unit 112, and screen change detection unit 113, respectively. , to select one or more images to be output. The selected image is supplied to the image output/synthesis unit 115 .
 画像選択部114は、メタデータ生成部114mを有している。メタデータ生成部114mは、画像選択部114において出力対象として選択された選択画像のメタデータを生成し、画像出力・合成部115に供給する。このメタデータには、出力対象として選択された画像に対する検出処理による検出結果として、その画像から何が検出されたか、検出された対象の状態、検出の条件のほか、選択画像の切り替えタイミングなどが含まれる。 The image selection unit 114 has a metadata generation unit 114m. The metadata generation unit 114 m generates metadata of the selected image selected as an output target by the image selection unit 114 and supplies the metadata to the image output/synthesis unit 115 . This metadata includes what was detected from the image, the state of the detected object, detection conditions, and the timing of switching the selected image as the detection result of the detection process for the image selected as the output target. included.
 画像出力・合成部115は、メタデータ生成部114mからのメタデータに基づいて、画像選択部114において出力対象として選択された1以上の画像を、出力画像として出力する。出力画像は、1の選択画像のスルー画であってもよいし、2以上の選択画像が、例えばSide by side合成されたり、Picture in Picture合成された合成画像であってもよい。また、選択画像のスルー画や合成画像に、テロップや他のコンテンツ、エフェクトなどが重畳されてもよい。 The image output/synthesis unit 115 outputs one or more images selected as output targets by the image selection unit 114 as output images based on the metadata from the metadata generation unit 114m. The output image may be a through image of one selected image, or may be a synthesized image obtained by synthesizing two or more selected images side-by-side or picture-in-picture, for example. Also, a telop, other content, an effect, or the like may be superimposed on the through image or the synthesized image of the selected image.
 以上の構成により、スイッチャ110は、図4に示されるように、講師画像151、手元画像152、およびPC画像153の少なくともいずれかを選択して、出力画像として出力することができる。 With the above configuration, the switcher 110 can select at least one of the instructor image 151, the hand image 152, and the PC image 153 and output it as an output image, as shown in FIG.
 例えば、矢印#1で示されるように、講師画像151と手元画像152のいずれかが出力画像として出力されてもよいし、矢印#2で示されるように、講師画像151とPC画像153のいずれかが出力画像として出力されてもよい。また通常、商品レビューにおいては、講師画像151がメインに出力されるケースが多い中で、商品レビューの進行(レビュアL1の振る舞い)によっては、矢印#3で示されるように、手元画像152とPC画像153のいずれかが出力画像として出力されてもよい。 For example, either the instructor image 151 or the hand image 152 may be output as the output image as indicated by arrow #1, or either the instructor image 151 or the PC image 153 may be output as indicated by arrow #2. or may be output as an output image. Also, in product reviews, there are many cases where the instructor image 151 is mainly output. Any of the images 153 may be output as the output image.
 ここで、講師画像151、手元画像152、およびPC画像153の少なくともいずれかを選択して出力する画像出力処理の流れについて説明する。 Here, the flow of image output processing for selecting and outputting at least one of the instructor image 151, the hand image 152, and the PC image 153 will be described.
(画像出力処理の流れ1)
 図5は、図4の矢印#1で示される、講師画像151と手元画像152のいずれかを選択して出力する画像出力処理の流れについて説明するフローチャートである。
(Image output processing flow 1)
FIG. 5 is a flowchart for explaining the flow of image output processing for selecting and outputting either the instructor image 151 or the hand image 152 indicated by arrow #1 in FIG.
 ステップS11において、スイッチャ110の手検出部112は、手元画像152に対して手検出処理を行う。 In step S<b>11 , the hand detection unit 112 of the switcher 110 performs hand detection processing on the hand image 152 .
 ステップS12において、手検出部112は、手検出処理による検出結果に基づいて、手元画像152において手が検出されたか否かを判定する。手が検出されたと判定された場合、ステップS13に進む。 In step S12, the hand detection unit 112 determines whether or not a hand has been detected in the hand image 152 based on the detection result of the hand detection process. If it is determined that the hand has been detected, the process proceeds to step S13.
 ステップS13において、体の向き検出部111は、講師画像151に対して体の向き検出処理を行う。 In step S<b>13 , the body orientation detection unit 111 performs body orientation detection processing on the instructor image 151 .
 ステップS14において、体の向き検出部111は、体の向き検出処理による検出結果に基づいて、レビュアL1の体が手元で作業する方向を向いているか否かを判定する。手元で作業する方向を向いていると判定された場合、ステップS15に進む。 In step S14, the body orientation detection unit 111 determines whether or not the body of the reviewer L1 is oriented in the direction of working at hand, based on the detection result of the body orientation detection processing. If it is determined that it faces the direction of working at hand, the process proceeds to step S15.
 ステップS15において、画像選択部114は、出力対象として手元画像152を選択する。 In step S15, the image selection unit 114 selects the hand image 152 as an output target.
 一方、ステップS12において手が検出されなかったと判定された場合、または、ステップS14において体が手元で作業する方向を向いていないと判定された場合、ステップS16に進む。 On the other hand, if it is determined in step S12 that the hand has not been detected, or if it is determined in step S14 that the body is not facing the direction of working at hand, the process proceeds to step S16.
 ステップS16において、画像選択部114は、出力対象として講師画像151を選択する。 In step S16, the image selection unit 114 selects the lecturer image 151 as an output target.
 ステップS15またはステップS16の後、ステップS17において、画像出力・合成部115は、画像選択部114により出力対象として選択された画像を出力する。 After step S15 or step S16, in step S17, the image output/synthesis unit 115 outputs the image selected by the image selection unit 114 as an output target.
 単に、手元画像152において手が検出された場合に、出力対象として手元画像152が選択されると、たまたま手をデスクの上に置くなどしたときにも、手元画像152が出力されてしまう。これに対して、上述した処理においては、手元画像152において手が検出されるだけでなく、講師画像151において体の向きが検出されるようにした。 If a hand is simply detected in the hand image 152 and the hand image 152 is selected as an output target, the hand image 152 will be output even if the hand is placed on the desk by chance. On the other hand, in the processing described above, not only the hand is detected in the hand image 152 but also the orientation of the body is detected in the lecturer image 151 .
 これにより、手元画像152において手が検出された場合であっても、体が手元で作業する方向を向いていなければ、レビュアL1は、講師カメラ101に向かって話していたり、PCを操作している可能性が高いため、手元画像152は出力されない。また、体が手元で作業する方向を向いている場合であっても、手元画像152において手が検出されていなければ、レビュアL1は、手元で作業していない可能性が高いため、やはり、手元画像152は出力されない。 As a result, even if a hand is detected in the hand image 152, if the body is not facing the direction in which the hand is to be worked, the reviewer L1 can talk to the lecturer camera 101 or operate the PC. Since there is a high possibility that the hand image 152 is present, the hand image 152 is not output. Also, even if the body is facing the direction of working with the hand, if the hand is not detected in the hand image 152, there is a high possibility that the reviewer L1 is not working with the hand. Image 152 is not output.
 以上の処理によれば、手元画像152に手が映っているだけだったり、体が手元で作業する方向を向いているだけで、誤って手元画像152に切り替わってしまうことを避けることができる。すなわち、画像毎に異なる種類の検出処理が行われ、それらの検出結果に基づいて出力対象とする画像が適切に選択されるので、より好適に異なる種類の画像の切り替えを実現することが可能となる。 According to the above processing, it is possible to avoid erroneously switching to the hand image 152 just by showing the hand in the hand image 152 or by simply pointing the body in the direction of working with the hand. That is, different types of detection processing are performed for each image, and an image to be output is appropriately selected based on the detection results, so that it is possible to switch between different types of images more preferably. Become.
(画像出力処理の流れ2)
 図6は、図4の矢印#2で示される、講師画像151とPC画像153のいずれかを選択して出力する画像出力処理の流れについて説明するフローチャートである。
(Flow 2 of image output processing)
FIG. 6 is a flowchart for explaining the flow of image output processing for selecting and outputting either the instructor image 151 or the PC image 153 indicated by arrow #2 in FIG.
 ステップS21において、スイッチャ110の画面変化検出部113は、PC画像153に対してカーソルの動きを検出するカーソルの動き検出処理を行う。 In step S<b>21 , the screen change detection unit 113 of the switcher 110 performs cursor movement detection processing for detecting cursor movement on the PC image 153 .
 ステップS22において、画面変化検出部113は、カーソルの動き検出処理による検出結果に基づいて、PC画像153においてカーソルの動きが検出されたか否かを判定する。カーソルの動きが検出されたと判定された場合、ステップS23に進む。 In step S22, the screen change detection unit 113 determines whether or not a cursor movement has been detected in the PC image 153 based on the detection result of the cursor movement detection process. If it is determined that the movement of the cursor has been detected, the process proceeds to step S23.
 ステップS23において、体の向き検出部111は、講師画像151に対して体の向き検出処理を行う。 In step S<b>23 , the body orientation detection unit 111 performs body orientation detection processing on the instructor image 151 .
 ステップS24において、体の向き検出部111は、体の向き検出処理による検出結果に基づいて、レビュアL1の体がPC103の方向を向いているか否かを判定する。PC103の方向を向いていると判定された場合、ステップS25に進む。 In step S24, the body orientation detection unit 111 determines whether or not the body of the reviewer L1 is facing the PC 103 based on the detection result of the body orientation detection process. If it is determined that the direction of the PC 103 is facing, the process proceeds to step S25.
 ステップS25において、画像選択部114は、出力対象としてPC画像153を選択する。 In step S25, the image selection unit 114 selects the PC image 153 as an output target.
 一方、ステップS22においてカーソルの動きが検出されなかったと判定された場合、または、ステップS24において体がPC103の方向を向いていないと判定された場合、ステップS26に進む。 On the other hand, if it is determined in step S22 that no cursor movement has been detected, or if it is determined in step S24 that the body is not facing the PC 103, the process proceeds to step S26.
 ステップS26において、画像選択部114は、出力対象として講師画像151を選択する。 In step S26, the image selection unit 114 selects the lecturer image 151 as an output target.
 ステップS25またはステップS26の後、ステップS27において、画像出力・合成部115は、画像選択部114により出力対象として選択された画像を出力する。 After step S25 or step S26, in step S27, the image output/synthesis unit 115 outputs the image selected by the image selection unit 114 as an output target.
 単に、PC画像153においてカーソルの動き(表示画面の変化)が検出された場合に、出力対象としてPC画像153が選択されると、たまたま手がマウスなどに当たるなどしたときにも、PC画像153が出力されてしまう。これに対して、上述した処理においては、PC画像153において表示画面の変化が検出されるだけでなく、講師画像151において体の向きが検出されるようにした。 Simply, when cursor movement (change in display screen) is detected in the PC image 153, if the PC image 153 is selected as an output target, the PC image 153 will be displayed even if the hand accidentally hits the mouse or the like. output. On the other hand, in the above-described processing, not only changes in the display screen are detected in the PC image 153 but also the orientation of the body is detected in the lecturer image 151 .
 これにより、PC画像153において表示画面の変化が検出された場合であっても、体がPC103の方向を向いていなければ、レビュアL1は、講師カメラ101に向かって話していたり、手元で作業している可能性が高いため、PC画像153は出力されない。また、体がPC103の方向を向いている場合であっても、PC画像153において表示画面の変化が検出されていなければ、レビュアL1は、PC103を操作していない可能性が高いため、やはり、PC画像153は出力されない。 As a result, even if a change in the display screen is detected in the PC image 153, the reviewer L1 can speak toward the instructor camera 101 or work at hand if the body is not facing the direction of the PC 103. Therefore, the PC image 153 is not output. Also, even if the body faces the direction of the PC 103, if no change in the display screen is detected in the PC image 153, there is a high possibility that the reviewer L1 is not operating the PC 103. PC image 153 is not output.
 以上の処理によれば、PC画像153においてカーソルが動いただけだったり、体がPC103の方向を向いているだけで、誤ってPC画像153に切り替わってしまうことを避けることができる。すなわち、画像毎に異なる種類の検出処理が行われ、それらの検出結果に基づいて出力対象とする画像が適切に選択されるので、より好適に異なる種類の画像の切り替えを実現することが可能となる。 According to the above processing, it is possible to avoid erroneously switching to the PC image 153 just by moving the cursor in the PC image 153 or by simply pointing the body toward the PC 103 . That is, different types of detection processing are performed for each image, and an image to be output is appropriately selected based on the detection results, so that it is possible to switch between different types of images more preferably. Become.
(画像出力処理の流れ3)
 図7は、図4の矢印#1,#2,#3で示される、講師画像151、手元画像152、およびPC画像153のいずれかを選択して出力する画像出力処理の流れについて説明するフローチャートである。
(Flow 3 of image output processing)
FIG. 7 is a flowchart for explaining the flow of image output processing for selecting and outputting any one of the instructor image 151, the hand image 152, and the PC image 153 indicated by arrows #1, #2, and #3 in FIG. is.
 上述したように、商品レビューにおいては、講師画像151がメインに出力されるケースが多いことから、ステップS31においては、講師画像151が出力される。 As described above, there are many cases in which the instructor image 151 is mainly output in product reviews, so the instructor image 151 is output in step S31.
 ステップS32において、体の向き検出部111は、講師画像151に対して体の向き検出処理を行うことで、レビュアL1の体が講師カメラ101の方向を向いているか否かを判定する。体が講師カメラ101の方向を向いていると判定された場合、レビュアL1は講師カメラ101に向かって話していると考えられるので、ステップS31に戻り、引き続き、講師画像151が出力される。 In step S<b>32 , the body orientation detection unit 111 performs body orientation detection processing on the instructor image 151 to determine whether or not the body of the reviewer L<b>1 faces the instructor camera 101 . If it is determined that the body is facing the instructor camera 101, it is considered that the reviewer L1 is speaking toward the instructor camera 101, so the process returns to step S31 and the instructor image 151 is continuously output.
 一方、体が講師カメラ101の方向を向いていないと判定された場合、ステップS33に進む。 On the other hand, if it is determined that the body is not facing the instructor camera 101, the process proceeds to step S33.
 ステップS33において、体の向き検出部111は、講師画像151に対して体の向き検出処理を行うことで、レビュアL1の体が手元で作業する方向を向いているか、または、PC103の方向を向いているかを判定する。 In step S33, the body orientation detection unit 111 performs body orientation detection processing on the instructor image 151 to determine whether the body of the reviewer L1 is facing the direction of working at hand or facing the direction of the PC 103. determine whether
 体が手元で作業する方向を向いていると判定された場合、ステップS34に進む。 If it is determined that the body is facing the direction of working at hand, proceed to step S34.
 ステップS34において、手検出部112は、手元画像152に対して手検出処理を行うことで、手元画像152において手が検出されているか否かを判定する。手が検出されていないと判定された場合、レビュアL1は手元で作業していないと考えられるので、ステップS31に戻り、講師画像151が出力される。 In step S<b>34 , the hand detection unit 112 performs hand detection processing on the hand image 152 to determine whether or not a hand is detected in the hand image 152 . If it is determined that the hand is not detected, it is considered that the reviewer L1 is not working at hand, so the process returns to step S31 and the instructor image 151 is output.
 一方、手が検出されていると判定された場合、ステップS35に進み、画像選択部114が出力画像として手元画像を選択することで、画像出力・合成部115は、手元画像を出力する。その後、ステップS32に戻り、以降の処理が繰り返される。 On the other hand, if it is determined that a hand has been detected, the process proceeds to step S35, the image selection unit 114 selects the hand image as the output image, and the image output/synthesis unit 115 outputs the hand image. After that, the process returns to step S32 and the subsequent processes are repeated.
 さて、ステップS33において、体がPC103の方向を向いていると判定された場合、ステップS36に進む。 Now, if it is determined in step S33 that the body is facing the direction of the PC 103, the process proceeds to step S36.
 ステップS36において、画面変化検出部113は、PC画像153に対してカーソルの動き検出処理を行うことで、PC画像153においてカーソルの動きが検出されているか否かを判定する。カーソルの動きが検出されていないと判定された場合、レビュアL1はPCを操作していないと考えられるので、ステップS31に戻り、講師画像151が出力される。 In step S<b>36 , the screen change detection unit 113 performs cursor movement detection processing on the PC image 153 to determine whether cursor movement is detected in the PC image 153 . If it is determined that the movement of the cursor has not been detected, it is considered that the reviewer L1 is not operating the PC.
 一方、カーソルの動きが検出されていると判定された場合、ステップS37に進み、画像選択部114が出力画像としてPC画像を選択することで、画像出力・合成部115は、PC画像を出力する。その後、ステップS32に戻り、以降の処理が繰り返される。 On the other hand, if it is determined that the movement of the cursor has been detected, the process proceeds to step S37, and the image selection unit 114 selects the PC image as the output image, and the image output/synthesis unit 115 outputs the PC image. . After that, the process returns to step S32 and the subsequent processes are repeated.
 また、ステップS33において、体がいずれの方向でもない(手元で作業する方向でも、PC103の方向でもない)方向を向いていると判定された場合、例えば、レビュアL1が後ろを向いているような場合には、ステップS31に戻り、講師画像151が出力される。 Further, in step S33, if it is determined that the body is facing in any direction (neither the direction of working at hand nor the direction of the PC 103), for example, the reviewer L1 is facing backwards. In that case, the process returns to step S31 and the instructor image 151 is output.
 以上の処理によれば、講師画像151、手元画像152、およびPC画像153それぞれに対して異なる種類の検出処理が行われ、それらの検出結果に基づいて出力対象とする画像が適切に選択される。結果として、より好適に異なる種類の画像の切り替えを実現することが可能となる。 According to the above processing, different types of detection processing are performed on each of the instructor image 151, the hand image 152, and the PC image 153, and images to be output are appropriately selected based on the detection results. . As a result, it is possible to switch between different types of images more preferably.
 なお、図5および図6の処理においては、オブジェクト画像におけるオブジェクトの状態の検出後に、人物画像における人物の状態の検出が実行されているのに対して、図7の処理においては、人物の状態の検出後に、オブジェクトの状態の検出が実行されている。本実施形態の画像出力システムの画像出力処理においては、人物の状態の検出とオブジェクトの状態の検出とは、いずれが先に実行されてもよく、それぞれが並行して実行されてもよい。 In the processes of FIGS. 5 and 6, the state of the person in the human image is detected after the state of the object in the object image is detected. After the detection of the state of the object is performed. In the image output processing of the image output system of this embodiment, either the detection of the state of the person or the detection of the state of the object may be executed first, or they may be executed in parallel.
 上述した処理においては、講師画像151がメインに出力されるものとして、検出結果に応じて、出力対象とする画像が、手元画像152またはPC画像153に切り替わるようにした。これに限らず、手元画像152がメインに出力されるものとして、検出結果に応じて、出力対象とする画像が、講師画像151またはPC画像153に切り替わるようにしてもよい。また、PC画像153がメインに出力されるものとして、検出結果に応じて、出力対象とする画像が、講師画像151または手元画像152に切り替わるようにしてもよい。 In the above-described processing, the instructor image 151 is assumed to be mainly output, and the image to be output is switched to the hand image 152 or the PC image 153 according to the detection result. Alternatively, the hand image 152 may be mainly output, and the image to be output may be switched to the lecturer image 151 or the PC image 153 according to the detection result. Further, assuming that the PC image 153 is mainly output, the image to be output may be switched to the lecturer image 151 or the hand image 152 according to the detection result.
 図3のスイッチャ110の構成において、物体検出部を設け、手元画像において視聴者に見せたい商品が映ったか否かが検出されるようにしてもよい。この場合、手検出部112に代えて物体検出部が設けられてもよいし、手検出部112と物体検出部の両方が設けられてもよい。後者の場合、図5のステップS12や図7のステップS34において、手元画像において手が検出され、かつ、視聴者に見せたい商品が検出されたか否かが判定されるようにする。 In the configuration of the switcher 110 in FIG. 3, an object detection unit may be provided so that it can be detected whether or not a product desired to be shown to the viewer appears in the image at hand. In this case, an object detection unit may be provided instead of the hand detection unit 112, or both the hand detection unit 112 and the object detection unit may be provided. In the latter case, in step S12 of FIG. 5 or step S34 of FIG. 7, it is determined whether or not a hand has been detected in the image at hand and a product to be shown to the viewer has been detected.
 以上においては、レビュアL1が同じ位置で体の向きだけを変える例について説明した。これ以外にも、講師カメラ101に向かって話すとき、手元で作業するとき、PC103を操作するときのそれぞれで、レビュアL1の位置が変化する場合には、スイッチャ110に体の位置検出部を設け、レビュアL1の体の位置が検出されるようにしてもよい。この場合、体の向き検出部111に代えて体の位置検出部が設けられてもよいし、体の向き検出部111と体の位置検出部の両方が設けられてもよい。 In the above, an example was explained in which reviewer L1 changes only the orientation of the body at the same position. In addition to this, if the position of reviewer L1 changes when speaking to lecturer camera 101, when working at hand, and when operating PC 103, switcher 110 may be provided with a body position detection unit. , the position of the body of the reviewer L1 may be detected. In this case, a body position detection unit may be provided instead of the body orientation detection unit 111, or both the body orientation detection unit 111 and the body position detection unit may be provided.
 また、画像選択部114は、様々なタイミングで出力対象とする画像を選択し、出力画像を切り替えることができる。 In addition, the image selection unit 114 can select an image to be output at various timings and switch the output image.
 例えば、画像選択部114は、各画像に対する検出処理の、フレーム単位の検出結果に基づいて、出力対象とする画像を選択することができる。この場合、所定の画像の1フレームにおいて出力対象となる条件を満たす検出結果が得られた瞬間に、その画像が選択され、出力画像が切り替わる。 For example, the image selection unit 114 can select an image to be output based on the frame-by-frame detection result of the detection process for each image. In this case, the image is selected and the output image is switched at the moment when the detection result satisfying the condition to be output is obtained in one frame of the predetermined image.
 また、画像選択部114は、各画像に対する検出処理の、一定時間において継続して得られた検出結果に基づいて、出力対象とする画像を選択してもよいし、特定の頻度で得られた検出結果に基づいて、出力対象とする画像を選択してもよい。 In addition, the image selection unit 114 may select an image to be output based on the detection result obtained continuously for a certain period of time in the detection process for each image, or may select an image to be output based on the detection result obtained at a specific frequency. An image to be output may be selected based on the detection result.
 出力対象とする画像の選択(出力画像の切り替え)は、リアルタイムに入力されている複数の画像に対して実行されてもよいし、あらかじめ記録された複数の画像に対して実行されてもよい。 Selection of images to be output (switching of output images) may be performed on multiple images that are being input in real time, or may be performed on multiple images that have been recorded in advance.
 また、画像選択部114より後段において画像を編集可能とするために、出力対象とする画像の選択タイミング(出力画像の切り替えタイミング)や選択の条件(切り替えの条件)などが、メタデータとして出力されてもよい。 In addition, in order to enable image editing in a stage subsequent to the image selection unit 114, the selection timing of an image to be output (output image switching timing), selection conditions (switching conditions), and the like are output as metadata. may
 上述したように、画像選択部114は、2以上の画像を出力対象として選択することができる。これにより、画像出力・合成部115は、Side by side合成されたり、Picture in Picture合成された合成画像を出力することができる。 As described above, the image selection unit 114 can select two or more images as output targets. Accordingly, the image output/synthesis unit 115 can output a synthesized image obtained by side-by-side synthesis or picture-in-picture synthesis.
(画像出力・合成部の動作)
 上述したように、画像出力・合成部115は、画像選択部114からの選択画像をスルー画として出力したり、そのスルー画に、テロップや他のコンテンツ、エフェクトなどを重畳することができる。
(Operation of image output/compositing unit)
As described above, the image output/synthesis unit 115 can output the selected image from the image selection unit 114 as a through image, and can superimpose a telop, other contents, effects, and the like on the through image.
 例えば、画像出力・合成部115は、図8のA図に示されるように、手元画像152にテロップ171を重畳した合成画像P101を、出力画像として出力することができる。 For example, the image output/synthesis unit 115 can output, as an output image, a synthesized image P101 in which a telop 171 is superimposed on the hand image 152, as shown in FIG. 8A.
 また、画像出力・合成部115は、画像選択部114からの複数の選択画像とメタデータに基づいて、その複数の選択画像を合成することができる。 Also, the image output/synthesis unit 115 can synthesize the plurality of selected images based on the plurality of selected images from the image selection unit 114 and the metadata.
 例えば、画像出力・合成部115は、選択画像が講師画像151であることを示すメタデータに基づいて、図8のB図に示されるように、講師画像151にPC画像153がPicture in Picture合成された合成画像P102を、出力画像として出力することができる。また、画像出力・合成部115は、選択画像がPC画像153であることを示すメタデータに基づいて、図8のC図に示されるように、PC画像153に講師画像151と手元画像152がSide by side合成された合成画像P103を、出力画像として出力することもできる。 For example, based on metadata indicating that the selected image is the lecturer image 151, the image output/synthesis unit 115 synthesizes the PC image 153 with the lecturer image 151 as picture-in-picture as shown in FIG. 8B. The resulting composite image P102 can be output as an output image. In addition, based on the metadata indicating that the selected image is the PC image 153, the image output/synthesis unit 115 adds the instructor image 151 and the hand image 152 to the PC image 153 as shown in FIG. 8C. The side-by-side composite image P103 can also be output as an output image.
 なお、図8に示される合成画像P101,P102,P103それぞれにおける画像の組み合わせやレイアウトは、これに限られない。また、合成画像P101,P102,P103のレイアウトや、出力タイミング(組み合わせの切り替えタイミング)は、メタデータに基づいて決定されてもよいし、ユーザの指示に基づいて決定されてもよい。 Note that the combination and layout of images in each of the combined images P101, P102, and P103 shown in FIG. 8 are not limited to this. Also, the layout of the synthesized images P101, P102, and P103 and the output timing (combination switching timing) may be determined based on the metadata, or may be determined based on the user's instruction.
<3.第2の実施形態>
(画像出力システムの構成例)
 図9は、本開示の第2の実施形態に係る画像出力システムの構成例を示す図である。
<3. Second Embodiment>
(Configuration example of image output system)
FIG. 9 is a diagram showing a configuration example of an image output system according to the second embodiment of the present disclosure.
 図9の画像出力システム200においては、講師L2がオンラインでのピアノのレッスンを行う中で、複数の画像がレッスンの進行(講師L2の振る舞い)に応じて適切に切り替わり、出力される。 In the image output system 200 of FIG. 9, while the instructor L2 is conducting an online piano lesson, a plurality of images are appropriately switched and output according to the progress of the lesson (behavior of the instructor L2).
 画像出力システム200は、講師カメラ201、手元カメラ202、足元カメラ203、およびスイッチャ210から構成される。 The image output system 200 is composed of an instructor camera 201 , a hand camera 202 , a foot camera 203 and a switcher 210 .
 講師カメラ201は、講師L2を中心の被写体として撮影するカメラである。講師L2は、講師カメラ201に向かって生徒に対して説明したり、話しかけたりする。 The lecturer camera 201 is a camera that shoots the lecturer L2 as the main subject. The lecturer L2 looks at the lecturer camera 201 and explains or talks to the students.
 講師カメラ201は、講師カメラ201に向かって説明する際の講師L2の体の向きが、ピアノを演奏する際の講師L2の体の向きとは異なる向きとなるカメラアングルで撮影するように設置される。講師カメラ201は、スイッチャ210に接続され、講師L2を撮影した講師画像は、スイッチャ210に出力される。 The instructor camera 201 is installed at a camera angle such that the orientation of the body of the instructor L2 when giving an explanation toward the instructor camera 201 is different from the orientation of the body of the instructor L2 when playing the piano. be. The lecturer camera 201 is connected to the switcher 210 , and the lecturer image of the lecturer L2 is output to the switcher 210 .
 手元カメラ202は、講師L2の手元を撮影範囲として撮影するカメラである。手元カメラ202は、講師L2の手やピアノの鍵盤が撮影範囲に入るように設置される。手元カメラ202は、スイッチャ210に接続され、講師L2の手元を撮影した手元画像は、スイッチャ210に出力される。 The hand camera 202 is a camera that captures the hand of the lecturer L2 as a shooting range. The hand camera 202 is installed so that the hand of the lecturer L2 and the keyboard of the piano are within the shooting range. The hand camera 202 is connected to the switcher 210 , and a hand image of the hand of the lecturer L<b>2 is output to the switcher 210 .
 足元カメラ203は、講師L2の足元を撮影範囲として撮影するカメラである。足元カメラ203は、講師L2の足やピアノのペダルが撮影範囲に入るように設置される。足元カメラ203は、スイッチャ210に接続され、講師L2の足元を撮影した足元画像は、スイッチャ210に出力される。 The foot camera 203 is a camera that captures the feet of the lecturer L2 as a shooting range. The foot camera 203 is installed so that the feet of the lecturer L2 and the pedals of the piano are within the photographing range. The foot camera 203 is connected to the switcher 210 , and a foot image of the instructor L2's feet is output to the switcher 210 .
 スイッチャ210は、講師カメラ201、手元カメラ202、足元カメラ203それぞれからの画像に対応した種々の画像解析・検出処理・認識処理などを行う。そして、スイッチャ210は、それらの処理結果に基づいて、レッスンの進行(講師L2の振る舞い)に対して適切な画像を、出力対象として選択して出力する。 The switcher 210 performs various image analysis, detection processing, recognition processing, etc. corresponding to the images from the instructor camera 201, the hand camera 202, and the foot camera 203, respectively. Based on these processing results, the switcher 210 selects and outputs an image suitable for the progress of the lesson (behavior of the lecturer L2) as an output target.
(スイッチャの機能構成例)
 図10は、スイッチャ210の機能構成例を示すブロック図である。
(Example of switcher functional configuration)
FIG. 10 is a block diagram showing a functional configuration example of the switcher 210. As shown in FIG.
 スイッチャ210は、講師カメラ201からの講師画像、手元カメラ202からの手元画像、および、足元カメラ203からの足元画像を入力として受け付け、出力画像とそのメタデータを出力する。 The switcher 210 receives as inputs the instructor image from the instructor camera 201, the hand image from the hand camera 202, and the foot image from the foot camera 203, and outputs an output image and its metadata.
 スイッチャ210は、体の向き検出部211、手検出部212、画像選択部213、および画像出力・合成部214を備えている。 The switcher 210 includes a body orientation detection section 211 , a hand detection section 212 , an image selection section 213 , and an image output/synthesis section 214 .
 なお、体の向き検出部211、手検出部212、画像選択部213、および画像出力・合成部214はそれぞれ、基本的には、図3を参照して説明した、体の向き検出部111、手検出部112、画像選択部114、および画像出力・合成部115と同様の機能を有する。また、画像選択部213が有するメタデータ生成部213mも、基本的には、図3を参照して説明したメタデータ生成部114mと同様の機能を有する。 Note that the body orientation detection unit 211, the hand detection unit 212, the image selection unit 213, and the image output/synthesis unit 214 basically correspond to the body orientation detection unit 111, the hand detection unit 212, and the image output/synthesis unit 214 described with reference to FIG. It has functions similar to those of the hand detection unit 112 , the image selection unit 114 , and the image output/synthesis unit 115 . A metadata generation unit 213m included in the image selection unit 213 basically has the same function as the metadata generation unit 114m described with reference to FIG.
 但し、スイッチャ210においては、足元画像に対する検出処理は行われない。 However, the switcher 210 does not perform detection processing on the foot image.
 以上の構成により、スイッチャ210は、講師L2が講師カメラ201に向かって話しているときには、図11の左側に示されるような講師画像251を、ピアノの演奏中には、手元画像を選択して、出力画像として出力することができる。 With the above configuration, the switcher 210 selects the instructor image 251 shown on the left side of FIG. , can be output as the output image.
 ここで、講師L2は、ピアノの演奏中にペダルを使用することもあるため、ピアノの演奏中には足元画像が選択されるようにしてもよい。また、手元画像において視聴者が注目したい箇所は鍵盤の領域である。鍵盤の領域のみを出力画像として切り出した場合、極端に横長なアスペクト比の画像となってしまう。 Here, since instructor L2 may use the pedals while playing the piano, the foot image may be selected while playing the piano. Also, the area of the keyboard that the viewer wants to pay attention to in the hand image is the area of the keyboard. If only the keyboard area is cut out as an output image, the image will have an extremely horizontally long aspect ratio.
 そこで、一般的なアスペクト比を保つため、図11の右側に示されるように、手元画像252に、講師画像251と足元画像253を組み合わせた合成画像P201が、出力画像として出力されるようにしてもよい。この場合、出力対象として手元画像252が選択されていても、講師画像251と足元画像253が、画像選択部213から画像出力・合成部214に供給される。 Therefore, in order to keep the general aspect ratio, as shown on the right side of FIG. good too. In this case, even if the hand image 252 is selected as an output target, the instructor image 251 and the foot image 253 are supplied from the image selection unit 213 to the image output/synthesis unit 214 .
(画像出力処理の流れ)
 スイッチャ210が講師画像と手元画像のいずれかを選択して出力する画像出力処理の流れは、基本的に、図5のフローチャートを参照して説明した画像出力処理の流れと同様である。
(Flow of image output processing)
The flow of image output processing in which the switcher 210 selects and outputs either the instructor image or the hand image is basically the same as the flow of the image output processing described with reference to the flowchart of FIG.
 すなわち、手元画像252において手が検出された場合に、出力対象として手元画像252が選択されると、たまたま手を鍵盤の上に置くなどしたときにも、手元画像252が出力されてしまう。これに対して、上述した構成においては、手元画像252において手が検出されるだけでなく、講師画像251において体の向きが検出されるようにする。 That is, if a hand is detected in the hand image 252 and the hand image 252 is selected as an output target, the hand image 252 will be output even when the hand is accidentally placed on the keyboard. On the other hand, in the configuration described above, not only the hand is detected in the hand image 252 but also the orientation of the body is detected in the lecturer image 251 .
 これにより、手元画像252において手が検出された場合であっても、体がピアノの方向を向いていなければ、講師L2は、講師カメラ201に向かって話している可能性が高いため、手元画像252は出力されない。また、体がピアノの方向を向いている場合であっても、手元画像252において手が検出されていなければ、講師L2は、演奏していない可能性が高いため、やはり、手元画像252は出力されない。 As a result, even if a hand is detected in the hand image 252, if the body is not facing the direction of the piano, there is a high possibility that the instructor L2 is speaking toward the instructor camera 201. 252 is not output. Also, even if the body is facing the direction of the piano, if no hand is detected in the hand image 252, it is highly likely that the instructor L2 is not playing, so the hand image 252 is also output. not.
 したがって、手元画像252に手が映っているだけだったり、体がピアノの方向を向いているだけで、誤って手元画像252に切り替わってしまうことを避けることができる。すなわち、画像毎に異なる種類の検出処理が行われ、それらの検出結果に基づいて出力対象とする画像が適切に選択されるので、より好適に異なる種類の画像の切り替えを実現することが可能となる。 Therefore, it is possible to avoid erroneously switching to the hand image 252 just because the hand is reflected in the hand image 252 or if the body faces the direction of the piano. That is, different types of detection processing are performed for each image, and an image to be output is appropriately selected based on the detection results, so that it is possible to switch between different types of images more preferably. Become.
 講師L2の発話が検出されたとき、講師L2は、視聴者に対して語りかけていて、話しながら演奏している可能性は低い。そこで、図10のスイッチャ210の構成において、話者検出部を設け、講師L2の発話が検出されるようにしてもよい。話者検出には、従来の一般的な技術が適用されればよい。例えば、講師画像251に対して顔パーツの検出を行い、口が開いていることを検出してもよいし、講師画像251とともに入力される音声に基づいて、講師L2の声を検出してもよい。この場合、体の向き検出部211に代えて話者検出部が設けられてもよいし、体の向き検出部211と話者検出部の両方が設けられてもよい。 When lecturer L2's utterance is detected, it is unlikely that lecturer L2 is speaking to the audience and performing while speaking. Therefore, in the configuration of the switcher 210 of FIG. 10, a speaker detection unit may be provided to detect the speech of the lecturer L2. A conventional general technique may be applied to the speaker detection. For example, face parts may be detected in the lecturer image 251 to detect that the mouth is open, or the voice of lecturer L2 may be detected based on the voice input together with the lecturer image 251. good. In this case, a speaker detection unit may be provided instead of the body orientation detection unit 211, or both the body orientation detection unit 211 and the speaker detection unit may be provided.
 また、図10のスイッチャ210の構成において、図示せぬマイクロフォンからの音声に対して、ピアノの音の検出や、ピアノの演奏に合わせて流れるメトロノームや他の楽器の音の検出を行う音検出部を設けてもよい。さらに、図10のスイッチャ210の構成において、足元画像に対して、ペダルを使用しているか否かを検出するペダル使用検出部を設けてもよい。この場合、手検出部212に代えて音検出部やペダル使用検出部が設けられてもよいし、手検出部212と音検出部やペダル使用検出部の両方が設けられてもよい。 In addition, in the configuration of the switcher 210 in FIG. 10, a sound detection unit that detects the sound of a piano, or the sound of a metronome or other musical instrument played in time with the performance of the piano, in response to voices from a microphone (not shown). may be provided. Furthermore, in the configuration of the switcher 210 of FIG. 10, a pedal usage detection unit may be provided for detecting whether or not the pedal is being used for the foot image. In this case, a sound detection section or a pedal use detection section may be provided instead of the hand detection section 212, or both the hand detection section 212 and the sound detection section or pedal use detection section may be provided.
(画像出力・合成部の動作)
 上述したように、画像出力・合成部214は、出力対象として手元画像252が選択されたときは、手元画像252から鍵盤の領域を切り出し、図11に示されるような、講師画像251や足元画像253と組み合わせた合成画像P201を出力することができる。
(Operation of image output/compositing unit)
As described above, when the hand image 252 is selected as an output target, the image output/synthesis unit 214 cuts out the keyboard region from the hand image 252, and produces the lecturer image 251 and the foot image as shown in FIG. 253 can be output.
 なお、図11に示される合成画像P201における画像の組み合わせは、これに限られず、出力対象として選択された手元画像252がそのまま出力されてもよいし、ペダルが使用されない演奏では、足元画像253は合成されなくてもよい。 Note that the combination of images in the synthesized image P201 shown in FIG. 11 is not limited to this, and the hand image 252 selected as an output target may be output as it is. It does not have to be synthesized.
<4.第3の実施形態>
(画像出力システムの構成例)
 図12は、本開示の第3の実施形態に係る画像出力システムの構成例を示す図である。
<4. Third Embodiment>
(Configuration example of image output system)
FIG. 12 is a diagram showing a configuration example of an image output system according to the third embodiment of the present disclosure.
 図12の画像出力システム300においては、講師L3がオンライン料理教室のレッスンを行う中で、複数の画像がレッスンの進行(講師L3の振る舞い)に応じて適切に切り替わり、出力される。 In the image output system 300 of FIG. 12, a plurality of images are appropriately switched and output according to the progress of the lesson (behavior of the instructor L3) while the instructor L3 is conducting the lesson of the online cooking class.
 画像出力システム300は、講師カメラ301、3台の手元カメラ302A,302B,302C、およびスイッチャ310から構成される。 The image output system 300 is composed of an instructor camera 301, three hand cameras 302A, 302B, and 302C, and a switcher 310.
 講師カメラ301は、講師L3を中心の被写体として撮影するカメラである。講師L3は、講師カメラ301に向かって生徒に対して説明したり、話しかけたりする。 The lecturer camera 301 is a camera that shoots the lecturer L3 as the main subject. The lecturer L3 looks at the lecturer camera 301 and explains or talks to the students.
 講師カメラ301は、キッチンのシンク、調理台、コンロなど毎に立ち位置を変えて作業する講師L3を1つのカメラアングルで撮影するように設置される。講師カメラ301は、スイッチャ310に接続され、講師L3を撮影した講師画像は、スイッチャ310に出力される。 The instructor camera 301 is installed so that the instructor L3, who works while changing his standing position for each kitchen sink, cooking table, stove, etc., is photographed from one camera angle. The lecturer camera 301 is connected to the switcher 310 , and the lecturer image of the lecturer L3 is output to the switcher 310 .
 手元カメラ302A,302B,302Cは、講師L3の手元を撮影範囲として撮影するカメラである。手元カメラ302A,302B,302Cにより、講師L3が調理する様子が撮影される。具体的には、手元カメラ302Aは、シンクの前で作業する講師L3の手やまな板などの調理器具などが撮影範囲に入るように設置される。手元カメラ302Bは、調理台の前で作業する講師L3の手やボウルなどの調理器具などが撮影範囲に入るように設置される。手元カメラ302Cは、コンロの前で作業する講師L3の手やフライパンなどの調理器具などが撮影範囲に入るように設置される。手元カメラ302A,302B,302Cは、スイッチャ310に接続され、講師L3の手元を撮影した手元画像は、スイッチャ310に出力される。 Hand cameras 302A, 302B, and 302C are cameras that photograph the hands of instructor L3 as a photographing range. Hand cameras 302A, 302B, and 302C capture images of instructor L3 cooking. Specifically, the hand camera 302A is installed so that the hand of the lecturer L3 working in front of the sink, cooking utensils such as a cutting board, and the like are within the photographing range. The hand camera 302B is installed so that the hands of the instructor L3 working in front of the cooking table, cooking utensils such as bowls, and the like are within the photographing range. The hand camera 302C is installed so that the hand of the instructor L3 who is working in front of the stove, cooking utensils such as a frying pan, and the like are within the imaging range. The hand cameras 302A, 302B, and 302C are connected to the switcher 310, and the hand images of the hands of the lecturer L3 are output to the switcher 310. FIG.
 スイッチャ310は、講師カメラ301、手元カメラ302A,302B,302Cそれぞれからの画像に対応した種々の画像解析・検出処理・認識処理などを行う。そして、スイッチャ310は、それらの処理結果に基づいて、レッスンの進行(講師L3の振る舞い)に対して適切な画像を、出力対象として選択して出力する。 The switcher 310 performs various image analysis, detection processing, recognition processing, etc. corresponding to the images from the instructor camera 301 and the hand cameras 302A, 302B, and 302C. Based on these processing results, the switcher 310 selects and outputs an image appropriate for the progress of the lesson (behavior of the lecturer L3) as an output target.
(スイッチャの機能構成例)
 図13は、スイッチャ310の機能構成例を示すブロック図である。
(Example of switcher functional configuration)
FIG. 13 is a block diagram showing a functional configuration example of the switcher 310. As shown in FIG.
 スイッチャ310は、講師カメラ301からの講師画像、および、手元カメラ302A,302B,302Cからの手元画像を入力として受け付け、出力画像とそのメタデータを出力する。 The switcher 310 receives the instructor image from the instructor camera 301 and the hand images from the hand cameras 302A, 302B, and 302C as inputs, and outputs output images and their metadata.
 スイッチャ310は、体の位置検出部311、調理器具検出部312,313,314、画像選択部315、および画像出力・合成部316を備えている。 The switcher 310 includes a body position detection section 311 , cooking utensil detection sections 312 , 313 and 314 , an image selection section 315 , and an image output/synthesis section 316 .
 なお、画像選択部315および画像出力・合成部316はそれぞれ、基本的には、図3を参照して説明した、画像選択部114および画像出力・合成部115と同様の機能を有する。また、画像選択部315が有するメタデータ生成部315mも、基本的には、図3を参照して説明したメタデータ生成部114mと同様の機能を有する。 Note that the image selection unit 315 and the image output/synthesis unit 316 basically have the same functions as the image selection unit 114 and the image output/synthesis unit 115 described with reference to FIG. A metadata generation unit 315m included in the image selection unit 315 basically has the same function as the metadata generation unit 114m described with reference to FIG.
 体の位置検出部311は、スイッチャ310に入力される講師画像における講師L3の体の位置を検出する体の位置検出処理を行い、その検出結果を、画像選択部315に供給する。 The body position detection unit 311 performs body position detection processing to detect the body position of the lecturer L3 in the lecturer image input to the switcher 310 and supplies the detection result to the image selection unit 315 .
 体の位置検出処理は、例えば、一般的なディープラーニングなどを用いた骨格推定技術などにより人物の骨格を求め、その骨格の位置がどの位置にあるかを特定することで、体の位置を検出する処理である。体の位置検出処理による検出結果は、例えば、任意の座標系と基準点を定めることで、位置(x,y,z)や角度(picth,yaw,row)などで示される。 Body position detection processing, for example, finds the skeleton of a person by using skeleton estimation technology using general deep learning, etc., and detects the position of the body by specifying the position of the skeleton. It is a process to The detection result of the body position detection process is indicated by position (x, y, z), angle (picth, yaw, row), etc., for example, by defining an arbitrary coordinate system and reference point.
 本実施形態においては、体の位置検出処理により検出された講師L3の体の位置と、後述する複数の調理器具の位置との対応付けが必要となる。そのため、同一座標系において、講師L3の体の位置(x,y,z)や角度(picth,yaw,row)がそれぞれどの範囲であればどの調理器具の位置とするのかは、キャリブレーションによりあらかじめ設定されるようにする。 In this embodiment, it is necessary to associate the position of the instructor L3's body detected by the body position detection process with the positions of a plurality of cooking utensils, which will be described later. Therefore, in the same coordinate system, the position of the cooking utensil in the range of the body position (x, y, z) and the angle (picth, yaw, row) of the instructor L3 is determined in advance by calibration. be set.
 その範囲は、例えば、講師画像の所定の領域を枠で囲ったり、所定の位置をクリックするなどのユーザの操作により設定されたり、講師画像に映る調理器具が自動認識されることで値が設定されたりしてもよい。ここで自動認識される調理器具には、位置が固定されているキッチンのシンク、調理台、コンロの上で比較的動かされないで使用される、まな板、ボウル、フライパンや鍋などが含まれる。また、講師画像に映る調理器具と、手元画像それぞれに映る調理器具が自動認識されることで、講師L3の体の位置と各調理器具の位置との対応付けが行われてもよい。 For example, the range is set by a user's operation such as enclosing a predetermined area of the instructor image with a frame or by clicking a predetermined position, or the value is set by automatically recognizing the cooking utensils shown in the instructor image. It may be done. Cooking utensils that are automatically recognized here include fixed-position kitchen sinks, countertops, and cutting boards, bowls, frying pans, and pots that are used relatively immobile on the stove. Also, the position of the body of the instructor L3 and the position of each cooking utensil may be associated with each other by automatically recognizing the cooking utensils appearing in the instructor image and the cooking utensils appearing in the images at hand.
 調理器具検出部312,313,314は、スイッチャ310に入力される手元画像における調理器具の有無を検出する調理器具検出処理を行い、その検出結果を、画像選択部315に供給する。 The cooking utensil detection units 312 , 313 , and 314 perform cooking utensil detection processing for detecting the presence or absence of cooking utensils in the hand image input to the switcher 310 and supply the detection results to the image selection unit 315 .
 調理器具検出処理は、上述したキッチンのシンク、調理台、コンロの上で比較的動かされないで使用される調理器具とともに、それらに対応する、講師L3の手と基本的に一緒に動く包丁、トング、菜箸などの調理器具を検出する処理である。調理器具検出処理においては、例えば、従来のディープラーニングなどを用いた一般物体認識技術などが用いられる。比較的動かされないで使用される調理器具の検出結果は、上述した講師画像と手元画像それぞれとの座標合わせや位置の対応付けに用いられる。講師L3の手と基本的に一緒に動く調理器具の検出結果は、それらの調理器具が検出された手元画像の選択(切り替え)に用いられる。 The cooking utensil detection process includes the cooking utensils used relatively stationary on the kitchen sink, countertop, and stove as described above, as well as the corresponding knives and tongs that basically move together with the hand of instructor L3. , cooking utensils such as chopsticks. In the cookware detection process, for example, a conventional general object recognition technique using deep learning or the like is used. The detection result of cooking utensils that are used relatively unmoved is used for coordinate matching and position correspondence between the above-described instructor image and hand image. The detection result of cooking utensils that basically move together with the hand of lecturer L3 is used for selecting (switching) hand images in which those cooking utensils are detected.
 以上の構成により、スイッチャ310は、図14に示されるように、講師L4が講師カメラ301に向かって話しているときには講師画像351、講師L4が調理器具それぞれに対応する位置で調理しているときには手元画像352A,352B,352Cのいずれかを選択して、出力画像として出力することができる。図14の例では、手元画像352B,352Cは、テロップが合成されて出力される。 With the above configuration, as shown in FIG. 14, the switcher 310 displays the instructor image 351 when the instructor L4 is speaking toward the instructor camera 301, and switches to Any one of the hand images 352A, 352B, and 352C can be selected and output as an output image. In the example of FIG. 14, the images 352B and 352C at hand are synthesized with telops and output.
 ここで、講師画像351と手元画像352A,352B,352Cの少なくともいずれかを選択して出力する画像出力処理の流れについて説明する。 Here, the flow of image output processing for selecting and outputting at least one of the instructor image 351 and the hand images 352A, 352B, and 352C will be described.
(画像出力処理の流れ)
 図15は、講師画像351と手元画像352A,352B,352Cのいずれかを選択して出力する画像出力処理の流れについて説明するフローチャートである。
(Flow of image output processing)
FIG. 15 is a flowchart for explaining the flow of image output processing for selecting and outputting one of the instructor image 351 and the hand images 352A, 352B, and 352C.
 ステップS111において、スイッチャ310の調理器具検出部312,313,314は、手元画像352A,352B,352Cそれぞれに対して調理器具検出処理を行う。 In step S111, the cookware detection units 312, 313, and 314 of the switcher 310 perform cookware detection processing on the hand images 352A, 352B, and 352C, respectively.
 ステップS112において、調理器具検出部312,313,314は、調理器具検出処理による検出結果に基づいて、いずれかの手元画像352A,352B,352Cにおいて調理器具が検出されたか否かを判定する。ここで検出対象とされる調理器具は、講師L3の手と基本的に一緒に動く包丁、トング、菜箸などの調理器具とされる。いずれかの手元画像352A,352B,352Cにおいて調理器具が検出されたと判定された場合、ステップS113に進む。 In step S112, the cooking utensil detection units 312, 313, and 314 determine whether cooking utensils have been detected in any of the hand images 352A, 352B, and 352C based on the detection results of the cooking utensil detection process. Cooking utensils to be detected here are cooking utensils such as kitchen knives, tongs, and chopsticks that basically move together with the hand of instructor L3. If it is determined that cooking utensils have been detected in any of the hand images 352A, 352B, and 352C, the process proceeds to step S113.
 ステップS113において、体の位置検出部311は、講師画像351に対して体の位置検出処理を行う。 In step S<b>113 , the body position detection unit 311 performs body position detection processing on the lecturer image 351 .
 ステップS114において、体の位置検出部311は、体の位置検出処理による検出結果に基づいて、講師L3がいずれかの調理器具の前にいるか否かを判定する。具体的には、講師L3が、比較的動かされないで使用されるまな板、ボウル、フライパンや鍋などのいずれかの前にいるか否かが判定される。講師L3がいずれかの調理器具の前にいると判定された場合、ステップS115に進む。 In step S114, the body position detection unit 311 determines whether the instructor L3 is in front of any cooking utensil based on the detection result of the body position detection process. Specifically, it is determined whether or not the instructor L3 is in front of any of the cutting boards, bowls, frying pans, pots, etc. that are used relatively unmoved. If it is determined that instructor L3 is in front of any cookware, the process proceeds to step S115.
 ステップS115において、画像選択部315は、出力対象として、体の位置に対応する手元画像を選択する。例えば、講師L3がシンクの上のまな板の前にいると判定された場合、シンクを撮影範囲とする手元カメラ302Aからの手元画像352Aが、出力対象として選択される。 In step S115, the image selection unit 315 selects the hand image corresponding to the position of the body as an output target. For example, when it is determined that instructor L3 is in front of the chopping board above the sink, hand image 352A from hand camera 302A whose shooting range is the sink is selected as an output target.
 一方、ステップS112においていずれの手元画像においても調理器具が検出されなかったと判定された場合、または、ステップS114において講師L3がいずれの調理器具の前にもいないと判定された場合、ステップS116に進む。 On the other hand, if it is determined in step S112 that cooking utensils are not detected in any of the images at hand, or if it is determined in step S114 that instructor L3 is not in front of any cooking utensils, the process proceeds to step S116. .
 ステップS116において、画像選択部315は、出力対象として講師画像351を選択する。 In step S116, the image selection unit 315 selects the lecturer image 351 as an output target.
 ステップS115またはステップS116の後、ステップS117において、画像出力・合成部316は、画像選択部315により出力対象として選択された画像を出力する。 After step S115 or step S116, in step S117, the image output/synthesis unit 316 outputs the image selected by the image selection unit 315 as an output target.
 単に、いずれかの手元画像において調理器具が検出された場合に、出力対象としてその手元画像が選択されると、まな板の上に包丁を置くなどしたときにも、その手元画像が出力されてしまう。これに対して、上述した処理においては、手元画像において調理器具(例えば包丁)が検出されるだけでなく、講師画像351において講師L3の体の位置が検出されるようにした。 Simply, if a cooking utensil is detected in one of the images at hand and the image at hand is selected as an output target, the image at hand will be output even when a kitchen knife is placed on a cutting board. . In contrast, in the above-described processing, not only the cookware (for example, kitchen knife) is detected in the image at hand, but also the body position of the instructor L3 is detected in the instructor image 351 .
 これにより、手元画像において包丁が検出された場合であっても、講師L3がまな板の前にいなければ、講師L3は、講師カメラ301に向かって話していたり、ボウルやフライパンの前で調理している可能性が高いため、手元画像352Aは出力されない。また、講師L3がまな板の前にいる場合であっても、手元画像352Aにおいて包丁が検出されていなければ、講師L3は、包丁を使って調理していない可能性が高いため、やはり、手元画像352Aは出力されない。 As a result, even if the kitchen knife is detected in the hand image, if the instructor L3 is not in front of the cutting board, the instructor L3 is talking to the instructor camera 301 or cooking in front of the bowl or frying pan. hand image 352A is not output. Further, even if the instructor L3 is in front of the cutting board, if the kitchen knife is not detected in the hand image 352A, there is a high possibility that the instructor L3 is not using the kitchen knife for cooking. 352A is not output.
 以上の処理によれば、手元画像に調理器具が映っているだけだったり、講師L3が調理器具の前にいるだけで、意図しない手元画像に切り替わってしまうことを避けることができる。すなわち、画像毎に異なる種類の検出処理が行われ、それらの検出結果に基づいて出力対象とする画像が適切に選択されるので、より好適に異なる種類の画像の切り替えを実現することが可能となる。 According to the above processing, it is possible to avoid switching to an unintended hand image just because the cooking utensils are shown in the hand image or because the instructor L3 is just in front of the cooking utensils. That is, different types of detection processing are performed for each image, and an image to be output is appropriately selected based on the detection results, so that it is possible to switch between different types of images more preferably. Become.
 図13のスイッチャ310の構成において、手検出部を設け、手元画像352A,352B,352Cそれぞれにおける講師L3の手が検出されるようにしてもよい。この場合、講師L3の手と基本的に一緒に動く調理器具を検出する調理器具検出部312,313,314それぞれに代えて手検出部が設けられてもよいし、調理器具検出部312,313,314と手検出部の両方が設けられてもよい。 In the configuration of the switcher 310 of FIG. 13, a hand detection unit may be provided to detect the hand of the lecturer L3 in each of the hand images 352A, 352B, and 352C. In this case, instead of each of the cooking utensil detection units 312, 313, and 314 that detect cooking utensils that basically move together with the hands of the lecturer L3, hand detection units may be provided, or the cooking utensil detection units 312 and 313 may be provided. , 314 and a hand detector may be provided.
 また、画像選択部315が、体の位置検出部311により講師画像から求められた骨格を用いて、手元画像それぞれに対応する位置で料理に手を伸ばしているなどの姿勢推定を行い、その手を伸ばしている先の位置(座標)に対応する手元画像を選択するようにしてもよい。 In addition, the image selection unit 315 uses the skeleton obtained from the instructor image by the body position detection unit 311 to estimate a posture such as a hand reaching for food at a position corresponding to each hand image. Alternatively, the hand image corresponding to the position (coordinates) to which the is extended may be selected.
(画像出力・合成部の動作)
 上述したように、画像出力・合成部316は、画像選択部315からの選択画像をスルー画として出力したり、そのスルー画に、図14の手元画像352B,352Cのようにテロップなどを重畳することができる。
(Operation of image output/compositing unit)
As described above, the image output/synthesis unit 316 outputs the selected image from the image selection unit 315 as a through image, and superimposes a telop or the like on the through image, such as the hand images 352B and 352C in FIG. be able to.
 また、画像出力・合成部316は、画像選択部315からの複数の選択画像とメタデータに基づいて、例えば、講師画像と手元画像のいずれかをPicture in Picture合成したり、Side by side合成した合成画像を出力してもよい。 Further, the image output/synthesis unit 316 performs picture-in-picture synthesis or side-by-side synthesis of either the instructor image or the hand image, for example, based on the plurality of selected images and the metadata from the image selection unit 315. A composite image may be output.
 さらに、複数人の講師が調理している場合には、それぞれの講師の手元を撮影した手元画像が同時に表示されるように合成された合成画像が出力されてもよい。これら合成画像のレイアウトや、出力タイミング(組み合わせの切り替えタイミング)は、メタデータに基づいて決定されてもよいし、ユーザの指示に基づいて決定されてもよい。 Furthermore, when multiple instructors are cooking, a composite image may be output in which images of the hands of the respective instructors are displayed at the same time. The layout of these synthesized images and the output timing (combination switching timing) may be determined based on metadata or may be determined based on a user's instruction.
 また、出力画像とともに出力されるメタデータを用いることで、出力画像を記録装置などに記録して再生する際に、包丁を使って調理しているシーンや、講師L3が話しているシーンなど、所望のシーンの頭出しを行うことも可能となる。 In addition, by using the metadata that is output together with the output image, when the output image is recorded in a recording device or the like and played back, scenes such as cooking with a kitchen knife or a scene in which the lecturer L3 is speaking can be reproduced. It is also possible to cue a desired scene.
<5.第4の実施形態>
(画像出力システムの構成例)
 図16は、本開示の第4の実施形態に係る画像出力システムの構成例を示す図である。
<5. Fourth Embodiment>
(Configuration example of image output system)
FIG. 16 is a diagram illustrating a configuration example of an image output system according to the fourth embodiment of the present disclosure;
 図16の画像出力システム400においては、講師L4がオンライン講義を行う中で、複数の画像が講義の進行(講師L4の振る舞い)に応じて適切に切り替わり、出力される。 In the image output system 400 of FIG. 16, while lecturer L4 is conducting an online lecture, a plurality of images are appropriately switched and output according to the progress of the lecture (behavior of lecturer L4).
 画像出力システム400は、講師カメラ401、手元カメラ402、およびスイッチャ410から構成される。 The image output system 400 is composed of an instructor camera 401 , a hand camera 402 and a switcher 410 .
 講師カメラ401は、講師L4を中心の被写体として撮影するカメラである。講師L4は、講師カメラ401に向かって生徒に対して説明したり、話しかけたりする。 The lecturer camera 401 is a camera that shoots the lecturer L4 as the main subject. The lecturer L4 looks at the lecturer camera 401 and explains or talks to the students.
 講師カメラ401は、講師カメラ401に向かって説明する際の講師L4の体の向きが、教卓の上で作業する際の講師L4の体の向きとは異なる向きとなるカメラアングルで撮影するように設置される。講師カメラ401は、スイッチャ410に接続され、講師L4を撮影した講師画像は、スイッチャ410に出力される。 The lecturer camera 401 is set so that the orientation of the body of the lecturer L4 when giving an explanation toward the lecturer camera 401 is different from the orientation of the body of the lecturer L4 when working on the lecture desk. Installed. The lecturer camera 401 is connected to the switcher 410 , and the lecturer image of the lecturer L4 is output to the switcher 410 .
 手元カメラ402は、講師L4の手元を撮影範囲として撮影するカメラである。具体的には、手元カメラ402は書画カメラとして構成され、手元カメラ402により、教卓の上のテキストや筆記用具、それらに対して講師L4が書き込む様子が撮影される。手元カメラ402は、スイッチャ410に接続され、講師L4の手元を撮影した手元画像は、スイッチャ410に出力される。 The hand camera 402 is a camera that captures the hand of the lecturer L4 as a shooting range. Specifically, the camera at hand 402 is configured as a document camera, and the camera at hand 402 captures the text and writing utensils on the lecturer's table, and how the lecturer L4 writes on them. The hand camera 402 is connected to the switcher 410 , and a hand image of the hand of the lecturer L<b>4 is output to the switcher 410 .
 図16の例では、スイッチャ410は、PCにより構成される。これにより、スイッチャ410は、PC画像を外部からの入力として受け付ける必要がない。 In the example of FIG. 16, the switcher 410 is configured by a PC. This eliminates the need for the switcher 410 to accept PC images as input from the outside.
 また、スイッチャ410には、ネットワークNWを介して、オンライン講義を受講している受講者U4(講師L4の発話を聴講している聴講者)が使用しているPC420が接続されている。PC420からは、PC420に内蔵されたPCカメラにより撮影された受講者U4を中心の被写体とした受講者画像が、スイッチャ410に入力される。 Also, the switcher 410 is connected via the network NW to a PC 420 used by a student U4 who is taking an online lecture (a student listening to lecturer L4's speech). From the PC 420 , a student image centering on the student U 4 photographed by a PC camera incorporated in the PC 420 is input to the switcher 410 .
 スイッチャ410は、講師カメラ401、手元カメラ402、およびPC420それぞれからの画像に対応した種々の画像解析・検出処理・認識処理などを行う。スイッチャ410は、それらの処理結果に基づいて、オンライン講義の進行(講師L4の振る舞い)に対して適切な画像を、出力対象として選択して出力する。 The switcher 410 performs various image analysis, detection processing, recognition processing, etc. corresponding to the images from the instructor camera 401, the hand camera 402, and the PC 420, respectively. Based on these processing results, the switcher 410 selects and outputs an image suitable for the progress of the online lecture (behavior of lecturer L4) as an output target.
 なお、図16の例では、受講者U4は1人のみ示されているが、複数人であってもよく、スイッチャ410には、複数の受講者画像が入力されてもよい。 Although only one student U4 is shown in the example of FIG.
(スイッチャの機能構成例)
 図17は、スイッチャ410の機能構成例を示すブロック図である。
(Example of switcher functional configuration)
FIG. 17 is a block diagram showing a functional configuration example of the switcher 410. As shown in FIG.
 スイッチャ410は、講師カメラ401からの講師画像、手元カメラ402からの手元画像、および、PC420からの受講者画像を入力として受け付け、出力画像とそのメタデータを出力する。なお、ここでは、スイッチャ410(PC)本体のPC画像については、その説明を省略する。 The switcher 410 receives as input the instructor image from the instructor camera 401, the hand image from the hand camera 402, and the student image from the PC 420, and outputs the output image and its metadata. Note that the description of the PC image of the main body of the switcher 410 (PC) is omitted here.
 スイッチャ410は、体の向き検出部411、物体検出部412、話者検出部413、体の向き検出部414,画像選択部415、および画像出力・合成部416を備えている。 The switcher 410 includes a body orientation detection unit 411 , an object detection unit 412 , a speaker detection unit 413 , a body orientation detection unit 414 , an image selection unit 415 , and an image output/synthesis unit 416 .
 なお、画像選択部415および画像出力・合成部416はそれぞれ、基本的には、図3を参照して説明した、画像選択部114および画像出力・合成部115と同様の機能を有する。また、画像選択部415が有するメタデータ生成部415mも、基本的には、図3を参照して説明したメタデータ生成部114mと同様の機能を有する。 Note that the image selection unit 415 and the image output/synthesis unit 416 basically have the same functions as the image selection unit 114 and the image output/synthesis unit 115 described with reference to FIG. A metadata generation unit 415m included in the image selection unit 415 basically has the same function as the metadata generation unit 114m described with reference to FIG.
 体の向き検出部411は、スイッチャ410に入力される講師画像における講師L4の体の向きを検出する体の向き検出処理を行い、その検出結果を、画像選択部415に供給する。 The body orientation detection unit 411 performs body orientation detection processing for detecting the orientation of the body of the instructor L4 in the instructor image input to the switcher 410 and supplies the detection result to the image selection unit 415 .
 物体検出部412は、スイッチャ410に入力される手元画像において、受講者U4に見せたい物体が映ったか否かが検出する物体検出処理を行い、その検出結果を、画像選択部415に供給する。ここで検出対象とされる物体は、テキストや印刷物、筆記用具、その他の教材などとされる。 The object detection unit 412 performs object detection processing to detect whether or not an object to be shown to the student U4 appears in the hand image input to the switcher 410, and supplies the detection result to the image selection unit 415. Objects to be detected here are texts, printed matter, writing utensils, and other educational materials.
 話者検出部413は、スイッチャ410に入力される受講者画像において、受講者U4の発話を検出する話者検出処理を行い、その検出結果を、画像選択部415に供給する。話者検出部413は、例えば、受講者画像に対して顔パーツの検出を行い、口が開いていることを検出してもよいし、受講者画像とともに入力される音声に基づいて、受講者U4の声を検出してもよい。 The speaker detection unit 413 performs speaker detection processing to detect the utterance of the student U4 in the student image input to the switcher 410, and supplies the detection result to the image selection unit 415. The speaker detection unit 413 may, for example, detect facial parts in the student image to detect that the student's mouth is open. U4's voice may be detected.
 体の向き検出部414は、スイッチャ410に入力される受講者画像における受講者U4の体の向きを検出する体の向き検出処理を行い、その検出結果を、画像選択部415に供給する。 The body orientation detection unit 414 performs body orientation detection processing to detect the body orientation of the student U4 in the student image input to the switcher 410, and supplies the detection result to the image selection unit 415.
 以上の構成により、スイッチャ410は、講師画像、手元画像、および受講者画像の少なくともいずれかを選択して、出力画像として出力することができる。 With the above configuration, the switcher 410 can select at least one of the instructor image, the hand image, and the student image and output it as an output image.
(画像出力処理の流れ)
 ここで、図18のフローチャートを参照して、講師画像と手元画像のいずれかを選択して出力する画像出力処理の流れについて説明する。
(Flow of image output processing)
Here, the flow of image output processing for selecting and outputting either the instructor image or the hand image will be described with reference to the flowchart of FIG.
 ステップS211において、スイッチャ410の物体検出部412は、手元画像に対して物体検出処理を行う。 In step S211, the object detection unit 412 of the switcher 410 performs object detection processing on the hand image.
 ステップS212において、物体検出部412は、物体検出処理による検出結果に基づいて、手元画像において物体が検出されたか否かを判定する。具体的には、教卓の上で、テキストや印刷物、筆記用具、その他の教材が検出されたか否かが判定される。これらの物体が検出されたと判定された場合、ステップS213に進む。 In step S212, the object detection unit 412 determines whether an object has been detected in the hand image based on the detection result of the object detection process. Specifically, it is determined whether or not texts, printed materials, writing utensils, and other teaching materials have been detected on the teacher's desk. If it is determined that these objects have been detected, the process proceeds to step S213.
 ステップS213において、体の向き検出部411は、講師画像に対して体の向き検出処理を行う。 In step S213, the body orientation detection unit 411 performs body orientation detection processing on the lecturer image.
 ステップS214において、体の向き検出部411は、体の向き検出処理による検出結果に基づいて、講師L4の体が手元で作業する方向を向いているか、すなわち、教卓の上のテキストや印刷物などの説明を行う姿勢か否かを判定する。手元で作業する方向を向いていると判定された場合、ステップS215に進む。 In step S214, the body orientation detection unit 411 determines whether the body of the instructor L4 is facing the direction in which the instructor L4 is working, based on the detection result of the body orientation detection processing. It is determined whether or not the posture is for giving an explanation. If it is determined that it faces the direction of working at hand, the process proceeds to step S215.
 ステップS215において、画像選択部415は、出力対象として手元画像を選択する。 In step S215, the image selection unit 415 selects the hand image as an output target.
 一方、ステップS212において物体が検出されなかったと判定された場合、または、ステップS214において体が手元で作業する方向を向いていないと判定された場合、ステップS216に進む。 On the other hand, if it is determined in step S212 that no object has been detected, or if it is determined in step S214 that the body is not facing the direction of working at hand, the process proceeds to step S216.
 ステップS16において、画像選択部114は、出力対象として講師画像を選択する。 In step S16, the image selection unit 114 selects the lecturer image as an output target.
 ステップS215またはステップS216の後、ステップS217において、画像出力・合成部416は、画像選択部415により出力対象として選択された画像を出力する。 After step S215 or step S216, in step S217, the image output/synthesis unit 416 outputs the image selected by the image selection unit 415 as an output target.
 単に、手元画像においてテキストや印刷物が検出された場合に、出力対象として手元画像が選択されると、教卓の上にテキストや印刷物を置いただけでも、手元画像が出力されてしまう。これに対して、上述した処理においては、手元画像においてテキストや印刷物が検出されるだけでなく、講師画像において体の向きが検出されるようにした。 If text or printed matter is simply detected in the image at hand and the image at hand is selected as an output target, the image at hand will be output even if the text or printed matter is placed on the lecturer's desk. On the other hand, in the above-described processing, not only the text and printed matter are detected in the image at hand, but also the orientation of the body is detected in the lecturer image.
 これにより、手元画像においてテキストや印刷物が検出された場合であっても、体が手元で作業する方向を向いていなければ、講師L4は、講師カメラ401に向かって話している可能性が高いため、手元画像は出力されない。また、体が手元で作業する方向を向いている場合であっても、手元画像においてテキストや印刷物が検出されていなければ、講師L4は、テキストや印刷物の説明を行っていない可能性が高いため、やはり、手元画像は出力されない。 As a result, even if text or printed matter is detected in the hand image, if the body is not facing the direction in which the hand is working, there is a high possibility that the instructor L4 is speaking toward the instructor camera 401. , the hand image is not output. In addition, even if the body is facing the direction of working at hand, if no text or printed matter is detected in the image at hand, there is a high possibility that the instructor L4 has not explained the text or printed matter. , the image at hand is not output.
 以上の処理によれば、手元画像にテキストや印刷物が映っているだけだったり、体が手元で作業する方向を向いているだけで、誤って手元画像に切り替わってしまうことを避けることができる。すなわち、画像毎に異なる種類の検出処理が行われ、それらの検出結果に基づいて出力対象とする画像が適切に選択されるので、より好適に異なる種類の画像の切り替えを実現することが可能となる。 According to the above process, it is possible to avoid accidentally switching to the image at hand just because text or printed matter is reflected in the image at hand, or if the body is facing the direction in which the user is working. That is, different types of detection processing are performed for each image, and an image to be output is appropriately selected based on the detection results, so that it is possible to switch between different types of images more preferably. Become.
 一般的に、オンライン講義やWeb会議などでは、発言者にフォーカスして画像が切り替わるケースが多い。そこで、本実施形態の画像出力システム400においては、受講者画像に対する話者検出処理と体の向き検出処理の検出結果に応じて、講師画像や手元画像に加え、出力対象として、受講者画像が選択されるようにもできる。 In general, in online lectures, web conferences, etc., there are many cases where the image is switched to focus on the speaker. Therefore, in the image output system 400 of this embodiment, in addition to the instructor image and hand image, the student image is output as an output target according to the detection results of the speaker detection processing and the body direction detection processing for the student image. It can also be selected.
(受講者画像の選択の流れ)
 図19は、受講者画像の選択の流れについて説明するフローチャートである。図19の処理は、図18のフローチャートを参照して説明した画像出力処理と並行して実行され得る。
(Flow of student image selection)
FIG. 19 is a flowchart for explaining the flow of student image selection. The processing of FIG. 19 can be executed in parallel with the image output processing described with reference to the flowchart of FIG.
 ステップS231において、話者検出部413は、受講者画像に対して話者検出処理を行う。 In step S231, the speaker detection unit 413 performs speaker detection processing on the student image.
 ステップS232において、話者検出部413は、話者検出処理による検出結果に基づいて、受講者U4の発話が検出されたか否かを判定する。受講者U4の発話が検出されたと判定された場合、ステップS233に進む。 In step S232, the speaker detection unit 413 determines whether or not the utterance of student U4 has been detected based on the detection result of the speaker detection process. If it is determined that student U4's speech has been detected, the process proceeds to step S233.
 ステップS233において、体の向き検出部414は、受講者画像に対して体の向き検出処理を行う。 In step S233, the body orientation detection unit 414 performs body orientation detection processing on the student image.
 ステップS234において、体の向き検出部414は、体の向き検出処理による検出結果に基づいて、受講者U4の体がPC420のPCカメラの方向を向いているか否かを判定する。PCカメラの方向を向いていると判定された場合、ステップS235に進む。 In step S234, the body orientation detection unit 414 determines whether or not the student U4's body is facing the PC camera of the PC 420 based on the detection result of the body orientation detection processing. If it is determined that the camera is directed toward the PC camera, the process proceeds to step S235.
 ステップS235において、画像選択部415は、出力対象として受講者画像を選択する。このとき、画像選択部415によって、受講者画像とともに、講師画像が出力対象として選択されていてもよいし、講師画像と手元画像の両方が出力対象として選択されていてもよい。 In step S235, the image selection unit 415 selects the student image as an output target. At this time, the image selection unit 415 may select the lecturer image as output targets together with the student image, or both the lecturer image and the hand image may be selected as output targets.
 一方、ステップS232において受講者U4の発話が検出されなかったと判定された場合、または、ステップS234において体がPCカメラの方向を向いていないと判定された場合、ステップS235はスキップされる。すなわち、受講者画像は、出力対象として選択されない。 On the other hand, if it is determined in step S232 that student U4's speech has not been detected, or if it is determined in step S234 that the body is not facing the PC camera, step S235 is skipped. That is, the student image is not selected as an output target.
 以上の処理によれば、講師画像と手元画像に加え、受講者画像が出力画像として出力され、オンライン講義においても、遠隔地にいる講師L4と受講者U4との円滑なコミュニケーションを実現することができる。 According to the above processing, in addition to the instructor image and the image at hand, the student image is output as an output image, and even in the online lecture, smooth communication between the lecturer L4 and the student U4 at a remote location can be realized. can.
 図17のスイッチャ410の構成において、物体検出部412は、画像処理により物体を検出するのではなく、物理的なセンサからのセンサデータなどを用いて、教卓の上などの手元で作業する領域に物体が置かれていることを検出してもよい。 In the configuration of the switcher 410 in FIG. 17, the object detection unit 412 does not detect an object by image processing, but uses sensor data from a physical sensor to detect an object in a work area such as a classroom. It may detect that an object is placed.
 また、物体検出部412は、テキストや印刷物に印刷されている文字や、講師L4により書き込まれた手書き文字を、OCR(Optical Character Recognition)技術により認識することで、受講者U4に見せたい物体が映ったか否かを検出してもよい。さらにこの場合、文字の書き込みや消去などの時系列に行われる行為が検出されてもよい。 In addition, the object detection unit 412 uses OCR (Optical Character Recognition) technology to recognize characters printed on text or printed matter, or handwritten characters written by the lecturer L4, so that the object to be shown to the student U4 is identified. It may be detected whether or not the image is displayed. Furthermore, in this case, actions such as writing and erasing of characters performed in time series may be detected.
 なお、物体検出処理においては、上述した検出対象として挙げた物体のうち、特定の物体のみが、検出対象や認識対象とされてもよい。 It should be noted that in the object detection process, only specific objects among the objects listed as detection targets described above may be used as detection targets or recognition targets.
 また、図17のスイッチャ410の構成において、手検出部を設け、手元画像における講師L4の手が検出されるようにしてもよいし、体の位置検出部を設け、講師画像における講師L4の体の位置が検出されるようにしてもよい。さらに、図17のスイッチャ410の構成において、顔の向き検出部を設け、講師画像における講師L4の顔の向きや、受講者画像における受講者U4の顔の向きが検出されるようにしてもよい。 Further, in the configuration of the switcher 410 in FIG. 17, a hand detection unit may be provided to detect the hand of the instructor L4 in the hand image, or a body position detection unit may be provided to detect the body position of the instructor L4 in the instructor image. may be detected. Furthermore, in the configuration of the switcher 410 of FIG. 17, a face orientation detection unit may be provided to detect the orientation of the instructor L4's face in the instructor image and the orientation of the student U4 in the student image. .
 加えて、受講者画像に対する顔識別やその他の手法によって個人を特定する手法により、特定の受講者のみが、検出対象や認識対象とされてもよい。さらに、受講者画像に対する表情認識や感情認識を行うことにより、特定の表情や感情の認識結果に基づいて、画像選択部415が画像を選択するようにしてもよい。 In addition, only specific students may be targeted for detection or recognition by means of identifying individuals by face identification on student images or other methods. Further, the image selection unit 415 may select an image based on the result of recognition of a specific facial expression or emotion by performing facial expression recognition or emotion recognition on the student image.
(画像出力・合成部の動作)
 画像出力・合成部416は、講師画像、手元画像、および受講者画像の少なくともいずれかを出力画像として出力することができる。
(Operation of image output/compositing unit)
The image output/synthesis unit 416 can output at least one of the instructor image, the hand image, and the student image as an output image.
 例えば、画像出力・合成部416は、出力対象として講師画像が選択されている場合には、講師画像のみを出力画像として出力したり、図20の左側に示されるような、講師画像451と、少なくとも1人の受講者画像461を組み合わせた合成画像P401を、出力画像として出力してもよい。 For example, when the lecturer image is selected as an output target, the image output/synthesis unit 416 outputs only the lecturer image as an output image, or outputs the lecturer image 451 as shown on the left side of FIG. A composite image P401 obtained by combining at least one student image 461 may be output as an output image.
 また、画像出力・合成部416は、出力対象として手元画像が選択されている場合には、手元画像のみを出力画像として出力したり、図20の右側に示されるような、手元画像452に、講師画像451と、少なくとも1人の受講者画像461を組み合わせた合成画像P402を、出力画像として出力してもよい。 Further, when the hand image is selected as an output target, the image output/synthesis unit 416 outputs only the hand image as an output image, or outputs the hand image 452 as shown on the right side of FIG. A composite image P402 obtained by combining the lecturer image 451 and at least one student image 461 may be output as an output image.
 さらに、画像出力・合成部416は、出力対象として受講者画像が選択されている場合には、図示はしないが、発言している受講者が映る受講者画像のみを出力したり、その受講者画像に、講師画像、手元画像、および他の受講者が映る受講者画像を組み合わせた合成画像を、出力画像として出力してもよい。 Further, when a student image is selected as an output target, the image output/synthesis unit 416 outputs only the student image in which the student who speaks is shown (not shown), or outputs the student image. A composite image obtained by combining an image with an image of the instructor, an image at hand, and an image of a student in which another student is shown may be output as an output image.
 なお、図20に示される合成画像P401,P402それぞれにおける画像の組み合わせやレイアウトは、これに限られない。また、合成画像P401,P402のレイアウトや、出力タイミング(組み合わせの切り替えタイミング)は、メタデータに基づいて決定されてもよいし、ユーザの指示に基づいて決定されてもよい。 Note that the combination and layout of images in each of the synthesized images P401 and P402 shown in FIG. 20 are not limited to this. Also, the layout of the synthesized images P401 and P402 and the output timing (combination switching timing) may be determined based on the metadata, or may be determined based on the user's instruction.
 また、出力画像とともに出力されるメタデータとして、OCR技術により手元画像において認識された文字が出力されるようにしてもよい。これにより、出力画像を記録装置などに記録して再生する際に、キーワード検索により、所望のシーンの頭出しを行うことも可能となる。 Also, as the metadata output together with the output image, characters recognized in the image at hand by OCR technology may be output. As a result, when an output image is recorded in a recording device or the like and reproduced, it is possible to cue a desired scene by searching for a keyword.
<6.変形例>
 以下においては、上述した実施形態における変形例について説明する。
<6. Variation>
Modifications of the above-described embodiment will be described below.
(優先度に基づいた画像の出力)
 上述した実施形態に係る画像出力システムにおいては、人物画像としての講師画像の被写体となる講師は1人であったが、複数人であってもよい。この場合、講師それぞれを被写体として撮影した複数の講師画像が、スイッチャに入力される。スイッチャは、複数の講師画像それぞれに対して同様の検出処理を行い、それぞれの検出結果に基づいて、出力対象とする講師画像を選択する。
(Image output based on priority)
In the image output system according to the above-described embodiment, the subject of the lecturer image as the person image is one lecturer, but there may be a plurality of lecturers. In this case, a plurality of lecturer images obtained by photographing each lecturer as a subject are input to the switcher. The switcher performs similar detection processing on each of the plurality of lecturer images, and selects the lecturer image to be output based on the respective detection results.
 ここで、スイッチャに入力された全ての講師画像が出力対象として選択された場合、全ての講師画像が出力画像として出力されてもよいし、あらかじめ決められた優先度に基づいて、出力される講師画像が特定されてもよい。 Here, when all instructor images input to the switcher are selected as output images, all instructor images may be output as output images. An image may be identified.
 例えば、あらかじめ登録された講師の顔に対して優先度が付与されるようにし、講師画像において認識された顔に付与されている優先度に基づいて、出力される講師画像が特定されてもよい。 For example, a priority may be given to the teacher's face registered in advance, and the teacher image to be output may be specified based on the priority given to the face recognized in the teacher image. .
 また、講師を撮影する各カメラに対して優先度が付与されるようにし、講師画像を撮影したカメラに付与されている優先度に基づいて、出力される講師画像が特定されてもよい。 Also, a priority may be given to each camera that captures the lecturer, and the lecturer image to be output may be specified based on the priority given to the camera that captured the lecturer image.
 さらに、それぞれの講師画像において講師が映り始めた時刻順に、講師画像に対する優先度が付与されるようにし、その講師画像付与されている優先度に基づいて、出力される講師画像が特定されてもよい。 Further, priority is assigned to each instructor image in the order of the time when the instructor starts appearing in each instructor image. good.
(クラウド化への対応)
 上述した実施形態に係る画像出力システムにおいて、スイッチャ(画像出力装置)は、各カメラとともにオンプレミスな環境に設けられるものとした。これに限らず、スイッチャの一部の機能が、クラウド環境に設けられるようにしてもよい。
(Response to cloud computing)
In the image output system according to the embodiment described above, the switcher (image output device) is provided in an on-premises environment together with each camera. Not limited to this, some functions of the switcher may be provided in the cloud environment.
 例えば、スイッチャが備える画像選択部と画像出力・合成部がクラウド環境に設けられるようにしてもよい。この場合、各カメラにより撮影される画像に対する検出処理は、エッジ環境において行われるようにする。エッジ環境からは、各画像と、画像それぞれに対する検出処理による検出結果が、クラウド環境にアップロードされる。クラウド環境においては、エッジ環境からの画像と検出結果に基づいて、出力対象とする画像が選択される。 For example, the image selection unit and the image output/synthesis unit included in the switcher may be provided in the cloud environment. In this case, detection processing for images captured by each camera is performed in an edge environment. From the edge environment, each image and the detection result of detection processing for each image are uploaded to the cloud environment. In the cloud environment, an image to be output is selected based on the image from the edge environment and the detection result.
 このように、スイッチャの機能を、クラウド環境とエッジ環境に分散させることで、スイッチャの機能全てをクラウド環境に構築する場合と比較して、ランニングコストを抑えることが可能となる。 By distributing switcher functions in the cloud environment and edge environment in this way, it is possible to reduce running costs compared to building all switcher functions in the cloud environment.
<7.コンピュータの構成例>
 上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
<7. Computer configuration example>
The series of processes described above can be executed by hardware or by software. When executing a series of processes by software, a program that constitutes the software is installed from a program recording medium into a computer built into dedicated hardware or a general-purpose personal computer.
 図21は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。 FIG. 21 is a block diagram showing a hardware configuration example of a computer that executes the series of processes described above by a program.
 本開示に係る技術を適用し得る画像出力装置としてのスイッチャは、図21に示される構成を有するコンピュータ500により実現される。 A switcher as an image output device to which the technology according to the present disclosure can be applied is implemented by a computer 500 having the configuration shown in FIG.
 CPU501、ROM(Read Only Memory)502、RAM(Random Access Memory)503は、バス504により相互に接続されている。 The CPU 501 , ROM (Read Only Memory) 502 and RAM (Random Access Memory) 503 are interconnected by a bus 504 .
 バス504には、さらに、入出力インタフェース505が接続されている。入出力インタフェース505には、キーボード、マウスなどよりなる入力部506、ディスプレイ、スピーカなどよりなる出力部507が接続される。また、入出力インタフェース505には、ハードディスクや不揮発性のメモリなどよりなる記憶部508、ネットワークインタフェースなどよりなる通信部509、リムーバブルメディア511を駆動するドライブ510が接続される。 An input/output interface 505 is further connected to the bus 504 . The input/output interface 505 is connected to an input unit 506 such as a keyboard and a mouse, and an output unit 507 such as a display and a speaker. The input/output interface 505 is also connected to a storage unit 508 including a hard disk or nonvolatile memory, a communication unit 509 including a network interface, and a drive 510 for driving a removable medium 511 .
 以上のように構成されるコンピュータでは、CPU501が、例えば、記憶部508に記憶されているプログラムを入出力インタフェース505およびバス504を介してRAM503にロードして実行することにより、上述した一連の処理が行われる。 In the computer configured as described above, for example, the CPU 501 loads a program stored in the storage unit 508 into the RAM 503 via the input/output interface 505 and the bus 504 and executes the above-described series of processes. is done.
 CPU501が実行するプログラムは、例えばリムーバブルメディア511に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供され、記憶部508にインストールされる。 The programs executed by the CPU 501 are recorded on the removable media 511, or provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital broadcasting, and installed in the storage unit 508.
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたときなどの必要なタイミングで処理が行われるプログラムであっても良い。 It should be noted that the program executed by the computer may be a program in which processing is performed in chronological order according to the order described in this specification, or in parallel or at a necessary timing such as when a call is made. It may be a program in which processing is performed.
 本開示の実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。 The embodiments of the present disclosure are not limited to the embodiments described above, and various modifications are possible without departing from the gist of the present disclosure.
 また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。 In addition, the effects described in this specification are only examples and are not limited, and other effects may be provided.
 さらに、本開示は以下のような構成をとることができる。
(1)
 複数の画像それぞれに対する異なる種類の検出処理による検出結果に基づいて、出力対象とする1以上の前記画像を選択する画像選択部
 を備える画像出力装置。
(2)
 前記画像選択部は、前記検出結果としての、第1の画像における人物の状態と、第2の画像におけるオブジェクトの状態に基づいて、前記第1の画像と前記第2の画像の少なくともいずれかを、前記出力対象として選択する
 (1)に記載の画像出力装置。
(3)
 前記画像選択部は、前記第2の画像における前記オブジェクトの状態が所定の条件を満たし、かつ、前記第1の画像における前記人物の状態が前記オブジェクトとの所定の関連性を示す場合、前記第2の画像を前記出力対象として選択する
 (2)に記載の画像出力装置。
(4)
 前記第1の画像は、前記人物を中心の被写体として撮影した人物画像であり、
 前記人物の状態は、前記人物の姿勢、位置、および、発話の有無の少なくともいずれかを含む
 (2)に記載の画像出力装置。
(5)
 前記第2の画像は、前記人物の手元を撮影範囲とした手元画像を含み、
 前記オブジェクトの状態は、前記オブジェクトの有無、数、位置、向き、および形状の少なくともいずれかを含む
 (2)に記載の画像出力装置。
(6)
 前記オブジェクトは、前記人物の手である
 (5)に記載の画像出力装置。
(7)
 前記オブジェクトは、前記人物が扱う物体である
 (5)に記載の画像出力装置。
(8)
 前記第2の画像は、前記人物が操作するコンピュータの表示画面を含み、
 前記オブジェクトの状態は、前記表示画面の変化を含む
 (2)に記載の画像出力装置。
(9)
 前記第2の画像は、ネットワークを介して前記人物の発話を聴講する聴講者を中心の被写体とした聴講者画像を含み、
 前記オブジェクトの状態は、前記聴講者の姿勢、および、発話の有無の少なくともいずれか含む
 (2)に記載の画像出力装置。
(10)
 前記オブジェクトの状態は、音声検出結果を含む
 (2)に記載の画像出力装置。
(11)
 前記出力対象として選択された前記画像を出力する画像出力部をさらに備え、
 前記画像出力部は、前記出力対象として2以上の前記画像が選択された場合、2以上の前記画像を合成して出力する
 (1)乃至(10)のいずれかに記載の画像出力装置。
(12)
 前記画像出力部は、前記出力対象として選択された前記画像のメタデータに基づいて、前記画像を出力する
 (11)に記載の画像出力装置。
(13)
 前記画像出力部は、前記メタデータに基づいたタイミングで前記画像を出力する
 (12)に記載の画像出力装置。
(14)
 前記画像出力部は、前記出力対象として2以上の前記画像が選択された場合、前記メタデータに基づいたレイアウトで2以上の前記画像を合成する
 (12)に記載の画像出力装置。
(15)
 前記画像選択部は、前記検出結果を含む前記メタデータを生成し、
 前記画像出力部は、前記画像選択部により生成された前記メタデータに基づいて、前記画像を出力する
 (12)に記載の画像出力装置。
(16)
 前記画像選択部は、フレーム単位の前記検出結果に基づいて、前記出力対象とする前記画像を選択する
 (1)乃至(15)のいずれかに記載の画像出力装置。
(17)
 前記画像選択部は、一定時間において継続して得られた前記検出結果に基づいて、前記出力対象とする前記画像を選択する
 (1)乃至(15)のいずれかに記載の画像出力装置。
(18)
 前記画像選択部は、特定の頻度で得られた前記検出結果に基づいて、前記出力対象とする前記画像を選択する
 (1)乃至(15)のいずれかに記載の画像出力装置。
(19)
 複数の前記画像それぞれに対して、異なる種類の前記検出処理を実行する複数の検出部をさらに備える
 (1)乃至(18)のいずれかに記載の画像出力装置。
(20)
 画像出力装置が、
 複数の画像それぞれに対する異なる種類の検出処理による検出結果に基づいて、出力対象とする1以上の前記画像を選択する
 画像出力方法。
(21)
 コンピュータに、
 複数の画像それぞれに対する異なる種類の検出処理による検出結果に基づいて、出力対象とする1以上の前記画像を選択する
 処理を実行させるためのプログラム。
Furthermore, the present disclosure can be configured as follows.
(1)
An image output device comprising: an image selection unit that selects one or more images to be output based on detection results obtained by different types of detection processing for each of a plurality of images.
(2)
The image selection unit selects at least one of the first image and the second image based on the state of the person in the first image and the state of the object in the second image as the detection result. , is selected as the output target. The image output apparatus according to (1).
(3)
If the state of the object in the second image satisfies a predetermined condition and the state of the person in the first image indicates a predetermined relationship with the object, the image selection unit selects the first image. 2. The image output apparatus according to (2), wherein the image of 2 is selected as the output target.
(4)
wherein the first image is a person image photographed with the person as a center subject;
The image output apparatus according to (2), wherein the state of the person includes at least one of posture, position, and presence or absence of speech of the person.
(5)
the second image includes a hand image in which the hand of the person is a shooting range;
(2) The image output device according to (2), wherein the state of the object includes at least one of presence/absence, number, position, orientation, and shape of the object.
(6)
The image output device according to (5), wherein the object is the person's hand.
(7)
The image output device according to (5), wherein the object is an object handled by the person.
(8)
the second image includes a display screen of a computer operated by the person;
The image output device according to (2), wherein the state of the object includes a change in the display screen.
(9)
the second image includes a listener image centering on the listener who listens to the person's utterance via a network;
The image output device according to (2), wherein the state of the object includes at least one of the posture of the listener and the presence or absence of speech.
(10)
The image output device according to (2), wherein the state of the object includes a sound detection result.
(11)
further comprising an image output unit that outputs the image selected as the output target,
The image output device according to any one of (1) to (10), wherein, when two or more of the images are selected as the output target, the image output unit synthesizes and outputs the two or more images.
(12)
The image output apparatus according to (11), wherein the image output unit outputs the image based on metadata of the image selected as the output target.
(13)
The image output device according to (12), wherein the image output unit outputs the image at timing based on the metadata.
(14)
(12) The image output device according to (12), wherein, when two or more of the images are selected as the output targets, the image output unit synthesizes the two or more images in a layout based on the metadata.
(15)
The image selection unit generates the metadata including the detection result,
The image output device according to (12), wherein the image output unit outputs the image based on the metadata generated by the image selection unit.
(16)
The image output apparatus according to any one of (1) to (15), wherein the image selection unit selects the image to be output based on the detection result for each frame.
(17)
The image output device according to any one of (1) to (15), wherein the image selection unit selects the image to be output based on the detection result continuously obtained for a certain period of time.
(18)
The image output device according to any one of (1) to (15), wherein the image selection unit selects the image to be output based on the detection result obtained at a specific frequency.
(19)
The image output apparatus according to any one of (1) to (18), further comprising a plurality of detection units that perform different types of detection processing on each of the plurality of images.
(20)
The image output device
An image output method, comprising: selecting one or more images to be output based on detection results obtained by different types of detection processing for each of a plurality of images.
(21)
to the computer,
A program for executing a process of selecting one or more images to be output based on detection results obtained by different types of detection processes for each of a plurality of images.
 10 画像出力装置, 11,12,13 状態検出部, 14 画像選択部, 14m メタデータ生成部, 15 画像出力・合成部 10 image output device, 11, 12, 13 state detection unit, 14 image selection unit, 14m metadata generation unit, 15 image output/synthesis unit

Claims (20)

  1.  複数の画像それぞれに対する異なる種類の検出処理による検出結果に基づいて、出力対象とする1以上の前記画像を選択する画像選択部
     を備える画像出力装置。
    An image output device comprising: an image selection unit that selects one or more images to be output based on detection results obtained by different types of detection processing for each of a plurality of images.
  2.  前記画像選択部は、前記検出結果としての、第1の画像における人物の状態と、第2の画像におけるオブジェクトの状態に基づいて、前記第1の画像と前記第2の画像の少なくともいずれかを、前記出力対象として選択する
     請求項1に記載の画像出力装置。
    The image selection unit selects at least one of the first image and the second image based on the state of the person in the first image and the state of the object in the second image as the detection result. , is selected as the output target.
  3.  前記画像選択部は、前記第2の画像における前記オブジェクトの状態が所定の条件を満たし、かつ、前記第1の画像における前記人物の状態が前記オブジェクトとの所定の関連性を示す場合、前記第2の画像を前記出力対象として選択する
     請求項2に記載の画像出力装置。
    If the state of the object in the second image satisfies a predetermined condition and the state of the person in the first image indicates a predetermined relationship with the object, the image selection unit selects the first image. 3. The image output device according to claim 2, wherein the image No. 2 is selected as the output target.
  4.  前記第1の画像は、前記人物を中心の被写体として撮影した人物画像であり、
     前記人物の状態は、前記人物の姿勢、位置、および、発話の有無の少なくともいずれかを含む
     請求項2に記載の画像出力装置。
    wherein the first image is a person image photographed with the person as a center subject;
    3. The image output apparatus according to claim 2, wherein the person's state includes at least one of the person's posture, position, and presence/absence of speech.
  5.  前記第2の画像は、前記人物の手元を撮影範囲とした手元画像を含み、
     前記オブジェクトの状態は、前記オブジェクトの有無、数、位置、向き、および形状の少なくともいずれかを含む
     請求項2に記載の画像出力装置。
    the second image includes a hand image in which the hand of the person is a shooting range;
    3. The image output device according to claim 2, wherein the state of the object includes at least one of presence/absence, number, position, orientation, and shape of the object.
  6.  前記オブジェクトは、前記人物の手である
     請求項5に記載の画像出力装置。
    6. The image output device according to claim 5, wherein said object is said person's hand.
  7.  前記オブジェクトは、前記人物が扱う物体である
     請求項5に記載の画像出力装置。
    The image output device according to Claim 5, wherein the object is an object handled by the person.
  8.  前記第2の画像は、前記人物が操作するコンピュータの表示画面を含み、
     前記オブジェクトの状態は、前記表示画面の変化を含む
     請求項2に記載の画像出力装置。
    the second image includes a display screen of a computer operated by the person;
    3. The image output device according to claim 2, wherein the state of the object includes changes in the display screen.
  9.  前記第2の画像は、ネットワークを介して前記人物の発話を聴講する聴講者を中心の被写体とした聴講者画像を含み、
     前記オブジェクトの状態は、前記聴講者の姿勢、および、発話の有無の少なくともいずれか含む
     請求項2に記載の画像出力装置。
    the second image includes a listener image centering on the listener who listens to the person's utterance via a network;
    3. The image output apparatus according to claim 2, wherein the state of the object includes at least one of the posture of the listener and presence/absence of speech.
  10.  前記オブジェクトの状態は、音声検出結果を含む
     請求項2に記載の画像出力装置。
    3. The image output device according to claim 2, wherein the state of the object includes a sound detection result.
  11.  前記出力対象として選択された前記画像を出力する画像出力部をさらに備え、
     前記画像出力部は、前記出力対象として2以上の前記画像が選択された場合、2以上の前記画像を合成して出力する
     請求項1に記載の画像出力装置。
    further comprising an image output unit that outputs the image selected as the output target,
    The image output device according to claim 1, wherein, when two or more of the images are selected as the output targets, the image output unit synthesizes and outputs the two or more images.
  12.  前記画像出力部は、前記出力対象として選択された前記画像のメタデータに基づいて、前記画像を出力する
     請求項11に記載の画像出力装置。
    12. The image output apparatus according to claim 11, wherein the image output unit outputs the image based on metadata of the image selected as the output target.
  13.  前記画像出力部は、前記メタデータに基づいたタイミングで前記画像を出力する
     請求項12に記載の画像出力装置。
    The image output device according to claim 12, wherein the image output unit outputs the image at timing based on the metadata.
  14.  前記画像出力部は、前記出力対象として2以上の前記画像が選択された場合、前記メタデータに基づいたレイアウトで2以上の前記画像を合成する
     請求項12に記載の画像出力装置。
    13. The image output apparatus according to claim 12, wherein when two or more of the images are selected as the output targets, the image output unit synthesizes the two or more images in a layout based on the metadata.
  15.  前記画像選択部は、前記検出結果を含む前記メタデータを生成し、
     前記画像出力部は、前記画像選択部により生成された前記メタデータに基づいて、前記画像を出力する
     請求項12に記載の画像出力装置。
    The image selection unit generates the metadata including the detection result,
    The image output apparatus according to claim 12, wherein the image output section outputs the image based on the metadata generated by the image selection section.
  16.  前記画像選択部は、フレーム単位の前記検出結果に基づいて、前記出力対象とする前記画像を選択する
     請求項1に記載の画像出力装置。
    The image output apparatus according to claim 1, wherein the image selection unit selects the image to be output based on the detection result for each frame.
  17.  前記画像選択部は、一定時間において継続して得られた前記検出結果に基づいて、前記出力対象とする前記画像を選択する
     請求項1に記載の画像出力装置。
    2. The image output apparatus according to claim 1, wherein the image selection unit selects the image to be output based on the detection result continuously obtained for a certain period of time.
  18.  前記画像選択部は、特定の頻度で得られた前記検出結果に基づいて、前記出力対象とする前記画像を選択する
     請求項1に記載の画像出力装置。
    The image output apparatus according to claim 1, wherein the image selection section selects the image to be output based on the detection result obtained at a specific frequency.
  19.  画像出力装置が、
     複数の画像それぞれに対する異なる種類の検出処理による検出結果に基づいて、出力対象とする1以上の前記画像を選択する
     画像出力方法。
    The image output device
    An image output method, comprising: selecting one or more images to be output based on detection results obtained by different types of detection processing for each of a plurality of images.
  20.  コンピュータに、
     複数の画像それぞれに対する異なる種類の検出処理による検出結果に基づいて、出力対象とする1以上の前記画像を選択する
     処理を実行させるためのプログラム。
    to the computer,
    A program for executing a process of selecting one or more images to be output based on detection results obtained by different types of detection processes for each of a plurality of images.
PCT/JP2022/004219 2021-05-26 2022-02-03 Image output device, image output method, and program WO2022249555A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021-088075 2021-05-26
JP2021088075 2021-05-26

Publications (1)

Publication Number Publication Date
WO2022249555A1 true WO2022249555A1 (en) 2022-12-01

Family

ID=84229668

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/004219 WO2022249555A1 (en) 2021-05-26 2022-02-03 Image output device, image output method, and program

Country Status (1)

Country Link
WO (1) WO2022249555A1 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008072702A (en) * 2006-08-18 2008-03-27 Nippon Hoso Kyokai <Nhk> Device for controlling photographic shot and program for controlling photographic shot
JP2009502067A (en) * 2005-07-18 2009-01-22 トムソン ライセンシング Method and apparatus for processing multiple video streams using metadata
JP2009272970A (en) * 2008-05-09 2009-11-19 Nippon Hoso Kyokai <Nhk> Sports video transmission apparatus
WO2019124111A1 (en) * 2017-12-21 2019-06-27 ソニー株式会社 Control device and control method

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009502067A (en) * 2005-07-18 2009-01-22 トムソン ライセンシング Method and apparatus for processing multiple video streams using metadata
JP2008072702A (en) * 2006-08-18 2008-03-27 Nippon Hoso Kyokai <Nhk> Device for controlling photographic shot and program for controlling photographic shot
JP2009272970A (en) * 2008-05-09 2009-11-19 Nippon Hoso Kyokai <Nhk> Sports video transmission apparatus
WO2019124111A1 (en) * 2017-12-21 2019-06-27 ソニー株式会社 Control device and control method

Similar Documents

Publication Publication Date Title
AU2021261950B2 (en) Virtual and augmented reality instruction system
US7299405B1 (en) Method and system for information management to facilitate the exchange of ideas during a collaborative effort
Kawase Gazing behavior and coordination during piano duo performance
CN105590486A (en) Machine vision-based pedestal-type finger reader, related system device and related method
CN108536302A (en) A kind of teaching method and system based on human body gesture and voice
Lech et al. Testing a novel gesture-based mixing interface
US20210104169A1 (en) System and method for ai based skill learning
JP2011040921A (en) Content generator, content generating method, and content generating program
Zimmerman Video Sketches: Exploring pervasive computing interaction designs
JP2014085998A (en) Electronic note creation support device and program for electronic note creation support device
WO2022249555A1 (en) Image output device, image output method, and program
JP6810515B2 (en) Handwriting information processing device
JPH06318235A (en) Materials presenting device
JP7361612B2 (en) Information processing method, information processing device, and program
WO2023210387A1 (en) Information processing device, information processing method, and information processing system
JP2009003606A (en) Equipment control method by image recognition, and content creation method and device using the method
Helvert et al. Observing, coaching and reflecting: A multi-modal natural language-based dialogue system in a learning context
WO2021070733A1 (en) Information processing device, information processing method, and program
KR20130130396A (en) Method for producing educational material and educational material system
Morgan The use of virtual instruments by Australian screen composers
Hernández Martínez et al. Augmented reality tempo control tool for conducting students
KR102622163B1 (en) Online music teaching method and apparatus based on virtual reality
Cuadrado Touch the sound: Design and development of a tangible system for sound experimentation
Scholz Interactive Music Installation: Raising awareness about the lack of diversity at music festivals
WO2022209211A1 (en) Information processing device, generation method, and program

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22810841

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE