WO2021200140A1 - 信号処理装置、信号処理方法、および信号処理システム - Google Patents

信号処理装置、信号処理方法、および信号処理システム Download PDF

Info

Publication number
WO2021200140A1
WO2021200140A1 PCT/JP2021/010742 JP2021010742W WO2021200140A1 WO 2021200140 A1 WO2021200140 A1 WO 2021200140A1 JP 2021010742 W JP2021010742 W JP 2021010742W WO 2021200140 A1 WO2021200140 A1 WO 2021200140A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
unit
viewpoint
cameras
behavior
Prior art date
Application number
PCT/JP2021/010742
Other languages
English (en)
French (fr)
Inventor
悟郎 高木
浅井 聡
陽 野々山
晋作 平野
翔 小倉
正憲 松島
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2021200140A1 publication Critical patent/WO2021200140A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/292Multi-camera tracking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/268Signal distribution or switching

Definitions

  • the present disclosure relates to signal processing devices, signal processing methods, and signal processing systems, and in particular, predicts the behavior of a subject from images captured by a plurality of cameras, and is imaged by a plurality of cameras based on the predicted behavior.
  • the present invention relates to a signal processing device, a signal processing method, and a signal processing system capable of appropriately switching and outputting the viewpoint direction of a free viewpoint image generated from the image.
  • Patent Document 1 the behavior of the subject is predicted, the images of a plurality of cameras capturing the subject are switched, and the viewpoint of a free viewpoint image generated based on the images captured by the plurality of cameras is used.
  • the position cannot be switched and the behavior of the subject changes suddenly, there is a risk that the image cannot be switched properly because it cannot be followed.
  • the present disclosure has been made in view of such circumstances, and in particular, it is generated from images captured by a plurality of cameras that predict the behavior of the subject and image the subject based on the predicted behavior. This is to enable the viewpoint direction of the free viewpoint image to be appropriately switched.
  • the signal processing device and the signal processing system on one aspect of the present disclosure include a behavior prediction unit that predicts the behavior of a subject based on images captured by cameras in a plurality of viewpoint directions and outputs the prediction behavior, and the prediction. It is a switching unit, a signal processing device, and a signal processing system that output an image in a specific viewpoint direction, which is a specific viewpoint direction, from images captured by the cameras in the plurality of viewpoint directions based on the behavior.
  • the signal processing method of one aspect of the present disclosure predicts the behavior of a subject based on images captured by cameras in a plurality of viewpoint directions, outputs the predicted behavior, and based on the predicted behavior, the plurality of said.
  • This is a signal processing method including a step of outputting an image in a specific viewpoint direction, which is a specific viewpoint direction, from an image captured by a camera in the viewpoint direction.
  • the behavior of the subject is predicted based on the images captured by the cameras in the plurality of viewpoint directions and output as the predicted behavior, and the behavior of the plurality of viewpoints is predicted based on the predicted behavior. From the image captured by the camera, an image in a specific viewpoint direction, which is a specific viewpoint direction, is output.
  • FIG. 5 is a functional block diagram illustrating a configuration example of the real-time information analysis unit of FIG. It is a functional block diagram explaining the structural example of the camera work estimation part of FIG.
  • First Embodiment >> ⁇ When capturing a soccer match>
  • the present disclosure specifically predicts the behavior of a subject so that the viewpoint direction of a free-viewpoint image generated from an image captured by a camera that captures the subject can be appropriately switched.
  • the image here is, for example, a moving image (video).
  • the signal processing system 11A of FIG. 1 is composed of cameras 21A-1 to 21A-12, a SW (switching) device 22A, a communication device 23A, and a communication network 24A.
  • the cameras 21A-1 to 21A-12 are installed so as to surround the soccer field SCS, image the soccer field SCS from a plurality of viewpoint directions, and supply the captured images to the SW device 22A via the communication network 24A. ..
  • FIG. 1 describes an example in which cameras 21A-1 to 21A-12 for capturing the soccer field SCS from 12 viewpoint directions are provided, the viewpoint direction may be any number other than this. ..
  • FIG. 1 an example in which the cameras 21A-1 to 21A-12 are supplied to the SW device 22A via a wired communication network 24A is described, but a wireless connection may be used.
  • the camera 21A is simply referred to, and other configurations are also referred to in the same manner.
  • the SW device 22A predicts the behavior of the subject based on the images supplied from the cameras 21A-1 to 21A-12 via the communication network 24, and is free to take an appropriate viewpoint direction based on the predicted behavior. Generate a viewpoint image. Further, the SW device 22A is an edited image or a digest image of the game, which is edited based on the images supplied from the cameras 21A-1 to 21A-12, for example, by superimposing graphics such as points and player information. , Highlight image, etc. are generated. The SW device 22A generates a main line image for broadcasting by switching a pre-generated material image such as a generated free viewpoint image, an edited image, a digest image, a highlight image, and an interview image such as a player introduction, and generates the main line image.
  • the image is output to the communication device 23A and distributed from the communication device 23A to the broadcasting station or broadcast by a broadcast wave or the like.
  • the SW device 22A may automatically perform various editing, generation of digest images and highlight images, and switching of various images, or may be operated by an operator via various operation units (not shown). It may be performed based on.
  • the SW device 22A is, for example, by the cameras 21A-1 to 21A-12.
  • the image captured by the camera 21A-6 which is the viewpoint direction V1 for capturing the image of the player H1 dribbling the ball B1 is output to the communication device 23A.
  • the SW device 22A is imaged by the cameras 21A-1 to 21A-12 by machine learning such as deep learning based on a pattern obtained from images captured by the plurality of cameras 21A-1 to 21A-12. From the image of the player H1 in the image, the behavior of the player H1 is continuously predicted.
  • the SW device 22A allows the player H1 to hit the ball B1.
  • the image is switched to the image captured by the camera 21A-4 in the viewpoint direction V2 and output to the communication device 23A.
  • the SW device 22A switches the image captured by the camera 21A-4 in the viewpoint direction V2 to low-speed playback slower than the normal playback speed at the timing of hitting the shoot, and detailed the image of hitting the shoot. Display it.
  • the SW device 22A of FIG. 1 predicts the behavior of the subject based on the images captured by the cameras 21A-1 to 21A-12, and switches the viewpoint direction of the image to be reproduced based on the predicted behavior (space). Switch the camera work with respect to the direction) and switch the playback speed of the image to be played back (switch the camera work with respect to the time direction) and output.
  • the images captured by the cameras 21A-1 to 21A-12 are switched to the images in the appropriate viewpoint direction and reproduced at an appropriate playback speed, so that the viewer can play soccer. It is possible to view an important scene in a game with an image in a viewpoint direction that is easy to view and at a playback speed that is easy to view.
  • the SW device 22A predicts the behavior of the subject based on the images captured by the cameras 21A-1 to 21A-12, and images the behavior of the subject based on the predicted behavior by the cameras 21A-1 to 21A-12. It can be said that the image to be output is output by appropriately switching the camera work in the spatial direction and at the same time appropriately switching the camera work in the time direction.
  • the behavior of the subject is predicted based on the images captured by the cameras 21A-1 to 21A-12, and the images captured by the cameras 21A-1 to 21A-12 based on the predicted behavior.
  • Camera work in which the viewpoint direction can be switched is called spatial direction camera work.
  • the description will be made on the premise that the image in the desired viewpoint direction is generated by interpolation as a free viewpoint image by using the images captured by the cameras 21A-1 to 21A-12. We shall proceed.
  • the viewpoint direction imaged by any of the cameras 21A-1 to 21A-12 is the same as the desired viewpoint direction
  • the image is taken by the camera that images in the same viewpoint direction as the desired viewpoint direction.
  • the image may be used as it is.
  • the images captured by the cameras 21A-1 to 21A-12 are used, and even if the images are interpolated and generated as the free viewpoint images, the cameras 21A-1 to 21A-12 It may be the image itself captured by any of 21A-12. Therefore, it can be said that the spatial direction camera work is a movement (trajectory) in which the viewpoints are sequentially switched in the free viewpoint image.
  • the camera work in which the playback speed can be switched is timed. It is called directional camera work.
  • the SW device 22A of the present disclosure predicts the behavior of the subject based on the images captured by the cameras 21A-1 to 21A-12, and the cameras 21A-1 to 21A-12 predict the behavior of the subject based on the predicted behavior. It can be considered that the spatial direction camera work and the temporal direction camera work are performed on the captured image.
  • the camera work in which the spatial direction camera work and the time direction camera work are performed in this way is also collectively referred to as a spatiotemporal direction camera work.
  • the SW device 22A may switch to the image in the viewpoint direction V3 captured by the camera 21A-5 by the spatial direction camera work.
  • the SW device 22A uses the spatial direction camera work to move the camera 21A in the viewpoint direction V1. From the image of 6 and the image of the camera 21A-5 in the viewpoint direction V3, the image in the viewpoint direction V11 is interpolated and generated as a free viewpoint image, and output as an image in which the viewpoint direction is switched.
  • the SW device 22A uses the spatial direction camera work to move the camera 21A in the viewpoint direction V3. From the image of ⁇ 5 and the image of the camera 21A-4 in the viewpoint direction V2, the image in the viewpoint direction V12 is interpolated and generated as a free viewpoint image, and output as an image in which the viewpoint direction is switched.
  • the SW device 22A may display an image while switching the viewpoint direction in the order of the viewpoint directions V1, V11, V3, V12, V2 by the spatial direction camera work. ..
  • the captured original image is used, so that the image is not distorted.
  • the images in the viewpoint directions V11 and V12 are free viewpoint images generated by interpolation, there is a possibility that distortion or the like may occur in the images.
  • the SW device 22A sets the display time to a predetermined display time for the images of the cameras 21A-6, 21A-5, 21A-4 in the viewpoint directions V1, V2, V3 by the time direction camera work. Display slowly and longer than.
  • the SW device 22A displays the images in the viewpoint directions V11 and V12, which are interpolated and generated as free viewpoint images by the time direction camera work, at a higher speed by making the display time shorter than the predetermined display time. ..
  • the SW device 22A predicts the behavior of the subject based on the images captured by the cameras 21A-1 to 21A-12, and the cameras 21A-1 to 21A are based on the predicted behavior. While appropriately switching the viewpoint direction of the free viewpoint image generated from the image captured by -12 by the spatial direction camera work, the time and space direction camera work is output at an appropriate playback speed, and the spatiotemporal direction camera work It can be said that it is done.
  • the behavior of the subject is predicted based on the images captured by the cameras 21A-1 to 21A-12, and the cameras 21A-1 to 21A- based on the predicted behavior. While switching the viewpoint direction of the free viewpoint image generated from the image captured by 12 by the spatial direction camera work, the image is output to the time direction camera work at an appropriate reproduction speed.
  • the behavior of the subject is predicted based on the images captured by the plurality of cameras, and the viewpoint direction of the free viewpoint image based on the images captured by the plurality of cameras is determined according to the predicted behavior of the subject. It is possible to display at an appropriate playback speed while switching appropriately.
  • the signal processing system 11B of FIG. 2 is composed of cameras 21B-1 to 21B-16, a SW (switching) device 22B, a communication device 23B, and a communication network 24B.
  • the cameras 21B-1 to 21B-16 are installed so as to surround the baseball field BBS, image the baseball field BBS from a plurality of viewpoint directions, and supply the captured images to the SW device 22B via the communication network 24B. ..
  • FIG. 2 describes an example in which cameras 21B-1 to 21B-16 are provided to image the baseball field BBS from 16 viewpoint directions, but the viewpoint direction may be any number other than this. ..
  • FIG. 2 an example in which the cameras 21B-1 to 21B-16 are supplied to the SW device 22B via the wired communication network 24B is described, but a wireless connection may be used.
  • the camera 21B is simply referred to, and other configurations are also referred to in the same manner.
  • the SW device 22B predicts the behavior of the subject based on the images supplied from the cameras 21B-1 to 21B-16 via the communication network 24B, and produces a free viewpoint image in the viewpoint direction based on the predicted behavior. Generate. Further, the SW device 22B is an edited image in which graphics such as points and player information are superimposed based on the images supplied from the cameras 21B-1 to 21B-16, and a digest image of the game. , Highlight image, etc. are generated. The SW device 22B switches a pre-generated material image such as a generated free viewpoint image, an edited image, a digest image, a highlight image, and an interview image such as a player introduction to generate a main line image for broadcasting, and the main line image is generated.
  • the image is output to the communication device 23B, and the communication device 23B distributes the image to the broadcasting station or transmits it as a broadcast wave.
  • the SW device 22B may automatically perform various editing, generation of digest images and highlight images, and switching of various images, or may be operated by an operator via various operation units (not shown). It may be performed based on.
  • the SW device 22B captures, for example, an image of a player H11 throwing a ball B11 at a baseball field BBS among the images captured by the cameras 21B-1 to 21B-16.
  • the image captured by the camera 21B-3 in the viewpoint direction V31 is output to the communication device 23B.
  • the SW device 22B is imaged by the cameras 21B-1 to 21B-16 by machine learning such as deep learning based on a pattern obtained from the images captured by the plurality of cameras 21B-1 to 21B-12. From the image of the player H11 in the image, the behavior of the player H11 is continuously predicted.
  • the SW device 22B is at the timing when the player H11 throws the ball B1.
  • the image is switched to the image captured by the camera 21B-2 in the viewpoint direction V32 and output to the communication device 23B.
  • the SW device 22B predicts an action in which the player H12, whose hitter is the ball B11, hits the ball B11 with the bat B12.
  • the SW device 22B captures an image of the hitting scene of the player H12 who is the batter, which is imaged by the camera 21B-2 which is the viewpoint direction V33 at the timing when the player H12 who is the predictive action hits the ball B11 with the bat B12.
  • the playback speed is switched to a speed lower than the normal playback speed so that the moment of hitting is displayed as a detailed viewable image.
  • the SW device 22B of FIG. 2 predicts the behavior of the subject based on the images captured by the cameras 21B-1 to 21B-16, and based on the predicted behavior, the SW device 22B reproduces the image by the spatial direction camera work. Along with switching the viewpoint direction, processing is performed so that the image to be reproduced is stretched in the time direction by the time direction camera work.
  • the images captured by the cameras 21B-1 to 21B-12 are switched to the images in the appropriate viewpoint direction and reproduced at an appropriate playback speed, so that the viewer can play baseball. It is possible to view an important scene in a game with an image in a viewpoint direction that is easy to view and at a playback speed that is easy to view.
  • the SW device 22B predicts the behavior of the subject based on the images captured by the cameras 21B-1 to 21B-16, and images the behavior of the subject based on the predicted behavior by the cameras 21B-1 to 21B-16. It can be said that the image to be output is output by appropriately switching the reproduction speed in the time direction while appropriately switching the viewpoint direction in the spatial direction.
  • the image of the viewpoint direction V31 captured by the camera 21B-3 can be switched to the image of the viewpoint direction V32 captured by the camera 21B-1 by the spatial direction camera work, or the camera 21B-1.
  • the image in the viewpoint direction V32 captured by the camera 21B-2 is switched to the image in the viewpoint direction V33 captured by the camera 21B-2
  • the image may be switched to an image from another viewpoint direction.
  • the SW device 22B is a spatial direction camera.
  • the image of the viewpoint direction V41 is interpolated and generated as a free viewpoint image from the image of the camera 21B-7 in the viewpoint direction V34 and the image of the camera 21B-8 in the viewpoint direction V35, and the viewpoint direction is switched and output.
  • the SW device 22B may switch and display the images in the order of the viewpoint directions V34, V41, and V35 by the spatial direction camera work.
  • the images of the cameras 21B-7 and 21B-8 in the viewpoint directions V34 and V35 are the original images captured, the images are not distorted.
  • the image in the viewpoint direction V41 is a free viewpoint image generated by interpolation, there is a possibility that distortion or the like occurs in the image.
  • the SW device 22B slowly displays the images of the cameras 21B-7 and 21B-8 in the viewpoint directions V34 and V35 by making the display time longer than the predetermined display time by the time direction camera work.
  • the SW device 22B displays the image in the viewpoint direction V41 at a high speed by making the display time shorter than the predetermined display time by the time direction camera work.
  • the SW22B predicts the behavior of the subject based on the images captured by the cameras 21B-1 to 21B-16, and is imaged by the cameras 21B-1 to 21B-12 based on the predicted behavior. It can be said that the spatiotemporal direction camera work is performed by outputting the free viewpoint image generated from the image at an appropriate reproduction speed by the time direction camera work while appropriately switching the viewpoint direction by the space direction camera work.
  • the behavior of the subject is predicted based on the images captured by the cameras 21B-1 to 21B-16, and the behavior of the subject is predicted by the cameras 21B-1 to 21B-12 based on the predicted behavior. While switching the viewpoint direction of the free viewpoint image generated from the captured image by the spatial direction camera work, it is output at an appropriate reproduction speed by the time direction camera work.
  • the movement of the subject is predicted based on the images captured by the plurality of cameras, and the viewpoint direction of the free viewpoint image based on the images captured by the plurality of cameras is determined according to the predicted movement of the subject. It is possible to output while switching appropriately.
  • the signal processing system 11C of FIG. 3 is composed of cameras 21C-1 to 21C-15, a SW (switching) device 22C, a communication device 23C, and a communication network 24C.
  • the cameras 21C-1 to 21C-15 are installed so as to surround the stage ST in the live venue LVS, image the stage TS of the live venue LVS from a plurality of viewpoint directions, and capture the captured images via the communication network 24C. It is supplied to the SW device 22C.
  • FIG. 3 describes an example in which cameras 21C-1 to 21C-16 for capturing the live venue LVS from the viewpoint direction of 15 are provided, but the viewpoint direction may be any number other than this. ..
  • FIG. 3 an example in which the cameras 21C-1 to 21C-15 are supplied to the SW device 22C via the wired communication network 24C is described, but a wireless connection may be used.
  • the camera 21C is simply referred to, and other configurations are also referred to in the same manner.
  • the SW device 22C predicts the behavior of the subject based on the images supplied from the cameras 21C-1 to 21C-15 via the communication network 24C, and is free in the viewpoint direction based on the predicted behavior. Generate a viewpoint image. Further, the SW device 22C is an edited image and music that have been edited based on the images supplied from the cameras 21C-1 to 21C-15, for example, by superimposing graphics such as the music being played and artist information. Generate live digest images, highlight images, etc. The SW device 22C switches a pre-generated material image such as a generated free viewpoint image, an edited image, a digest image, a highlight image, and an interview image such as an artist introduction to generate a main line image for broadcasting, and the main line image is generated.
  • a pre-generated material image such as a generated free viewpoint image, an edited image, a digest image, a highlight image, and an interview image such as an artist introduction to generate a main line image for broadcasting, and the main line image is generated.
  • the image is output to the communication device 23C, and the communication device 23C distributes the image to the broadcasting station or transmits it as a broadcast wave.
  • the SW device 22C may automatically perform various editing, generation of digest images and highlight images, and switching of various images, or may be operated by an operator via various operation units (not shown). It may be performed based on.
  • the main line image for broadcasting a live music is switched to a free viewpoint image and then the viewpoint is switched within the free viewpoint image for broadcasting.
  • the SW device 22C among the images captured by the cameras 21C-1 to 21C-16, only the artist H21 among the artists H21 and H22 is on the stage ST at the live venue LVS, for example.
  • the image captured by the camera 21C-1 which is the viewpoint direction V51 for capturing the image of the artist H21 is output to the communication device 23C.
  • the SW device 22C is imaged by the cameras 21C-1 to 21C-15 by machine learning such as deep learning based on a pattern obtained from images captured by the plurality of cameras 21C-1 to 21C-15. From the image of the artist H21 in the image, the behavior of the artist H21 is continuously predicted.
  • the SW device 22C will be used by the artist H21.
  • the image captured by the camera 21C-1 in the viewpoint direction V51 is switched to the image captured by the camera 21C-10 in the viewpoint direction V52 and output to the communication device 23C. do.
  • the SW device 22C predicts that the artist H21 will change the direction of the body from the left direction to the front direction and at the same time jump by dancing or the like, the artist H21 will perform playback at a speed lower than the normal playback speed at the timing of jumping. Switch to to output the moment of jumping as a detailed viewable image.
  • the SW device 22C of FIG. 3 predicts the behavior of the subject based on the images captured by the cameras 21C-1 to 21C-15, and reproduces the behavior by the spatial direction camera work based on the predicted behavior.
  • the viewpoint direction of the image is switched, and the time-direction camera work is used to perform processing so as to extend the image to be reproduced in the time direction and output the image.
  • the images captured by the cameras 21C-1 to 21C-15 are switched to the images in the appropriate viewpoint direction and reproduced at an appropriate playback speed, so that the viewer can enjoy the live music. It is possible to watch a scene in which live music is lively at the venue LVS with an image in a viewpoint direction that is easy to watch and at a playback speed that is easy to watch.
  • the SW device 22C predicts the behavior of the subject based on the images captured by the cameras 21C-1 to 21C-15, and images the behavior of the subject based on the predicted behavior by the cameras 21C-1 to 21C-15. It can be said that the image to be output is output by appropriately switching the reproduction speed in the time direction while appropriately switching the viewpoint direction in the spatial direction.
  • the SW22C is determined by the spatial direction camera work. From the image of the camera 21C-12 in the viewpoint direction V53 and the image of the camera 21C-9 in the viewpoint direction V54, the image in the viewpoint direction V61 is interpolated and generated as a free viewpoint image, and is output as an image in which the viewpoint direction is switched.
  • the SW device 22C may display while switching the viewpoint direction in the order of the viewpoint directions V53, V61, and V54 by the spatial direction camera work.
  • the images of the cameras 21C-12 and 21C-9 in the viewpoint directions V53 and V54 are the original images captured, the images are not distorted.
  • the image in the viewpoint direction V61 is a free viewpoint image generated by interpolation, there is a possibility that distortion or the like occurs in the image.
  • the SW device 22C slowly displays the images of the cameras 21C-12 and 21C-9 in the viewpoint directions V53 and V54 by making the display time longer than the predetermined display time by the time direction camera work.
  • the SW device 22C displays the image in the viewpoint direction V61, which is interpolated and generated as a free viewpoint image by the time direction camera work, at a higher speed by making the display time shorter than the predetermined display time.
  • the SW22C predicts the behavior of the subject based on the images captured by the cameras 21C-1 to 21C-15, and is imaged by the cameras 21C-1 to 21C-15 based on the predicted behavior. It can be said that the spatiotemporal direction camera work is performed by outputting the free viewpoint image generated from the image at an appropriate reproduction speed by the time direction camera work while appropriately switching the viewpoint direction by the space direction camera work.
  • the behavior of the subject is predicted based on the images captured by the cameras 21C-1 to 21C-15, and the free viewpoint image generated from the image is predicted based on the predicted behavior.
  • the time direction camera work outputs at an appropriate playback speed.
  • the movement of the subject is predicted based on the images captured by the plurality of cameras, and the viewpoint direction of the free viewpoint image based on the images captured by the plurality of cameras is determined according to the predicted movement of the subject. It is possible to output while switching appropriately.
  • any of the signal processing systems 11A to 11C of the present disclosure a plurality of images of events such as soccer, baseball games, and live music described above with reference to FIGS. 1 to 3 are performed.
  • the behavior of the subject is predicted from the images captured by the cameras in the above, and the spatial direction (viewpoint direction) of the images captured by multiple cameras is switched according to the predicted behavior of the subject, and the time direction (reproduction speed). ) Can be appropriately switched (appropriately processed in the spatiotemporal direction) and output.
  • the signal processing system 11A for imaging a soccer game the signal processing system 11B for imaging a baseball game, and the music live, which have been described with reference to FIGS. 1 to 3, are described.
  • It is a signal processing system for capturing various events which corresponds to the signal processing system 11C for capturing images, predicts the behavior of the subject from images captured by a plurality of cameras, and responds to the predicted behavior of the subject.
  • the same function is provided in that the images captured by a plurality of cameras are output by appropriately switching the playback speed by the temporal direction camera work while appropriately switching the viewpoint direction by the spatial direction camera work. Is.
  • the cameras 21A to 21C, the SW devices 22A to 22C, the communication devices 23A to 23C, and the communication networks 24A to 24C constituting the signal processing systems 11A to 11C of FIGS. 1 to 3 are the same in basic functions, respectively. Therefore, hereinafter, they are simply referred to as a signal processing system 11, a camera 21, a SW device 22, a communication device 23, and a communication network 24.
  • the SW device 22 of FIG. 4 acquires images captured by the plurality of cameras 21 and obtains images captured by the plurality of cameras 21 in the same manner as the functions of the SW devices 22A to 22C in the signal processing systems 11A to 11C of FIGS. 1 to 3.
  • the behavior of the subject is predicted from the image captured by the camera, and the viewpoint direction of the image captured by the plurality of cameras with respect to the spatial direction is appropriately switched according to the predicted behavior of the subject, and the reproduction speed with respect to the time direction is set. It is appropriately switched and output to the communication device 23.
  • the SW device 22 interpolates the image in the viewpoint direction to be switched and output as a free viewpoint image based on the images captured by the plurality of cameras 21. Generate.
  • the SW device 22 is composed of a control unit 31, an input unit 32, an output unit 33, a storage unit 34, a communication unit 35, a drive 36, a removable storage medium 37, and a SW unit 39. Is connected to the bus 38 via a bus 38, and data and programs can be transmitted and received.
  • the control unit 31 is composed of a processor and a memory, and controls the entire operation of the SW device 22.
  • control unit 31 has a function as a SW processing unit 41, predicts the behavior of the subject from a plurality of images captured by the plurality of cameras 21, and performs the operation of the SW39 based on the predicted behavior. By controlling, the image in the viewpoint direction with respect to the spatial direction is switched, and the reproduction speed in the time direction is switched and output to the communication device 23.
  • the input unit 32 is composed of input devices such as a keyboard and operation buttons for which the user inputs operation commands, and supplies various input signals to the control unit 31.
  • the output unit 33 includes an audio output unit composed of a speaker or the like, a display unit composed of an LCD (Liquid Crystal Display) or an organic EL (Organic Electro-Luminescence), a light emitting unit composed of an LED (Light Emitting Diode), or the like. Then, it is controlled by the control unit 31 to present various processing results to the user.
  • a display unit composed of an LCD (Liquid Crystal Display) or an organic EL (Organic Electro-Luminescence)
  • a light emitting unit composed of an LED (Light Emitting Diode), or the like.
  • the storage unit 34 is composed of an HDD (Hard Disk Drive), an SSD (Solid State Drive), a semiconductor memory, or the like, and is controlled by the control unit 31 to write various data and programs including an image supplied from the camera 21. , Or read.
  • HDD Hard Disk Drive
  • SSD Solid State Drive
  • semiconductor memory or the like
  • the communication unit 35 is controlled by the control unit 31 and transmits and receives various data and programs to and from various devices (not shown). Further, the communication unit 35 acquires the captured images supplied from the plurality of cameras 21 via the communication network 24 (corresponding to the communication networks 24A to 24C of FIGS. 1 to 3).
  • the drive 36 includes a magnetic disk (including a flexible disk), an optical disk (including a CD-ROM (Compact Disc-Read Only Memory), a DVD (Digital Versatile Disc)), an optical magnetic disk (including an MD (Mini Disc)), Alternatively, data is read / written to / from a removable storage medium 37 such as a semiconductor memory.
  • a magnetic disk including a flexible disk
  • an optical disk including a CD-ROM (Compact Disc-Read Only Memory), a DVD (Digital Versatile Disc)
  • an optical magnetic disk including an MD (Mini Disc)
  • data is read / written to / from a removable storage medium 37 such as a semiconductor memory.
  • the SW 39 is controlled by the SW processing unit 41 of the control unit 31, and has a viewpoint direction corresponding to the spatial direction to be output according to the behavior of the subject predicted based on a plurality of images captured by the plurality of cameras 21.
  • the image is switched, the process in the time direction (reproduction speed) is switched (the process in the spatiotemporal direction is switched), and the image is output to the communication device 23.
  • the SW processing unit 41 includes a real-time information analysis unit 51, a camera work estimation unit 52, a camera work determination unit 53, a free viewpoint image generation unit 54, an effect processing unit 55, a SW control unit 56, a storage 131, and past data storage.
  • a unit 132, a camera information storage unit 133, and a replay image storage unit 134 are provided.
  • the storage 131, the past data storage unit 132, the camera information storage unit 133, and the replay image storage unit 134 are all set in at least one of the storage unit 34 of FIG. 4 and the removable storage medium 37. ..
  • the storage 131 stores images captured in various viewpoint directions by a plurality of cameras 21-1 to 21-n.
  • the cameras 21-1 to 21-n are provided with microphones (microphones) 121-1 to 121-n for recording sound, respectively, and images are taken by the cameras 21-1 to 21-n, respectively. It is stored in the storage 131 in association with the image.
  • the microphone 121 may be separated from the camera 21.
  • the microphone 121 may be provided for each player or may capture a live music. In the case of doing so, it may be provided for each artist or each musical instrument.
  • the microphone 121 is provided in association with the camera 21.
  • the real-time information analysis unit 51 analyzes each image stored in the storage 131 and outputs the real-time information as the analysis result to the camera work estimation unit 52.
  • Real-time information is information obtained by analyzing an image, and includes position information and posture information of a person in the image, person identification information, moving body position information, event information, and event area information.
  • the position information and posture information of a person are the spatial position information and posture information of a subject composed of a person in the captured image.
  • the person identification information is information for identifying a person as a subject in an image, for example, information for identifying which subject person is which player or which artist.
  • the real-time information analysis unit 51 obtains information on the person to be the subject, for example, information on each player's name and profile when imaging a soccer or baseball game, information on an artist's name when imaging a live music, and the like. Including, real-time meta information is acquired in advance, and by analyzing the image, which subject is which player and which subject is which artist is identified based on the real-time meta information, and person identification information is obtained. Generate.
  • the moving body position information is information on the positions of tools used in competitions such as balls used in sports and the positions of musical instruments used by artists.
  • the event information is information indicating what kind of event the event captured from the image is, and information indicating the degree of excitement of the event.
  • an event such as hitting a shot occurs when a player takes a specific posture with a specific positional relationship with respect to the ball.
  • the event area information is information indicating in which area in the captured image the event is occurring.
  • the camera work estimation unit 52 includes an action history stored in the past data storage unit 132 in association with past real-time information, a position, a posture, and a type of each camera 21 stored in the camera information storage unit 133.
  • the camera work of the images captured by the plurality of cameras 21 is estimated based on the information of the above and the current real-time information.
  • the camera work referred to here is to output a scene of high importance among images captured by a plurality of cameras 21 at a playback speed that is easy to see from a viewpoint direction that is easy to see. It is camera work.
  • the event that has occurred is output based on the images captured by the plurality of cameras 21.
  • an image from a viewpoint direction that makes it easy to view the generated event from the images captured by a plurality of actual cameras 21 is used as a free viewpoint image.
  • the camera work also includes, for example, time-direction camera work that changes the playback speed, and as an event of high importance in a game such as soccer, for example, when a shot is hit, A process is included in which the playback speed is slower than the normal playback speed so that the video can be viewed in detail.
  • spatial direction camera work that switches processing in the spatial direction for images captured by a plurality of cameras 21 by generating free viewpoint images having different viewpoint directions, and changing the playback speed are used.
  • time-direction camera work that switches processing in the time direction.
  • the camera work estimation unit 52 since it is assumed that the user is a broadcasting station, the camera work estimation unit 52 previously provides setting information that reflects the intention of the user for the broadcasting station to be the user. It is acquired as a user setting for broadcasting stations and reflected in the estimation of camera work.
  • the camera work estimation unit 52 determines the camera work, such as soccer.
  • the camera work such as soccer.
  • the image in the viewpoint direction where the wall or signboard with the sponsor's advertisement is easily reflected is output.
  • Camera work may be estimated.
  • the camera work estimation unit 52 estimates the camera work.
  • the camera work may be estimated so that the image of the most requested angle (viewpoint direction) is output by the viewer questionnaire.
  • the camera work estimation unit 52 estimates a plurality of camera works having different viewpoint directions and playback speeds as camera work candidates and outputs them to the camera work determination unit 53.
  • the camera work estimation unit 52 is one of the camera works when it can recognize that the game is interrupted or the attack and the defense are exchanged in baseball or the like based on the real-time information. Displaying the replay image as a camera work candidate is output.
  • the camera work determination unit 53 determines the optimum camera work from among the estimated plurality of camera work candidates, and uses the determined camera work information as the free viewpoint image generation unit 54, the effect processing unit 55, and the effect processing unit 55. Output to the SW control unit 56.
  • the camera work determination unit 53 is based on the images generated by each of the candidate camera works, for example, in a shooting scene, the camera in which the face of the player who is shooting is reflected in the largest size.
  • the work may be the optimum camera work, or when there is a setting that emphasizes the sponsor as user information for broadcasting stations, the camera work that generates an image that reflects the wall or signboard that is the most sponsor's advertisement. You may decide to.
  • the camera work determination unit 53 includes a camera work in which the display of the replay image is instructed, for example, at the timing when the image recognizes that the competition is interrupted during the match, the replay image. You may decide on the camera work to display.
  • the camera work determination unit 53 can also output the camera work input as the user input as the determined camera work information.
  • the free viewpoint image generation unit 54 generates a free viewpoint image based on the images captured by the plurality of cameras 21 stored in the storage 131 based on the camera work information determined by the camera work determination unit 53. Output to the effect processing unit 55.
  • the free viewpoint image generation unit 54 stores the storage 131 when the viewpoint direction corresponds to any of the viewpoint directions of the camera 21 based on the determined camera work (spatial direction camera work) information. Among the stored images, the image captured by the camera 21 corresponding to the viewpoint direction is read out and used.
  • the free viewpoint image generation unit 54 is imaged by a camera 21 in a nearby viewpoint direction when the viewpoint direction does not correspond to any of the cameras 21 based on the determined camera work (spatial direction camera work) information. By interpolating and generating a free viewpoint image using the same image, an image in the corresponding viewpoint direction is generated and used.
  • the free viewpoint image generation unit 54 refers to the time direction so as to have a corresponding reproduction speed when the processing in the time direction is instructed based on the determined camera work (time direction camera work) information. Apply processing.
  • the free viewpoint image generation unit 54 when the free viewpoint image generation unit 54 is instructed as camera work (time direction camera work) to reproduce the playback speed at a speed lower than the normal playback speed, the free viewpoint image generation unit 54 is read out from the storage 131 in association with the viewpoint direction. A process is performed to reproduce the image or the image generated by interpolation as a free-viewpoint image at a reproduction speed lower than the normal reproduction speed.
  • the effect processing unit 55 performs predetermined effect processing on the generated free-viewpoint image based on the user setting for the broadcasting station, and outputs it to the SW39 and the replay image storage unit 134.
  • the effect processing is based on the user setting for the broadcasting station. For example, in the case of a shooting scene, the player other than the player who is shooting is displayed in a blurred state, and the shooting is performed.
  • the effect may be such that only the player who hits the ball can recognize it well, or the area where the sponsor advertisement other than the sponsor of the broadcasting station is projected may be displayed in a blurred state.
  • a flashy effect may be added in a shoot scene or a batting scene.
  • the ball control rate or the like may be visualized and displayed so that it can be visually recognized. For example, a process is performed so that the team area is displayed in different colors. You may do it.
  • the free viewpoint image generation unit 54 stores the corresponding image in the storage 131. It may be read out and output to the effect processing unit 55 as it is without generating a free viewpoint image. In this case, the effect processing unit 55 applies only the effect processing to any image of the camera 21 and outputs the image.
  • the free viewpoint image generation unit 54 is the image stored in the storage 131.
  • a desired image may be read out and supplied to the effect processing unit 55 as it is.
  • effect processing unit 55 may also output without performing any effect processing.
  • the image stored in the storage 131 is simply supplied to the SW39 and the replay image storage unit 134.
  • the SW control unit 56 controls the operation of the SW 39 based on the camera work information supplied from the camera work determination unit 53, and is supplied from the free viewpoint image generation unit 54 via the effect processing unit 55.
  • the real-time information analysis unit 51 includes a person model estimation unit 151, a person identification unit 152, a moving body position detection unit 153, an event analysis unit 154, an event area detection unit 155, and an information integration unit 156.
  • the person model estimation unit 151 constructs a person model based on a free viewpoint image based on images of a plurality of cameras 21 stored in the storage 131, and position information of the person model necessary for predicting an action. , And estimate the attitude information.
  • the person model estimation unit 151 includes a free viewpoint image model generation unit 171, a posture estimation unit 172, and a model coupling unit 173.
  • the free viewpoint image model generation unit 171 includes a free viewpoint including position information of a person necessary for predicting a person's behavior from images in a plurality of viewpoint directions captured by a plurality of cameras 21 stored in the storage 131. An image model is generated and output to the coupling unit 173.
  • the posture estimation unit 172 generates a person model including the posture information of the person necessary for predicting the behavior of the person based on the images of the plurality of cameras 21 stored in the storage 131, and outputs the person model to the connection unit 173. do.
  • the connecting unit 173 combines the person model and the free viewpoint image model required for predicting the behavior of the person and outputs the information to the information integration unit 156.
  • the person identification unit 152 identifies who is a person in the images of the plurality of cameras 21 stored in the storage 131 based on real-time meta information including player and artist information supplied in advance. Information is added to each person in the image and output to the information integration unit 156 as person identification information.
  • the moving object position detection unit 153 detects the position information of an object that is a moving object other than a person based on the images of a plurality of cameras 21 stored in the storage 131, and outputs the position information to the information integration unit 156.
  • the moving object other than the person mentioned here is, for example, a ball when imaging a soccer or baseball game, or an instrument used by an artist in a live music concert or the like.
  • the moving body position detecting unit 153 detects the position of the ball as the position information of the moving body when imaging a soccer or baseball game, and determines the position of the musical instrument when imaging a live music. It is detected as position information and output to the information integration unit 156.
  • the event analysis unit 154 analyzes the captured event based on the images of the plurality of cameras 21 stored in the storage 131, and obtains event information including the type of event and the degree of excitement, and is an information integration unit. Output to 156.
  • the event analysis unit 154 adds the image of the plurality of cameras 21 stored in the storage 131, and if necessary, the position information of the person estimated by the person model estimation unit 151. , And the posture information, the person identification information generated by the person identification unit 152, and the moving object position information detected by the moving object position detecting unit 153 are used to analyze the event.
  • the event area detection unit 155 detects an area in which an event occurs in the image based on the images of the plurality of cameras 21 stored in the storage 131, and outputs the area to the information integration unit 156.
  • the area in the image where the event is occurring is, for example, in the case of a scene where a shot is shot in a soccer game or the like, it detects in which area in the image the event of hitting a shot occurs. be.
  • the information integration unit 156 includes the person position information and posture information supplied by the person model estimation unit 151, the person identification information of the person identification unit 152, the moving body position information supplied by the moving body position detecting unit 153, and the event analysis unit 154.
  • the event information and the event area information indicating the area where the event is occurring from the event area detection unit 155 are integrated and output to the camera work estimation unit 52 as real-time information.
  • the camera work estimation unit 52 includes an action prediction unit 201 and a camera work generation unit 202.
  • the behavior prediction unit 201 predicts the behavior of a person who is a subject in the images of a plurality of cameras 21 stored in the storage 131 based on the real-time information supplied from the real-time information analysis unit 51.
  • the behavior prediction unit 201 includes a behavior estimation unit 221, a reliability calculation unit 222, and a behavior prediction determination unit 223.
  • the behavior estimation unit 221 applies the real-time information supplied from the real-time information analysis unit 51 to the behavior estimation learning model generated by machine learning such as deep learning, so that the behavior estimation unit 221 is in the image captured by the camera 21.
  • the behavior of the person is estimated and output to the reliability calculation unit 222 and the behavior prediction determination unit.
  • the behavior estimation learning model is generated, for example, based on the behavior history information stored in association with the past real-time information in the past data storage unit 132, and is stored in the past data storage unit 132.
  • the estimated behavior is not limited to one, and may be multiple.
  • the behavior estimation unit 221 receives, for example, real-time information supplied from the real-time information analysis unit 51 based on the behavior history pattern stored in the past data storage unit 132 in association with the past real-time information pattern. It may be determined which pattern it belongs to, and the behavior of the person in the image captured by the camera 21 may be estimated based on the corresponding behavior history pattern.
  • the reliability calculation unit 222 calculates the reliability of each of the estimated actions from the real-time information and the action history stored in the past data storage unit 132 in association with the past real-time information, and the calculation result. Is output to the action prediction determination unit 223.
  • the behavior prediction determination unit 223 has a predetermined reliability based on the estimated behavior supplied by the behavior estimation unit 221 and the reliability corresponding to each of the estimated behavior calculated by the reliability calculation unit 222.
  • the action estimated with higher reliability is determined as the predicted action and output to the camera work generation unit 202.
  • the action having a higher reliability than the predetermined value is selected as the predicted action. Therefore, for example, in a scene where a soccer player dribbles the ball, the action of applying a feint. And the behavior without feinting can be predicted together with the reliability.
  • the camera work generation unit 202 performs camera work based on the predicted behavior supplied from the behavior prediction unit 201, the individual position of the camera 21 stored in the camera information storage unit 133, the imaging direction, and the information of the camera type. To generate.
  • the camera work generation unit 2020 may further generate camera work based on the real-time information supplied from the real-time information analysis unit 51.
  • the camera work generation unit 202 includes a spatial direction camera work generation unit 241, a time direction camera work generation unit 242, a voice switching information generation unit 243, and an integration unit 244.
  • the spatial direction camera work generation unit 241 applies the information of the predicted behavior supplied from the behavior prediction unit 201 to the spatial direction camera work learning model generated by machine learning such as deep learning, and applies the information of the predicted behavior supplied from the behavior prediction unit 201 to the camera information storage unit 133. Based on the individual position of the camera 21 stored in the camera 21, the image pickup direction, the camera type information, and the user setting for the broadcasting station, the images captured by the camera 21 in any viewpoint direction are sequentially selected. Is generated as a spatial direction camera work.
  • the spatial direction camera work learning model is generated based on the spatial direction camera work stored in the past data storage unit 132 in association with the information of the past predicted behavior, and is stored in the past data storage unit 132. Has been done. As the camera work stored in association with the information of the past predicted behavior, for example, the camera work at the time of shooting by the past cameraman may be stored as information.
  • the spatial direction camera work generation unit 241 is generated based on the spatial direction camera work stored in the past data storage unit 132 in association with the information of the past predicted behavior and the past real-time information, and is the past data storage unit. Spatial direction by applying the predicted behavior information supplied by the behavior prediction unit 201 and the real-time information supplied by the real-time information analysis unit 51 to the spatial direction camerawork learning model stored in 132. Camera work may be generated.
  • the spatial direction camera work generation unit 241 is supplied from the behavior prediction unit 201, for example, based on the spatial direction camera work pattern stored in the past data storage unit 132 in association with the pattern of the past predicted action. It may be determined which pattern the predicted behavior belongs to, and the spatial direction camera work may be generated based on the corresponding spatial direction camera work pattern.
  • the spatial direction camera work generation unit 241 is ahead of the viewpoint direction by, for example, when a specific player issues a pass, the image of the camera 21 in which the player receiving the pass is imaged is selected. Generate spatial direction camera work that switches in the same way. Further, the spatial direction camera work generation unit 241 advances the viewpoint direction by, for example, selecting the camera 21 in which the image of the catcher's line of sight is captured when the pitcher throws the ball. Generate spatial camerawork that switches to.
  • the spatial direction camera work generation unit 241 is the viewpoint of the angle including the wall or the signboard to be the sponsor advertisement. Generate spatial directional camera work that outputs directional images.
  • the spatial direction camera work generated here is a candidate for the camera work finally selected, a plurality of spatial direction camera works may be generated.
  • the time-direction camera work generation unit 242 applies the information of the predicted behavior supplied from the behavior prediction unit 201 to the time-direction camera work learning model generated by machine learning such as deep learning, and applies the information of the predicted behavior supplied from the behavior prediction unit 201 to the camera information storage unit 133.
  • a predetermined process for the reproduction speed is generated as the time direction camera work.
  • the time-direction camera work learning model is generated based on the time-direction camera work stored in the past data storage unit 132 in association with the information of the past predicted behavior, and is stored in the past data storage unit 132. Has been done.
  • the time-direction camera work stored in association with the information of the past predicted behavior may be stored as, for example, information at the time of editing regarding the reproduction speed by the past editing operator.
  • the time-direction camera work generation unit 242 is generated based on the time-direction camera work stored in the past data storage unit 132 in association with the past predicted behavior information and the past real-time information, and is the past data storage unit.
  • the time direction Camera work may be generated.
  • time direction camera work generation unit 242 is supplied from the action prediction unit 201, for example, based on the time direction camera work pattern stored in the past data storage unit 132 in association with the pattern of the past prediction action. It may be determined which pattern the predicted behavior belongs to, and the time-direction camera work may be generated based on the corresponding time-direction camera work pattern.
  • the time-direction camera work generation unit 242 sets the playback speed to a slower playback speed than the normal playback speed at the moment of hitting a shot, the moment of hitting a batter, the moment of determining a faint, the moment of pulling out the defense, and the like.
  • a camera work that performs processing in the time direction such as is generated as a time direction camera work so that it can be viewed in detail.
  • the time direction camera work generation unit 242 switches the viewpoint direction and displays it by the spatial direction camera work
  • the original image in the viewpoint direction captured by the camera 21 is less likely to be corrupted, so that the reproduction speed is usually set.
  • a camera work that is processed in the time direction so as to be displayed slowly at a speed lower than the playback speed is generated as a time direction camera work.
  • the time direction camera work generation unit 242 A camera work that performs time-direction processing such as displaying the playback speed at a speed higher than the normal playback speed is generated as a time-direction camera work so that distortion is not noticeable.
  • time-direction camera work is not essential, and the time-direction camera work may not be processed depending on the type of predicted behavior and real-time information.
  • the voice switching information generation unit 243 generates information for switching the sound picked up by the microphone 121 as voice switching information in response to the spatial direction camera work and the time direction camera work, and outputs the information to the integrated unit 244.
  • the voice switching information generation unit 243 may generate voice switching information so that the voice of the microphone 121 provided in association with the camera 21 corresponding to the viewpoint direction is associated with the camera work, for example.
  • the voice switching information generation unit 243 may display the player or the player in the image displayed by the spatial direction camera work and the temporal direction camera work.
  • the voice switching information that switches and outputs the voice corresponding to the camera work that extracts only the voice of the player or the artist may be generated.
  • the integration unit 244 outputs the information integrated by associating the spatial direction camera work, the time direction camera work, and the voice switching information to the camera work determination unit 53 as a camera work candidate.
  • the camera work candidate is generated as information in which the spatial direction camera work, the temporal direction camera work, the spatial direction camera work, and the voice switching information corresponding to the temporal direction camera work are integrated.
  • the spatial direction camera work generation unit 241 and the time direction camera work generation unit 242 have been described as different configurations, but one camera work generation unit (not shown) generates the spatiotemporal direction camera work. You may.
  • the time direction camera work may be generated by applying the real-time information supplied from the real-time information analysis unit 51.
  • the spatiotemporal direction camera work learning model is based on, for example, the space direction camera work and the time direction camera work stored in the past data storage unit 132 in association with the information of the past predicted behavior and the past real-time information. Is generated and stored in the past data storage unit 132.
  • step S11 the SW processing unit 41 functioning by the control unit 31 of the SW device 22 acquires an image captured by the cameras 21-1 to 21-n.
  • step S12 the SW processing unit 41 stores the acquired images supplied from each camera 21 in the storage 131.
  • step S13 the real-time information analysis unit 51 analyzes the image of each camera 21 stored in the storage 131 by executing the real-time information analysis process, extracts the real-time information, and supplies it to the camera work estimation unit 52. do.
  • the camera work estimation unit 52 executes camera work estimation processing based on real-time information, past data, camera information, and user settings for broadcasting stations, and is a subject from images captured by a plurality of cameras 21. It predicts the behavior of the person to be, estimates a plurality of camera work candidates according to the predicted behavior, and supplies them to the camera work determination unit 53.
  • step S15 the camera work determination unit 53 determines the camera work from the camera work candidates and supplies the camera work to the free viewpoint image generation unit 54, the effect processing unit 55, and the SW control unit 56.
  • the camera work determined here is an image captured by any of the cameras 21 corresponding to the target viewpoint direction (camera angle), and a free viewpoint image generated by interpolation based on the image captured by the camera 21.
  • the information including the spatial direction camera work for specifying any of the replay images and the time direction camera work related to the adjustment of the reproduction speed.
  • step S16 the free viewpoint image generation unit 54 generates a free viewpoint image based on the images captured by each camera 21 accumulated in the storage 131 based on the camera work determined by the camera work determination unit 53. , Output to the effect processing unit 55.
  • the free viewpoint image generation unit 54 stores the image in the viewpoint direction specified based on the spatial direction camera work among the camera works determined by the camera work determination unit 53 in the storage 131.
  • a free viewpoint image is generated based on the image captured by each camera 21.
  • the free viewpoint image generation unit 54 performs a process of adjusting the playback speed of the free viewpoint image generated based on the spatial direction camera work based on the time direction camera work of the camera work. , Output to the effect processing unit 55.
  • the free-viewpoint image generation unit 54 performs a process of reproducing the free-viewpoint image generated based on the spatial direction camera work at a speed lower than the normal playback speed. It is applied and output to the effect processing unit 55.
  • step S17 the effect processing unit 55 applies an effect to the free viewpoint image generated by the free viewpoint image generation unit 54 based on the user setting for the broadcasting station, and outputs the effect to the replay image storage unit 134 and the SW 39.
  • step S18 the replay image storage unit 134 stores the effect-processed image supplied from the effect processing unit 55 as a replay image.
  • step S19 the SW control unit 56 controls the SW39 based on the camera work determined by the camera work determination unit 53, and outputs an image.
  • the SW control unit 56 is imaged by either the camera 21 that has been processed based on the spatial direction camera work and the temporal direction camera work based on the camera work information determined by the camera work determination unit 53.
  • the image, the free viewpoint image generated by interpolation based on the image captured by the camera 21, or the replay image stored in the replay image storage unit 134 is selected and output.
  • the behavior of the person who is the subject is predicted from the images captured by the plurality of cameras 21, and it is possible to realize the camera work according to the predicted behavior.
  • step S41 the free viewpoint image model generation unit 171 of the person model estimation unit 151 determines the position information of the person necessary for predicting the behavior of the person based on the images of the plurality of cameras 21 stored in the storage 131.
  • a free viewpoint image model including the above is generated and output to the coupling unit 173.
  • the posture estimation unit 172 of the person model estimation unit 151 includes the posture information of the person necessary for predicting the behavior of the person based on the images of the plurality of cameras 21 stored in the storage 131.
  • a model is generated and output to the coupling unit 173.
  • step S43 the coupling unit 173 combines the position information obtained based on the person model supplied by the free viewpoint image model generation unit 171 and the posture information of the person supplied by the posture estimation unit 172. Output to the information integration unit 156.
  • step S44 the person identification unit 152 identifies a person in the image based on the images of the plurality of cameras 21 stored in the storage 131 and the real-time meta information, generates the person identification information, and integrates the information. Output to unit 156.
  • step S45 the moving body position detecting unit 153 detects the position of a moving body such as a ball, a bat, and a musical instrument in the image based on the images of the plurality of cameras 21 stored in the storage 131, and the moving body is moved. It is output to the information integration unit 156 as position information.
  • a moving body such as a ball, a bat, and a musical instrument in the image based on the images of the plurality of cameras 21 stored in the storage 131. It is output to the information integration unit 156 as position information.
  • step S46 the event analysis unit 154 analyzes the information in the image based on the images of the plurality of cameras 21 stored in the storage 131, analyzes the event that has occurred, and obtains the analysis result.
  • the event information is output to the event area detection unit 155 and the information integration unit 156.
  • the event analysis unit 154 in addition to the images of the plurality of cameras 21 stored in the storage 131, as necessary, the position information, the posture information, and the person of the person estimated by the person model estimation unit 151.
  • the event is analyzed using the person identification information generated by the identification unit 152 and the moving object position information detected by the moving object position detecting unit 153, and the event information is obtained.
  • step S47 the event area detection unit 155 generates an event in the image based on the images of the plurality of cameras 21 stored in the storage 131 and the event information supplied from the event analysis unit 154. The area is detected and output to the information integration unit 156 as event area information.
  • step S48 the information integration unit 156 integrates the position information and posture information of the person in the image, the moving body position information, the person identification information, the event information, and the event area information and outputs the information to the camerawork estimation unit 52 as real-time information. do.
  • real-time information consisting of the position information and posture information of the person in the image, the moving body position information, the person identification information, the event information, and the event area information is generated based on the images captured by the plurality of cameras 21. Then, it becomes possible to supply the camera work estimation unit 52.
  • step S61 the action estimation unit 221 is, for example, based on the real-time information supplied from the real-time information analysis unit 51 and the action history stored in the past data storage unit 132 in association with the past real-time information, for example.
  • the behavior of the person is estimated by deep learning or the like, and the estimation result is output to the reliability calculation unit 222 and the behavior prediction determination unit 223.
  • the behavior estimation unit 221 may estimate a plurality of actions, and in such a case, the behavior estimation unit 221 outputs the plurality of estimation results to the reliability calculation unit 222 and the behavior prediction determination unit 223.
  • step S62 the reliability calculation unit 222 calculates the reliability for each of the actions that are the estimation results supplied by the behavior estimation unit 221 and outputs the calculation result to the behavior prediction determination unit 223.
  • step S63 the action prediction determination unit 223 determines an action having an estimation result whose reliability is higher than a predetermined value as a prediction action based on the reliability calculated by the reliability calculation unit 222, and determines the predicted action. Is output to the camera work generation unit 202. That is, here, since all the actions that give an estimation result whose reliability is higher than the predetermined value are determined as the predictive actions, the determined predictive actions may be plural.
  • step S64 the spatial direction camera work generation unit 241 of the camera work generation unit 202 is stored in the past data storage unit 132 in association with the user setting for the broadcasting station, the information of the predicted action, and the past real-time information. , And based on the camera information of the camera information storage unit 133, the spatial direction camera work is generated, and the generated spatial direction camera work information is output to the voice switching information generation unit 243 and the integrated unit 244.
  • step S65 the time-direction camera work generation unit 242 sets the user settings for the broadcasting station, predictive action information, the action history stored in the past data storage unit 132 in association with the past real-time information, and the camera information storage unit.
  • the time direction camera work is generated based on the camera information of 133, and the generated time direction camera work information is output to the voice switching information generation unit 243 and the integration unit 244.
  • step S66 the voice switching information generation unit 243 switches the voice recorded by the plurality of microphones 121 so as to correspond to the spatial direction camera work and the temporal direction camera work based on the user setting for the broadcasting station.
  • the switching information is generated and output to the integration unit 244.
  • step S67 the integration unit 244 integrates the information of the user setting for the broadcasting station, the spatial direction camera work, and the time direction camera work, and the corresponding audio switching information, and the camera work determination unit is used as the camera work candidate information. Output to 53.
  • the predictive behavior of a person in the image is obtained together with the reliability based on the images captured by the plurality of cameras 21, and the spatial direction camera is based on the predictive behavior with a reliability higher than a predetermined threshold. It is possible to generate camera work candidates according to work, time direction camera work, audio switching information, and user settings for broadcasting stations.
  • a camera work candidate consisting of spatial direction camera work, time direction camera work, and voice switching information is generated based on a plurality of predictive actions including reliability and user settings for broadcasting stations.
  • the 53 can determine the final camera work according to the reliability of the predictive action of the camera work candidate and the user setting for the broadcasting station.
  • the camera work determination unit 53 may determine the camera work based on the predictive action having the highest reliability of the predictive action among the camera work candidates. Further, when the reliability is low, the camera work determination unit 53 may delay the change timing in the viewpoint direction by the spatial direction camera work so as to be able to respond to the change due to a feint or the like.
  • the camera work determination unit 53 is among the camera work candidates.
  • the camera work candidate closest to the most requested camera work in the viewer questionnaire may be determined as the camera work.
  • the camera work candidate is obtained by the predictive behavior of the person in the image captured by the plurality of cameras 21, it is possible to realize the camera work according to the behavior of the person.
  • the SW device 22 is used not only by users for broadcasting stations, but also by general users, for example, who capture images using a smartphone or the like and do not use a broadcasting network such as SNS (Social Networking Service). It may be used by a so-called OTT (Over The Top) service that distributes images via the Internet.
  • SNS Social Networking Service
  • OTT Over The Top
  • FIG. 11 shows a configuration example of the SW processing unit 41'for users of the OTT service.
  • the SW processing unit 41'of FIG. 11 differs from the SW processing unit 41 of FIG. 5 in that the camera work estimation unit 52'and the effect processing unit 55' are replaced with the camera work estimation unit 52 and the effect processing unit 55. It is a point that provided.
  • the camera work estimation unit 52 has the same basic functions as the camera work estimation unit 52, but the camera work estimation process uses the user settings for OTT instead of the user settings for broadcasting stations. Is different.
  • the user settings for OTT are user settings that can be set by the individual user who intends to capture and distribute the image, it is possible to set the individual preference of the user as it is.
  • the user's favorite player may be set so that the camera work based on the image captured by the favorite player may be estimated.
  • the user's favorite artist may be set so that the camera work can be estimated mainly based on the image captured by the favorite artist.
  • the effect processing unit 55' has the same basic functions as the effect processing unit 55, but instead of the user setting for the broadcasting station, the effect processing unit 55'applies an effect that reflects the user setting for OTT.
  • the effect processing may be performed.
  • the camera work estimation unit 52'in FIG. 12 differs from the camera work estimation unit 52 in FIG. 7 in that the camera work generation unit 202'is provided instead of the camera work generation unit 202.
  • the camera work generation unit 202' has the same basic functions as the camera work generation unit 202, but the spatial direction camera work generation unit 241 and the time direction camera work generation unit 242 of the camera work generation unit 202 of FIG. The difference is that the spatial direction camera work generation unit 241', the temporal direction camera work generation unit 242', and the voice switching information generation unit 243'are provided in place of the voice switching information generation unit 243.
  • the spatial direction camera work generation unit 241' has the same function as the spatial direction camera work generation unit 241 as a basic function, but instead of the user setting for the broadcasting station, it is based on the user setting for OTT. It differs in that it produces spatial camerawork.
  • the spatial direction camera work generation unit 241 when there is a setting such as user setting for OTT that gives priority to the image of the favorite player, the spatial direction camera work generation unit 241'outputs the image in the viewpoint direction of the angle including the favorite player. It is also possible to generate a spatial direction camera work that does.
  • the time direction camera work generation unit 242' has the same function as the time direction camera work generation unit 242 as a basic function, but instead of the user setting for the broadcasting station, it is based on the user setting for OTT. It differs in that it produces temporal camera work.
  • the time direction camera work generation unit 242' refers to the moment of hitting a shot or the moment of hitting a batter.
  • the camera work may be generated such that the playback speed is set to a low speed.
  • the voice switching information generation unit 243' has the same function as the voice switching information generation unit 243 as a basic function, but instead of the user setting for the broadcasting station, the microphone is based on the user setting for OTT. The difference is that the sound picked up by 121 is switched, added to the generated camera work, and output to the integration unit 244.
  • the voice switching information generation unit 243 even if the voice of the favorite player is switched and output. good.
  • steps S111 to S117 and steps S119 and S120 in the flowchart of FIG. 13 is the same as the processing of steps S11 to S17 and steps S19 and S20 in the flowchart of FIG. 8, so description thereof will be omitted.
  • step S117 the effect processing unit 55 performs effect processing on the free viewpoint image generated by the free viewpoint image generation unit 54 based on the camera work determined by the camera work determination unit 53 and the user setting for OTT. Output to the replay image storage unit 134 and SW39.
  • steps S161 to S163 and S167 in the flowchart of FIG. 14 is the same as the processing of steps S61 to S63 and S67 in the flowchart of FIG. 10, so the description thereof will be omitted as appropriate.
  • step S164 the spatial direction camera work generation unit 241'of the camera work generation unit 202'is stored in the OTT user setting, prediction behavior information, and past data storage unit 132 in association with the past real-time information.
  • the spatial direction camera work is generated based on the existing action history and the camera information of the camera information storage unit 133, and the generated spatial direction camera work information is output to the voice switching information generation unit 243'and the integrated unit 244.
  • step S165 the time-direction camera work generation unit 242'has a user setting for OTT, information on predicted behavior, an action history stored in the past data storage unit 132 in association with past real-time information, and a camera information storage unit. Based on the camera information of 133, the time direction camera work is generated and output to the voice switching information generation unit 243'and the integration unit 244.
  • the voice switching information generation unit 243' is a voice that can switch the voice recorded by the plurality of microphones 121 so as to correspond to the spatial direction camera work and the temporal direction camera work based on the user setting for OTT.
  • the switching information is generated and output to the integration unit 244.
  • the predictive behavior of a person in the image is obtained together with the reliability based on the images captured by the plurality of cameras 21, and the user for OTT is based on the predictive behavior with a reliability higher than a predetermined threshold. It is possible to generate a camera work candidate consisting of a spatial direction camera work and a temporal direction camera work according to the setting.
  • a camera work candidate consisting of a spatial direction camera work and a temporal direction camera work is generated based on a plurality of predictive actions including reliability and user settings for OTT. Therefore, the camera work determination unit 53 determines the camera work candidate. It is possible to determine the final camera work according to the reliability of the predictive behavior and the user settings for OTT.
  • FIG. 15 shows a configuration example of the SW processing unit 41 ′′ corresponding to a user for a broadcasting station and a user for OTT.
  • the SW processing unit 41 ′′ of FIG. 15 is provided with a block 301 for broadcasting stations and a block 302 for OTT, and further, the SW processing unit 41 of FIG. 5 and the SW processing unit 41'of FIG. 7 are provided.
  • the storage 131 and the real-time information analysis unit 51 are shared with the block 301 for broadcasting stations and the block 302 for OTT.
  • the block 301 for the broadcasting station includes a past data storage unit 132-1, a camera information storage unit 133-1 and a replay image storage unit 134-1, a camera work estimation unit 52-1 and a camera work determination unit 53-1. It includes a free-viewpoint image generation unit 54-1, an effect processing unit 55-1, a SW control unit 56-1, and a SW39-1.
  • the block 302 for OTT includes a past data storage unit 132-2, a camera information storage unit 133-2, a replay image storage unit 134-2, a camera work estimation unit 52-2, a camera work determination unit 53-2, and a free unit. It includes a viewpoint image generation unit 54-2, an effect processing unit 55-2, a SW control unit 56-2, and a SW39-2.
  • the image generation unit 54-2, the SW control unit 56-2, and the SW39-2 have the same configuration.
  • the camera work estimation unit 52-1 and the effect processing unit 55-1 and the camera work estimation unit 52-2 and the effect processing unit 55-2 have the same basic functions, but the camera work estimation unit 52-1 and the effect processing unit 55-2 have the same basic functions.
  • Units 52-1 and effect processing unit 55-1 execute processing based on user settings for broadcasting stations, and camera work estimation unit 52-2 and effect processing unit 55-2 are based on user settings for OTT. It differs in that it executes the processing.
  • the block 301 for a broadcasting station predicts the behavior of a player or an artist who is a subject from images captured by a plurality of cameras 21, and broadcasts with camera work according to a user setting for the broadcasting station. It is possible to distribute moving images via so-called broadcasting lines that correspond to users for stations.
  • the block 302 for OTT predicts the behavior of the player or artist who is the subject from the images captured by the plurality of cameras 21, and corresponds to the user for OTT by the camera work according to the user setting for OTT. It is possible to distribute moving images via the Internet, etc., without using so-called broadcasting lines.
  • the SW device 22 of the present disclosure may be realized by, for example, a signal processing system realized by a plurality of computers configured on a network or cloud computing.
  • a delay may occur.
  • some configurations having a particularly high processing load may be, for example.
  • MEC Multi-access Edge Computing
  • a base station of a high-speed communication line such as 5G communication as a communication line.
  • Examples of the configuration having a high processing load realized by MEC include the real-time information analysis unit 51, but other configurations may be used.
  • FIG. 16 shows a configuration example of a general-purpose computer.
  • This personal computer has a built-in CPU (Central Processing Unit) 1001.
  • the input / output interface 1005 is connected to the CPU 1001 via the bus 1004.
  • a ROM (Read Only Memory) 1002 and a RAM (Random Access Memory) 1003 are connected to the bus 1004.
  • the input / output interface 1005 includes an input unit 1006 composed of input devices such as a keyboard and a mouse for which the user inputs operation commands, an output unit 1007 for outputting a processing operation screen and an image of the processing result to a display device, a program, and various data.
  • a storage unit 1008 consisting of a hard disk drive or the like for storing, a LAN (Local Area Network) adapter or the like, and a communication unit 1009 for executing communication processing via a network represented by the Internet are connected.
  • magnetic disks including flexible disks
  • optical disks including CD-ROM (Compact Disc-Read Only Memory), DVD (Digital Versatile Disc)
  • optical magnetic disks including MD (Mini Disc)
  • a drive 1010 that reads and writes data to and from a removable storage medium 1011 such as a memory is connected.
  • the CPU 1001 is read from a program stored in the ROM 1002 or a removable storage medium 1011 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory, installed in the storage unit 1008, and loaded from the storage unit 1008 into the RAM 1003. Various processes are executed according to the program.
  • the RAM 1003 also appropriately stores data and the like necessary for the CPU 1001 to execute various processes.
  • the CPU 1001 loads the program stored in the storage unit 1008 into the RAM 1003 via the input / output interface 1005 and the bus 1004 and executes the above-described series. Is processed.
  • the program executed by the computer can be recorded and provided on the removable storage medium 1011 as a package medium or the like, for example. Programs can also be provided via wired or wireless transmission media such as local area networks, the Internet, and digital satellite broadcasts.
  • the program can be installed in the storage unit 1008 via the input / output interface 1005 by mounting the removable storage medium 1011 in the drive 1010. Further, the program can be received by the communication unit 1009 via a wired or wireless transmission medium and installed in the storage unit 1008. In addition, the program can be pre-installed in the ROM 1002 or the storage unit 1008.
  • the program executed by the computer may be a program that is processed in chronological order according to the order described in this specification, or may be a program that is processed in parallel or at a necessary timing such as when a call is made. It may be a program in which processing is performed.
  • the system means a set of a plurality of components (devices, modules (parts), etc.), and it does not matter whether all the components are in the same housing. Therefore, a plurality of devices housed in separate housings and connected via a network, and a device in which a plurality of modules are housed in one housing are both systems. ..
  • the present disclosure can have a cloud computing configuration in which one function is shared by a plurality of devices via a network and jointly processed.
  • each step described in the above flowchart can be executed by one device or shared by a plurality of devices.
  • one step includes a plurality of processes
  • the plurality of processes included in the one step can be executed by one device or shared by a plurality of devices.
  • a behavior prediction unit that predicts the behavior of a subject based on images captured by cameras in multiple viewpoint directions and outputs it as a predicted behavior.
  • a signal processing device including a switching unit that outputs an image in a specific viewpoint direction, which is a specific viewpoint direction, from images captured by the cameras in the plurality of viewpoint directions based on the predicted behavior.
  • the behavior prediction unit The behavior of the subject is estimated as an estimated behavior, and For the estimated behavior, calculate the reliability and The signal processing device according to ⁇ 1>, which determines the predicted behavior from the estimated behavior based on the reliability.
  • the action prediction unit determines the estimated action having a reliability higher than a predetermined value among the estimated actions as the predicted action.
  • a real-time information analysis unit that detects real-time information from images captured by the cameras in the plurality of viewpoint directions is further included.
  • the signal processing device according to ⁇ 2>, wherein the behavior prediction unit predicts the predicted behavior of the subject based on the real-time information.
  • the real-time information includes position information, posture information, person identification information, moving body position information, and event information of a person who is a subject in the image from images captured by cameras in a plurality of viewpoint directions.
  • the signal processing apparatus according to ⁇ 4>.
  • a specific viewpoint direction specifying unit that specifies the specific viewpoint direction based on the predicted behavior is further included.
  • the switching unit is any of ⁇ 1> to ⁇ 5> that outputs an image in the specific viewpoint direction specified by the specific viewpoint direction specifying unit based on images captured by the cameras in the plurality of viewpoint directions.
  • the signal processing device described in. ⁇ 7> The signal processing device according to ⁇ 6>, wherein the switching unit selects and outputs an image in the specific viewpoint direction from the images captured by the cameras in the plurality of viewpoint directions.
  • ⁇ 8> Further includes an image generation unit that generates an image in the specific viewpoint direction as a free viewpoint image by interpolation generation using images captured by the cameras in the plurality of viewpoint directions.
  • the specific viewpoint direction specifying unit specifies the specific viewpoint direction based on a user setting and the predicted behavior.
  • the user setting is a setting of a user for a broadcasting station and is a setting based on a questionnaire result for a viewer at the broadcasting station.
  • the user setting is a setting of a user for OTT (Over The Top) and is a setting based on an individual preference of the user for OTT.
  • a time direction processing specifying unit that specifies the time direction processing for the image output from the switching unit as the time direction processing based on the prediction behavior is further included.
  • the image generation unit generates an image in the specific viewpoint direction from the images captured by the cameras in the plurality of viewpoint directions, and performs the time direction processing.
  • the signal processing device according to ⁇ 8>, wherein the switching unit outputs an image generated by the image generation unit and subjected to the time direction processing to the image in the specific viewpoint direction.
  • the time direction processing includes processing for changing the reproduction speed of the image in the specific viewpoint direction.
  • the time direction processing specific unit is When the specific viewpoint direction is the camera direction of any of the cameras in the plurality of viewpoint directions and the switching unit outputs an image of the camera in the viewpoint direction corresponding to the specific viewpoint direction, the time direction processing is performed. , Specified as a process to perform slow playback slower than normal playback speed, When the free viewpoint image generated by interpolation using images captured by the cameras in the plurality of viewpoint directions is output instead of the camera direction of one of the cameras in the plurality of viewpoint directions.
  • the signal processing apparatus according to ⁇ 12>, wherein the time direction processing is specified as a processing for performing high-speed reproduction higher than the normal reproduction speed.
  • the time direction processing specifying unit specifies the time direction processing as a processing for performing low-speed reproduction lower than the normal reproduction speed when the prediction action is a goal shoot or a hit by a batter.
  • ⁇ 16> The signal processing device according to ⁇ 8>, further including an effect processing unit that performs effect processing on an image generated by the image generation unit.
  • ⁇ 17> The signal processing device according to ⁇ 16>, wherein the effect processing unit performs a process of blurring a predetermined subject among the subjects on the image generated by the image generation unit.
  • a replay image storage unit that stores an image processed by the effect processing unit as a replay image is further included.
  • the signal processing device wherein the switching unit outputs an image stored in the replay image storage unit.
  • the behavior of the subject is predicted and output as the predicted behavior.
  • a signal processing method including a step of outputting an image in a specific viewpoint direction, which is a specific viewpoint direction, from images captured by the cameras in the plurality of viewpoint directions based on the predicted behavior.
  • a behavior prediction unit that predicts the behavior of the subject based on images captured by cameras in multiple viewpoint directions and outputs it as a predicted behavior.
  • a signal processing system including a switching unit that outputs an image in a specific viewpoint direction, which is a specific viewpoint direction, from images captured by the cameras in the plurality of viewpoint directions based on the predicted behavior.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Studio Devices (AREA)

Abstract

本開示は、被写体の行動を予測して、被写体を撮像する複数のカメラにより撮像された画像や、複数のカメラにより撮像された画像から生成される自由視点画像の視点位置を切り替えられるようにすることができるようにする信号処理装置、信号処理方法、および信号処理システムに関する。 複数の視点方向のカメラにより撮像された画像を取得し、複数の視点方向のカメラにより撮像された画像に基づいて、被写体の行動を予測して、予測行動として出力し、予測行動に基づいて、複数の視点方向のカメラにより撮像された画像より、特定の視点方向である特定視点方向の画像を出力する。カメラワークを切り替えるスイッチャ装置に適用することができる。

Description

信号処理装置、信号処理方法、および信号処理システム
 本開示は、信号処理装置、信号処理方法、および信号処理システムに関し、特に、複数のカメラにより撮像された画像から被写体の行動を予測して、予測された行動に基づいて複数のカメラにより撮像された画像から生成される自由視点画像の視点方向を適切に切り替えて出力できるようにした信号処理装置、信号処理方法、および信号処理システムに関する。
 音楽ライブやスポーツなどのイベントを撮像する場合、広大なスタジオ、ホール、および競技施設内等で、多数の視点方向のカメラを用いて、撮像する必要がある。
 一般的に、多数の視点方向のカメラを用いた撮像を行った場合には、多数の視点方向のカメラにより撮像された画像を適切に切り替える必要があるが、多数の画像に映し出される被写体の状態を確認しながら切り替える必要があり、適切に切り替えるのは極めて困難である。
 そこで、被写体の位置情報を取得して、被写体の位置情報に基づいて、被写体を撮像しているカメラを切り替える技術が提案されている(特許文献1参照)。
特開2005-277845号公報
 しかしながら、特許文献1においては、被写体の行動を予測して、被写体を撮像している複数のカメラの画像を切り替えたり、複数のカメラにより撮像された画像に基づいて生成される自由視点画像の視点位置を切り替えることはできず、被写体の行動が急激に変化するような場合、追従できず、適切に画像を切り替えることができなくなる恐れがあった。
 本開示は、このような状況に鑑みてなされたものであり、特に、被写体の行動を予測して、予測された行動に基づいて、被写体を撮像する複数のカメラにより撮像された画像から生成される自由視点画像の視点方向を適切に切り替えられるようにするものである。
 本開示の一側面の信号処理装置および信号処理システムは、複数の視点方向のカメラにより撮像された画像に基づいて、被写体の行動を予測して、予測行動として出力する行動予測部と、前記予測行動に基づいて、前記複数の視点方向のカメラにより撮像された画像より、特定の視点方向である特定視点方向の画像を出力する切替部と信号処理装置および信号処理システムである。
 本開示の一側面の信号処理方法は、複数の視点方向のカメラにより撮像された画像に基づいて、被写体の行動を予測して、予測行動として出力し、前記予測行動に基づいて、前記複数の視点方向のカメラにより撮像された画像より、特定の視点方向である特定視点方向の画像を出力するステップを含む信号処理方法である。
 本開示の一側面においては、複数の視点方向のカメラにより撮像された画像に基づいて、被写体の行動が予測されて、予測行動として出力され、前記予測行動に基づいて、前記複数の視点方向のカメラにより撮像された画像より、特定の視点方向である特定視点方向の画像を出力される。
本開示の信号処理システムを、サッカーの試合の撮像に適用する場合の例を説明する図である。 本開示の信号処理システムを、野球の試合の撮像に適用する場合の例を説明する図である。 本開示の信号処理システムを、ライブ会場の撮像に適用する場合の例を説明する図である。 本開示のSW装置のハードウェアの構成例を説明するブロック図である。 図4のSW装置により実現される第1の実施の形態のSW処理部の機能を説明する機能ブロック図である。 図5のリアルタイム情報解析部の構成例を説明する機能ブロック図である。 図5のカメラワーク推定部の構成例を説明する機能ブロック図である。 図4のSW処理部によるSW処理を説明するフローチャートである。 図8のリアルタイム情報解析処理を説明するフローチャートである。 図8のカメラワーク推定処理を説明するフローチャートである。 図4のSW装置により実現される第2の実施の形態のSW処理部の機能を説明する機能ブロック図である。 図11のカメラワーク推定部の構成例を説明する機能ブロック図である。 図11のSW処理部によるSW処理を説明するフローチャートである。 図13のカメラワーク推定処理を説明するフローチャートである。 図4のSW装置により実現される第3の実施の形態のSW処理部の機能を説明する機能ブロック図である。 汎用のパーソナルコンピュータの構成例を説明する図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
 1.第1の実施の形態
 2.第2の実施の形態
 3.第3の実施の形態
 4.ソフトウェアにより実行させる例
 <<1.第1の実施の形態>>
 <サッカーの試合を撮像する場合>
 本開示は、特に被写体の行動を予測して、被写体を撮像するカメラにより撮像された画像から生成される自由視点画像の視点方向を適切に切り替えられるようにするものである。なお、ここでの画像とは、例えば動画像(映像)である。
 本開示の技術を適用した信号処理システムの説明にあたって、図1を参照して、サッカーの試合を複数の視点方向から撮像する場合に、被写体となる選手の動きから予測される予測行動に基づいて、複数の視点方向から撮像される画像から生成される自由視点画像の視点方向を適切に切り替えて出力する信号処理システムの構成例について説明する。
 図1の信号処理システム11Aは、カメラ21A-1乃至21A-12、SW(スイッチング)装置22A、通信装置23A、および通信ネットワーク24Aより構成される。
 カメラ21A-1乃至21A-12は、サッカー場SCSを取り囲むように設置され、サッカー場SCSを複数の視点方向から撮像し、撮像した画像を、通信ネットワーク24Aを介して、SW装置22Aに供給する。
 尚、図1においては、サッカー場SCSを12の視点方向から撮像するカメラ21A-1乃至21A-12が設けられる例について説明しているが、視点方向は、これ以外の数であってもよい。
 また、図1においては、カメラ21A-1乃至21A-12が、有線接続された通信ネットワーク24Aを介してSW装置22Aに供給する例について記載されているが、無線接続であってもよい。
 尚、カメラ21A-1乃至21A-12のそれぞれについて、特に区別する必要がない場合、単にカメラ21Aと称するものとして、その他の構成も同様に称するものとする。
 SW装置22Aは、通信ネットワーク24を介して、カメラ21A-1乃至21A-12より供給されてくる画像に基づいて、被写体の行動を予測し、予測した行動に基づいて、適切な視点方向の自由視点画像を生成する。また、SW装置22Aは、カメラ21A-1乃至21A-12より供給されてくる画像に基づいて、例えば点数や選手情報などのグラフィックスの重畳などの編集が施された編集画像、試合のダイジェスト画像、ハイライト画像等を生成する。SW装置22Aは、生成した自由視点画像や編集画像、ダイジェスト画像、ハイライト画像、また選手紹介等のインタビュー画像など事前に生成された素材画像を切り替えて放送用の本線画像を生成し、当該本線画像を通信装置23Aに出力し、通信装置23Aより放送局に配信、もしくは放送波等により放送させる。なお、ここでの各種編集や、ダイジェスト画像、ハイライト画像の生成、各種画像の切り替えは、SW装置22Aが自動で行っても良いし、各種操作部(図示せず)を介してオペレータによる操作に基づき行われるものであっても良い。
 ここで、サッカーの試合の放送用の本線画像を自由視点画像に切り替えた後に、自由視点画像内で視点を切り替えて放送する場合について考える。より具体的には、例えば、図1のサッカー場SCSにおいて、選手H1がボールB1をドリブルしながら図中左方向に移動する場合、SW装置22Aは、例えば、カメラ21A-1乃至21A-12により撮像された画像のうち、ボールB1をドリブルしている選手H1の画像を撮像する視点方向V1となるカメラ21A-6により撮像される画像を通信装置23Aに出力する。
 この際、SW装置22Aは、複数のカメラ21A-1乃至21A-12により撮像された画像より得られるパターンなどに基づいたディープラーニング等の機械学習により、カメラ21A-1乃至21A-12により撮像される画像内の選手H1の画像から、選手H1の行動を予測し続ける。
 ここで、例えば、予測された行動に基づいて、図1の矢印方向に選手H1がボールB1を蹴って、シュートを打つという行動が予測される場合、SW装置22Aは、選手H1がボールB1を図中左側のゴールに向かって蹴り込む、いわゆる、シュートタイミングにおいて、視点方向V2となるカメラ21A-4により撮像される画像に切り替えて、通信装置23Aに出力する。
 この際、SW装置22Aは、シュートを打つタイミングにおいて、視点方向V2となるカメラ21A-4により撮像される画像を通常再生速度よりもゆっくりとした低速再生に切り替えて、シュートを打つ画像を詳細に表示させるようにする。
 すなわち、図1のSW装置22Aは、カメラ21A-1乃至21A-12により撮像される画像に基づいて、被写体の行動を予測し、予測行動に基づいて、再生する画像の視点方向を切り替える(空間方向に対するカメラワークを切り替える)と共に、再生する画像の再生速度を切り替えて(時間方向に対するカメラワークを切り替えて)出力する。
 結果として、カメラ21A-1乃至21A-12により撮像される画像より、適切な視点方向の画像に切り替えられて、かつ、適切な再生速度で再生されることになるので、視聴者は、サッカーの試合における重要なシーンを視聴し易い視点方向の画像で、かつ、視聴し易い再生速度で視聴することが可能となる。
 換言すれば、SW装置22Aは、カメラ21A-1乃至21A-12により撮像される画像に基づいて、被写体の行動を予測して、予測行動に基づいて、カメラ21A-1乃至21A-12により撮像される画像を、空間方向にカメラワークを適切に切替えながら、同時に、時間方向にカメラワークを適切に切り替えて出力しているとも言える。
 尚、以降において、カメラ21A-1乃至21A-12により撮像される画像に基づいて、被写体の行動が予測されて、予測行動に基づいて、カメラ21A-1乃至21A-12により撮像される画像の視点方向が切り替えられるカメラワークを空間方向カメラワークと称する。
 また、空間方向カメラワークにおいては、所望とする視点方向の画像が、カメラ21A-1乃至21A-12により撮像される画像が用いられて、自由視点画像として補間生成されることを前提として説明を進めるものとする。
 しかしながら、カメラ21A-1乃至21A-12のいずれかにより撮像される視点方向が、所望とする視点方向と同一であるときには、所望とする視点方向と同一の視点方向で撮像するカメラにより撮像された画像をそのまま使用してもよいものとする。
 すなわち、空間方向カメラワークにより切り替えられる視点方向の画像については、カメラ21A-1乃至21A-12により撮像される画像が用いられて、自由視点画像として補間生成されたものでも、カメラ21A-1乃至21A-12のいずれかにより撮像される画像そのものであってもよいものとする。従って、空間方向カメラワークは、自由視点画像において、順次視点が切り替えられていく動き(軌跡)であるとも言える。
 さらに、カメラ21A-1乃至21A-12により撮像される画像に基づいて、被写体の行動が予測されて、予測行動に基づいて、再生速度が切り替えられるとき、再生速度が切り替えらえるカメラワークを時間方向カメラワークと称する。
 従って、本開示のSW装置22Aは、カメラ21A-1乃至21A-12により撮像される画像に基づいて、被写体の行動を予測して、予測行動に基づいて、カメラ21A-1乃至21A-12により撮像される画像に対して、空間方向カメラワークと、時間方向カメラワークとがなされているとみなすことができる。このように空間方向カメラワークと、時間方向カメラワークとがなされるカメラワークを総称して時空間方向カメラワークとも称する。
 以上においては、空間方向カメラワークにより、カメラ21A-6により撮像される視点方向V1の画像が、カメラ21A-4により撮像される視点方向V2の画像に切り替えられる例について説明してきたが、それ以外の視点方向からの画像に切り替えられてもよい。
 すなわち、例えば、視点方向V3の画像が必要である場合については、SW装置22Aは、空間方向カメラワークにより、カメラ21A-5により撮像される視点方向V3の画像に切り替えるようにしてもよい。
 また、必要とされる画像が、例えば、視点方向V1と視点方向V3との中間となる視点方向V11の画像である場合、SW装置22Aは、空間方向カメラワークにより、視点方向V1のカメラ21A-6の画像と、視点方向V3のカメラ21A-5の画像とから、視点方向V11の画像を自由視点画像として補間生成し、視点方向を切り替えた画像として出力する。
 同様に、必要とされる画像が、例えば、視点方向V3と視点方向V2との中間となる視点方向V12の画像である場合、SW装置22Aは、空間方向カメラワークにより、視点方向V3のカメラ21A-5の画像と、視点方向V2のカメラ21A-4の画像とから、視点方向V12の画像を自由視点画像として補間生成し、視点方向を切り替えた画像として出力する。
 さらに、被写体の予測行動に基づいて、SW装置22Aは、空間方向カメラワークにより、視点方向V1,V11,V3,V12,V2の順番に、視点方向を切り替えながら画像を表示するようにしてもよい。
 ここで、視点方向V1,V2,V3のカメラ21A-6,21A-5,21A-4の画像については、撮像されたオリジナルの画像が用いられるため、画像に歪などが生じない。
 これに対して、視点方向V11,V12の画像については補間生成された自由視点画像であるため、画像内に歪などが生じる可能性がある。
 そこで、このような場合、SW装置22Aは、時間方向カメラワークにより、視点方向V1,V2,V3のカメラ21A-6,21A-5,21A-4の画像については、表示時間を所定の表示時間よりも長めにしてゆっくりと表示する。
 これに対して、SW装置22Aは、時間方向カメラワークにより、自由視点画像として補間生成された視点方向V11,V12の画像については、表示時間を所定の表示時間よりも短めにして高速で表示する。
 このようにすることで、表示される画像の破綻を目立たせないようにしながら、視点方向V1,V11,V3,V12,V2の画像を順次切り替えて表示させることが可能となる。
 このように、視点方向を切り替えて表示させる際、カメラ21Aで撮像されたオリジナル画像については、表示時間を長くゆっくりと表示し、自由視点画像として補間生成された画像については、表示時間を短めに高速で表示させる場合においても、SW装置22Aは、カメラ21A-1乃至21A-12により撮像される画像に基づいて、被写体の行動を予測して、予測行動に基づいて、カメラ21A-1乃至21A-12により撮像される画像より生成される自由視点画像の視点方向を、空間方向カメラワークにより適切に切り替えながら、時間方向カメラワークに適切な再生速度で出力しており、時空間方向カメラワークがなされているとも言える。
 このように本開示のSW装置22Aにおいては、カメラ21A-1乃至21A-12により撮像される画像に基づいて、被写体の行動を予測して、予測行動に基づいて、カメラ21A-1乃至21A-12により撮像される画像より生成される自由視点画像の視点方向を空間方向カメラワークにより切り替えながら、時間方向カメラワークに適切な再生速度で出力する。
 結果として、複数のカメラにより撮像される画像に基づいて、被写体の行動を予測し、予測した被写体の行動に応じて、複数のカメラにより撮像される画像に基づいた自由視点画像の視点方向を、適切に切り替えながら、適切な再生速度で表示することが可能となる。
 <野球の試合を撮像する場合>
 次に、本開示の技術を適用した信号処理システムの説明にあたって、図2を参照して、野球の試合を複数の視点方向から撮像する場合に、被写体となる選手の動きから予測される予測行動に基づいて、複数の視点方向から撮像された画像から生成される自由視点画像の視点位置を適切に切り替えて出力する信号処理システムの構成例について説明する。
 図2の信号処理システム11Bは、カメラ21B-1乃至21B-16、SW(スイッチング)装置22B、通信装置23B、および通信ネットワーク24Bより構成される。
 カメラ21B-1乃至21B-16は、野球場BBSを取り囲むように設置され、野球場BBSを複数の視点方向から撮像し、撮像した画像を、通信ネットワーク24Bを介して、SW装置22Bに供給する。
 尚、図2においては、野球場BBSを16の視点方向から撮像するカメラ21B-1乃至21B-16が設けられる例について説明しているが、視点方向は、これ以外の数であってもよい。
 また、図2においては、カメラ21B-1乃至21B-16が、有線接続された通信ネットワーク24Bを介してSW装置22Bに供給する例について記載されているが、無線接続であってもよい。
 尚、カメラ21B-1乃至21B-16のそれぞれについて、特に区別する必要がない場合、単にカメラ21Bと称するものとして、その他の構成も同様に称するものとする。
 SW装置22Bは、通信ネットワーク24Bを介して、カメラ21B-1乃至21B-16より供給されてくる画像に基づいて、被写体の行動を予測して、予測行動に基づいた視点方向の自由視点画像を生成する。また、SW装置22Bは、カメラ21B-1乃至21B-16より供給されてくる画像に基づいて、例えば点数や選手情報などのグラフィックスの重畳などの編集が施された編集画像、試合のダイジェスト画像、ハイライト画像等を生成する。SW装置22Bは、生成した自由視点画像や編集画像、ダイジェスト画像、ハイライト画像、また選手紹介等のインタビュー画像など事前に生成された素材画像を切り替えて放送用の本線画像を生成し、当該本線画像を通信装置23Bに出力し、通信装置23Bより放送局に配信、もしくは放送波として送信させる。なお、ここでの各種編集や、ダイジェスト画像、ハイライト画像の生成、各種画像の切り替えは、SW装置22Bが自動で行っても良いし、各種操作部(図示せず)を介してオペレータによる操作に基づき行われるものであっても良い。
 ここで、野球の試合の放送用の本線画像を自由視点画像に切り替えた後に、自由視点画像内で視点を切り替えて放送する場合について考える。より具体的には、SW装置22Bは、例えば、カメラ21B-1乃至21B-16により撮像された画像のうち、野球場BBSにおいて、例えば、ボールB11を投球する選手H11の画像を撮像する場合、視点方向V31となるカメラ21B-3により撮像される画像を通信装置23Bに出力する。
 この際、SW装置22Bは、複数のカメラ21B-1乃至21B-12により撮像された画像より得られるパターンなどに基づいたディープラーニング等の機械学習により、カメラ21B-1乃至21B-16により撮像される画像内の選手H11の画像から、選手H11の行動を予測し続ける。
 ここで、例えば、予測された行動に基づいて、選手H11がボールB11を打者である選手H12に向かって投げることが予測される場合、SW装置22Bは、選手H11がボールB1を投球するタイミングにおいて、視点方向V32となるカメラ21B-2により撮像される画像に切り替えて、通信装置23Bに出力する。
 この次のタイミングにおいて、SW装置22Bは、ボールB11が打者となる選手H12がバットB12でボールB11を打撃するという行動を予測する。
 すると、SW装置22Bは、予測行動である選手H12がバットB12でボールB11を打撃するタイミングにおいて、視点方向V33となるカメラ21B-2により撮像される、打者となる選手H12の打撃シーンの画像に切り替えると共に、ボールB11とバットB12とがぶつかるタイミングにおいて、通常再生速度よりも低速再生に切り替えて、打撃の瞬間が詳細に視聴可能な画像として表示させるようにする。
 すなわち、図2のSW装置22Bは、カメラ21B-1乃至21B-16により撮像される画像に基づいて、被写体の行動を予測し、予測行動に基づいて、空間方向カメラワークにより、再生する画像の視点方向を切り替えると共に、時間方向カメラワークにより、再生する画像を時間方向に伸長させるように処理を施す。
 結果として、カメラ21B-1乃至21B-12により撮像される画像より、適切な視点方向の画像に切り替えられて、かつ、適切な再生速度で再生されることになるので、視聴者は、野球の試合における重要なシーンを、視聴し易い視点方向の画像で、かつ、視聴し易い再生速度で視聴することが可能となる。
 換言すれば、SW装置22Bは、カメラ21B-1乃至21B-16により撮像される画像に基づいて、被写体の行動を予測して、予測行動に基づいて、カメラ21B-1乃至21B-16により撮像される画像を、空間方向に視点方向を適切に切替えながら、時間方向に再生速度を適切に切り替えて出力しているとも言える。
 尚、以上においては、空間方向カメラワークにより、カメラ21B-3により撮像される視点方向V31の画像が、カメラ21B-1により撮像される視点方向V32の画像に切り替えられる、または、カメラ21B-1により撮像される視点方向V32の画像が、カメラ21B-2により撮像される視点方向V33の画像に切り替えられる、例について説明してきたが、それ以外の視点方向からの画像に切り替えてもよい。
 また、必要とされる画像が、例えば、カメラ21B-7の視点方向V34とカメラ21B-8の視点方向V35との中間となる視点方向V41の画像である場合、SW装置22Bは、空間方向カメラワークにより、視点方向V34のカメラ21B-7の画像と、視点方向V35のカメラ21B-8の画像とから、視点方向V41の画像を自由視点画像として補間生成して視点方向を切り替えて出力する。
 さらに、被写体の予測行動に基づいて、SW装置22Bは、空間方向カメラワークにより視点方向V34,V41,V35の順番に画像を切り替えて表示するようにしてもよい。
 ここで、視点方向V34,V35のカメラ21B-7,21B-8の画像については、撮像されたオリジナルの画像であるため、画像に歪などが生じていない。
 これに対して、視点方向V41の画像については補間生成された自由視点画像であるため、画像内に歪などが生じている可能性がある。
 そこで、SW装置22Bは、時間方向カメラワークにより、視点方向V34,V35のカメラ21B-7,21B-8の画像については表示時間を所定の表示時間より長めにしてゆっくりと表示する。
 これに対して、SW装置22Bは、時間方向カメラワークにより、視点方向V41の画像については表示時間を所定の表示時間より短めにして高速で表示する。
 このようにすることで、表示される画像の破綻を目立たせないようにしながら、視点方向を切り替えて画像を表示させることが可能となる。
 このように、視点方向を切り替えて表示させる際、カメラ21Bで撮像されたオリジナル画像については、表示時間を長くゆっくりと表示し、補間生成された画像については、表示時間を短めに高速で表示させる場合においても、SW22Bは、カメラ21B-1乃至21B-16により撮像される画像に基づいて、被写体の行動を予測して、予測行動に基づいて、カメラ21B-1乃至21B-12により撮像される画像より生成される自由視点画像の視点方向を、空間方向カメラワークにより適切に切り替えながら、時間方向カメラワークにより適切な再生速度で出力しており、時空間方向カメラワークがなされているとも言える。
 このように本開示のSW22Bにおいては、カメラ21B-1乃至21B-16により撮像される画像に基づいて、被写体の行動を予測して、予測行動に基づいて、カメラ21B-1乃至21B-12により撮像される画像より生成される自由視点画像の視点方向を空間方向カメラワークにより切り替えながら、時間方向カメラワークにより適切な再生速度で出力する。
 結果として、複数のカメラにより撮像される画像に基づいて、被写体の動きを予測し、予測した被写体の動きに応じて、複数のカメラにより撮像される画像に基づいた自由視点画像の視点方向を、適切に切り替えながら出力することが可能となる。
 <音楽ライブ会場を撮像する場合>
 次に、本開示の技術を適用した信号処理システムの説明にあたって、図3を参照して、音楽ライブ会場を撮像する場合に、被写体となるアーティストの動きから予測される予測行動に基づいて、複数の視点方向から撮像される画像から生成される自由視点画像の視点位置を適切に切り替えて出力する信号処理システムの構成例について説明する。
 図3の信号処理システム11Cは、カメラ21C-1乃至21C-15、SW(スイッチング)装置22C、通信装置23C、および通信ネットワーク24Cより構成される。
 カメラ21C-1乃至21C-15は、ライブ会場LVSにおけるステージSTを取り囲むように設置され、ライブ会場LVSのステージTSを複数の視点方向から撮像し、撮像した画像を、通信ネットワーク24Cを介して、SW装置22Cに供給する。
 尚、図3においては、ライブ会場LVSを15の視点方向から撮像するカメラ21C-1乃至21C-16が設けられる例について説明しているが、視点方向は、これ以外の数であってもよい。
 また、図3においては、カメラ21C-1乃至21C-15が、有線接続された通信ネットワーク24Cを介してSW装置22Cに供給する例について記載されているが、無線接続であってもよい。
 尚、カメラ21C-1乃至21C-15のそれぞれについて、特に区別する必要がない場合、単にカメラ21Cと称するものとして、その他の構成も同様に称するものとする。
 SW装置22Cは、通信ネットワーク24Cを介して、カメラ21C-1乃至21C-15より供給されてくる画像に基づいて、被写体の行動を予測して、予測された行動に基づいて、視点方向の自由視点画像を生成する。また、SW装置22Cは、カメラ21C-1乃至21C-15より供給されてくる画像に基づいて、例えば演じている楽曲やアーティスト情報などのグラフィックスの重畳などの編集が施された編集画像、音楽ライブのダイジェスト画像、ハイライト画像等を生成する。SW装置22Cは、生成した自由視点画像や編集画像、ダイジェスト画像、ハイライト画像、またアーティスト紹介等のインタビュー画像など事前に生成された素材画像を切り替えて放送用の本線画像を生成し、当該本線画像を通信装置23Cに出力し、通信装置23Cより放送局に配信、もしくは放送波として送信させる。なお、ここでの各種編集や、ダイジェスト画像、ハイライト画像の生成、各種画像の切り替えは、SW装置22Cが自動で行っても良いし、各種操作部(図示せず)を介してオペレータによる操作に基づき行われるものであっても良い。
 ここで、音楽ライブの放送用の本線画像を自由視点画像に切り替えた後に、自由視点画像内で視点を切り替えて放送する場合について考える。より具体的には、SW装置22Cは、カメラ21C-1乃至21C-16により撮像された画像のうち、ライブ会場LVSにおいて、アーティストH21,H22のうち、アーティストH21のみがステージST上で、例えば、ソロで歌うような場合、アーティストH21の画像を撮像する視点方向V51となるカメラ21C-1により撮像される画像を通信装置23Cに出力する。
 この際、SW装置22Cは、複数のカメラ21C-1乃至21C-15より撮像された画像より得られるパターンなどに基づいたディープラーニング等の機械学習により、カメラ21C-1乃至21C-15により撮像される画像内のアーティストH21の画像から、アーティストH21の行動を予測し続ける。
 ここで、例えば、予測された行動に基づいて、アーティストH21が歌いながら体の向きを観客席の図中の左方向から正面方向に変えることが予測される場合、SW装置22Cは、アーティストH21が観客席正面方向に向きを変えるタイミングにおいて、視点方向V51となるカメラ21C-1により撮像される画像から、視点方向V52となるカメラ21C-10により撮像される画像に切り替えて、通信装置23Cに出力する。
 この際、SW装置22Cは、アーティストH21が体の向きを左方向から正面方向にかえると同時に、ダンスなどによりジャンプすることを予測するときには、アーティストH21がジャンプするタイミングにおいて、通常再生速度より低速再生に切り替えて、ジャンプする瞬間を詳細に視聴可能な画像にして出力させるようにする。
 すなわち、図3のSW装置22Cは、カメラ21C-1乃至21C-15により撮像される画像に基づいて、被写体の行動を予測し、予測された行動に基づいて、空間方向カメラワークにより、再生する画像の視点方向を切り替えると共に、時間方向カメラワークにより、再生する画像の時間方向に伸長させるように処理を施して出力する。
 結果として、カメラ21C-1乃至21C-15により撮像される画像より、適切な視点方向の画像に切り替えられて、かつ、適切な再生速度で再生されることになるので、視聴者は、音楽ライブ会場LVSにおいて音楽ライブが盛り上がるシーンを、視聴し易い視点方向の画像で、かつ、視聴し易い再生速度で視聴することが可能となる。
 換言すれば、SW装置22Cは、カメラ21C-1乃至21C-15により撮像される画像に基づいて、被写体の行動を予測して、予測行動に基づいて、カメラ21C-1乃至21C-15により撮像される画像を、空間方向について視点方向を適切に切替えながら、時間方向に再生速度を適切に切り替えて出力しているとも言える。
 尚、以上においては、空間方向カメラワークにより、カメラ21C-1により撮像される視点方向V51の画像が、カメラ21C-10により撮像される視点方向V52の画像に切り替えられる例について説明してきたが、それ以外の視点方向からの画像に切り替えてもよい。
 また、必要とされる画像が、例えば、カメラ21C-12の視点方向V53とカメラ21C-9の視点方向V54との中間となる視点方向V61の画像である場合、SW22Cは、空間方向カメラワークにより、視点方向V53のカメラ21C-12の画像と、視点方向V54のカメラ21C-9の画像とから、視点方向V61の画像を自由視点画像として補間生成し、視点方向を切り替えた画像として出力する。
 さらに、被写体の予測行動に基づいて、SW装置22Cは、空間方向カメラワークにより、視点方向V53,V61,V54の順番に視点方向を切り替えながら表示するようにしてもよい。
 ここで、視点方向V53,V54のカメラ21C-12,21C-9の画像については、撮像されたオリジナルの画像であるため、画像に歪などが生じていない。
 これに対して、視点方向V61の画像については補間生成された自由視点画像であるため、画像内に歪などが生じている可能性がある。
 そこで、SW装置22Cは、時間方向カメラワークにより、視点方向V53,V54のカメラ21C-12,21C-9の画像については表示時間を所定の表示時間よりも長めにしてゆっくりと表示する。
 これに対して、SW装置22Cは、時間方向カメラワークにより、自由視点画像として補間生成された視点方向V61の画像については、表示時間を所定の表示時間よりも短めにして高速で表示する。
 このようにすることで、表示される画像の破綻を目立たせないようにしながら、視点方向V53,V61,V54の画像を順次切り替えて表示させることが可能となる。
 このように、視点方向を切り替えて表示させる際、カメラ21Cで撮像されたオリジナル画像については、表示時間を長くゆっくりと表示し、補間生成された画像については、表示時間を短めに高速で表示させる場合においても、SW22Cは、カメラ21C-1乃至21C-15により撮像される画像に基づいて、被写体の行動を予測して、予測行動に基づいて、カメラ21C-1乃至21C-15により撮像される画像より生成される自由視点画像の視点方向を、空間方向カメラワークにより適切に切り替えながら、時間方向カメラワークにより適切な再生速度で出力しており、時空間方向カメラワークがなされているとも言える。
 このように本開示のSW22Cにおいては、カメラ21C-1乃至21C-15により撮像される画像に基づいて、被写体の行動を予測して、予測行動に基づいて、画像より生成される自由視点画像の視点方向を空間方向カメラワークにより切り替えながら、時間方向カメラワークにより適切な再生速度で出力する。
 結果として、複数のカメラにより撮像される画像に基づいて、被写体の動きを予測し、予測した被写体の動きに応じて、複数のカメラにより撮像される画像に基づいた自由視点画像の視点方向を、適切に切り替えながら出力することが可能となる。
 すなわち、本開示の信号処理システム11A乃至11Cにおいては、いずれにおいても、上述した、図1乃至図3を参照して説明した、サッカーや野球の試合、および音楽ライブなどのイベントの撮像にあたって、複数のカメラにより撮像される画像から、被写体の行動を予測して、予測した被写体の行動に応じて、複数のカメラにより撮像される画像の空間方向(視点方向)を切り替えると共に、時間方向(再生速度)に対する処理を適切に切り替えて(時空間方向に対して適切に処理を施して)出力することが可能となる。
 <SW装置の構成例>
 次に、図4のブロック図を参照して、本開示のSW装置の構成例について説明する。
 尚、本開示の信号処理システムの構成については、図1乃至図3を参照して説明してきたサッカーの試合を撮像する信号処理システム11A、野球の試合を撮像する信号処理システム11B、および音楽ライブを撮像する信号処理システム11Cに相当する、各種のイベントを撮像するための信号処理システムであり、複数のカメラにより撮像される画像から、被写体の行動を予測して、予測した被写体の行動に応じて、複数のカメラにより撮像される画像を、空間方向カメラワークにより視点方向を適切に切り替えながら、時間方向カメラワークにより再生速度を適切に切り替えて出力する点については、同様の機能を備えた構成である。
 また、図1乃至図3の信号処理システム11A乃至11Cを構成するカメラ21A乃至21C、SW装置22A乃至22C、通信装置23A乃至23C、および通信ネットワーク24A乃至24Cは、それぞれ基本的な機能において同様であるので、以降においては、単に、信号処理システム11、カメラ21、SW装置22、通信装置23、および通信ネットワーク24と称する。
 図4のSW装置22は、図1乃至図3における信号処理システム11A乃至11CにおけるSW装置22A乃至22Cとしての機能と同様に、複数のカメラ21により撮像された画像を取得して、複数のカメラにより撮像される画像から、被写体の行動を予測して、予測した被写体の行動に応じて、複数のカメラにより撮像される画像の空間方向に対する視点方向を適切に切り替えると共に、時間方向に対する再生速度を適切に切り替えて、通信装置23に出力する。
 この際、切り替えて出力すべき視点方向の画像が存在しない場合、SW装置22は、複数のカメラ21により撮像された画像に基づいて、切り替えて出力すべき視点方向の画像を自由視点画像として補間生成する。
 より詳細には、SW装置22は、制御部31、入力部32、出力部33、記憶部34、通信部35、ドライブ36、およびリムーバブル記憶媒体37、並びにSW部39より構成されており、相互にバス38を介して接続されており、データやプログラムを送受信することができる。
 制御部31は、プロセッサやメモリから構成されており、SW装置22の動作の全体を制御する。
 また、制御部31は、SW処理部41としての機能を備えており、複数のカメラ21により撮像された複数の画像より、被写体の行動を予測し、予測した行動に基づいて、SW39の動作を制御して、空間方向に対する視点方向の画像を切り替えると共に、時間方向に対する再生速度を切り替えて、通信装置23に出力する。
 尚、SW処理部41の構成については、図5を参照して詳細を後述する。
 入力部32は、ユーザが操作コマンドを入力するキーボードや操作ボタンなどの入力デバイスより構成され、入力された各種の信号を制御部31に供給する。
 出力部33は、スピーカ等からなる音声出力部、LCD(Liquid Crystal Display)や有機EL(Organic Electro-Luminescence)等からなる表示部、LED(Light Emitting Diode)等から構成される発光部などから構成され、制御部31により制御されて、各種の処理結果をユーザに提示する。
 記憶部34は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、または、半導体メモリなどからなり、制御部31により制御され、カメラ21より供給される画像を含む各種のデータおよびプログラムを書き込む、または、読み出す。
 通信部35は、制御部31により制御され、図示せぬ各種の装置との間で各種のデータやプログラムを送受信する。また、通信部35は、通信ネットワーク24(図1乃至図3の通信ネットワーク24A乃至24Cに相当)を介して、複数のカメラ21より供給されてくる撮像された画像を取得する。
 ドライブ36は、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory)、DVD(Digital Versatile Disc)を含む)、光磁気ディスク(MD(Mini Disc)を含む)、もしくは半導体メモリなどのリムーバブル記憶媒体37に対してデータを読み書きする。
 SW39は、制御部31のSW処理部41により制御されて、複数のカメラ21により撮像される複数の画像に基づいて予測される被写体の行動に応じて、出力すべき空間方向に対応する視点方向の画像を切り替えると共に、時間方向(再生速度)に対する処理を切り替えて(時空間方向に対する処理を切り替えて)、通信装置23に出力する。
 <SW処理部の機能>
 次に、図5の機能ブロック図を参照して、SW処理部41により実現される機能について説明する。
 SW処理部41は、リアルタイム情報解析部51、カメラワーク推定部52、カメラワーク決定部53、自由視点画像生成部54、エフェクト処理部55、およびSW制御部56、並びに、ストレージ131、過去データ記憶部132、カメラ情報記憶部133、およびリプレイ画像記憶部134を備えている。
 ここで、ストレージ131、過去データ記憶部132、カメラ情報記憶部133、およびリプレイ画像記憶部134は、いずれも図4の記憶部34、およびリムーバブル記憶媒体37の少なくともいずれかの領域に設定される。
 ストレージ131は、複数のカメラ21-1乃至21-nにより様々な視点方向で撮像される画像を記憶する。
 また、カメラ21-1乃至21-nには、それぞれ音声を録音するためのマイク(マイクロフォン)121-1乃至121-nが設けられており、カメラ21-1乃至21-nのそれぞれにより撮像される画像と対応付けてストレージ131に記憶される。
 尚、マイク121は、カメラ21とは別体とされてもよく、例えば、サッカーや野球などのスポーツを撮像する場合については、選手一人一人に設けられるようにしてもよいし、音楽ライブを撮像する場合については、アーティスト一人一人や楽器一つ一つに設けられるようにしてもよい。ただし、本実施の形態においては、マイク121が、それぞれカメラ21に対応付けて設けられている例について説明する。
 リアルタイム情報解析部51は、ストレージ131に格納された各画像を解析して、解析結果としてのリアルタイム情報をカメラワーク推定部52に出力する。
 リアルタイム情報は、画像を解析することで得られる情報であり、画像内の人物の位置情報および姿勢情報、人物識別情報、動体位置情報、イベント情報、およびイベント領域情報を含む。
 人物の位置情報および姿勢情報とは、撮像された画像内における人物からなる被写体の空間的な位置情報および姿勢情報である。
 人物識別情報とは、画像内の被写体としての人物を識別する情報であり、例えば、どの被写体の人物がどの選手であるのか、または、どのアーティストであるのかなどを識別する情報である。
 リアルタイム情報解析部51は、被写体となる人物の情報として、例えば、サッカーや野球の試合を撮像する際には各選手名やプロフィールの情報や音楽ライブを撮像する際にはアーティスト名の情報等を含む、リアルタイムメタ情報を予め取得しており、画像を解析することで、リアルタイムメタ情報に基づいて、どの被写体がどの選手であり、どの被写体がどのアーティストであるのかを識別し、人物識別情報を生成する。
 動体位置情報とは、スポーツで使用されるボールなどの競技で使用される道具類の位置や、アーティストが使用する楽器の位置の情報である。
 イベント情報とは、画像から撮像されているイベントがどのようなイベントであるのかを示す情報、および、イベントの盛り上がり具合などを示す情報である。
 例えば、サッカーの試合を撮像する場合、選手がボールに対して特定の位置関係で、特定の姿勢をとることで、シュートを打つといったイベントが発生することが認識される。
 さらに、そのシュートにより得点がなされることにより、例えば、試合が逆転するような場合には、さらに、逆転というイベントが発生したことが認識される。
 また、野球の試合を撮像する場合、投手である選手が所定の姿勢でボールを振りかぶって投げるとき、ピッチングがなされたというイベントが発生したことが認識される。
 さらに、野球の試合を撮像する場合、打者が所定の姿勢でバットを振って、ボールを打つことで、打撃がなされたといイベントが発生したことが認識される。
 また、この打撃により逆転がなされるようなときには、逆転というイベントが発生されたことが認識される。
 イベント領域情報とは、撮像されている画像内におけるどの領域においてイベントが発生しているのかを示す情報である。
 尚、リアルタイム情報解析部51の詳細な構成については、図6を参照して、詳細を後述する。
 カメラワーク推定部52は、過去データ記憶部132に過去のリアルタイム情報と対応付けて記憶されている行動履歴、カメラ情報記憶部133に記憶されているカメラ21のそれぞれの位置、姿勢、および種類などの情報、および、現状におけるリアルタイム情報に基づいて、複数のカメラ21により撮像された画像のカメラワークを推定する。
 ここでいうカメラワークとは、図1乃至図3を参照して説明したように、複数のカメラ21により撮像された画像のうち、重要度の高いシーンを見易い視点方向から見易い再生速度で出力するカメラワークである。
 より具体的には、カメラワークには、イベントが発生した状況を見易い視点方向からの画像に切り替えて出力する処理に加えて、複数のカメラ21により撮像された画像に基づいて、発生したイベントを視聴し易い視点方向からの画像として撮像するカメラ21が存在しない場合については、現実の複数のカメラ21により撮像された画像から、発生したイベントを視聴し易い視点方向からの画像を自由視点画像として補間生成して出力する空間方向カメラワークを含む。
 また、カメラワークには、例えば、再生速度に変化を与える時間方向カメラワークも含まれており、サッカーなどの試合などで重要度の高いイベントとして、例えば、シュートが打たれるときなどについては、詳細に視聴できるように、通常再生速度より低速で再生されるような処理が含まれる。
 また、時間方向カメラワークには、野球などにおける重要度の高いイベントとして、打者がバットでボールを打撃するときなどについては、詳細に視聴できるように、通常再生速度より低速で再生させるような処理が含まれる。
 すなわち、カメラワークについては、視点方向の異なる自由視点画像を生成することで複数のカメラ21により撮像された画像に対して空間方向に対する処理を切り替える空間方向カメラワークと、再生速度を変化させることで時間方向に対する処理を切り替える時間方向カメラワークとが含まれる。
 また、図1乃至図3の実施例においては、ユーザが放送局であることを前提としているため、カメラワーク推定部52は、予めユーザとなる放送局向けユーザの意向を反映させる設定情報を、放送局向けユーザ設定として取得しており、カメラワークの推定に反映させる。
 より具体的には、放送局向けユーザ情報として、例えば、放送局のスポンサーの広告を重要視することが設定されるような場合、カメラワーク推定部52は、カメラワークを推定するにあたって、サッカーなどの試合でシュートを打つようなイベントが発生するときにシュートシーンを撮像する視点方向の画像を選択する際、スポンサーの広告が描かれた壁や看板が映りやすい視点方向の画像が出力されるようなカメラワークを推定するようにしてもよい。
 また、放送局向けユーザ情報として、例えば、放送局の視聴者アンケートによる視聴者の要望が高いアングル(視点方向)が設定されるような場合、カメラワーク推定部52は、カメラワークを推定するにあたって、視聴者アンケートにより最も要望が高いアングル(視点方向)の画像が出力されるようなカメラワークを推定するようにしてもよい。
 カメラワーク推定部52は、視点方向や再生速度が異なる複数のカメラワークをカメラワーク候補として推定してカメラワーク決定部53に出力する。
 また、カメラワーク推定部52は、リアルタイム情報に基づいて、試合が中断している状態や、野球などで攻撃と守備の入れ替えているような状態であることが認識できるときには、カメラワークの1つとしてリプレイ画像を表示することをカメラワーク候補として出力する。
 カメラワーク決定部53は、推定された複数のカメラワークの候補のうちから、いずれか最適なカメラワークを決定し、決定したカメラワークの情報を自由視点画像生成部54、エフェクト処理部55、およびSW制御部56に出力する。
 より具体的には、カメラワーク決定部53は、候補となるカメラワークのそれぞれにより生成される画像に基づいて、例えば、シュートシーンなどにおいては、シュートを打っている選手の顔が最も大きく映るカメラワークを最適なカメラワークとしてもよいし、放送局向けユーザ情報としてスポンサーを重視するような設定があるときには、最もスポンサーの広告となる壁や看板などが映り込む画像が生成されるようなカメラワークに決定するようにしてもよい。
 また、カメラワーク決定部53は、リプレイ画像の表示が指示されるようなカメラワークが含まれる場合、例えば、試合中に競技が中断していることが画像から認識されるタイミングにおいては、リプレイ画像を表示させるようなカメラワークに決定するようにしてもよい。
 さらに、カメラワーク決定部53は、ユーザ入力として入力されたカメラワークを決定したカメラワークの情報として出力することもできる。
 自由視点画像生成部54は、カメラワーク決定部53により決定されたカメラワークの情報に基づいて、ストレージ131に格納された複数のカメラ21により撮像された画像に基づいて自由視点画像を生成してエフェクト処理部55に出力する。
 より詳細には、自由視点画像生成部54は、決定されたカメラワーク(空間方向カメラワーク)の情報に基づいて、視点方向が、カメラ21のいずれかの視点方向に対応するときには、ストレージ131に格納された画像のうち、視点方向が対応するカメラ21により撮像される画像を読み出して使用する。
 また、自由視点画像生成部54は、決定されたカメラワーク(空間方向カメラワーク)の情報に基づいて、視点方向がカメラ21のいずれにも対応しないときには、近傍の視点方向のカメラ21により撮像される画像を用いて自由視点画像を補間生成することで、対応する視点方向の画像を生成して使用する。
 さらに、自由視点画像生成部54は、決定されたカメラワーク(時間方向カメラワーク)の情報に基づいて、時間方向に対する処理が指示されているとき、対応する再生速度になるように、時間方向に対する処理を施す。
 すなわち、自由視点画像生成部54は、再生速度を通常再生速度より低速で再生させるようにカメラワーク(時間方向カメラワーク)として指示されている場合、視点方向に対応付けてストレージ131より読み出された画像、または、自由視点画像として補間生成された画像のいずれかに対して、再生速度を通常再生速度より低速で再生させるような処理を施す。
 エフェクト処理部55は、放送局向けユーザ設定に基づいて、生成された自由視点画像に対して所定のエフェクト処理を施して、SW39、およびリプレイ画像記憶部134に出力する。
 ここで、エフェクト処理とは、放送局向けユーザ設定に基づいたものであり、例えば、シュートシーンなどの場合については、シュートを打っている選手以外はボケた状態で表示されるようにして、シュートを打つ選手のみが良く認識できるようなエフェクトでもよいし、放送局のスポンサー以外のスポンサー広告が映し出される領域については、ボケた状態で表示されるようにエフェクトされるようにしてもよい。
 また、エフェクト処理として、シュートシーンや打撃シーンで、派手な演出が加えられるようにしてもよい。
 さらに、エフェクト処理として、サッカーなどでは、ボール支配率などが視認できるように可視化して表示するようにしてもよく、例えば、チームのエリアが色分けして表示されるような処理が施されるようにしてもよい。
 尚、カメラワーク決定部53により決定されたカメラワークとして、カメラ21のいずれかにより撮像された画像に対してエフェクト処理を施すだけの場合、自由視点画像生成部54は、対応する画像をストレージ131より読み出して、自由視点画像を生成することなく、そのままエフェクト処理部55に出力するようにしてもよい。この場合、エフェクト処理部55は、カメラ21のいずれかの画像に対してエフェクト処理のみを施しを出力する。
 また、決定されたカメラワークにおいて、カメラ21のいずれかにより撮像された画像が読み出されるだけで、エフェクト処理について指示がない場合については、自由視点画像生成部54は、ストレージ131に蓄積された画像のうち、所望とする画像を読み出して、そのままエフェクト処理部55に供給するようにしてもよい。
 さらに、エフェクト処理部55においても、何のエフェクト処理がなされることなく出力されるようにしてもよい。
 つまり、この場合、単に、ストレージ131に蓄積された画像がSW39およびリプレイ画像記憶部134に供給される。
 SW制御部56は、カメラワーク決定部53より供給されるカメラワークの情報に基づいて、SW39の動作を制御して、エフェクト処理部55を介して、自由視点画像生成部54より供給される、ストレージ131に格納されている複数のカメラ21のいずれかにより撮像された画像、補間生成された自由視点画像、エフェクト処理部55により何らかのエフェクト処理が施された画像、または、リプレイ画像記憶部134に記憶された画像のいずれかを切り替えて出力する。
 <リアルタイム情報解析部の構成例>
 次に、図6のブロック図を参照して、リアルタイム情報解析部51の構成例について説明する。
 リアルタイム情報解析部51は、人物モデル推定部151、人物識別部152、動体位置検出部153、イベント解析部154、イベント領域検出部155、および情報統合部156を備えている。
 人物モデル推定部151は、ストレージ131に蓄積されている複数のカメラ21の画像に基づいて、自由視点画像に基づいた人物モデルを構成し、行動を予測するために必要な、人物モデルの位置情報、および姿勢情報を推定する。
 より詳細には、人物モデル推定部151は、自由視点画像モデル生成部171、姿勢推定部172、およびモデル結合部173を備えている。
 自由視点画像モデル生成部171は、ストレージ131に蓄積されている複数のカメラ21により撮像された複数の視点方向の画像より、人物の行動を予測する上で必要な人物の位置情報を含む自由視点画像モデルを生成して結合部173に出力する。
 姿勢推定部172は、ストレージ131に蓄積されている複数のカメラ21の画像に基づいて、人物の行動を予測する上で必要な人物の姿勢情報を含む人物モデルを生成して結合部173に出力する。
 結合部173は、人物の行動を予測する上で必要とされる人物モデルと自由視点画像モデルとを結合して情報統合部156に出力する。
 人物識別部152は、事前に供給される選手やアーティストの情報などからなるリアルタイムメタ情報に基づいて、ストレージ131に蓄積されている複数のカメラ21の画像内における人物が誰であるのかを識別する情報を、画像内の人物ごとに付与し、人物識別情報として、情報統合部156に出力する。
 動体位置検出部153は、ストレージ131に蓄積されている複数のカメラ21の画像に基づいて、人物以外の動体となる物体の位置情報を検出して、情報統合部156に出力する。
 ここでいう人物以外の動体となる物体とは、例えば、サッカーや野球の試合を撮像する際におけるボールなどであり、音楽ライブなどにおけるアーティストが使用する楽器などである。
 すなわち、動体位置検出部153は、例えば、サッカーや野球の試合を撮像する際においては、ボールの位置を動体の位置情報として検出し、音楽ライブを撮像する際においては、楽器の位置を動体の位置情報として検出し、情報統合部156に出力する。
 イベント解析部154は、ストレージ131に蓄積されている複数のカメラ21の画像に基づいて、撮像されているイベントを解析し、イベントの種別や、盛り上がり度合いなどからなるイベント情報を求めて情報統合部156に出力する。
 この際、イベント解析部154は、イベントを解析するにあたって、ストレージ131に蓄積されている複数のカメラ21の画像に加えて、必要に応じて、人物モデル推定部151により推定された人物の位置情報、および姿勢情報、人物識別部152により生成された人物識別情報、並びに動体位置検出部153により検出された動体位置情報を用いてイベントを解析する。
 イベント領域検出部155は、ストレージ131に蓄積されている複数のカメラ21の画像に基づいて、画像内におけるイベントが発生している領域を検出し、情報統合部156に出力する。
 イベントが発生している画像内における領域とは、例えば、サッカーの試合などでシュートを打つシーンの場合、シュートを打つというイベントが、画像内のどの領域で発生しているのかを検出するものである。
 情報統合部156は、人物モデル推定部151より供給される人物の位置情報および姿勢情報、人物識別部152の人物識別情報、動体位置検出部153より供給される動体位置情報、イベント解析部154のイベント情報、およびイベント領域検出部155からのイベントの発生している領域を示すイベント領域情報を統合して、リアルタイム情報としてカメラワーク推定部52に出力する。
 <カメラワーク推定部の構成例>
 次に、図7のブロック図を参照して、カメラワーク推定部52の構成例について説明する。
 カメラワーク推定部52は、行動予測部201およびカメラワーク生成部202とを備えている。
 行動予測部201は、リアルタイム情報解析部51より供給されるリアルタイム情報に基づいて、ストレージ131に蓄積されている複数のカメラ21の画像内の被写体となる人物の行動を予測する。
 より詳細には、行動予測部201は、行動推定部221、信頼度計算部222、および行動予測決定部223を備えている。
 行動推定部221は、ディープラーニングなどの機械学習により生成された行動推定学習モデルに対して、リアルタイム情報解析部51より供給されるリアルタイム情報を適用することにより、カメラ21により撮像された画像内の人物の行動を推定し、信頼度計算部222、および行動予測決定部に出力する。ここで、行動推定学習モデルは、例えば、過去データ記憶部132に過去のリアルタイム情報と対応付けて記憶されている行動履歴の情報に基づいて生成され、過去データ記憶部132に記憶されている。なお、推定される行動は1つに限らず、複数であって良い。また、行動推定部221は、例えば、過去データ記憶部132に過去のリアルタイム情報のパターンと対応付けて記憶されている行動履歴のパターンに基づいて、リアルタイム情報解析部51より供給されるリアルタイム情報がいずれのパターンに属するかを判定し、対応する行動履歴のパターンに基づき、カメラ21により撮像された画像内の人物の行動を推定しても良い。
 信頼度計算部222は、リアルタイム情報と、過去データ記憶部132に過去のリアルタイム情報と対応付けて記憶されている行動履歴とから、推定された行動のそれぞれについて、信頼度を計算し、計算結果を行動予測決定部223に出力する。
 行動予測決定部223は、行動推定部221より供給される推定された行動と、信頼度計算部222により計算される推定された行動のそれぞれに対応する信頼度とに基づいて、所定の信頼度よりも高い信頼度で推定された行動を予測行動として決定し、カメラワーク生成部202に出力する。
 このように、複数に推定された行動から、信頼度が所定値よりも高いものが予測行動として選ばれることになるので、例えば、サッカー選手がボールをドリブルするようなシーンにおいて、フェイントを掛ける行動と、フェイントを掛けない行動とをそれぞれ信頼度と共に予測することが可能となる。
 カメラワーク生成部202は、行動予測部201より供給される予測行動と、カメラ情報記憶部133に記憶されているカメラ21の個別の位置、撮像方向、およびカメラの種別の情報に基づいてカメラワークを生成する。なお、カメラワーク生成部2020は、さらにリアルタイム情報解析部51より供給されるリアルタイム情報に基づいてカメラワークを生成しても良い。
 より詳細には、カメラワーク生成部202は、空間方向カメラワーク生成部241、時間方向カメラワーク生成部242、音声切替情報生成部243、および統合部244を備えている。
 空間方向カメラワーク生成部241は、ディープラーニングなどの機械学習により生成された空間方向カメラワーク学習モデルに対して、行動予測部201より供給される予測行動の情報を適用し、カメラ情報記憶部133に記憶されているカメラ21の個別の位置、撮像方向、およびカメラの種別の情報、並びに、放送局向けユーザ設定に基づいて、いずれの視点方向のカメラ21により撮像されている画像を順次選択するかを空間方向カメラワークとして生成する。ここで、空間方向カメラワーク学習モデルは、例えば、過去データ記憶部132に過去の予測行動の情報と対応付けて記憶されている空間方向カメラワークに基づいて生成され、過去データ記憶部132に記憶されている。なお、過去の予測行動の情報と対応付けて記憶されているカメラワークとしては、例えば過去のカメラマンによる撮影時のカメラワークを情報として記憶させるものであっても良い。
 なお、空間方向カメラワーク生成部241は、過去データ記憶部132に過去の予測行動の情報及び過去のリアルタイム情報と対応付けて記憶されている空間方向カメラワークに基づいて生成され、過去データ記憶部132に記憶されている空間方向カメラワーク学習モデルに対して、行動予測部201より供給される予測行動の情報と、リアルタイム情報解析部51より供給されるリアルタイム情報とを適用することで、空間方向カメラワークを生成しても良い。
 また、空間方向カメラワーク生成部241は、例えば、過去データ記憶部132に過去の予測行動のパターンと対応付けて記憶されている空間方向カメラワークのパターンに基づき、行動予測部201より供給される予測行動がいずれのパターンに属するかを判定し、対応する空間方向カメラワークのパターンに基づき空間方向カメラワークを生成しても良い。
 また、空間方向カメラワーク生成部241は、例えば、特定の選手がパスを出すときには、パスを受ける選手が撮像されているカメラ21の画像が選択されるようにすることで、視点方向を先回りするように切り替えるような空間方向カメラワークを生成する。さらに、空間方向カメラワーク生成部241は、例えば、投手が投球するときには、捕球するキャッチャの目線の画像が撮像されているカメラ21が選択されるようにすることで、視点方向を先回りするように切り替えるような空間方向カメラワークを生成する。
 また、放送局向けユーザ設定などに、スポンサー広告が含まれるアングルを優先するような設定がある場合については、空間方向カメラワーク生成部241は、スポンサー広告となる壁や看板が含まれるアングルの視点方向の画像を出力するような空間方向カメラワークを生成する。
 ここで生成される空間方向カメラワークは、最終的に選択されるカメラワークの候補であるので、複数の空間方向カメラワークが生成されてもよい。
 時間方向カメラワーク生成部242は、ディープラーニングなどの機械学習により生成された時間方向カメラワーク学習モデルに対して、行動予測部201より供給される予測行動の情報を適用し、カメラ情報記憶部133に記憶されているカメラ21の個別の位置、撮像方向、およびカメラの種別の情報、並びに、放送局向けユーザ設定に基づいて、再生速度に対する所定の処理を時間方向カメラワークとして生成する。ここで、時間方向カメラワーク学習モデルは、例えば、過去データ記憶部132に過去の予測行動の情報と対応付けて記憶されている時間方向カメラワークに基づいて生成され、過去データ記憶部132に記憶されている。なお、過去の予測行動の情報と対応付けて記憶されている時間方向カメラワークとしては、例えば過去の編集オペレータによる再生速度に関する編集時の情報として記憶させるものであっても良い。
 なお、時間方向カメラワーク生成部242は、過去データ記憶部132に過去の予測行動の情報及び過去のリアルタイム情報と対応付けて記憶されている時間方向カメラワークに基づいて生成され、過去データ記憶部132に記憶されている時間方向カメラワーク学習モデルに対して、行動予測部201より供給される予測行動の情報と、リアルタイム情報解析部51より供給されるリアルタイム情報とを適用することで、時間方向カメラワークを生成しても良い。
 また、時間方向カメラワーク生成部242は、例えば、過去データ記憶部132に過去の予測行動のパターンと対応付けて記憶されている時間方向カメラワークのパターンに基づき、行動予測部201より供給される予測行動がいずれのパターンに属するかを判定し、対応する時間方向カメラワークのパターンに基づき時間方向カメラワークを生成しても良い。
 すなわち、時間方向カメラワーク生成部242は、シュートを打つ瞬間や打者の打撃の瞬間、フェイントが決まった瞬間、ディフェンスを抜いた瞬間などについては、再生速度を通常の再生速度よりも低速再生にするといった時間方向の処理を施すカメラワークを時間方向カメラワークとして生成し、詳細に視聴できるようにする。
 また、時間方向カメラワーク生成部242は、空間方向カメラワークにより、視点方向を切り替えて表示させる際、カメラ21で撮像されたオリジナルの視点方向の画像については、破綻が少ないので、再生速度を通常再生速度よりも低速再生でゆっくりと表示するように時間方向の処理を施すカメラワークを時間方向カメラワークとして生成する。
 一方、カメラ21のオリジナルの視点方向の画像が存在せず、近傍の視点方向の画像より、自由視点画像として補間生成された画像については、破綻が生じ易いので、時間方向カメラワーク生成部242は、再生速度を通常再生速度よりも高速で表示させるようにするといった時間方向の処理を施すカメラワークを時間方向カメラワークとして生成し、歪が目立たないようにする。
 尚、時間方向カメラワークについては、必須ではなく、予測行動の種別やリアルタイム情報によっては、時間方向カメラワークの処理がなされないままでもよい。
 音声切替情報生成部243は、空間方向カメラワークおよび時間方向カメラワークに対応して、マイク121により収音された音声を切り替える情報を音声切替情報として生成し、統合部244に出力する。
 すなわち、音声切替情報生成部243は、例えば、視点方向に対応するカメラ21と対応付けて設けられているマイク121の音声をカメラワークと対応付けるように音声切替情報を生成するようにしてもよい。
 また、例えば、選手やアーティスト一人一人にマイク121が設置されているような場合、音声切替情報生成部243は、空間方向カメラワーク、および時間方向のカメラワークにより表示される画像内に、選手やアーティストがただ一人であるようなときには、その選手やアーティストの音声のみを抽出するようなカメラワークに対応した音声を切り替えて出力する音声切替情報を生成するようにしてもよい。
 統合部244は、空間方向カメラワーク、時間方向カメラワーク、および音声切替情報を対応付けて統合した情報をカメラワーク候補としてカメラワーク決定部53に出力する。
 以上のような構成により、カメラワーク候補は、空間方向カメラワーク、および時間方向カメラワーク、並びに、空間方向カメラワーク、および時間方向カメラワーク対応する音声切替情報が統合された情報として生成される。
 なお、ここでは、空間方向カメラワーク生成部241、時間方向カメラワーク生成部242を別の構成として説明したが、1つのカメラワーク生成部(図示せず)が、時空間方向カメラワークを生成しても良い。この場合、カメラワーク生成部(図示せず)は、例えば、ディープラーニングなどの機械学習により生成された時空間方向カメラワーク学習モデルに対して、行動予測部201より供給される予測行動の情報と、リアルタイム情報解析部51より供給されるリアルタイム情報とを適用することで、時間方向カメラワークを生成しても良い。ここで、時空間方向カメラワーク学習モデルは、例えば、過去データ記憶部132に過去の予測行動の情報及び過去のリアルタイム情報と対応付けて記憶されている空間方向カメラワーク及び時間方向カメラワークに基づいて生成され、過去データ記憶部132に記憶されている。
 <図5のSW処理部によるSW処理>
 次に、図8のフローチャートを参照して、図5のSW処理部41によるSW処理について説明する。
 ステップS11において、SW装置22の制御部31により機能するSW処理部41が、カメラ21-1乃至21-nにより撮像される画像を取得する。
 ステップS12において、SW処理部41は、取得した各カメラ21より供給される画像をストレージ131に蓄積する。
 ステップS13において、リアルタイム情報解析部51は、リアルタイム情報解析処理を実行することで、ストレージ131に蓄積された各カメラ21の画像を解析し、リアルタイム情報を抽出して、カメラワーク推定部52に供給する。
 尚、リアルタイム情報解析処理については、図9のフローチャートを参照して、詳細を後述する。
 ステップS14において、カメラワーク推定部52は、リアルタイム情報、過去データ、カメラ情報、および放送局向けユーザ設定に基づいて、カメラワーク推定処理を実行して、複数のカメラ21により撮像された画像より被写体となる人物の行動を予測し、予測された行動に応じた、複数のカメラワーク候補を推定してカメラワーク決定部53に供給する。
 尚、カメラワーク推定処理については、図10のフローチャートを参照して、詳細を後述する。
 ステップS15において、カメラワーク決定部53は、カメラワーク候補からカメラワークを決定し、自由視点画像生成部54、エフェクト処理部55、およびSW制御部56に供給する。
 ここで決定されるカメラワークは、目的とされる視点方向(カメラアングル)に対応するカメラ21のいずれかにより撮像された画像、カメラ21により撮像された画像に基づいて補間生成される自由視点画像、または、リプレイ画像のいずれかを特定する空間方向カメラワークと、再生速度の調整に係る時間方向カメラワークとを含む情報である。
 ステップS16において、自由視点画像生成部54は、カメラワーク決定部53により決定されたカメラワークに基づいて、ストレージ131により蓄積された各カメラ21により撮像された画像に基づいて自由視点画像を生成し、エフェクト処理部55に出力する。
 より詳細には、自由視点画像生成部54は、カメラワーク決定部53により決定されたカメラワークのうちの、空間方向カメラワークに基づいて、特定された視点方向の画像を、ストレージ131により蓄積された各カメラ21により撮像された画像に基づいて自由視点画像を生成する。
 さらに、自由視点画像生成部54は、空間方向カメラワークに基づいて生成された自由視点画像に対して、カメラワークのうちの、時間方向カメラワークに基づいて、再生速度を調整する処理を施して、エフェクト処理部55に出力する。
 従って、例えば、低速再生させるような場合については、自由視点画像生成部54は、空間方向カメラワークに基づいて生成された自由視点画像に対して、通常再生速度よりも低速再生するような処理を施してエフェクト処理部55に出力する。
 ステップS17において、エフェクト処理部55は、放送局向けユーザ設定に基づいて、自由視点画像生成部54により生成された自由視点画像にエフェクトを施してリプレイ画像記憶部134、およびSW39に出力する。
 ステップS18において、リプレイ画像記憶部134は、エフェクト処理部55より供給されてくるエフェクト処理が施された画像をリプレイ画像として記憶する。
 ステップS19において、SW制御部56は、カメラワーク決定部53により決定されたカメラワークに基づいて、SW39を制御して、画像を出力する。
 すなわち、SW制御部56は、カメラワーク決定部53により決定されたカメラワークの情報に基づいて、空間方向カメラワークおよび時間方向カメラワークに基づいた処理がなされた、カメラ21のいずれかにより撮像された画像、カメラ21により撮像された画像に基づいて補間生成される自由視点画像、または、リプレイ画像記憶部134に記憶されているリプレイ画像のいずれかを選択して出力する。
 以上の処理により、複数のカメラ21により撮像された画像より被写体となる人物の行動が予測され、予測された行動に応じたカメラワークを実現することが可能となる。
 <リアルタイム情報解析処理>
 次に、図9のフローチャートを参照して、リアルタイム情報解析処理について説明する。
 ステップS41において、人物モデル推定部151の自由視点画像モデル生成部171は、ストレージ131に蓄積されている複数のカメラ21の画像に基づいて、人物の行動を予測する上で必要な人物の位置情報を含む自由視点画像モデルを生成して結合部173に出力する。
 ステップS42において、人物モデル推定部151の姿勢推定部172は、ストレージ131に蓄積されている複数のカメラ21の画像に基づいて、人物の行動を予測する上で必要な人物の姿勢情報を含む人物モデルを生成して結合部173に出力する。
 ステップS43において、結合部173は、自由視点画像モデル生成部171より供給される人物モデルに基づいて求められた位置情報と、姿勢推定部172より供給される人物の姿勢情報とを結合して、情報統合部156に出力する。
 ステップS44において、人物識別部152は、ストレージ131に蓄積されている複数のカメラ21の画像と、リアルタイムメタ情報とに基づいて、画像内における人物を識別し、人物識別情報を生成して情報統合部156に出力する。
 ステップS45において、動体位置検出部153は、ストレージ131に蓄積されている複数のカメラ21の画像に基づいて、画像内における、例えば、ボール、バット、および楽器などの動体の位置を検出し、動体位置情報として情報統合部156に出力する。
 ステップS46において、イベント解析部154は、ストレージ131に蓄積されている複数のカメラ21の画像に基づいて、画像内の情報を解析することで、発生しているイベントを解析し、解析結果となるイベント情報をイベント領域検出部155および情報統合部156に出力する。
 この際、イベント解析部154は、ストレージ131に蓄積されている複数のカメラ21の画像に加えて、必要に応じて、人物モデル推定部151により推定された人物の位置情報、および姿勢情報、人物識別部152により生成された人物識別情報、並びに動体位置検出部153により検出された動体位置情報を用いてイベントを解析し、イベント情報を求める。
 ステップS47において、イベント領域検出部155は、ストレージ131に蓄積されている複数のカメラ21の画像と、イベント解析部154より供給されるイベント情報とに基づいて、画像内におけるイベントが発生している領域を検出し、イベント領域情報として情報統合部156に出力する。
 ステップS48において、情報統合部156は、画像内における人物の位置情報および姿勢情報、動体位置情報、人物識別情報、イベント情報、およびイベント領域情報を統合してリアルタイム情報としてカメラワーク推定部52に出力する。
 以上の処理により、複数のカメラ21により撮像された画像に基づいて、画像内における人物の位置情報および姿勢情報、動体位置情報、人物識別情報、イベント情報、およびイベント領域情報からなるリアルタイム情報が生成されてカメラワーク推定部52に供給することが可能となる。
 <カメラワーク推定処理>
 次に、図10のフローチャートを参照して、図7のカメラワーク推定部52によりカメラワーク推定処理について説明する。
 ステップS61において、行動推定部221は、リアルタイム情報解析部51より供給されるリアルタイム情報、および、過去データ記憶部132に過去のリアルタイム情報と対応付けて記憶されている行動履歴に基づいて、例えば、ディープラーニングなどにより人物の行動を推定し、推定結果を信頼度計算部222、および行動予測決定部223に出力する。
 この際、行動推定部221は、複数の行動を推定する場合もあり、そのような場合は、複数の推定結果を信頼度計算部222、および行動予測決定部223に出力する。
 ステップS62において、信頼度計算部222は、行動推定部221により供給された推定結果となる行動のそれぞれについて信頼度を計算し、計算結果を行動予測決定部223に出力する。
 ステップS63において、行動予測決定部223は、信頼度計算部222により計算された信頼度に基づいて、信頼度が所定値よりも高い推定結果となる行動を予測行動に決定し、決定した予測行動の情報をカメラワーク生成部202に出力する。すなわち、ここでは、信頼度が所定値よりも高い推定結果となる行動は、全て予測行動に決定されるので、決定される予測行動は、複数であることもある。
 ステップS64において、カメラワーク生成部202の空間方向カメラワーク生成部241は、放送局向けユーザ設定、予測行動の情報、過去データ記憶部132に過去のリアルタイム情報と対応付けて記憶されている行動履歴、およびカメラ情報記憶部133のカメラ情報に基づいて、空間方向カメラワークを生成し、生成した空間方向カメラワークの情報を音声切替情報生成部243および統合部244出力する。
 ステップS65において、時間方向カメラワーク生成部242は、放送局向けユーザ設定、予測行動の情報、過去データ記憶部132に過去のリアルタイム情報と対応付けて記憶されている行動履歴、およびカメラ情報記憶部133のカメラ情報に基づいて、時間方向カメラワークを生成し、生成した時間方向カメラワークの情報を音声切替情報生成部243および統合部244出力する。
 ステップS66において、音声切替情報生成部243は、複数のマイク121により収録された音声を、放送局向けユーザ設定に基づいて、空間方向カメラワーク、および時間方向カメラワークに対応するように切り替えられる音声切替情報を生成し、統合部244に出力する。
 ステップS67において、統合部244は、放送局向けユーザ設定、空間方向カメラワーク、および時間方向カメラワークの情報、および、対応する音声切替情報を統合して、カメラワーク候補の情報としてカメラワーク決定部53に出力する。
 以上の処理により、複数のカメラ21により撮像された画像に基づいて、画像内における人物の予測行動が信頼度と共に求められ、所定の閾値よりも高い信頼度の予測行動に基づいて、空間方向カメラワーク、および時間方向カメラワーク、音声切替情報、および放送局向けユーザ設定に応じたカメラワーク候補を生成することが可能となる。
 この結果、信頼度を含む複数の予測行動と放送局向けユーザ設定に基づいた、空間方向カメラワークおよび時間方向カメラワーク、並びに音声切替情報からなるカメラワーク候補が生成されるので、カメラワーク決定部53は、カメラワーク候補の予測行動の信頼度や放送局向けユーザ設定に応じて、最終的なカメラワークを決定することが可能となる。
 すなわち、予測行動の信頼度を優先にする場合、カメラワーク決定部53は、カメラワーク候補のうち、予測行動の信頼度が最も高い予測行動に基づいたカメラワークに決定するようにしてもよい。また、信頼度が低い場合には、カメラワーク決定部53は、空間方向カメラワークにより視点方向の変化タイミングを遅らせるようにして、フェイントなどによる変化に対応できるようにしてもよい。
 また、放送局向けユーザ設定を優先にする場合、放送局向けユーザ設定として、例えば、視聴者アンケートで最も要望の高いカメラワークを優先するときには、カメラワーク決定部53は、カメラワーク候補のうち、視聴者アンケートで最も要望の高いカメラワークに最も近いカメラワーク候補を、カメラワークとして決定するようにしてもよい。
 カメラワーク候補は、複数のカメラ21により撮像された画像内の人物の予測行動により求められることになるので、人物の行動に応じたカメラワークを実現することが可能となる。
 また、この際、信頼度を優先することで、例えば、サッカーの試合などが撮像される場合、選手のフェイントの有無などを信頼度に基づいて高精度に判別し、適切なカメラワークを実現することが可能となる。これにより、選手のフェイントなどにより、選手を追跡できなくなるようなことを抑制することが可能となる。
 さらに、この際、放送局向けユーザ設定を優先することで、例えば、視聴者アンケートを反映させたカメラワークを実現することも可能となる。
 <<2.第2の実施の形態>>
 以上においては、SW装置22が放送局向けユーザにより利用されて、最終的な画像が放送網を介して配信される例について説明してきた。
 しかしながら、SW装置22の利用は、放送局向けユーザのみならず、例えば、一般の利用者がスマートフォンなどを用いて画像を撮像し、SNS(Social Networking Service)など放送回線網などを利用せず、インターネット経由で画像を配信する、いわゆるOTT(Over The Top)サービスにより利用されるものであってもよい。
 図11は、OTTサービスの利用者を対象としたSW処理部41’の構成例を示している。
 尚、図11のSW処理部41’の構成のうち、図5のSW処理部41と同一の機能を備えた構成については、同一の符号を付しており、その説明は適宜省略する。
 図11のSW処理部41’において、図5のSW処理部41と異なる点は、カメラワーク推定部52、およびエフェクト処理部55に代えて、カメラワーク推定部52’、およびエフェクト処理部55’を設けた点である。
 カメラワーク推定部52’は、基本的な機能において、カメラワーク推定部52と同一の機能であるが、カメラワーク推定処理にあたって、放送局向けユーザ設定に代えて、OTT向けユーザ設定を利用する点で異なる。
 OTT向けユーザ設定は、画像を撮像し配信しようとするユーザ個人が設定することが可能なユーザ設定であるので、ユーザの個人の嗜好をそのまま設定することが可能である。
 したがって、例えば、サッカーや野球の試合を撮像する場合、ユーザの好みの選手を設定することで、好みの選手が撮像された画像を主体としたカメラワークが推定されるようにしてもよい。
 また、音楽ライブを撮像するような場合、ユーザの好みのアーティストを設定することで、好みのアーティストが撮像された画像を主体としてカメラワークが推定されるようにしてもよい。
 さらに、エフェクト処理部55’は、基本的な機能は、エフェクト処理部55と同一であるが、放送局向けユーザ設定に代えて、OTT向けユーザ設定が反映されるようなエフェクトを施す。
 したがって、例えば、OTT向けユーザ設定により、設定された選手やアーティストが主体となるイベントとして認識されるゴールシーンやソロ演奏などのシーンでは、特にユーザが好みとなるような演出が施されるようにエフェクト処理がなされるようにしてもよい。
 <図11のカメラワーク推定部の構成例>
 次に、図12のブロック図を参照して、図11のカメラワーク推定部52’の構成例について説明する。
 尚、図12のカメラワーク推定部52’において、図7を参照して説明したカメラワーク推定部52と同様の機能を備えた構成については、同一の符号を付しており、その説明は適宜省略する。
 すなわち、図12のカメラワーク推定部52’において、図7のカメラワーク推定部52と異なるのは、カメラワーク生成部202に代えて、カメラワーク生成部202’が設けられている点である。
 カメラワーク生成部202’は、基本的な機能はカメラワーク生成部202と同様であるが、図7のカメラワーク生成部202の空間方向カメラワーク生成部241、時間方向カメラワーク生成部242、および音声切替情報生成部243に代えて、空間方向カメラワーク生成部241’、時間方向カメラワーク生成部242’、および音声切替情報生成部243’が設けられた点で異なる。
 空間方向カメラワーク生成部241’は、基本的な機能としては、空間方向カメラワーク生成部241と同一の機能を備えているが、放送局向けユーザ設定に代えて、OTT向けユーザ設定に基づいて、空間方向カメラワークを生成する点で異なる。
 また、OTT向けユーザ設定などに、好みの選手の画像を優先するような設定がある場合については、空間方向カメラワーク生成部241’は、好みの選手が含まれるアングルの視点方向の画像を出力するような空間方向カメラワークを生成するようにしてもよい。
 時間方向カメラワーク生成部242’は、基本的な機能としては、時間方向カメラワーク生成部242と同一の機能を備えているが、放送局向けユーザ設定に代えて、OTT向けユーザ設定に基づいて、時間方向カメラワークを生成する点で異なる。
 すなわち、OTT向けユーザ設定などに、好みの選手の画像を優先するような設定がある場合については、時間方向カメラワーク生成部242’は、シュートを打つ瞬間や打者の打撃の瞬間などについては、自らが好みの選手が主体となる動作であるときには、再生速度を低速再生にするといったカメラワークを生成するようにしてもよい。
 音声切替情報生成部243’は、基本的な機能としては、音声切替情報生成部243と同一の機能を備えているが、放送局向けユーザ設定に代えて、OTT向けユーザ設定に基づいて、マイク121により収音された音声を切り替えて、生成されたカメラワークに付与し、統合部244に出力する点で異なる。
 例えば、OTT向けユーザ設定などに、好みの選手の画像を優先するような設定がある場合については、音声切替情報生成部243’は、好みの選手の音声が切り替えて出力されるようにしてもよい。
 <図11のSW処理部によるSW処理>
 次に、図13のフローチャートを参照して、図11のSW処理部によるSW処理について説明する。
 尚、図13のフローチャートにおけるステップS111乃至S117、およびステップS119,S120の処理については、図8のフローチャートにおけるステップS11乃至S17、およびステップS19,S20の処理と同様であるので、説明は省略する。
 ステップS117において、エフェクト処理部55は、カメラワーク決定部53により決定されたカメラワーク、およびOTT向けユーザ設定に基づいて、自由視点画像生成部54により生成された自由視点画像にエフェクト処理を施してリプレイ画像記憶部134、およびSW39に出力する。
 以上の一連の処理により、OTT向けユーザ設定に応じたエフェクトを生成される画像に対して施すことが可能となる。
 <図12のカメラワーク推定部によるカメラワーク推定処理>
 次に、図14のフローチャートを参照して、図12のカメラワーク推定部52’によるカメラワーク推定処理について説明する。
 尚、図14のフローチャートにおけるステップS161乃至S163,S167の処理については、図10のフローチャートにおけるステップS61乃至S63,S67の処理と同様であるので、その説明は適宜省略する。
 すなわち、ステップS164において、カメラワーク生成部202’の空間方向カメラワーク生成部241’は、OTT向けユーザ設定、予測行動の情報、過去データ記憶部132に過去のリアルタイム情報と対応付けて記憶されている行動履歴、およびカメラ情報記憶部133のカメラ情報に基づいて、空間方向カメラワークを生成し、生成した空間方向カメラワークの情報を音声切替情報生成部243’および統合部244出力する。
 ステップS165において、時間方向カメラワーク生成部242’は、OTT向けユーザ設定、予測行動の情報、過去データ記憶部132に過去のリアルタイム情報と対応付けて記憶されている行動履歴、およびカメラ情報記憶部133のカメラ情報に基づいて、時間方向カメラワークを生成し、音声切替情報生成部243’および統合部244に出力する。
 ステップS166において、音声切替情報生成部243’は、複数のマイク121により収録された音声を、OTT向けユーザ設定に基づいて、空間方向カメラワーク、および時間方向カメラワークに対応するように切り替えられる音声切替情報を生成し、統合部244に出力する。
 以上の処理により、複数のカメラ21により撮像された画像に基づいて、画像内における人物の予測行動が信頼度と共に求められ、所定の閾値よりも高い信頼度の予測行動に基づいて、OTT向けユーザ設定に応じた、空間方向カメラワーク、および時間方向カメラワークからなるカメラワーク候補を生成することが可能となる。
 この結果、信頼度を含む複数の予測行動とOTT向けユーザ設定に基づいて、空間方向カメラワークおよび時間方向カメラワークからなるカメラワーク候補が生成されるので、カメラワーク決定部53は、カメラワーク候補の予測行動の信頼度やOTT向けユーザ設定に応じて、最終的なカメラワークを決定することが可能となる。
 <<3.第3の実施の形態>>
 以上においては、放送局向けユーザに対応したSW処理部41、およびOTT向けユーザに対応したSW処理部41’について説明してきたが、これらを両方備えた構成にしてもよい。
 図15は、放送局向けユーザ、およびOTT向けユーザに対応したSW処理部41’’の構成例が示されている。
 尚、図15のSW処理部41’’において、図5のSW処理部41および図7のSW処理部41’における構成と同一の機能を備えた構成については、同一の符号を付しており、その説明は、省略する。
 また、符号に「-」を付した構成については、「-1」および「-2」により区別しているが、「-」が付されていない符号の構成と、基本的には同一の機能を備えた構成である。
 すなわち、図15のSW処理部41’’においては、放送局向けブロック301、およびOTT向けブロック302が設けられており、さらに、図5のSW処理部41および図7のSW処理部41’におけるストレージ131、およびリアルタイム情報解析部51が、放送局向けブロック301、およびOTT向けブロック302に対して共用されている。
 放送局向けブロック301は、過去データ記憶部132-1、カメラ情報記憶部133-1、およびリプレイ画像記憶部134-1、並びに、カメラワーク推定部52-1、カメラワーク決定部53-1、自由視点画像生成部54-1、エフェクト処理部55-1、SW制御部56-1、およびSW39-1を備えている。
 OTT向けブロック302は、過去データ記憶部132-2、カメラ情報記憶部133-2、およびリプレイ画像記憶部134-2、並びに、カメラワーク推定部52-2、カメラワーク決定部53-2、自由視点画像生成部54-2、エフェクト処理部55-2、SW制御部56-2、およびSW39-2を備えている。
 これらの構成のうち、過去データ記憶部132-1、カメラ情報記憶部133-1、およびリプレイ画像記憶部134-1、並びに、カメラワーク決定部53-1、自由視点画像生成部54-1、SW制御部56-1、およびSW39-1と、過去データ記憶部132-2、カメラ情報記憶部133-2、およびリプレイ画像記憶部134-2、並びに、カメラワーク決定部53-2、自由視点画像生成部54-2、SW制御部56-2、およびSW39-2とは、それぞれ同一の構成である。
 また、カメラワーク推定部52-1、およびエフェクト処理部55-1と、カメラワーク推定部52-2、およびエフェクト処理部55-2とは、基本的な機能は同一であるが、カメラワーク推定部52-1、およびエフェクト処理部55-1が、放送局向けユーザ設定に基づいた処理を実行し、カメラワーク推定部52-2、およびエフェクト処理部55-2が、OTT向けユーザ設定に基づいた処理を実行する点で異なる。
 このような構成により、放送局向けブロック301は、複数のカメラ21により撮像された画像より、被写体となる選手やアーティストの行動を予測して、放送局向けユーザ設定に応じたカメラワークで、放送局向けユーザに対応する、いわゆる放送回線などにより動画を配信することが可能となる。
 また、OTT向けブロック302は、複数のカメラ21により撮像された画像より、被写体となる選手やアーティストの行動を予測して、OTT向けユーザ設定に応じたカメラワークで、OTT向けユーザに対応する、いわゆる放送回線などを用いない、インターネットなどにより動画を配信することが可能となる。
 (応用例)
 以上においては、全ての構成が単一のSW装置22により実現される例について説明してきたが、単一の構成により実現するのみならず、複数の構成で実現するようにしてもよい。
 すなわち、本開示のSW装置22は、例えば、ネットワーク上に構成される複数のコンピュータなどにより実現される信号処理システムやクラウドコンピューティングにより実現されるようにしてもよい。
 また、信号処理システムやクラウドコンピューティングにより実現される場合においては、遅延の発生が生じる恐れがあるが、SW装置22を実現する構成のうち、処理負荷の特に高い一部の構成については、例えば、通信回線として5G通信のような高速通信回線の基地局を用いた、MEC(Multi-access Edge Computing)により実現されるようにしてもよい。
 MECにより実現される、処理負荷の高い構成としては、例えば、リアルタイム情報解析部51などが挙げられるが、その他の構成であってもよい。
 また、SW装置22を実現する全ての構成が、MECにより実現されるようにしてもよい。
 <<4.ソフトウェアにより実行させる例>>
 図16は、汎用のコンピュータの構成例を示している。このパーソナルコンピュータは、CPU(Central Processing Unit)1001を内蔵している。CPU1001にはバス1004を介して、入出力インタフェース1005が接続されている。バス1004には、ROM(Read Only Memory)1002およびRAM(Random Access Memory)1003が接続されている。
 入出力インタフェース1005には、ユーザが操作コマンドを入力するキーボード、マウスなどの入力デバイスよりなる入力部1006、処理操作画面や処理結果の画像を表示デバイスに出力する出力部1007、プログラムや各種データを格納するハードディスクドライブなどよりなる記憶部1008、LAN(Local Area Network)アダプタなどよりなり、インターネットに代表されるネットワークを介した通信処理を実行する通信部1009が接続されている。また、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory)、DVD(Digital Versatile Disc)を含む)、光磁気ディスク(MD(Mini Disc)を含む)、もしくは半導体メモリなどのリムーバブル記憶媒体1011に対してデータを読み書きするドライブ1010が接続されている。
 CPU1001は、ROM1002に記憶されているプログラム、または磁気ディスク、光ディスク、光磁気ディスク、もしくは半導体メモリ等のリムーバブル記憶媒体1011ら読み出されて記憶部1008にインストールされ、記憶部1008からRAM1003にロードされたプログラムに従って各種の処理を実行する。RAM1003にはまた、CPU1001が各種の処理を実行する上において必要なデータなども適宜記憶される。
 以上のように構成されるコンピュータでは、CPU1001が、例えば、記憶部1008に記憶されているプログラムを、入出力インタフェース1005及びバス1004を介して、RAM1003にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU1001)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記憶媒体1011に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブル記憶媒体1011をドライブ1010に装着することにより、入出力インタフェース1005を介して、記憶部1008にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部1009で受信し、記憶部1008にインストールすることができる。その他、プログラムは、ROM1002や記憶部1008に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 尚、図16におけるCPU1001が、図4の制御部31の機能を実現させる。
 また、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
 なお、本開示の実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本開示は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 尚、本開示は、以下のような構成も取ることができる。
<1> 複数の視点方向のカメラにより撮像された画像に基づいて、被写体の行動を予測して、予測行動として出力する行動予測部と、
 前記予測行動に基づいて、前記複数の視点方向のカメラにより撮像された画像より、特定の視点方向である特定視点方向の画像を出力する切替部と
 を含む信号処理装置。
<2> 前記行動予測部は、
  前記被写体の行動を推定行動として推定し、
  前記推定行動について、信頼度を計算し、
  前記信頼度に基づいて、前記推定行動より、前記予測行動を決定する
 <1>に記載の信号処理装置。
<3> 前記行動予測部は、前記推定行動のうち、前記信頼度が所定値よりも高い前記推定行動を前記予測行動に決定する
 <2>に記載の信号処理装置。
<4> 前記複数の視点方向のカメラにより撮像された画像より、リアルタイム情報を検出するリアルタイム情報解析部をさらに含み、
 前記行動予測部は、前記リアルタイム情報に基づいて、前記被写体の予測行動を予測する
 <2>に記載の信号処理装置。
<5> 前記リアルタイム情報は、前記複数の視点方向のカメラにより撮像された画像より、前記画像内における被写体となる人物の位置情報、および姿勢情報、人物識別情報、動体位置情報、並びにイベント情報を含む
 <4>に記載の信号処理装置。
<6> 前記予測行動に基づいて、前記特定視点方向を特定する特定視点方向特定部をさらに含み、
 前記切替部は、前記複数の視点方向のカメラにより撮像された画像に基づいて、前記特定視点方向特定部により特定された、前記特定視点方向の画像を出力する
 <1>乃至<5>のいずれかに記載の信号処理装置。
<7> 前記切替部は、前記複数の視点方向のカメラにより撮像された画像のうち、前記特定視点方向の画像を選択して出力する
 <6>に記載の信号処理装置。
<8> 前記複数の視点方向のカメラにより撮像された画像を用いた補間生成により、前記特定視点方向の画像を自由視点画像として生成する画像生成部をさらに含み、
 前記切替部は、前記画像生成部により生成された、前記特定視点方向の前記自由視点画像を出力する
 <6>に記載の信号処理装置。
<9> 前記特定視点方向特定部は、ユーザ設定と前記予測行動とに基づいて、前記特定視点方向を特定する
 <6>に記載の信号処理装置。
<10> 前記ユーザ設定は、放送局向けユーザの設定であり、前記放送局における視聴者に対するアンケート結果に基づいた設定である
 <9>に記載の信号処理装置。
<11> 前記ユーザ設定は、OTT(Over The Top)向けユーザの設定であり、前記OTT向けユーザの個人の嗜好に基づいた設定である
 <9>に記載の信号処理装置。
<12> 前記予測行動に基づいて、前記切替部より出力される画像に対する時間方向の処理を時間方向処理として特定する時間方向処理特定部をさらに含み、
 前記画像生成部は、前記複数の視点方向のカメラにより撮像された画像より、前記特定視点方向の画像を生成すると共に、前記時間方向処理を施し、
 前記切替部は、前記画像生成部により生成された、前記特定視点方向の画像に前記時間方向処理が施された画像を出力する
 <8>に記載の信号処理装置。
<13> 前記時間方向処理は、前記特定視点方向の画像の再生速度を変化させる処理を含む
 <12>に記載の信号処理装置。
<14> 前記時間方向処理特定部は、
  前記特定視点方向が、前記複数の視点方向のカメラのいずれかのカメラ方向であり、前記切替部により、前記特定視点方向に対応する視点方向のカメラの画像を出力するとき、前記時間方向処理を、通常再生速度より低速の低速再生を施す処理として特定し、
  前記特定視点方向が、前記複数の視点方向のカメラのいずれかのカメラ方向ではなく、前記複数の視点方向のカメラにより撮像された画像を用いて補間生成された前記自由視点画像が出力されるとき、前記時間方向処理を、通常再生速度よりも高速の高速再生を施す処理として特定する
 <12>に記載の信号処理装置。
<15> 前記時間方向処理特定部は、前記予測行動が、ゴールシュート、または打者による打撃であるとき、前記時間方向処理を、通常再生速度より低速の低速再生にするように施す処理として特定する
 <12>に記載の信号処理装置。
<16> 前記画像生成部により生成された画像に対してエフェクト処理を施すエフェクト処理部をさらに含む
 <8>に記載の信号処理装置。
<17> 前記エフェクト処理部は、前記画像生成部により生成された画像に対して、前記被写体のうち、所定の被写体をぼかす処理を施す
 <16>に記載の信号処理装置。
<18> 前記エフェクト処理部によりエフェクト処理された画像をリプレイ画像として記憶するリプレイ画像記憶部をさらに含み、
 前記切替部は、前記リプレイ画像記憶部に記憶された画像を出力する
 <16>に記載の信号処理装置。
<19> 複数の視点方向のカメラにより撮像された画像に基づいて、被写体の行動を予測して、予測行動として出力し、
 前記予測行動に基づいて、前記複数の視点方向のカメラにより撮像された画像より、特定の視点方向である特定視点方向の画像を出力する
 ステップを含む信号処理方法。
<20> 複数の視点方向のカメラにより撮像された画像に基づいて、被写体の行動を予測して、予測行動として出力する行動予測部と、
 前記予測行動に基づいて、前記複数の視点方向のカメラにより撮像された画像より、特定の視点方向である特定視点方向の画像を出力する切替部と
 を含む信号処理システム。
 11,11A乃至11C 信号処理システム, 21,21-1乃至21-n,21A-1乃至21A-12,21B-1乃至21B-12,21C-1乃至21C-15 カメラ, 31 制御部, 39 SW, 41,41’,41’’ SW処理部, 51 リアルタイム情報解析部, 52,52’,52-1,52-2 カメラワーク推定部, 53,53-1,53-2 カメラワーク推定部, 54,54-1,54-2 自由視点画像生成部, 55,55’ エフェクト処理部, 56 SW制御部, 121,121-1乃至121-n マイク, 131,131-1,131-2 ストレージ, 132,132-1,132-2 過去データ記憶部, 133,133-1,133-2 カメラ情報記憶部, 134,134-1,134-2 リプレイ画像記憶部, 151 人物モデル推定部, 152 人物識別部, 153 動体位置検出部, 154 外部トリガ装置, 155 イベント領域検出部, 156 情報統合部, 171 自由視点画像モデル生成部, 172 姿勢推定部, 173 統合部, 201 行動予測部, 202,202’ カメラワーク推定部, 221 行動推定部, 222 信頼度計算部, 223 予測行動決定部, 241,241’ 空間方向カメラワーク生成部, 242,242’ 時間方向カメラワーク生成部, 243,243’ 音声切替情報生成部, 244 統合部

Claims (20)

  1.  複数の視点方向のカメラにより撮像された画像に基づいて、被写体の行動を予測して、予測行動として出力する行動予測部と、
     前記予測行動に基づいて、前記複数の視点方向のカメラにより撮像された画像より、特定の視点方向である特定視点方向の画像を出力する切替部と
     を含む信号処理装置。
  2.  前記行動予測部は、
      前記被写体の行動を推定行動として推定し、
      前記推定行動について、信頼度を計算し、
      前記信頼度に基づいて、前記推定行動より、前記予測行動を決定する
     請求項1に記載の信号処理装置。
  3.  前記行動予測部は、前記推定行動のうち、前記信頼度が所定値よりも高い前記推定行動を前記予測行動に決定する
     請求項2に記載の信号処理装置。
  4.  前記複数の視点方向のカメラにより撮像された画像より、リアルタイム情報を検出するリアルタイム情報解析部をさらに含み、
     前記行動予測部は、前記リアルタイム情報に基づいて、前記被写体の予測行動を予測する
     請求項2に記載の信号処理装置。
  5.  前記リアルタイム情報は、前記複数の視点方向のカメラにより撮像された画像より、前記画像内における被写体となる人物の位置情報、および姿勢情報、人物識別情報、動体位置情報、並びにイベント情報を含む
     請求項4に記載の信号処理装置。
  6.  前記予測行動に基づいて、前記特定視点方向を特定する特定視点方向特定部をさらに含み、
     前記切替部は、前記複数の視点方向のカメラにより撮像された画像に基づいて、前記特定視点方向特定部により特定された、前記特定視点方向の画像を出力する
     請求項1に記載の信号処理装置。
  7.  前記切替部は、前記複数の視点方向のカメラにより撮像された画像のうち、前記特定視点方向の画像を選択して出力する
     請求項6に記載の信号処理装置。
  8.  前記複数の視点方向のカメラにより撮像された画像を用いた補間生成により、前記特定視点方向の画像を自由視点画像として生成する画像生成部をさらに含み、
     前記切替部は、前記画像生成部により生成された、前記特定視点方向の前記自由視点画像を出力する
     請求項6に記載の信号処理装置。
  9.  前記特定視点方向特定部は、ユーザ設定と前記予測行動とに基づいて、前記特定視点方向を特定する
     請求項6に記載の信号処理装置。
  10.  前記ユーザ設定は、放送局向けユーザの設定であり、放送局における視聴者に対するアンケート結果に基づいた設定である
     請求項9に記載の信号処理装置。
  11.  前記ユーザ設定は、OTT(Over The Top)向けユーザの設定であり、前記OTT向けユーザの個人の嗜好に基づいた設定である
     請求項9に記載の信号処理装置。
  12.  前記予測行動に基づいて、前記切替部より出力される画像に対する時間方向の処理を時間方向処理として特定する時間方向処理特定部をさらに含み、
     前記画像生成部は、前記複数の視点方向のカメラにより撮像された画像より、前記特定視点方向の画像を生成すると共に、前記時間方向処理を施し、
     前記切替部は、前記画像生成部により生成された、前記特定視点方向の画像に前記時間方向処理が施された画像を出力する
     請求項8に記載の信号処理装置。
  13.  前記時間方向処理は、前記特定視点方向の画像の再生速度を変化させる処理を含む
     請求項12に記載の信号処理装置。
  14.  前記時間方向処理特定部は、
      前記特定視点方向が、前記複数の視点方向のカメラのいずれかのカメラ方向であり、前記切替部により、前記特定視点方向に対応する視点方向のカメラの画像を出力するとき、前記時間方向処理を、通常再生速度より低速の低速再生を施す処理として特定し、
      前記特定視点方向が、前記複数の視点方向のカメラのいずれかのカメラ方向ではなく、前記複数の視点方向のカメラにより撮像された画像を用いて補間生成された前記自由視点画像が出力されるとき、前記時間方向処理を、通常再生速度よりも高速の高速再生を施す処理として特定する
     請求項12に記載の信号処理装置。
  15.  前記時間方向処理特定部は、前記予測行動が、ゴールシュート、または打者による打撃であるとき、前記時間方向処理を、通常再生速度より低速の低速再生にするように施す処理として特定する
     請求項12に記載の信号処理装置。
  16.  前記画像生成部により生成された画像に対してエフェクト処理を施すエフェクト処理部をさらに含む
     請求項8に記載の信号処理装置。
  17.  前記エフェクト処理部は、前記画像生成部により生成された画像に対して、前記被写体のうち、所定の被写体をぼかす処理を施す
     請求項16に記載の信号処理装置。
  18.  前記エフェクト処理部によりエフェクト処理された画像をリプレイ画像として記憶するリプレイ画像記憶部をさらに含み、
     前記切替部は、前記リプレイ画像記憶部に記憶された画像を出力する
     請求項16に記載の信号処理装置。
  19.  複数の視点方向のカメラにより撮像された画像に基づいて、被写体の行動を予測して、予測行動として出力し、
     前記予測行動に基づいて、前記複数の視点方向のカメラにより撮像された画像より、特定の視点方向である特定視点方向の画像を出力する
     ステップを含む信号処理方法。
  20.  複数の視点方向のカメラにより撮像された画像に基づいて、被写体の行動を予測して、予測行動として出力する行動予測部と、
     前記予測行動に基づいて、前記複数の視点方向のカメラにより撮像された画像より、特定の視点方向である特定視点方向の画像を出力する切替部と
     を含む信号処理システム。
PCT/JP2021/010742 2020-03-31 2021-03-17 信号処理装置、信号処理方法、および信号処理システム WO2021200140A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-062192 2020-03-31
JP2020062192 2020-03-31

Publications (1)

Publication Number Publication Date
WO2021200140A1 true WO2021200140A1 (ja) 2021-10-07

Family

ID=77929479

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/010742 WO2021200140A1 (ja) 2020-03-31 2021-03-17 信号処理装置、信号処理方法、および信号処理システム

Country Status (1)

Country Link
WO (1) WO2021200140A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012101723A1 (ja) * 2011-01-26 2012-08-02 パナソニック株式会社 関節領域表示装置、関節領域検出装置、関節領域帰属度算出装置、関節状領域帰属度算出装置および関節領域表示方法
JP2014215828A (ja) * 2013-04-25 2014-11-17 シャープ株式会社 画像データ再生装置、および視点情報生成装置
WO2017038541A1 (ja) * 2015-09-03 2017-03-09 ソニー株式会社 映像処理装置、映像処理方法、及び、プログラム
JP2019079468A (ja) * 2017-10-27 2019-05-23 キヤノン株式会社 画像処理システム、画像処理システムの制御方法及びプログラム
JP2019144638A (ja) * 2018-02-16 2019-08-29 キヤノン株式会社 画像処理装置、画像処理方法およびプログラム
JP2019220783A (ja) * 2018-06-18 2019-12-26 キヤノン株式会社 情報処理装置、システム、情報処理方法及びプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012101723A1 (ja) * 2011-01-26 2012-08-02 パナソニック株式会社 関節領域表示装置、関節領域検出装置、関節領域帰属度算出装置、関節状領域帰属度算出装置および関節領域表示方法
JP2014215828A (ja) * 2013-04-25 2014-11-17 シャープ株式会社 画像データ再生装置、および視点情報生成装置
WO2017038541A1 (ja) * 2015-09-03 2017-03-09 ソニー株式会社 映像処理装置、映像処理方法、及び、プログラム
JP2019079468A (ja) * 2017-10-27 2019-05-23 キヤノン株式会社 画像処理システム、画像処理システムの制御方法及びプログラム
JP2019144638A (ja) * 2018-02-16 2019-08-29 キヤノン株式会社 画像処理装置、画像処理方法およびプログラム
JP2019220783A (ja) * 2018-06-18 2019-12-26 キヤノン株式会社 情報処理装置、システム、情報処理方法及びプログラム

Similar Documents

Publication Publication Date Title
US9782678B2 (en) Methods and systems for computer video game streaming, highlight, and replay
CN108369816B (zh) 用于从全向视频创建视频剪辑的设备和方法
US10771760B2 (en) Information processing device, control method of information processing device, and storage medium
CA2798298C (en) Systems and methods for video processing
US7349005B2 (en) Automated video production system and method using expert video production rules for online publishing of lectures
US10365728B2 (en) Adaptive provision of content based on user response
US20120057852A1 (en) Systems and methods for the autonomous production of videos from multi-sensored data
CN112165590A (zh) 视频的录制实现方法、装置及电子设备
CN108337573A (zh) 一种赛事实时解说的实现方法和介质
WO2021139728A1 (zh) 全景视频处理方法、装置、设备及存储介质
JP2016536897A (ja) 映像制作物を作るための方法及びシステム
Pidaparthy et al. Keep your eye on the puck: Automatic hockey videography
JP5868991B2 (ja) 動画記録中の音声のオーディオ信号再生を向上させる方法およびアセンブリ
WO2018106461A1 (en) Methods and systems for computer video game streaming, highlight, and replay
US10747492B2 (en) Signal processing apparatus, signal processing method, and storage medium
US20230164424A1 (en) Control apparatus, control system, and control program
CN112287771A (zh) 用于检测视频事件的方法、装置、服务器和介质
US11418557B1 (en) Systems and methods for automatically switching between media streams
TWI790669B (zh) 會議檢視方法及裝置
AU2018282283A1 (en) Method, system and apparatus for displaying virtual content
WO2021200140A1 (ja) 信号処理装置、信号処理方法、および信号処理システム
US11736775B1 (en) Artificial intelligence audio descriptions for live events
Kawamura et al. Rsviewer: An efficient video viewer for racquet sports focusing on rally scenes.
CN117716398A (zh) 将实况嵌入式跟踪数据用于实况体育视频流内的方法和系统
KR102652647B1 (ko) 주요 장면 이벤트를 검출하여 타임 슬라이스 영상을 생성하는 서버, 방법 및 컴퓨터 프로그램

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21779503

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21779503

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP