WO2024057398A1 - 提示映像調整装置、提示映像調整方法及び提示映像調整プログラム - Google Patents

提示映像調整装置、提示映像調整方法及び提示映像調整プログラム Download PDF

Info

Publication number
WO2024057398A1
WO2024057398A1 PCT/JP2022/034205 JP2022034205W WO2024057398A1 WO 2024057398 A1 WO2024057398 A1 WO 2024057398A1 JP 2022034205 W JP2022034205 W JP 2022034205W WO 2024057398 A1 WO2024057398 A1 WO 2024057398A1
Authority
WO
WIPO (PCT)
Prior art keywords
video
presentation
time
base
layout
Prior art date
Application number
PCT/JP2022/034205
Other languages
English (en)
French (fr)
Inventor
麻衣子 井元
真二 深津
淳一 中嶋
馨亮 長谷川
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2022/034205 priority Critical patent/WO2024057398A1/ja
Publication of WO2024057398A1 publication Critical patent/WO2024057398A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/24Monitoring of processes or resources, e.g. monitoring of server load, available bandwidth, upstream requests
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working

Definitions

  • One aspect of the present invention relates to a presentation video adjustment device, a presentation video adjustment method, and a presentation video adjustment program.
  • Such video/audio transmission is not limited to one-to-one one-way transmission, but also bi-directional transmission.
  • video and audio are transmitted from a first base, which is a venue where a sports match is being held (hereinafter referred to as an event venue), to multiple second bases in remote locations, and each It is output from a large video display device and speakers at the second base.
  • a first base which is a venue where a sports match is being held
  • multiple second bases in remote locations
  • each It is output from a large video display device and speakers at the second base.
  • This type of two-way video and audio transmission allows athletes (or performers) and spectators at the event venue, as well as viewers in multiple remote locations, to communicate even though they are physically separated. You can get a sense of presence and unity as if you were in the same space (event venue) and having the same experience.
  • the video and audio of the audience filmed and recorded at a second location in a remote location can be aggregated and output at the event venue, which is the first location. Can be done.
  • there are methods that utilize audio information see, for example, Non-Patent Document 1), methods based on line-of-sight information (see, for example, Non-Patent Document 2), etc. do.
  • RTP Real-time Transport Protocol
  • the data transmission time between two locations differs depending on the communication line connecting the two locations.
  • video and audio shot and recorded at time T at event venue A are transmitted to two remote locations B and C, and the videos shot at remote locations B and C are returned to event venue A.
  • Video and audio captured and recorded at time T, transmitted from event venue A at remote location B, are played back at time T b1 , and video captured at time T b1 at remote location B is transmitted to event venue A. It is transmitted back and played back at event venue A at time T b2 .
  • the video and audio that was shot and recorded at time T and transmitted at event venue A is played back at time T c1 ( ⁇ T b1 ), and the video and audio that was captured at time T c1 at remote location C is played back at time T c1 ( ⁇ T b1 ).
  • the video is transmitted back to the event venue A and played back at the event venue A at time T c2 ( ⁇ T b2 ).
  • This invention was made with attention to the above circumstances, and its purpose is to reduce the discomfort felt by viewers when multiple videos transmitted at different times from multiple locations are played back.
  • Our goal is to provide the following.
  • the presentation video adjustment device is a device at a first base that includes the video presentation device, and includes a receiving section and a layout adjustment section.
  • the receiving unit transmits a second video at a time when the first video acquired at the first base at the first time is to be played back at the second base from each of the plurality of second bases different from the first base.
  • the packet containing the second video acquired at the base is received.
  • the layout adjustment unit adjusts the plurality of second images based on at least one of three indicators: delay time, resolution, and image disturbance for each of the plurality of second images based on the plurality of packets from the second base.
  • a third video in which the plurality of second videos are arranged according to the determined layout position is outputted to the video presentation device.
  • FIG. 1 is a block diagram showing an example of the hardware configuration of each electronic device included in the presentation video adjustment system according to the first embodiment.
  • FIG. 2 is a block diagram showing an example of the software configuration of each electronic device configuring the presentation video adjustment system according to the first embodiment.
  • FIG. 3 is a diagram showing an example of the data structure of the time management DB in the video information storage section included in the server at base O according to the first embodiment.
  • FIG. 4 is a diagram showing an example of the data structure of the video time management DB included in the server of base R1 according to the first embodiment.
  • FIG. 5 is a flowchart showing the processing procedure and contents of the server at the base O according to the first embodiment.
  • FIG. 6 is a flowchart showing the processing procedure and contents of the server at base R1 according to the first embodiment.
  • FIG. 7 is a flowchart showing the processing procedure and processing contents of the media transmission processing of the server at the base O according to the first embodiment.
  • FIG. 8 is a flowchart showing the processing procedure and contents of the media reception process of the server at the base R1 according to the first embodiment.
  • FIG. 9 is a flowchart showing the processing procedure and processing contents of the video offset calculation processing of the server at the base R1 according to the first embodiment.
  • FIG. 10 is a flowchart showing the processing procedure and processing contents of the return video transmission processing of the server at the base R1 according to the first embodiment.
  • FIG. 11 is a flowchart showing the processing procedure and processing contents of the return video reception processing of the server at the base O according to the first embodiment.
  • FIG. 12 is a flowchart illustrating the processing procedure and processing contents of the return video layout adjustment process of the server at the base O according to the first embodiment.
  • FIG. 13 is a schematic diagram illustrating a presentation layout of loopback video based on communication delay.
  • FIG. 14 is a schematic diagram for explaining the arrangement order of folded images.
  • FIG. 15 is a schematic diagram for explaining an example of arrangement of folded videos in the order of arrangement shown in FIG. 14.
  • FIG. 16 is a block diagram showing an example of the hardware configuration of each electronic device included in the presentation video adjustment system according to the second embodiment.
  • FIG. 17 is a block diagram showing an example of the software configuration of each electronic device configuring the presentation video adjustment system according to the second embodiment.
  • FIG. 18 is a schematic diagram for explaining the positional relationship between the return video presentation device, the reference video photographing device, and the performer at the base O according to the second embodiment.
  • FIG. 19 is a schematic diagram for explaining the movement area of the performer in the return video presentation device at the base O according to the second embodiment.
  • FIG. 20 is a flowchart illustrating the processing procedure and processing contents of the return video layout adjustment process of the server at the base O according to the second embodiment.
  • FIG. 21 is a schematic diagram for explaining a presentation layout of loopback video based on communication delay according to the second embodiment.
  • FIG. 22 is a schematic diagram for explaining an example of arrangement of return images in the arrangement order of return images according to the second embodiment.
  • FIG. 23 is a diagram illustrating an example of a resolution table included in the server at base O according to the third embodiment.
  • Time information that is uniquely determined based on the absolute time when video and audio were shot and recorded at base O is a time information that is uniquely determined from bases R 1 to R n (where n is (an integer greater than or equal to 2) is assigned to the video/audio to be transmitted.
  • bases R 1 to R n where n is (an integer greater than or equal to 2) is assigned to the video/audio to be transmitted.
  • n is (an integer greater than or equal to 2) is assigned to the video/audio to be transmitted.
  • n is (an integer greater than or equal to 2
  • a video shot at the time when the video/audio having the relevant time information was played is associated with the relevant time information.
  • each video is arranged and played at a display position determined based on the time information.
  • Time information is transmitted and received between base O and each of bases R 1 to R n by any of the following means.
  • the time information is associated with images shot at each of bases R 1 to R n .
  • Time information is stored in the header extension area of the RTP packet transmitted and received between base O and each of bases R 1 to R n .
  • the time information is in absolute time format (hh:mm:ss.fff format), but may also be in millisecond format.
  • Time information is described using APP (Application-Defined) in RTCP (RTP Control Protocol), which is transmitted and received at regular intervals between base O and each of bases R 1 to R n .
  • RTCP RTP Control Protocol
  • the time information is in millisecond format.
  • the time information is stored in SDP (Session Description Protocol) that describes initial value parameters to be exchanged between base O and each of bases R 1 to R n at the start of transmission.
  • SDP Session Description Protocol
  • the time information is in millisecond format.
  • the video and audio captured and recorded at base O are both stored in one RTP packet and transmitted to remote bases R 1 to R n .
  • the video transmitted back from base R n to base O will also be explained as being transmitted in the form of RTP packets.
  • the video and audio may each be transmitted as RTP packets.
  • Video and audio are examples of media.
  • the time information used to determine the placement position of the video that is transmitted back from bases R 1 to R n at base O is the time information used for determining the placement position of the video that is transmitted back from bases R 1 to R n at base O.
  • the time information is in absolute time format (hh:mm:ss.fff format).
  • FIG. 1 is a block diagram showing an example of the hardware configuration of each electronic device included in the presentation video adjustment system S according to the first embodiment.
  • the presentation video adjustment system S includes a plurality of electronic devices included in the base O, a plurality of electronic devices included in each of the bases R 1 to R n , and a time distribution server 10 .
  • the electronic devices and time distribution servers 10 at each location can communicate with each other via the IP network NW.
  • the base O includes a server 1, a video shooting device 101, an audio recording device 102, and a return video presentation device 103.
  • Base O is an example of a first base.
  • the server 1 is an electronic device that controls each electronic device included in the base O.
  • the server 1 is an example of a presentation video adjustment device.
  • the video capture device 101 is a device that includes a camera that captures a video of the base O.
  • the video capturing device 101 may include multiple cameras.
  • the audio recording device 102 is a device that includes a microphone that records the audio of the base O. Audio recording device 102 may include multiple microphones.
  • the return video presentation device 103 is a device including a large display that reproduces and displays a video in which the videos transmitted back from each of bases R 1 to R n to base O are arranged in a layout.
  • the display is a liquid crystal display.
  • the return video presentation device 103 is an example of a video presentation device.
  • the folded video presentation device 103 can be installed behind a stage on which performers, such as performers and singers, stand. Further, at a competition venue, the video display device 103 is often installed at a location away from the athletes who are the competitors.
  • the server 1 includes a control section 11, a program storage section 12, a data storage section 13, a communication interface 14, and an input/output interface 15. Each element included in the server 1 is connected to each other via a bus.
  • the control unit 11 corresponds to the central part of the server 1.
  • the control unit 11 includes a processor such as a central processing unit (CPU).
  • the processor may be multi-core/multi-threaded and can execute multiple processes in parallel.
  • the control unit 11 includes a ROM (Read Only Memory) as a nonvolatile memory area.
  • the control unit 11 includes a RAM (Random Access Memory) as a volatile memory area.
  • the processor expands the program stored in the ROM or program storage unit 12 into the RAM.
  • the control unit 11 realizes each functional unit described below by the processor executing the program loaded in the RAM.
  • the control unit 11 constitutes a computer.
  • the program storage unit 12 is configured of a nonvolatile memory that can be written to and read from at any time, such as an HDD (Hard Disk Drive) or an SSD (Solid State Drive), as a storage medium.
  • the program storage unit 12 stores programs necessary to execute various control processes.
  • the program storage unit 12 stores a program that causes the server 1 to execute processing by each functional unit implemented in the control unit 11, which will be described later.
  • the program storage unit 12 is an example of storage.
  • the data storage unit 13 is composed of a nonvolatile memory that can be written to and read from at any time, such as an HDD or an SSD, as a storage medium.
  • the data storage unit 13 is an example of a storage or storage unit.
  • the communication interface 14 includes various interfaces that communicably connect the server 1 to other electronic devices using communication protocols defined by the IP network NW.
  • the input/output interface 15 is an interface that enables communication between the server 1 and each of the video shooting device 101, the audio recording device 102, and the return video presentation device 103.
  • the input/output interface 15 may include a wired communication interface or a wireless communication interface.
  • the hardware configuration of the server 1 is not limited to the above-mentioned configuration.
  • the server 1 allows the above-mentioned components to be omitted and changed, and new components to be added as appropriate.
  • the base R 1 includes a server 2 , a video presentation device 201 , an audio presentation device 202 , an offset video shooting device 203 , and a return video shooting device 204 .
  • the base R1 is an example of a second base different from the first base.
  • the server 2 is an electronic device that controls each electronic device included in the base R1 .
  • the video presentation device 201 is a device that includes a display that plays and displays the video transmitted from the base O to the base R1 .
  • the audio presentation device 202 is a device that includes a speaker that reproduces and outputs the audio transmitted from the base O to the base R1 .
  • the offset video shooting device 203 is a device that can record the shooting time.
  • the offset video photographing device 203 is a device that includes a camera installed so that the entire video display area of the video presentation device 201 can be photographed.
  • the return image capturing device 204 is a device that includes a camera that captures an image of the base R1 .
  • the return video capturing device 204 captures a video of the audience viewing the video at the location R 1 where the video presentation device 201 is installed, which reproduces and displays the video transmitted from the location O to the location R 1 .
  • the server 2 includes a control section 21, a program storage section 22, a data storage section 23, a communication interface 24, and an input/output interface 25.
  • Each element included in the server 2 is connected to each other via a bus.
  • the control unit 21 may be configured similarly to the control unit 11 in the server 1 at the base O.
  • the processor expands the program stored in the ROM or the program storage unit 22 into the RAM.
  • the control unit 21 implements each functional unit described later by the processor executing a program loaded in the RAM.
  • the control unit 21 constitutes a computer.
  • the program storage unit 22 may be configured similarly to the program storage unit 12 in the server 1 at the base O.
  • the data storage unit 23 may be configured similarly to the data storage unit 13 in the server 1 at the base O.
  • the communication interface 24 may be configured similarly to the communication interface 14 in the server 1 at the base O.
  • the communication interface 24 includes various interfaces that communicably connect the server 2 to other electronic devices.
  • the input/output interface 25 may be configured similarly to the input/output interface 15 in the server 1 at the base O.
  • the input/output interface 25 enables communication between the server 2 and each of the video presentation device 201, the audio presentation device 202, the offset video imaging device 203, and the return video imaging device 204.
  • the hardware configuration of the server 2 is not limited to the above-mentioned configuration.
  • the server 2 allows the above-mentioned components to be omitted and changed, and new components to be added as appropriate.
  • bases R 2 to R n The hardware configurations of the plurality of electronic devices included in each of bases R 2 to R n are the same as those of base R 1 described above, and therefore the description thereof will be omitted.
  • bases R 1 to R n they will be simply referred to as base R.
  • the time distribution server 10 is an electronic device that manages a reference system clock.
  • the reference system clock is an absolute time.
  • FIG. 2 is a block diagram showing an example of the software configuration of each electronic device that makes up the presentation video adjustment system S according to the first embodiment.
  • the server 1 at the base O includes a time management section 111, a media transmission section 112, a return video reception section 113, and a return video layout adjustment section 114.
  • Each functional unit is realized by execution of a program by the control unit 11. It can also be said that each functional unit is included in the control unit 11 or the processor. Each functional unit can be read as the control unit 11 or a processor.
  • Each functional unit can also be implemented in a variety of other integrated circuit formats, including ASICs (Application Specific Integrated Circuits), DSPs (Digital Signal Processors), FPGAs (field-programmable gate arrays), GPUs (Graphics Processing Units), etc. It may be realized by Furthermore, the server 1 includes a video information storage section 131.
  • the video information storage section 131 is realized by the data storage section 13.
  • the time management unit 111 performs time synchronization with the time distribution server 10 using known protocols such as NTP and PTP, and manages the reference system clock.
  • the time management unit 111 manages the same reference system clock as the reference system clock managed by each of the servers 2 of bases R 1 to R n .
  • the reference system clock managed by the time management unit 111 and the reference system clock managed by the server 2 are time synchronized.
  • the media transmitting unit 112 transmits the RTP packet storing the video V signal1 output from the video capturing device 101 and the audio A signal1 output from the audio recording device 102 to bases R 1 to R via the IP network NW. Send to each server of n .
  • the video V signal1 is a video acquired at the base O at time T media , which is an absolute time.
  • Obtaining the video V signal1 includes the video photographing device 101 photographing the video V signal1 .
  • Obtaining the video V signal1 includes sampling the video V signal1 photographed by the video imaging device 101.
  • Audio A signal1 is audio acquired at base O at time T media , which is an absolute time.
  • Obtaining the audio A signal1 includes the audio recording device 102 recording the audio A signal1 .
  • Obtaining the audio A signal1 includes sampling the audio A signal1 recorded by the audio recording device 102.
  • the RTP packet storing the video V signal1 and the audio A signal1 is given a time T media .
  • the time T media is the time when the video V signal1 and the audio A signal1 are acquired at the base O.
  • the time T media is time information for adjusting the display position of the returned video at the base O.
  • the video V signal1 is an example of the first video.
  • Time T media is an example of a first time.
  • An RTP packet is an example of a packet.
  • the return video receiving unit 113 receives RTP packets storing the video V signal 2 from the servers 2 of each of the bases R 1 to R n via the IP network NW.
  • the video V signal2 is a video obtained at any of the bases R1 to Rn at the time when the video V signal1 is played back at this base.
  • Obtaining the video V signal2 includes the return video capturing device 204 of the corresponding base R capturing the video V signal2 .
  • Obtaining the video V signal2 includes sampling the video V signal2 photographed by the return video imaging device 204.
  • the RTP packet storing the video V signal2 is given the time T media .
  • the return video receiving unit 113 acquires the time T media and the video V signal2 from the received RTP packet, associates the acquired time T media and the video V signal2 , and sets the secured base R 1 to the video information storage unit 131. It is stored in the video storage area of each base R n .
  • the return video receiving unit 113 associates the acquired time T media and video V signal2 with an identifier indicating which of the bases R 1 to R n they correspond to, and stores them in the video information storage unit 131 .
  • the video V signal2 is an example of the second video.
  • the return video receiving section 113 is an example of a receiving section.
  • the return video receiving unit 113 stores the acquisition time of the video V signal2 , that is, the reception time t2 of the RTP packet, in the video information storage unit 131 in association with the time T media .
  • the video information storage unit 131 can include a time management DB 1311 that is a database for storing the reception time t 2 of the RTP packet and the time T media in association with each other.
  • FIG. 3 is a diagram showing an example of the data structure of this time management DB.
  • the time management DB 1311 includes a video synchronization reference time column and reception time columns for each of bases R 1 to R n .
  • the video synchronization reference time column stores time T media .
  • the reception time column stores reception times t 2_R1 to t 2_Rn , which are reception times t 2 of bases R 1 to R n , respectively.
  • the return video layout adjustment unit 114 generates a video V signal3 in which each of the videos V signal2 of bases R 1 to R n stored in the video information storage unit 131 is arranged on one screen, and returns the video V signal3 to the video presentation device. 103.
  • the return video layout adjustment unit 114 calculates the difference between the associated time T media and the reception time t 2 for the video V signal2 of each of bases R 1 to R n , and uses these differences to calculate the difference between base O and base R. Determine the delay time, that is, the amount of communication delay between each of 1 to R n .
  • the return video layout adjustment unit 114 adjusts the arrangement order and arrangement position of each video V signal2 on one screen so that the video V signal2 with a smaller amount of communication delay is arranged at a position where it is easier to see the audience. Then, a video V signal3 is generated.
  • the video V signal3 is an example of the third video.
  • the folded video layout adjustment section 114 is an example of a layout adjustment section.
  • the server 2 at the base R 1 includes a time management section 211 , a media reception section 212 , a video offset calculation section 213 , and a return video transmission section 214 .
  • Each functional unit is realized by execution of a program by the control unit 21. It can also be said that each functional unit is included in the control unit 21 or the processor.
  • Each functional unit can be read as the control unit 21 or a processor.
  • Each functional unit can be read as the control unit 11 or a processor.
  • Each functional unit may also be implemented in a variety of other formats, including integrated circuits such as ASICs, DSPs, FPGAs, GPUs, and the like.
  • the server 2 includes a video time management DB 231.
  • the video time management DB 231 is realized by the data storage section 23.
  • the time management unit 211 performs time synchronization with the time distribution server 10 using known protocols such as NTP and PTP, and manages the reference system clock.
  • the time management unit 211 manages the same reference system clock as the reference system clock managed by the server 1 .
  • the reference system clock managed by the time management unit 211 and the reference system clock managed by the server 1 are synchronized in time.
  • the media receiving unit 212 receives, from the server 1, an RTP packet containing the video V signal1 and the audio A signal1 , to which the time T media is added, via the IP network NW.
  • the media receiving unit 212 acquires time T media , video V signal1 , and audio A signal1 from the received RTP packet.
  • the media receiving unit 212 outputs the acquired video V signal1 to the video presentation device 201, and outputs the acquired audio A signal1 to the audio presentation device 202. Furthermore, the media reception unit 212 outputs the acquired time T media and video V signal2 to the video offset calculation unit 213.
  • the video offset calculation unit 213 calculates a presentation time t 1 that is the absolute time when the video V signal 1 was played back by the video presentation device 201 .
  • the video offset calculating unit 213 uses a known image processing technique to offset a video frame including the video V signal1 output from the media receiving unit 212 from among the videos shot by the offset video shooting device 203. It is extracted from the video shot by the device 203.
  • the video offset calculation unit 213 obtains the shooting time given to this extracted video frame as the presentation time t 1 .
  • the video offset calculation unit 213 stores the time T media output from the media reception unit 212 and the acquired presentation time t 1 in the video time management DB 231 in association with each other.
  • FIG. 4 is a diagram showing an example of the data structure of the video time management DB 231 included in the server 2 of the base R 1 according to the first embodiment.
  • the video time management DB 231 is a database that stores time T media and presentation time t 1 in association with each other.
  • the video time management DB 231 includes a video synchronization reference time column and a presentation time column.
  • the video synchronization reference time column stores time T media .
  • the presentation time column stores presentation time t 1 .
  • the return video transmitting unit 214 transmits an RTP packet containing the video V signal2 photographed by the return video photographing device 204 to the server 1 via the IP network NW.
  • the return video transmitter 214 reads the time T media associated with the presentation time t 1 that coincides with time t, which is the absolute time when the video V signal 2 was captured, from the video time management DB 231 , and reads the time T media . is added to the RTP packet storing the video V signal2 .
  • each of the servers at locations R 2 to R n includes the same functional units and DB as the server 2 at the location R 1 and executes the same processing as the server 2 at the location R 1 . Descriptions of the processing flow and DB structure of the functional units included in each server of bases R 2 to R n will be omitted.
  • base O and base R1 The operations of base O and base R1 will be explained below as an example.
  • the operations of bases R 2 to R n may be the same as the operations of base R 1 , and the explanation thereof will be omitted.
  • the notation of base R 1 may be read as base R 2 to base R n .
  • FIG. 5 is a flowchart showing the processing procedure and processing contents of the server 1 at the base O according to the first embodiment.
  • the server 1 repeatedly executes the process shown in this flowchart while performing real-time transmission of the event venue.
  • the media transmitting unit 112 executes a media transmitting process of transmitting the RTP packet containing the video V signal1 and the audio A signal1 to the servers 2 of each of bases R1 to Rn via the IP network NW (step S11). .
  • a media transmitting process of transmitting the RTP packet containing the video V signal1 and the audio A signal1 to the servers 2 of each of bases R1 to Rn via the IP network NW (step S11).
  • the return video receiving unit 113 executes return video reception processing in parallel with the media transmission processing of step S11 (step S12).
  • This return video reception process is a process of receiving RTP packets storing the video V signal2 from the servers 2 of each of bases R 1 to R n via the IP network NW. A typical example of this return video reception process will be described later.
  • the folded video layout adjustment unit 114 executes folded video layout adjustment processing in parallel with the media transmission processing of step S11 and the folded video reception processing of step S12 (step S13).
  • This return video layout adjustment process is performed based on, for example, the delay time of the video V signal 2 received from each of bases R 1 to R n by the return video receiving unit 113, and adjusts the return video presentation device 103 of the plurality of videos V signal 2 .
  • This is a process of determining the arrangement position on a prescribed presentation layout, generating a video V signal3 in which a plurality of videos V signal2 are arranged according to the determined arrangement position, and outputting it to the return video presentation device 103.
  • a typical example of this folded video layout adjustment process will be described later.
  • FIG. 6 is a flowchart showing the processing procedure and processing contents of the server 2 at the base R1 according to the first embodiment.
  • the server 2 can repeatedly execute the process shown in this flowchart during real-time transmission of a competition venue or a concert at an event venue.
  • the media receiving unit 212 executes a media receiving process of receiving an RTP packet storing the video V signal1 and the audio A signal1 from the server 1 via the IP network NW (step S21). A typical example of this media reception processing will be described later.
  • the video offset calculation unit 213 executes a video offset calculation process to calculate the presentation time t 1 at which the video V signal1 was played back by the video presentation device 201 (step S22). A typical example of this video offset calculation process will be described later.
  • the return video transmitter 214 executes a return video transmission process of transmitting the RTP packet storing the video V signal2 to the server 1 via the IP network NW (step S23). A typical example of this return video transmission process will be described later.
  • step S11 of server 1 the processing of step S21 of server 2
  • step S22 of server 2 the processing of step S22 of server 2
  • step S23 of server 2 the processing of step S12 of server 1
  • the process will be explained in the order of the process in step S13 of the server 1.
  • FIG. 7 is a flowchart showing the processing procedure and contents of the media transmission process of the server 1 at the base O according to the first embodiment.
  • FIG. 7 shows a typical example of the process in step S11.
  • the media transmitter 112 acquires the video V signal1 output from the video imaging device 101 at regular intervals I video (step S111).
  • the media transmitting unit 112 acquires the audio A signal1 output from the audio recording device 102 at regular intervals I video (step S112).
  • the media transmitter 112 generates an RTP packet storing the video V signal1 and the audio A signal1 (step S113).
  • step S113 for example, the media transmitting unit 112 stores the video V signal1 obtained in step S111 and the audio A signal1 obtained in step S112 in an RTP packet.
  • the media transmitting unit 112 further acquires a time T media , which is the absolute time at which the video V signal1 was acquired, from the reference system clock managed by the time managing unit 111.
  • the media transmitter 112 stores the acquired time T media in the header extension area of the RTP packet.
  • the media transmitter 112 transmits the RTP packet storing the video V signal1 and the audio A signal1 generated in step S113 to the IP network NW (step S114).
  • FIG. 8 is a flowchart showing the processing procedure and contents of the media reception process of the server 2 at the base R1 according to the first embodiment.
  • FIG. 8 shows a typical example of the process of step S21 of the server 2.
  • the media receiving unit 212 receives the RTP packet containing the video V signal1 and the audio A signal1 sent from the media transmitting unit 112 via the IP network NW (step S211).
  • the media receiving unit 212 acquires the video V signal1 stored in the RTP packet containing the received video V signal1 and audio A signal1 (step S212). Then, the media receiving unit 212 outputs the acquired video V signal1 to the video presentation device 201 (step S213). The video presentation device 201 reproduces and displays the video V signal1 .
  • the media receiving unit 212 acquires the audio A signal1 stored in the RTP packet storing the received video V signal1 and audio A signal1 (step S214). Then, the media receiving unit 212 outputs the acquired audio A signal1 to the audio presentation device 202 (step S215). The audio presentation device 202 reproduces and outputs the audio A signal1 .
  • the media receiving unit 212 acquires the time T media stored in the header extension area of the RTP packet storing the video V signal1 and the audio A signal1 received in step S211 (step S216).
  • the media receiving unit 212 passes the acquired time T media to the video offset calculation unit 213 together with the video V signal1 acquired in step S212 (step S217).
  • FIG. 9 is a flowchart showing the processing procedure and processing contents of the video offset calculation process of the server 2 at the base R1 according to the first embodiment.
  • FIG. 9 shows a typical example of the process of step S22 of the server 2.
  • the video offset calculation unit 213 acquires the video V signal1 and the time T media from the media reception unit 212 (step S221).
  • the video offset calculation unit 213 calculates the presentation time t 1 based on the acquired video V signal1 and the video input from the offset video imaging device 203 (step S222).
  • the video offset calculation unit 213 extracts a video frame including the video V signal1 from the video shot by the offset video imaging device 203 using a known image processing technique.
  • the video offset calculation unit 213 obtains the shooting time given to the extracted video frame as the presentation time t 1 .
  • the photographing time is an absolute time.
  • the video offset calculation unit 213 stores the acquired time T media in the video synchronization reference time column of the video time management DB 231 (step S223).
  • the video offset calculation unit 213 stores the acquired presentation time t 1 in the presentation time column of the video time management DB 231 (step S224).
  • FIG. 10 is a flowchart showing the processing procedure and processing contents of the return video transmission processing of the server 2 at the base R1 according to the first embodiment.
  • FIG. 10 shows a typical example of the process of step S23 of the server 2.
  • the return video transmitting unit 214 acquires the video V signal2 output from the return video imaging device 204 at regular intervals I video (step S231).
  • the video V signal2 is a video acquired at the base R1 at the time when the video presentation device 201 reproduces the video V signal1 at the base R1 .
  • t video_offset a positive number
  • the return video transmitter 214 refers to the video time management DB 231 and extracts a record having a time t 1 that matches the acquired time t (step S233).
  • the return video transmission unit 214 refers to the video time management DB 231 and obtains the time T media in the video synchronization reference time column of the extracted record (step S234).
  • the return video transmitter 214 generates an RTP packet storing the video V signal2 (step S235).
  • step S235 for example, the return video transmitter 214 stores the acquired video V signal2 in an RTP packet.
  • the return video transmitter 214 stores the acquired time T media in the header extension area of the RTP packet.
  • the return video transmitter 214 transmits the RTP packet storing the generated video V signal2 to the IP network NW (step S236).
  • FIG. 11 is a flowchart showing the processing procedure and processing contents of the return video reception process of the server 1 at the base O according to the first embodiment.
  • FIG. 11 shows a typical example of the process of step S12 of the server 1.
  • the return video receiving unit 113 receives, via the IP network NW, the RTP packet containing the video V signal 2 sent from the return video transmitting unit 214 of each of the bases R 1 to R n (step S121).
  • the return video receiving unit 113 obtains the current time T n as the reception time t 2 from the reference system clock managed by the time management unit 111 (step S122).
  • the returned video receiving unit 113 acquires the video V signal2 stored in the RTP packet storing the received video V signal2 (step S123).
  • the return video receiving unit 113 acquires the time T media stored in the header extension area of the RTP packet storing the received video V signal2 (step S124).
  • the return video receiving unit 113 stores the acquired reception time t 2 , video V signal2 , and time T media in the video information storage unit 131 (step S125).
  • FIG. 12 is a flowchart showing the processing procedure and processing contents of the return video layout adjustment process of the server 1 at the base O according to the first embodiment.
  • FIG. 12 shows a typical example of the process of step S13 of the server 1.
  • the return video layout adjustment unit 114 calculates the delay time of the video V signal 2 of each of the bases R 1 to R n (step S131). For example, the return video layout adjustment unit 114 uses the latest reception time t 2 stored in the time management DB 1311 of the video information storage unit 131 and the video synchronization reference time associated therewith for each of bases R 1 to R n . A time T media is obtained. This reception time t 2 is the time when the return video receiving unit 113 receives the RTP packet storing the video V signal 2 . The reception time t2 can also be said to be the reproduction time of the video V signal3 generated based on the video V signal2 .
  • the reception time t 2 associated with the reception of the RTP packet storing the video V signal 2 is an example of the second time.
  • the folded video layout adjustment unit 114 calculates the difference between the obtained reception time t 2 and time T media , that is, (t 2 ⁇ T media ) (ms), as the delay time.
  • This delay time is a round trip transmission delay time between base O and base R. For example, in the example shown in FIG. 3, if video V signal2 with time T media of "9:00:00.040" is the latest return video, the delay time of base R1 is "9:00:02.040".
  • the return video layout adjustment unit 114 sorts the locations R in descending order of the calculated delay times of each of the locations R 1 to R n (step S132). For example, in the example of FIG. 3, the order is bases R 1 , R 2 , and R n .
  • the return video layout adjustment unit 114 determines the placement position of the latest video V signal2 of the base R on the prescribed presentation layout in the sorted order (step S133). Since the resolution of the human eye is not high, it is difficult to simultaneously recognize multiple reflected images placed far away from each other (one of them will appear blurry). Therefore, unless there is a unique image among the multiple images placed nearby (within the field of view), it is difficult to feel a sense of discomfort. Therefore, by arranging the folded video with a short delay time in an area where the audience at the event venue can easily see it, it is possible to make it difficult for the audience to feel uncomfortable due to the large delay time.
  • FIG. 13 is a schematic diagram for explaining the presentation layout of loopback video based on communication delay.
  • the audience at the concert venue often looks at the vicinity of the central area CA in the video display area DA of the folded video presentation device 103 installed at the back of the stage ST.
  • the feedback video presentation device 103 is often installed at a location away from the athletes who are the competitors, and the correlation between the video presentation device 103 and the athletes is low. Even in such a folded video presentation device 103, it is assumed that many spectators view the vicinity of the central area CA rather than the end portions of the video display area DA.
  • the central area CA is an example of the central part of the video presentation device.
  • FIG. 14 is a schematic diagram for explaining the arrangement order of return videos
  • the return video of the base R with the smallest delay time sorted in step S132 is arranged at the center of the central area CA, and the return video with the smallest delay time is arranged near the performer movement area PA.
  • a concentric (radial) folded image layout is adopted.
  • This layout arrangement is an example of a presentation layout.
  • the return video layout adjustment unit 114 reads the latest video V signal2 from the video information storage unit 131 according to the order sorted in step S132, and adjusts the video V signal2 of each of the read bases R 1 to R n in this layout arrangement. By arranging them in order, a video V signal3 is generated (step S134).
  • the folded video layout adjustment unit 114 outputs the generated video V signal3 to the folded video presentation device 103 (step S135).
  • the return video presentation device 103 reproduces and displays a video V signal3 based on the video V signal2 that is returned from each of the bases R 1 to R n to the base O.
  • the server 1 adjusts the presentation layout of the plurality of videos V signal2 on the return video presentation device 103 based on the delay time of each of the plurality of videos V signal2 from the plurality of bases R.
  • the upper arrangement position is determined, and a video V signal3 is generated in which each video V signal2 is arranged at the determined arrangement position.
  • Spectators at the event venue often look around the central area CA in the video display area DA of the video presentation device 103. Therefore, in a typical example, the server 1 arranges the video V signal2 with a smaller delay time at the center of the central area CA, and arranges the video V signal2 further away from the central area CA as the delay time increases.
  • the server 1 can adjust the position for displaying the video V signal2 from each base R based on the delay time for displaying the video V signal2 and the central area CA corresponding to the audience's field of view. can. If there is no unique video among the multiple videos placed nearby, people will not feel a sense of discomfort, so the server 1 should place the return video with a short delay time in an area that is easily visible to the audience at the event venue. Therefore, it is possible to reduce the sense of discomfort experienced by the audience due to the time lag between the returned images.
  • the server 1 can place the video V signal2 with a large delay time in a position where it becomes less noticeable when the multiple video V signal2 transmitted from multiple bases R at different times is played back. , it is possible to reduce the sense of discomfort felt by the audience, who are the viewers at base O.
  • the server 1 causes the return video presentation device 103 to display the return video shot of the audience at base R, which is viewed in an environment with a large delay time, together with the return video shot of the audience at other bases R. Therefore, there is no such thing as not displaying the loopback video taken of the audience at base R who is watching in an environment with a large delay time, and by displaying the loopback video without differentiating the customers of all bases R, it is possible to It is possible to prevent the satisfaction level of R's audience from decreasing.
  • FIG. 16 is a block diagram showing an example of the hardware configuration of each electronic device included in the presentation video adjustment system S according to the second embodiment.
  • FIG. 17 is a block diagram showing an example of the software configuration of each electronic device that constitutes the presentation video adjustment system S according to the second embodiment.
  • the base O includes a reference video capturing device 104.
  • the reference video photographing device 104 is a device that includes a camera installed so as to be able to photograph the video display area of the folded video presentation device 103.
  • the reference video capturing device 104 may include multiple cameras. Furthermore, the camera included in the reference video capturing device 104 may also be used as the camera included in the video capturing device 101.
  • FIG. 18 is a schematic diagram for explaining the positional relationship between the return video presentation device 103, the reference video photographing device 104, and the performer PL.
  • the folded video presentation device 103 is arranged, for example, on the back of a performer PL such as a performer or a singer on the stage ST so that its video display area DA faces the audience.
  • the camera of the reference video photographing device 104 is installed so as to be able to photograph the entire stage ST, and the reference video photographing device 104 covers the performer PL on the stage ST as well as the video display area of the return video presentation device 103 behind the performer PL. Photograph the DA.
  • FIG. 19 is a schematic diagram for explaining the performer movement area PA with respect to the video display area DA of the return video presentation device 103.
  • the performer movement area PA is a range in which the movement range of the audience's field of view is projected onto the video display area DA of the return video presentation device 103.
  • the video display area DA is an example of a presentation surface of the video presentation device.
  • the performer PL is an example of a moving object.
  • the performer movement area PA is an example of a movement area of a moving object.
  • the folded video layout adjustment unit 114 included in the server 1 detects the performer PL in front of the folded video presentation device 103 using a known moving object detection method on the video captured by the reference video shooting device 104. , the performer movement area PA in the video display area DA of the return video presentation device 103 is estimated. This performer movement area PA is an area that is easily visible to the audience.
  • the return video layout adjustment unit 114 adjusts the arrangement order and arrangement position of each video V signal2 on one screen so that the video V signal2 with a smaller amount of communication delay is arranged at a position where it is easier to see the audience. , generates a video V signal3 .
  • FIG. 20 is a flowchart illustrating the processing procedure and processing contents of the return video layout adjustment process of the server 1 at the base O according to the first embodiment.
  • FIG. 20 shows a typical example of the process of step S13 of the server 1.
  • the folded video layout adjustment unit 114 acquires a reference video that captures the entire stage ST from the reference video imaging device 104 (step S136).
  • the return video layout adjustment unit 114 adjusts the performer movement area PA, which is an area corresponding to the movement range of the performer (one or more) PL, on the video display area DA of the return video presentation device 103. is estimated (step S137).
  • the performer movement area PA which is an area corresponding to the movement range of the performer (one or more) PL, on the video display area DA of the return video presentation device 103.
  • a background subtraction method or a skeleton estimation method effective when estimating only the moving region of the upper body, which are well-known moving object detection methods, can be used.
  • the return video layout adjustment unit 114 calculates the delay time of the video V signal 2 of each of the bases R 1 to R n (step S131), and calculates the delay time of the video V signal 2 for each of the bases R 1 to R n
  • the bases R are sorted in descending order of delay time for each of n (step S132).
  • the return video layout adjustment unit 114 determines the placement position of the latest video V signal2 of the base R on the prescribed presentation layout in the sorted order (step S133).
  • the prescribed presentation layout includes not a fixed central area CA but a performer movement area PA that changes as the performer PL moves.
  • the eyes tend to concentrate on the performer PL on the stage ST, so if the loopback video with a short delay time is placed in an area that is easily visible to the audience at the concert venue, the discomfort caused by the large delay time can be reduced. It can be difficult to give.
  • FIG. 21 is a schematic diagram for explaining the presentation layout of loopback video based on communication delay.
  • the performer movement area PA estimated in step S137 is an area that is easily visible to the audience. Therefore, by arranging return images with a small amount of delay in this performer movement area PA, and placing return images with a large delay amount as they move away from the performer movement area PA, the time difference between the return images from base R can be adjusted. It is possible to reduce the sense of discomfort caused by the audience.
  • the return video of the base R with the smallest delay time sorted in step S132 is placed in the center of the performer movement area PA estimated in step S137, and the return video of the base R with the smallest delay time is placed near the performer movement area PA.
  • a concentric (radial) layout of the folded images is adopted so that the folded images are arranged.
  • This layout arrangement is an example of a presentation layout.
  • the return video layout adjustment unit 114 reads out the latest video V signal2 from the video information storage unit 131 in the order sorted in step S132, and stores the read bases R 1 to R
  • a video V signal3 is generated by arranging the n video V signal2 in the order of this layout arrangement (step S134), and the generated video V signal3 is outputted to the video presentation device 103 (step S135).
  • the return video presentation device 103 reproduces and displays a video V signal3 based on the video V signal2 that is returned from each of the bases R 1 to R n to the base O.
  • the server 1 adjusts the presentation layout of the plurality of videos V signal2 on the return video presentation device 103 based on the delay time of each of the plurality of videos V signal2 from the plurality of bases R.
  • the upper arrangement position is determined, and a video V signal3 is generated in which each video V signal2 is arranged at the determined arrangement position.
  • the server 1 arranges the video V signal2 with a shorter delay time at the center of the performer movement area PA, and as the delay time increases, the video V signal2 is placed further away from the performer movement area PA.
  • the server 1 adjusts the position for displaying the video V signal2 from each base R based on the delay time for displaying the video V signal2 and the performer movement area PA corresponding to the audience's field of view. Can be done. If there is no unique image among the multiple images placed nearby, people will not feel a sense of discomfort, so the server 1 places the return images with a short delay time in an area that is easily visible to the audience at the concert venue. Therefore, it is possible to reduce the sense of discomfort experienced by the audience due to the time lag between the returned images.
  • the position where the video V signal2 with a short delay time is displayed is also changed, which is more effective in reducing the audience's discomfort.
  • the arrangement position on the presentation layout of the return video V signal 2 from each base R is determined based on the delay time, but an index other than the delay time, for example, the video V signal 2 is determined based on the delay time.
  • the arrangement position can be determined based on the resolution of signal2 , the presence or absence of image disturbance in video V signal2 , and the like.
  • the presence of video disturbance means, for example, a case where the packet loss occurrence rate over a certain period of time is greater than or equal to a threshold value.
  • the index used to determine the placement position of the reflected video V signal2 for example, the following can be considered: (1) Delay time, (2) Delay time and resolution, (3) Delay time and image disturbance, (4) Delay time, resolution, and image disturbance, (5) resolution, (6) Image disturbance, (7) Resolution and image disturbance.
  • the loopback video layout adjustment unit 114 determines whether a video with a long delay time and a low resolution is placed far from the performer movement area PA where it can easily be seen by the audience. Determine the placement position so that the In addition, when using "(3) Delay time and video disturbance" as an index, the return video layout adjustment unit 114 moves the performer so that the video with the large delay time and video disturbance is easily seen by the audience. The placement position is determined so that it is placed far from the area PA.
  • the delay time index value is a (second)
  • the resolution index value is b (pixel)
  • the video disturbance index value is c (%).
  • the server 1 stores the resolution table in the data storage unit 13.
  • FIG. 23 is a diagram showing an example of the resolution table 132.
  • the resolution table 132 stores resolution index values b for each resolution (b1 ⁇ b2).
  • the folded video layout adjustment unit 114 reads out the resolution index value b corresponding to the resolution of the video V signal 2 stored in the video information storage unit 131 from the resolution table 132.
  • the folded video layout adjustment unit 114 calculates the packet loss occurrence rate in the most recent 1 second from the video V signal 2 sequence stored in the video information storage unit 131, and sets it as the video disturbance index value c. However, if the calculated packet loss occurrence rate is 0, the folded video layout adjustment unit 114 sets the video disturbance index value c to 1.
  • the folded video layout adjustment unit 114 applies these values of a, b, and c to, for example, the following equation, calculates the weighted sum p(x), and the larger the value of p(x), the easier it is to enter the audience's field of view.
  • a video V signal2 is placed near the performer movement area PA.
  • ⁇ , ⁇ , and ⁇ are predetermined weighting coefficients, and ⁇ > ⁇ > ⁇ .
  • the server 1 uses at least one of the following three indicators: the delay time, resolution, and image disturbance of each of the plurality of video signals 2 from the plurality of bases R. , determines the placement positions of the plurality of videos V signal2 on the presentation layout on the return video presentation device 103, and generates a video V signal3 in which each video V signal2 is placed at the determined placement position. In this way, when a plurality of videos V signal2 transmitted from a plurality of bases R at different times are played back, the server 1 selects a video with a large value in at least one of the three indicators of delay time, resolution, and video disturbance. By arranging V signal2 in a position where it is not noticeable, it is possible to reduce the sense of discomfort felt by the audience at base O.
  • the server 1 at the base O can mix the sounds from each base R with a louder sound as the delay time is smaller, and output the mixture from, for example, a loopback audio presentation device.
  • steps S131 and S132 are performed each time when repeating the return video layout adjustment process in step S13, but they may be performed only once. (the delay time is constant), and the sorting order may be updated by executing it at regular intervals. Furthermore, when calculating the delay time of each base R, not only the latest delay time but also previously calculated delay times may be used to determine the delay time of each base R based on an average value or the like.
  • the process of estimating the performer movement area PA in step S137 in the second embodiment is assumed to be performed every time when repeating the folded video layout adjustment process in step S13, but it is assumed that it is performed only once. Alternatively, the estimation may be repeated at regular intervals to update the performer movement area PA. Note that although an example has been shown in which the estimation is automatically made from the reference video of the reference video photographing device 104, the performer movement area PA may be set manually without using the standard video photographing device 104.
  • the presentation video adjustment device may be realized by one device as explained in the above example, or may be realized by multiple devices with distributed functions.
  • the program may be transferred while being stored in the electronic device, or may be transferred without being stored in the electronic device. In the latter case, the program may be transferred via a network or may be transferred while being recorded on a recording medium.
  • a recording medium is a non-transitory tangible medium.
  • the recording medium is a computer readable medium.
  • the recording medium may be any medium capable of storing a program and readable by a computer, such as a CD-ROM or a memory card, and its form is not limited.
  • the present invention is not limited to the above-described embodiments as they are, but can be embodied by modifying the constituent elements at the implementation stage without departing from the spirit of the invention.
  • various inventions can be formed by appropriately combining the plurality of components disclosed in the above embodiments. For example, some components may be deleted from all the components shown in the embodiments. Furthermore, components from different embodiments may be combined as appropriate.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

一実施形態では、提示映像調整装置は、映像提示装置を備える第1の拠点の装置であって、受信部と、レイアウト調整部と、を備える。受信部は、第1の拠点とは異なる複数の第2の拠点のそれぞれから、第1の拠点で第1の時刻に取得された第1の映像を第2の拠点で再生する時刻に第2の拠点で取得された第2の映像を格納したパケットを受信する。レイアウト調整部は、第2の拠点からの複数のパケットに基づく複数の第2の映像それぞれの、遅延時間、解像度及び映像乱れ、の三指標の内の少なくとも一つに基づいて、複数の第2の映像それぞれの映像提示装置での規定の提示レイアウト上の配置位置を決定し、決定した配置位置に従って複数の前記第2の映像を配置した第3の映像を映像提示装置に出力する。

Description

提示映像調整装置、提示映像調整方法及び提示映像調整プログラム
 この発明の一態様は、提示映像調整装置、提示映像調整方法及び提示映像調整プログラムに関する。
 近年、或る地点で撮影・収録された映像・音声をデジタル化して、IP(Internet Protocol)ネットワーク等の通信回線を介して遠隔地にリアルタイム伝送し、遠隔地で映像・音声を再生する、映像・音声再生装置が用いられるようになってきた。例えば、競技会場で行われているスポーツ競技試合の映像・音声やコンサート会場で行われている音楽コンサートの映像・音声を遠隔地にリアルタイム伝送するパブリックビューイング等が盛んに行われている。
 このような映像・音声の伝送は、1対1の一方向伝送に留まらず、双方向伝送も行われている。この双方向伝送では、例えば、スポーツ競技試合が行われている会場(以下、イベント会場と称する)である第1の拠点から映像・音声を遠隔地の複数の第2の拠点に伝送し、各第2の拠点において大型映像表示装置やスピーカから出力する。そして、それら複数の遠隔地でもそれぞれ観客がイベントを楽しんでいる映像や歓声等の音声を撮影・収録して、それらの映像・音声を折り返し映像・音声として、イベント会場である第1の拠点に伝送し、第1の拠点においてそれらを集約して、大型映像表示装置やスピーカから出力する。このような双方向での映像・音声の伝送により、イベント会場に居る選手(または演者)や観客、複数の遠隔地に居る視聴者らは、物理的に離れた場所に居るにも関わらず、あたかも同じ空間(イベント会場)に居て、同じ体験をしているかのような臨場感や一体感を得ることができる。
 遠隔地の第2の拠点で撮影・収録された観客の折り返し映像・音声は、既存のWeb会議サービスやビデオ会議サービスを用いることで、第1の拠点であるイベント会場で集約して出力することができる。複数映像の表示レイアウトの調整や映像切替えの自動化については、音声情報を活用する方法(例えば、非特許文献1を参照)、視線情報に基づく方法(例えば、非特許文献2を参照)等が存在する。
齋藤渓,橋本浩二,「マルチストリーミングの音声情報による画面調整機能」,情報処理学会第79回全国大会講演論文集,2017(1),2017年3月,p.507-508 竹前嘉修,大塚和弘,武川直樹,「対面の複数人対話を撮影対象とした対話参加者の視線に基づく映像切替え方法とその効果」,情報処理学会論文誌,2005年7月,vol.46,No.7,p.1752-1767
 IPネットワークによる映像・音声のリアルタイム伝送では、RTP(Real-time Transport Protocol)が用いられることが多い。2拠点間でのデータ伝送時間は、その2拠点をつなぐ通信回線等により異なる。例えば、イベント会場Aで時刻Tに撮影・収録された映像・音声を2つの遠隔地B及び遠隔地Cに伝送し、遠隔地B及び遠隔地Cでそれぞれ撮影された映像をイベント会場Aに折り返し伝送する場合を考える。遠隔地Bにおいてイベント会場Aから伝送された、時刻Tに撮影・収録された映像・音声は、時刻Tb1に再生され、遠隔地Bで時刻Tb1に撮影された映像は、イベント会場Aに折り返し伝送され、イベント会場Aで時刻Tb2に再生される。また、遠隔地Cにおいては、イベント会場Aで時刻Tに撮影・収録され伝送された映像・音声は、時刻Tc1(≠Tb1)に再生され、遠隔地Cで時刻Tc1に撮影された映像は、イベント会場Aに折り返し伝送され、イベント会場Aで時刻Tc2(≠Tb2)に再生される。
 このような通信遅延が有る場合、イベント会場Aに居る選手(または演者)や観客にとっては、時刻Tに自分自身が体験した出来事に対して、複数の遠隔地に居る視聴者がどのような反応をしたかを示す折り返し映像を、それぞれ異なる時刻(時刻Tb2と時刻Tc2)で視聴することになる。例えば、コンサート会場において楽曲の或るフレーズで手を挙げる演出を行うときに、遠隔地に居る視聴者は手を挙げるタイミングがずれてしまう。このようなタイミングがずれた遠隔地の観客の折り返し映像を大型映像表示装置に出力すると、イベント会場Aに居る選手(または演者)や観客にとっては、自分自身との体験とのつながりの直感的な判りづらさや不自然さ(違和感)を生じさせてしまい、遠隔地の観客との一体感を高め難いことが有る。
 また、通信遅延によるタイミングがずれた映像以外にも、解像度が低い若しくは乱れが生じている折り返し映像が視界に入ると、イベント会場Aに居る選手(または演者)や観客の快適な視聴を阻害する原因となり得る。
 このようなイベント会場Aに居る選手(または演者)や観客の視聴を阻害しないように、イベント会場Aに遅れて到着した遠隔地の観客の折り返し映像を出力しないようにすることが考えられる。しかしながら、それでは、その出力から外された遠隔地の観客の満足度を低下させてしまう。そのため、何らか工夫して折り返し映像を出力することが望ましい(観客に優先度等付けず公平に扱う)。Web会議やビデオ会議のように話者と聴者に分かれるわけではないため、非特許文献1及び2に開示されているような従来手法によるレイアウト調整は適用し難い。
 この発明は、上記事情に着目してなされたもので、その目的とするところは、複数の拠点から異なる時刻に伝送される複数の映像が再生されるときに視聴者が感じる違和感を低減させる技術を提供することにある。
 この発明の一実施形態では、提示映像調整装置は、映像提示装置を備える第1の拠点の装置であって、受信部と、レイアウト調整部と、を備える。受信部は、第1の拠点とは異なる複数の第2の拠点のそれぞれから、第1の拠点で第1の時刻に取得された第1の映像を第2の拠点で再生する時刻に第2の拠点で取得された第2の映像を格納したパケットを受信する。レイアウト調整部は、第2の拠点からの複数のパケットに基づく複数の第2の映像それぞれの、遅延時間、解像度及び映像乱れ、の三指標の内の少なくとも一つに基づいて、複数の第2の映像それぞれの映像提示装置での規定の提示レイアウト上の配置位置を決定し、決定した配置位置に従って複数の前記第2の映像を配置した第3の映像を映像提示装置に出力する。
 この発明の一態様によれば、複数の拠点から異なる時刻に伝送される複数の映像が再生されるときに視聴者が感じる違和感を低減させることができる。
図1は、第1の実施形態に係る提示映像調整システムに含まれる各電子機器のハードウェア構成の一例を示すブロック図である。 図2は、第1の実施形態に係る提示映像調整システムを構成する各電子機器のソフトウェア構成の一例を示すブロック図である。 図3は、第1の実施形態に係る拠点Oのサーバが備える映像情報格納部における時刻管理DBのデータ構造の一例を示す図である。 図4は、第1の実施形態に係る拠点R1のサーバが備える映像時刻管理DBのデータ構造の一例を示す図である。 図5は、第1の実施形態に係る拠点Oにおけるサーバの処理手順と処理内容を示すフローチャートである。 図6は、第1の実施形態に係る拠点R1におけるサーバの処理手順と処理内容を示すフローチャートである。 図7は、第1の実施形態に係る拠点Oにおけるサーバのメディア送信処理の処理手順と処理内容を示すフローチャートである。 図8は、第1の実施形態に係る拠点R1におけるサーバのメディア受信処理の処理手順と処理内容を示すフローチャートである。 図9は、第1の実施形態に係る拠点R1におけるサーバの映像オフセット算出処理の処理手順と処理内容を示すフローチャートである。 図10は、第1の実施形態に係る拠点R1におけるサーバの折り返し映像送信処理の処理手順と処理内容を示すフローチャートである。 図11は、第1の実施形態に係る拠点Oにおけるサーバの折り返し映像受信処理の処理手順と処理内容を示すフローチャートである。 図12は、第1の実施形態に係る拠点Oにおけるサーバの折り返し映像レイアウト調整処理の処理手順と処理内容を示すフローチャートである。 図13は、通信遅延に基づく折り返し映像の提示レイアウトを説明するための模式図である。 図14は、折り返し映像の配置順番を説明するための模式図である。 図15は、図14の配置順番での折り返し映像の配置例を説明するための模式図である。 図16は、第2の実施形態に係る提示映像調整システムに含まれる各電子機器のハードウェア構成の一例を示すブロック図である。 図17は、第2の実施形態に係る提示映像調整システムを構成する各電子機器のソフトウェア構成の一例を示すブロック図である。 図18は、第2の実施形態に係る拠点Oにおける折り返し映像提示装置と基準映像撮影装置と演者との位置関係を説明するための模式図である。 図19は、第2の実施形態に係る拠点Oにおける折り返し映像提示装置での演者の移動領域を説明するための模式図である。 図20は、第2の実施形態に係る拠点Oにおけるサーバの折り返し映像レイアウト調整処理の処理手順と処理内容を示すフローチャートである。 図21は、第2の実施形態に係る通信遅延に基づく折り返し映像の提示レイアウトを説明するための模式図である。 図22は、第2の実施形態に係る折り返し映像の配置順番での折り返し映像の配置例を説明するための模式図である。 図23は、第3の実施形態に係る拠点Oのサーバが備える解像度テーブルの一例を示す図である。
 以下、図面を参照して、この発明に係る幾つかの実施形態を説明する。
 競技会場又はコンサート会場等のイベント会場となる拠点Oにおいて映像・音声が撮影・収録された絶対時刻に対して一意に定まる時刻情報は、複数の遠隔地の拠点R1~拠点Rn(nは2以上の整数)に伝送する映像・音声に付与される。拠点R1~拠点Rnのそれぞれにおいて、当該時刻情報を持つ映像・音声が再生された時刻に撮影された映像は、当該時刻情報と対応付けられる。拠点Oにおいて、拠点R1~拠点Rnのそれぞれから伝送される映像を再生するとき、当該時刻情報に基づいて決定される表示位置に各映像が配置されて再生させる。
 時刻情報は、拠点Oと拠点R1~拠点Rnのそれぞれとの間で以下の何れかの手段により送受信される。時刻情報は、拠点R1~拠点Rnのそれぞれで撮影された映像と対応付けられる。
 (1)時刻情報は、拠点Oと拠点R1~拠点Rnのそれぞれとの間で送受信するRTPパケットのヘッダ拡張領域に格納される。例えば、時刻情報は、絶対時刻形式(hh:mm:ss.fff形式)であるが、ミリ秒形式であっても良い。
 (2)時刻情報は、拠点Oと拠点R1~拠点Rnのそれぞれとの間で一定の間隔で送受信されるRTCP(RTP Control Protocol)におけるAPP(Application-Defined)を用いて記述される。この例では、時刻情報は、ミリ秒形式である。
 (3)時刻情報は、伝送開始時に拠点Oと拠点R1~拠点Rnのそれぞれとの間でやり取りさせる初期値パラメータを記述するSDP(Session Description Protocol)に格納される。この例では、時刻情報は、ミリ秒形式である。
 [第1の実施形態]
 第1の実施形態では、拠点Oにおいて撮影・収録された映像及び音声は、1つのRTPパケットにどちらも格納されて遠隔地の拠点R1~拠点Rnに送信され、同様に、拠点R1~拠点Rnから拠点Oへ折り返し伝送される映像についても、RTPパケット化して送信されるとして説明する。勿論、映像と音声は、それぞれRTPパケット化して送信されても良い。映像及び音声は、メディアの一例である。
 また、拠点Oにおいて拠点R1~拠点Rnから折り返し伝送される映像の配置位置を決定するために用いる時刻情報は、拠点Oと拠点R1~拠点Rnのそれぞれとの間で送受信するRTPパケットのヘッダ拡張領域に格納される。例えば、時刻情報は、絶対時刻形式(hh:mm:ss.fff形式)である。
 (構成例)
 図1は、第1の実施形態に係る提示映像調整システムSに含まれる各電子機器のハードウェア構成の一例を示すブロック図である。
 提示映像調整システムSは、拠点Oに含まれる複数の電子機器、拠点R1~拠点Rnのそれぞれに含まれる複数の電子機器及び時刻配信サーバ10を含む。各拠点の電子機器及び時刻配信サーバ10は、IPネットワークNWを介して互いに通信可能である。
 拠点Oは、サーバ1、映像撮影装置101、音声収録装置102及び折り返し映像提示装置103を備える。拠点Oは、第1の拠点の一例である。
 サーバ1は、拠点Oに含まれる各電子機器を制御する電子機器である。サーバ1は、提示映像調整装置の一例である。
 映像撮影装置101は、拠点Oの映像を撮影するカメラを含む装置である。映像撮影装置101は、複数のカメラを含んでいても良い。
 音声収録装置102は、拠点Oの音声を収録するマイクを含む装置である。音声収録装置102は、複数のマイクを含んでいても良い。
 折り返し映像提示装置103は、拠点R1~拠点Rnのそれぞれから拠点Oに折り返し伝送される映像がレイアウト配置された映像を再生して表示する大型ディスプレイを含む装置である。例えば、ディスプレイは、液晶ディスプレイである。折り返し映像提示装置103は、映像提示装置の一例である。折り返し映像提示装置103は、例えば、コンサートでは、演奏者や歌唱者等の演者が立つステージの演者背面に設置されることができる。また、競技会場においては、競技者である選手とは離れた位置に折り返し映像提示装置103が設置される場合が多い。
 拠点Oのサーバ1の構成例について説明する。
 サーバ1は、制御部11、プログラム記憶部12、データ記憶部13、通信インタフェース14及び入出力インタフェース15を備える。サーバ1が備える各要素は、バスを介して、互いに接続されている。
 制御部11は、サーバ1の中枢部分に相当する。制御部11は、中央処理ユニット(Central Processing Unit:CPU)等のプロセッサを備える。プロセッサは、マルチコア/マルチスレッドのものであって良く、複数の処理を並行して実行することができる。制御部11は、不揮発性のメモリ領域としてROM(Read Only Memory)を備える。制御部11は、揮発性のメモリ領域としてRAM(Random Access Memory)を備える。プロセッサは、ROM又はプログラム記憶部12に記憶されているプログラムをRAMに展開する。プロセッサがRAMに展開されるプログラムを実行することで、制御部11は、後述する各機能部を実現する。制御部11は、コンピュータを構成する。
 プログラム記憶部12は、記憶媒体としてHDD(Hard Disk Drive)又はSSD(Solid State Drive)等の随時書込み及び読出しが可能な不揮発性メモリで構成される。プログラム記憶部12は、各種制御処理を実行するために必要なプログラムを記憶する。例えば、プログラム記憶部12は、制御部11に実現される後述する各機能部による処理をサーバ1に実行させるプログラムを記憶する。プログラム記憶部12は、ストレージの一例である。
 データ記憶部13は、記憶媒体としてHDD、又はSSD等の随時書込み及び読出しが可能な不揮発性メモリで構成される。データ記憶部13は、ストレージ又は記憶部の一例である。
 通信インタフェース14は、IPネットワークNWにより定義される通信プロトコルを使用して、サーバ1を他の電子機器と通信可能に接続する種々のインタフェースを含む。
 入出力インタフェース15は、サーバ1と映像撮影装置101、音声収録装置102及び折り返し映像提示装置103のそれぞれとの通信を可能にするインタフェースである。入出力インタフェース15は、有線通信のインタフェースを備えていても良いし、無線通信のインタフェースを備えていても良い。
 なお、サーバ1のハードウェア構成は、上述の構成に限定されるものではない。サーバ1は、適宜、上述の構成要素の省略、及び変更並びに新たな構成要素の追加を可能とする。
 拠点R1は、サーバ2、映像提示装置201、音声提示装置202、オフセット映像撮影装置203及び折り返し映像撮影装置204を備える。拠点R1は、第1の拠点とは異なる第2の拠点の一例である。
 サーバ2は、拠点R1に含まれる各電子機器を制御する電子機器である。
 映像提示装置201は、拠点Oから拠点R1に伝送される映像を再生して表示するディスプレイを含む装置である。
 音声提示装置202は、拠点Oから拠点R1に伝送される音声を再生して出力するスピーカを含む装置である。
 オフセット映像撮影装置203は、撮影時刻を記録可能な装置である。オフセット映像撮影装置203は、映像提示装置201の映像表示領域全体を撮影できるように設置されたカメラを含む装置である。
 折り返し映像撮影装置204は、拠点R1の映像を撮影するカメラを含む装置である。例えば、折り返し映像撮影装置204は、拠点Oから拠点R1に伝送される映像を再生して表示する映像提示装置201の設置された拠点R1で視聴する観客の様子の映像を撮影する。
 拠点R1のサーバ2の構成例について説明する。
 サーバ2は、制御部21、プログラム記憶部22、データ記憶部23、通信インタフェース24及び入出力インタフェース25を備える。サーバ2が備える各要素は、バスを介して、互いに接続されている。
 制御部21は、拠点Oのサーバ1における制御部11と同様に構成され得る。プロセッサは、ROM、又はプログラム記憶部22に記憶されているプログラムをRAMに展開する。プロセッサがRAMに展開されるプログラムを実行することで、制御部21は、後述する各機能部を実現する。制御部21は、コンピュータを構成する。
 プログラム記憶部22は、拠点Oのサーバ1におけるプログラム記憶部12と同様に構成され得る。
 データ記憶部23は、拠点Oのサーバ1におけるデータ記憶部13と同様に構成され得る。
 通信インタフェース24は、拠点Oのサーバ1における通信インタフェース14と同様に構成され得る。通信インタフェース24は、サーバ2を他の電子機器と通信可能に接続する種々のインタフェースを含む。
 入出力インタフェース25は、拠点Oのサーバ1における入出力インタフェース15と同様に構成され得る。入出力インタフェース25は、サーバ2と映像提示装置201、音声提示装置202、オフセット映像撮影装置203及び折り返し映像撮影装置204のそれぞれとの通信を可能にする。
 なお、サーバ2のハードウェア構成は、上述の構成に限定されるものではない。サーバ2は、適宜、上述の構成要素の省略、及び変更並びに新たな構成要素の追加を可能とする。
 拠点R2~拠点Rnのそれぞれに含まれる複数の電子機器のハードウェア構成は、上述の拠点R1と同様であるので、その説明を省略する。以下、拠点R1~拠点Rnを区別して説明する必要が無い場合には、単に拠点Rと記載して説明するものとする。
 時刻配信サーバ10は、基準システムクロックを管理する電子機器である。基準システムクロックは、絶対時刻である。
 図2は、第1の実施形態に係る提示映像調整システムSを構成する各電子機器のソフトウェア構成の一例を示すブロック図である。
 拠点Oのサーバ1は、時刻管理部111、メディア送信部112、折り返し映像受信部113及び折り返し映像レイアウト調整部114を備える。各機能部は、制御部11によるプログラムの実行によって実現される。各機能部は、制御部11又はプロセッサが備えると言うこともできる。各機能部は、制御部11又はプロセッサと読み替え可能である。各機能部は、また、ASIC(Application Specific Integrated Circuit)、DSP(Digital Signal Processor)、FPGA(field-programmable gate array)、GPU(Graphics Processing Unit)、等の集積回路を含む、他の多様な形式で実現されても良い。更に、サーバ1は、映像情報格納部131を備える。映像情報格納部131は、データ記憶部13によって実現される。
 時刻管理部111は、時刻配信サーバ10と公知のNTPやPTP等のプロトコルを用いて時刻同期を行い、基準システムクロックを管理する。時刻管理部111は、拠点R1~拠点Rnのそれぞれのサーバ2が管理する基準システムクロックと同一の基準システムクロックを管理する。時刻管理部111が管理する基準システムクロックと、サーバ2が管理する基準システムクロックとは、時刻同期している。
 メディア送信部112は、映像撮影装置101から出力される映像Vsignal1と音声収録装置102から出力される音声Asignal1とを格納したRTPパケットを、IPネットワークNWを介して、拠点R1~拠点Rnのそれぞれのサーバに送信する。映像Vsignal1は、拠点Oで絶対時刻である時刻Tmediaに取得された映像である。映像Vsignal1を取得することは、映像撮影装置101が映像Vsignal1を撮影することを含む。映像Vsignal1を取得することは、映像撮影装置101が撮影した映像Vsignal1をサンプリングすることを含む。音声Asignal1は、拠点Oで絶対時刻である時刻Tmediaに取得された音声である。音声Asignal1を取得することは、音声収録装置102が音声Asignal1を収録することを含む。音声Asignal1を取得することは、音声収録装置102が収録した音声Asignal1をサンプリングすることを含む。
 映像Vsignal1及び音声Asignal1を格納したRTPパケットは、時刻Tmediaを付与されている。時刻Tmediaは、拠点Oで映像Vsignal1及び音声Asignal1が取得された時刻である。時刻Tmediaは、拠点Oで折り返し映像の表示位置調整処理するための時刻情報である。映像Vsignal1は、第1の映像の一例である。時刻Tmediaは、第1の時刻の一例である。RTPパケットは、パケットの一例である。
 折り返し映像受信部113は、IPネットワークNWを介して、映像Vsignal2を格納したRTPパケットを拠点R1~拠点Rnのそれぞれのサーバ2から受信する。映像Vsignal2は、映像Vsignal1を拠点R1~拠点Rnの何れかの拠点で再生する時刻にこの拠点で取得された映像である。映像Vsignal2を取得することは、該当する拠点Rの折り返し映像撮影装置204が映像Vsignal2を撮影することを含む。映像Vsignal2を取得することは、折り返し映像撮影装置204が撮影した映像Vsignal2をサンプリングすることを含む。映像Vsignal2を格納したRTPパケットは、時刻Tmediaを付与されている。折り返し映像受信部113は、受信したRTPパケットから時刻Tmedia及び映像Vsignal2を取得し、それら取得した時刻Tmediaと映像Vsignal2とを関連付けて、映像情報格納部131に確保した拠点R1~拠点Rnそれぞれの映像格納領域に格納する。或いは、折り返し映像受信部113は、取得した時刻Tmediaと映像Vsignal2とに、拠点R1~拠点Rnの何れに対応するのかを示す識別子を関連付けて、映像情報格納部131に格納する。映像Vsignal2は、第2の映像の一例である。また、折り返し映像受信部113は、受信部の一例である。
 更に、折り返し映像受信部113は、その映像Vsignal2の取得時刻つまりRTPパケットの受信時刻t2を、時刻Tmediaと関連付けて映像情報格納部131に格納する。例えば、映像情報格納部131は、上記RTPパケットの受信時刻t2と時刻Tmediaとを関連付けて格納するためのデータベースである時刻管理DB1311を備えることができる。図3は、この時刻管理DBのデータ構造の一例を示す図である。時刻管理DB1311は、映像同期基準時刻カラムと拠点R1~拠点Rnそれぞれの受信時刻カラムとを備える。映像同期基準時刻カラムは、時刻Tmediaを格納する。受信時刻カラムは、拠点R1~拠点Rnそれぞれの受信時刻t2である受信時刻t2_R1~t2_Rnを格納する。
 折り返し映像レイアウト調整部114は、映像情報格納部131に格納された拠点R1~拠点Rnそれぞれの映像Vsignal2を一画面に配置した映像Vsignal3を生成し、映像Vsignal3を折り返し映像提示装置103に出力する。例えば、折り返し映像レイアウト調整部114は、拠点R1~拠点Rnそれぞれの映像Vsignal2について、関連付けられた時刻Tmediaと受信時刻t2との差分を算出し、それら差分により拠点Oと拠点R1~拠点Rnそれぞれとの間の遅延時間つまり通信遅延量を判定する。そして、折り返し映像レイアウト調整部114は、通信遅延量が小さい映像Vsignal2程、観客の視界に入り易い位置に配置されるように、一画面上の各映像Vsignal2の配置順番及び配置位置を調整して、映像Vsignal3を生成する。映像Vsignal3は、第3の映像の一例である。また、折り返し映像レイアウト調整部114は、レイアウト調整部の一例である。
 拠点R1のサーバ2は、時刻管理部211、メディア受信部212、映像オフセット算出部213及び折り返し映像送信部214を備える。各機能部は、制御部21によるプログラムの実行によって実現される。各機能部は、制御部21又はプロセッサが備えると言うこともできる。各機能部は、制御部21又はプロセッサと読み替え可能である。各機能部は、制御部11又はプロセッサと読み替え可能である。各機能部は、また、ASIC、DSP、FPGA、GPU、等の集積回路を含む、他の多様な形式で実現されても良い。更に、サーバ2は、映像時刻管理DB231を備える。映像時刻管理DB231は、データ記憶部23によって実現される。
 時刻管理部211は、時刻配信サーバ10と公知のNTPやPTP等のプロトコルを用いて時刻同期を行い、基準システムクロックを管理する。時刻管理部211は、サーバ1が管理する基準システムクロックと同一の基準システムクロックを管理する。時刻管理部211が管理する基準システムクロックと、サーバ1が管理する基準システムクロックとは、時刻同期している。
 メディア受信部212は、IPネットワークNWを介して、時刻Tmediaを付与された、映像Vsignal1及び音声Asignal1を格納したRTPパケットをサーバ1から受信する。メディア受信部212は、受信したRTPパケットから時刻Tmedia、映像Vsignal1及び音声Asignal1を取得する。メディア受信部212は、取得した映像Vsignal1を映像提示装置201に出力し、取得した音声Asignal1を音声提示装置202に出力する。また、メディア受信部212は、取得した時刻Tmedia及び映像Vsignal2を映像オフセット算出部213に出力する。
 映像オフセット算出部213は、映像提示装置201で映像Vsignal1が再生された絶対時刻である提示時刻t1を算出する。例えば、映像オフセット算出部213は、公知の画像処理技術を用いて、オフセット映像撮影装置203で撮影した映像の中から、メディア受信部212から出力された映像Vsignal1を含む映像フレームをオフセット映像撮影装置203で撮影した映像の中から抽出する。映像オフセット算出部213は、この抽出した映像フレームに付与されている撮影時刻を提示時刻t1として取得する。そして、映像オフセット算出部213は、メディア受信部212から出力された時刻Tmediaとこの取得した提示時刻t1とを関連付けて映像時刻管理DB231に格納する。
 図4は、第1の実施形態に係る拠点R1のサーバ2が備える映像時刻管理DB231のデータ構造の一例を示す図である。映像時刻管理DB231は、時刻Tmediaと提示時刻t1とを関連付けて格納するデータベースである。映像時刻管理DB231は、映像同期基準時刻カラムと提示時刻カラムとを備える。映像同期基準時刻カラムは、時刻Tmediaを格納する。提示時刻カラムは、提示時刻t1を格納する。
 折り返し映像送信部214は、IPネットワークNWを介して、折り返し映像撮影装置204が撮影した映像Vsignal2を格納したRTPパケットをサーバ1に送信する。この際、折り返し映像送信部214は、映像時刻管理DB231から、映像Vsignal2が撮影された絶対時刻である時刻tと一致する提示時刻t1に関連付けられた時刻Tmediaを読み出し、その時刻Tmediaを、映像Vsignal2を格納したRTPパケットに付与する。
 なお、拠点R2~拠点Rnの各サーバは、拠点R1のサーバ2と同様の機能部及びDBを含み、拠点R1のサーバ2と同様の処理を実行する。拠点R2~拠点Rnの各サーバに含まれる機能部の処理フローやDB構造の説明は省略する。
 (動作例)
 以下では、拠点O及び拠点R1の動作を例にして説明する。拠点R2~拠点Rnの動作は、拠点R1の動作と同様であって良く、その説明を省略する。拠点R1の表記は、拠点R2~拠点Rnと読み替えても良い。
 拠点Oにおけるサーバ1の処理について説明する。図5は、第1の実施形態に係る拠点Oにおけるサーバ1の処理手順と処理内容を示すフローチャートである。サーバ1は、イベント会場のリアルタイム伝送を実施している間、このフローチャートに示す処理を繰り返し実行する。
 メディア送信部112は、IPネットワークNWを介して、映像Vsignal1及び音声Asignal1を格納したRTPパケットを拠点R1~拠点Rnそれぞれのサーバ2に送信するメディア送信処理を実行する(ステップS11)。このメディア送信処理の典型例については後述する。
 折り返し映像受信部113は、ステップS11のメディア送信処理と併行して、折り返し映像受信処理を実行する(ステップS12)。この折り返し映像受信処理は、IPネットワークNWを介して、映像Vsignal2を格納したRTPパケットを拠点R1~拠点Rnそれぞれのサーバ2から受信する処理である。この折り返し映像受信処理の典型例については後述する。
 折り返し映像レイアウト調整部114は、ステップS11のメディア送信処理及びステップS12の折り返し映像受信処理と併行して、折り返し映像レイアウト調整処理を実行する(ステップS13)。この折り返し映像レイアウト調整処理は、折り返し映像受信部113により拠点R1~拠点Rnそれぞれから受信した映像Vsignal2の例えば遅延時間に基づいて、それら複数の映像Vsignal2の折り返し映像提示装置103での規定の提示レイアウト上の配置位置を決定し、決定した配置位置に従って複数の映像Vsignal2を配置した映像Vsignal3を生成して、折り返し映像提示装置103に出力する処理である。この折り返し映像レイアウト調整処理の典型例については後述する。
 拠点R1におけるサーバ2の処理について説明する。図6は、第1の実施形態に係る拠点R1におけるサーバ2の処理手順と処理内容を示すフローチャートである。サーバ2は、イベント会場での競技会場やコンサートのリアルタイム伝送の実施中、このフローチャートに示す処理を繰り返し実行することができる。
 メディア受信部212は、IPネットワークNWを介して、映像Vsignal1及び音声Asignal1を格納したRTPパケットをサーバ1から受信するメディア受信処理を実行する(ステップS21)。このメディア受信処理の典型例については後述する。
 映像オフセット算出部213は、映像提示装置201で映像Vsignal1が再生された提示時刻t1を算出する映像オフセット算出処理を実行する(ステップS22)。この映像オフセット算出処理の典型例については後述する。
 折り返し映像送信部214は、IPネットワークNWを介して、映像Vsignal2を格納したRTPパケットをサーバ1に送信する折り返し映像送信処理を実行する(ステップS23)。この折り返し映像送信処理の典型例については後述する。
 以下では、上述のサーバ1のステップS11~ステップS13の処理及び上述のサーバ2のステップS21~ステップS23の処理のそれぞれの典型例について説明する。時系列に沿った処理順で説明するため、サーバ1のステップS11の処理、サーバ2のステップS21の処理、サーバ2のステップS22の処理、サーバ2のステップS23の処理、サーバ1のステップS12の処理、サーバ1のステップS13の処理の順に説明する。
 図7は、第1の実施形態に係る拠点Oにおけるサーバ1のメデイア送信処理の処理手順と処理内容を示すフローチャートである。図7は、ステップS11の処理の典型例を示す。
 メディア送信部112は、映像撮影装置101から出力される映像Vsignal1を一定の間隔Ivideoで取得する(ステップS111)。
 メディア送信部112は、このステップS111の処理と併行して、音声収録装置102から出力される音声Asignal1を一定の間隔Ivideoで取得する(ステップS112)。
 メディア送信部112は、映像Vsignal1及び音声Asignal1を格納したRTPパケットを生成する(ステップS113)。ステップS113では、例えば、メディア送信部112は、ステップS111で取得した映像Vsignal1とステップS112で取得した音声Asignal1とをRTPパケットに格納する。メディア送信部112は、更に、時刻管理部111で管理される基準システムクロックから、映像Vsignal1を取得した絶対時刻である時刻Tmediaを取得する。メディア送信部112は、取得した時刻TmediaをRTPパケットのヘッダ拡張領域に格納する。
 メディア送信部112は、ステップS113で生成した映像Vsignal1及び音声Asignal1を格納したRTPパケットをIPネットワークNWに送出する(ステップS114)。
 図8は、第1の実施形態に係る拠点R1におけるサーバ2のメディア受信処理の処理手順と処理内容を示すフローチャートである。図8は、サーバ2のステップS21の処理の典型例を示す。
 メディア受信部212は、IPネットワークNWを介して、メディア送信部112から送出される映像Vsignal1及び音声Asignal1を格納したRTPパケットを受信する(ステップS211)。
 メディア受信部212は、受信した映像Vsignal1及び音声Asignal1を格納したRTPパケットに格納されている映像Vsignal1を取得する(ステップS212)。そして、メディア受信部212は、その取得した映像Vsignal1を映像提示装置201に出力する(ステップS213)。映像提示装置201は、映像Vsignal1を再生して表示する。
 メディア受信部212は、ステップS212の処理と併行して、受信した映像Vsignal1及び音声Asignal1を格納したRTPパケットに格納されている音声Asignal1を取得する(ステップS214)。そして、メディア受信部212は、その取得した音声Asignal1を音声提示装置202に出力する(ステップS215)。音声提示装置202は、音声Asignal1を再生して出力する。
 メディア受信部212は、上記ステップS211で受信した映像Vsignal1及び音声Asignal1を格納したRTPパケットのヘッダ拡張領域に格納されている時刻Tmediaを取得する(ステップS216)。
 メディア受信部212は、その取得した時刻Tmediaを、上記ステップS212で取得した映像Vsignal1と共に映像オフセット算出部213に受け渡す(ステップS217)。
 図9は、第1の実施形態に係る拠点R1におけるサーバ2の映像オフセット算出処理の処理手順と処理内容を示すフローチャートである。図9は、サーバ2のステップS22の処理の典型例を示す。
 映像オフセット算出部213は、映像Vsignal1及び時刻Tmediaをメディア受信部212から取得する(ステップS221)。
 映像オフセット算出部213は、取得した映像Vsignal1及びオフセット映像撮影装置203から入力される映像に基づき、提示時刻t1を算出する(ステップS222)。ステップS222では、例えば、映像オフセット算出部213は、オフセット映像撮影装置203で撮影した映像の中から公知の画像処理技術を用いて映像Vsignal1を含む映像フレームを抽出する。映像オフセット算出部213は、抽出した映像フレームに付与されている撮影時刻を提示時刻t1として取得する。撮影時刻は、絶対時刻である。
 映像オフセット算出部213は、取得した時刻Tmediaを映像時刻管理DB231の映像同期基準時刻カラムに格納する(ステップS223)。
 映像オフセット算出部213は、取得した提示時刻t1を映像時刻管理DB231の提示時刻カラムに格納する(ステップS224)。
 図10は、第1の実施形態に係る拠点R1におけるサーバ2の折り返し映像送信処理の処理手順と処理内容を示すフローチャートである。図10は、サーバ2のステップS23の処理の典型例を示す。
 折り返し映像送信部214は、折り返し映像撮影装置204から出力される映像Vsignal2を一定の間隔Ivideoで取得する(ステップS231)。映像Vsignal2は、映像提示装置201が映像Vsignal1を拠点R1で再生する時刻に拠点R1で取得された映像である。
 折り返し映像送信部214は、取得した映像Vsignal2が撮影された絶対時刻である時刻tを算出する(ステップS232)。ステップS232では、例えば、折り返し映像送信部214は、映像Vsignal2に撮影時刻を表すタイムコードTc(絶対時刻)が付与されている場合、t=Tcとして、時刻tを取得する。映像Vsignal2にタイムコードTcが付与されていない場合、折り返し映像送信部214は、時刻管理部211で管理される基準システムクロックから、現在時刻Tnを取得する。折り返し映像送信部214は、予め決めておいた所定値tvideo_offset(正の数)を用いて、t=Tn-tvideo_offsetとして、時刻tを取得する。
 折り返し映像送信部214は、映像時刻管理DB231を参照し、取得した時刻tと一致する時刻t1を持つレコードを抽出する(ステップS233)。
 折り返し映像送信部214は、映像時刻管理DB231を参照し、抽出したレコードの映像同期基準時刻カラムの時刻Tmediaを取得する(ステップS234)。
 折り返し映像送信部214は、映像Vsignal2を格納したRTPパケットを生成する(ステップS235)。ステップS235では、例えば、折り返し映像送信部214は、取得した映像Vsignal2をRTPパケットに格納する。折り返し映像送信部214は、取得した時刻TmediaをRTPパケットのヘッダ拡張領域に格納する。
 折り返し映像送信部214は、生成した映像Vsignal2を格納したRTPパケットをIPネットワークNWに送出する(ステップS236)。
 図11は、第1の実施形態に係る拠点Oにおけるサーバ1の折り返し映像受信処理の処理手順と処理内容を示すフローチャートである。図11は、サーバ1のステップS12の処理の典型例を示す。
 折り返し映像受信部113は、IPネットワークNWを介して、拠点R1~拠点Rnそれぞれの折り返し映像送信部214から送出される映像Vsignal2を格納したRTPパケットを受信する(ステップS121)。
 折り返し映像受信部113は、時刻管理部111で管理される基準システムクロックから、現在時刻Tnを、受信時刻t2として取得する(ステップS122)。
 折り返し映像受信部113は、受信した映像Vsignal2を格納したRTPパケットに格納されている映像Vsignal2を取得する(ステップS123)。
 折り返し映像受信部113は、受信した映像Vsignal2を格納したRTPパケットのヘッダ拡張領域に格納されている時刻Tmediaを取得する(ステップS124)。
 折り返し映像受信部113は、これら取得した受信時刻t2、映像Vsignal2及び時刻Tmediaを映像情報格納部131に格納する(ステップS125)。
 図12は、第1の実施形態に係る拠点Oにおけるサーバ1の折り返し映像レイアウト調整処理の処理手順と処理内容を示すフローチャートである。図12は、サーバ1のステップS13の処理の典型例を示す。
 折り返し映像レイアウト調整部114は、拠点R1~拠点Rnそれぞれの映像Vsignal2の遅延時間を算出する(ステップS131)。例えば、折り返し映像レイアウト調整部114は、拠点R1~拠点Rnそれぞれについて、映像情報格納部131の時刻管理DB1311に格納されている最新の受信時刻t2と、それに関連付けられた映像同期基準時刻である時刻Tmediaと、を取得する。この受信時刻t2は、折り返し映像受信部113により映像Vsignal2を格納したRTPパケットを受信したことに伴う時刻である。受信時刻t2は、映像Vsignal2に基づき生成される映像Vsignal3の再生時刻と言うこともできる。映像Vsignal2を格納したRTPパケットを受信したことに伴う受信時刻t2は、第2の時刻の一例である。折り返し映像レイアウト調整部114は、取得した受信時刻t2と時刻Tmediaとの差の値、つまり(t2-Tmedia)(ms)を、遅延時間として算出する。この遅延時間は、拠点Oと拠点Rとの間の往復の伝送遅延時間である。例えば、図3に示した例では、時刻Tmediaが「9:00:00.040」の映像Vsignal2が最新の折り返し映像であるとするならば、拠点R1の遅延時間は「9:00:02.040-9:00:00.040」であるので「2000(ms)」、拠点R2の遅延時間は「9:00:06.040-9:00:00.040」であるので「6000(ms)」、拠点Rnの遅延時間は「9:00:10.040-9:00:00.040」であるので「10000(ms)」となる。
 折り返し映像レイアウト調整部114は、算出した拠点R1~拠点Rnそれぞれの遅延時間が小さい順に拠点Rをソートする(ステップS132)。例えば、図3の例では、拠点R1、R2、Rnの順番となる。
 折り返し映像レイアウト調整部114は、ソートした順番に、その拠点Rの最新の映像Vsignal2を規定の提示レイアウト上に配置する配置位置を決定する(ステップS133)。人間の目の解像度は高くないため、互いに遠くに配置された複数の折り返し映像を同時に認識することは難しい(どちらかがぼやけて見える)。従って、近くに配置された(視界に入る)複数映像の中に特異な映像が無ければ、違和感を覚え難い。よって、イベント会場の観客の視界に入り易い領域に遅延時間が短い折り返し映像を配置すれば、遅延時間の大きさによる違和感を与え難くすることができる。
 図13は、通信遅延に基づく折り返し映像の提示レイアウトを説明するための模式図である。一般的に、コンサートでは、演奏者や歌唱者等の演者は、ステージST上の中央に居る時間が最も多い。よって、コンサート会場の観客は、ステージSTの背面に設置された折り返し映像提示装置103の映像表示領域DAにおける中央領域CA付近を見ることが多い。また、競技会場においては、競技者である選手とは離れた位置に折り返し映像提示装置103が設置される場合が多く、競技者との位置関係に相関が低い。このような折り返し映像提示装置103においても、多くの観客は、映像表示領域DAの端部分ではなくて中央領域CA付近を見ると想定される。そこで、この中央領域CAに遅延量が小さい折り返し映像を配置し、中央領域CAから離れるに従って遅延量が大きい折り返し映像を配置するようにすれば、拠点Rからの折り返し映像それぞれの時間のズレにより生じる観客の違和感を低減させることができる。中央領域CAは、映像提示装置の中央部の一例である。
 図14は、折り返し映像の配置順番を説明するための模式図であり、図15は、図14の配置順番での折り返し映像の配置例を説明するための模式図である(拠点Rの数n=54の場合)。本実施形態では、中央領域CAの中心に、ステップS132でソートした最も遅延時間が小さい拠点Rの折り返し映像を配置し、演者移動領域PAの近くに遅延時間の小さい折り返し映像が配置されるように、例えば同心円状(放射線状)の折り返し映像のレイアウト配置を採用する。このレイアウト配置は、提示レイアウトの一例である。
 折り返し映像レイアウト調整部114は、映像情報格納部131から、ステップS132でソートした順番に従って最新の映像Vsignal2を読み出し、それら読み出した拠点R1~拠点Rnそれぞれの映像Vsignal2をこのレイアウト配置における順番で配置していくことで、映像Vsignal3を生成する(ステップS134)。
 折り返し映像レイアウト調整部114は、生成した映像Vsignal3を折り返し映像提示装置103に出力する(ステップS135)。折り返し映像提示装置103は、拠点R1~拠点Rnそれぞれから拠点Oに折り返し伝送される映像Vsignal2に基づく映像Vsignal3を再生して表示する。
 (効果)
 以上述べたように第1の実施形態では、サーバ1は、複数の拠点Rからの複数の映像Vsignal2それぞれの遅延時間に基づいて、複数の映像Vsignal2の折り返し映像提示装置103での提示レイアウト上の配置位置を決定し、その決定した配置位置に各映像Vsignal2を配置した映像Vsignal3を生成する。イベント会場の観客は折り返し映像提示装置103の映像表示領域DAにおける中央領域CA付近を見ることが多い。よって、典型例では、サーバ1は、遅延時間が小さい映像Vsignal2程、中央領域CAの中心に配置し、遅延時間が大きくなるにつれてその映像Vsignal2が中央領域CAから離れるように配置する。このように、サーバ1は、映像Vsignal2を表示するための遅延時間と観客の視界に対応する中央領域CAとに基づいて、各拠点Rからの映像Vsignal2を表示する位置を調整することができる。近くに配置された複数映像の中に特異な映像が無ければ、人は違和感を覚え難いので、サーバ1は、イベント会場の観客の視界に入り易い領域に遅延時間が短い折り返し映像を配置することで、折り返し映像それぞれの時間のズレにより生じる観客の違和感を低減させることができる。
 このように、サーバ1は、複数の拠点Rから異なる時刻に伝送される複数の映像Vsignal2が再生されるときに、遅延時間が大きい映像Vsignal2は、目立たなくなるような位置に配置することで、拠点Oの視聴者である観客が感じる違和感を低減させることができる。
 更に、サーバ1は、遅延時間が大きい環境で視聴する拠点Rの観客を撮影した折り返し映像を、他の拠点Rの観客を撮影した折り返し映像と一緒に折り返し映像提示装置103に表示させる。従って、遅延時間が大きい環境で視聴する拠点Rの観客を撮影した折り返し映像は表示しないというようなことは無く、全ての拠点Rの顧客を差別化せずに折り返し映像を表示させることで、拠点Rの観客の満足度を下げてしまうのを防ぐことができる。
 [第2の実施形態]
 特に音楽コンサート等のイベント会場では、観客は演者に注目する。演者は、ステージST上を移動する場合が有る。そこで、第2の実施形態では、この演者の移動に伴って、遅延時間に応じた折り返し映像Vsignal2の配置位置を調整する。
 以下、第1の実施形態と同様の構成及び処理には第1の実施形態と同様の参照符号を付すことでその説明を省略し、第1の実施形態とは異なる部分について説明する。
 (構成例)
 図16は、第2の実施形態に係る提示映像調整システムSに含まれる各電子機器のハードウェア構成の一例を示すブロック図である。また、図17は、第2の実施形態に係る提示映像調整システムSを構成する各電子機器のソフトウェア構成の一例を示すブロック図である。
 拠点Oは、サーバ1、映像撮影装置101、音声収録装置102及び折り返し映像提示装置103に加えて、基準映像撮影装置104を備える。
 基準映像撮影装置104は、折り返し映像提示装置103の映像表示領域を撮影できるように設置されたカメラを含む装置である。基準映像撮影装置104は、複数のカメラを含んでいても良い。また、基準映像撮影装置104が含むカメラは、映像撮影装置101が含むカメラを兼用するものとしても良い。
 図18は、折り返し映像提示装置103と基準映像撮影装置104と演者PLとの位置関係を説明するための模式図である。折り返し映像提示装置103は、例えば、ステージST上の演奏者や歌唱者等の演者PLの背面に、その映像表示領域DAが観客側となるように配置される。そして、基準映像撮影装置104のカメラは、このステージST全体を撮影できるように設置され、基準映像撮影装置104は、ステージST上の演者PLと共に、その背後の折り返し映像提示装置103の映像表示領域DAを撮影する。
 図19は、折り返し映像提示装置103の映像表示領域DAに対する演者移動領域PAを説明するための模式図である。演者PLがステージST上を移動すると、その演者PL、例えば演者PLの上半身、を見つめるコンサート会場内の観客の視界は、演者PLの移動に伴って移動していく。演者移動領域PAは、この観客の視界の移動範囲を、折り返し映像提示装置103の映像表示領域DAに投影した範囲である。映像表示領域DAは、映像提示装置の提示面の一例である。演者PLは移動物体の一例である。演者移動領域PAは、移動物体の移動領域の一例である。
 サーバ1が備える折り返し映像レイアウト調整部114は、基準映像撮影装置104が撮影した映像に対して既知の移動物体検出手法を用いて、折り返し映像提示装置103の前面に居る演者PLを検出することで、折り返し映像提示装置103の映像表示領域DAにおける演者移動領域PAを推定する。この演者移動領域PAは、観客の視界に入り易い領域である。折り返し映像レイアウト調整部114は、通信遅延量が小さい映像Vsignal2程、観客の視界に入り易い位置に配置されるように、一画面上の各映像Vsignal2の配置順番及び配置位置を調整して、映像Vsignal3を生成する。
 (動作例)
 図20は、第1の実施形態に係る拠点Oにおけるサーバ1の折り返し映像レイアウト調整処理の処理手順と処理内容を示すフローチャートである。図20は、サーバ1のステップS13の処理の典型例を示す。
 折り返し映像レイアウト調整部114は、基準映像撮影装置104から、ステージST全体を撮影した基準映像を取得する(ステップS136)。
 折り返し映像レイアウト調整部114は、この取得した基準映像に基づいて、折り返し映像提示装置103の映像表示領域DA上の、演者(1人以上)PLの移動範囲に対応する領域である演者移動領域PAを推定する(ステップS137)。この推定には、例えば、周知の移動物体の検出方法である、背景差分法や骨格推定法(上半身の移動領域だけを推定する場合には有効)を用いることができる。
 以下、第1の実施形態と同様に、折り返し映像レイアウト調整部114は、拠点R1~拠点Rnそれぞれの映像Vsignal2の遅延時間を算出し(ステップS131)、算出した拠点R1~拠点Rnそれぞれの遅延時間が小さい順に拠点Rをソートする(ステップS132)。
 折り返し映像レイアウト調整部114は、ソートした順番に、その拠点Rの最新の映像Vsignal2を規定の提示レイアウト上に配置する配置位置を決定する(ステップS133)。第2の実施形態においては、規定の提示レイアウトは、固定の中央領域CAではなく、演者PLの移動に伴って変化する演者移動領域PAを含む。コンサートは、ステージST上の演者PLに視線が集中し易い状況であるため、コンサート会場の観客の視界に入り易い領域に遅延時間が短い折り返し映像を配置すれば、遅延時間の大きさによる違和感を与え難くすることができる。
 図21は、通信遅延に基づく折り返し映像の提示レイアウトを説明するための模式図である。折り返し映像提示装置103において各拠点Rからの折り返し映像が表示される映像表示領域DAの内、上記ステップS137で推定した演者移動領域PAは、観客の視界に入り易い領域である。そこで、この演者移動領域PAに遅延量が小さい折り返し映像を配置し、演者移動領域PAから離れるに従って遅延量が大きい折り返し映像を配置するようにすれば、拠点Rからの折り返し映像それぞれの時間のズレにより生じる観客の違和感を低減させることができる。
 図22は、折り返し映像の配置順番での折り返し映像の配置例を説明するための模式図である(拠点Rの数n=54の場合)。第2の実施形態では、ステップS137で推定した演者移動領域PAの中心に、ステップS132でソートした最も遅延時間が小さい拠点Rの折り返し映像を配置し、演者移動領域PAの近くに遅延時間の小さい折り返し映像が配置されるように、例えば同心円状(放射線状)の折り返し映像のレイアウト配置を採用する。このレイアウト配置は、提示レイアウトの一例である。
 以下、第1の実施形態と同様に、折り返し映像レイアウト調整部114は、映像情報格納部131から、ステップS132でソートした順番に従って最新の映像Vsignal2を読み出し、それら読み出した拠点R1~拠点Rnそれぞれの映像Vsignal2をこのレイアウト配置における順番で配置していくことで、映像Vsignal3を生成し(ステップS134)、生成した映像Vsignal3を折り返し映像提示装置103に出力する(ステップS135)。折り返し映像提示装置103は、拠点R1~拠点Rnそれぞれから拠点Oに折り返し伝送される映像Vsignal2に基づく映像Vsignal3を再生して表示する。
 (効果)
 以上述べたように第2の実施形態では、サーバ1は、複数の拠点Rからの複数の映像Vsignal2それぞれの遅延時間に基づいて、複数の映像Vsignal2の折り返し映像提示装置103での提示レイアウト上の配置位置を決定し、その決定した配置位置に各映像Vsignal2を配置した映像Vsignal3を生成する。典型例では、サーバ1は、遅延時間が小さい映像Vsignal2程、演者移動領域PAの中心に配置し、遅延時間が大きくなるにつれてその映像Vsignal2が演者移動領域PAから離れるように配置する。このように、サーバ1は、映像Vsignal2を表示するための遅延時間と観客の視界に対応する演者移動領域PAとに基づいて、各拠点Rからの映像Vsignal2を表示する位置を調整することができる。近くに配置された複数映像の中に特異な映像が無ければ、人は違和感を覚え難いので、サーバ1は、コンサート会場の観客の視界に入り易い領域に遅延時間が短い折り返し映像を配置することで、折り返し映像それぞれの時間のズレにより生じる観客の違和感を低減させることができる。
 また、ステージST上の演者の移動に追従する観客の視界の移動に伴って、遅延時間の小さい映像Vsignal2を表示する位置も変更されるため、より観客の違和感低減に効果的である。
 [第3の実施形態]
 第1及び第2の実施形態は、遅延時間に基づいて各拠点Rからの折り返し映像Vsignal2の提示レイアウト上の配置位置を決定するようにしているが、遅延時間以外の指標、例えば、映像Vsignal2の解像度の大きさ、映像Vsignal2の映像乱れの有無、等に基づいて配置位置を決定することができる。なお、映像乱れが有るとは、例えば、一定時間におけるパケットロス発生率が閾値以上である場合を言う。
 また、複数の指標を組み合せて利用することもできる。
 よって、折り返し映像Vsignal2の配置位置決定に用いる指標のバリエーションとしては、例えば、以下が考えられる:
 (1)遅延時間、
 (2)遅延時間と解像度、
 (3)遅延時間と映像乱れ、
 (4)遅延時間と解像度と映像乱れ、
 (5)解像度、
 (6)映像乱れ、
 (7)解像度と映像乱れ。
 例えば、「(2)遅延時間と解像度」を指標として用いる場合、折り返し映像レイアウト調整部114は、遅延時間が大きく解像度が小さい映像が、観客の視界に入り易い演者移動領域PAから遠くに配置されるように配置位置を決定する。また、「(3)遅延時間と映像乱れ」を指標として用いる場合には、折り返し映像レイアウト調整部114は、遅延時間が大きく、映像乱れが生じている映像が、観客の視界に入り易い演者移動領域PAから遠くに配置されるように配置位置を決定する。
 このように複数の指標を組み合せている場合には、それぞれの指標の値をそのまま使用するのではなく、各指標の値に重み付けを行った加重和を取って、その値に基づいて配置位置を決定する。この場合、重みは、例えば、遅延時間、解像度、映像乱れ、の順に大きくする。
 これを、「(4)遅延時間と解像度と映像乱れ」を指標として用いる場合を例に説明する。ここで、遅延時間指標値をa(秒)、解像度指標値をb(pixel)、映像乱れ指標値をc(%)とする。
 折り返し映像レイアウト調整部114は、遅延時間指標値aを、第1の実施形態で説明したように、映像情報格納部131に格納された時刻Tmediaと受信時刻t2とより、a=t2-Tmediaによって算出する。
 サーバ1は、データ記憶部13に解像度テーブルを記憶する。図23は、解像度テーブル132の一例を示す図である。解像度テーブル132は、各解像度(b1×b2)に対する解像度指標値bを記憶している。折り返し映像レイアウト調整部114は、この解像度テーブル132から、映像情報格納部131に格納された映像Vsignal2の解像度に該当する解像度指標値bを読み出す。
 折り返し映像レイアウト調整部114は、映像情報格納部131に格納された映像Vsignal2列から直近1秒間におけるパケットロス発生率を算出し、それを映像乱れ指標値cとする。ただし、算出したパケットロス発生率が0の場合は、折り返し映像レイアウト調整部114は、映像乱れ指標値cを1とする。
 折り返し映像レイアウト調整部114は、これらa,b,cの値を、例えば以下の式に当てはめ、加重和p(x)を取り、p(x)の値が大きい程、観客の視界に入り易い演者移動領域PAの近くに映像Vsignal2を配置する。ここで、α、β、γは予め決められた重み係数であり、α>β>γである。
Figure JPOXMLDOC01-appb-M000001
 以上述べたように、第3の実施形態では、サーバ1は、複数の拠点Rからの複数の映像Vsignal2それぞれの遅延時間、解像度及び映像乱れ、の三指標の内の少なくとも一つに基づいて、複数の映像Vsignal2の折り返し映像提示装置103での提示レイアウト上の配置位置を決定し、その決定した配置位置に各映像Vsignal2を配置した映像Vsignal3を生成する。このように、サーバ1は、複数の拠点Rから異なる時刻に伝送される複数の映像Vsignal2が再生されるときに、遅延時間、解像度及び映像乱れ、の三指標の内の少なくとも一つが大きい映像Vsignal2は、目立たなくなるような位置に配置することで、拠点Oの視聴者である観客が感じる違和感を低減させることができる。
 [その他の実施形態]
 遠隔地の各拠点Rから映像だけでなく音声も折り返すようにしても良い。拠点Oのサーバ1は、例えば、遅延時間が小さい程、大きな音で、各拠点Rからの音声を混合して、例えば折り返し音声提示装置から出力させることができる。
 上記ステップS131及びステップS132の遅延時間の算出及びソートの処理は、ステップS13の折り返し映像レイアウト調整処理を繰り返し行う際、毎回実施するものとしているが、その内の1回だけ実施するものとしても良いし(遅延時間は一定とする)、一定時間ごとに実行してソート順番を更新していくようにしても良い。更に、各拠点Rの遅延時間を算出するとき、最新の遅延時間だけでなく過去に算出した遅延時間も利用して、平均値等により各拠点Rの遅延時間を決定するようにしても良い。
 第2の実施形態におけるステップS137の演者移動領域PAの推定処理は、このステップS13の折り返し映像レイアウト調整処理を繰り返し行う際、毎回実施するものとしているが、その内の1回だけ実施するものとしても良いし、一定時間ごとに推定をくり返し、演者移動領域PAを更新していくようにしても良い。なお、ここでは基準映像撮影装置104の基準映像から自動的に推定する例を示したが、基準映像撮影装置104を用いずに、人手で演者移動領域PAを設定するようにしても構わない。
 また、フローチャートを参照して説明した各処理の流れは、説明した処理手順に限定されるものではない。例えば、第2の実施形態におけるステップS136,S137の処理とステップS131の処理は、逆の順序で行っても良いし、同時に併行して行っても良い。このように、幾つかのステップの順序が入れ替えられても良いし、幾つかのステップが同時併行で実施されても良い。更に、幾つかのステップの処理内容が修正されても良い。
 提示映像調整装置は、上記の例で説明したように1つの装置で実現されても良いし、機能を分散させた複数の装置で実現されても良い。
 プログラムは、電子機器に記憶された状態で譲渡されて良いし、電子機器に記憶されていない状態で譲渡されても良い。後者の場合は、プログラムは、ネットワークを介して譲渡されて良いし、記録媒体に記録された状態で譲渡されても良い。記録媒体は、非一時的な有形の媒体である。記録媒体は、コンピュータ可読媒体である。記録媒体は、CD-ROM、メモリカード等のプログラムを記憶可能かつコンピュータで読取可能な媒体であれば良く、その形態は問わない。
 以上、本発明の実施形態を詳細に説明してきたが、前述までの説明はあらゆる点において本発明の例示に過ぎない。本発明の範囲を逸脱することなく種々の改良や変形を行うことができることは言うまでもない。つまり、本発明の実施にあたって、実施形態に応じた具体的構成が適宜採用されても良い。
 要するにこの発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除しても良い。更に、異なる実施形態に亘る構成要素を適宜組み合せても良い。
 1,2…サーバ
 10…時刻配信サーバ
 11,21…制御部
 12,22…プログラム記憶部
 13,23…データ記憶部
 14,24…通信インタフェース
 15,25…入出力インタフェース
 101…映像撮影装置
 102…音声収録装置
 103…折り返し映像提示装置
 104…基準映像撮影装置
 111,211…時刻管理部
 112…メディア送信部
 113…折り返し映像受信部
 114…折り返し映像レイアウト調整部
 131…映像情報格納部
 132…解像度テーブル
 1311…時刻管理DB
 201…映像提示装置
 202…音声提示装置
 203…オフセット映像撮影装置
 204…折り返し映像撮影装置
 212…メディア受信部
 213…映像オフセット算出部
 214…折り返し映像送信部
 231…映像時刻管理DB
 CA…中央領域
 DA…映像表示領域
 NW…IPネットワーク
 O,R,R1,R2,Rn…拠点
 PA…演者移動領域
 PL…演者
 S…提示映像調整システム

 

Claims (8)

  1.  映像提示装置を備える第1の拠点の提示映像調整装置であって、
     前記第1の拠点とは異なる複数の第2の拠点のそれぞれから、前記第1の拠点で第1の時刻に取得された第1の映像を前記第2の拠点で再生する時刻に前記第2の拠点で取得された第2の映像を格納したパケットを受信する受信部と、
     前記複数の第2の拠点からの複数の前記パケットに基づく複数の前記第2の映像それぞれの、遅延時間、解像度及び映像乱れ、の三指標の内の少なくとも一つに基づいて、前記複数の前記第2の映像それぞれの前記映像提示装置での規定の提示レイアウト上の配置位置を決定し、前記決定した前記配置位置に従って前記複数の前記第2の映像を配置した第3の映像を前記映像提示装置に出力するレイアウト調整部と、
     を備える、提示映像調整装置。
  2.  前記レイアウト調整部は、前記第2の映像を格納したパケットを受信したことに伴う第2の時刻と前記第1の時刻との差の値に基づき前記第2の映像の前記遅延時間を判別する、請求項1に記載の提示映像調整装置。
  3.  前記レイアウト調整部は、前記第2の映像の前記遅延時間が大きくなるにつれて、前記第2の映像の提示位置が前記映像提示装置の中央部から離れるように、前記第2の映像の前記提示レイアウト上の前記配置位置を決定する、請求項2に記載の提示映像調整装置。
  4.  前記レイアウト調整部は、前記映像提示装置の提示面の前で移動する移動物体が存在する場合、前記映像提示装置の前記提示面の前から見た前記提示面に投影される前記移動物体の移動領域に基づき前記提示レイアウト上の配置位置を決定する、請求項2に記載の提示映像調整装置。
  5.  前記レイアウト調整部は、前記第2の映像の前記遅延時間が大きくなるにつれて、前記第2の映像の提示位置が前記映像提示装置の前記移動領域から離れるように、前記第2の映像の前記提示レイアウト上の前記配置位置を決定する、請求項4に記載の提示映像調整装置。
  6.  前記レイアウト調整部は、前記三指標の内の二つ以上に基づいて前記提示レイアウト上の配置位置を決定する際、前記第2の映像の前記遅延時間、前記第2の映像の前記解像度及び前記第2の映像の前記映像乱れの順番で大きい重み付けを行って、前記複数の前記第2の映像を順番付けし、前記順番に基づいて前記配置位置を決定する、請求項1に記載の提示映像調整装置。
  7.  映像提示装置を備える第1の拠点の提示映像調整装置による提示映像調整方法であって、
     前記第1の拠点とは異なる複数の第2の拠点のそれぞれから、前記第1の拠点で第1の時刻に取得された第1の映像を前記第2の拠点で再生する時刻に前記第2の拠点で取得された第2の映像を格納したパケットを受信することと、
     前記複数の第2の拠点からの複数の前記パケットに基づく複数の前記第2の映像それぞれの、遅延時間、解像度及び映像乱れ、の三指標の内の少なくとも一つに基づいて、前記複数の前記第2の映像それぞれの前記映像提示装置での規定の提示レイアウト上の配置位置を決定することと、
     前記決定した前記配置位置に従って前記複数の前記第2の映像を配置した第3の映像を前記映像提示装置に出力することと、
     を備える提示映像調整方法。
  8.  請求項1乃至6の何れかの提示映像調整装置が備える各部による処理をコンピュータに実行させる提示映像調整プログラム。

     
PCT/JP2022/034205 2022-09-13 2022-09-13 提示映像調整装置、提示映像調整方法及び提示映像調整プログラム WO2024057398A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/034205 WO2024057398A1 (ja) 2022-09-13 2022-09-13 提示映像調整装置、提示映像調整方法及び提示映像調整プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/034205 WO2024057398A1 (ja) 2022-09-13 2022-09-13 提示映像調整装置、提示映像調整方法及び提示映像調整プログラム

Publications (1)

Publication Number Publication Date
WO2024057398A1 true WO2024057398A1 (ja) 2024-03-21

Family

ID=90274488

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/034205 WO2024057398A1 (ja) 2022-09-13 2022-09-13 提示映像調整装置、提示映像調整方法及び提示映像調整プログラム

Country Status (1)

Country Link
WO (1) WO2024057398A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015076716A (ja) * 2013-10-09 2015-04-20 日本電信電話株式会社 遠隔対話装置及び方法
WO2015060393A1 (ja) * 2013-10-25 2015-04-30 独立行政法人産業技術総合研究所 遠隔行動誘導システム及びその処理方法
JP2018056822A (ja) * 2016-09-29 2018-04-05 パナソニックIpマネジメント株式会社 テレビ会議装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015076716A (ja) * 2013-10-09 2015-04-20 日本電信電話株式会社 遠隔対話装置及び方法
WO2015060393A1 (ja) * 2013-10-25 2015-04-30 独立行政法人産業技術総合研究所 遠隔行動誘導システム及びその処理方法
JP2018056822A (ja) * 2016-09-29 2018-04-05 パナソニックIpマネジメント株式会社 テレビ会議装置

Similar Documents

Publication Publication Date Title
US11949922B2 (en) Simulating a local experience by live streaming sharable viewpoints of a live event
KR101841313B1 (ko) 멀티미디어 흐름 처리 방법 및 대응하는 장치
KR20180090719A (ko) 미디어 동기화 방법 및 시스템
WO2017002642A1 (ja) 情報機器及び表示処理方法
JP2006041886A (ja) 情報処理装置および方法、記録媒体、並びにプログラム
JP2017069949A (ja) 自動のプレンオプティックカメラのリフォーカシングのためのオーディオイベント検出
CN114268823A (zh) 一种视频播放方法、装置、电子设备及存储介质
JP7408506B2 (ja) コンテンツ配信システム、コンテンツ配信方法、およびコンテンツ配信プログラム
WO2024057398A1 (ja) 提示映像調整装置、提示映像調整方法及び提示映像調整プログラム
CN115086729B (zh) 一种连麦展示方法、装置、电子设备、计算机可读介质
CN112004100B (zh) 将多路音视频源集合成单路音视频源的驱动方法
CN116962747A (zh) 基于网络直播的实时合唱同步方法、装置及网络直播系统
WO2024057399A1 (ja) メディア再生制御装置、メディア再生制御方法及びメディア再生制御プログラム
CN112313962B (zh) 内容发布服务器、内容发布系统、内容发布方法及程序
WO2023281667A1 (ja) メディア加工装置、メディア加工方法及びメディア加工プログラム
JP6909904B1 (ja) 画像管理装置、画像管理システム及び画像管理方法
JP6909903B1 (ja) 画像管理装置、画像管理システム及び画像管理方法
WO2023281666A1 (ja) メディア加工装置、メディア加工方法及びメディア加工プログラム
BE1029154B1 (fr) Dispositif et procédé pour une interaction entre un public et des acteurs
JP6909902B1 (ja) 画像管理装置、画像管理システム及び画像管理方法
US11521390B1 (en) Systems and methods for autodirecting a real-time transmission
WO2022065136A1 (ja) 再生制御方法、制御システム、端末装置およびプログラム
WO2022244364A1 (ja) 情報処理装置、情報処理方法、プログラム
JP2007134808A (ja) 音声配信装置、音声配信方法、音声配信プログラム、および記録媒体
JP2022066944A (ja) 情報処理装置、コンピュータプログラムおよび情報処理システム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22958732

Country of ref document: EP

Kind code of ref document: A1