WO2022269788A1 - 伝送システム、送信システム、受信システム及び伝送方法 - Google Patents

伝送システム、送信システム、受信システム及び伝送方法 Download PDF

Info

Publication number
WO2022269788A1
WO2022269788A1 PCT/JP2021/023733 JP2021023733W WO2022269788A1 WO 2022269788 A1 WO2022269788 A1 WO 2022269788A1 JP 2021023733 W JP2021023733 W JP 2021023733W WO 2022269788 A1 WO2022269788 A1 WO 2022269788A1
Authority
WO
WIPO (PCT)
Prior art keywords
audio
data
video
audio data
synchronization control
Prior art date
Application number
PCT/JP2021/023733
Other languages
English (en)
French (fr)
Inventor
英一郎 松本
真二 深津
広夢 宮下
麻衣子 井元
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to JP2023529305A priority Critical patent/JPWO2022269788A1/ja
Priority to PCT/JP2021/023733 priority patent/WO2022269788A1/ja
Publication of WO2022269788A1 publication Critical patent/WO2022269788A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/24Monitoring of processes or resources, e.g. monitoring of server load, available bandwidth, upstream requests
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs

Definitions

  • the present invention relates to a transmission system, a transmission system, a reception system and a transmission method.
  • a transmission system synchronizes and transmits video and audio input from a camera and a microphone to a receiving system that can communicate via a network. Based on the transmitted video and audio, the receiving system displays the video on the video display device and reproduces the audio from the speaker. For example, when sharing video and audio between remote systems in real time, if the video and audio transmission delay does not exceed 50 milliseconds, problems will occur when the systems work in cooperation with each other. Hateful. Also, since video and audio are synchronized with each other, the degree of audio delay is the same as the video delay. Therefore, there is a demand for a transmission system capable of suppressing delays associated with video and audio.
  • An object of the present invention is to provide a transmission system, a transmission system, a reception system, and a transmission method capable of suppressing delays associated with video and audio.
  • the transmission system comprises a transmission system, a reception system, an information collection section and a synchronization control section.
  • a transmission system can transmit video data and audio data to a connected network.
  • a receiving system can receive video data and audio data via a network.
  • the information collecting unit is provided in the transmitting system or the receiving system, and collects synchronization control data by associating the determination result of necessity of video and audio synchronization with the determination item.
  • the synchronization control unit is provided in the transmission system or the reception system, and based on the synchronization control data, synchronous audio data capable of outputting audio in synchronization with video, or asynchronous audio data capable of outputting audio independently of video Select one of the audio data.
  • FIG. 1 is a block diagram schematically showing a transmission system according to an embodiment.
  • FIG. 2 is a block diagram schematically showing the hardware configuration of the transmission system and the reception system of the transmission system according to the embodiment.
  • FIG. 3 is a flowchart illustrating an example of processing executed by a synchronization control unit of the transmission system according to the embodiment;
  • FIG. 4 is a block diagram schematically showing a modification of the transmission system according to the embodiment.
  • the transmission system 1 is used, for example, when watching/watching sports or entertainment at a remote location. Even if the viewing locations (bases) are different, in order for spectators and spectators to enjoy sports and entertainment at the same time, it is necessary to delay as much as possible the video and audio of sports and entertainment at the viewing location. It is required to transmit without However, since video and audio are generally transmitted in synchronization with each other, delay in video transmission also results in delay in audio transmission. As a result, it is sometimes difficult for spectators/viewers who are separated from each other to enjoy sports, entertainment, etc. at the same time (in cooperation).
  • the transmission system 1 of the present embodiment uses synchronous audio data capable of outputting audio in synchronization with video, or asynchronous (independent) audio data capable of outputting audio independently of video, based on synchronous control data. Choose one.
  • spectators/viewers of sports, entertainment, etc. can view synchronized video and audio at the timing when synchronization of video and audio is required. For example, when an image of a player playing a game is being played, the image and sound are transmitted in synchronization, so spectators and spectators can watch the game without any sense of incongruity.
  • the audio delay is suppressed to a predetermined threshold or less by transmitting the video and audio without synchronizing them.
  • FIG. 1 is a block diagram schematically showing the transmission system according to the embodiment.
  • a transmission system 1 comprises a transmission system 2 and a reception system 3 .
  • the transmission system 2 includes a photographing unit 21 , a sound collecting unit 22 , a video processing unit 23 , an audio system 24 , an encoder 25 , a determining unit 26 and an information collecting unit 27 .
  • the determination unit 26 includes a video determination unit 261 , an audio determination unit 262 , a setting determination unit 263 and a volume determination unit 264 .
  • the reception system 3 includes a decoder 31 , a synchronization control section 32 , an audio system 33 , a video display section 34 and a sound generation section 35 .
  • the transmitting system 2 and the receiving system 3 can communicate with each other via the network 4 .
  • the network 4 is, for example, the Internet (registered trademark). Note that the dashed lines in FIG. 1 indicate paths through which synchronization control data, which will be described later, are transmitted.
  • FIG. 2 is a block diagram schematically showing the hardware configuration of the transmission system and reception system of the transmission system according to the embodiment.
  • Each of the transmission system 2 and the reception system 3 is, for example, a computer.
  • Each of the transmission system 2 and the reception system 3 has a processor 41 , a storage medium 42 , a user interface 43 and a communication section 44 .
  • Processor 41 , storage medium 42 , user interface 43 and communication unit 44 are connected to each other via bus 45 .
  • the processor 41 includes any of a CPU (Central Processing Unit), a GPU (Graphics Processing Unit), an ASIC (Application Specific Integrated Circuit), a microcomputer, an FPGA (Field Programmable Gate Array), and a DSP (Digital Signal processor). .
  • the storage medium 42 may include an auxiliary storage device 47 in addition to a main storage device 46 such as a memory.
  • the main storage device 46 is a non-temporary storage medium.
  • the main storage device 46 is, for example, a non-volatile memory such as a HDD (Hard Disk Drive) or SSD (Solid State Drive) that can be written and read at any time, a non-volatile memory such as a ROM (Read Only Memory). Also, a combination of these nonvolatile memories may be used.
  • Auxiliary storage device 47 is a tangible storage medium.
  • the auxiliary storage device 47 uses a combination of the above-described nonvolatile memory and volatile memory such as RAM (Random Access Memory). In the transmission system 2 and the reception system 3, only one processor 41 and storage medium 42 may be provided, or a plurality of them may be provided.
  • the processor 41 performs processing by executing a program or the like stored in the storage medium 42 or the like.
  • the programs executed by the processor 41 may be stored in a computer (server) connected via a network such as the Internet, or a server in a cloud environment. In this case, processor 41 downloads the program via the network.
  • the video processing unit 23 , the audio system 24 , the encoder 25 , the determination unit 26 , and the information collection unit 27 perform at least part of the processing performed by the processor 41 provided in the transmission system 2 .
  • the decoder 31 , synchronization control section 32 and audio system 33 perform at least part of the processing performed by the processor 41 provided in the receiving system 3 .
  • the user interface 43 various operations are input by the user of the transmission system 1, and information to be notified to the user is notified by display or the like.
  • the user interface may be a display unit 48 such as a display, or an input unit 49 such as a touch panel or keyboard.
  • As the input unit 49 a device connected to the transmission system 2 and the reception system 3 may be used, or an input unit of another information processing apparatus capable of communicating via the network 4 may be used.
  • the sending system 2 and the receiving system 3 are servers that can communicate with each other via the network 4 .
  • the transmission system 2 and the reception system 3 are cloud servers built in a cloud environment.
  • the infrastructure of the cloud environment is composed of virtual processors such as virtual CPUs and cloud memories.
  • the video processing unit 23, the audio system 24, the encoder 25, the determination unit 26, and the information collection unit 27 execute part of the processing executed by the virtual processor.
  • the decoder 31, the synchronization control unit 32, and the audio system 33 execute part of the processing executed by the virtual processor.
  • the photographing unit 21 photographs video (moving image) data.
  • the photographing unit 21 is, for example, a camera.
  • the sound collecting unit 22 collects sound data used in the video data captured by the image capturing unit 21 .
  • the sound collector 22 is, for example, a microphone.
  • the image processing unit 23 executes predetermined processing based on the image data captured by the image capturing unit 21 .
  • the video processing unit 23 executes, for example, a process of superimposing character information, graphic information, and the like on captured video data and displaying the data.
  • the audio system 24 executes predetermined processing based on the sound data collected by the sound collector 22 .
  • the audio system 24 executes processing for adjusting the volume of the collected audio data to the most appropriate state when transmitting via the network 4 .
  • the encoder 25 performs encoding based on the video data input from the video processing unit 23 and the audio data input from the audio system 24 .
  • the encoder 25 transmits the encoded video data and audio data to the receiving system 3 via the network 4 .
  • the encoder 25 transmits both synchronous audio data capable of outputting audio in synchronization with the video data and asynchronous audio data capable of outputting audio independently of the video data to the receiving system 3 via the network 4. do.
  • Both the synchronous audio data and the asynchronous audio data are audio data collected by the sound collecting unit 22 .
  • the audio data that is transmitted to the receiving system 3 in synchronization with the video data (along with the video data) is called synchronous audio data.
  • audio data that is transmitted to the receiving system 3 independently of (independently from) the video data is called asynchronous audio data.
  • the encoder 25 collectively transmits the video data and the synchronous audio data to the receiving system 3, and transmits the asynchronous audio data to the receiving system 3 independently of the video data.
  • the determining unit 26 determines whether or not synchronization is necessary based on the video data captured by the capturing unit 21 and the audio data collected by the sound collecting unit 22 .
  • the information collection unit 27 collects the determination results generated by the determination unit 26 , associates the determination results with determination items used for determination, and transmits the results to the reception system 3 via the network 4 .
  • the decoder 31 decodes video and audio.
  • the decoded video data is output to the video display section 34 and the decoded audio data is output to the synchronization control section 32 .
  • the synchronization control unit 32 acquires both synchronous audio data and asynchronous audio data from the decoder 31 .
  • the synchronization control unit 32 acquires synchronization control data in which determination results and determination items are associated with each other from the transmission system 2 .
  • the synchronization control unit 32 executes processing described later based on the synchronization control data, and selects either synchronous audio data or asynchronous audio data.
  • the synchronization control unit 32 outputs any selected audio data to the audio system 33 .
  • the audio system 33 executes predetermined processing based on the input audio data.
  • the audio system 33 for example, executes a process of adjusting the volume so that it is suitable for reproduction from the sound generator 35.
  • the video display unit 34 displays the input video data.
  • the image display unit 34 is, for example, a display or a projector.
  • the sound generator 35 reproduces the input voice data.
  • the sound generator 35 is, for example, a speaker.
  • the determination unit 26 includes the video determination unit 261, the audio determination unit 262, the setting determination unit 263, and the volume determination unit 264, as described above.
  • the image determination unit 261 acquires image data used for determination from the imaging unit 21 .
  • the image determination unit 261 determines the type of image based on the acquired image data. In one example, the image determination unit 261 determines whether the image is a pull-up image or a close-up image based on the acquired image data.
  • the image determination unit 261 may determine the image data described above, for example, based on the result of prior learning by machine learning.
  • the video determination unit 261 outputs the video data determination result to the information collection unit.
  • the voice determination unit 262 acquires voice data used for determination from the sound collection unit 22 .
  • the voice determination unit 262 determines the type of voice based on the acquired voice data. In one example, the voice determination unit 262 determines whether or not the voice is cheering based on the acquired voice data.
  • the audio determination unit 262 may determine the audio data described above, for example, based on the result of prior learning by machine learning.
  • the audio determination unit 262 outputs the audio data determination result to the information collection unit 27 .
  • the setting determination unit 263 acquires, for example, setting information of the imaging unit 21 as equipment data from the imaging unit 21 .
  • the setting information includes information regarding the focal length of the lens.
  • the setting determination unit 263 determines whether the image capturing unit 21 is capturing a close-up image or the image capturing unit 21 is capturing a pull image, based on the acquired setting information and a preset threshold value. That is, when the focal length of the lens is larger than a preset threshold value, it is determined that the photographing unit 21 is shooting with a close-up image. It is determined that is shooting with a drawing.
  • the setting determination unit 263 outputs the determination result of the imaging unit 21 to the information collection unit 27 and outputs the setting information of the imaging unit 21 to the information collection unit 27 . For example, when the photographing unit 21 is a camera with an image sensor of 35 mm, the preset threshold value of the focal length of the lens is 100 mm.
  • the volume determination unit 264 acquires audio data used for determination from the sound collection unit 22 .
  • the volume determination unit 264 determines the type of audio based on the volume of the acquired audio data.
  • the volume determination unit 264 determines whether or not the audio data is cheering based on the volume of the acquired audio data and a preset volume threshold.
  • the volume of the audio data includes, for example, information indicating the gain value (volume) of the cheering input from the microphones installed in the audience seats.
  • the volume determination unit 264 outputs the determination result of the volume of the audio data to the information collection unit 27 .
  • the preset volume threshold is, for example, 75.0 dB.
  • the information collection unit 27 acquires the determination result of the video data, the determination result of the audio data, and the determination result based on the equipment data from the determination unit 26 described above.
  • the information collecting unit 27 associates information indicating that the determination result by the image determination unit 261 is related to the image data and the determination result by the image determination unit 261 .
  • the information collection unit 27 associates information indicating that the determination result by the voice determination unit 262 is related to voice data and the determination result by the voice determination unit 262 .
  • the information collection unit 27 associates information indicating that the determination result by the setting determination unit 263 is related to equipment data and the determination result by the setting determination unit 263 .
  • the information collection unit 27 associates information indicating that the determination result by the volume determination unit 264 is related to the audio data and the determination result by the volume determination unit 264 .
  • the information collecting unit 27 transmits the synchronization control data in which the determination results and the determination items are associated with each other to the synchronization control unit 32 via the network 4 as described above.
  • the synchronization control section 32 selects voice data output from the sound generating section 35 of the receiving system 3 based on the synchronization control data.
  • the synchronization control unit 32 selects appropriate audio data by executing processing corresponding to the determination items and determination results included in the synchronization control data.
  • the determination item is related to video data and the type of video is a close-up image as a determination result
  • the synchronization control unit 32 selects synchronized audio data as audio data to be output. If the determination item is related to voice data and the determination result indicates that the type of voice is other than cheering, the synchronization control unit 32 selects synchronized voice data as voice data to be output.
  • the synchronization control unit 32 selects synchronized audio data as audio data to be output. If the determination item is related to audio data and the volume of the audio data exceeds the threshold value as a determination result, the synchronization control unit 32 selects synchronized audio data as audio data to be output. In these cases, since a low delay is not required in transmitting audio data with respect to transmission of video data, the synchronization control section 32 selects synchronized audio data as audio data to be output. Otherwise, the synchronization controller 32 selects asynchronous audio data as audio data.
  • the synchronization control section 32 selects asynchronous audio data as the audio data to be output.
  • the synchronization control section 32 outputs the audio data selected as described above to the audio system 33 .
  • the synchronization control unit 32 may use any one of the determination items and determination results included in the synchronization control data, or may use a plurality of them in combination.
  • the synchronization control unit 32 acquires reference information from the reception system 3 in advance, which serves as a reference for judging audio data.
  • the reference information includes, for example, data such as a threshold used to determine synchronization between video data and audio data, and a determination cycle (time interval) for determining synchronization.
  • the threshold used to determine synchronization is, for example, when determining whether or not to select synchronized audio data using a plurality of determination results, the percentage of determination results that select synchronized audio data is 50% or more. be.
  • the synchronous audio data is selected when the percentage of the determination result that selects the synchronous audio data is 50% or more, and the asynchronous audio data is selected when the percentage of the determination result that selects the synchronous audio data is less than 50%.
  • the determination cycle is 1/60 second when the photographing unit 21 is a camera that photographs 60 images per second, for example.
  • the audio data may switch from synchronous audio data to asynchronous audio data, or from asynchronous audio data to synchronous audio data before and after selection.
  • the synchronization control unit 32 may execute a predetermined buffering process to suppress unnatural changes in sound (for example, the occurrence of silent intervals and rupture of the sound waveform) that accompany the switching of the sound data.
  • the buffer processing does not switch instantaneously when switching audio data, but gradually decreases the volume of the audio data before switching and gradually increases the volume of the audio data after switching. This is processing such as synthesizing things and outputting them.
  • FIG. 3 is a flowchart illustrating an example of processing executed by the synchronization control unit 32.
  • the processing in FIG. 3 is executed by the synchronization control section 32 each time video data and audio data are input from the transmission system 2 to the reception system 3 . Therefore, the processing in FIG. 3 shows an example of processing executed in inputting audio data to the transmission system 1 .
  • the synchronization control unit 32 acquires reference information that serves as a judgment reference for audio data from the reception system 3 (S101).
  • the synchronization control unit 32 acquires synchronization control data in which the determination result and the determination item are associated from the transmission system 2 via the network 4 (S102). If the time (delay time) required to transmit the video data and audio data from the transmission system 2 to the reception system 3 is equal to or greater than the time threshold (S103-Yes), the synchronization control unit 32 determines that acquisition of the synchronized audio data is completed. It is determined whether or not it is completed (S104).
  • the synchronization control unit 32 selects the synchronized audio data as audio data to be output (S106). If acquisition of synchronous audio data has not been completed (S104-No), the synchronization control unit 32 selects asynchronous audio data as audio data to be output (S107). In this way, when the delay time is equal to or greater than the time threshold, audio data whose acquisition has been completed is selected as audio data to be output, thereby preventing stoppage of audio reproduction.
  • the synchronization control unit 32 controls the audio data to be transmitted with a low delay. It is determined whether or not there is priority (S105). Whether or not priority should be given to low delay is determined according to the determination results and determination items included in the synchronization control data, as described above. If priority is given to low delay (S105-Yes), the process proceeds to S104, and the processes after S104 are executed. If low delay is not prioritized (S105-No), the synchronization control unit 32 selects asynchronous audio data as audio data to be output (S107).
  • the synchronization control unit 32 determines whether the audio data before selection and the audio data after selection are switched by selecting the audio data to be output (S108). If the audio data has been switched (S108-Yes), the synchronization control unit 32 executes the buffer processing described above (S109). After that, the synchronization control unit 32 outputs the buffered audio data (S110). If the audio data has not been switched (S108-No), the process proceeds to S110 without the synchronization control unit 32 executing S109. By outputting the voice data, the voice data is input to the audio system 33 and voice is output from the sound generator 35 . Also, the sound output from the sound generator 35 is appropriately performed in accordance with the reproduction of the video data on the video display 34 .
  • the synchronization control unit 32 determines whether or not the determination cycle of the audio data acquired as the reference information has been exceeded (S111). If it is equal to or shorter than the determination period (S111-No), the process returns to S111, and the synchronization control unit 32 executes the processes after S111. If the determination cycle has been exceeded (S111-Yes), the synchronization control unit 32 determines whether or not the voice data input continues (S112). If the input of audio data continues (S112-Yes), the process returns to S102, and the synchronization control unit 32 executes the processes after S102. If the input of voice data has not continued (S112-No), the process ends.
  • the transmission system 1 of this embodiment includes the information collection unit 27 and the synchronization control unit 32.
  • the information collecting unit 27 associates the determination result of the necessity of video and audio synchronization with the determination item, and collects them as synchronization control data.
  • the synchronization control unit 32 selects either synchronous audio data capable of outputting audio in synchronization with video or asynchronous audio data capable of outputting audio independently of video, based on the synchronization control data. .
  • the transmission system 1 can output the asynchronous audio data at appropriate timing. Therefore, in the transmission system of this embodiment, audio is transmitted without waiting for transmission of video, so that audio delay can be suppressed to, for example, 50 milliseconds or less. Therefore, it is possible for people who are watching/viewing the game from a remote place to cooperate with each other and support each other.
  • the synchronization control unit 32 selects the synchronized audio data when the synchronization control data is information requesting a low audio delay, and the synchronization control data is information not requiring a low audio delay. It is preferable to select asynchronous audio data if . As a result, the transmission system 1 can output asynchronous audio data that is not synchronized with video at appropriate timing.
  • the synchronization control unit 32 executes audio buffering processing when output audio is switched between synchronous audio data and asynchronous audio data by selection based on the synchronization control data. is preferred. As a result, it is possible to suppress the occurrence of unnatural sounds that occur when the audio data is switched, and the viewer can continue to view the video and audio without discomfort.
  • FIG. 4 is a schematic block diagram showing a modification of the transmission system of the embodiment.
  • a plurality of encoders 25 are provided in the transmission system 2 and a plurality of decoders 31 are provided in the reception system 3 .
  • the transmitting system 2 comprises two encoders 251,252 and the receiving system 3 comprises two decoders 311,312.
  • the encoder 251 synchronizes the video data output from the video processing unit 23 and the audio data output from the audio system 24, and transmits them from the transmission system 2 to the reception system 3 via the network 4 (solid arrow ).
  • the encoder 252 transmits the asynchronous audio data output from the audio system 24 independently from the video data from the transmission system 2 to the reception system 3 via the network 4 (indicated by the dashed-dotted arrow). show).
  • the decoder 311 decodes the received video data and synchronous audio data, outputs the video data to the video display unit 34, and outputs the synchronous audio data to the synchronization control unit 32 (indicated by solid arrows).
  • the decoder 312 outputs the received asynchronous audio data to the synchronization control section 32 (indicated by the dashed-dotted arrow).
  • the transmission system 1 can select either synchronous audio data or asynchronous audio data based on the synchronous control data. Therefore, even in these modified examples, the same effect as the above-described embodiment can be obtained.
  • the information collection unit 27 and the synchronization control unit 32 may be provided in the transmission system 2. Also, in another modification, the information collecting section 27 and the synchronization control section 32 may be provided in the receiving system 3 . In these modified examples, the synchronization control section 32 acquires synchronization control data from the information collection section 27 without going through the network 4 . Also in these modifications, the transmission system 1 can select either synchronous audio data or asynchronous audio data based on the synchronous control data. Therefore, even in these modified examples, the same effect as the above-described embodiment can be obtained.
  • the methods described in the embodiments and the like can be stored and distributed as programs (software) that can be executed by computers, for example, in storage media such as magnetic disks, optical disks, and semiconductor memories. Storage media are not limited to those for distribution, and include storage media such as magnetic disks and semiconductor memories provided inside computers or devices connected via a network. Also, the techniques described in the embodiments may be transmitted and distributed over a communication medium.
  • the programs stored on the medium also include a setting program for configuring the software to be executed by the computer.
  • Software includes not only execution programs but also tables and data structures.
  • a computer that realizes this system reads a program recorded in a storage medium and executes the above-described processing by controlling the operation by software.
  • the software may be constructed by a computer using a configuration program.
  • the present invention is not limited to the above-described embodiments, and can be variously modified in the implementation stage without departing from the gist of the present invention. Further, each embodiment may be implemented in combination as appropriate, in which case the combined effect can be obtained. Furthermore, various inventions are included in the above embodiments, and various inventions can be extracted by combinations selected from a plurality of disclosed constituent elements. For example, even if some constituent elements are deleted from all the constituent elements shown in the embodiments, if the problem can be solved and effects can be obtained, the configuration with the constituent elements deleted can be extracted as an invention.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

実施形態によれば、伝送システムは、送信システム、受信システム、情報収集部及び同期制御部を具備する。送信システムは、映像データ及び音声データを接続されたネットワークに送信できる。受信システムは、ネットワークを介して映像データ及び音声データを受信できる。情報収集部は、送信システム又は受信システムに設けられるとともに、映像及び音声の同期の要否の判定結果と判定項目とを対応付けて、同期制御データとして収集する。同期制御部は、送信システム又は受信システムに設けられるとともに、同期制御データに基づいて、映像と同期して音声を出力可能な同期音声データ、又は、映像とは独立して音声を出力可能な非同期音声データ、のいずれかを選択する。

Description

伝送システム、送信システム、受信システム及び伝送方法
 本発明は、伝送システム、送信システム、受信システム及び伝送方法に関する。
 マルチメディアコンテンツの伝送システムでは、送信システムが、ネットワークを介して通信可能な受信システムに、カメラ及びマイクから入力された映像及び音声を相互に同期させて送信する。送信された映像及び音声に基づいて、受信システムが映像表示装置に映像を表示するともに、スピーカから音声を再生する。例えば、離れたシステム間で映像及び音声をリアルタイムで共有する場合、映像及び音声の伝送遅延が50ミリ秒を超えない程度であれば、システム間で互いに連携して作業を行う際に障害が生じにくい。また、映像及び音声が相互に同期しているため、音声の遅延の程度が、映像の遅延の程度と同程度となってしまう。そのため、映像及び音声に関連する遅延を抑制可能な伝送システムが求められている。
日本国特許第5595348号公報
西堀佑,外2名,"遅延のある演奏系での遅延の認知に関する実験とその考察",情報処理学会研究報告,2003年12月21日,第127(2003-MUS-053)巻,p.37-42
 本発明は、映像及び音声に関連する遅延を抑制可能な伝送システム、送信システム、受信システム及び伝送方法を提供することを目的とする。
 実施形態によれば、伝送システムは、送信システム、受信システム、情報収集部及び同期制御部を具備する。送信システムは、映像データ及び音声データを接続されたネットワークに送信できる。受信システムは、ネットワークを介して映像データ及び音声データを受信できる。情報収集部は、送信システム又は受信システムに設けられるとともに、映像及び音声の同期の要否の判定結果と判定項目とを対応付けて、同期制御データとして収集する。同期制御部は、送信システム又は受信システムに設けられるとともに、同期制御データに基づいて、映像と同期して音声を出力可能な同期音声データ、又は、映像とは独立して音声を出力可能な非同期音声データ、のいずれかを選択する。
 実施形態によれば、映像及び音声に関連する遅延を抑制可能な伝送システム、送信システム、受信システム及び伝送方法を提供することができる。
図1は、実施形態に係る伝送システムを概略的に示すブロック図である。 図2は、実施形態に係る伝送システムの送信システム及び受信システムのハードウェア構成を概略的に示すブロック図である。 図3は、実施形態に係る伝送システムの同期制御部で実行される処理の一例を説明するフローチャートである。 図4は、実施形態に係る伝送システムの変形例を概略的に示すブロック図である。
 本発明の一実施形態について、適宜図面を参照しながら詳細に説明する。
 実施形態に係る伝送システム1は、例えば、スポーツやエンターテインメント等を離れた場所において観戦・観覧する場合に使用される。観戦・観覧する場所(拠点)が異なっていても、観戦・観覧する人が同時にスポーツやエンターテインメント等を楽しむためには、観戦・観覧する場所にスポーツやエンターテインメント等の映像及び音声を可能な限り遅延することなく伝送することが求められる。しかしながら、通常、映像及び音声は互いに同期した状態で伝送されるため、映像の伝送が遅延することにより音声の伝送も遅延してしまう。その結果、互いに離れた場所にいる観戦・観覧者同士が同時に(連携して)スポーツやエンターテインメント等を楽しむことは難しい場合があった。本実施形態の伝送システム1は、同期制御データに基づいて、映像と同期して音声を出力可能な同期音声データ、又は、映像とは独立して音声を出力可能な非同期(独立)音声データ、のいずれかを選択する。これにより、スポーツやエンターテインメント等の観戦・観覧者は、映像及び音声の同期が必要なタイミングにおいて、同期した映像及び音声を視聴することができるようになる。例えば、試合中の選手の映像が流れている場合、映像及び音声を同期させて伝送するため、観戦・観覧者は違和感なく視聴することができる。一方で、観客席の映像等が流れている場合等、必ずしも映像及び音声を同期させる必要がない場合、映像及び音声を同期させることなく伝送することで音声遅延が所定の閾値以下に抑制される。これにより、離れた場所にいる観戦・観覧者同士が連携しながら応援することができる。
 図1は、実施形態に係る伝送システムを概略的に示すブロック図である。伝送システム1は、送信システム2及び受信システム3を備える。送信システム2は、撮影部21、集音部22、映像処理部23、オーディオシステム24、エンコーダ25、判定部26、及び、情報収集部27を備える。判定部26は、映像判定部261、音声判定部262、設定判定部263、及び、音量判定部264を備える。受信システム3は、デコーダ31、同期制御部32、オーディオシステム33、映像表示部34、及び、発音部35を備える。送信システム2及び受信システム3は、ネットワーク4を介して互いに通信可能である。ネットワーク4は、例えば、インターネット(登録商標)である。なお、図1の破線は、後述する同期制御データが送信される経路を示す。
 図2は、実施形態に係る伝送システムの送信システム及び受信システムのハードウェア構成を概略的に示すブロック図である。送信システム2及び受信システム3のそれぞれは、例えば、コンピュータである。送信システム2及び受信システム3のそれぞれは、プロセッサ41、記憶媒体42、ユーザインタフェース43、及び、通信部44を備える。プロセッサ41、記憶媒体42、ユーザインタフェース43、及び、通信部44は、互いに対してバス45を介して接続される。
 プロセッサ41は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、ASIC(Application Specific Integrated Circuit)、マイコン、FPGA(Field Programmable Gate Array)、及び、DSP(Digital Signal processor)等のいずれかを含む。記憶媒体42には、メモリ等の主記憶装置46に加え、補助記憶装置47が含まれ得る。
 主記憶装置46は、非一時的な記憶媒体である。主記憶装置46は、例えば、HDD(Hard Disk Drive)又はSSD(Solid State Drive)等の書き込み及び読み出しが随時に可能な不揮発性メモリ、ROM(Read Only Memory)等の不揮発性メモリ等である。また、これらの不揮発性メモリが組み合わせて使用されているものであってもよい。補助記憶装置47は、有形の記憶媒体である。補助記憶装置47は、前述の不揮発性メモリ、RAM(Random Access Memory)等の揮発性メモリが組み合わせて使用されるものである。送信システム2及び受信システム3では、プロセッサ41及び記憶媒体42のそれぞれは、1つのみ設けられてもよく、複数設けられてもよい。
 送信システム2及び受信システム3のそれぞれでは、プロセッサ41は、記憶媒体42等に記憶されるプログラム等を実行することにより、処理を行う。また送信システム2及び受信システム3はでは、プロセッサ41によって実行されるプログラムは、インターネット等のネットワークを介して接続されたコンピュータ(サーバ)、又は、クラウド環境のサーバ等に格納されてもよい。この場合、プロセッサ41は、ネットワーク経由でプログラムをダウンロードする。送信システム2において、映像処理部23、オーディオシステム24、エンコーダ25、判定部26、及び、情報収集部27は、送信システム2に備えられるプロセッサ41で実行される処理の少なくとも一部を実行する。受信システム3において、デコーダ31、同期制御部32、及び、オーディオシステム33は、受信システム3に備えられるプロセッサ41で実行される処理の少なくとも一部を実行する。
 ユーザインタフェース43では、伝送システム1の使用者によって各種の操作等が入力されるとともに、使用者に告知する情報等が表示等によって告知される。ユーザインタフェースは、ディスプレイなどの表示部48であったり、タッチパネルやキーボードなどの入力部49であったりする。なお、入力部49として、送信システム2及び受信システム3に接続されたデバイスが使用されてもよく、ネットワーク4を介して通信可能な他の情報処理装置の入力部が使用されてもよい。
 ある一例では、送信システム2及び受信システム3は、互いにネットワーク4を介して通信可能なサーバである。別のある一例では、送信システム2及び受信システム3は、クラウド環境に構築されるクラウドサーバである。この場合、クラウド環境のインフラは、仮想CPU等の仮想プロセッサ及びクラウドメモリによって、構成される。仮想プロセッサによって実行される処理の一部を、映像処理部23、オーディオシステム24、エンコーダ25、判定部26、及び、情報収集部27が実行する。また、仮想プロセッサによって実行される処理の一部を、デコーダ31、同期制御部32、及び、オーディオシステム33が実行する。
 送信システム2の構成について説明する。撮影部21は、映像(動画)データを撮影する。撮影部21は、例えば、カメラである。集音部22は、撮影部21が撮影した映像データで使用される音声データを集音する。集音部22は、例えば、マイクである。映像処理部23は、撮影部21が撮影した映像データに基づいて、所定の処理を実行する。映像処理部23は、例えば、撮影した映像データに文字情報や図形情報等を重ねて表示する処理を実行する。オーディオシステム24は、集音部22が集音した音声データに基づいて、所定の処理を実行する。オーディオシステム24は、例えば、集音した音声データの音量等をネットワーク4を介して伝送するにあたり最も適切な状態へ調整する処理を実行する。エンコーダ25は、映像処理部23から入力された映像データ及びオーディオシステム24から入力された音声データに基づいて、エンコードを実行する。エンコーダ25は、エンコードした映像データ及び音声データを、ネットワーク4を介して受信システム3に送信する。
 エンコーダ25は、映像データと同期して音声を出力可能な同期音声データ、及び、映像データとは独立して音声を出力可能な非同期音声データの両方を、ネットワーク4を介して受信システム3に送信する。同期音声データ及び非同期音声データの両方は、いずれも集音部22で集音された音声データである。ここでは、映像データと同期して(映像データとともに)受信システム3に送信される場合の音声データを同期音声データと呼ぶ。また、映像データとは無関係に(独立して)受信システム3に送信される場合の音声データを非同期音声データと呼ぶ。本実施形態では、エンコーダ25が映像データ及び同期音声データをまとめて受信システム3に送信し、非同期音声データを映像データとは独立して受信システム3に送信する。したがって、非同期音声データは、映像データの処理やネットワーク4における映像データの送信速度等に影響されずに、受信システム3に送信される。判定部26は、撮影部21が撮影した映像データ及び集音部22が集音した音声データに基づいて、同期の要否を判定する。情報収集部27は、判定部26で生成された判定結果を収集するとともに、判定結果と判定に用いられる判定項目とを互いに関連付けて、ネットワーク4を介して受信システム3に送信する。
 受信システム3の構成について説明する。デコーダ31は、映像及び音声をデコードする。デコードされた映像データは映像表示部34に出力されるとともに、デコードされた音声データは同期制御部32に出力される。このとき、同期制御部32は、同期音声データ及び非同期音声データの両方をデコーダ31から取得する。同期制御部32は、送信システム2から、判定結果及び判定項目が互いに関連付けられた同期制御データを取得する。同期制御部32は、同期制御データに基づいて後述する処理を実行し、同期音声データ又は非同期音声データのいずれかを選択する。同期制御部32は、選択したいずれかの音声データをオーディオシステム33に出力する。オーディオシステム33は、入力された音声データに基づいて、所定の処理を実行する。オーディオシステム33は、例えば、発音部35から再生するのに適切な音量となるよう調整する処理を実行する。映像表示部34は、入力された映像データを表示する。映像表示部34は、例えば、ディスプレイやプロジェクタである。発音部35は、入力された音声データを再生する。発音部35は、例えば、スピーカである。
 次に、送信システム2の判定部26及び情報収集部27について説明する。判定部26は、前述したように、映像判定部261、音声判定部262、設定判定部263、及び、音量判定部264を備える。
 映像判定部261は、撮影部21から判定に使用する映像データを取得する。映像判定部261は、取得した映像データに基づいて、映像の種別を判定する。ある一例では、映像判定部261は、取得した映像データに基づいて、映像が引き画であるか寄り画であるかを判定する。映像判定部261は、例えば、機械学習による事前の学習結果に基づいて、前述した映像データを判定してもよい。映像判定部261は、映像データの判定結果を情報収集部に出力する。
 音声判定部262は、集音部22から判定に使用する音声データを取得する。音声判定部262は、取得した音声データに基づいて、音声の種別を判定する。ある一例では、音声判定部262は、取得した音声データに基づいて、音声が声援であるか否かを判定する。音声判定部262は、例えば、機械学習による事前の学習結果に基づいて、前述した音声データを判定してもよい。音声判定部262は、音声データの判定結果を情報収集部27に出力する。
 設定判定部263は、例えば撮影部21の設定情報を機材データとして、撮影部21から取得する。設定情報は、レンズの焦点距離に関する情報を含む。設定判定部263は、取得した設定情報及び予め設定された閾値に基づいて、撮影部21が寄り画で撮影しているか又は撮影部21が引き画で撮影しているかを判定する。すなわち、レンズの焦点距離が予め設定された閾値よりも大きい場合、撮影部21が寄り画で撮影していると判定し、レンズの焦点距離が予め設定された閾値以下である場合、撮影部21が引き画で撮影していると判定する。設定判定部263は、撮影部21の判定結果を情報収集部27に出力するとともに、撮影部21の設定情報を情報収集部27に出力する。予め設定されたレンズの焦点距離の閾値は、例えば、撮影部21が撮像素子35mmのカメラである場合、100mmである。
 音量判定部264は、集音部22から判定に使用する音声データを取得する。音量判定部264は、取得した音声データの音量に基づいて、音声の種別を判定する。ある一例では、音量判定部264が、取得した音声データの音量及び予め設定された音量の閾値に基づいて、音声データが声援であるか否かを判定する。音声データの音量としては、例えば、客席に設置されたマイクから入力された声援のゲイン値(音量)を示す情報が含まれる。音量判定部264は、音声データの音量の判定結果を情報収集部27に出力する。予め設定された音量の閾値は、例えば、75.0dBである。
 情報収集部27は、前述した判定部26から、映像データの判定結果、音声データの判定結果、及び、機材データに基づく判定結果のそれぞれを取得する。情報収集部27は、映像判定部261による判定結果が映像データに関連することを示す情報と、映像判定部261による判定結果とを関連付ける。情報収集部27は、音声判定部262による判定結果が音声データに関連することを示す情報と、音声判定部262による判定結果とを関連付ける。情報収集部27は、設定判定部263による判定結果が機材データに関連することを示す情報と、設定判定部263による判定結果とを関連付ける。情報収集部27は、音量判定部264による判定結果が音声データに関連することを示す情報と、音量判定部264による判定結果とを関連付ける。情報収集部27は、前述のようにして、判定結果と判定項目とが関連付けられた同期制御データを、ネットワーク4を介して同期制御部32に送信する。
 次に、同期制御部32について説明する。同期制御部32は、同期制御データに基づいて、受信システム3の発音部35から出力される音声データを選択する。同期制御部32は、同期制御データに含まれる判定項目及び判定結果に対応した処理を実行することで、適切な音声データを選択する。判定項目が映像データに関連し、かつ、判定結果として映像の種別が寄り画である場合、同期制御部32は、出力される音声データとして同期音声データを選択する。また、判定項目が音声データに関連し、かつ、判定結果として音声の種別が声援以外である場合、同期制御部32は、出力される音声データとして同期音声データを選択する。また、判定項目が機材データに関連し、かつ、判定結果として焦点距離が閾値を超える場合、同期制御部32は、出力される音声データとして同期音声データを選択する。また、判定項目が音声データに関連し、かつ、判定結果として音声データの音量が閾値を超える場合、同期制御部32は、出力される音声データとして同期音声データを選択する。これらの場合、映像データに伝送に対する音声データの伝送に際して低遅延が求められないため、同期制御部32は、出力される音声データとして同期音声データを選択する。これら以外の場合、同期制御部32は音声データとして非同期音声データを選択する。すなわち、この場合、映像データに伝送に対する音声データの伝送に際して低遅延が求められるため、同期制御部32は、出力される音声データとして非同期音声データを選択する。同期制御部32は、前述のようにして選択した音声データをオーディオシステム33に出力する。同期制御部32は、前述した処理において、同期制御データに含まれる判定項目及び判定結果のいずれか1つを利用してもよく、複数を組み合わせて使用してもよい。
 なお、同期制御部32は、あらかじめ音声データの判定基準となる基準情報を受信システム3から取得する。基準情報は、例えば、映像データと音声データとの同期の判定に用いられる閾値、同期の判定を実行する判定周期(時間間隔)等のデータを含む。同期の判定に用いられる閾値は、例えば、複数の判定結果を用いて同期音声データの選択の要否を判定する場合、同期音声データを選択する判定結果の割合が50%以上であること、である。この場合、同期音声データを選択する判定結果の割合が50%以上であるとき同期音声データが選択され、同期音声データを選択する判定結果の割合が50%未満であるとき非同期音声データが選択される。また、判定周期は、例えば、撮影部21が秒間60枚の映像を撮影するカメラである場合、1/60秒である。
 同期制御部32が音声データを選択する場合、選択の前後において音声データが同期音声データから非同期音声データに、又は、非同期音声データから同期音声データに切り替わる場合がある。このとき、同期制御部32は、音声データの切替にともなう不自然な音の変化(例えば、無音区間の発生や音声波形の断裂)を抑制するため、所定の緩衝処理を実行してもよい。緩衝処理は、例えば、音声データの切替時には瞬時に切り替えるのではなく、切り替える前の音声データの音量を段々小さくしていったものと、切り替えた後の音声データの音量を段々大きくしていったものを合成して出力する等の処理である。
 図3は、同期制御部32で実行する処理の一例を説明するフローチャートである。図3の処理は、送信システム2から受信システム3に映像データ及び音声データが入力されるたびに、同期制御部32によって実行される。したがって、図3の処理は、伝送システム1の音声データの入力において実行される処理の一例を示す。
 図3の処理が開始されると、同期制御部32は、音声データの判定基準となる基準情報を受信システム3から取得する(S101)。同期制御部32は、判定結果と判定項目とが関連付けられた同期制御データを、ネットワーク4を介して送信システム2から取得する(S102)。送信システム2から受信システム3に映像データ及び音声データを伝送するのに要した時間(遅延時間)が時間閾値以上である場合(S103-Yes)、同期制御部32は、同期音声データの取得が完了しているか否かを判定する(S104)。同期音声データの取得が完了している場合(S104-Yes)、同期制御部32は、出力される音声データとして同期音声データを選択する(S106)。同期音声データの取得が完了していない場合(S104-No)、同期制御部32は、出力される音声データとして非同期音声データを選択する(S107)。このように、遅延時間が時間閾値以上である場合には、取得が完了している音声データを出力される音声データとして選択することで、音声再生の停止を防止することができる。
 送信システム2から受信システム3に映像データ及び音声データを伝送するのに要した時間(遅延時間)が時間閾値未満である場合(S103-No)、同期制御部32は、音声データが低遅延であることが優先されるか否かを判定する(S105)。低遅延の優先の要否は、前述のように、同期制御データに含まれる判定結果及び判定項目に対応して判定される。低遅延が優先される場合(S105-Yes)、処理はS104に進み、S104以降の処理が実行される。低遅延が優先されない場合(S105-No)、同期制御部32は、出力される音声データとして非同期音声データを選択する(S107)。
 同期制御部32は、出力される音声データの選択により、選択前の音声データと選択後の音声データが切替わっているか否かを判定する(S108)。音声データが切替わっている場合(S108-Yes)、同期制御部32は前述した緩衝処理を実行する(S109)。その後、同期制御部32は緩衝処理が実行された音声データを出力する(S110)。音声データが切替わっていない場合(S108-No)、同期制御部32がS109を実行することなく、処理がS110へ進む。音声データの出力により、オーディオシステム33に音声データが入力されるとともに、発音部35から音声が出力される。また、発音部35からの音声出力は、映像表示部34の映像データの再生にあわせて適宜実行される。
 同期制御部32は、基準情報として取得した音声データの判定周期を超えているか否かを判定する(S111)。判定周期以下である場合(S111-No)、処理はS111に戻り、同期制御部32はS111以降の処理を実行する。判定周期を超えている場合(S111-Yes)、同期制御部32は、音声データの入力が継続しているか否かを判定する(S112)。音声データの入力が継続している場合(S112-Yes)、処理はS102に戻り、同期制御部32はS102以降の処理を実行する。音声データの入力が継続していない場合(S112-No)、処理は終了する。
 前述のように本実施形態の伝送システム1は、情報収集部27及び同期制御部32を具備する。情報収集部27は、映像及び音声の同期の要否の判定結果と判定項目とを対応付けて、同期制御データとして収集する。同期制御部32は、同期制御データに基づいて、映像と同期して音声を出力可能な同期音声データ、又は、映像とは独立して音声を出力可能な非同期音声データ、のいずれかを選択する。これにより、伝送システム1では、適切なタイミングで非同期音声データを出力することができる。そのため、本実施形態の伝送システムでは、映像の伝送を待たずに音声が伝送されることで、音声遅延を例えば50ミリ秒以下に抑えることができる。よって、離れた場所で観戦・観覧している者同士が連携しながら、応援等をすることが可能となる。
 本実施形態の伝送システム1では、同期制御部32は、同期制御データが音声の低遅延を要求する情報である場合に同期音声データを選択し、同期制御データが音声の低遅延を要求しない情報である場合に非同期音声データを選択することが好ましい。これにより、伝送システム1では適切なタイミングで映像とは同期しない非同期音声データを出力することができる。
 本実施形態の伝送システム1では、同期制御部32は、同期制御データに基づいた選択により、出力される音声が同期音声データと非同期音声データとの間で切り替わる場合、音声の緩衝処理を実行することが好ましい。これにより、音声データの切替にともなって発生する不自然な音の発生を抑制することができるとともに、視聴者は違和感なく映像及び音声を視聴し続けることができる。
 このような伝送システム1を使用することにより、例えば、映像が寄り画の場合(スポーツ選手をズームアップして撮影している場合等)に映像及び音声が同期して再生され、映像が切替わって引き画の場合(観客席全体を撮影している場合等)に映像及び音声が同期されずに再生される。そのため、映像の視聴者は、映像と音声とのずれを顕著に認識するタイミングにおいて映像と音声とが同期しているため、違和感を感じることなく視聴を続けることができる。さらに、映像の視聴者が映像と音声とのずれを顕著に認識するタイミングとは別のタイミングにおいて、映像と音声とが同期されずに再生されるため、視聴者が違和感を感じることなく、映像及び音声に関連する遅延を抑制することができる。
 (変形例)
 図4は、実施形態の伝送システムの変形例を示す概略的なブロック図である。本変形例では、複数のエンコーダ25が送信システム2に設けられるとともに、複数のデコーダ31が受信システム3に設けられる。図4の一例では、送信システム2が2つのエンコーダ251,252を備え、受信システム3が2つのデコーダ311,312を備える。この場合、エンコーダ251が映像処理部23から出力された映像データ及びオーディオシステム24から出力された音声データを同期させて、送信システム2から受信システム3にネットワーク4を介して送信する(実線の矢印で示す)。また、エンコーダ252が、オーディオシステム24から出力された非同期音声データを、映像データと同期させることなく独立して、送信システム2から受信システム3にネットワーク4を介して送信する(一点鎖線の矢印で示す)。一方、デコーダ311が受信した映像データ及び同期音声データをデコードするとともに、映像データを映像表示部34に出力し、同期音声データを同期制御部32に出力する(実線の矢印で示す)。また、デコーダ312が、受信した非同期音声データを同期制御部32に出力する(一点鎖線の矢印で示す)。この変形例においても、伝送システム1は、同期制御データに基づいて、同期音声データ又は非同期音声データのいずれかを選択することができる。よって、これらの変形例においても前述の実施形態と同様の効果を奏する。
 ある変形例では、情報収集部27及び同期制御部32が送信システム2に設けられてもよい。また、別のある変形例では、情報収集部27及び同期制御部32が受信システム3に設けられてもよい。これらの変形例の場合、同期制御部32は、情報収集部27からネットワーク4を介することなく、同期制御データを取得する。これらの変形例においても、伝送システム1は、同期制御データに基づいて、同期音声データ又は非同期音声データのいずれかを選択することができる。よって、これらの変形例においても前述の実施形態と同様の効果を奏する。
 実施形態等に記載された手法は、コンピュータに実行させることができるプログラム(ソフトウエア)として、例えば、磁気ディスク、光ディスク、半導体メモリ等の記憶媒体に格納して頒布され得る。記憶媒体は、頒布用に限らず、計算機内部あるいはネットワークを介して接続される機器に設けられた磁気ディスク、半導体メモリ等の記憶媒体を含む。また、実施形態に記載された手法は、通信媒体により伝送して頒布され得る。媒体側に格納されるプログラムには、コンピュータに実行させるソフトウエアをコンピュータ内に構成させる設定プログラムをも含む。ソフトウェアには、実行プログラムのみならずテーブル、データ構造も含む。本システムを実現するコンピュータは、記憶媒体に記録されたプログラムを読み込むとともに、ソフトウェアにより動作が制御されることで、前述の処理を実行する。ソフトウェアは、コンピュータが設定プログラムにより構築してもよい。
 なお、本発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、各実施形態は適宜組み合わせて実施してもよく、その場合組み合わせた効果が得られる。更に、上記実施形態には種々の発明が含まれており、開示される複数の構成要件から選択された組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、課題が解決でき、効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。
 1…伝送システム
 2…送信システム
 3…受信システム
 4…ネットワーク
 21…撮影部
 22…集音部
 23…映像処理部
 24…オーディオシステム
 25,251,252…エンコーダ
 26…判定部
 27…情報収集部
 31,311,312…デコーダ
 32…同期制御部
 33…オーディオシステム
 34…映像表示部
 35…発音部
 

Claims (8)

  1.  映像データ及び音声データを接続されたネットワークに送信可能な送信システムと、
     前記ネットワークを介して前記映像データ及び前記音声データを受信可能な受信システムと、
     前記送信システム又は前記受信システムに設けられるとともに、映像及び音声の同期の要否の判定結果と前記判定結果の判定項目とを対応付けて、同期制御データとして収集する情報収集部と、
     前記送信システム又は前記受信システムに設けられるとともに、前記同期制御データに基づいて、映像と同期して音声を出力可能な同期音声データ、又は、映像とは独立して音声を出力可能な非同期音声データ、のいずれかを選択する同期制御部と、
    を具備する、伝送システム。
  2.  前記同期制御部は、前記同期制御データが音声の低遅延を要求する情報である場合に前記同期音声データを選択し、前記同期制御データが音声の低遅延を要求しない情報である場合に前記非同期音声データを選択する、
     請求項1に記載の伝送システム。
  3.  前記同期制御部は、前記同期制御データに基づいた選択により、出力される音声が前記同期音声データと前記非同期音声データとの間で切り替わる場合、音声の緩衝処理を実行する、
     請求項1又は2に記載の伝送システム。
  4.  前記同期制御データは、前記映像データに関連する前記同期制御データ、前記音声データに関連する前記同期制御データ、及び、機材データに関連する前記同期制御データから選択される少なくとも1つを含む、
     請求項1~3のいずれか1項に記載の伝送システム。
  5.  前記送信システムは、前記情報収集部を備え、
     前記受信システムは、前記送信システムとは別のシステムであるとともに、前記同期制御部を備え、
     前記同期制御部は、前記情報収集部から前記同期制御データを取得する、
     請求項1~4のいずれか1項に記載の伝送システム。
  6.  映像データ及び音声データを接続されたネットワークに送信可能な送信システムであって、
     映像及び音声の同期の要否の判定結果と前記判定結果の判定項目とを対応付けて、同期制御データとして収集する情報収集部を具備する、
    送信システム。
  7.  映像データ及び音声データを接続されたネットワークから受信可能な受信システムであって、
     映像及び音声の同期の要否の判定結果と判定結果の判定項目とを対応付けた同期制御データに基づいて、映像と同期して音声を出力可能な同期音声データ、又は、映像とは独立して音声を出力可能な非同期音声データ、のいずれかを選択する同期制御部を具備する、
    受信システム。
  8.  映像及び音声の同期の要否の判定結果と前記判定結果の判定項目とを対応付けて、同期制御データとして収集し、
     前記同期制御データに基づいて、映像と同期して音声を出力可能な同期音声データ、又は、映像とは独立して音声を出力可能な非同期音声データ、のいずれかを選択する、
    伝送方法。
     
PCT/JP2021/023733 2021-06-23 2021-06-23 伝送システム、送信システム、受信システム及び伝送方法 WO2022269788A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2023529305A JPWO2022269788A1 (ja) 2021-06-23 2021-06-23
PCT/JP2021/023733 WO2022269788A1 (ja) 2021-06-23 2021-06-23 伝送システム、送信システム、受信システム及び伝送方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/023733 WO2022269788A1 (ja) 2021-06-23 2021-06-23 伝送システム、送信システム、受信システム及び伝送方法

Publications (1)

Publication Number Publication Date
WO2022269788A1 true WO2022269788A1 (ja) 2022-12-29

Family

ID=84545331

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/023733 WO2022269788A1 (ja) 2021-06-23 2021-06-23 伝送システム、送信システム、受信システム及び伝送方法

Country Status (2)

Country Link
JP (1) JPWO2022269788A1 (ja)
WO (1) WO2022269788A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003204492A (ja) * 2001-10-29 2003-07-18 Matsushita Electric Ind Co Ltd 映像音声同期装置
JP2015012557A (ja) * 2013-07-02 2015-01-19 日本電気株式会社 映像音声処理装置、映像音声処理システム、映像音声同期方法、プログラム
JP2017046235A (ja) * 2015-08-27 2017-03-02 沖電気工業株式会社 音声映像同期処理装置、端末、音声映像同期処理方法及びプログラム
US20170064154A1 (en) * 2015-08-27 2017-03-02 Htc Corporation Method for synchronizing video and audio in virtual reality system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003204492A (ja) * 2001-10-29 2003-07-18 Matsushita Electric Ind Co Ltd 映像音声同期装置
JP2015012557A (ja) * 2013-07-02 2015-01-19 日本電気株式会社 映像音声処理装置、映像音声処理システム、映像音声同期方法、プログラム
JP2017046235A (ja) * 2015-08-27 2017-03-02 沖電気工業株式会社 音声映像同期処理装置、端末、音声映像同期処理方法及びプログラム
US20170064154A1 (en) * 2015-08-27 2017-03-02 Htc Corporation Method for synchronizing video and audio in virtual reality system

Also Published As

Publication number Publication date
JPWO2022269788A1 (ja) 2022-12-29

Similar Documents

Publication Publication Date Title
JP3053541B2 (ja) デジタル記録音声及びビデオの同期式可変速度再生
JP7251592B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP7271856B2 (ja) ネットワーク遅延がある環境での遠隔クラウドベースのビデオ制作システム
US20110214141A1 (en) Content playing device
CN103190092A (zh) 用于流数字内容的同步重放的系统和方法
WO2019167632A1 (ja) 情報処理装置、情報処理方法、及び、プログラム
JP2007027846A (ja) 動画再生システム及び動画再生方法
JP6473262B1 (ja) 配信サーバ、配信プログラムおよび端末
JP2006041886A (ja) 情報処理装置および方法、記録媒体、並びにプログラム
JP2006041888A (ja) 情報処理装置および方法、記録媒体、並びにプログラム
JP6727106B2 (ja) 画像音響処理装置および画像音響処理方法、プログラム
WO2022269788A1 (ja) 伝送システム、送信システム、受信システム及び伝送方法
US10747492B2 (en) Signal processing apparatus, signal processing method, and storage medium
GB2563267A (en) Methods and systems for generating a reaction video
JP2016513390A (ja) 2d−3d複合次元コンテンツファイルを用いた複合次元コンテンツサービス提供システム、そのサービス提供方法及びその複合次元コンテンツファイル
JP6987567B2 (ja) 配信装置、受信装置及びプログラム
JP7365212B2 (ja) 動画再生装置、動画再生システム、および動画再生方法
WO2018173312A1 (ja) 仮想現実視聴システム、再生同期方法および仮想現実視聴用プログラム
WO2021049048A1 (ja) 映像提供システムおよびプログラム
JP5404338B2 (ja) コンテンツ再生装置及びその制御方法
JP6733990B2 (ja) 解説音声再生装置、解説音声生成装置及び解説音声再生プログラム
JP7469525B1 (ja) 時刻調整システム、端末装置、およびサーバ装置
WO2022244364A1 (ja) 情報処理装置、情報処理方法、プログラム
JP2022134182A (ja) 映像出力方法、映像出力装置および映像出力システム
WO2024057398A1 (ja) 提示映像調整装置、提示映像調整方法及び提示映像調整プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21947074

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023529305

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 18571252

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE