WO2019188091A1 - 映像挿入装置、映像表示端末装置 - Google Patents

映像挿入装置、映像表示端末装置 Download PDF

Info

Publication number
WO2019188091A1
WO2019188091A1 PCT/JP2019/009107 JP2019009107W WO2019188091A1 WO 2019188091 A1 WO2019188091 A1 WO 2019188091A1 JP 2019009107 W JP2019009107 W JP 2019009107W WO 2019188091 A1 WO2019188091 A1 WO 2019188091A1
Authority
WO
WIPO (PCT)
Prior art keywords
video
audio
stream
information
terminal device
Prior art date
Application number
PCT/JP2019/009107
Other languages
English (en)
French (fr)
Inventor
難波 秀夫
宏道 留場
Original Assignee
シャープ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by シャープ株式会社 filed Critical シャープ株式会社
Priority to US17/041,925 priority Critical patent/US20210144419A1/en
Publication of WO2019188091A1 publication Critical patent/WO2019188091A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23424Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for inserting or substituting an advertisement
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/02Synthesis of acoustic waves
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234363Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by altering the spatial resolution, e.g. for clients with a lower screen resolution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • H04N21/4316Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations for displaying supplemental content in a region of the screen, e.g. an advertisement in a separate window
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • H04N21/44218Detecting physical presence or behaviour of the user, e.g. using sensors to detect if the user is leaving the room or changes his face expression during a TV program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/258Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
    • H04N21/25808Management of client data
    • H04N21/25841Management of client data involving the geographical location of the client
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/258Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
    • H04N21/25866Management of end-user data
    • H04N21/25883Management of end-user data being end-user demographical data, e.g. age, family status or address

Definitions

  • the present invention relates to a video processing device and a video display device.
  • This application claims priority based on Japanese Patent Application No. 2018-67287 filed in Japan on March 30, 2018, the contents of which are incorporated herein by reference.
  • Non-Patent Document 1 In order to distribute video signals using such broadband signals, the use of new broadcasting satellites and optical fibers has been studied (Non-Patent Document 1).
  • the ultra-high resolution display device can provide a variety of information services by utilizing the abundant amount of information that can be provided to viewers.
  • an ultra-high resolution display device has a sufficient number of pixels per unit area even when the screen size is increased, and has a sufficient amount of information even when video information is provided using a part of the display device. Therefore, the user experience of the viewer is greatly improved as compared with the case where a similar service is provided by a display device having a conventional resolution.
  • One aspect of the present invention has been made in view of the above problems, and provides a plurality of video information and audio information from a network-side device according to a display device used by a viewer.
  • This invention discloses a device and a configuration for improving the recognizability of a plurality of pieces of video information by reproducing audio information using an audio object together with the display of the video information.
  • one or more predetermined video and predetermined audio are inserted into a stream including video and audio and inserted into a video display terminal device.
  • a scaling processing unit that matches the size and position of the predetermined video to be inserted into one or more display areas that are a part of the display range of the video included in the stream.
  • a video insertion device including an audio object position adjusting unit that converts predetermined audio corresponding to the predetermined video to be inserted into an audio object, and sets a setting position of the audio object in the display area.
  • a terminal interface unit that acquires terminal information of the video display terminal device is further provided, and the display area is based on the terminal information.
  • a video insertion device for setting is provided.
  • the video display terminal device that is the transmission destination of the stream after insertion is set to at least one of information relating to an area and information relating to a user group.
  • a video insertion device for grouping on the basis of the grouped video display terminal devices and inserting the predetermined video and the predetermined audio into the grouped video display terminal devices.
  • At least one post-insertion stream is transmitted for video and audio inserted into the grouped video display terminal devices.
  • the change information is received from the video display terminal device, the display area and the audio object of the predetermined sound are set based on the change information for the plurality of grouped video display terminal devices.
  • a video insertion device for changing is provided.
  • a video display terminal device that receives a stream including video and audio information and reproduces the video and audio.
  • a video display terminal device that sends terminal information including information on the size of a video display unit included in the display terminal device and information on a distance between the video display unit and a viewer to a video insertion device.
  • the size information of the video display unit included in the terminal information is standardized to a predetermined type. Is provided.
  • a user input device when a user input device is further provided and an operation on a video inserted by the video insertion device is input from the user input device There is provided a video display terminal device that transmits change information corresponding to the video to the video insertion device.
  • a plurality of video information and audio information suitable for a display device used by a viewer are provided from a network side device, and an audio object is displayed along with the display of the plurality of video information on the display device side.
  • FIG. 1 shows an example of the device configuration of the present embodiment.
  • This embodiment includes a video server 101, a video insertion device 102, a video display terminal device 103, and a terminal information management device 104.
  • the video insertion device 102 and the video display terminal device 103 are connected by a network 128.
  • the network 128 may use various types of networks such as a wired network using a kappa cable or an optical fiber cable, a public wireless network such as a cellular wireless communication network, or a private wireless network such as a wireless LAN. In the present embodiment, it is assumed that a cellular radio communication network is used.
  • the video server 101 includes a video generation unit 105 that supplies a video stream, an audio generation unit 106 that generates an audio stream, and a multiplex unit 107 that multiplexes the video stream and the audio stream.
  • the audio stream may be composed of two or more audio data.
  • An audio stream encoding method is not particularly specified, but MPEG AAC, MPEG SAOC, or the like may be used.
  • the encoding method of the video stream is not particularly specified. H.264 system and H.264. A H.265 system, VP9, or the like may be used.
  • the method for multiplexing the audio stream and the video stream is not particularly limited, but MPEG2 Systems, MPEG Media Transport (MMT), MP4, or the like may be used.
  • a stream obtained by multiplexing an audio stream and a video stream is hereinafter referred to as a composite stream.
  • the video insertion device 102 is located between the video server 101 and the network 128, and includes a composite stream output from the video server 101, another video stream whose size is controlled, and object audio whose sound source is controlled. Insert another audio stream.
  • a demultiplexer unit 108 demultiplexes the input composite stream and extracts a video stream audio stream, and 109 inserts the video data output from the stream cache unit 121 into the video data output from the demultiplexer unit 108. It is a video composition unit that synthesizes video data of the video stream.
  • the video composition method is not particularly specified, but the video stream output from the demultiplexer unit 108 is decoded to generate raw video data, and the video stream output from the stream cache unit 121 is decoded to generate raw video data.
  • the two video data may be combined and re-encoded to obtain a combined video stream.
  • the video stream output from the demultiplexer unit 108 and the video stream output from the stream cache unit 121 may be obtained. Combining may be performed in units of coding, and the re-encoding process may be partially reduced. Also, a method of combining the video stream output from the stream cache unit 121 as another track may be used.
  • An audio synthesis unit 110 synthesizes the audio stream output from the stream cache unit 121 with the audio stream output from the demultiplexer unit 108. This audio synthesis method is not particularly specified.
  • the channel-based sound source when the audio stream output from the demultiplexer unit 108 is a channel-based sound source, the channel-based sound source is used as a bed, and an audio object output from the stream cache 121 is added. It may be synthesized as an object sound source. Further, when the audio stream output from the demultiplexer unit 108 is an object sound source, an audio object may be added to the object sound source. At this time, if the upper limit of the number of audio objects is exceeded, downmixing may be performed. Also, the audio stream to be synthesized may be synthesized as a separate track.
  • a multiplexer unit 111 is a multiplexer unit that multiplexes the synthesized video stream output from the video synthesis unit 109 and the synthesized audio stream output from the audio synthesis unit 110. The composite stream multiplexed again is output to the network 128.
  • Reference numeral 121 denotes a stream cache unit.
  • the insertion video stream output from the scaler / position adjustment unit 114 and the audio stream for insertion output from the audio object position adjustment unit 117 are controlled by the insertion stream setting unit 113, respectively.
  • the image is sent to the video synthesis unit 109 and the voice synthesis unit 110. Further, the video stream and the audio stream are accumulated under the control of the insertion stream setting unit, and the accumulated video stream and audio stream are sent to the video synthesis unit 109 and the audio synthesis unit 110, respectively.
  • a scaler / position adjustment unit 114 is a block that performs a scaling process on the video data output from the video selection unit 115 under the control of the insertion stream setting unit 113 and generates a video stream in which the display position is adjusted.
  • Reference numeral 115 denotes a block for sending the video data selected from the video library unit 116 to the scaler / position adjusting unit 114 under the control of the insertion stream setting unit 113.
  • a video library unit 116 stores a plurality of video data for insertion.
  • An audio object position adjustment unit 117 converts the audio data output from the audio selection unit 118 into an audio object under the control of the insertion stream setting unit 113, and outputs an audio stream in which the position of the audio object is set.
  • An audio selection unit 118 outputs audio data selected from the audio library 119 under the control of the insertion stream setting unit 113.
  • An audio library 119 stores a plurality of audio data for insertion.
  • a library update unit 120 is a block that updates the contents of the video library 116 and the audio library 119 from the outside of the video insertion device 102 and sends the updated contents to the inserted video stream setting unit 113.
  • a terminal interface unit 112 communicates with the video display terminal device 103 connected via the network 128, terminal capability information regarding hardware and software of the video display terminal device 103, and a user input device of the video display terminal device 103. 127, obtaining various information such as user operation information input via 127, and obtaining terminal registration information related to the video display terminal device 103 registered in advance by communicating with the terminal information management device 104, These pieces of information are sent to the inserted video stream setting unit 113.
  • the inserted video stream setting unit 113 is a video library based on information on the video display terminal device 103 obtained from the terminal interface 112, user operation information, information obtained from the library update unit 120, other information obtained from the video server 101, and the like. This is a block for setting the video stream display size and display position selected from 116 and the parameters for converting the audio stream selected from the audio library 119 into an audio object.
  • a demultiplexer unit 122 performs demultiplexing processing on the input composite stream and outputs a video stream and an audio stream, and 123 decodes and displays the video stream, and a user interface provided by the network service interface unit 125
  • a video display unit 124 for displaying a screen for use, a multi-channel playback by decoding a voice stream, and a voice playback unit for playing back a user interface voice provided by the network service interface unit 125, and a network service interface unit 125 Then, it communicates with the terminal interface unit 112 of the video insertion device 102 via the network 128 to exchange various information such as information of the terminal information unit 126 and information of the user input device 127.
  • Reference numeral 126 denotes a terminal information unit, which is video such as information specific to the configuration of the video display terminal device 103, unique information for individually identifying the video display terminal device 103, and information for identifying a contract for using the network 128.
  • This block stores information related to the display terminal device 103 and transmits information stored in the terminal interface unit 112 of the video insertion device 102 via the network service interface unit 125.
  • Reference numeral 127 denotes a user input device that accepts a user operation on the video display terminal device 103, transmits user operation information to the terminal interface unit 112 of the video insertion device 102 via the network service interface unit 125, and is used for a user interface.
  • This is a block that generates a video and outputs it to the video display unit 123, generates audio for a user interface, and outputs it to the audio playback unit 124.
  • the terminal information management device 104 receives an inquiry from the terminal interface unit 112 of the video insertion device 102, and based on information about the video display terminal device 103 included in the inquiry, information on services that can be used by the video insertion device 102 is returned as a response. It is a device that transmits.
  • the audio reproduction unit 124 included in the video display terminal device 103 is configured to be able to reproduce object audio.
  • object audio is a method in which each of a plurality of sound sources constituting playback sound is defined as an audio object (virtual sound source) and placed at a free position in a playback space for playback.
  • a conventional channel-based sound source has a plurality of predetermined directions. For example, in the case of a 2-channel stereo sound source, two directions of left and right, and in the case of a 5-channel surround sound source, left front, front center, right front, right rear, left It is a sound source prepared on the premise that a speaker is arranged behind.
  • the speakers used in the channel-based sound source are arranged on a horizontal plane, and in some implementations, a plurality of horizontal planes are provided to reproduce sound arriving from a predetermined direction above. Since these channel-based sound sources mix multiple sound sources for the speaker layout that is assumed when generating the sound source, the sound that was intended at the time of mixing depends on the position of the speakers in the playback environment and the position of the listener during playback. There is a problem that cannot be reproduced. This may be expressed as the sweet spot of the sound source is narrow.
  • object audio it is possible to adaptively select and mix the speakers that play back the virtual sound source depending on the position of the speakers and the position of the listener. It is possible to reproduce the intended sound field.
  • the selection and mixing of speakers for reproducing the audio object may be referred to as sound rendering.
  • Satellite speakers 305-1 to -4 each of which is a long speaker array from the left and right of the viewing position 301 to the rear, with the top speakers 304-1 and -2 arranged above the main speakers.
  • Position set by sound rendering using placed speakers Can represent any audio object.
  • the audio reproduction unit of the video terminal device 301 knows the arrangement positions of the main speakers 303-1 and -2, the top speakers 304-1 and -2, and the satellite speakers 305-1 to 30-4 (hereinafter referred to as speaker groups).
  • a calibration microphone is installed at the viewing position 302 or a predetermined position, and a calibration reference signal is reproduced from the speaker group and collected by the calibration microphone, so that each speaker constituting the speaker group can be viewed from the viewing position. Can be obtained as information on the arrangement position.
  • the audio playback unit of the video terminal device 301 can execute sound rendering using this transfer function when the object audio is played back.
  • the configuration of the speakers is not limited to that shown in FIG. 3, and the number and positions of the speakers to be arranged may be different. Sound rendering may be performed according to the number and position of speakers to be arranged.
  • the video display terminal device 103 notifies the terminal interface 112 of the video insertion device 102 of information about the size and viewing distance of the video display unit 123 of the video display terminal device 103 via the network 128.
  • the video display unit 123 corresponds to 801, and a vertical size 807 and a horizontal size 806 may be sent as the size of the video display unit. Further, the diagonal length 805 of the screen and the aspect ratio of the screen may be sent.
  • the viewing distance corresponds to the distance 808 between the video display unit 123 and the viewer 804.
  • a value measured by providing a sensor such as a camera in the video display terminal device 103 may be used, or a viewing distance preset according to the size of the video display unit 123 may be used.
  • the size of the video display unit 123 and the preset viewing distance may be proportional. As an example, a value about 3 to 5 times the vertical size of the video display unit 123 may be set as a preset viewing distance.
  • the amount of information related to the size of the video display unit 123 may be reduced by standardizing the size of the video display unit 123 and using several types.
  • the diagonal length of the image display unit 123 is standardized so that the diagonal length is 25 inches or less, 32 inches or less, 40 inches or less, 50 inches or less, 70 inches or less, 100 inches or less, 150 inches or less, and more than 150 inches. Also good.
  • the viewing distance may be standardized.
  • the video insertion device 102 that has obtained information regarding the size and viewing distance of the video display unit 123 of the video display terminal 103 receives the video data and audio data to be inserted by the inserted video stream setting unit 113, respectively, as a video selection unit 115 and an audio selection unit 118. Is selected from the video library 118 and the audio library 119.
  • the selected video data is subjected to scaling processing and display position adjustment by the scaler / position adjustment unit 114 so that overlap display synthesis can be performed on the video stream included in the composite stream received from the video server 101.
  • the scaler / position adjustment unit 114 converts the scaling processing and display position adjustment video data into a video stream and sends the video stream to the stream cache unit 121.
  • the selected audio data is converted into an audio object by the audio object position adjustment unit 117, and the position of the audio object is set.
  • the position of the audio object will be described with reference to FIG. 8. If the display of the inserted video is an area indicated by 802, the head of the viewer 804 is assumed to be in the center front of the display screen 801, and the video display is performed. The position of the audio object is set in the space indicated by the area 803 on the front surface of the unit 123. After setting the position of the audio object, the audio object position adjustment unit converts the set audio object into an audio stream and sends it to the stream cache unit 112.
  • the stream cache unit 112 sends a video stream for synthesis to the video synthesizing unit 109 and an audio stream for synthesis to the audio synthesizing unit 110.
  • the inserted video stream setting unit 113 does not use the data of the video library unit 116 and the audio library 119 when the video stream and the audio stream corresponding to the video to be inserted into the stream cache unit 121 are accumulated.
  • the stream cache unit 121 may be controlled to use the video stream and the audio stream stored in 112 as the inserted video.
  • the video composition unit 109 synthesizes the video stream output from the stream cache unit so as to overlap the video stream transmitted from the video server 101.
  • the video stream sent from the video server and the stream sent from the stream cache unit may be decoded once, synthesized as video data, and then re-encoded and synthesized as a video stream. Alternatively, it may be synthesized as an image of another track.
  • the audio synthesizer 110 synthesizes the audio stream output from the stream cache unit 121 with the audio stream sent from the video server. When there is a sufficient number of audio objects, it is synthesized by adding new audio objects.
  • the audio objects included in the audio stream sent from the video server Downmix processing is performed, and then an audio object included in the audio stream output from the stream cache unit 121 is added and synthesized.
  • the video stream and the audio stream obtained by synthesizing the video stream and the audio stream output from the stream cache unit 121 are multiplexed by the multiplexer unit 111 and sent to the video terminal device 103 via the network 128 as a synthesized stream.
  • the size of the video to be inserted may be changed. Also, video and audio may be inserted at all times, and insertion on / off may be switched according to external information such as the contents of the composite stream sent from the video server and the timing of library updates. Good.
  • FIG. 8 shows an example in which the position of the audio object is set in an area 813 outside the display area 811 of the display device 123.
  • the size of the display device 123 here the vertical size 817 and the horizontal size 816, is smaller than a predetermined value, it may be set to the region 813 instead of the position of the region 812 of the video to be inserted.
  • FIG. 9 shows a side view. An example when the display device 123 is large is shown in FIG.
  • FIG. 9A an example when the display device 123 is small is shown in FIG. 9B.
  • Reference numerals 901 and 908 are viewers, 902 and 909 are display devices, videos 903 and 910 are inserted, and audio objects 904 and 911 are set.
  • the size 905 of the display device 902 is large, the inserted video 903 is sufficiently high with respect to the viewer's line of sight 907, and sound comes from outside the line of sight 907 when the audio object 904 is set at the position of the inserted video 903.
  • an audio object 904 is set in the vicinity where the insertion image 903 is displayed, the size 912 of the display device 909 is small, and an audio object is set at the position of the insertion image 910, the insertion image with respect to the line of sight 914 If the position 190 is not so high and it cannot be set so that sound comes from outside the line of sight 914, the audio object 911 may be set above the display device 909. Since the relative position of the audio object with respect to the line of sight also relates to the viewing distances 906 and 912, the position of the audio object is set in consideration of the viewing distances 906 and 913 as well as the sizes 905 and 912 of the display devices 902 and 909. May be.
  • the above is an example of a configuration in which an insertion video and an insertion voice are synthesized by a video insertion device separated from the video display terminal device by a network. Good.
  • An example of such a configuration is shown in FIG.
  • the same functions as those in FIG. 1 are denoted by the same reference numerals, and the following description is omitted.
  • the video insertion device 401 does not synthesize the video stream and the audio stream, and multiplexes the inserted video as another service or program (program).
  • the video stream and audio stream output from the stream cache 121 are multiplexed by the multiplexing unit 404 to form a combined stream, and the combined stream transmitted from the video server 101 and the combined stream output from the multiplexer unit 404 are pluralized by the multiplexer unit 405.
  • the video display terminal device 403 separates a composite stream received as a plurality of services and programs as individual services and programs by the demultiplexer unit 406, and the services and programs sent from the video stream are video streams by the demultiplexer unit 407.
  • the inserted video service and program are separated into a video stream and an audio stream by the demultiplexer unit 408, and each video stream is synthesized by the video synthesis unit 409 and displayed on the video display unit 123.
  • the respective audio streams are synthesized by the voice synthesis unit 410 and reproduced by the voice reproduction unit 124.
  • the terminal information unit 411 indicates that it is possible to synthesize an inserted video stream in the video display terminal device in addition to information on the size and viewing distance of the display device 123 of the video display terminal device 403 via the network service interface unit 125.
  • the information shown is transmitted to the terminal interface unit 112 of the video insertion device 401. With such a configuration, the operation shown in the configuration of FIG. 1 can be performed.
  • the position of the audio object is set near the display position of the video to be inserted by the video insertion device or the position where the insertion video is recognized, and the audio is reproduced by playing the audio. It is possible to call attention and tell that the video has been inserted. In addition, the user experience for the inserted video is improved by setting the audio object so that sound can be heard from the displayed inserted video.
  • the network can be divided into a plurality of sub-networks, for example, networks provided in a specific area, and a video insertion device is arranged in the divided network so that the video can be inserted only in the divided network.
  • a configuration capable of inserting an effective video only in a group based on information of a user connected to a network will be described.
  • FIG. 5 shows a configuration example of a cellular radio network.
  • the gateway unit 501 is located between the core net 506 constituting the cellular network and the Internet 502, and exchanges data between the Internet 502 and the core net.
  • the core net 506 includes core networks 1 and 507 and core networks 2 and 508 corresponding to subnets, which are connected via a gateway unit 504 and a gateway unit 505, respectively.
  • the core network 506 includes a video insertion device 515.
  • the video insertion device 515 is connected to a library network 503 for rewriting the video library and audio library for insertion, and the data of the video library and audio library are transmitted via this network. Can be rewritten.
  • the core network 1/507 includes a plurality of base station devices 509 and 510, and further includes a video insertion device 511.
  • the core network 2 508 includes a plurality of base station devices 512 and 513, and further includes a video insertion device 514.
  • the core network corresponding to these sub-networks may be a network that provides a communication service for a specific region, for example, a sub-network that provides a communication service for a local government in a specific region, a specific building, a specific stadium, etc. .
  • the video insertion devices 515, 511, and 514 may share all or part of the video library and audio library data.
  • the data sharing method is not specified.
  • a common distributed cache sharing method such as management by hash value may be used.
  • a cellular network will be described as an example. However, the present invention is not limited to the cellular network, but can be applied to other forms of networks such as a local area network (LAN) using Ethernet (registered trademark) or a configuration using a wireless LAN. .
  • FIG. 6 shows the configuration of the equipment used in this embodiment.
  • the basic configuration is the same as the configuration of the device shown in FIG. 1, and blocks having the same operation are denoted by the same reference numerals and the subsequent description is omitted.
  • the video server 101 may be connected on the Internet or may be connected on any network in the core network.
  • the video insertion device 604 has almost the same configuration as the video insertion device 102 shown in FIG. 1, but the terminal interface unit 603 is further connected to the group management device 602, and a group using terminal information of the video display terminal device to be connected is connected. And control the video and audio to be inserted in groups.
  • the video insertion device 604 connected to the core network corresponding to the sub-network controls the video and audio to be inserted depending on whether the connected video display terminal device is connected from within the core network corresponding to the sub-network.
  • the video display terminal device 601 includes a network service interface unit 605 that provides a user interface based on grouping.
  • the core networks 1 and 701 include a base station device 702, and the base station device 702 includes a video display terminal device 703 and a video display terminal device. 704 connects.
  • the core network 2 711 includes a base station device 712, and a video display terminal device 713 and a video display terminal device 714 are connected to the base station device 712.
  • Each of the core networks 1 and 701 and the core networks 2 and 711 includes a video insertion device, and can individually set video and audio to be inserted into a video display terminal device connected to a base station device managed by each of the core network 1 and 701 and the core network 2 and 711. it can.
  • the first inserted video is an inserted video to be displayed on all video display terminals
  • the second inserted video is an inserted video for only the video terminal device 703
  • the video display terminal device 704 and the video display terminal device 713 are grouped.
  • the video inserted into this group is the video inserted in the video terminal device connected to the core network 2/711.
  • the first video 705 and the second video 706 are displayed on the video display terminal device 703, and the audio object of the audio stream corresponding to each video is set at the positions 705 and 706.
  • the video terminal device 704 displays the first video 707 and the third video 708, and the audio object of the audio stream corresponding to each video is set at positions 707 and 708.
  • the video display terminal device 713 displays the first video 715, the third video 716, and the fourth video 717, and the audio object of the audio stream corresponding to each video is set at positions 715, 716, and 717.
  • the video display terminal device 714 displays the first video 718 and the fourth video 719, and the audio object of the audio stream corresponding to each video is set at positions 718 and 719.
  • information related to the video to be inserted is registered in advance in the terminal information management device 104 or the group management device 602 via the video insertion device 604 or the video insertion device 604, so that the user's interest is related.
  • Some video and audio may be inserted.
  • the video and audio to be inserted are not limited to video and audio stored in advance in the video library 116 and audio library 119, but video and audio based on video and audio using a composite stream sent from the video server 101.
  • Other information such as, for example, video or audio included in the composite stream may be processed, and video of a specific person or structure, audio enhanced video, or audio included in the composite stream may be inserted Good.
  • the user may change the insertion method of the inserted video and the inserted audio by using the user input device 127 and acting on the video insertion device 604 via the network service interface 603.
  • An example of this operation will be described with reference to FIG.
  • the video display terminal device 1002 and the video display terminal device 1003 connected to the base station device 1001 are grouped, and the first inserted video and the second inserted video are shared within the group.
  • the video display terminal device 1002 displays the first video in the region 1004 and the second video in the region 1005, and the video display terminal device 1003 displays the first video in the region 1006 and the second video in the region 1007.
  • one audio object is set in each area and audio corresponding to the video is reproduced.
  • This state is shown in FIG.
  • the user of the video display terminal device 1002 operates the user input device to change the display area of the second video displayed in the area 1006 to the size indicated by the area 1008.
  • This change information is sent to the video insertion device via the network service interface 603 in the video display terminal device 1002 to change the video and audio settings to be inserted into the video display terminal device 1002 and the video display terminal device 1003.
  • An example of the display of the inserted video after the change and the audio object is shown in FIG.
  • the display areas of the second video displayed on the video display terminal device 1002 and the video display terminal device 1003 are changed to 1009 and 1010, respectively.
  • the number of audio objects for the video number 2 is increased to two, and is set to be positioned at both ends of the display areas 1009 and 1010. Thereby, it is effectively transmitted to the user that the inserted video is operated by the user, and the user experience is improved.
  • the program that operates in the apparatus related to the present invention may be a program that controls a central processing unit (CPU) or the like to function a computer so as to realize the functions of the embodiments related to the present invention.
  • the program or information handled by the program is temporarily stored in a volatile memory such as a Random Access Memory (RAM), a nonvolatile memory such as a flash memory, a Hard Disk Drive (HDD), or other storage device system.
  • RAM Random Access Memory
  • HDD Hard Disk Drive
  • a program for realizing the functions of the embodiments according to the present invention may be recorded on a computer-readable recording medium.
  • the “computer system” here is a computer system built in the apparatus, and includes hardware such as an operating system and peripheral devices.
  • the “computer-readable recording medium” refers to a semiconductor recording medium, an optical recording medium, a magnetic recording medium, a medium that dynamically holds a program for a short time, or other recording medium that can be read by a computer. Also good.
  • each functional block or various features of the apparatus used in the above-described embodiments can be implemented or executed by an electric circuit, for example, an integrated circuit or a plurality of integrated circuits.
  • Electrical circuits designed to perform the functions described herein can be general purpose processors, digital signal processors (DSPs), application specific integrated circuits (ASICs), field programmable gate arrays (FPGAs), or others Programmable logic devices, discrete gate or transistor logic, discrete hardware components, or a combination thereof.
  • a general purpose processor may be a microprocessor or a conventional processor, controller, microcontroller, or state machine.
  • the electric circuit described above may be configured by a digital circuit or an analog circuit.
  • one or more aspects of the present invention can use a new integrated circuit based on the technology.
  • the present invention is not limited to the above-described embodiment.
  • an example of an apparatus has been described.
  • the present invention is not limited to this, and a stationary or non-movable electronic device installed indoors or outdoors, such as an AV device, an office device, It can be applied to terminal devices or communication devices such as vending machines and other daily equipment.
  • the present invention can be used for a video insertion device and a video display terminal device.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Social Psychology (AREA)
  • Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Controls And Circuits For Display Device (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Stereophonic System (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

視聴者が大画面の超高解像度ディプレイ装置による視聴を行う場合、視界の殆どを映像によって覆われ、視界中央部に意識が集中する事になり、複数の映像情報を表示した時のそれぞれの映像情報に対する認識能力が低下してしまうことに対するユーザ体験を改善すること。視聴者が使用しているディスプレイ装置に合わせた複数の映像情報と音響情報をネットワーク側機器から提供し、ディスプレイ装置側で複数の映像情報の表示と共にオーディオオブジェクトを使用した音響情報を再生する事により、複数の映像情報に対する認識性を高める。

Description

映像挿入装置、映像表示端末装置
 本発明は、映像処理装置、映像表示装置に関する。
 本出願は、2018年3月30日に、日本に出願された特願2018-67287号に基づき優先権を主張し、その内容をここに援用する。
 近年、ディスプレイ装置の解像度が向上し、超高解像度(Ultra High Density:UHD)表示が可能なディスプレイ装置が登場している。このUHDディスプレイの中で特に高解像度の表示が可能なディスプレイ装置を使用する、横方向に8千ピクセル前後のテレビジョン放送である8Kスーパーハイビジョン放送の実用化が進められている。この8Kスーパーハイビジョン放送に対応するディスプレイ装置(8Kディスプレイ装置)に映像を供給する信号は非常に帯域が広く、非圧縮時は70Gbpsを超える速度、圧縮時でも100Mbps程度の速度の信号を供給することが必要となる。
 このような広帯域の信号を利用する映像信号を配信するために、新しい方式の放送衛星や光ファイバーの利用が検討されている(非特許文献1)。
 超高解像度ディスプレイ装置は視聴者に提供可能な豊富な情報量を利用し、多種の情報を提供するサービスが可能である。また、超高解像度化ディスプレイ装置は画面の大きさを増やしても単位面積当たりの画素数が十分であり、ディスプレイ装置の一部を利用して映像情報を提供する場合も十分な情報量を有しており、従前の解像度のディスプレイ装置で同様のサービスを提供した場合と比較して視聴者のユーザ体験は大幅に向上する。
 また、画面サイズを増やす事で得られる臨場感を更に高めるため、音響面からの取り組みも行われており、多数のスピーカーを用いる音響システムを合わせて使用する事が検討されている(非特許文献2)。
総務省."4K・8Kの推進に関する現状について".総務省ホームページ.<www.soumu.go.jp/main_content/000276941.pdf> Dolby(登録商標), "Dolby(登録商標) Atmos(登録商標) Next-Generation Audio for Cinema"
 しかし、視聴者が大画面の超高解像度ディプレイ装置による視聴を行う場合、視界の殆どを映像によって覆われ、視界中央部に意識が集中する事になり、複数の映像情報を表示した時のそれぞれの映像情報に対する認識能力が低下してしまう。
 本発明の一態様は以上の課題を鑑みてなされたものであり、視聴者が使用しているディスプレイ装置に合わせた複数の映像情報と音響情報をネットワーク側機器から提供し、ディスプレイ装置側で複数の映像情報の表示と共にオーディオオブジェクトを使用した音響情報を再生する事により、複数の映像情報に対する認識性を高める機器とその構成を開示するものである。
 (1)上記の目的を達成するために、本発明の一観点によれば、映像と音声を含むストリームに、1以上の所定の映像と所定の音声を挿入し、映像表示端末装置に挿入後のストリームを送信する映像挿入装置であって、前記ストリームに含まれる映像の表示範囲の一部である1以上の表示領域に、挿入する前記所定の映像の大きさと位置を合わせるスケーリング処理部と、挿入する前記所定の映像に対応する所定の音声をオーディオオブジェクトに変換し、前記オーディオオブジェクトの設定位置を前記表示領域に設定するオーディオオブジェクト位置調整部を含む映像挿入装置が提供される。
 (2)上記の目的を達成するために、本発明の一観点によれば、前記映像表示端末装置の端末情報を取得する端末インターフェース部をさらに備え、前記表示領域を、前記端末情報に基づいて設定する映像挿入装置が提供される。
 (3)上記の目的を達成するために、本発明の一観点によれば、前記挿入後のストリームの送信先である映像表示端末装置を、エリアに関する情報とユーザグループに関する情報の少なくともいずれかに基づいてグループ化し、前記グループ化した映像表示端末装置に対して前記所定の映像と前記所定の音声を挿入する映像挿入装置が提供される。
 (4)上記の目的を達成するために、本発明の一観点によれば、前記グループ化した映像表示端末装置に対して挿入した映像と音声に対し、少なくとも1つの挿入後のストリームを送信している前記映像表示端末装置から変更情報を受信したときに、前記複数のグループ化した映像表示端末装置に対して前記変更情報に基づいて前記表示領域と、前記所定の音声のオーディオオブジェクトの設定を変更する映像挿入装置が提供される。
 (5)上記の目的を達成するために、本発明の一観点によれば、映像と音声の情報を含むストリームを受信し、映像と音声の再生を行う映像表示端末装置であって、前記映像表示端末装置が備える映像表示部の大きさに関する情報と、前記映像表示部と視聴者の距離に関する情報を含めた端末情報を、映像挿入装置に送る映像表示端末装置が提供される。
 (6)上記の目的を達成するために、本発明の一観点によれば、前記端末情報に含める前記映像表示部の大きさの情報は、所定の種類に規格化されている映像表示端末装置が提供される。
 (7)上記の目的を達成するために、本発明の一観点によれば、ユーザ入力装置をさらに備え、前記映像挿入装置によって挿入された映像に対する操作が前記ユーザ入力装置から入力されたときに、前記映像に対応する変更情報を前記映像挿入装置に送信する映像表示端末装置が提供される。
 本発明の一態様によれば、視聴者が使用しているディスプレイ装置に合わせた複数の映像情報と音響情報をネットワーク側機器から提供し、ディスプレイ装置側で複数の映像情報の表示と共にオーディオオブジェクトを使用した音響情報を再生する事により、複数の映像情報に対する認識性を高めることができる。
本発明の一実施形態の機器構成例を示す図である。 オーディオオブジェクトの例を示す図である。 本発明の一実施形態のスピーカーの構成例を示す図である。 本発明の一実施形態の機器構成例を示す図である。 本発明の一実施形態のネットワークの構成例を示す図である。 本発明の一実施形態の機器構成例を示す図である。 本発明の一実施形態のエリア制御、グループ制御の例を示す図である。 本発明の一実施形態の挿入映像とオーディオオブジェクトの制御例を示す図である。 本発明の一実施形態の挿入映像とオーディオオブジェクトの制御例を示す図である。 本発明の一実施形態のグループ制御の例を示す図である。
 以下、本発明の実施形態による無線通信技術について図面を参照しながら詳細に説明する。
 (第1の実施形態)
 以下、図を利用して本発明の一実施形態を詳細に説明する。図1は本実施の形態の機器構成の一例を示している。本実施の形態は映像サーバ101と映像挿入装置102、映像表示端末装置103、端末情報管理装置104から構成され、映像挿入装置102と映像表示端末装置103はネットワーク128で接続される。このネットワーク128はカッパケーブルや光ファイバーケーブルを利用する有線ネットワークや、セルラー無線通信網のような公衆無線ネットワーク、無線LANのような自営無線ネットワークのような様々な形態のネットワークを使用して良い。本実施の形態ではセルラー無線通信網を使用する事を想定する。
 映像サーバ101は映像ストリームを供給する映像生成部105と、音声ストリームを生成する音声生成部106と、映像ストリームと音声ストリームを多重するマルチプレックス部107から構成される。音声ストリームは2以上の音声データから構成されてよい。音声ストリームの符号化方法は特に指定しないが、MPEG AACやMPEG SAOCなどを使用して良い。映像ストリームの符号化方法は特に指定しないが、H.264方式やH.265方式、VP9などを使用して良い。音声ストリームと映像ストリームを多重する方法は特に限定しないが、MPEG2 SystemsやMPEG Media Transport(MMT)、MP4などを使用して良い。音声ストリームと映像ストリームを多重したストリームを、以降では複合ストリームと称す。
 映像挿入装置102は映像サーバ101とネットワーク128の間に位置し、映像サーバ101から出力される複合ストリームに映像の大きさを制御した別の映像ストリームと音源の位置を制御されたオブジェクトオーディオを含む別の音声ストリームを挿入する。108は入力された複合ストリームを多重分離し、映像ストリーム音声ストリームを取り出すデマチプレクサ部、109はデマルチプレクサ部108から出力された映像ストリームに含まれる映像データにストリームキャッシュ部121から出力される挿入するための映像ストリームの映像データを合成する映像合成部である。映像の合成方法は特に指定しないが、デマルチプレクサ部108から出力された映像ストリームをデコードして生の映像データを生成し、ストリームキャッシュ部121から出力された映像ストリームをデコードして生の映像データを生成し、この二つの映像データを合成後に再エンコードして合成された映像ストリームを得ても良く、また、デマルチプレクサ部108から出力された映像ストリームとストリームキャッシュ部121から出力され映像ストリームの符号化単位で合成し、再エンコード処理を一部減らすような合成をしても良い。また、ストリームキャッシュ部121から出力された映像ストリームを別トラックとして合成する方法でも良い。110はデマルチプレクサ部108から出力された音声ストリームに、ストリームキャッシュ部121から出力された音声ストリームを合成する音声合成部である。この音声の合成方法は特に指定しないが、例えば、デマルチプレクサ部108から出力された音声ストリームがチャネルベース音源である場合、このチャネルベース音源をベッドとし、ストリームキャッシュ121から出力されるオーディオオブジェクトを加えたオブジェクト音源として合成しても良い。また、デマルチプレクサ部108から出力された音声ストリームがオブジェクト音源であった場合、このオブジェクト音源にオーディオオブジェクトを追加しても良い。この時、オーディオオブジェクトの数の上限を超える場合はダウンミックスしても良い。また、合成する音声ストリームを別トラックとして合成しても良い。111はマルチプレクサ部で、映像合成部109から出力された合成後の映像ストリームと、音声合成部110から出力された合成後の音声ストリームを多重化するマルチプレクサ部である。再度多重化された複合ストリームはネットワーク128に出力される。
 121はストリームキャッシュ部で、スケーラ/位置調整部114から出力される挿入用の映像ストリームと、オーディオオブジェクト位置調整部117から出力される挿入用の音声ストリームを、挿入ストリーム設定部113の制御によりそれぞれ映像合成部109と音声合成部110に送る。また、挿入ストリーム設定部の制御により、映像ストリームと音声ストリームの蓄積を行い、また蓄積した映像ストリームと音声ストリームをそれぞれ映像合成部109と音声合成部110に送る。114はスケーラ/位置調整部で、挿入ストリーム設定部113の制御により映像選択部115から出力される映像データにスケーリング処理を施し、表示位置を調整した映像ストリームを生成するブロックである。115は挿入ストリーム設定部113の制御により映像ライブラリ部116から選択した映像データをスケーラ/位置調整部114に送るブロックである。116は挿入用の複数の映像データを蓄積している映像ライブラリ部である。117はオーディオオブジェクト位置調整部で、挿入ストリーム設定部113の制御により音声選択部118から出力された音声データをオーディオオブジェクト化し、このオーディオオブジェクトの位置を設定した音声ストリームを出力する。118は音声選択部で、挿入ストリーム設定部113の制御により音声ライブラリ119から選択した音声データを出力する。119は音声ライブラリで、挿入用の複数の音声データを蓄積している。120はライブラリ更新部で、映像挿入装置102の外部から映像ライブラリ116と音声ライブラリ119の内容を更新し、更新した内容を挿入映像ストリーム設定部113に送るブロックである。
 112は端末インターフェース部で、ネットワーク128を経由して接続する映像表示端末装置103と通信を行い、映像表示端末装置103のハードウェア、ソフトウェアに関する端末能力情報や、映像表示端末装置103のユーザ入力装置127を経由して入力されるユーザの操作情報などの各種情報を得て、また、端末情報管理装置104と通信する事で予め登録されている映像表示端末装置103に関する端末登録情報を得て、これらの情報を挿入映像ストリーム設定部113に送る。挿入映像ストリーム設定部113は、端末インターフェース112から得られる映像表示端末装置103の情報やユーザの操作情報、ライブラリ更新部120から得られる情報、その他映像サーバ101から取得する情報などに基づいて映像ライブラリ116から選択される映像ストリーム表示サイズと表示位置の設定と、音声ライブラリ119から選択される音声ストリームをオーディオオブジェクトに変換する際のパラメータを設定するブロックである。
 次に映像表示端末装置103の構成例を説明する。122は入力された複合ストリームに対して逆多重処理を行い、映像ストリームと音声ストリームを出力するデマルチプレクサ部、123は映像ストリームをデコードして表示し、またネットワークサービスインターフェース部125が提供するユーザインターフェース用の画面を表示する映像表示部、124は音声ストリームをデコードしてマルチチャネル再生を行い、ネットワークサービスインターフェース部125が提供するユーザインターフェース用の音声を再生する音声再生部、125はネットワークサービスインターフェース部で、ネットワーク128を経由して映像挿入装置102の端末インターフェース部112と通信し、端末情報部126の情報やユーザ入力装置127の情報などの各種情報の交換を行う。126は端末情報部で、映像表示端末装置103の構成に特有な情報や、映像表示端末装置103を個別に識別するための固有情報、ネットワーク128を使用するための契約を識別する情報などの映像表示端末装置103に関する情報を格納し、ネットワークサービスインターフェース部125を経由して映像挿入装置102の端末インターフェース部112に格納している情報を送信するブロックである。127はユーザ入力装置で、映像表示端末装置103に対するユーザの操作を受け付け、ネットワークサービスインターフェース部125を経由して映像挿入装置102の端末インターフェース部112にユーザの操作情報を伝え、またユーザインターフェース用の映像を生成して映像表示部123に出力し、ユーザインターフェース用の音声を生成して音声再生部124に対して出力するブロックである。
 端末情報管理装置104は映像挿入装置102の端末インターフェース部112からの問い合わせを受け付け、問い合わせに含まれる映像表示端末装置103に関する情報に基づいて、映像挿入装置102が使用可能なサービスに関する情報を応答として送信する装置である。
 映像表示端末装置103が備える音声再生部124はオブジェクトオーディオの再生が可能な構成とする。オブジェクトオーディオは、従来のチャネルベース音源とは異なり、再生音声を構成する複数の音源それぞれをオーディオオブジェクト(仮想音源)として定義し、再生空間の自由な位置に配置して再生する方式である。従来のチャネルベース音源は予め決められた複数の方向、一例として2チャンネルステレオ音源の場合は左と右の2方向、5チャンネルサラウンド音源の場合は左前方、前方中央、右前方、右後方、左後方にスピーカーを配置する事を前提に用意される音源である。多くの場合、チャネルベース音源で使用するスピーカーは水平面上に配置され、また、一部の実装においては水平面を複数設け、上方のあらかじめ決められた方向から到来する音を再現するものもある。これらのチャネルベース音源では、音源生成時に想定するスピーカー配置用に複数の音源をミックスするため、再生環境のスピーカーの配置位置の違いや、再生時のリスナーの位置の違いによってミックス時に意図した音が再現できない問題がある。これを音源のスイートスポットが狭いと表現することがある。これに対し、オブジェクトオーディオを使用する場合はスピーカーの配置位置やリスナーの位置によって、仮想音源を再生するスピーカーの選択、ミックスを適応的に行うことが可能となり、再生環境が変わっても音源生成時に意図した音場を再現することが可能となる。このオーディオオブジェクトを再生するスピーカーの選択、ミックスをサウンドレンダリングと称することがある。
 仮想音源の定義方法は複数あるが、ある基準点からの相対位置に配置された複数の音源とすることが多い。本実施の形態では図2の201に示すように基準位置(原点)からr,θ, φによる極座標表現された音源として定義するものとする。これにより視聴位置正面の前方3m、右1m、上方2mなどの任意の位置に仮想音源を設定することが可能となる。オブジェクト還元の再生環境は特別に規定されるものではないが、一例として図3に示すように視聴位置302の前方に表示端末装置301を配置した場合、映像表示端末装置301の左右にメインスピーカー301-1,-2を、メインスピーカーの上方にトップスピーカー304-1,-2を配置し、視聴位置301の左右から後方にかけて縦に長いスピーカーアレーで構成されたサテライトスピーカー305-1~-4を配置し、水平面のみならずオーディオオブジェクトが上方に設定された時にはメインスピーカー303-1,-2だけではなくトップスピーカー304-1、-2やサテライトスピーカー305-1~4を構成するスピーカーの上部に配置されたスピーカーを用い、サウンドレンダリングを行うことで設定された位置のオーディオオブジェクトを表現できる。これらのメインスピーカー303-1,-2、トップスピーカー304-1,-2、サテライトスピーカー305-1~-4(以下、スピーカー群と称する)の配置位置を映像端末装置301の音声再生部が知る方法として、視聴位置302または所定の位置に校正用マイクロホンを設置し、スピーカー群から校正用の参照信号を再生させて校正用マイクロホンで収集することで、スピーカー群を構成する各スピーカーから視聴位置までの伝達関数を求めて配置位置に関する情報とすることができる。映像端末装置301の音声再生部はオブジェクトオーディオの再生時に、この伝達関数を使用してサウンドレンダリングを実行することができる。スピーカーの構成は図3に示したものに限らす、配置するスピーカーの数や位置は異なってもよい。配置するスピーカーの数、位置に応じたサウンドレンダリングを行えばよい。
 次に映像と音声の挿入について図8を使用して説明する。映像表示端末装置103はネットワーク128を経由し、映像挿入装置102の端末インターフェース112に対して映像表示端末装置103の映像表示部123の大きさと視聴距離に関する情報を通知する。図8において映像表示部123は801が相当し、映像表示部の大きさとして縦の大きさ807と横の大きさ806を送ってもよい。また、画面の対角長805と画面の縦横比(アスペクト比)を送ってもよい。視聴距離は映像祖表示部123と視聴者804との距離808が該当する。この視聴距離は映像表示端末装置103にカメラ等のセンサを設けて測定した値を用いてもよいし、映像表示部123の大きさによりあらかじめ設定された視聴距離を用いてもよい。映像表示部123の大きさと、このあらかじめ設定された視聴距離は比例関係としてもよい。一例として映像表示部123の縦の大きさの3~5倍程度の値をあらかじめ設定された視聴距離としてもよい。また、映像表示部123の大きさを規格化し、いくつかの種類とすることで映像表示部123の大きさに関する情報の情報量を減らしてもよい。例えば映像表示部123の対角長を25インチ以下、32インチ以下、40インチ以下、50インチ以下、70インチ以下、100インチ以下、150インチ以下、150インチを超える大きさのように規格化してもよい。同様に視聴距離についても規格化してよい。映像表示部123の大きさを規格化することで、映像挿入装置102内で挿入する映像ストリームと音声ストリームの種類が限定され、予め生成しておくことが容易になる。
 映像表示端末103の映像表示部123の大きさと視聴距離に関する情報を得た映像挿入装置102は、挿入映像ストリーム設定部113で挿入する映像データと音声データをそれぞれ映像選択部115と音声選択部118を経由して映像ライブラリ118、音声ライブラリ119から選択する。選択された映像データはスケーラ/位置調整部114でスケーリング処理と表示位置調整を行い、映像サーバ101から受信する複合ストリームに含まれる映像ストリームに対してオーバーラップ表示合成ができるようにする。スケーラ/位置調整部114は、スケーリング処理と表示位置調整を調整した映像データを映像ストリーム化してストリームキャッシュ部121に送る。選択された音声データはオーディオオブジェクト位置調整部117でオーディオオブジェクトに変換し、オーディオオブジェクトの位置を設定する。このオーディオオブジェクトの位置を、図8を用いて説明すると、挿入映像の表示が802で示される領域であったとすると、視聴者804の頭部が表示画面801の中央正面にあるものとし、映像表示部123の前面の領域803で示される空間にオーディオオブジェクトの位置を設定する。オーディオオブジェクトの位置を設定後、オーディオオブジェクト位置調整部は設定後のオーディオオブジェクトを音声ストリームに変換してストリームキャッシュ部112に送る。ストリームキャッシュ部112は映像合成部109に合成用の映像ストリームを、音声合成部110に合成用の音声ストリームを送る。挿入映像ストリーム設定部113は、ストリームキャッシュ部121に挿入する映像に相当する映像ストリームや音声ストリームが蓄積されている場合は、映像ライブラリ部116、音声ライブラリ119のデータを使用せず、ストリームキャッシュ部112に蓄積されている映像ストリームや音声ストリームを挿入映像として使用するようにストリームキャッシュ部121を制御してよい。映像合成部109は映像サーバ101から送られてきた映像ストリームにオーバーラップする形でストリームキャッシュ部が出力された映像ストリームを合成する。この合成方法は特に指定しないが、映像サーバから送られてきた映像ストリームとストリームキャッシュ部が送られてきたストリームを一度復号して映像データとして合成後に再符号化して合成された映像ストリームとしてもよく、また、別トラックの映像として合成してもよい。音声合成部110は映像サーバから送られてきた音声ストリームにストリームキャッシュ部121から出力される音声ストリームを合成する。オーディオオブジェクトの数に余裕があるときは新たなオーディオオブジェクトを追加する形で合成し、オーディオオブジェクトの数の制限によりそのまま追加できない場合は映像サーバから送られてきた音声ストリームに含まれるオーディオオブジェクトに対してダウンミックス処理をし、その上でストリームキャッシュ部121から出力されたオーディオストリームに含まれるオーディオオブジェクトを追加して合成する。ストリームキャッシュ部121から出力された映像ストリームと音声ストリームを合成した映像ストリームと音声ストリームはマルチプレクサ部111で多重化処理を行い、合成ストリームとしてねっワーク128経由で映像端末装置103に送られ、図8に示した領域802に映像が、領域803の位置にオーディオオブジェクトが設定された音声が再生される。なお、挿入する映像、音声は1つでも複数でもよい。挿入する映像、音声が複数の場合、挿入する映像の大きさを変えてもよい。また、映像、音声は常時挿入してもよく、また、映像サーバから送られてきた複合ストリームの内容や、ライブラリの更新などのタイミングなど、外部からの情報によって挿入のOn/Offを切り替えてもよい。
 映像表示端末103の表示装置123の大きさが小さく、挿入映像が表示される領域にオーディオオブジェクトを設定しても挿入映像に対する注意喚起効果が低い場合、表示装置123の範囲外に挿入する映像のオーディオオブジェクトを設定してもよい。一例として図8に表示装置123の表示領域811の外の領域813にオーディオオブジェクトの位置を設定する例を示す。表示装置123の大きさ、ここでは縦の大きさ817と横の大きさ816が所定の値より小さい場合、挿入する映像の領域812の位置ではなく、領域813に設定してもよい。側面から見た様子を図9に示す。表示装置123が大きい場合の一例を図9(a)に、表示装置123が小さい場合の一例を図9(b)に示す。901、908が視聴者、902、909が表示装置、903、910が挿入される映像、904、911が設定されるオーディオオブジェクトとなる。表示装置902の大きさ905が大きく、挿入映像903が視聴者の視線907に対して十分高く、挿入映像903の位置にオーディオオブジェクト904を設定したときに視線907の外から音が到来するように設定できる場合は挿入映像903が表示される付近にオーディオオブジェクト904を設定し、表示装置909の大きさ912が小さく、挿入映像910の位置にオーディオオブジェクトを設定したときに視線914に対して挿入映像190の位置があまり高くなく、視線914の外から音が到来するように設定できない場合は表示装置909の上方にオーディオオブジェクト911を設定してもよい。視線に対するオーディオオブジェクトの相対的な位置は視聴距離906、912も関係するので、表示装置902、909の大きさ905、912だけではなく、視聴距離906、913を考慮してオーディオオブジェクトの位置を設定してもよい。
 以上は映像表示端末装置とネットワークで隔てられた映像挿入装置で挿入映像と挿入音声の合成を行う構成の一例を示したが、挿入映像と挿入音声の合成を映像表示端末装置で行う構成としてもよい。このような構成の一例を図4に示す。図1と機能が同じものについては同一の番号を付し、以下の説明を省略する。映像挿入装置401は映像ストリーム、音声ストリーム上の合成は行わず、挿入映像を別のサービス、番組(プログラム)として多重化する。ストリームキャッシュ121から出力される映像ストリームと音声ストリームを多重化部404で多重化して合成ストリームとし、映像サーバ101から送信される合成ストリームとマルチプレクサ部404から出力される合成ストリームをマルチプレクサ部405で複数のサービス、または番組として多重化し、ネットワーク128経由で映像表示端末装置404に送信する。映像表示端末装置403は複数のサービス、番組として受信した合成ストリームをデマルチプレクサ部406で個別のサービス、番組として分離し、映像ストリームから送られて来たサービス、番組をデマルチプレクサ部407で映像ストリームと音声ストリームに分離し、挿入映像のサービス、番組はデマルチプレクサ部408で映像ストリームと音声ストリームに分離し、それぞれの映像ストリームは映像合成部409で合成され、映像表示部123で表示される。また、それぞれの音声ストリームは音声合成部410で合成され、音声再生部124で再生される。端末情報部411はネットワークサービスインターフェース部125を経由して映像表示端末装置403の表示装置123の大きさと視聴距離に関する情報に加え、映像表示端末装置内で挿入映像ストリームの合成が可能であることを示す情報を映像挿入装置401の端末インターフェース部112に送信する。このような構成で、図1の構成で示した動作が可能となる。
 上記に示したように、映像挿入装置で挿入する映像の表示位置付近、または挿入映像が表示されていることを認識できる位置にオーディオオブジェクトの位置を設定して音声を再生することで視聴者の注意を喚起し、映像が挿入されたことを伝えることが可能となる。また、表示される挿入映像から音が聞こえるようにオーディオオブジェクトを設定することで挿入映像に対するユーザ体験が向上する。
 (第2の実施形態)
 本実施の形態ではネットワークを複数のサブネットワーク、例えば特定の地域に設けられたネットワークに分割できる形態とし、分割したネットワーク内に映像挿入装置を配置して分割したネットワーク内でのみ有効な映像の挿入や、ネットワークに接続するユーザの情報に基づくグループでのみ有効な映像の挿入を行うことが可能な構成を説明する。図5はセルラー無線ネットワークの構成例を示す。ゲートウェイ部501はセルラネットワークを構成するコアネット506とインターネット502の間に位置し、インターネット502とコアネットの間でデータの交換を行う。コアネット506はサブネットに相当するコアネットワーク1・507とコアネットワーク2・508を含み、それぞれゲートウェイ部504、ゲートウェイ部505を経由して接続する。コアネットワーク506は映像挿入装置515を含み、映像挿入装置515は挿入用の映像ライブラリ、音声ライブラリを書き換えるためのライブラリ用ネットワーク503が接続されており、このネットワーク経由で映像ライブラリ、音声ライブラリのデータを書き換えることができる。コアネットワーク1・507は複数の基地局装置509、510を含み、さらに映像挿入装置511を含む。コアネットワーク2・508は複数の基地局装置512、513を含み、さらに映像挿入装置514を含む。これらのサブネットワークに相当するコアネットワークは特定の地域に対する通信サービスを提供するネットワークでもよく、例えば特定の地域の自治体や、特定の建物、特定の競技場などに対する通信サービスを提供するサブネットワークでもよい。映像挿入装置515、511、514は映像ライブラリ、音声ライブラリのデータのすべて、または一部を共有してもよい。データの共有方法は特に指定しない。ハッシュ値による管理などの一般的な分散キャッシュの共有方法を使用してよい。以下、セルラネットワークを例に説明するが、セルラネットワークに限らずイーサネット(登録商標)などを利用するローカルエリアネットワーク(LAN)や無線LANを用いる構成など、他の形態のネットワークにおいても実施可能である。
 本実施の形態で使用する機器の構成を図6に示す。基本的な構成は図1で示した機器の構成と同様であり、同様の動作をするブロックには同じ番号を付し、以降の説明を省略する。映像サーバ101はインターネット上に接続されてもよく、またコアネットワーク内のいずれかのネットワーク上に接続されもよい。映像挿入装置604は図1に示した映像挿入装置102とほぼ同じ構成であるが、端末インターフェース部603はさらにグループ管理装置602に接続し、接続する映像表示端末装置の端末情報を利用したグループを行い、グループ単位で挿入する映像と音声の制御を行う。また、サブネットワークにあたるコアネットワーク内に接続された映像挿入装置604は、接続する映像表示端末装置がサブネットワークにあたるコアネットワーク内からの接続であるかによって挿入する映像と音声の制御を行う。映像表示端末装置601はグループ化の基づくユーザインターフェースを提供するネットワークサービスインターフェース部605を含む。
 エリア制御、グループ制御の一例を、図7を利用して説明する。この例ではサブネットワークに相当するコアネットワーク1・701とコアネットワーク2・711があり、コアネットワーク1・701は基地局装置702を備え、基地局装置702に映像表示端末装置703、映像表示端末装置704が接続する。また、コアネットワーク2・711は基地局装置712を備え、基地局装置712に映像表示端末装置713、映像表示端末装置714が接続する。コアネットワーク1・701とコアネットワーク2・711はそれぞれ映像挿入装置を備え、それぞれが管理する基地局装置に接続している映像表示端末装置に対して個別に挿入する映像と音声を設定することができる。
 この図7は1番の挿入映像は全映像表示端末に表示する挿入映像、2番の挿入映像は映像端末装置703のみに対する挿入映像、映像表示端末装置704と映像表示端末装置713がグループ化されおり、このグループに対して挿入する映像が3番、4番の映像がコアネットワーク2・711に接続している映像端末装置に表示する挿入映像である例を表している。これにより、映像表示端末装置703には1番の映像705と2番の映像706が表示され、それぞれの映像に対応する音声ストリームのオーディオオブジェクトが705、706の位置に設定される。映像端末装置704には1番の映像707と3番の映像708が表示され、それぞれの映像に対応する音声ストリームのオーディオオブジェクトが707、708の位置に設定される。映像表示端末装置713には1番の映像715と3番の映像716と4番の映像717が表示され、それぞれの映像に対応する音声ストリームのオーディオオブジェクトが715、716、717の位置に設定される。映像表示端末装置714には1番の映像718と4番の映像719が表示され、それぞれの映像に対応する音声ストリームのオーディオオブジェクトが718、719の位置に設定される。以上のように動作することで挿入する映像と音声のエリア制御、グループ制御が行われることでユーザ毎、エリア毎に固有な情報を効果的に提供することが可能になり、ユーザ体験が向上する。また、挿入する映像に関係する情報を、あらかじめ映像挿入装置604や、映像挿入装置604を経由して端末情報管理装置104やグループ管理装置602に登録しておくことで、ユーザの興味に関係がある映像、音声を挿入してもよい。また、挿入する映像、音声は映像ライブラリ116、音声ライブラリ119にあらかじめ蓄積されている映像、音声にかぎらず、映像サーバ101から送られてくる複合ストリームを利用した映像、音声にもとづいた映像、音声などの他の情報、一例として複合ストリームに含まれる映像、音声の一部を加工し、複合ストリームに含まれる特定の人物や構造物などの映像、音声を強調した映像、音声を挿入してもよい。
 また、グループ化されている挿入映像について、ユーザはユーザ入力装置127を利用し、ネットワークサービスインターフェース603経由で映像挿入装置に604に働きかけることで挿入映像と挿入音声の挿入方法を変えてもよい。この動作の一例を、図10を使用して説明する。基地局装置1001に接続している映像表示端末装置1002と映像表示端末装置1003がグループ化されており、1番の挿入映像と2番の挿入映像がグループ内で共有されているものとする。映像表示端末装置1002では1番の映像を領域1004に、2番の映像を領域1005に表示し、映像表示端末装置1003では1番の映像を領域1006に、2番の映像を領域1007に表示し、それぞれの領域に1つのオーディオオブジェクトを設定して映像に対応する音声を再生しているものとする。この状態を図10(a)に示す。この状態で映像表示端末装置1002のユーザがユーザ入力装置を操作して領域1006に表示されている2番の映像の表示領域を領域1008で示される大きさに変更する。この変更情報は映像表示端末装置1002内のネットワークサービスインターフェース603を経由して映像挿入装置に送られ、映像表示端末装置1002と映像表示端末装置1003に対する挿入する映像と音声の設定を変更する。変更後の挿入映像の表示とオーディオオブジェクトの一例を図10(b)に示す。映像表示端末装置1002と映像表示端末装置1003に表示される2番の映像の表示領域はそれぞれ1009と1010に変更される。また、映像2番に対するオーディオオブジェクトの数を増やして2つとし、表示領域1009と1010の両端に位置するように設定する。これによりユーザにより操作された挿入映像であることが効果的にユーザに対して伝わり、ユーザ体験が向上する。
 (全実施形態共通)
 本発明に関わる装置で動作するプログラムは、本発明に関わる実施形態の機能を実現するように、Central Processing Unit(CPU)等を制御してコンピュータを機能させるプログラムであっても良い。プログラムあるいはプログラムによって取り扱われる情報は、一時的にRandom Access Memory(RAM)などの揮発性メモリあるいはフラッシュメモリなどの不揮発性メモリやHard Disk Drive(HDD)、あるいはその他の記憶装置システムに格納される。
 尚、本発明に関わる実施形態の機能を実現するためのプログラムをコンピュータが読み取り可能な記録媒体に記録しても良い。この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。ここでいう「コンピュータシステム」とは、装置に内蔵されたコンピュータシステムであって、オペレーティングシステムや周辺機器等のハードウェアを含むものとする。また、「コンピュータが読み取り可能な記録媒体」とは、半導体記録媒体、光記録媒体、磁気記録媒体、短時間動的にプログラムを保持する媒体、あるいはコンピュータが読み取り可能なその他の記録媒体であっても良い。
 また、上述した実施形態に用いた装置の各機能ブロック、または諸特徴は、電気回路、たとえば、集積回路あるいは複数の集積回路で実装または実行され得る。本明細書で述べられた機能を実行するように設計された電気回路は、汎用用途プロセッサ、デジタルシグナルプロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、またはその他のプログラマブル論理デバイス、ディスクリートゲートまたはトランジスタロジック、ディスクリートハードウェア部品、またはこれらを組み合わせたものを含んでよい。汎用用途プロセッサは、マイクロプロセッサであってもよいし、従来型のプロセッサ、コントローラ、マイクロコントローラ、またはステートマシンであっても良い。前述した電気回路は、デジタル回路で構成されていてもよいし、アナログ回路で構成されていてもよい。また、半導体技術の進歩により現在の集積回路に代替する集積回路化の技術が出現した場合、本発明の一または複数の態様は当該技術による新たな集積回路を用いることも可能である。
 なお、本願発明は上述の実施形態に限定されるものではない。実施形態では、装置の一例を記載したが、本願発明は、これに限定されるものではなく、屋内外に設置される据え置き型、または非可動型の電子機器、たとえば、AV機器、オフィス機器、自動販売機、その他生活機器などの端末装置もしくは通信装置に適用出来る。
 以上、この発明の実施形態に関して図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計変更等も含まれる。また、本発明は、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。また、上記各実施形態に記載された要素であり、同様の効果を奏する要素同士を置換した構成も含まれる。
 本発明は、映像挿入装置、映像表示端末装置に利用可能である。

Claims (7)

  1.  映像と音声を含むストリームに、1以上の所定の映像と所定の音声を挿入し、映像表示端末装置に挿入後のストリームを送信する映像挿入装置であって、
     前記ストリームに含まれる映像の表示範囲の一部である1以上の表示領域に、挿入する前記所定の映像の大きさと位置を合わせるスケーリング処理部と、
     挿入する前記所定の映像に対応する所定の音声をオーディオオブジェクトに変換し、前記オーディオオブジェクトの設定位置を前記表示領域に設定するオーディオオブジェクト位置調整部と、
     を含むことを特徴とする映像挿入装置。
  2.  請求項1に記載の映像挿入装置であって、
     前記映像表示端末装置の端末情報を取得する端末インターフェース部をさらに備え、
     前記表示領域を、前記端末情報に基づいて設定することを特徴とする映像挿入装置。
  3.  請求項1に記載の映像挿入装置であって、
     前記挿入後のストリームの送信先である映像表示端末装置を、エリアに関する情報とユーザグループに関する情報の少なくともいずれかに基づいてグループ化し、前記グループ化した映像表示端末装置に対して前記所定の映像と前記所定の音声を挿入することを特徴とする映像挿入装置。
  4.  請求項3に記載の映像挿入装置であって、
     前記グループ化した映像表示端末装置に対して挿入した映像と音声に対し、少なくとも1つの挿入後のストリームを送信している前記映像表示端末装置から変更情報を受信したときに、前記複数のグループ化した映像表示端末装置に対して前記変更情報に基づいて前記表示領域と、前記所定の音声のオーディオオブジェクトの設定を変更することを特徴とする映像挿入装置。
  5.  映像と音声の情報を含むストリームを受信し、映像と音声の再生を行う映像表示端末装置であって、
     前記映像表示端末装置が備える映像表示部の大きさに関する情報と、
     前記映像表示部と視聴者の距離に関する情報を含めた端末情報を、映像挿入装置に送ることを特徴とする映像表示端末装置。
  6.  請求項5に記載の映像表示端末装置であって、
     前記端末情報に含める前記映像表示部の大きさの情報は、所定の種類に規格化されていることを特徴とする映像表示端末装置。
  7.  請求項5に記載の映像表示端末装置であって、
     ユーザ入力装置をさらに備え、
     前記映像挿入装置によって挿入された映像に対する操作が前記ユーザ入力装置から入力されたときに、前記映像に対応する変更情報を前記映像挿入装置に送信することを特徴とする映像表示端末装置。
PCT/JP2019/009107 2018-03-30 2019-03-07 映像挿入装置、映像表示端末装置 WO2019188091A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/041,925 US20210144419A1 (en) 2018-03-30 2019-03-07 Video insertion apparatus and video display terminal apparatus

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018067287A JP2019179985A (ja) 2018-03-30 2018-03-30 映像挿入装置、映像表示端末装置
JP2018-067287 2018-03-30

Publications (1)

Publication Number Publication Date
WO2019188091A1 true WO2019188091A1 (ja) 2019-10-03

Family

ID=68059944

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/009107 WO2019188091A1 (ja) 2018-03-30 2019-03-07 映像挿入装置、映像表示端末装置

Country Status (3)

Country Link
US (1) US20210144419A1 (ja)
JP (1) JP2019179985A (ja)
WO (1) WO2019188091A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3968643A1 (en) * 2020-09-11 2022-03-16 Nokia Technologies Oy Alignment control information for aligning audio and video playback

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008294591A (ja) * 2007-05-22 2008-12-04 Sharp Corp コンテンツデータ提供装置、及び、コンテンツ表示装置
WO2015199095A1 (ja) * 2014-06-23 2015-12-30 シャープ株式会社 動画コンテンツ表示装置
WO2017002602A1 (ja) * 2015-06-30 2017-01-05 ソニー株式会社 受信装置、受信方法、送信装置および送信方法
WO2017104519A1 (ja) * 2015-12-18 2017-06-22 ソニー株式会社 送信装置、送信方法、受信装置および受信方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008294591A (ja) * 2007-05-22 2008-12-04 Sharp Corp コンテンツデータ提供装置、及び、コンテンツ表示装置
WO2015199095A1 (ja) * 2014-06-23 2015-12-30 シャープ株式会社 動画コンテンツ表示装置
WO2017002602A1 (ja) * 2015-06-30 2017-01-05 ソニー株式会社 受信装置、受信方法、送信装置および送信方法
WO2017104519A1 (ja) * 2015-12-18 2017-06-22 ソニー株式会社 送信装置、送信方法、受信装置および受信方法

Also Published As

Publication number Publication date
US20210144419A1 (en) 2021-05-13
JP2019179985A (ja) 2019-10-17

Similar Documents

Publication Publication Date Title
JP7251592B2 (ja) 情報処理装置、情報処理方法、およびプログラム
ES2871224T3 (es) Sistema y método para la generación, codificación e interpretación informática (o renderización) de señales de audio adaptativo
CN107925797B (zh) 用于获取音频数据的方法和设备
KR101381396B1 (ko) 입체음향 조절기를 내포한 멀티 뷰어 영상 및 3d 입체음향 플레이어 시스템 및 그 방법
WO2016056411A1 (ja) 符号化装置および方法、再生装置および方法、並びにプログラム
RU2668549C2 (ru) Устройство сервера, устройство клиент, способ распределения содержания и компьютерная программа
US11435977B2 (en) Method for transmitting and receiving audio data related to transition effect and device therefor
CN105578380A (zh) 用于自适应音频信号产生、编码和呈现的系统和方法
WO2019188091A1 (ja) 映像挿入装置、映像表示端末装置
Oldfield et al. An object-based audio system for interactive broadcasting
WO2019155930A1 (ja) 送信装置、送信方法、処理装置および処理方法
KR20170130883A (ko) 하이브리드 망 기반의 가상 현실 방송 서비스 방법 및 장치
Kares et al. Streaming immersive audio content
Mróz et al. A commonly-accessible toolchain for live streaming music events with higher-order ambisonic audio and 4k 360 vision
US11856275B1 (en) Video reproduction system and media reproduction system and method of synchronized reproducing of a video data stream of an audio-visual data stream and computer-readable storage medium
Thomas et al. State‐of‐the‐Art and Challenges in Media Production, Broadcast and Delivery
KR101534295B1 (ko) 멀티 뷰어 영상 및 3d 입체음향 제공방법 및 장치
RU2820838C2 (ru) Система, способ и постоянный машиночитаемый носитель данных для генерирования, кодирования и представления данных адаптивного звукового сигнала
Batke et al. Spatial audio processing for interactive TV services
US20230156421A1 (en) Virtual reality headset audio synchronisation system
Kuwabara et al. Demonstration on Next-Generation Immersive Audio in a Live Broadcast Workflow
EP3917162A1 (en) System and devices for audio-video spatial communication and event sharing
WO2023142783A1 (zh) 一种音频处理方法和终端
TWI631853B (zh) 影音控制裝置及其方法
KR101810883B1 (ko) 라이브 스트리밍 시스템 및 그의 스트리밍 클라이언트

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19775952

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 19775952

Country of ref document: EP

Kind code of ref document: A1