WO2018012355A1 - サーバ装置、サーバ装置の送信処理方法、クライアント装置、クライアント装置の受信処理方法およびサーバシステム - Google Patents

サーバ装置、サーバ装置の送信処理方法、クライアント装置、クライアント装置の受信処理方法およびサーバシステム Download PDF

Info

Publication number
WO2018012355A1
WO2018012355A1 PCT/JP2017/024563 JP2017024563W WO2018012355A1 WO 2018012355 A1 WO2018012355 A1 WO 2018012355A1 JP 2017024563 W JP2017024563 W JP 2017024563W WO 2018012355 A1 WO2018012355 A1 WO 2018012355A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
imaging
server
capture
video stream
Prior art date
Application number
PCT/JP2017/024563
Other languages
English (en)
French (fr)
Inventor
塚越 郁夫
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to EP17827484.1A priority Critical patent/EP3487180A1/en
Priority to US16/311,435 priority patent/US10965971B2/en
Priority to JP2018527532A priority patent/JPWO2018012355A1/ja
Priority to CN201780042116.3A priority patent/CN109417643A/zh
Publication of WO2018012355A1 publication Critical patent/WO2018012355A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/183Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a single remote source
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/21805Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/23614Multiplexing of additional data and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42202Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] environmental sensors, e.g. for detecting temperature, luminosity, pressure, earthquakes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • H04N21/4355Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream involving reformatting operations of additional data, e.g. HTML pages on a television screen
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4728End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for selecting a Region Of Interest [ROI], e.g. for requesting a higher resolution version of a selected region
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/85406Content authoring involving a specific file format, e.g. MP4 format
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast

Definitions

  • the present technology relates to a server device, a transmission processing method for the server device, a client device, a reception processing method for the client device, and a server system.
  • Patent Document 1 describes a system that distributes image content from a distribution server (content providing server) to a client terminal (user terminal) via a network such as the Internet.
  • Patent Document 2 describes a monitoring camera system in which a monitoring camera (network camera) is connected to a monitoring device (computer) via a network and transmits monitoring image data from the monitoring camera to the monitoring device via the network. ing.
  • An object of the present technology is to enable the client device to appropriately control the imaging state of the server device.
  • the concept of this technology is An imaging unit that captures an image of a subject and obtains image data; A transmission unit that transmits a container of a predetermined format including a video stream composed of the image data to the client device;
  • the server apparatus has capture information indicating an imaging state of the imaging unit inserted in the video stream layer and / or the container layer.
  • the imaging unit captures the subject and obtains image data.
  • a container having a predetermined format including a video stream composed of image data obtained by imaging is transmitted to the client device by the transmission unit.
  • the container may be MP4 used for Internet distribution or the like, or a container of other formats.
  • the capture information indicating the imaging state in the imaging unit is inserted in the video stream layer and / or the container layer.
  • the capture information may include information on the imaging direction of the imaging unit.
  • the capture information may include information on the focus distance of the imaging unit.
  • the capture information may include information on the zoom ratio of the imaging unit.
  • the capture information indicating the imaging state in the imaging unit is inserted into the layer of the video stream and / or the layer of the container. Therefore, the client device can easily grasp the imaging state (imaging direction, focus distance, zoom ratio, etc.) in the imaging unit of the server device based on this capture information, and can appropriately control the imaging state of the server device. It becomes.
  • position information indicating the position of the server device may be further inserted in the video stream layer and / or the container layer.
  • the position information may be GPS data.
  • the client apparatus can easily grasp the position of the server apparatus, and thus the latitude, longitude, altitude, and further the imaging time of the imaging position, based on the position information.
  • identification information for identifying a combination of capture information and position information and identification information for identifying its own server device are further inserted in the video stream layer and / or the container layer. May be.
  • the client device can identify the video stream transmitted from the server device by the identification information.
  • a reception unit that receives control information for controlling the imaging state of the imaging unit from the client device, and a control unit that controls the imaging state of the imaging unit based on the control information are further provided. It may be made like.
  • the imaging state (imaging direction, focus distance, zoom ratio, etc.) in the imaging unit from the client device can be set to a state intended by the user of the client device.
  • a receiving unit for receiving a container in a predetermined format including a video stream from the server device is composed of image data obtained by imaging a subject with an imaging unit, Capture information indicating the imaging state of the imaging unit is inserted in the layer of the video stream and / or the layer of the container, Processing for obtaining display image data from the video stream, processing for displaying the imaging state of the imaging unit based on the capture information, and imaging state of the imaging unit according to a user operation using the display of the imaging state
  • the client apparatus further includes a control unit that controls the process of obtaining the control information and the process of transmitting the control information to the server apparatus.
  • a container having a predetermined format including a video stream is received from the server device by the receiving unit.
  • the container may be MP4 used for Internet distribution or the like, or a container of other formats.
  • the video stream is composed of image data obtained by imaging a subject with an imaging unit, and capture information indicating the imaging state of the imaging unit is inserted into the layer of the video stream and / or the layer of the container.
  • Processing for obtaining display image data from the video stream from the control unit, processing for displaying the imaging state of the imaging unit based on the capture information, and imaging state of the imaging unit according to a user operation using the display of the imaging state The process of obtaining the control information and the process of transmitting the control information to the server device are controlled.
  • the control information related to the user operation using the display of the imaging state of the imaging unit based on the capture information inserted in the video stream layer and / or the container layer is transmitted to the server device. It is. For this reason, it is possible to appropriately control the imaging state of the server device and receive image data obtained by imaging in the desired imaging state from the server device.
  • position information indicating the position of the server device is further inserted in the layer of the video stream and / or the layer of the container, and the control unit refers to the server device based on a user operation.
  • a process for obtaining access information for accessing another different server apparatus and a process for accessing another server apparatus based on this access information may be further controlled.
  • the access information may be a URL of another server device.
  • access to another server apparatus is directly performed using the URL.
  • the access information may be the location information and the URL of a conversion server that converts this location information into a URL. In this case, access to the other server device is indirectly performed through access to the conversion server.
  • a server system in which a plurality of server devices and client devices are connected to a network
  • the server device is An imaging unit that captures an image of a subject and obtains image data
  • a transmission unit that transmits a container of a predetermined format including a video stream composed of the image data to the client device; Capture information indicating an imaging state in the imaging unit is inserted in the video stream layer and / or the container layer,
  • the client device A receiving unit for receiving the container of the predetermined format from the server device; Processing for obtaining display image data from the video stream, processing for displaying an imaging state of the imaging unit based on the capture information, and imaging state of the imaging unit according to a user operation using the display of the imaging state
  • the server system further includes a control unit that controls the process of obtaining the control information and the process of transmitting the control information to the server device.
  • the position information indicating the position of the server device is further inserted in the layer of the video stream and / or the container layer, and the control unit transmits to another server device different from the server device based on a user operation. Processing for obtaining access information for access and processing for accessing other server devices based on this access information may be further controlled.
  • a receiving unit that receives a reproduction request in which a video stream to be reproduced by the capture device identification information and the capture view identification information is designated from a client device;
  • the server apparatus includes a transmission unit that reads the designated video stream from the storage and transmits a container having a predetermined format including the video stream to the client apparatus.
  • Each video stream can be identified by capture device identification information for identifying an imaging device, and capture view identification information for identifying a combination of position information including time information of the imaging device and imaging state information of the imaging device.
  • the reception unit receives a reproduction request specifying a video stream to be reproduced with the capture device identification information and the capture view identification information from the client device.
  • the transmission unit reads the designated video stream from the storage, and transmits a container of a predetermined format including the video stream to the client device.
  • the client apparatus can specify the video stream to be played back by the capture device identification information and the capture view identification information, and can provide the desired video stream to the client apparatus. Become.
  • a reproduction request specifying a video stream to be reproduced by capture device identification information for identifying an imaging device and capture view identification information for identifying a combination of the positional information of the imaging device and the imaging state information of the imaging device is sent to the server apparatus.
  • the client apparatus includes a processing unit that obtains display image data from a video stream included in the container.
  • a transmission request specifying a video stream to be reproduced is transmitted to the server device by the transmission unit.
  • a video stream to be reproduced is specified by capture device identification information for identifying an imaging device and capture view identification information for identifying a combination of position information of the imaging device and imaging state information of the imaging device.
  • the receiving unit receives a container of a predetermined format including a video stream corresponding to the reproduction request from the server device. Then, the image data for display is obtained from the video stream included in the container by the processing unit.
  • a reproduction request designating a video stream to be reproduced by the capture device identification information and the capture view identification information is transmitted to the server apparatus, and a desired video stream is received from the server apparatus. It becomes possible.
  • the client device can appropriately control the imaging state of the server device. Note that the effects described in the present specification are merely examples and are not limited, and may have additional effects.
  • FIG. 1 shows a configuration example of a server system 10 according to the first embodiment.
  • the server system 10 is configured by connecting a plurality of server devices and a client device 200 to a network.
  • the plurality of server devices include a plurality of media capture / location servers 101, an initial access server 102, and a GPS_URL mapping server 103.
  • the media capture / location server 101 is a container of a predetermined format including a video stream composed of image data obtained by being imaged by a camera (imaging unit) when accessed from the client device 200, in this embodiment.
  • the MP4 distribution stream is transmitted to the client device 200 through the network.
  • capture information indicating the imaging state (imaging direction, focus distance, zoom ratio, etc.) in the camera (imaging unit) and position information indicating the position of its own server device In this embodiment, GPS (Global Positioning System) data, identification information for identifying a combination of capture information and position information (capture view ID), identification information for identifying its own server device (capture device ID), and itself Information such as URL (Uniform Resource Locator) of the server device is inserted.
  • GPS Global Positioning System
  • FIG. 2 shows an example of an MP4 stream.
  • the entire service stream is fragmented and transmitted so that an image sound is output in the middle of transmission such as general broadcasting.
  • IS initialization segment
  • it starts with an initialization segment (IS: initialization segment)
  • IS initialization segment
  • the “udta” box is defined as an initialization segment (IS) or “moof” box as shown in the figure.
  • the initialization segment (IS) has a “moov” box, a “trak” box in the “moov” box, and an “udta” box defined in the “trak” box.
  • FIG. 3 shows an example of information stored in the “lcib” box.
  • “Latitude”, “longitude”, “elevation”, and “time” constitute GPS data. “Latitude” is latitude data, “longitude” is longitude data, “elevation” is altitude data, and “time” is time data.
  • “Direction”, “H_angle”, “V_angle”, “focus_distance”, and “zoom_ratio” constitute capture information.
  • “direction” is direction information such as east, west, south, and north of the camera (imaging unit).
  • “H_angle” is horizontal angle information when the above-mentioned direction of the camera (imaging unit) is used as a reference (0 °) as shown in FIG. 4B.
  • “V_angle” is vertical angle information when the horizontal of the camera (imaging unit) is used as a reference (0 °).
  • “Focus_distance” is focus distance information of the camera (imaging unit) as shown in FIG.
  • “Zoom_ratio” is zoom ratio information of the camera (imaging unit).
  • Capture_device_id is a capture device ID.
  • Capture_view_id is a capture view ID.
  • Server_url is the URL of its own server device.
  • an SEI message is used to insert information into the layer of the video stream.
  • a newly defined location capture and information SEI message (Location_Capture_information ⁇ SEI message) are arranged.
  • FIG. 5 shows a structural example (Syntax) of location capture and information SEI message.
  • the 8-bit field of “byte_length” indicates the subsequent size (number of bytes) of this SEI message.
  • Each 16-bit field of “latitude”, “longitude”, “elevation”, and “time” indicates GPS data.
  • the field “latitude” indicates latitude
  • the field “longitude” indicates longitude
  • the field “elevation” indicates altitude
  • the field “time” indicates time.
  • Each 16-bit field of “direction”, “H_angle”, “V_angle”, “focus_distance”, “zoom_ratio” indicates capture information.
  • the “direction” field indicates the direction of the camera (imaging unit) such as east, west, north, and south.
  • the field “H_angle” indicates a horizontal angle when the above-mentioned direction of the camera (imaging unit) is used as a reference (0 °).
  • the field “V_angle” indicates a vertical angle when the horizontal of the camera (imaging unit) is set as a reference (0 °).
  • the field “focus_distance” indicates the focus distance of the camera (imaging unit).
  • the “zoom_ratio” field indicates the zoom ratio of the camera (imaging unit).
  • the 16-bit field of “capture_device_id” indicates the capture device ID.
  • a 16-bit field of “capture_view_id” indicates a capture view ID.
  • An 8-bit field of “server_url_text_length” indicates the length (size) of the character code portion indicating the character string of the subsequent URL in bytes. The character code is arranged in the field “url_text”.
  • the media capture / location server 101 receives control information (control meta information) for controlling the imaging state of the camera (imaging unit) from the client device 200, and the camera (imaging unit) of the camera (imaging unit) is based on the control information. Control the imaging state. As a result, the imaging state of the camera (imaging unit) of the media capture / location server 101 can be controlled from the client device.
  • control information control meta information
  • FIG. 6 shows a structure example of control information (control meta information)
  • FIG. 7 shows contents (Semantics) of main information in the structure example.
  • the 8-bit field of “byte_length” indicates the subsequent size (number of bytes) of this control information.
  • the 1-bit field of “ROI_pointing_flag” is flag information indicating that there is information on a rectangular area to be tracked (ROI: Region Of Interest).
  • a 1-bit field of “view_angle_shift_flag” is flag information indicating that information on a view angle shift exists.
  • a 1-bit field of “focus_distance_flag” is flag information indicating that focus distance information exists.
  • a 1-bit field of “switch_view_flag” is flag information indicating that a capture view ID exists.
  • a 1-bit field of “zoom_control_flag” is flag information indicating that zoom control information exists.
  • Capture_device_ID and “capture_view_ID” are recognized by the client device 200 from the video stream layer and / or container layer insertion information (“lcib” box information, location capture, and information SEI message). Capture device ID and capture view ID.
  • ROI_pointing_flag When “ROI_pointing_flag” is “1”, there are 16-bit fields of “ROI_area_top_left_x”, “ROI_area_top_left_y”, “ROI_area_bottom_right_x”, and “ROI_area_bottom_right_y”.
  • the field of “ROI_area_top_left_x” indicates the x coordinate of the top left of the rectangular area to be tracked (ROI).
  • the field of “ROI_area_top_left_y” indicates the y coordinate of the top-left of the rectangular area to be tracked (ROI).
  • the field of “ROI_area_bottom_right_x” indicates the x coordinate of the bottom right (bottom-right) of the rectangular area to be tracked (ROI).
  • the field “ROI_area_bottom_right_y” indicates the y coordinate of the bottom right (bottom-right) of the rectangular area to be tracked (ROI).
  • control information control meta information
  • the media capture / location server 101 tracks the target (ROI).
  • the imaging state (mainly direction and angle states) is controlled so as to (automatically follow).
  • FIG. 8 shows an example of tracking.
  • FIG. 8A simply shows an image displayed on the display of the client device 200.
  • control information control meta information
  • FIG. 8A simply shows an image displayed on the display of the client device 200.
  • control information control meta information
  • the media capture / location server 101 divides the tracking target (ROI) object after movement into blocks, performs motion determination by motion prediction in each block, and A global motion vector (moving direction and moving amount) is obtained from the motion determination result, and the orientation of the camera (imaging unit) is corrected based on the information on the motion vector.
  • the media capture / location server 101 repeatedly performs such an operation of correcting the orientation of the camera (imaging unit).
  • the orientation of the camera (imaging unit) is corrected as needed according to the movement to the tracking target (ROI), and the tracking target (ROI) is always included in the image, and tracking (automatic tracking) is performed.
  • the media capture / location server 101 controls the angle of the camera (imaging unit) based on the information when the view angle shift information is present in the control information (control meta information) received from the client device 200.
  • FIG. 9 shows a case where information of “X” is given as “Right_shift_degree” in a state where a camera (imaging unit) is capturing an image of a shot 1 (Shot 1) portion of the entire subject. Indicates that the direction of the camera (imaging unit) is changed to the right by X degrees (X degree), and control is performed to capture the shot 2 (Shot 2) portion.
  • focus_distance_flag When “focus_distance_flag” is “1”, there is a 16-bit field of “Focus_distance”.
  • the field “Focus_distance” indicates the focus distance in meter units.
  • switch_view_flag When “switch_view_flag” is “1”, there is a 16-bit field of “switch_view”.
  • the field of “switch_view” indicates a capture view ID for changing the imaging state of the camera (imaging unit).
  • the capture view ID is identification information that identifies a combination of capture information and position information.
  • “Switch_view” can be specified when the client device 200 explicitly indicates the capture view ID (capture_view_id) after switching.
  • the capture view ID is present in the control information (control meta information) received from the client device 200, the media capture / location server 101 capture information indicating the imaging state of the camera (imaging unit) by the capture view ID. Control to correspond to.
  • zoom_control_flag When “zoom_control_flag” is “1”, there are 16-bit fields of “zoom_in_degree” and “zoom_out_degree”.
  • the field “zoom_in_degree” indicates the value of x of the enlargement ratio (1 + x / 100).
  • the field “zoom_out_degree” indicates the value of x of the reduction ratio (1 ⁇ x / 100).
  • the initial access server 102 is a server device that the client server device 200 accesses first, and acquires the URL of the media capture location server 101 that the client device 200 should access first. If the URL of the media capture / location server 101 to be accessed first by the client device 200 is recognized in advance, the initial access server 102 may be omitted.
  • the initial access server 102 When there is an access from the client device 200, the initial access server 102 sends an MPD (Media Presentation Description) file including the URL information of the media capture location server 101 to be accessed first to the client device 200.
  • MPD Media Presentation Description
  • FIG. 10 shows a description example of the MPD file.
  • an example is described in which only information relating to a video stream is described, but actually information relating to other media streams of the video stream is also described.
  • the GPS_URL mapping server 103 converts the GPS data sent from the client device 200 into the URL of the media capture / location server 101 corresponding to the GPS data, and uses this URL to send it to the client device 200. Instead, the client device 200 accesses the media capture location server 101 to be connected.
  • the client device 200 tries to switch the connection from the position to another media capture location server 101 in a desired direction and distance while being connected to the media capture location server 101.
  • GPS data near the position of the other media capture / location server 101 is calculated, and this GPS data is transmitted to the GPS_URL mapping server 103.
  • the GPS_URL mapping server 103 may be omitted. In this case, the client device 200 directly accesses the media capture / location server 101 to which the client device 200 should connect using the URL obtained by the conversion.
  • the client device 200 accesses the initial access server 102 and acquires the URL of the media capture / location server 101 to be accessed first. For example, the client device 200 receives an MPD file (see FIG. 10) in which the URL of the media capture location server 101 to be accessed first is described from the initial access server 102.
  • the client device 200 accesses the media capture location server 101 based on the URL of the media capture location server 101 to be accessed first. Then, the client device 200 receives from the media capture / location server 101 a container in a predetermined format including a video stream composed of image data obtained by imaging by the imaging unit, in this embodiment, an MP4 distribution stream. Receive through the network.
  • the client apparatus 200 extracts a video stream from the MP4 distribution stream, processes the video stream to obtain display image data, and displays an image based on the display image data (captured by the deer capture location server 101) on a display. Image).
  • the client apparatus 200 captures an image of the camera (imaging unit) in the media capture location server 101 from the insertion information (“lcib” box information, location capture, information SEI message) of the video stream layer and / or container layer. Recognizes the state (imaging direction, focus distance, zoom ratio, etc.). Then, the client device 200 can display a user interface screen (UI screen) having a current operation state change operation unit based on a user operation on the display.
  • UI screen user interface screen having a current operation state change operation unit based on a user operation on the display.
  • FIG. 11 shows an example of a UI screen.
  • An arrow P indicates the display of the zoom ratio (Zoom_ratio) and the zoom ratio display / adjustment unit for the adjustment.
  • the current zoom ratio is shown at the boundary between black and white.
  • the user can perform a zoom-in operation by tapping the “+” portion with a finger, and can perform a zoom-out operation by tapping the “ ⁇ ” portion with a finger.
  • the user can perform an adjustment operation of the zoom ratio by changing a boundary position by a drag operation with a finger placed on the boundary position.
  • Arrow Q indicates an adjustment unit for adjusting a horizontal angle (H_degree), a vertical angle (V_degree), and a focus distance (Focus_distance).
  • H_degree a horizontal angle
  • V_degree a vertical angle
  • Focus_distance a focus distance
  • the user performs an operation of changing the direction of the camera (imaging unit) to the right as viewed from the camera position by tapping the “+” portion with a finger.
  • the user can perform an operation of changing the direction of the camera (imaging unit) to the left when viewed from the camera position by tapping the “ ⁇ ” portion with a finger.
  • the user can perform an operation of changing the direction of the camera (imaging unit) upward as viewed from the camera position by tapping the “+” portion with a finger. It is possible to perform an operation of changing the direction of the camera (imaging unit) downward as seen from the camera position by tapping the “ ⁇ ” portion with a finger.
  • the focus distance the user can perform an operation to increase the focus distance by tapping the “+” part with a finger, and tap the “ ⁇ ” part with a finger. The operation of shortening the focus distance can be performed with.
  • Arrow R indicates a display unit for displaying a horizontal angle (H_degree), a vertical angle (V_degree), and a focus distance (Focus_distance).
  • the orientation of the camera (imaging unit) is indicated by the direction of the thick arrow
  • the horizontal angle is shifted by ⁇ degrees to the right from the north (N) direction
  • the vertical angle is Is shown to be in a direction offset by ⁇ degrees upward from the horizontal.
  • the focus distance of the camera (imaging unit) is indicated by the length of a thick black arrow.
  • zoom_control_flag is “1” in the control information (control meta information) (see FIG. 6) transmitted from the client apparatus 200 to the media capture / location server 101.
  • control information control meta information
  • control information control meta information
  • view_angle_shift_flag is set to “1”
  • focus_distance_flag is “1” in the control information (control meta information) (see FIG. 6) transmitted from the client device 200 to the media capture / location server 101.
  • control information control meta information
  • the user can change each element of the imaging state of the camera (imaging unit) with reference to the UI screen.
  • the user can also perform an operation of collectively changing each element of the imaging state by specifying the capture view ID.
  • the client apparatus 200 accesses the media capture / location server 101 and receives an MP4 distribution stream including a video stream through the network
  • the client apparatus 200 obtains a capture view ID indicating an imaging state together with the capture device ID according to a user operation. For example, it can be stored in a state in which text information and thumbnail information for specifying the imaging content are added.
  • the capture view ID indicating the desired imaging state is efficiently referred to with reference to text information, thumbnail information, or the like. Can be done automatically.
  • switch_view_flag is “1” in the control information (control meta information) (see FIG. 6) transmitted from the client apparatus 200 to the media capture location server 101.
  • control information control meta information
  • the client device 200 When the client device 200 is connected to a certain media capture / location server 101 and the user performs an operation of switching the connection to the other media capture / location server 101, the client device 200 connects to the other media capture / location server 101. to access. In this case, the user can designate another media capture / location server 101 by the capture device ID. In this case, the client device 200 accesses the other media capture / location server 101 using a URL associated with the capture device ID on a one-to-one basis.
  • the user can designate another media capture / location server 101 with respect to a certain media capture / location server 101 by information on a direction and a distance.
  • the client device 200 calculates GPS data in the vicinity of the position of the other media capture location server 101 based on the GPS data of a certain media capture location server 101 and information on this direction and distance. Is transmitted to the GPS_URL mapping server 103.
  • the GPS_URL mapping server 103 converts the GPS data sent from the client device 200 into the URL of the media capture location server 101 corresponding to this, and uses this URL to replace the client device 200.
  • the client device 200 accesses the media capture / location server 101 to be connected.
  • the client device 200 If the client device 200 has a function of converting the calculated GPS data into the URL of the media capture / location server 101 corresponding thereto, the client device 200 itself converts the GPS data into the corresponding media capture / location server 101. And the media capture location server 101 is directly accessed.
  • FIG. 12 shows a state where the camera (imaging unit) is imaging the shot 2 (Shot 2) portion.
  • the horizontal angle is in the direction shifted by X1 degree to the right with respect to the direction (Direction) of the camera (imaging unit). Note that the vertical angle is assumed to be horizontal, for example.
  • the GPS information of the current point A is (atitude1, longitude1, elevation1, time1)
  • the GPS information of the point B is calculated as (latitude_new, longitude_new, elevation_new) from the direction and distance information.
  • latitude_new latitude1 + delta_x
  • longitude_new longitude1 + delta_y
  • elevation_new elevation1 + delta_e.
  • FIG. 13 shows a configuration example of the media capture / location server 101.
  • the media capture / location server 101 includes a controller 111, a locator 112, a capture 103, a video encoder 114, a container encoder 115, and a network interface 116. Each unit is connected by a bus 117.
  • the controller 111 controls the operation of each part of the media capture / location server 101.
  • the locator 112 receives radio waves from GPS satellites and obtains position (longitude / latitude / altitude) information.
  • the capture 113 is a camera (imaging unit) that captures a subject and obtains image data.
  • the video encoder 114 performs encoding such as HEVC on the image data obtained by the capture 113 to obtain encoded image data, and generates a video stream including the encoded image data. In this case, the video encoder 114 arranges a location capture and information SEI message (see FIG. 5) in the SEI message group of “SEIs” of the access unit (AU).
  • the SEI message includes capture information indicating an imaging state (imaging direction, focus distance, zoom ratio, etc.) in the camera (imaging unit), position information (GPS data) indicating the position of its own server device, capture information, Identification information (capture view ID) for identifying a combination of position information, identification information (capture device ID) for identifying its own server device, and information such as the URL of its own server device are inserted.
  • the container encoder 115 generates a container including the video stream generated by the video encoder 114, here an MP4 stream as a distribution stream.
  • the container encoder 115 adds a location capture information box “lcib” box (see FIG. 3) to the “udta” box defined in the initialization segment (IS) and “moof” box. Define.
  • capture information indicating the imaging state (imaging direction, focus distance, zoom ratio, etc.) in the camera (imaging unit), position information (GPS data) indicating the position of its own server device, capture information, and position Identification information (capture view ID) for identifying a combination of information, identification information (capture device ID) for identifying its own server device, and information such as the URL of its own server device are inserted.
  • location capture and information SEI message arrangement and the location capture information box arrangement are not necessarily required, and either one may be used.
  • the network interface 116 communicates with the client device 200 and, if necessary, with another server via the network. For example, the network interface 116 transmits the distribution stream obtained by the container encoder 115 to the client device 200. For example, the network interface 116 receives control information (control meta information) (see FIG. 6) sent from the client device 200. In this case, the controller 111 controls the state of the capture 113 according to the content of the control information (control meta information).
  • control information control meta information
  • FIG. 14 shows a configuration example of the client device 200.
  • a controller 211 a user operation unit 212, a message converter 213, a network interface 214, a container decoder 215, a video decoder 216, a video processor 217, and a display 218 are provided. Each unit is connected by a bus 219.
  • the controller 211 controls the operation of each unit of the client device 200.
  • the user operation unit 212 configures a user interface, and includes a key, a touch panel, a remote control, and the like for the user to perform various operations.
  • the network interface 214 communicates with a server such as the media capture / location server 101 via the network.
  • the network interface 214 receives an MP4 stream including a video stream from the media capture / location server 101 as a distribution stream. Further, the network interface 214 performs control information (control meta information) (see FIG. 6) when a user operation such as a change in the imaging state of the camera (imaging unit) of the currently connected media capture / location server 101 is performed. Is transmitted to the media capture location server 101.
  • control information control meta information
  • the network interface 214 transmits GPS data to the GPS_URL mapping server 103 when a user operation for switching the connection from the currently connected media capture / location server 101 to another media capture / location server 101 is performed. Alternatively, the other media capture location server 101 is directly accessed.
  • the container decoder 215 extracts a video stream from the distribution stream (MP4 stream) received by the network interface 214.
  • the container decoder 215 takes out the location capture information box ““ lcib ”box” present in the “udta” box defined in the initialization segment (IS) or “moof” box, and extracts the controller 211. Send to.
  • the controller 211 recognizes the imaging state (imaging direction, focus distance, zoom ratio, etc.) of the camera (imaging unit).
  • the video decoder 216 decodes the video stream extracted by the container decoder 215 to obtain display image data.
  • the video decoder 216 extracts the parameter set and SEI message inserted in the video stream and sends them to the controller 211.
  • This extracted information includes location capture and information SEI messages.
  • the controller 211 recognizes the imaging state (imaging direction, focus distance, zoom ratio, etc.) of the camera (imaging unit).
  • the video processor 217 supplies the display image data obtained by the video decoder 216 to the display 218 after processing such as resolution conversion.
  • the display 218 displays an image based on the display image data obtained by the video decoder 216 (captured image by the media capture / location server 101). The image can be displayed on another display monitor via the interface.
  • the controller 211 recognizes the imaging state (imaging direction, focus distance, zoom ratio, etc.) of the camera (imaging unit) from the location capture information box, the location capture, and the information SEI message. Under the control of 211, a UI screen (see FIG. 11) showing the current imaging state can be displayed on the display 218.
  • the message converter 213 generates a message under the control of the controller 211 according to the operation of the user operation unit 212, for example, and sends it to the network interface 214.
  • the message converter 213 controls the control information (control) under the control of the controller 211 when a user operation such as a change in the imaging state of the camera (imaging unit) of the currently connected media capture / location server 101 is performed. Meta information) (see FIG. 6) is generated and sent to the network interface 214.
  • the message converter 213 receives another media capture / location server 101.
  • the message converter 213 receives another media capture / location server 101.
  • the network interface Send to 214.
  • FIG. 15 shows a structural example of a server access message (Server_access_message) as the first message.
  • the 8-bit field of “byte_length” indicates the subsequent size (number of bytes) of this SEI message.
  • An 8-bit field of “server_url_text_length” indicates the length (size) of the character code portion indicating the character string of the subsequent URL in bytes. The character code is arranged in the field “url_text”.
  • FIG. 16 shows a structural example of a server access message (Server_access_message) as the second message.
  • the 8-bit field of “byte_length” indicates the subsequent size (number of bytes) of this SEI message.
  • “Latitude_new”, “longitude_new”, and “elevation_new” constitute GPS data.
  • “Latitude_new” is latitude data
  • “longitude_new” is longitude data
  • “elevation_new” is altitude data.
  • An 8-bit field of “server_url_text_length” indicates the length (size) of the character code portion indicating the character string of the subsequent URL in bytes. The character code is arranged in the field “url_text”.
  • FIG. 17 shows an example of communication between the client device 200 and each server.
  • the client device 200 accesses the initial access server 102. Note that the client device 200 recognizes the URL of the initial access server 102 in advance.
  • the initial access server 102 sends an MPD file including the URL information of the media capture location server 101 to be accessed first to the client device 200.
  • the client device 200 accesses the media capture location server (capture server) 101 to be accessed first, and establishes a connection state.
  • the media capture / location server 101 transmits a delivery stream including a video stream of captured image data to the client device 200. As a result, the client device 200 enters a display state of the captured image in the media capture / location server 101.
  • the client device 200 sends control information (control meta information) to the media capture location server 101 in accordance with the user's imaging state change operation. Thereby, the imaging state in the media capture / location server 101 is changed.
  • the media capture / location server 101 transmits a distribution stream including a video stream of captured image data after the imaging state change to the client device 200. As a result, the client apparatus 200 enters the display state of the captured image after the imaging state change in the media capture / location server 101.
  • the client device 200 accesses the other media capture / location server 101 directly or via the GPS_URL mapping server 103 in accordance with a change operation to the other media capture / location server 101 by the user.
  • the connection state (8)
  • the media capture location server 101 transmits a delivery stream including a video stream of captured image data to the client device 200. As a result, the client apparatus 200 enters the display state of the captured image in the other media capture / location server 101.
  • the client device 200 sends control information (control meta information) to the other media capture location server 101 in accordance with the user's imaging state change operation. As a result, the imaging state in the other media capture / location server 101 is changed. (10) The media capture / location server 101 transmits a distribution stream including a video stream of the captured image data after the imaging state change to the client device 200. As a result, the client apparatus 200 enters the display state of the captured image after the imaging state change in the other media capture / location server 101.
  • the media capture / location server 101 inserts capture information indicating the imaging state of the camera (imaging unit) into the video stream layer and / or the container layer. Send. Therefore, the client device 200 can easily grasp the imaging state (imaging direction, focus distance, zoom ratio, etc.) in the camera (imaging unit) of the media capture location server 101 based on this capture information, and the media capture location server 101 can appropriately control the imaging state.
  • the user uses the information on the direction and distance of the other media capture / location server 101 to the currently connected media capture / location server 101. Can be specified. Therefore, even when the URL of the media capture / location server 101 to be switched is not known, switching to another media capture / location server 101 can be appropriately performed.
  • FIG. 18 shows a configuration example of the server system 30 as the second embodiment.
  • the server system 30 is configured by connecting a plurality of server devices and a client device 400 via a network.
  • the plurality of server devices include a plurality of media capture / location servers 301, an initial access server 302, a thumbnail server 303, and a storage server 304.
  • the media capture / location server 301 is a video stream composed of image data obtained by imaging with a camera (imaging unit) when the storage server 304 is accessed from the storage server 304 or automatically, for example.
  • the MP4 distribution stream is transmitted through the network.
  • one storage server 304 is shown, but a plurality of storage servers 304 may exist.
  • the media capture / location server 301 is configured in the same manner as the media capture / location server 101 (see FIG. 13) in the above-described first embodiment, although detailed description is omitted.
  • the storage server 304 stores the video stream (video file) sent from each media capture / location server 301 using the combination of the capture view ID and the capture device ID as identification information.
  • the initial access server 302 is a server device for acquiring information on a plurality of video streams stored in the storage server 304. When accessed from the client apparatus 400, the initial access server 302 sends an MPD (Media Presentation Description) file including information on a plurality of video streams to the client apparatus 400.
  • MPD Media Presentation Description
  • FIG. 19 shows a description example of the MPD file.
  • an example is described in which only information relating to a video stream is described, but actually information relating to other media streams of the video stream is also described.
  • the first period There is information on the first period (Period1) and information on the second period (Period2).
  • thumbnail_server_URL1 the location destination of the thumbnail image data of each video stream stored in the storage server 304 identified by the combination of the following capture device ID and capture view ID is , “Thumbnail_server_URL1”.
  • thumbnail server indicated by “thumbnail_server_URL1”
  • individual thumbnail images, capture device IDs, and capture view IDs are managed in association with each other.
  • thumbnail_server_URL2 the location destination of the thumbnail image data of each video stream stored in the storage server 304 identified by the combination of the following capture device ID and capture view ID is , “Thumbnail_server_URL2”.
  • thumbnail server indicated by “thumbnail_server_URL2”
  • individual thumbnail images, capture device IDs, and capture view IDs are managed in association with each other.
  • the location destination of the thumbnail image data in the first period (Period1) and the second period (Period2) may be the same.
  • the thumbnail server 303 holds one or more thumbnail image data of each video stream stored in the storage server 304.
  • the thumbnail server 303 transmits the stored thumbnail image data to the client device 400.
  • one thumbnail server 303 is shown, but a plurality of thumbnail servers 303 may exist.
  • the client device 400 is configured in the same manner as the client device 200 (see FIG. 14) in the first embodiment described above.
  • the client device 400 accesses the initial access server 302 and acquires information on a plurality of video streams stored in the storage server 304.
  • the client device 400 includes, from the initial access server 302, a combination of a capture device ID and a capture view ID as identification information of each video stream, and a URL of the thumbnail server for obtaining thumbnail image data of each video stream.
  • the described MPD file (see FIG. 19) is received.
  • the client device 400 accesses the thumbnail server 303 based on the URL of the thumbnail server. Then, the client device 400 receives thumbnail image data of a plurality of video streams stored in the storage server 304 from the thumbnail server 303 via the network. It is also conceivable that information about the imaging start time and imaging end time of each video stream is added to each thumbnail image data.
  • the client device 200 displays a thumbnail image on the display for the convenience of the user to select a playback video stream.
  • the imaging start time and the imaging end time may be displayed in association with each thumbnail image so that the user can not only select the playback video stream but also specify the playback start position.
  • the client device 400 When a playback video stream is selected by a user operation, the client device 400 transmits a playback request including a combination of a capture device ID and a capture view ID for identifying the playback video stream to the storage server 304. Then, the client apparatus 400 receives the MP4 distribution stream including the selected playback video stream from the storage server 304 via the network.
  • reception from the storage server 304 is from the reproduction start position.
  • the client apparatus 400 extracts a video stream from the MP4 distribution stream, processes the video stream to obtain display image data, and displays an image based on the display image data (capture by the media capture location server 301) on a display. Image).
  • FIG. 20 shows a configuration example of the storage server 304.
  • the storage server 304 includes a controller 311, a storage 312, a container encoder 313, and a network interface 314. Each unit is connected by a bus 315.
  • the controller 311 controls the operation of each unit of the storage server 304.
  • the storage 312 is configured by a hard disk drive (HDD) or a semiconductor memory.
  • the storage 312 stores the video stream (video file) sent from each media capture / location server 301 using the combination of the capture view ID and the capture device ID as identification information.
  • the controller 311 When receiving a playback request specifying a video stream to be played back by a combination of a capture device ID and a capture view ID from the client device 400, the controller 311 receives the combination of the capture device ID and the capture view ID from the storage 312.
  • the identified video stream (video file) is read and sent to the container encoder 313.
  • the reproduction request includes the designation of the reproduction start position, reading from the reproduction start position is performed.
  • the container encoder 313 generates a container including a video stream read from the storage 312, here an MP4 stream, as a distribution stream.
  • the network interface 314 communicates with the client device 400 and, if necessary, other servers via the network.
  • the network interface 314 receives a video stream sent from each media capture / location server 301.
  • the network interface 314 transmits the distribution stream obtained by the container encoder 313 to the client device 400.
  • the network interface 314 receives a reproduction request transmitted from the client device 400.
  • the client device 400 accesses the initial access server 302. Note that the client apparatus 400 recognizes the URL of the initial access server 302 in advance. (12) When there is an access from the client device 400, the initial access server 302 sends an MPD file including information on a plurality of video streams to the client device 400.
  • the client device 400 accesses the thumbnail server 303 to establish a connection state. (14)
  • the thumbnail server 303 transmits the thumbnail image data to the client device 400.
  • the client device 400 is in a state where thumbnail image data of a plurality of video streams stored in the storage server 304 is displayed on the display for the convenience of selecting a playback video stream.
  • the client device 400 transmits a combination of a capture device ID and a capture view ID for identifying the playback video stream to the storage server 304. (16) Then, the client apparatus 400 receives the MP4 distribution stream including the selected playback video stream from the storage server 304 via the network. As a result, the client apparatus 400 enters an image display state based on the playback video stream.
  • the client device 400 when a playback video stream is selected by a user operation, the client device 400 sends a playback request including a combination of a capture device ID and a capture view ID that identifies the playback video stream. , To the storage server 304. Therefore, the client device 400 can appropriately receive a desired video stream from the storage server 304.
  • the user in the client device 400, can select a playback video stream based on the thumbnail image, and can easily and appropriately select the playback video stream.
  • this technique can also take the following structures.
  • an imaging unit that captures an image of a subject and obtains image data
  • a transmission unit that transmits a container of a predetermined format including a video stream composed of the image data to the client device;
  • a server apparatus in which capture information indicating an imaging state in the imaging unit is inserted in the video stream layer and / or the container layer.
  • the capture information includes information on an imaging direction of the imaging unit.
  • the server device according to any one of (1) to (3), wherein the capture information includes information on a zoom ratio of the imaging unit.
  • the server apparatus according to any one of (1) to (4), wherein position information indicating a position of the server apparatus is further inserted in the video stream layer and / or the container layer.
  • the server device according to (5), wherein the position information is GPS data.
  • Identification information for identifying a combination of the capture information and the position information and identification information for identifying its own server device are further inserted in the video stream layer and / or the container layer.
  • the server device according to 5) or (6).
  • the server device according to any one of (1) to (7), further including a control unit that controls an imaging state of the imaging unit based on the control information.
  • the transmission unit includes a transmission step of transmitting a container of a predetermined format including a video stream composed of the image data to the client device;
  • a transmission processing method of a server device wherein capture information indicating an imaging state in the imaging unit is inserted in the video stream layer and / or the container layer.
  • a receiving unit that receives a container of a predetermined format including a video stream from the server device,
  • the video stream is composed of image data obtained by imaging a subject with an imaging unit, Capture information indicating the imaging state of the imaging unit is inserted in the layer of the video stream and / or the layer of the container, Processing for obtaining display image data from the video stream, processing for displaying the imaging state of the imaging unit based on the capture information, and imaging state of the imaging unit according to a user operation using the display of the imaging state
  • a client device further comprising: a control unit that controls processing for obtaining the control information and processing for transmitting the control information to the server device.
  • Position information indicating the position of the server device is further inserted into the video stream layer and / or the container layer,
  • the control unit further includes a process of obtaining access information for accessing another server apparatus different from the server apparatus based on a user operation, and a process of accessing the other server apparatus based on the access information.
  • the client device according to (10), wherein the client device is controlled.
  • the access information is a URL of the other server device.
  • the access information is location information and a URL of a conversion server that converts the location information into a URL.
  • the reception unit includes a reception step of receiving a container of a predetermined format including a video stream from the server device,
  • the video stream is composed of image data obtained by imaging a subject with an imaging unit, Capture information indicating the imaging state of the imaging unit is inserted in the layer of the video stream and / or the layer of the container,
  • a receiving processing method for a client device further comprising: a process for obtaining control information of an imaging state of each unit; and a control step for controlling processing for transmitting the control information to the server device.
  • a server system in which a plurality of server devices and client devices are connected to a network The server device is An imaging unit that captures an image of a subject and obtains image data; A transmission unit that transmits a container of a predetermined format including a video stream composed of the image data to the client device; Capture information indicating an imaging state in the imaging unit is inserted in the video stream layer and / or the container layer, The client device A receiving unit for receiving the container of the predetermined format from the server device; Processing for obtaining display image data from the video stream, processing for displaying an imaging state of the imaging unit based on the capture information, and imaging state of the imaging unit according to a user operation using the display of the imaging state
  • a server system further comprising: a control unit that controls a process for obtaining the control information and a process for transmitting the control information to the server device.
  • Position information indicating the position of the server device is further inserted in the video stream layer and / or the container layer,
  • the control unit further includes a process of obtaining access information for accessing another server apparatus different from the server apparatus based on a user operation, and a process of accessing the other server apparatus based on the access information.
  • Storage for storing a plurality of video streams identified by capture device identification information for identifying an imaging device, and capture view identification information for identifying a combination of position information of the imaging device and imaging state information of the imaging device
  • a receiving unit that receives a reproduction request in which a video stream to be reproduced by the capture device identification information and the capture view identification information is designated from a client device
  • a server apparatus comprising: a transmission unit that reads the designated video stream from the storage and transmits a container of a predetermined format including the video stream to the client apparatus.
  • a playback request specifying a video stream to be played back by capture device identification information for identifying an imaging device, and capture view identification information for identifying a combination of position information of the imaging device and imaging state information of the imaging device.
  • a transmission unit for transmitting to the server device A receiving unit that receives a container of a predetermined format including a video stream corresponding to the reproduction request from the server device;
  • a client device comprising: a processing unit that obtains display image data from a video stream included in the container.
  • the main feature of the present technology is that the media capture location server inserts and transmits capture information indicating the imaging state of the camera (imaging unit) into the video stream layer and / or container layer, thereby transmitting the client device. Based on this capture information, the image capture state (image capture direction, focus distance, zoom ratio, etc.) of the camera (image capture unit) of the media capture / location server can be easily grasped, and the image capture state of the media capture / location server can be determined appropriately. This means that control is possible (see FIGS. 1, 11, and 13).

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Ecology (AREA)
  • Environmental & Geological Engineering (AREA)
  • Environmental Sciences (AREA)
  • Remote Sensing (AREA)
  • Emergency Management (AREA)
  • Business, Economics & Management (AREA)
  • Computer Security & Cryptography (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Studio Devices (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Closed-Circuit Television Systems (AREA)

Abstract

クライアント装置がサーバ装置の撮像状態を適切に制御可能とする。 撮像部は、被写体を撮像して画像データを得る。送信部は、撮像されて得られた画像データにより構成されるビデオストリームを含む所定フォーマットのコンテナを、クライアント装置に送信する。ビデオストリームのレイヤおよび/またはコンテナのレイヤに、撮像部における撮像状態を示すキャプチャ情報を挿入して、送信する。キャプチャ情報は、撮像部の撮像方向の情報、撮像部のフォーカス距離の情報、撮像部のズーム比の情報等である。

Description

サーバ装置、サーバ装置の送信処理方法、クライアント装置、クライアント装置の受信処理方法およびサーバシステム
 本技術は、サーバ装置、サーバ装置の送信処理方法、クライアント装置、クライアント装置の受信処理方法およびサーバシステムに関し、特に、監視システム、画像配信システムなどに適用して好適なサーバ装置等に関する。
 例えば、特許文献1には、配信サーバ(コンテンツ提供サーバ)からインターネット等のネットワークを介して画像コンテンツをクライアント端末(ユーザ端末)に配信するシステムが記載されている。また、例えば、特許文献2には、監視カメラ(ネットワークカメラ)がネットワークを介して監視装置(コンピュータ)に接続され、監視画像データを監視カメラからネットワークを通じて監視装置に送信する監視カメラシステムが記載されている。
特開2004-110277号公報 特開2005-175758号公報
 本技術の目的は、クライアント装置がサーバ装置の撮像状態を適切に制御可能とすることにある。
 本技術の概念は、
 被写体を撮像して画像データを得る撮像部と、
 上記画像データで構成されるビデオストリームを含む所定フォーマットのコンテナをクライアント装置に送信する送信部を備え、
 上記ビデオストリームのレイヤおよび/または上記コンテナのレイヤに、上記撮像部における撮像状態を示すキャプチャ情報が挿入されている
 サーバ装置にある。
 本技術において、撮像部により、被写体が撮像されて画像データが得られる。送信部により、撮像されて得られた画像データにより構成されるビデオストリームを含む所定フォーマットのコンテナがクライアント装置に送信される。例えば、コンテナは、インターネットの配信などで用いられるMP4、あるいはそれ以外のフォーマットのコンテナであってもよい。
 ビデオストリームのレイヤおよび/またはコンテナのレイヤに、撮像部における撮像状態を示すキャプチャ情報が挿入されている。例えば、キャプチャ情報には、撮像部の撮像方向の情報が含まれる、ようにされてもよい。また、キャプチャ情報には、撮像部のフォーカス距離の情報が含まれる、ようにされてもよい。また、キャプチャ情報には、撮像部のズーム比の情報が含まれる、ようにされてもよい。
 このように本技術においては、ビデオストリームのレイヤおよび/またはコンテナのレイヤに、撮像部における撮像状態を示すキャプチャ情報を挿入するものである。そのため、クライアント装置では、このキャプチャ情報に基づいてサーバ装置の撮像部における撮像状態(撮像方向、フォーカス距離、ズーム比など)を容易に把握でき、サーバ装置の撮像状態を適切に制御することが可能となる。
 なお、本技術において、例えば、ビデオストリームのレイヤおよび/またはコンテナのレイヤに、自身のサーバ装置の位置を示す位置情報がさらに挿入されている、ようにされてもよい。例えば、位置情報は、GPSデータである、ようにされてもよい。この場合、クライアント装置では、この位置情報に基づいて、サーバ装置の位置、従って撮像位置の緯度、経度、高度、さらには撮像時刻などを容易に把握可能となる。
 また、本技術において、例えば、ビデオストリームのレイヤおよび/またはコンテナのレイヤに、キャプチャ情報および位置情報の組み合わせを識別する識別情報および自身のサーバ装置を識別する識別情報がさらに挿入されている、ようにされてもよい。この場合、クライアント装置では、サーバ装置から送られてくるビデオストリームを、これらの識別情報によって識別することが可能となる。
 また、本技術において、例えば、クライアント装置から撮像部における撮像状態を制御するための制御情報を受信する受信部と、この制御情報に基づいて撮像部の撮像状態を制御する制御部をさらに備える、ようにされてもよい。この場合、クライアント装置から撮像部における撮像状態(撮像方向、フォーカス距離、ズーム比など)をクライアント装置のユーザが意図する状態とすることが可能となる。
 また、本技術の他の概念は、
 サーバ装置からビデオストリームを含む所定フォーマットのコンテナを受信する受信部を備え、
 上記ビデオストリームは、被写体を撮像部で撮像して得られた画像データで構成されており、
 上記ビデオストリームのレイヤおよび/または上記コンテナのレイヤに、上記撮像部の撮像状態を示すキャプチャ情報が挿入されており、
 上記ビデオストリームから表示用画像データを得る処理と、上記キャプチャ情報に基づいて上記撮像部の撮像状態を表示する処理と、上記撮像状態の表示を用いたユーザ操作に応じて上記撮像部の撮像状態の制御情報を得る処理と、該制御情報を上記サーバ装置に送信する処理を制御する制御部をさらに備える
 クライアント装置にある。
 本技術において、受信部により、サーバ装置からビデオストリームを含む所定フォーマットのコンテナが受信される。例えば、コンテナは、インターネットの配信などで用いられるMP4、あるいはそれ以外のフォーマットのコンテナであってもよい。ビデオストリームは、被写体を撮像部で撮像して得られた画像データで構成されており、ビデオストリームのレイヤおよび/またはコンテナのレイヤに、撮像部の撮像状態を示すキャプチャ情報が挿入されている。
 制御部より、ビデオストリームから表示用画像データを得る処理と、キャプチャ情報に基づいて撮像部の撮像状態を表示する処理と、この撮像状態の表示を用いたユーザ操作に応じて撮像部の撮像状態の制御情報を得る処理と、この制御情報をサーバ装置に送信する処理が制御される。
 このように本技術においては、ビデオストリームのレイヤおよび/またはコンテナのレイヤに挿入されているキャプチャ情報に基づく撮像部の撮像状態の表示を用いたユーザ操作に係る制御情報をサーバ装置に送信するものである。そのため、サーバ装置の撮像状態を適切に制御し、サーバ装置から所望の撮像状態で撮像して得られた画像データの提供を受けることが可能となる。
 なお、本技術において、例えば、ビデオストリームのレイヤおよび/またはコンテナのレイヤに、サーバ装置の位置を示す位置情報がさらに挿入されており、制御部は、ユーザ操作に基づいて、上記サーバ装置とは異なる他のサーバ装置にアクセスするためのアクセス情報を得る処理と、このアクセス情報に基づいて他のサーバ装置にアクセスする処理をさらに制御する、ようにされてもよい。
 例えば、アクセス情報は、他のサーバ装置のURLである、ようにされてもよい。この場合、他のサーバ装置へのアクセスは、当該URLを用いて直接行われる。また、例えば、アクセス情報は、位置情報およびこの位置情報をURLに変換する変換サーバのURLである、ようにされてもよい。この場合、他のサーバ装置へのアクセスは、変換サーバへのアクセスを介して、間接的に行われる。
 このようにサーバ装置の位置を示す位置情報に基づいて他のサーバ装置にアクセスするためのアクセス情報を得ることで、他のサーバ装置へのアクセス処理を容易に行い得る。
 また、本技術の他の概念は、
 複数のサーバ装置とクライアント装置がネットワーク接続されてなるサーバシステムであって、
 上記サーバ装置は、
 被写体を撮像して画像データを得る撮像部と、
 上記画像データで構成されるビデオストリームを含む所定フォーマットのコンテナを上記クライアント装置に送信する送信部を備え、
 上記ビデオストリームのレイヤおよび/または上記コンテナのレイヤに、上記撮像部における撮像状態を示すキャプチャ情報が挿入されており、
 上記クライアント装置は、
 上記サーバ装置から上記所定フォーマットのコンテナを受信する受信部を備え、
 上記ビデオストリームから表示用画像データを得る処理と、上記キャプチャ情報に基づいて上記撮像部の撮像状態を表示する処理と、該撮像状態の表示を用いたユーザ操作に応じて上記撮像部の撮像状態の制御情報を得る処理と、該制御情報を上記サーバ装置に送信する処理を制御する制御部をさらに備える
 サーバシステムにある。
 例えば、ビデオストリームのレイヤおよび/またはコンテナのレイヤに、サーバ装置の位置を示す位置情報がさらに挿入されており、制御部は、ユーザ操作に基づいて、上記サーバ装置とは異なる他のサーバ装置にアクセスするためのアクセス情報を得る処理と、このアクセス情報に基づいて他のサーバ装置にアクセスする処理をさらに制御する、ようにされてもよい。
 また、本技術の他の概念は、
 撮像デバイスを識別するキャプチャデバイス識別情報と、上記撮像デバイスの時刻情報を含む位置情報および上記撮像デバイスの撮像状態情報の組み合わせを識別するキャプチャビュー識別情報とで識別される複数のビデオストリームを格納するストレージと、
 クライアント装置から上記キャプチャデバイス識別情報および上記キャプチャビュー識別情報で再生すべきビデオストリームが指定された再生要求を受信する受信部と、
 上記指定されたビデオストリームを上記ストレージから読み出し、該ビデオストリームを含む所定フォーマットのコンテナを上記クライアント装置に送信する送信部を備える
 サーバ装置にある。
 本技術において、ストレージには、複数のビデオストリーム(ビデオファイル)が格納されている。各ビデオストリームは、撮像デバイスを識別するキャプチャデバイス識別情報と、撮像デバイスの時刻情報を含む位置情報および撮像デバイスの撮像状態情報の組み合わせを識別するキャプチャビュー識別情報とで識別可能とされている。
 受信部により、クライアント装置からキャプチャデバイス識別情報およびキャプチャビュー識別情報で再生すべきビデオストリームが指定された再生要求が受信される。送信部により、指定されたビデオストリームがストレージから読み出され、このビデオストリームを含む所定フォーマットのコンテナがクライアント装置に送信される。
 このように本技術においては、クライアント装置はキャプチャデバイス識別情報とキャプチャビュー識別情報とで再生すべきビデオストリームを指定することが可能となり、当該所望のビデオストリームをクライアント装置に提供することが可能となる。
 また、本技術の他の概念は、
 撮像デバイスを識別するキャプチャデバイス識別情報と、上記撮像デバイスの位置情報および上記撮像デバイスの撮像状態情報の組み合わせを識別するキャプチャビュー識別情報とで再生すべきビデオストリームを指定した再生要求をサーバ装置に送信する送信部と、
 上記サーバ装置から上記再生要求に対応したビデオストリームを含む所定フォーマットのコンテナを受信する受信部と、
 上記コンテナに含まれるビデオストリームから表示用画像データを得る処理部を備える
 クライアント装置にある。
 本技術において、送信部により、再生すべきビデオストリームが指定された再生要求がサーバ装置に送信される。この場合、撮像デバイスを識別するキャプチャデバイス識別情報と、撮像デバイスの位置情報および撮像デバイスの撮像状態情報の組み合わせを識別するキャプチャビュー識別情報とで再生すべきビデオストリームが指定される。
 受信部により、サーバ装置から再生要求に対応したビデオストリームを含む所定フォーマットのコンテナが受信される。そして、処理部により、コンテナに含まれるビデオストリームから表示用画像データが得られる。
 このように本技術においては、キャプチャデバイス識別情報とキャプチャビュー識別情報とで再生すべきビデオストリームを指定した再生要求をサーバ装置に送信して、所望のビデオストリームをサーバ装置から提供を受けることが可能となる。
 本技術によれば、クライアント装置がサーバ装置の撮像状態を適切に制御可能となる。なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。
第1の実施の形態としてのサーバシステムの構成例を示す図である。 MP4のストリームの一例を示す図である。 “lcib”ボックスに格納される情報例を示す図である。 キャプチャ情報としての方角情報、フォーカス距離情報、水平アングル情報、垂直アングル情報を説明するための図である。 ロケーション・キャプチャ、インフォメーションSEIメッセージの構造例を示す図である。 制御情報(制御メタ情報)の構造例を示す図である。 制御情報(制御メタ情報)の構造例における主要な情報の内容を示す図である。 トラッキング(自動追従)の動作を説明するための図である。 撮像状態の制御の一例を説明するための図である。 最初にアクセスすべきメディアキャプチャ・ロケーションサーバのURLの情報を含むMPDファイルの記述例を示す図である。 現在の撮像状態を示すと共に、その撮像状態の変更操作部を持つユーザインタフェース画面(UI画面)の一例を示す図である。 他のメディアキャプチャ・ロケーションサーバを、あるメディアキャプチャ・ロケーションサーバに対して方向および距離の情報で指定する一例を示す図である。 メディアキャプチャ・ロケーションサーバの構成例を示すブロック図である。 クライアント装置の構成例を示すブロック図である。 URLの情報を含む第1のメッセージとしてのサーバアクセス・メッセージの構造例を示す図である。 GPS_URLマッピングサーバのURLの情報とGPSデータを含む第2のメッセージとしてのサーバアクセス・メッセージの構造例を示す図である。 クライアント装置と各サーバとの間の通信の一例を示すシーケンス図である。 第2の実施の形態としてのサーバシステムの構成例を示す図である。 ストレージサーバに格納されている複数のビデオストリームの情報を含むMPDファイルの記述例を示す図である。 ストレージサーバの構成例を示すブロック図である。 クライアント装置と各サーバとの間の通信の一例を示すシーケンス図である。
 以下、発明を実施するための形態(以下、「実施の形態」とする)について説明する。なお、説明を以下の順序で行う。
 1.第1の実施の形態
 2.第2の実施の形態
 3.変形例
 <1.第1の実施の形態>
 [サーバシステムの構成例]
 図1は、第1の実施の形態としてのサーバシステム10の構成例を示している。このサーバシステム10は、複数のサーバ装置とクライアント装置200がネットワーク接続されて構成されている。
 複数のサーバ装置には、複数のメディアキャプチャ・ロケーションサーバ101と、初期アクセスサーバ102と、GPS_URLマッピングサーバ103が含まれる。メディアキャプチャ・ロケーションサーバ101は、クライアント装置200からのアクセスがあるとき、カメラ(撮像部)で撮像されて得られた画像データで構成されるビデオストリームを含む所定フォーマットのコンテナ、この実施の形態ではMP4の配信ストリームを、ネットワークを通じて当該クライアント装置200に送信する。
 この場合、ビデオストリームのレイヤおよび/またはコンテナのレイヤに、カメラ(撮像部)における撮像状態(撮像方向、フォーカス距離、ズーム比など)を示すキャプチャ情報と、自身のサーバ装置の位置を示す位置情報、この実施の形態ではGPS(Global Positioning System)データと、キャプチャ情報と位置情報の組み合わせを識別する識別情報(キャプチャビューID)および自身のサーバ装置を識別する識別情報(キャプチャデバイスID)と、自身のサーバ装置のURL(Uniform Resource Locator)などの情報が挿入される。
 コンテナのレイヤへの情報の挿入には、例えば、MP4のユーザデータボックス「“udta”ボックス」が利用される。図2は、MP4のストリームの一例を示している。一般の放送など、送信の途中から画音が出るように、サービスストリーム全体がフラグメント化されて送信される。この場合、図示のように、イニシャライゼーション・セグメント(IS:initialization segment)から始まり、それに、“styp”、“sidx(Segment index box)”、“ssix(Sub-segment index box)”、“moof(Movie fragment box)”、“mdat(Media data box)”のボックスが続く。
 “udta”のボックスは、図示のように、イニシャライゼーション・セグメント(IS)や“moof”のボックスに定義される。すなわち、イニシャライゼーション・セグメント(IS)には、“moov”ボックスが存在し、この“moov”ボックス内には“trak”ボックスが存在し、この“trak”ボックス内に“udta”ボックスが定義される。
 ここでは、“udta”ボックスに、新規定義する、ロケーション・キャプチャ・インフォメーションボックス「“lcib”ボックス」が新たに定義される。図3は、“lcib”ボックスに格納される情報例を示している。「latitude」、「longitude」、「elevation」、「time」は、GPSデータを構成している。「latitude」は緯度データ、「longitude」は経度データ、「elevation」は高度データ、「time」は時刻データである。
 「direction」、「H_angle」、「V_angle」、「focus_distance」、「zoom_ratio」は、キャプチャ情報を構成している。「direction」は、図4(a)に示すように、カメラ(撮像部)の東西南北などの方角情報である。「H_angle」は、図4(b)に示すように、カメラ(撮像部)の上述の方角を基準(0 degree)とした場合の水平アングル情報である。「V_angle」は、図4(c)に示すように、カメラ(撮像部)の水平を基準(0 degree)とした場合の垂直アングル情報である。「focus_distance」は、図4(d)に示すように、カメラ(撮像部)のフォーカス距離情報である。「zoom_ratio」は、カメラ(撮像部)のズーム比情報である。
 「capture_device_id」は、キャプチャデバイスIDである。「capture_view_id」は、キャプチャビューIDである。「Server_url」は、自身のサーバ装置のURLである。
 また、ビデオストリームのレイヤへの情報の挿入には、例えば、SEIメッセージが利用される。SEIメッセージ群に、新規定義する、ロケーション・キャプチャ、インフォメーションSEIメッセージ(Location_Capture_information SEI message)が配置される。
 図5は、ロケーション・キャプチャ、インフォメーションSEIメッセージの構造例(Syntax)を示している。「byte_length」の8ビットフィールドは、このSEIメッセージの以降のサイズ(バイト数)を示す。
 「latitude」、「longitude」、「elevation」、「time」の各16ビットフィールドは、GPSデータを示す。ここで、「latitude」のフィールドは緯度を示し、「longitude」のフィールドは経度を示し、「elevation」のフィールドは高度を示し、「time」のフィールドは時刻を示す。
 「direction」、「H_angle」、「V_angle」、「focus_distance」、「zoom_ratio」の各16ビットフィールドは、キャプチャ情報を示す。ここで、「direction」のフィールドは、カメラ(撮像部)の東西南北などの方角を示す。「H_angle」のフィールドは、カメラ(撮像部)の上述の方角を基準(0 degree)とした場合の水平アングルを示す。「V_angle」のフィールドは、カメラ(撮像部)の水平を基準(0 degree)とした場合の垂直アングルを示す。「focus_distance」のフィールドは、カメラ(撮像部)のフォーカス距離を示す。「zoom_ratio」のフィールドは、カメラ(撮像部)のズーム比を示す。
 「capture_device_id」の16ビットフィールドは、キャプチャデバイスIDを示す。「capture_view_id」の16ビットフィールドは、キャプチャビューIDを示す。「server_url_text_length」の8ビットフィールドは、以降のURLの文字列を示す文字コード部分の長さ(サイズ)をバイト数で示す。文字コードは、「url_text」のフィールドに配置される。
 また、メディアキャプチャ・ロケーションサーバ101は、クライアント装置200からカメラ(撮像部)における撮像状態を制御するための制御情報(制御メタ情報)を受信し、この制御情報に基づいてカメラ(撮像部)の撮像状態を制御する。これにより、クライアント装置からメディアキャプチャ・ロケーションサーバ101のカメラ(撮像部)の撮像状態を制御することができる。
 図6は、制御情報(制御メタ情報)の構造例を示し、図7は、その構造例における主要な情報の内容(Semantics)を示している。「byte_length」の8ビットフィールドは、この制御情報の以降のサイズ(バイト数)を示す。
 「ROI_pointing_flag」の1ビットフィールドは、トラッキングさせる対象(ROI:Region Of Interest)の矩形エリアの情報が存在することを示すフラグ情報である。「view_angle_shift_flag」の1ビットフィールドは、ビューアングルシフトの情報が存在することを示すフラグ情報である。「focus_distance_flag」の1ビットフィールドは、フォーカス距離の情報が存在することを示すフラグ情報である。「switch_view_flag」の1ビットフィールドは、キャプチャビューIDが存在することを示すフラグ情報である。「zoom_control_flag」の1ビットフィールドは、ズーム制御情報が存在することを示すフラグ情報である。
 「capture_device_ID」、「capture_view_ID」の各8ビットフィールドは、クライアント装置200がビデオストリームのレイヤおよび/またはコンテナのレイヤの挿入情報(“lcib”ボックスの情報、ロケーション・キャプチャ、インフォメーションSEIメッセージ)から認識しているキャプチャデバイスID、キャプチャビューIDを示す。
 「ROI_pointing_flag」が“1”であるとき、「ROI_area_top_left_x」、「ROI_area_top_left_y」、「ROI_area_bottom_right_x」、「ROI_area_bottom_right_y」の各16ビットフィールドが存在する。「ROI_area_top_left_x」のフィールドは、トラッキングさせる対象(ROI)の矩形エリアのトップレフト(top-left)のx座標を示す。「ROI_area_top_left_y」のフィールドは、トラッキングさせる対象(ROI)の矩形エリアのトップレフト(top-left)のy座標を示す。「ROI_area_bottom_right_x」のフィールドは、トラッキングさせる対象(ROI)の矩形エリアのボトムライト(bottom-right)のx座標を示す。ROI_area_bottom_right_y」のフィールドは、トラッキングさせる対象(ROI)の矩形エリアのボトムライト(bottom-right)のy座標を示す。
 メディアキャプチャ・ロケーションサーバ101は、クライアント装置200から受信される制御情報(制御メタ情報)にトラッキング対象(ROI)の矩形エリアの情報が存在するとき、カメラ(撮像部)が対象(ROI)をトラッキング(自動追従)するように、その撮像状態(主には、方角、アングルの状態)を制御する。
 図8は、トラッキング例を示す。図8(a)は、クライアント装置200のディスプレイに表示される画像を簡略的に示している。クライアント装置200において、ユーザがディスプレイト上でトラッキング対象(ROI)を囲む矩形エリアERを図示のように指定すると、この矩形エリアERの情報を持つ制御情報(制御メタ情報)がクライアント装置200からメディアキャプチャ・ロケーションサーバ101に送られる。
 トラッキング対象(ROI)が、例えば図示の移動方向に移動しているものとする。この場合、メディアキャプチャ・ロケーションサーバ101は、図8(b)に示すように、移動後のトラッキング対象(ROI)のオブジェクトをブロック分割し、各ブロックにおいて動き予測により動き判定を行い、各ブロックの動き判定結果からグローバルな動きベクトル(移動方向と移動量)を求め、この動きベクトルの情報に基づいてカメラ(撮像部)の向きを修正する。
 メディアキャプチャ・ロケーションサーバ101は、このようなカメラ(撮像部)の向きの修正動作を繰り返し行う。これにより、カメラ(撮像部)の向きはトラッキング対象(ROI)に移動に従って随時修正され、トラッキング対象(ROI)は常に画像内に含まれることとなり、トラッキング(自動追従)が行われる。
 図6に戻って、「view_angle_shift_flag」が“1”であるとき、「Right_shift_degree」、「Left_shift_degree」、「Upper_shift_degree」、「Lower_shift_degree」の各16ビットフィールドが存在する。「Right_shift_degree」のフィールドは、カメラ(撮像部)の向きをカメラ位置からみて右方に変更させる度数を示す。「Left_shift_degree」のフィールドは、カメラ(撮像部)の向きをカメラ位置からみて左方に変更させる度数を示す。「Upper_shift_degree」のフィールドは、カメラ(撮像部)の向きをカメラ位置からみて上方に変更させる度数を示す。「Lower_shift_degree」のフィールドは、カメラ(撮像部)の向きをカメラ位置からみて下方に変更させる度数を示す。
 メディアキャプチャ・ロケーションサーバ101は、クライアント装置200から受信される制御情報(制御メタ情報)にビューアングルシフトの情報が存在するとき、当該情報に基づいてカメラ(撮像部)のアングルを制御する。例えば、図9は、カメラ(撮像部)がある撮像状態において被写体全体のうちショット1(Shot 1)の部分を撮像している状態で、「Right_shift_degree」として“X”の情報が与えられた場合には、カメラ(撮像部)の向きが右方にX度(X degree)だけ変更され、ショット2(Shot 2)の部分を撮像する状態に制御されることを示している。
 「focus_distance_flag」が“1”であるとき、「Focus_distance」の16ビットフィールドが存在する。「Focus_distance」のフィールドは、フォーカス距離をメータ(meter)単位で示す。メディアキャプチャ・ロケーションサーバ101は、クライアント装置200から受信される制御情報(制御メタ情報)にフォーカス距離の情報が存在するとき、カメラ(撮像部)のフォーカス距離を当該情報に対応するように制御する。
 「switch_view_flag」が“1”であるとき、「switch_view」の16ビットフィールドが存在する。「switch_view」のフィールドは、カメラ(撮像部)の撮像状態を変更させるキャプチャビューIDを示す。上述したように、キャプチャビューIDは、キャプチャ情報と位置情報の組み合わせを識別する識別情報である。「switch_view」は、クライアント装置200が切り替え後のキャプチャビューID(capture_view_id)を明示的に示す場合に指定できるものである。メディアキャプチャ・ロケーションサーバ101は、クライアント装置200から受信される制御情報(制御メタ情報)にこのキャプチャビューIDが存在するとき、カメラ(撮像部)の撮像状態を当該キャプチャビューIDで示されるキャプチャ情報に対応するように制御する。
 「zoom_control_flag」が“1”であるとき、「zoom_in_degree」、「zoom_out_degree」の各16ビットフィールドが存在する。「zoom_in_degree」のフィールドは、拡大の比率(1 + x/100)のxの値を示す。「zoom_out_degree」のフィールドは、縮小の比率(1 - x/100)のxの値を示す。メディアキャプチャ・ロケーションサーバ101は、クライアント装置200から受信される制御情報(制御メタ情報)にズーム比の拡大/縮小情報が存在するとき、カメラ(撮像部)のズーム比を当該ズーム比の拡大/縮小情報に応じて制御する。
 図1に戻って、初期アクセスサーバ102は、クライアントサ装置200が最初にアクセスして、クライアント装置200が最初にアクセスすべきメディアキャプチャ・ロケーションサーバ101のURLを取得するためのサーバ装置である。なお、クライアント装置200が最初にアクセスすべきメディアキャプチャ・ロケーションサーバ101のURLを予め認識する場合には、この初期アクセスサーバ102はなくてもよい。
 初期アクセスサーバ102は、クライアント装置200からアクセスがあるとき、当該クライアント装置200に、最初にアクセスすべきメディアキャプチャ・ロケーションサーバ101のURLの情報を含むMPD(Media Presentation Description)ファイルを送る。
 図10は、MPDファイルの記述例を示している。ここでは、説明の簡単化のためにビデオストリームに関する情報のみが記述されている例を示しているが、実際にはビデオストリームの他のメディアストリームに関する情報も記述されている。
 「<AdaptationSet mimeType=“video/mp4” codecs=“hev1.xx.xx.L153”」の記述により、ビデオストリームに対するアダプテーションセット(AdaptationSet)が存在し、そのビデオストリームはMP4ファイル構造で供給され、153のレベルのHEVCの符号化画像データが存在することが示されている。
 「<SupplementaryDescriptor schemeIdUri=“urn:rmtcst:video:captureinformation”direction=SE H_angle=“10” V_angle=“-15” focus_distance=“5” /> 」の記述により、方角が「SE」、水平アングルが10度、垂直アングルが-15度、フォーカス距離が5mであることが示されている。
 「<SupplementaryDescriptor schemeIdUri=“urn:rmtcst:video:captureserve”capturedevice_id=“1”captureview_id=“1” />」の記述により、キャプチャデバイスIDが「1」で、キャプチャビューIDが「1」であることが示されている。「<SupplementaryDescriptor schemeIdUri=“urn:rmtcst:video:captureserverurl”serverurl /> 」の記述により、最初にアクセスすべきメディアキャプチャ・ロケーションサーバ101のURLが「serverurl」で示されている。
 このMPDファイルには、リプレゼンテーションID(Representation id = 1)で示されるビデオストリームのリプレゼンテーション(Representation)が存在する。「<BaseURL>videostream.mp4</BaseURL>」の記述により、ビデオストリームのロケーション先が、「videostream.mp4」として示されている。
 このリプレゼンテーションの中のサブリプレゼンテーション(SubRepresentation)において、「width=“3840" height=“2160" frameRate=“60"」、「codecs="hev1.xx.xx.L153,xx"」、「level=“0”」の記述が存在する。これにより、4K 60Pのストリームを実現することが示され、タグ情報としてレベル“0”が付与されることが示され、この画像データの符号化画像データのレベルが“153”であることが示されている。
 図1に戻って、GPS_URLマッピングサーバ103は、クライアント装置200から送られてくるGPSデータを、これに対応するメディアキャプチャ・ロケーションサーバ101のURLに変換し、このURLを用いて、クライアント装置200に代わって、クライアント装置200が接続すべきメディアキャプチャ・ロケーションサーバ101にアクセスする。
 後述するように、クライアント装置200では、あるメディアキャプチャ・ロケーションサーバ101に接続された状態で、その位置から所望の方向、距離の位置にある他のメディアキャプチャ・ロケーションサーバ101に接続を切り替えようとする場合、他のメディアキャプチャ・ロケーションサーバ101の位置近傍のGPSデータを算出し、このGPSデータをGPS_URLマッピングサーバ103に送信する。
 なお、クライアント装置200がGPSデータを、これに対応するメディアキャプチャ・ロケーションサーバ101のURLに変換する機能を有する場合には、このGPS_URLマッピングサーバ103はなくてもよい。この場合、クライアント装置200は、変換して得られたURLを用いて、クライアント装置200が接続すべきメディアキャプチャ・ロケーションサーバ101に直接アクセスする。
 クライアント装置200は、初期アクセスサーバ102にアクセスして、最初にアクセスすべきメディアキャプチャ・ロケーションサーバ101のURLを取得する。クライアント装置200は、例えば、初期アクセスサーバ102から、最初にアクセスすべきメディアキャプチャ・ロケーションサーバ101のURLが記述されたMPDファイル(図10参照)を受信する。
 クライアント装置200は、最初にアクセスすべきメディアキャプチャ・ロケーションサーバ101のURLに基づいて、当該メディアキャプチャ・ロケーションサーバ101にアクセスする。そして、クライアント装置200は、当該メディアキャプチャ・ロケーションサーバ101から、撮像部で撮像されて得られた画像データで構成されるビデオストリームを含む所定フォーマットのコンテナ、この実施の形態ではMP4の配信ストリームを、ネットワークを通じて受信する。
 クライアント装置200は、MP4の配信ストリームからビデオストリームを抽出し、このビデオストリームを処理して表示用画像データを得て、ディスプレイに、この表示用画像データによる画像(ディアキャプチャ・ロケーションサーバ101によるキャプチャ画像)を表示する。
 クライアント装置200は、ビデオストリームのレイヤおよび/またはコンテナのレイヤの挿入情報(“lcib”ボックスの情報、ロケーション・キャプチャ、インフォメーションSEIメッセージ)から、メディアキャプチャ・ロケーションサーバ101におけるカメラ(撮像部)の撮像状態(撮像方向、フォーカス距離、ズーム比など)を認識する。そして、クライアント装置200は、ユーザ操作に基づき、現在の撮像状態を示すと共に、その撮像状態の変更操作部を持つ、ユーザインタフェース画面(UI画面)を、ディスプレイに表示できる。
 図11は、UI画面の一例を示している。矢印Pは、ズーム比(Zoom_ratio)の表示とその調整のためのズーム比表示・調整部を示している。図示の例では、黒色と白色の境界位置で現在のズーム比が示される。例えば、ユーザは、「+」の箇所を指でタップ操作することでズームイン操作を行うことができ、一方「-」の箇所を指でタップ操作することでズームアウト操作を行うことができる。また、例えば、ユーザは、境界位置に指をおいてドラッグ操作で境界位置を変更することでズーム比の調整操作を行うことができる。
 矢印Qは、水平アングル(H_degree)、垂直アングル(V_degree)、フォーカス距離(Focus_distance)の調整のための調整部を示している。図示の例では、水平アングル(H_degree)に関しては、ユーザは、「+」の箇所を指でタップ操作することでカメラ(撮像部)の向きをカメラ位置からみて右方に変更する操作を行うことができ、「-」の箇所を指でタップ操作することでカメラ(撮像部)の向きをカメラ位置からみて左方に変更する操作を行うことができる。
 また、垂直アングル(V_degree)に関しては、ユーザは、「+」の箇所を指でタップ操作することでカメラ(撮像部)の向きをカメラ位置からみて上方に変更する操作を行うことができ、「-」の箇所を指でタップ操作することでカメラ(撮像部)の向きをカメラ位置からみて下方に変更する操作を行うことができる。また、フォーカス距離(Focus_distance)に関しては、ユーザは、「+」の箇所を指でタップ操作することでフォーカス距離を長くする操作を行うことができ、「-」の箇所を指でタップ操作することでフォーカス距離を短くする操作を行うことができる。
 矢印Rは、水平アングル(H_degree)、垂直アングル(V_degree)、フォーカス距離(Focus_distance)の表示のための表示部を示している。図示の例では、カメラ(撮像部)の向きは、黒太の矢印の方向で示され、水平アングルに関しては北(N)の方向から右方にβ度だけずれた方向にあり、垂直アングルに関しては水平から上方にα度だけずれた方向にあることが示されている。また、図示の例では、カメラ(撮像部)のフォーカス距離は黒太の矢印の長さで示される。
 なお、図11のUI画面の一例では、図面を簡単化するために、撮像状態の表示、調整を行う部分のみ示されている。ユーザの選択操作に応じて、この表示を、画像(メディアキャプチャ・ロケーションサーバ101によるキャプチャ画像)に重畳した状態とすることも可能とされる。
 上述のズーム比(Zoom_ratio)の変更操作が行われる場合、クライアント装置200からメディアキャプチャ・ロケーションサーバ101に送信される制御情報(制御メタ情報)(図6参照)において、「zoom_control_flag」が“1”とされ、「zoom_in_degree」、「zoom_out_degree」の各16ビットフィールドが存在する状態となる。
 また、水平アングル(H_degree)、垂直アングル(V_degree)の変更操作が行われる場合、クライアント装置200からメディアキャプチャ・ロケーションサーバ101に送信される制御情報(制御メタ情報)(図6参照)において、「view_angle_shift_flag」が“1”とされ、「Right_shift_degree」、「Left_shift_degree」、「Upper_shift_degree」、「Lower_shift_degree」の各16ビットフィールドが存在する状態となる。
 また、フォーカス距離(Focus_distance)の変更操作が行われる場合、クライアント装置200からメディアキャプチャ・ロケーションサーバ101に送信される制御情報(制御メタ情報)(図6参照)において、「focus_distance_flag」が“1”とされ、「Focus_distance」の16ビットフィールドが存在する状態となる。
 なお、上述では、ユーザがUI画面を参照してカメラ(撮像部)の撮像状態の各要素を変更できることを示した。しかし、クライアント装置200においては、ユーザは、キャプチャビューIDを指定することで、撮像状態の各要素を一括して変更する操作を行うこともできる。
 例えば、クライアント装置200は、メディアキャプチャ・ロケーションサーバ101にアクセスしてビデオストリームを含むMP4の配信ストリームをネットワークを通じて受信したとき、ユーザ操作に応じて、キャプチャデバイスIDと共に撮像状態を示すキャプチャビューIDを、例えば撮像内容を特定するテキスト情報やサムネール情報を付加した状態で記憶しておくことができる。ユーザは、キャプチャビューIDを指定して撮像状態の各要素を一括して変更する操作を行う場合には、テキスト情報やサムネール情報などを参照して、所望の撮像状態を示すキャプチャビューIDを効率的に行うことができる。
 このキャプチャデバイスIDによる撮像状態の変更操作が行われる場合、クライアント装置200からメディアキャプチャ・ロケーションサーバ101に送信される制御情報(制御メタ情報)(図6参照)において、「switch_view_flag」が“1”とされ、「switch_view」の16ビットフィールドが存在する状態となる。
 クライアント装置200は、あるメディアキャプチャ・ロケーションサーバ101に接続された状態で、ユーザが、他のメディアキャプチャ・ロケーションサーバ101に接続を切り替える操作を行った場合、当該他のメディアキャプチャ・ロケーションサーバ101にアクセスする。この場合、ユーザは、他のメディアキャプチャ・ロケーションサーバ101を、キャプチャデバイスIDで指定することができる。この場合、クライアント装置200は、キャプチャデバイスIDに一対一に関連付けられているURLを用いて、当該他のメディアキャプチャ・ロケーションサーバ101にアクセスする。
 また、ユーザは、他のメディアキャプチャ・ロケーションサーバ101を、あるメディアキャプチャ・ロケーションサーバ101に対して方向および距離の情報で指定することができる。この場合、クライアント装置200は、あるメディアキャプチャ・ロケーションサーバ101のGPSデータとこの方向および距離の情報に基づいて、他のメディアキャプチャ・ロケーションサーバ101の位置近傍のGPSデータを算出し、このGPSデータをGPS_URLマッピングサーバ103に送信する。
 この場合、GPS_URLマッピングサーバ103は、クライアント装置200から送られてくるGPSデータを、これに対応するメディアキャプチャ・ロケーションサーバ101のURLに変換し、このURLを用いて、クライアント装置200に代わって、クライアント装置200が接続すべきメディアキャプチャ・ロケーションサーバ101にアクセスする。
 なお、クライアント装置200は、算出したGPSデータをこれに対応するメディアキャプチャ・ロケーションサーバ101のURLに変換する機能を有している場合は、自身でGPSデータからそれに対応するメディアキャプチャ・ロケーションサーバ101のURLに変換し、当該メディアキャプチャ・ロケーションサーバ101に直接アクセスする。
 ユーザは、方向の情報として現在のカメラ(撮像部)の向きの情報を与え、距離の情報としてフォーカス距離の情報を与えることもできる。図12は、カメラ(撮像部)がショット2(Shot 2)の部分を撮像している状態を示している。この撮像状態において、水平アングルに関しては、カメラ(撮像部)の方角(Direction)を基準として右方にX1度ずれた方向にある。なお、垂直アングルに関しては、例えば水平にあるものとする。
 この場合、現在の地点AのGPS情報が(atitude1, longitude1, elevation1, time1)でるとき、方向および距離の情報から、地点BのGPS情報は(latitude_new, longitude_new, elevation_new )として算出される。ここで、latitude_new = latitude1 + delta_x 、longitude_new = longitude1 + delta_y 、elevation_new = elevation1 + delta_e である。
 図13は、メディアキャプチャ・ロケーションサーバ101の構成例を示している。このメディアキャプチャ・ロケーションサーバ101は、コントローラ111と、ロケータ112と、キャプチャ103と、ビデオエンコーダ114と、コンテナエンコーダ115と、ネットワークインタフェース116を有している。各部は、バス117で接続されている。
 コントローラ111は、メディアキャプチャ・ロケーションサーバ101の各部の動作を制御する。ロケータ112は、GPS衛星からの電波を受信して位置(経度・緯度・高度)の情報を得る。キャプチャ113は、被写体を撮像して画像データを得るカメラ(撮像部)である。ビデオエンコーダ114は、キャプチャ113で得られた画像データに対してHEVCなどの符号化を施して符号化画像データを得、この符号化画像データを含むビデオストリームを生成する。この場合、ビデオエンコーダ114は、アクセスユニット(AU)の“SEIs”のSEIメッセージ群に、ロケーション・キャプチャ、インフォメーションSEIメッセージ(図5参照)を配置する。
 このSEIメッセージには、カメラ(撮像部)における撮像状態(撮像方向、フォーカス距離、ズーム比など)を示すキャプチャ情報と、自身のサーバ装置の位置を示す位置情報(GPSデータ)と、キャプチャ情報と位置情報の組み合わせを識別する識別情報(キャプチャビューID)および自身のサーバ装置を識別する識別情報(キャプチャデバイスID)と、自身のサーバ装置のURLなどの情報が挿入されている。
 コンテナエンコーダ115は、ビデオエンコーダ114で生成されたビデオストリームを含むコンテナ、ここではMP4ストリームを、配信ストリームとして生成する。この場合、コンテナエンコーダ115は、イニシャライゼーション・セグメント(IS)や“moof”のボックスに定義される“udta”のボックスに、ロケーション・キャプチャ・インフォメーションボックス「“lcib”ボックス」(図3参照)を定義する。
 このボックスには、カメラ(撮像部)における撮像状態(撮像方向、フォーカス距離、ズーム比など)を示すキャプチャ情報と、自身のサーバ装置の位置を示す位置情報(GPSデータ)と、キャプチャ情報と位置情報の組み合わせを識別する識別情報(キャプチャビューID)および自身のサーバ装置を識別する識別情報(キャプチャデバイスID)と、自身のサーバ装置のURLなどの情報が挿入されている。
 なお、ロケーション・キャプチャ、インフォメーションSEIメッセージの配置と、ロケーション・キャプチャ・インフォメーションボックスの配置は、必ずしも双方が必要となるのではなく、いずれか一方であってもよい。
 ネットワークインタフェース116は、ネットワークを介して、クライアント装置200、さらには必要に応じて他のサーバと通信を行う。例えば、ネットワークインタフェース116は、コンテナエンコーダ115で得られた配信ストリームをクラインアント装置200に送信する。また、例えば、ネットワークインタフェース116は、クライアント装置200から送られてくる制御情報(制御メタ情報)(図6参照)を受信する。この場合、コントローラ111は、制御情報(制御メタ情報)の内容に応じて、キャプチャ113の状態を制御する。
 図14は、クライアント装置200の構成例を示している。コントローラ211と、ユーザ操作部212と、メッセージコンバータ213と、ネットワークインタフェース214と、コンテナデコーダ215と、ビデオでデコーダ216と、ビデオプロセッサ217と、ディスプレイ218を有している。各部は、バス219で接続されている。
 コントローラ211は、クライアント装置200の各部の動作を制御する。ユーザ操作部212は、ユーザインタフェースを構成し、ユーザが各種操作を行うためのキー、タッチパネル、リモコンなどである。ネットワークインタフェース214は、ネットワークを介して、メディアキャプチャ・ロケーションサーバ101などのサーバと通信を行う。
 例えば、ネットワークインタフェース214は、メディアキャプチャ・ロケーションサーバ101から、ビデオストリームを含むMP4ストリームを、配信ストリームとして受信する。また、ネットワークインタフェース214は、現在接続されているメディアキャプチャ・ロケーションサーバ101のカメラ(撮像部)の撮像状態の変更などのユーザ操作がなされるとき、制御情報(制御メタ情報)(図6参照)をメディアキャプチャ・ロケーションサーバ101に送信する。
 また、ネットワークインタフェース214は、現在接続されているメディアキャプチャ・ロケーションサーバ101から別なメディアキャプチャ・ロケーションサーバ101に接続を切り替えるためのユーザ操作がなされるとき、GPS_URLマッピングサーバ103にGPSデータを送信するか、あるいは当該別なメディアキャプチャ・ロケーションサーバ101に直接アクセスする。
 コンテナデコーダ215は、ネットワークインタフェース214で受信された配信ストリーム(MP4ストリーム)からビデオストリームを取り出す。この場合、コンテナデコーダ215は、イニシャライゼーション・セグメント(IS)や“moof”のボックスに定義される“udta”のボックスに存在するロケーション・キャプチャ・インフォメーションボックス「“lcib”ボックス」を取り出し、コントローラ211に送る。これにより、コントローラ211は、カメラ(撮像部)における撮像状態(撮像方向、フォーカス距離、ズーム比など)などを認識する。
 ビデオデコーダ216は、コンテナデコーダ215で取り出されたビデオストリームにデコード処理を施して、表示用画像データを得る。この場合、ビデオデコーダ216は、ビデオストリームに挿入されているパラメータセットやSEIメッセージを抽出し、コントローラ211に送る。この抽出情報には、ロケーション・キャプチャ、インフォメーションSEIメッセージも含まれる。これにより、コントローラ211は、カメラ(撮像部)における撮像状態(撮像方向、フォーカス距離、ズーム比など)などを認識する。
 ビデオプロセッサ217は、ビデオデコーダ216で得られた表示用画像データを、解像度変換などの処理を施した後にディスプレイ218に供給する。ディスプレイ218は、ビデオデコーダ216で得られた表示用画像データによる画像(メディアキャプチャ・ロケーションサーバ101によるキャプチャ画像)を表示する。画像の表示はインターフェースを介して他の表示モニタになされることもできる。
 上述したように、コントローラ211がロケーション・キャプチャ・インフォメーションボックスやロケーション・キャプチャ、インフォメーションSEIメッセージからカメラ(撮像部)における撮像状態(撮像方向、フォーカス距離、ズーム比など)などを認識することで、コントローラ211の制御のもと、ディスプレイ218に、現在の撮像状態を示すUI画面(図11参照)の表示が可能となる。
 メッセージコンバータ213は、例えばユーザ操作部212の操作に応じて、コントローラ211の制御のもと、メッセージを発生して、ネットワークインタフェース214に送る。例えば、メッセージコンバータ213は、現在接続されているメディアキャプチャ・ロケーションサーバ101のカメラ(撮像部)の撮像状態の変更などのユーザ操作がなされるとき、コントローラ211の制御のもと、制御情報(制御メタ情報)(図6参照)を発生して、ネットワークインタフェース214に送る。
 また、例えば、メッセージコンバータ213は、現在接続されているメディアキャプチャ・ロケーションサーバ101から別なメディアキャプチャ・ロケーションサーバ101に接続を切り替えるためのユーザ操作がなされるとき、別なメディアキャプチャ・ロケーションサーバ101のURLの情報を含む第1のメッセージ、あるいはGPS_URLマッピングサーバ103のURLの情報と別なメディアキャプチャ・ロケーションサーバ101のURLを求めるためのGPSデータを含む第2のメッセージを発生して、ネットワークインタフェース214に送る。
 図15は、第1のメッセージとしてのサーバアクセス・メッセージ(Server_access_message )の構造例を示している。「byte_length」の8ビットフィールドは、このSEIメッセージの以降のサイズ(バイト数)を示す。「server_url_text_length」の8ビットフィールドは、以降のURLの文字列を示す文字コード部分の長さ(サイズ)をバイト数で示す。文字コードは、「url_text」のフィールドに配置される。
 図16は、第2のメッセージとしてのサーバアクセス・メッセージ(Server_access_message )の構造例を示している。「byte_length」の8ビットフィールドは、このSEIメッセージの以降のサイズ(バイト数)を示す。「latitude_new」、「longitude_new」、「elevation_new」は、GPSデータを構成している。「latitude_new」は緯度データ、「longitude_new」は経度データ、「elevation_new」は高度データである。「server_url_text_length」の8ビットフィールドは、以降のURLの文字列を示す文字コード部分の長さ(サイズ)をバイト数で示す。文字コードは、「url_text」のフィールドに配置される。
 図17のシーケンス図は、クライアント装置200と各サーバとの間の通信の一例を示している。(1)最初に、クライアント装置200は、初期アクセスサーバ102にアクセスする。なお、クライアント装置200は、初期アクセスサーバ102のURLを予め認識しているものとする。(2)初期アクセスサーバ102は、最初にアクセスすべきメディアキャプチャ・ロケーションサーバ101のURLの情報を含むMPDファイルをクライアント装置200に送る。
 (3)クライアント装置200は、MPDファイルに含まれるURLの情報に基づいて、最初にアクセスすべきメディアキャプチャ・ロケーションサーバ(キャプチャサーバ)101にアクセスし、接続状態とする。(4)当該メディアキャプチャ・ロケーションサーバ101は、撮像画像データのビデオストリームを含む配信ストリームをクライアント装置200に送信する。これにより、クライアント装置200は、メディアキャプチャ・ロケーションサーバ101におけるキャプチャ画像の表示状態になる。
 (5)クライアント装置200は、ユーザの撮像状態変更操作に応じて、制御情報(制御メタ情報)を、当該メディアキャプチャ・ロケーションサーバ101に送る。これにより、メディアキャプチャ・ロケーションサーバ101における撮像状態が変更される。(6)当該メディアキャプチャ・ロケーションサーバ101は、撮像状態変更後の撮像画像データのビデオストリームを含む配信ストリームをクライアント装置200に送信する。これにより、クライアント装置200は、メディアキャプチャ・ロケーションサーバ101における撮像状態変更後のキャプチャ画像の表示状態になる。
 (7)クライアント装置200は、ユーザの他のメディアキャプチャ・ロケーションサーバ101への変更操作に応じて、当該他のメディアキャプチャ・ロケーションサーバ101に、直接、あるいはGPS_URLマッピングサーバ103を介してアクセスして、接続状態とする。(8)当該メディアキャプチャ・ロケーションサーバ101は、撮像画像データのビデオストリームを含む配信ストリームをクライアント装置200に送信する。これにより、クライアント装置200は、他のメディアキャプチャ・ロケーションサーバ101におけるキャプチャ画像の表示状態になる。
 (9)クライアント装置200は、ユーザの撮像状態変更操作に応じて、制御情報(制御メタ情報)を、当該他のメディアキャプチャ・ロケーションサーバ101に送る。これにより、他のメディアキャプチャ・ロケーションサーバ101における撮像状態が変更される。(10)当該メディアキャプチャ・ロケーションサーバ101は、撮像状態変更後の撮像画像データのビデオストリームを含む配信ストリームをクライアント装置200に送信する。これにより、クライアント装置200は、他のメディアキャプチャ・ロケーションサーバ101における撮像状態変更後のキャプチャ画像の表示状態になる。
 上述したように、図1に示すサーバシステム10において、メディアキャプチャ・ロケーションサーバ101は、ビデオストリームのレイヤおよび/またはコンテナのレイヤに、カメラ(撮像部)における撮像状態を示すキャプチャ情報を挿入して送信する。そのため、クライアント装置200では、このキャプチャ情報に基づいてメディアキャプチャ・ロケーションサーバ101のカメラ(撮像部)における撮像状態(撮像方向、フォーカス距離、ズーム比など)を容易に把握でき、メディアキャプチャ・ロケーションサーバ101の撮像状態を適切に制御できる。
 また、図1に示すサーバシステム10において、クラインアント装置200では、ユーザは、他のメディアキャプチャ・ロケーションサーバ101を、現在接続しているメディアキャプチャ・ロケーションサーバ101に対して方向および距離の情報で指定することができる。そのため、切り替えるべきメディアキャプチャ・ロケーションサーバ101のURLを知らない場合であっても、他のメディアキャプチャ・ロケーションサーバ101への切り替えを適切に行うことができる。
 <2.第2の実施の形態>
 [サーバシステムの構成例]
 図18は、第2の実施の形態としてのサーバシステム30の構成例を示している。このサーバシステム30は、複数のサーバ装置とクライアント装置400がネットワーク接続されて構成されている。
 複数のサーバ装置には、複数のメディアキャプチャ・ロケーションサーバ301と、初期アクセスサーバ302と、サムネールサーバ303と、ストレージサーバ304が含まれる。メディアキャプチャ・ロケーションサーバ301は、ストレージサーバ304に、例えば、ストレージサーバ304からのアクセスがあるとき、あるいは自動的に、カメラ(撮像部)で撮像されて得られた画像データで構成されるビデオストリームを含む所定フォーマットのコンテナ、この実施の形態ではMP4の配信ストリームを、ネットワークを通じて送信する。図示の例では、ストレージサーバ304が一個であるものを示しているが、複数個のストレージサーバ304が存在していてもよい。
 メディアキャプチャ・ロケーションサーバ301は、詳細説明は省略するが、上述の第1の実施の形態におけるメディアキャプチャ・ロケーションサーバ101(図13参照)と同様に構成されている。ストレージサーバ304は、各メディアキャプチャ・ロケーションサーバ301から送られてくるビデオストリーム(ビデオファイル)を、キャプチャビューIDおよびキャプチャデバイスIDの組み合わせを識別情報として、格納する。
 初期アクセスサーバ302は、ストレージサーバ304に格納されている複数のビデオストリームの情報を取得するためのサーバ装置である。初期アクセスサーバ302は、クライアント装置400からアクセスがあるとき、当該クライアント装置400に、複数のビデオストリームの情報を含むMPD(Media Presentation Description)ファイルを送る。
 このMPDファイルには、複数のビデオストリームの情報として、各ビデオストリームの識別情報としてのキャプチャデバイスIDおよびキャプチャビューIDの組み合わせと、各ビデオストリームのサムネール画像データを取得するためのサムネールサーバのURLとが含まれる。
 図19は、MPDファイルの記述例を示している。ここでは、説明の簡単化のためにビデオストリームに関する情報のみが記述されている例を示しているが、実際にはビデオストリームの他のメディアストリームに関する情報も記述されている。
 第1のピリオド(Period1)の情報と、第2のピリオド(Period2)の情報が存在する。第1のピリオド(Period1)において、「<AdaptationSet mimeType=“video/mp4” codecs=“hev1.xx.xx.L153”」の記述により、ビデオストリームに対するアダプテーションセット(AdaptationSet)が存在し、そのビデオストリームはMP4ファイル構造で供給され、153のレベルのHEVCの符号化画像データが存在することが示されている。
 「<BaseURL>”thumbnail_server_URL1”</BaseURL>」の記述により、以下のキャプチャデバイスIDおよびキャプチャビューIDの組み合わせで識別されるストレージサーバ304に格納されている各ビデオストリームのサムネール画像データのロケーション先が、「thumbnail_server_URL1」であることが示されている。「thumbnail_server_URL1」で示されるサムネールサーバ内では個々のサムネール画とキャプチャデバイスIDおよびキャプチャビューIDとが対応して管理されている。
 また、第2のピリオド(Period2)において、「<AdaptationSet mimeType=“video/mp4” codecs=“hev1.xx.xx.L153”」の記述により、ビデオストリームに対するアダプテーションセット(AdaptationSet)が存在し、そのビデオストリームはMP4ファイル構造で供給され、153のレベルのHEVCの符号化画像データが存在することが示されている。
 「<BaseURL>”thumbnail_server_URL2”</BaseURL>」の記述により、以下のキャプチャデバイスIDおよびキャプチャビューIDの組み合わせで識別されるストレージサーバ304に格納されている各ビデオストリームのサムネール画像データのロケーション先が、「thumbnail_server_URL2」であることが示されている。「thumbnail_server_URL2」で示されるサムネールサーバ内では個々のサムネール画とキャプチャデバイスIDおよびキャプチャビューIDとが対応して管理されている。なお、第1のピリオド(Period1)と第2のピリオド(Period2)におけるサムネール画像データのロケーション先が同じとされてもよい。
 図18に戻って、サムネールサーバ303は、ストレージサーバ304に格納されている各ビデオストリームのサムネール画像データを一つ以上保持している。このサムネールサーバ303は、クラインアント装置400からアクセスがあるとき、保持しているサムネール画像データを、当該クライアント装置400に送信する。なお、図示の例では、サムネールサーバ303が一個の例を示しているが、複数個存在していてもよい。
 クライアント装置400は、詳細説明は省略するが、上述の第1の実施の形態におけるクライアント装置200(図14参照)と同様に構成されている。クライアント装置400は、初期アクセスサーバ302にアクセスして、ストレージサーバ304に格納されている複数のビデオストリームの情報を取得する。クライアント装置400は、例えば、初期アクセスサーバ302から、各ビデオストリームの識別情報としてのキャプチャデバイスIDおよびキャプチャビューIDの組み合わせと、各ビデオストリームのサムネール画像データを取得するためのサムネールサーバのURLとが記述されたMPDファイル(図19参照)を受信する。
 クライアント装置400は、サムネールサーバのURLに基づいて、サムネールサーバ303にアクセスする。そして、クライアント装置400は、当該サムネールサーバ303から、ストレージサーバ304に格納されている複数のビデオストリームのサムネール画像データを、ネットワークを通じて受信する。なお、各サムネール画像データには、各ビデオストリームの撮像開始時刻と撮像終了時刻の情報が付加されていることも考えられる。
 クライアント装置200は、ユーザの再生ビデオストリームの選択の便宜のために、ディスプレイにサムネール画を表示する。このとき、各サムネール画に対応付けて撮像開始時刻と撮像終了時刻をも表示し、ユーザが、再生ビデオストリームの選択だけでなく、その再生開始位置の指定も行い得るようにされてもよい。
 クライアント装置400は、ユーザ操作で、再生ビデオストリームが選択されたとき、それを識別するキャプチャデバイスIDおよびキャプチャビューIDの組み合わせを含む再生要求を、ストレージサーバ304に送信する。そして、クライアント装置400は、当該ストレージサーバ304から、選択された再生ビデオストリームを含むMP4の配信ストリームを、ネットワークを通じて受信する。なお、ユーザ操作で再生開始位置の指定も行われる場合には、ストレージサーバ304からの受信はその再生開始位置からとなる。
 クライアント装置400は、MP4の配信ストリームからビデオストリームを抽出し、このビデオストリームを処理して表示用画像データを得て、ディスプレイに、この表示用画像データによる画像(メディアキャプチャ・ロケーションサーバ301によるキャプチャ画像)を表示する。
 図20は、ストレージサーバ304の構成例を示している。このストレージサーバ304は、コントローラ311と、ストレージ312と、コンテナエンコーダ313と、ネットワークインタフェース314を有している。各部は、バス315で接続されている。
 コントローラ311は、ストレージサーバ304の各部の動作を制御する。ストレージ312は、ハードディスクドライブ(HDD)あるいは半導体メモリなどで構成されている。ストレージ312は、各メディアキャプチャ・ロケーションサーバ301から送られてくるビデオストリーム(ビデオファイル)を、キャプチャビューIDおよびキャプチャデバイスIDの組み合わせを識別情報として、格納する。
 コントローラ311は、クライアント装置400から、キャプチャデバイスIDおよびキャプチャビューIDの組み合わせで再生すべきビデオストリームが指定された再生要求の受信があるとき、ストレージ312からそのキャプチャデバイスIDおよびキャプチャビューIDの組み合わせで識別されるビデオストリーム(ビデオファイル)を読み出し、コンテナエンコーダ313に送る。なお、当該再生要求に再生開始位置の指定も含まれるときには、その再生開始位置からの読み出しとなる。
 コンテナエンコーダ313は、ストレージ312から読み出されたビデオストリームを含むコンテナ、ここではMP4ストリームを、配信ストリームとして生成する。ネットワークインタフェース314は、ネットワークを介して、クライアント装置400、さらには必要に応じて他のサーバと通信を行う。
 例えば、ネットワークインタフェース314は、各メディアキャプチャ・ロケーションサーバ301から送られてくるビデオストリームを受信する。また、例えば、ネットワークインタフェース314は、コンテナエンコーダ313で得られた配信ストリームをクラインアント装置400に送信する。また、例えば、ネットワークインタフェース314は、クライアント装置400から送られてくる再生要求を受信する。
 図21のシーケンス図は、クライアント装置400と各サーバとの間の通信の一例を示している。(11)最初に、クライアント装置400は、初期アクセスサーバ302にアクセスする。なお、クライアント装置400は、初期アクセスサーバ302のURLを予め認識しているものとする。(12)初期アクセスサーバ302は、クライアント装置400からアクセスがあるとき、当該クライアント装置400に、複数のビデオストリームの情報を含むMPDファイルを送る。
 (13)クライアント装置400は、MPDファイルに含まれるサムネールサーバのURLの情報に基づいて、サムネールサーバ303にアクセスし、接続状態とする。(14)当該サムネールサーバ303は、サムネール画像データを、クライアント装置400に送信する。これにより、クライアント装置400は、再生ビデオストリームを選択の便宜のために、ストレージサーバ304に格納されている複数のビデオストリームのサムネール画像データをディスプレイに表示した状態となる。
 (15)ユーザ操作で再生ビデオストリームの選択がなされると、クライアント装置400は、その再生ビデオストリームを識別するキャプチャデバイスIDおよびキャプチャビューIDの組み合わせを、ストレージサーバ304に送信する。(16)そして、クライアント装置400は、当該ストレージサーバ304から、選択された再生ビデオストリームを含むMP4の配信ストリームを、ネットワークを通じて受信する。これにより、クライアント装置400は、再生ビデオストリームによる画像の表示状態になる。
 上述したように、図18に示すサーバシステム30において、クライアント装置400は、ユーザ操作で、再生ビデオストリームが選択されたとき、それを識別するキャプチャデバイスIDおよびキャプチャビューIDの組み合わせを含む再生要求を、ストレージサーバ304に送信する。そのため、クライアント装置400は、所望のビデオストリームをストレージサーバ304から適切に提供を受けることができる。
 また、図18に示すサーバシステム30において、クライアント装置400では、ユーザは、サムネール画像に基づいて再生ビデオストリームの選択を行うことができ、再生ビデオストリームの選択を容易かつ適切に行うことができる。
 <3.変形例>
 なお、上述実施の形態においては、コンテナがMP4(ISOBMFF)である例を示した。しかし、本技術は、コンテナがMP4に限定されるものではなく、MPEG-2 TSやMMTなどの他のフォーマットのコンテナであっても同様に適用し得る。
 また、本技術は、以下のような構成を取ることもできる。
 (1)被写体を撮像して画像データを得る撮像部と、
 上記画像データで構成されるビデオストリームを含む所定フォーマットのコンテナをクライアント装置に送信する送信部を備え、
 上記ビデオストリームのレイヤおよび/または上記コンテナのレイヤに、上記撮像部における撮像状態を示すキャプチャ情報が挿入されている
 サーバ装置。
 (2)上記キャプチャ情報には、上記撮像部の撮像方向の情報が含まれる
 前記(1)に記載のサーバ装置。
 (3)上記キャプチャ情報には、上記撮像部のフォーカス距離の情報が含まれる
 前記(1)または(2)に記載のサーバ装置。
 (4)上記キャプチャ情報には、上記撮像部のズーム比の情報が含まれる
 前記(1)から(3)のいずれかに記載のサーバ装置。
 (5)上記ビデオストリームのレイヤおよび/または上記コンテナのレイヤに、自身のサーバ装置の位置を示す位置情報がさらに挿入されている
 前記(1)から(4)のいずれかに記載のサーバ装置。
 (6)上記位置情報は、GPSデータである
 前記(5)に記載のサーバ装置。
 (7)上記ビデオストリームのレイヤおよび/または上記コンテナのレイヤに、上記キャプチャ情報と上記位置情報の組み合わせを識別する識別情報、および自身のサーバ装置を識別する識別情報がさらに挿入されている
 前記(5)または(6)に記載のサーバ装置。
 (8)クライアント装置から上記撮像部における撮像状態を制御するための制御情報を受信する受信部と、
 上記制御情報に基づいて上記撮像部の撮像状態を制御する制御部をさらに備える
 前記(1)から(7)のいずれかに記載のサーバ装置。
 (9)撮像部が、被写体を撮像して画像データを得る撮像ステップと、
 送信部が、上記画像データで構成されるビデオストリームを含む所定フォーマットのコンテナをクライアント装置に送信する送信ステップを有し、
 上記ビデオストリームのレイヤおよび/または上記コンテナのレイヤに、上記撮像部における撮像状態を示すキャプチャ情報が挿入されている
 サーバ装置の送信処理方法。
 (10)サーバ装置からビデオストリームを含む所定フォーマットのコンテナを受信する受信部を備え、
 上記ビデオストリームは、被写体を撮像部で撮像して得られた画像データで構成されており、
 上記ビデオストリームのレイヤおよび/または上記コンテナのレイヤに、上記撮像部の撮像状態を示すキャプチャ情報が挿入されており、
 上記ビデオストリームから表示用画像データを得る処理と、上記キャプチャ情報に基づいて上記撮像部の撮像状態を表示する処理と、上記撮像状態の表示を用いたユーザ操作に応じて上記撮像部の撮像状態の制御情報を得る処理と、該制御情報を上記サーバ装置に送信する処理を制御する制御部をさらに備える
 クライアント装置。
 (11)上記ビデオストリームのレイヤおよび/または上記コンテナのレイヤに、上記サーバ装置の位置を示す位置情報がさらに挿入されており、
 上記制御部は、ユーザ操作に基づいて、上記サーバ装置とは異なる他のサーバ装置にアクセスするためのアクセス情報を得る処理と、該アクセス情報に基づいて上記他のサーバ装置にアクセスする処理をさらに制御する
 前記(10)に記載のクライアント装置。
 (12)上記アクセス情報は、上記他のサーバ装置のURLである
 前記(11)に記載のクライアント装置。
 (13)上記アクセス情報は、位置情報および該位置情報をURLに変換する変換サーバのURLである
 前記(11)に記載のクライアント装置。
 (14)受信部が、サーバ装置からビデオストリームを含む所定フォーマットのコンテナを受信する受信ステップを有し、
 上記ビデオストリームは、被写体を撮像部で撮像して得られた画像データで構成されており、
 上記ビデオストリームのレイヤおよび/または上記コンテナのレイヤに、上記撮像部の撮像状態を示すキャプチャ情報が挿入されており、
 制御部が、上記ビデオストリームから表示用画像データを得る処理と、上記キャプチャ情報に基づいて上記撮像部の撮像状態を表示する処理と、該撮像状態の表示を用いたユーザ操作に応じて上記撮像部の撮像状態の制御情報を得る処理と、該制御情報を上記サーバ装置に送信する処理を制御する制御ステップをさらに有する
 クライアント装置の受信処理方法。
 (15)複数のサーバ装置とクライアント装置がネットワーク接続されてなるサーバシステムであって、
 上記サーバ装置は、
 被写体を撮像して画像データを得る撮像部と、
 上記画像データで構成されるビデオストリームを含む所定フォーマットのコンテナを上記クライアント装置に送信する送信部を備え、
 上記ビデオストリームのレイヤおよび/または上記コンテナのレイヤに、上記撮像部における撮像状態を示すキャプチャ情報が挿入されており、
 上記クライアント装置は、
 上記サーバ装置から上記所定フォーマットのコンテナを受信する受信部を備え、
 上記ビデオストリームから表示用画像データを得る処理と、上記キャプチャ情報に基づいて上記撮像部の撮像状態を表示する処理と、該撮像状態の表示を用いたユーザ操作に応じて上記撮像部の撮像状態の制御情報を得る処理と、該制御情報を上記サーバ装置に送信する処理を制御する制御部をさらに備える
 サーバシステム。
 (16)上記ビデオストリームのレイヤおよび/または上記コンテナのレイヤに、上記サーバ装置の位置を示す位置情報がさらに挿入されており、
 上記制御部は、ユーザ操作に基づいて、上記サーバ装置とは異なる他のサーバ装置にアクセスするためのアクセス情報を得る処理と、該アクセス情報に基づいて上記他のサーバ装置にアクセスする処理をさらに制御する
 前記(15)に記載のサーバシステム。
 (17)撮像デバイスを識別するキャプチャデバイス識別情報と、上記撮像デバイスの位置情報および上記撮像デバイスの撮像状態情報の組み合わせを識別するキャプチャビュー識別情報とで識別される複数のビデオストリームを格納するストレージと、
 クライアント装置から上記キャプチャデバイス識別情報および上記キャプチャビュー識別情報で再生すべきビデオストリームが指定された再生要求を受信する受信部と、
 上記指定されたビデオストリームを上記ストレージから読み出し、該ビデオストリームを含む所定フォーマットのコンテナを上記クライアント装置に送信する送信部を備える
 サーバ装置。
 (18)撮像デバイスを識別するキャプチャデバイス識別情報と、上記撮像デバイスの位置情報および上記撮像デバイスの撮像状態情報の組み合わせを識別するキャプチャビュー識別情報とで再生すべきビデオストリームを指定した再生要求をサーバ装置に送信する送信部と、
 上記サーバ装置から上記再生要求に対応したビデオストリームを含む所定フォーマットのコンテナを受信する受信部と、
 上記コンテナに含まれるビデオストリームから表示用画像データを得る処理部を備える
 クライアント装置。
 本技術の主な特徴は、メディアキャプチャ・ロケーションサーバが、ビデオストリームのレイヤおよび/またはコンテナのレイヤに、カメラ(撮像部)における撮像状態を示すキャプチャ情報を挿入して送信することで、クライアント装置では、このキャプチャ情報に基づいてメディアキャプチャ・ロケーションサーバのカメラ(撮像部)における撮像状態(撮像方向、フォーカス距離、ズーム比など)を容易に把握でき、メディアキャプチャ・ロケーションサーバの撮像状態を適切に制御可能としたことである(図1、図11、図13参照)。
 10,30・・・サーバシステム
 101・・・メディアキャプチャ・ロケーションサーバ
 102・・・初期アクセスサーバ
 103・・・GPS_URLマッピングサーバ
 111・・・コントローラ
 112・・・ロケータ
 113・・・キャプチャ
 114・・・ビデオエンコーダ
 115・・・コンテナエンコーダ
 116・・・ネットワークインタフェース
 117・・・バス
 200・・・クライアント装置
 211・・・コントローラ
 212・・・ユーザ操作部
 213・・・メッセージコンバータ
 214・・・ネットワークインタフェース
 215・・・コンテナデコーダ
 216・・・ビデオデコーダ
 217・・・ビデオプロセッサ
 218・・・ディスプレイ
 219・・・バス
 301・・・メディアキャプチャ・ロケーションサーバ
 302・・・初期サーバ
 303・・・サムネール
 304・・・ストレージサーバ
 311・・・コントローラ
 312・・・ストレージ
 313・・・コンテナエンコーダ
 314・・・ネットワークインタフェース
 315・・・バス

Claims (18)

  1.  被写体を撮像して画像データを得る撮像部と、
     上記画像データで構成されるビデオストリームを含む所定フォーマットのコンテナをクライアント装置に送信する送信部を備え、
     上記ビデオストリームのレイヤおよび/または上記コンテナのレイヤに、上記撮像部における撮像状態を示すキャプチャ情報が挿入されている
     サーバ装置。
  2.  上記キャプチャ情報には、上記撮像部の撮像方向の情報が含まれる
     請求項1に記載のサーバ装置。
  3.  上記キャプチャ情報には、上記撮像部のフォーカス距離の情報が含まれる
     請求項1に記載のサーバ装置。
  4.  上記キャプチャ情報には、上記撮像部のズーム比の情報が含まれる
     請求項1に記載のサーバ装置。
  5.  上記ビデオストリームのレイヤおよび/または上記コンテナのレイヤに、自身のサーバ装置の位置を示す位置情報がさらに挿入されている
     請求項1に記載のサーバ装置。
  6.  上記位置情報は、GPSデータである
     請求項5に記載のサーバ装置。
  7.  上記ビデオストリームのレイヤおよび/または上記コンテナのレイヤに、上記キャプチャ情報と上記位置情報の組み合わせを識別する識別情報、および自身のサーバ装置を識別する識別情報がさらに挿入されている
     請求項5に記載のサーバ装置。
  8.  クライアント装置から上記撮像部における撮像状態を制御するための制御情報を受信する受信部と、
     上記制御情報に基づいて上記撮像部の撮像状態を制御する制御部をさらに備える
     請求項1に記載のサーバ装置。
  9.  撮像部が、被写体を撮像して画像データを得る撮像ステップと、
     送信部が、上記画像データで構成されるビデオストリームを含む所定フォーマットのコンテナをクライアント装置に送信する送信ステップを有し、
     上記ビデオストリームのレイヤおよび/または上記コンテナのレイヤに、上記撮像部における撮像状態を示すキャプチャ情報が挿入されている
     サーバ装置の送信処理方法。
  10.  サーバ装置からビデオストリームを含む所定フォーマットのコンテナを受信する受信部を備え、
     上記ビデオストリームは、被写体を撮像部で撮像して得られた画像データで構成されており、
     上記ビデオストリームのレイヤおよび/または上記コンテナのレイヤに、上記撮像部の撮像状態を示すキャプチャ情報が挿入されており、
     上記ビデオストリームから表示用画像データを得る処理と、上記キャプチャ情報に基づいて上記撮像部の撮像状態を表示する処理と、上記撮像状態の表示を用いたユーザ操作に応じて上記撮像部の撮像状態の制御情報を得る処理と、該制御情報を上記サーバ装置に送信する処理を制御する制御部をさらに備える
     クライアント装置。
  11.  上記ビデオストリームのレイヤおよび/または上記コンテナのレイヤに、上記サーバ装置の位置を示す位置情報がさらに挿入されており、
     上記制御部は、ユーザ操作に基づいて、上記サーバ装置とは異なる他のサーバ装置にアクセスするためのアクセス情報を得る処理と、該アクセス情報に基づいて上記他のサーバ装置にアクセスする処理をさらに制御する
     請求項10に記載のクライアント装置。
  12.  上記アクセス情報は、上記他のサーバ装置のURLである
     請求項11に記載のクライアント装置。
  13.  上記アクセス情報は、位置情報および該位置情報をURLに変換する変換サーバのURLである
     請求項11に記載のクライアント装置。
  14.  受信部が、サーバ装置からビデオストリームを含む所定フォーマットのコンテナを受信する受信ステップを有し、
     上記ビデオストリームは、被写体を撮像部で撮像して得られた画像データで構成されており、
     上記ビデオストリームのレイヤおよび/または上記コンテナのレイヤに、上記撮像部の撮像状態を示すキャプチャ情報が挿入されており、
     制御部が、上記ビデオストリームから表示用画像データを得る処理と、上記キャプチャ情報に基づいて上記撮像部の撮像状態を表示する処理と、該撮像状態の表示を用いたユーザ操作に応じて上記撮像部の撮像状態の制御情報を得る処理と、該制御情報を上記サーバ装置に送信する処理を制御する制御ステップをさらに有する
     クライアント装置の受信処理方法。
  15.  複数のサーバ装置とクライアント装置がネットワーク接続されてなるサーバシステムであって、
     上記サーバ装置は、
     被写体を撮像して画像データを得る撮像部と、
     上記画像データで構成されるビデオストリームを含む所定フォーマットのコンテナを上記クライアント装置に送信する送信部を備え、
     上記ビデオストリームのレイヤおよび/または上記コンテナのレイヤに、上記撮像部における撮像状態を示すキャプチャ情報が挿入されており、
     上記クライアント装置は、
     上記サーバ装置から上記所定フォーマットのコンテナを受信する受信部を備え、
     上記ビデオストリームから表示用画像データを得る処理と、上記キャプチャ情報に基づいて上記撮像部の撮像状態を表示する処理と、該撮像状態の表示を用いたユーザ操作に応じて上記撮像部の撮像状態の制御情報を得る処理と、該制御情報を上記サーバ装置に送信する処理を制御する制御部をさらに備える
     サーバシステム。
  16.  上記ビデオストリームのレイヤおよび/または上記コンテナのレイヤに、上記サーバ装置の位置を示す位置情報がさらに挿入されており、
     上記制御部は、ユーザ操作に基づいて、上記サーバ装置とは異なる他のサーバ装置にアクセスするためのアクセス情報を得る処理と、該アクセス情報に基づいて上記他のサーバ装置にアクセスする処理をさらに制御する
     請求項15に記載のサーバシステム。
  17.  撮像デバイスを識別するキャプチャデバイス識別情報と、上記撮像デバイスの位置情報および上記撮像デバイスの撮像状態情報の組み合わせを識別するキャプチャビュー識別情報とで識別される複数のビデオストリームを格納するストレージと、
     クライアント装置から上記キャプチャデバイス識別情報および上記キャプチャビュー識別情報で再生すべきビデオストリームが指定された再生要求を受信する受信部と、
     上記指定されたビデオストリームを上記ストレージから読み出し、該ビデオストリームを含む所定フォーマットのコンテナを上記クライアント装置に送信する送信部を備える
     サーバ装置。
  18.  撮像デバイスを識別するキャプチャデバイス識別情報と、上記撮像デバイスの位置情報および上記撮像デバイスの撮像状態情報の組み合わせを識別するキャプチャビュー識別情報とで再生すべきビデオストリームを指定した再生要求をサーバ装置に送信する送信部と、
     上記サーバ装置から上記再生要求に対応したビデオストリームを含む所定フォーマットのコンテナを受信する受信部と、
     上記コンテナに含まれるビデオストリームから表示用画像データを得る処理部を備える
     クライアント装置。
PCT/JP2017/024563 2016-07-13 2017-07-04 サーバ装置、サーバ装置の送信処理方法、クライアント装置、クライアント装置の受信処理方法およびサーバシステム WO2018012355A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
EP17827484.1A EP3487180A1 (en) 2016-07-13 2017-07-04 Server device, transmission processing method of server device, client device, reception processing method of client device and server system
US16/311,435 US10965971B2 (en) 2016-07-13 2017-07-04 Server device, method of transmission processing of server device, client device, method of reception processing of client device, and server system
JP2018527532A JPWO2018012355A1 (ja) 2016-07-13 2017-07-04 サーバ装置、サーバ装置の送信処理方法、クライアント装置、クライアント装置の受信処理方法およびサーバシステム
CN201780042116.3A CN109417643A (zh) 2016-07-13 2017-07-04 服务器装置、服务器装置的发送处理方法、客户端装置、客户端装置的接收处理方法以及服务器系统

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016-138980 2016-07-13
JP2016138980 2016-07-13

Publications (1)

Publication Number Publication Date
WO2018012355A1 true WO2018012355A1 (ja) 2018-01-18

Family

ID=60951770

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/024563 WO2018012355A1 (ja) 2016-07-13 2017-07-04 サーバ装置、サーバ装置の送信処理方法、クライアント装置、クライアント装置の受信処理方法およびサーバシステム

Country Status (5)

Country Link
US (1) US10965971B2 (ja)
EP (1) EP3487180A1 (ja)
JP (1) JPWO2018012355A1 (ja)
CN (1) CN109417643A (ja)
WO (1) WO2018012355A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002185954A (ja) * 2000-12-18 2002-06-28 Nippon Hoso Kyokai <Nhk> パノラマ映像システム及びパノラマ受像機
JP2003037838A (ja) * 2001-07-25 2003-02-07 Sanyo Electric Co Ltd 画像配信システム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020071677A1 (en) 2000-12-11 2002-06-13 Sumanaweera Thilaka S. Indexing and database apparatus and method for automatic description of content, archiving, searching and retrieving of images and other data
JP2004110277A (ja) 2002-09-17 2004-04-08 Nippon Telegr & Teleph Corp <Ntt> コンテンツ配信管理方法、装置、およびプログラム
JP2004266343A (ja) * 2003-02-05 2004-09-24 Matsushita Electric Ind Co Ltd 画像サーバーと画像サーバーシステム、そのプログラム及び記録媒体
JP4195999B2 (ja) 2003-12-10 2008-12-17 パナソニック株式会社 ネットワークカメラ
US9736368B2 (en) * 2013-03-15 2017-08-15 Spatial Cam Llc Camera in a headframe for object tracking
JP5471124B2 (ja) * 2009-07-29 2014-04-16 ソニー株式会社 画像検索装置、画像検索方法及び画像検索プログラム
CN102256102B (zh) * 2010-05-20 2013-09-18 中国农业科学院农业资源与农业区划研究所 一种基于远程监控的农情信息实时监测方法及系统
US20130100307A1 (en) * 2011-10-25 2013-04-25 Nokia Corporation Methods, apparatuses and computer program products for analyzing context-based media data for tagging and retrieval
CN102595105A (zh) * 2012-03-07 2012-07-18 深圳市信义科技有限公司 一种基于gis地图镜头角度信息配置的应用方法
HUE047946T2 (hu) * 2012-09-07 2020-05-28 Saturn Licensing Llc Átviteli eszköz, átviteli eljárás, vevõ eszköz és vételi eljárás
CN103716578A (zh) * 2012-09-28 2014-04-09 华为技术有限公司 一种视频数据发送、存储及检索方法和视频监控系统
US9270721B2 (en) * 2013-10-08 2016-02-23 Qualcomm Incorporated Switching between adaptation sets during media streaming
GB2522670A (en) * 2014-01-31 2015-08-05 Sony Corp Computing device
EP3330928A4 (en) * 2015-07-28 2019-02-27 Hitachi, Ltd. PICTURE-GENERATING DEVICE, PICTURE-GENERATING SYSTEM AND PICTURE-PRODUCTION METHOD

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002185954A (ja) * 2000-12-18 2002-06-28 Nippon Hoso Kyokai <Nhk> パノラマ映像システム及びパノラマ受像機
JP2003037838A (ja) * 2001-07-25 2003-02-07 Sanyo Electric Co Ltd 画像配信システム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3487180A4 *

Also Published As

Publication number Publication date
US20190238898A1 (en) 2019-08-01
CN109417643A (zh) 2019-03-01
JPWO2018012355A1 (ja) 2019-04-25
EP3487180A4 (en) 2019-05-22
US10965971B2 (en) 2021-03-30
EP3487180A1 (en) 2019-05-22

Similar Documents

Publication Publication Date Title
EP3459252B1 (en) Method and apparatus for spatial enhanced adaptive bitrate live streaming for 360 degree video playback
US10389784B2 (en) Method and device for generating a description file, and corresponding streaming method
KR102246002B1 (ko) 가상 현실 미디어 콘텐트의 스트리밍을 개선하는 방법, 디바이스, 및 컴퓨터 프로그램
US11451838B2 (en) Method for adaptive streaming of media
JP2007150747A (ja) 受信装置及び本線映像配信装置
RU2718118C2 (ru) Устройство для обработки информации и способ обработки информации
US20130133000A1 (en) Video Interaction System
US10009643B2 (en) Apparatus and method for processing media content
US10911809B2 (en) Communication apparatus, communication method, and program
KR102499231B1 (ko) 수신 장치, 송신 장치 및 데이터 처리 방법
CN110999308B (zh) 发送装置、发送方法、接收装置和接收方法
US20180270515A1 (en) Methods and systems for client interpretation and presentation of zoom-coded content
WO2019139099A1 (ja) 送信装置、送信方法、受信装置および受信方法
WO2019187437A1 (ja) 情報処理装置、情報処理方法、及びプログラム
EP4128808A1 (en) An apparatus, a method and a computer program for video coding and decoding
WO2019187434A1 (ja) 情報処理装置、情報処理方法、及びプログラム
WO2018012355A1 (ja) サーバ装置、サーバ装置の送信処理方法、クライアント装置、クライアント装置の受信処理方法およびサーバシステム
CN109756727B (zh) 信息显示方法及相关设备
EP3360332A1 (en) Client and method for playing a sequence of video streams, and corresponding server and computer program product
KR101710452B1 (ko) 멀티미디어 전송 시스템에서 서비스 발견 정보를 송수신하는 방법 및 장치와 이를 위한 파일 구조
KR20200135324A (ko) 정보 처리 장치, 정보 처리 장치 및 프로그램
JP6943255B2 (ja) 送信装置、送信方法、受信装置および受信方法
WO2019181493A1 (ja) 受信装置、受信方法、送信装置および送信方法
KR101467442B1 (ko) 단말로 방송 스트림의 정지 화상을 전송하는 서버 및 방법, 그리고 단말
KR20140118634A (ko) 증강객체에 대한 연동정보를 통신하는 서버 및 방법, 그리고 디바이스

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2018527532

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17827484

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2017827484

Country of ref document: EP

Effective date: 20190213