WO2023042403A1 - コンテンツ配信サーバ - Google Patents

コンテンツ配信サーバ Download PDF

Info

Publication number
WO2023042403A1
WO2023042403A1 PCT/JP2021/034436 JP2021034436W WO2023042403A1 WO 2023042403 A1 WO2023042403 A1 WO 2023042403A1 JP 2021034436 W JP2021034436 W JP 2021034436W WO 2023042403 A1 WO2023042403 A1 WO 2023042403A1
Authority
WO
WIPO (PCT)
Prior art keywords
distributor
streaming content
editing
screen
moving image
Prior art date
Application number
PCT/JP2021/034436
Other languages
English (en)
French (fr)
Inventor
健史 冨森
▲隆▼俊 桂
浩昌 倉内
Original Assignee
株式会社Tomody
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社Tomody filed Critical 株式会社Tomody
Priority to PCT/JP2021/034436 priority Critical patent/WO2023042403A1/ja
Priority to JP2022503425A priority patent/JP7062328B1/ja
Publication of WO2023042403A1 publication Critical patent/WO2023042403A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/16Analogue secrecy systems; Analogue subscription systems
    • H04N7/173Analogue secrecy systems; Analogue subscription systems with two-way working, e.g. subscriber sending a programme selection signal

Definitions

  • the present invention relates to a video distribution server that relays moving images from multiple cameras and distributes live streaming broadcasts to multiple viewer terminals.
  • an editing device called a switcher is used as a device that performs switching operations for multiple camera image inputs and outputs video for broadcasting.
  • Patent Literature 1 discloses a live streaming broadcasting apparatus that edits and streams video data from a plurality of cameras while inputting videos from a plurality of cameras.
  • a switcher function is provided as one of the editing functions of this live streaming broadcasting apparatus.
  • the present inventor When using a conventional video conference system to perform live streaming distribution such as online talk distribution and online lessons in which a plurality of video distributors distributed on a network participate, the present inventor has a video editing function, In particular, a new problem was found that the switcher function could not be sufficiently provided.
  • the configuration of the device becomes large-scale, and there is a problem that it is difficult for a general user to introduce the device in terms of the labor and cost of installing the device. Also, due to the size of the equipment configuration, it is difficult to physically move the editing equipment including the switcher. Either the distributor has to transport it to the place where it intends to distribute, or the distributor has to move to the editor's place where the switching equipment is installed, so there are physical restrictions.
  • An object of the present invention is to provide video editing means by a server, and provide a content editing function at low cost without physical restrictions when performing streaming distribution from a plurality of distributor videos connected via a network.
  • a content distribution server that receives distributor videos from a plurality of distributor terminals connected via a network, generates streaming content, and distributes the streaming content to viewer terminals, comprising the following components: .
  • Broadcaster's moving image receiving part for receiving multiple distributor's moving images
  • Editing screen generation unit that generates an editing screen for accepting editing operations
  • Editing information transmission/reception unit Editing that transmits the editing screen to the editor terminal and receives the editing operation input via the editing screen from the editor terminal as editing information
  • a streaming content generation unit that generates streaming content from videos of a plurality of distributors held in a buffer based on information
  • a streaming content distribution unit that distributes the streaming content to viewer terminals via a network
  • the content distribution server of the present embodiment can provide streaming content editing means as software from the server when streaming content is distributed from a plurality of distributor terminals connected via a network.
  • problems such as restrictions on the location of distributors and editors, complexity of settings due to the scale of equipment, and costs, which were caused by conventional hardware equipment providing streaming content editing functions such as switchers, have been eliminated. It will make it possible for anyone to easily distribute high-quality streaming content at low cost and without physical restrictions.
  • FIG. 1 is a schematic diagram showing an example of a device configuration of a content distribution server according to Embodiment 1 and a streaming content distribution method using the server.
  • 2 is a block diagram illustrating an example of a functional configuration of a content distribution server according to the first embodiment;
  • FIG. 3 is a schematic diagram showing an example of an edit screen.
  • FIG. 4 is a schematic diagram showing an example of an edit screen after an edit operation.
  • FIG. 5 is a schematic diagram showing an example of a time chart of switching processing of a distributor moving image.
  • a representative embodiment of the present invention receives distributor videos from a plurality of distributor terminals (2) connected via a network (100), generates streaming content, and receives viewer terminals (4).
  • a content distribution server (1) for distributing the streaming content to the following components (FIGS. 1 and 2).
  • Distributor moving image receiving unit (11) for receiving a plurality of distributor moving images
  • a buffer unit (12) for temporarily storing the plurality of distributor videos
  • An editing screen generation unit (13) for synthesizing a plurality of distributor moving images in the buffer unit and generating an editing screen for receiving an editing operation of streaming content from an editor terminal (3) connected via the network.
  • the distributor terminal (2) refers to a terminal device having an imaging device. Specifically, it includes not only devices such as smartphones, mobile phones, and notebook computers, in which imaging devices are integrated with terminal devices, but also digital cameras equipped with network communication functions and personal computer terminals to which digital cameras are connected.
  • the network (100) connects the distributor terminal, the content distribution server, the editor terminal and the viewer terminal so as to be able to communicate with each other. Wired communication or wireless communication may be used.
  • the editing information includes a screen configuration in the streaming content and an instruction to switch between the plurality of distributor's moving images arranged in the screen configuration.
  • the content distribution server (1) can provide the functions of a switcher, which were conventionally provided by hardware, by software, and distributors and editors are free from physical restrictions on distribution locations. And it is possible to edit and distribute streaming content at low cost.
  • the content distribution server of item [1] or item [2] further has distributor moving image storage means (17).
  • the distributor moving image storage means stores part or all of the plurality of distributor moving images stored in the buffer unit.
  • the editing information transmitting/receiving unit further has a function of receiving a playback instruction input via the editing screen from the editor terminal in the editing information.
  • the playback instruction includes designation of the distributor's moving image in the distributor's moving image storage means to be played back, and instruction of the time range of the playback target moving image to be switched and inserted in the streaming content.
  • the streaming content generation unit generates the streaming content using the specified range of the distributor's moving image in the distributor's moving image storage means specified by the playback instruction based on the received editing information.
  • part of the past of the distributor's video can be included in the streaming content.
  • the content distribution server according to any one of items [1] to [3] further includes a gesture recognition unit (18).
  • the gesture recognition unit identifies that one of the distributors has made a predetermined gesture from the plurality of distributor videos received from the buffer unit, and the gesture is a gesture requesting a switching operation in streaming content. In this case, editing information is transmitted to the streaming content generation unit based on the detected gesture.
  • the broadcaster can instantly switch screens at their own will. Normally, editing operations such as screen switching are performed at the discretion of the content program structure and the editor, but by switching immediately according to the action of the distributor, the distributor's intentions are reflected more and the viewers It is possible to generate streaming content that gives a sense of presence.
  • the distributor himself/herself can switch and edit the streaming content without operating the distributor terminal or the editing terminal, so that the distributor's operation is not interrupted during the content distribution.
  • FIG. 1 is a block diagram showing a configuration example of a content distribution system including a content distribution server according to the first embodiment.
  • the content distribution server 1 is connected to a plurality of distributor terminals 2 and editor terminals 3 via a network 100, and can distribute streaming content to a plurality of viewer terminals 4.
  • the distributor terminal 2 is used by the content distributor to capture moving images and transmit the captured moving images to the content distribution server 1 via the network 100 .
  • the distributor terminal 2 is a terminal having an imaging function and a network communication function, and is, for example, a smart phone, a mobile phone with a camera, a notebook computer, a digital camera with a communication function, or the like.
  • the imaging function and the network communication function may be separate devices that are connected to each other, or a device such as a personal computer to which a digital camera is connected.
  • the editor terminal 3 displays an editing screen provided by the content distribution server 1, and transmits editing operations input by the editor via the editing screen to the content distribution server 1 as editing information.
  • the editor terminal 3 has a communication function with the network 100, and has a display function for displaying an editing screen and an input function for accepting editing operations from the editor.
  • the display function, the communication function, and the input function may each be implemented in separate housings, or may be a terminal such as a general-purpose personal computer.
  • the viewer terminal 4 is a terminal for displaying and viewing streaming content distributed from the content distribution server 1 .
  • the viewer terminal 4 has a communication function with the network 100 and a display function for displaying streaming content. Examples include smartphones, tablets, laptops, and televisions.
  • the display function and the communication function may be implemented in separate housings, respectively, or may be a terminal such as a general-purpose personal computer. Although a plurality of viewer terminals are illustrated in FIG. 1, there may be only one viewer terminal.
  • the network 100 connects the content distribution server 1, the distributor terminal 2, the editor terminal 3, and the viewer terminal 4 so as to be able to communicate.
  • the network 100 may be a closed communication network.
  • the form is not limited to wired or wireless.
  • FIG. 2 is a block diagram showing an example of the functional configuration of the content distribution server 1.
  • the content distribution server 1 includes a distributor moving image reception unit 11 , a buffer unit 12 , an edit screen generation unit 13 , an edit information transmission/reception unit 14 , a streaming content generation unit 15 and a streaming content distribution unit 16 .
  • the content distribution server 1 may be a data server provided with an interface for connecting to a network such as the Internet in the distributor video receiving unit 11, the edit information transmitting/receiving unit 14, and the streaming content distribution unit 16. It is preferably implemented using a cloud server.
  • the distributor video receiving unit 11, the editing information transmitting/receiving unit 14, the streaming content distribution unit 16, etc. are preferably implemented by running a program (software) on a computer that constitutes the cloud server. .
  • the distributor's moving image receiving unit 11 performs processing for receiving distributor's moving images from a plurality of distributor terminals 2 via the network 100 .
  • the distributor moving image receiving unit 11 is configured to be capable of receiving distributor moving images from a plurality of distributor terminals 2 simultaneously and independently.
  • the buffer unit 12 temporarily buffers and accumulates the distributor's moving images received by the distributor's moving image receiving unit 11 in predetermined units. Specifically, the video of the distributor recorded in the buffer unit 12 at predetermined time intervals is stored while being updated as needed so that the length of the video is from several seconds to several tens of seconds.
  • the editing screen generation unit 13 generates data for the editing screen 5 shown in FIG. 3 (described later), for example.
  • the data of the editing screen 5 is composed of editing screen layout information indicating the configuration of the editing screen 5 and cameraman's moving image acquisition control information for acquiring the distributor's moving image specified by the editing screen layout information from the buffer unit 12.
  • the edit screen information 5 is composed of HTML as edit screen layout information and a programming language such as JavaScript as control information.
  • an application for displaying an editing screen may be installed in the editor terminal 3, and the editing screen information may be generated according to a predetermined protocol.
  • the edit information transmission/reception unit 14 transmits the edit screen 5 generated by the edit screen generation unit 13 to the editor terminal 3 via the network 100 . Further, it receives a request from the editor terminal 3 in accordance with the camera operator's moving image acquisition control information, and transmits the plurality of distributor moving images to be displayed on the edit screen 5 to the editor terminal 3 in real time. It is preferable that the plurality of distributor videos to be transmitted are reduced to a thumbnail size and transmitted in order to suppress the communication capacity. Further, the editing operation input by the editor through the editing screen is received from the editor terminal 3 as editing information. Specifically, the editing information includes on-screen layout information of the distributor's moving images in the streaming content, switching information of the displayed distributor's moving images, voice control information of the plurality of displayed distributor's moving images, and the like.
  • the streaming content generation unit 15 creates streaming content based on the editing information received by the editing information transmission/reception unit 14.
  • the editing information includes on-screen layout information of distributor videos in streaming content, switching information of displayed distributor videos, and information of audio control information of a plurality of displayed distributor videos.
  • a distributor's moving image is acquired from the buffer unit 12, and based on the acquired editing information, the moving image on the screen is arranged, switched, and the sound is adjusted to create streaming contents.
  • the streaming content distribution unit 16 receives streaming content from the streaming content generation unit 15 and distributes the streaming content to viewer terminals via the network 100 .
  • FIG. 3 is a schematic diagram showing an example of the edit screen 5 displayed on the editor terminal 3.
  • the editing screen 5 is generated by the editing screen generating section 13 of the content distribution server 1, transmitted from the editing information transmitting/receiving section 14 to the editor terminal 3 via the network 100, and displayed on the display screen of the editor terminal 3. Is displayed.
  • the editor terminal 3 has a function of receiving a plurality of distributor videos from the edit screen generator 13 in real time and displaying them as an edit screen 5, and displays a list of the received distributor videos on the thumbnail display unit 52. .
  • the thumbnail display section 52 displays thumbnails of the distributor's moving images received in real time and is updated as needed.
  • the editor can select an arbitrary distributor moving image displayed in the thumbnail display section 52 by a touch operation on the display screen or a selection operation with a mouse cursor, and the thumbnail display section 52 receives input. As shown in FIG. 3, the outer frame of the selected distributor's moving image is highlighted to indicate that it has been selected. It should be noted that the selection method and selection display method of the distributor's moving image are examples, and the present invention is not limited to this configuration.
  • the layout selection unit 53 selects the screen configuration of the streaming content and receives instructions.
  • the layout selection section 53 displays the format of the distributor's moving image to be displayed at the same time. can be selected by icons.
  • the layout is not limited to this, and other variations such as vertical division into 2, division into 8, and wipe-in may be prepared and selected.
  • display of one distributor's video on one screen is selected, and the outer frame of the corresponding icon in the layout selection section 53 is highlighted and visible.
  • the telop input unit 55 receives input from the editor for telops to be displayed on the screen. Although not shown in the present embodiment, an input section for designating the display location of the telop and an input section for designating the font and color of the telop may be further provided.
  • the preview display section 51 displays a preview of the streaming content reflecting the editor's input results to the thumbnail display section 52, layout selection section 53, and telop input section 55.
  • a moving image synthesized by appropriately arranging a plurality of distributor moving images displayed in the thumbnail display section 52 is displayed.
  • the streaming content delivered to the viewer terminal 4 is processed by a delivery server, which will be described later, and the preview is generated and displayed for checking the streaming content on the editor terminal.
  • the distributors shall stream the online lessons.
  • One of the distributors is a lesson instructor, and several students are taking online lessons.
  • the online lesson instructor and students are the distributors, and the distributor terminal 2 conducts the online lessons.
  • Distributor terminal 2 has a camera and a communication function, and transmits captured moving images to content distribution server 1 as distributor moving images. Communication by the distributors through online lessons is performed using an existing video conference system (not shown), and the video conference system may be provided by a server other than the content distribution server 1, or the content distribution server 1 may be provided by
  • the distributor moving images from each distributor terminal 2 during the online lesson are captured moving images used in the video conference system, and are transmitted to the content distribution server 1 independently for each distributor terminal.
  • the distributor moving image receiving unit 11 receives distributor moving images from a plurality of distributor terminals 2 .
  • the distributor's moving image receiving unit 11 identifies and receives the received distributor's moving image from which terminal, and records it in the buffer unit 12 together with the identified information.
  • the user information set in the distributor terminal 2, the user name used in the video conference system, etc. are suitable for identifying the sender of the distributor video, but the IP address of the distributor terminal, the terminal name, etc. are also suitable. good.
  • the editing screen generation unit 13 generates data for the editing screen 5 illustrated in FIG.
  • the data of the editing screen 5 consists of editing screen arrangement information indicating the configuration of the editing screen 5 in advance and cameraman's moving image acquisition control information for acquiring the distributor's moving image from the buffer unit 12 from the editor terminal 3 .
  • the data of the editing screen 5 is composed of programming languages such as HTML for the editing screen layout information and JavaScript for the photographer moving image control information, and is displayed and executed by the browser in the editor terminal 3.
  • an application for displaying an editing screen may be installed in the editor terminal 3, and the editing screen information may be generated according to a predetermined protocol.
  • the edit information transmission/reception unit 14 transmits the data of the edit screen 5 to the editor terminal 3, the editor terminal 3 receives the data of the edit screen 5, and displays the edit screen 5 on the display device.
  • the editor terminal 3 receives the distributor moving image from the buffer unit 12 via the editing information transmitting/receiving unit 14 in real time according to the taker moving image acquisition control information of the editing screen 5 data.
  • the received distributor moving image is arranged and displayed on the editing screen 5 according to the editing screen arrangement information. Also, when displaying, each moving image is displayed so as to be synchronized according to the time information of the distributor's moving image.
  • the editing screen layout information has initial setting information. For example, in the case of this embodiment, the video of the instructor is displayed on one screen.
  • the editor edits the streaming content using the edit screen 5.
  • the editor selects a screen configuration from the layout selection section 53 .
  • the layout of one moving image per screen is selected, and the display of the preview section 51 is switched by selecting an arbitrary configuration from the layout selection section 53 .
  • the editor selects a moving image to be displayed at each display location. For selection, a corresponding portion of the preview portion 51 is selected, and a moving image desired to be displayed at that portion is selected from the thumbnail display portion 52 .
  • a moving image to be displayed may be selected from the thumbnail display portion 52 and dragged and dropped onto the corresponding portion of the preview portion 51 to be selected.
  • FIG. 4 is a display example of the editing screen 5 with the changed layout.
  • the layout of left and right screen division is selected by the layout selection section 53 and highlighted, and the display of the preview section 51 is divided into left and right halves and displayed.
  • the editor adjusts the volume of the moving image to be displayed using the volume control unit 54 indicated by the dashed line. Also, a telop can be edited and inserted by the telop input unit 55 .
  • the editor terminal 3 transmits the details of the editing operation to the content distribution server 1 as editing information.
  • the contents of the editing information include screen layout information selected by the layout selection section 53, instruction information of the distributor's moving image to be displayed in the designated screen layout, volume control instruction information, and telop information, which are the sources of these information. and time information in the distributor's video at which each editing operation was performed.
  • the time information is not information about the time when the editing operation was performed by the editor, but time information of the editing operation on the time axis of the distributor moving image displayed in the thumbnail display section 52 of the editing screen 5 .
  • the content distribution server 1 receives the editing information transmitted from the editor terminal 3 by the editing information transmission/reception section 14 .
  • the received editing information is transmitted to the streaming content generator 15 .
  • the streaming content generation unit 15 generates streaming content based on the received editing information.
  • the streaming content generation unit 15 always acquires the distributor moving image from the buffer unit 12 in real time from the start of the streaming content distribution regardless of whether or not the editing information is received, and generates the streaming content, and the timing when the editing information is received. with reference to the instruction information, volume control instruction information, telop information, and time information at which these operations are performed, of the distributor's moving image, and the editing contents indicated by the editing information for the plurality of distributor's moving images received from the buffer unit 12. to generate streaming content while applying at the right time.
  • FIG. 5 is a schematic diagram showing an example of a time chart of operations in which streaming content is generated according to editing information.
  • the time on the horizontal axis is the elapsed time from the start of distribution, which matches the time information possessed by each distributor's video.
  • the streaming content generator 15 synchronizes each distributor's video based on the time information.
  • a timeline 503 expresses the stream of each distributor's video, and each terminal of the distributor's terminals 2 is indicated by numbers 1 to 4 for the sake of convenience.
  • the flow of processing in this time chart is as follows. (1) Until 60 seconds from the start, the moving image 1 is displayed on the entire screen according to the setting of the initial state.
  • the layout is changed to split the screen into left and right halves, and moving image 1 is displayed in the left area and moving image 3 is displayed in the right area.
  • the screen is divided into three at 180 seconds from the start, and moving images 2, 3, and 4 are displayed in order from the left area.
  • this time chart shows the relationship between the passage of time and editing operations, and does not show that the distributor's moving image stored in the buffer unit 12 is saved for the distribution time.
  • the buffer unit 12 temporarily stores a few seconds to several tens of seconds worth of the distributor's moving image, and is updated as needed.
  • the streaming content is generated as needed at a timing delayed by about 2 seconds from the latest time of recording of the broadcaster's video in the buffer unit 12. This is because it takes time to transmit the edit screen to the editor terminal 3, display the edit screen on the editor terminal 3, and receive the edit information. This is for synchronizing the timing of specification and streaming content generation.
  • the streaming content generation unit 15 generates streaming content and transmits it to the streaming content distribution unit 16.
  • the streaming content delivery unit 16 delivers streaming content to the viewer terminal 4 via the network 100 .
  • the content distribution server 1 further has a moving image storage unit (distributor moving image storage means) 17, and permanently stores the distributor moving images. Further, by specifying a predetermined time range of the distributor's moving image in the moving image storage unit 17 on the edit screen 5, the past moving image (playback moving image) of the distributor's moving image can be included in the streaming content.
  • a moving image storage unit distributed image storage means
  • FIG. 6 is a block diagram showing a configuration example of the content distribution server 1 in this embodiment.
  • a moving image storage unit 17 is added to the configuration example of FIG.
  • the moving image storage unit 17 records the moving image of the distributor, receives the moving image of the distributor in real time from the buffer unit 12, and records the moving image of the distributor in an additional manner. While the buffer unit 12 temporarily records the distributor's moving image in a predetermined range, the moving image storage unit 17 continuously records the distributor's moving image from the start of distribution to the latest update and retains it even after the distribution ends. continue.
  • the distributor's moving image stored in the moving image storage unit 17 is erased from the moving image storage unit 17 when an instruction means (not shown) in the editing screen 5 accepts a deletion instruction. Alternatively, the content may be automatically erased after a predetermined time has elapsed after the distribution of the streaming content.
  • the area enclosed by the broken line at the bottom of the edit screen 5 in FIG. 3 is the playback instruction means 550.
  • the editor terminal 3 receives an instruction from the editor via the playback instruction means 550 to edit so that a past part of the distributor's moving image is included in the streaming content as a playback moving image.
  • the editor selects the video captured by the distributor to be played back from the pull-down menu 552 .
  • the user name of the distributor terminal is displayed in the pull-down 552 and can be selected.
  • corresponding distributor moving images are displayed as thumbnails in chronological order in the timeline preview area 551 .
  • the chronological display may display the entire moving image from the beginning to the end, or may display a range from a predetermined time ago to the present, or a predetermined time range in the past.
  • the editor sets the time range to be played back from the timeline preview area 551 .
  • the time axis range of the timeline preview area 551 is designated by mouse drag-and-drop, click operation, or the like. In the example of FIG. 3, the range from 7 seconds to 20 seconds is selected.
  • thumbnail images are displayed in the thumbnail display section 52 as switching display candidates for the streaming content so as to indicate that the specified range of the selected distributor's moving image is to be played back. Is displayed.
  • the still image thumbnail of the first frame in the time range is displayed. As shown in FIG. 3, the characters "REPLAY" are superimposed on the thumbnail to indicate that it is to be played back.
  • the characters "LIVE” are superimposed on the thumbnail of the distributor's video received by streaming.
  • characters such as "LIVE” and "REPLAY” are superimposed on the thumbnail section 52, the preview section 51, and the streaming content so that the streaming video and the video to be played back can be distinguished, the viewer can This is suitable because it is easy to understand the timing of the video.
  • the editor drags and drops the thumbnail image in the corresponding thumbnail section 52 to the desired display location in the preview section at any timing when he/she wants to switch and display the video to be played back.
  • the distributor video of Mr. A is currently displayed in the right half area of the preview section 51, but instead of this, the playback video of Mr. B in the thumbnail section 52 is to be displayed.
  • the moving image to be played back is displayed in the preview portion 51 , and the identification information of the distributor moving image to be the moving image to be played back, the instruction information of the time range, and the information selected by the layout selection portion 53 are used as the editing information. It includes screen layout information, volume control instruction information, telop information, and time information in the distributor's moving image at which each editing operation was performed, which is the basis of these information.
  • the streaming content generation unit 15 generates streaming content based on the received editing information.
  • the generation method is almost the same as that of the first embodiment, but when a moving image to be played back is specified in the editing information, the specified distributor's moving image is obtained from the moving image storage unit 17, and the specified time range is obtained. video is displayed according to the switching time and layout of the editing information.
  • the streaming content generation unit 15 continuously generates streaming content during distribution and transmits it to the streaming content distribution unit 16.
  • the streaming content delivery unit 16 delivers streaming content to the viewer terminal 4 via the network 100 .
  • the past scene of the distributor's video can be retroactively switched and displayed instantly with easy operation. becomes possible.
  • the moving image storage unit (distributor moving image storage means) 17 shows an example in which the distributor moving image is stored permanently. or the range allowed by the storage capacity). This reduces the storage capacity and solves the problem that the storage capacity used fluctuates depending on the length of time to be stored (for example, the time of the entire stream content to be distributed).
  • the content distribution server 1 further has a gesture recognition unit 18, so that the distributor can perform editing operations such as video switching using predetermined gestures.
  • FIG. 7 is a block diagram showing a configuration example of the content distribution server 1 in this embodiment.
  • the content distribution server 1 of this embodiment has a gesture recognition unit 18 .
  • the gesture recognition unit 18 continuously receives distributor videos from the buffer unit 12 during streaming content distribution, and detects whether a distributor appearing in any of the distributor videos is making a predetermined gesture.
  • the gesture recognition means utilizes an existing skeleton recognition module and learns predetermined gestures in advance. If the detected gesture is an action related to editing of the streaming content, edit information is generated based on the detected gesture and transmitted to the streaming content generation unit 15 . In addition, in order to enhance interactivity, it is preferable to perform operations such as switching of displayed moving images based on gesture operations on the aforementioned video conference system between distributors.
  • gestures such as pointing to one of the four corners of the screen and waving the hand can be used as a switching gesture for the broadcaster's video. You can also switch to video. In any case, it is preferable to arbitrarily set gestures that can be identified from actions that the distributor can perform when distributing streaming content.
  • the editing information includes information on the time when the gesture was performed, switching information of the distributor's video specified by the gesture, and includes content common to the editing information sent from the editing information transmitting/receiving unit 14.
  • the streaming content generation unit 15 generates streaming content based on the editing information transmitted from the gesture recognition unit 18.
  • the editing information is transmitted to the streaming content generating unit 15 from both the editing information transmitting/receiving unit 14 and the gesture recognizing unit 18.
  • the editing information is applied to the streaming content generation unit 15 at the time of reception without particular distinction. may be generated, and either one may be given priority, for example, when editing information is received from both the gesture recognizing unit 18 and the editing information transmitting/receiving unit 14 within a few seconds, only the editing information from the gesture recognizing unit 18 is generated. It may be applied with priority.
  • the streaming content generation unit 15 continuously generates streaming content during distribution and transmits it to the streaming content distribution unit 16.
  • the streaming content delivery unit 16 delivers streaming content to the viewer terminal 4 via the network 100 .
  • the broadcaster can instantly switch screens at their own will. Normally, editing operations such as screen switching are performed at the discretion of the content program structure and the editor, but by switching immediately according to the action of the distributor, the distributor's intentions are reflected more and the viewers It is possible to generate streaming content that gives a sense of presence.
  • the distributor himself/herself can switch and edit the streaming content without operating the distributor terminal or the editing terminal, so that the distributor's operation is not interrupted during the content distribution.
  • the content distribution server 1 includes the moving image storage unit 17, but the moving image storage unit 17 may be omitted.
  • the content distribution server 1 may be configured without the generation unit 13 and the editing information transmission/reception unit 14 from the configuration of the third embodiment, and may not be connected to the editor terminal. Screen switching during streaming content distribution is performed only by the distributor's gesture. Editing operations by gestures of the distributor and generation of streaming content are the same as the method described in the third embodiment.
  • the content distribution server 1 can be realized with a simpler configuration without preparing a terminal for editing.
  • the distributor himself/herself can switch and edit the streaming content without operating the distributor terminal or the editing terminal, so that the distributor's operation is not interrupted during the content distribution.
  • the present invention can be used in a video distribution server that relays moving images from multiple cameras and distributes live streaming broadcasts to multiple viewer terminals.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

ストリーミング配信を行う際のコンテンツ編集機能を、物理的な制限を受けることなく、低コストで提供可能なコンテンツ配信サーバを提供する。ネットワークを介して複数の配信者端末からの配信者動画を受信してバッファ部に一時記憶する。バッファ部内の複数の配信者動画を合成して編集画面を生成し、ネットワークを介して接続された編集者端末に送信する。編集者は編集画面により配信者動画の切替選択、画面構成の指示、テロップ入力などの編集操作を行い、編集情報として編集端末からコンテンツ配信サーバへ送信する。コンテンツ配信サーバは、編集情報に基づいて前記バッファ部内の配信者動画からストリーミングコンテンツを生成し、視聴者端末にストリーミングコンテンツを配信する。

Description

コンテンツ配信サーバ
 本発明は、複数台カメラからの動画像を中継して、複数の視聴者端末にライブストリーミング放送を配信する映像配信サーバに関する。
 近年、携帯電話網等のネットワーク環境の充実や撮像装置の普及により、用いる端末の機種や場所を問わずに誰もが動画像によるストリーミング配信を行うことが可能になっている。特にオンラインのビデオ会議システムの発達により、オンラインのビデオ会議システムを用いて、互いに遠隔でネットワークで接続された複数の端末からの撮像動画を中継してストリーミング配信を行うオンライントーク配信やオンラインレッスンなどが行われるようになっている。
 また一方で、従来のテレビ放送などの映像コンテンツ制作においては、複数のカメラ画像入力に対して切替操作を行い、放送用の映像を出力する装置として、スイッチャーと呼ばれる編集機器が用いられている。
 特許文献1には、複数カメラによる映像を入力しながら、入力中の複数のカメラ映像データを編集してストリーミング配信をするライブストリーミング放送装置が開示されている。このライブストリーミング放送装置の編集機能の一つとしてスイッチャー機能が提供されている。
特開2005-51703号公報
 本発明者は、ネットワーク上に分散する複数の動画像配信者が参加するようなオンライントーク配信やオンラインレッスンなどのライブストリーミング配信を、従来のビデオ会議システムを使って行う場合、映像の編集機能、特にスイッチャー機能を十分に提供することができないという新規の課題を見出した。
 複数端末からの撮像動画によりストリーミング配信を行う方法としてビデオ会議システムを用いる場合、画面の切替や撮像動画の画面上の配置などは、ビデオ会議システムにて話者の検知による画面切替や画面構成があらかじめ固定されたものから自動で選択されるため、配信者側で任意に画面を切替たり画面構成を変更するなどの番組構成の意図が反映しづらいなどの問題点がある。
 この問題点を解決するために、従来のテレビ放送用などのスイッチャーを組み合わせた場合には、以下の課題があることがわかった。従来のテレビ放送用などのスイッチャーは、ハードウエア機器として提供されており、複数のカメラからの映像をスイッチャーに集約して接続する必要がある。特許文献1においても映像の入力は複数のカメラから出力をスイッチャーの入力する構成となっている。いずれの構成もネットワークを介して送信された映像の直接入力には対応していないため、前述のような配信者同士が遠隔でネットワークを介して接続されている場合でスイッチングを実現しようとした場合、ネットワーク上の各配信者の端末との通信を中継する端末を配信者ごとに用意し、それらの中継端末を介して映像の入力をしなければならない。そのため機器の構成が大規模になり、機器の設置の手間やコストなどの面から一般のユーザが導入しづらいという問題点がある。また、機器の構成規模の問題からスイッチャーを含む編集機器が物理的に移動しづらいため、スイッチングを担当する編集者と配信者の少なくとも一人が同じ場所から配信したい場合、大規模な編集機材をその配信者が配信をしようとする場所に運搬するか、スイッチング機器を設置している編集者の場所にその配信者が移動するかしなければならず、物理的な制限が生じることになる。
 本発明の目的は、サーバによる動画編集手段を提供し、ネットワークで接続された複数の配信者動画からストリーミング配信を行う際のコンテンツ編集機能を、物理的な制限を受けることなく、低コストで提供可能な映像配信サーバを提供することである。
 このような課題を解決するための手段を以下に説明するが、その他の課題と新規な特徴は、本明細書の記述及び添付図面から明らかになるであろう。
 本発明の一実施の形態によれば、下記の通りである。
 ネットワークを介して接続された複数の配信者端末からの配信者動画を受信してストリーミングコンテンツを生成し、視聴者端末に前記ストリーミングコンテンツを配信するコンテンツ配信サーバであって、以下の各構成を備える。
複数の配信者動画を受信する配信者動画受信部
複数の配信者動画を一時記憶するバッファ部
バッファ部内の複数の配信者動画を合成し、ネットワークを介して接続された編集者端末からストリーミングコンテンツの編集操作を受け付けるための編集画面を生成する編集画面生成部
編集者端末に編集画面を送信し、編集者端末から編集画面を介して入力された編集操作を編集情報として受信する編集情報送受信部
編集情報に基づいて、バッファ部内に保持された複数の配信者動画からストリーミングコンテンツを生成するストリーミングコンテンツ生成部
ネットワークを介して視聴者端末に前記ストリーミングコンテンツを配信するストリーミングコンテンツ配信部
 前記一実施の形態によって得られる効果を簡単に説明すれば下記のとおりである。
 本実施形態のコンテンツ配信サーバは、ネットワークで接続された複数の配信者端末からのストリーミングコンテンツ配信時に、ストリーミングコンテンツの編集手段をサーバからソフトウエアとして提供することができる。これにより、従来スイッチャーなどのストリーミングコンテンツ編集機能がハードウエア機器で提供されているために生じていた、配信者や編集者の場所の制限や機器の規模によるセッティングの煩雑さ、コストなどの問題を解消し、誰もが低コストで物理的な制限を受けず、容易に品質の高いストリーミングコンテンツを配信することができるようになる。
図1は、実施形態1に係るコンテンツ配信サーバと、それを用いたストリーミングコンテンツ配信方法の機器構成の一例を示す模式図である。 図2は、実施形態1に係るコンテンツ配信サーバの機能構成の一例を示すブロック図である。 図3は、編集画面の一例を示す模式図である。 図4は、編集操作後の編集画面の一例を示す模式図である。 図5は、配信者動画の切替処理のタイムチャートの一例を示す模式図である。 図6は、実施形態2に係るコンテンツ配信サーバの機能構成の一例を示すブロック図である。 図7は、実施形態3に係るコンテンツ配信サーバの機能構成の一例を示すブロック図である。
1.実施の形態の概要
 先ず、本願において開示される代表的な実施の形態について概要を説明する。代表的な実施の形態についての概要説明で括弧を付して参照する図面中の参照符号はそれが付された構成要素の概念に含まれるものを例示するに過ぎない。
 〔1〕<動画切替手段を備えたコンテンツ配信サーバ>
 本発明の代表的な実施の形態は、ネットワーク(100)を介して接続された複数の配信者端末(2)からの配信者動画を受信してストリーミングコンテンツを生成し、視聴者端末(4)に前記ストリーミングコンテンツを配信するコンテンツ配信サーバ(1)であって、以下の各構成を備える(図1および図2)。
複数の配信者動画を受信する配信者動画受信部(11)
前記複数の配信者動画を一時記憶するバッファ部(12)
前記バッファ部内の複数の配信者動画を合成し、前記ネットワークを介して接続された編集者端末(3)からストリーミングコンテンツの編集操作を受け付けるための編集画面を生成する編集画面生成部(13)
編集者端末に前記編集画面を送信し、前記編集者端末から前記編集画面を介して入力された編集操作を編集情報として受信する編集情報送受信部(14)
前記編集情報に基づいて、前記バッファ部内に保持された複数の配信者動画からストリーミングコンテンツを生成するストリーミングコンテンツ生成部(15)
前記ネットワークを介して前記視聴者端末に前記ストリーミングコンテンツを配信するストリーミングコンテンツ配信部(16)
 ここで配信者端末(2)とは、撮像装置を有する端末装置を指す。具体的にはスマートフォンや携帯電話、ノートパソコンなどの撮像装置が端末装置と一体となった機器はもちろん、ネットワーク通信機能を備えたデジタルカメラやデジタルカメラが接続されたパソコン端末を含む意味である。また、ネットワーク(100)とは、配信者端末、コンテンツ配信サーバ、編集者端末および視聴者端末とを相互に通信可能に接続するものであり、例えばインターネットあるいは携帯電話網などを指し、その通信は有線通信でも無線通信であってもよい。
 これにより、ネットワークで接続された複数の配信者動画からストリーミング配信を行う際のコンテンツ編集機能をソフトウエアで提供することができ、配信者および編集者は配信場所の物理的な制限を受けることなく、かつ低コストでストリーミングコンテンツの編集と配信を行うことができる。
 〔2〕<スイッチャー機能>
 〔1〕項のコンテンツ配信サーバ(1)において、前記編集情報は、前記ストリーミングコンテンツにおける画面構成と、前記画面構成に配置される前記複数の配信者動画の切替指示を含む。
 これにより、コンテンツ配信サーバ(1)は従来ハードウエアで提供されていたスイッチャーの機能をソフトウエアにて提供することができ、配信者および編集者は配信場所の物理的な制限を受けることなく、かつ低コストでストリーミングコンテンツの編集と配信を行うことができる。
 〔3〕<プレイバック機能>
 〔1〕項または〔2〕項のコンテンツ配信サーバは、配信者動画記憶手段(17)をさらに有する。
 前記配信者動画記憶手段は、前記バッファ部に記憶された前記複数の配信者動画のうちの一部または全部を記憶する。
 前記編集情報送受信部は、前記編集者端末により前記編集画面を介して入力されたプレイバック指示を前記編集情報に含めて受信する機能をさらに有する。
 前記プレイバック指示は、プレイバック対象となる前記配信者動画記憶手段内の配信者動画の指定と、前記ストリーミングコンテンツにおける切替挿入対象となる前記プレイバック対象動画の時間の範囲の指示とを含む。
 前記ストリーミングコンテンツ生成部は、受信した前記編集情報に基づいて前記プレイバック指示で指定された前記配信者動画記憶手段内の指定された配信者動画の範囲を用いて前記ストリーミングコンテンツを生成する。
 これにより、ストリーミングコンテンツに配信者動画の過去の一部分を配信内容に含めることができる。例えばスポーツなどのオンラインレッスンなどにおいて、配信者であるコーチの動作を即座に振り返り、ストリーミングコンテンツに含まれるよう編集端末から操作でき、ストリーミングコンテンツの内容をより充実させることができる。
 〔4〕<ジェスチャ機能>
 〔1〕項から〔3〕項のうちのいずれか1項のコンテンツ配信サーバはさらに、ジェスチャ認識部(18)を有する。
 前記ジェスチャ認識部は、前記バッファ部から受信した前記複数の配信者動画からいずれかの配信者が所定のジェスチャを行ったことを識別し、前記ジェスチャがストリーミングコンテンツにおける切替操作を要求するジェスチャである場合、検知したジェスチャに基づいて前記ストリーミングコンテンツ生成部に編集情報を送信する。
 これにより、配信者は自身の意思で即座に画面の切替操作が可能となる。通常時の画面切替などの編集操作は、コンテンツの番組構成や編集者の裁量で行われるが、配信者の動作によって即座に切り替えられることでより配信者の意思を反映し、かつ視聴者からは臨場感を感じられるストリーミングコンテンツを生成することができる。また、配信者自らが配信者端末あるいは編集端末を操作することなくストリーミングコンテンツの切替編集作業を行うことができ、コンテンツ配信中に配信者の動作が中断されることがない。
 2.実施の形態の詳細
 実施の形態について更に詳述する。
 〔実施形態1〕
 図1は、実施形態1に係るコンテンツ配信サーバを含む、コンテンツ配信システムの構成例を示すブロック図である。
 図1に示すように、コンテンツ配信サーバ1は、ネットワーク100を介して複数の配信者端末2、編集者端末3に接続され、複数の視聴者端末4にストリーミングコンテンツを配信することができる。
 配信者端末2は、コンテンツ配信者が動画を撮像し、撮像した動画を、ネットワーク100を介してコンテンツ配信サーバ1に送信するものである。配信者端末2は、撮像機能とネットワーク通信機能を有する端末であり、例えばスマートフォンやカメラ付きの携帯電話、ノートパソコン、通信機能付きのデジタルカメラなどである。また、撮像機能とネットワーク通信機能が別の装置になっていて互いが接続されたものでもよく、デジタルカメラを接続したパソコン等の装置でもよい。
 編集者端末3は、コンテンツ配信サーバ1から提供される編集画面を表示し、編集者が編集画面を介して入力した編集操作を編集情報としてコンテンツ配信サーバ1に送信するものである。編集者端末3は、ネットワーク100との通信機能を有し、編集画面を表示する表示機能および編集者からの編集操作を受け付ける入力機能を有し、具体的にはタッチ操作可能なタブレットあるいはスマートフォンが好適である。また、表示機能、通信機能、入力機能はそれぞれ別筐体で実現されていてもよく、汎用のパソコンなどの端末でもよい。
 視聴者端末4は、コンテンツ配信サーバ1から配信されるストリーミングコンテンツを表示、視聴するための端末である。視聴者端末4は、ネットワーク100との通信機能を有し、ストリーミングコンテンツを表示する表示機能を有する。具体的にはスマートフォン、タブレット、ノートパソコン、テレビなどが挙げられる。また、表示機能、通信機能はそれぞれ別筐体で実現されていてもよく、汎用のパソコンなどの端末でもよい。なお、図1には複数の視聴者端末が例示されているが、1台でもよい。
 ネットワーク100は、コンテンツ配信サーバ1、配信者端末2、編集者端末3、視聴者端末4を通信可能に接続しており、好適には携帯電話網とインターネットが挙げられるが、LAN(Local Area Network)などの閉じられた通信網でもよい。またその形態は有線、無線に限定されない。
 <コンテンツ配信サーバの構成>
 図2は、コンテンツ配信サーバ1の機能構成の一例を示すブロック図である。コンテンツ配信サーバ1は、配信者動画受信部11と、バッファ部12と、編集画面生成部13と、編集情報送受信部14と、ストリーミングコンテンツ生成部15と、ストリーミングコンテンツ配信部16とを備える。より具体的には、コンテンツ配信サーバ1はインターネットなどのネットワークに接続するためのインターフェースを配信者動画受信部11、編集情報送受信部14、ストリーミングコンテンツ配信部16に備えたデータサーバであればよく、好適にはクラウドサーバーを使って実現される。このとき、配信者動画受信部11、編集情報送受信部14、ストリーミングコンテンツ配信部16等は、クラウドサーバーを構成するコンピュータ上でプログラム(ソフトウェア)を動作させることによって求められる機能が実現されるとよい。
 配信者動画受信部11は、ネットワーク100を介して複数の配信者端末2から配信者動画を受信する処理を行う。配信者動画受信部11は、複数の配信者端末2から配信者動画を同時にかつ独立して受信することが可能に構成されている。
 バッファ部12は、配信者動画受信部11にて受信した配信者動画を一時的に所定単位でバッファリングして蓄積する。具体的には、所定時間ごとにバッファ部12内に記録する配信者動画が数秒から数十秒の長さとなるように随時更新しながら蓄積する。
 編集画面生成部13は、例えば図3(後述)に示す編集画面5のデータを生成する。編集画面5のデータは、編集画面5の構成を示す編集画面配置情報と、編集画面配置情報で指定された配信者動画をバッファ部12から取得するための撮像者動画取得制御情報とから成る。編集画面情報5は、具体的には、編集画面配置情報がHTML、制御情報がJavaScriptなどのプログラミング言語から構成され、編集者端末3内のブラウザーにて表示、実行される。あるいは、編集者端末3内に編集画面表示用のアプリケーションがインストールされており、所定のプロトコルによる編集画面の情報を生成してもよい。
 編集情報送受信部14は、編集画面生成部13によって生成された編集画面5を編集者端末3にネットワーク100を介して送信する。また編集画面5に表示する複数の配信者動画を、編集者端末3から撮像者動画取得制御情報に従った要求を受信し、それに基づいて編集者端末3にリアルタイムで送信する。送信される複数の配信者動画は、通信容量を抑制するためにサムネイルサイズに縮小されて送信されるのが好適である。また、編集者端末3において編集者から編集画面を介して入力された前記編集操作を編集者端末3から編集情報として受信する。編集情報とは具体的には、ストリーミングコンテンツにおける配信者動画の画面上の配置情報、表示される配信者動画の切替情報、表示された複数の配信者動画の音声制御情報などである。
 ストリーミングコンテンツ生成部15は、編集情報送受信部14にて受信した編集情報に基づいてストリーミングコンテンツを作成する。編集情報は、ストリーミングコンテンツにおける配信者動画の画面上の配置情報、表示される配信者動画の切替情報、表示された複数の配信者動画の音声制御情報の情報を含み、ストリーミングコンテンツ生成部15はバッファ部12から配信者動画を取得し、取得した編集情報に基づいて画面上の動画の配置、切替、音声調整を行ってストリーミングコンテンツを作成する。
 ストリーミングコンテンツ配信部16は、ストリーミングコンテンツ生成部15からストリーミングコンテンツを受信し、ネットワーク100を介して視聴者端末にストリーミングコンテンツを配信する。
 <編集画面の構成>
 図3は、編集者端末3で表示される編集画面5の一例を示す模式図である。編集画面5は前述したように、コンテンツ配信サーバ1の編集画面生成部13によって生成され、編集情報送受信部14からネットワーク100を介して編集者端末3に送信され、編集者端末3の表示画面に表示される。
 編集者端末3は、複数の配信者動画を編集画面生成部13からリアルタイムで受信して編集画面5として表示する機能を有しており、受信した配信者動画をサムネイル表示部52に一覧表示する。サムネイル表示部52には、リアルタイムに受信した配信者動画のサムネイルが表示され、随時更新される。編集者は、サムネイル表示部52に表示された任意の配信者動画を表示画面へのタッチ操作やマウスカーソルによる選択動作で選択することができ、サムネイル表示部52は入力を受け付ける。選択された配信者動画は図3に示すように外枠が強調表示され、選択されたことがわかるようになる。なお、配信者動画の選択方法、選択表示方法は一例であり、この構成に限定されるものではない。
 レイアウト選択部53は、ストリーミングコンテンツの画面構成を選択、指示を受け付ける。本実施形態では、レイアウト選択部53には同時に表示する配信者動画の形式が表示されており、それぞれ1つの撮像者動画を画面のフルサイズで表示するレイアウト、画面を2分割ないし4分割するレイアウトの設定がアイコンにより選択可能となっている。レイアウトはこれに限らず縦2分割、8分割、ワイプインなど他のバリエーションを用意して選択できるようにしてもよい。なお、図3の例では、1つの配信者動画が1画面での表示が選択され、レイアウト選択部53の該当するアイコンの外枠が強調表示され視認可能となっている。
 テロップ入力部55は、画面に表示するテロップに対する入力を編集者から受け付ける。本実施形態では図示しないが、テロップの表示個所を指定する入力部やテロップのフォントや色を指定するための入力部がさらに設けられていてもよい。
 プレビュー表示部51には、サムネイル表示部52、レイアウト選択部53およびテロップ入力部55への編集者の入力結果を反映したストリーミングコンテンツのプレビューが表示される。プレビュー表示には、サムネイル表示部52に表示された複数の配信者動画を適宜配置して合成された動画を表示する。視聴者端末4に配信されるストリーミングコンテンツは、後述する配信サーバでの処理によるものであり、プレビューはストリーミングコンテンツの編集者端末での確認のために生成、表示されるものである。
 <コンテンツ配信サーバの動作>
 次に、コンテンツ配信サーバ1が配信者端末2によって撮像された配信者動画を受け取って、視聴者端末4にストリーミングを配信するまでのコンテンツ配信サーバ1の一連の動作について具体的な例を挙げながら説明する。なお、この具体例は本発明における配信コンテンツの内容、コンテンツ配信サーバ1の動作を説明するための一例であり、配信コンテンツの内容、コンテンツ配信サーバ1の動作を限定するものではない。
 本実施形態では、配信者らはオンラインでのレッスンをストリーミング配信するものとする。配信者の一人は、レッスンのインストラクターであり、複数の生徒がオンラインでのレッスンを受講している。つまりオンラインレッスンのインストラクターおよび生徒らは配信者であり、オンラインレッスンを配信者端末2にて実施している。配信者端末2はカメラおよび通信機能を備えており、撮像動画を配信者動画としてコンテンツ配信サーバ1に送信する。配信者らのオンラインレッスンによるコミュニケーションは、図示しない既存のビデオ会議システムを利用して行われ、ビデオ会議システムは、コンテンツ配信サーバ1とは別のサーバによって提供されてもよいし、コンテンツ配信サーバ1によって提供されてもよい。
 オンラインレッスン中の各配信者端末2からの配信者動画は、ビデオ会議システムで利用される撮像動画であり、配信者端末ごとに独立してコンテンツ配信サーバ1に送信される。
 配信者動画受信部11は、複数の配信者端末2から配信者動画を受信する。配信者動画受信部11は、受信した配信者動画がどの端末から来たかを識別して受信し、識別した情報とともにバッファ部12に記録する。配信者動画の送信元の識別には、配信者端末2に設定されたユーザ情報、ビデオ会議システムで用いられているユーザ名などが好適であるが、配信者端末のIPアドレス、端末名などでもよい。
 続いて、編集画面生成部13は、図3に例示する編集画面5のデータを生成する。編集画面5のデータは、あらかじめ編集画面5の構成を示す編集画面配置情報と、編集者端末3から配信者動画をバッファ部12から取得するための撮像者動画取得制御情報とから成る。編集画面5のデータは、具体的には、編集画面配置情報がHTML、撮像者動画制御情報がJavaScriptなどのプログラミング言語から構成され、編集者端末3内のブラウザーにて表示、実行される。あるいは、編集者端末3内に編集画面表示用のアプリケーションがインストールされており、所定のプロトコルによる編集画面の情報を生成してもよい。
 編集情報送受信部14は、編集画面5のデータを編集者端末3に送信し、編集者端末3は編集画面5のデータを受信し、表示装置に編集画面5を表示する。編集者端末3は編集画面5のデータの撮像者動画取得制御情報に従って、編集情報送受信部14を介してバッファ部12から配信者動画をリアルタイムで受信する。受信した配信者動画は、編集画面5において編集画面配置情報に従って配置し、表示される。また、表示の際には、配信者動画の有する時間情報に従って各動画が同期されるように表示される。また、編集画面配置情報は、初期設定の情報を持つ。例えば本実施形態の場合では、インストラクターの映像が一画面に映っている。
 編集者は編集画面5により、ストリーミングコンテンツの編集を行う。編集者は、レイアウト選択部53から画面構成を選択する。図3の例では1画面に1動画のレイアウトが選択されており、レイアウト選択部53から任意の構成を選ぶことにより、プレビュー部51の表示が切替えられる。編集者はレイアウト選択後、各表示個所に表示する動画を選択する。選択は、プレビュー部51の該当箇所を選択し、その個所に表示したい動画をサムネイル表示部52から選択する。また、サムネイル表示部52から表示対象となる動画を選択し、プレビュー部51の該当箇所にドラッグアンドドロップして選択されてもよい。図4はレイアウトが変更された編集画面5の表示例で、レイアウト選択部53で左右画面分割のレイアウトが選択されハイライト表示され、プレビュー部51の表示が左右2分割されて表示されている。編集者は破線部で示す音量調節部54により表示対象とした動画の音量調節を行う。また、テロップ入力部55によりテロップを編集、挿入することができる。
 編集者端末3は、編集画面5により編集操作が行われると随時、編集操作の内容を編集情報としてコンテンツ配信サーバ1に送信する。編集情報の内容としては、レイアウト選択部53で選択した画面レイアウト情報、指定した画面レイアウトに表示する配信者動画の指示情報、音量調節指示情報、テロップ情報と、これらの情報のもととなった各編集操作が行われた配信者動画における時間情報とが含まれる。時間情報は、編集者によって編集操作が行われた時刻の情報ではなく、編集画面5のサムネイル表示部52で表示されている配信者動画上の時間軸における編集操作の時間情報である。
 コンテンツ配信サーバ1は、編集者端末3より送信された編集情報を編集情報送受信部14により受信する。受信された編集情報はストリーミングコンテンツ生成部15に送信される。
 ストリーミングコンテンツ生成部15は、受信した編集情報に基づいてストリーミングコンテンツを生成する。ストリーミングコンテンツ生成部15は、ストリーミングコンテンツ配信開始時から編集情報の受信の有無によらずリアルタイムにバッファ部12から配信者動画を常時取得し、ストリーミングコンテンツを生成しており、編集情報を受け取ったタイミングで配信者動画の指示情報、音量調節指示情報、テロップ情報およびそれらの操作がなされた時間情報を参照し、バッファ部12から受信する複数の配信者動画に対して編集情報で指示された編集内容を適切なタイミングで適用しながらストリーミングコンテンツを生成する。
 図5は、編集情報に従ってストリーミングコンテンツが生成される動作のタイムチャートの一例を示す模式図である。横軸の時間は配信開始時からの経過時間であり、各配信者動画が有する時間情報と一致している。換言すると、ストリーミングコンテンツ生成部15は時間情報をもとに各配信者動画を同期処理している。タイムライン503は各配信者動画のストリームを表現しており、配信者端末2の各端末を便宜的に1ないし4の番号で表している。このタイムチャートにおける処理の流れは以下のとおりである。
(1)開始60秒までは初期状態の設定に従い動画1が画面全体に表示される。
(2)編集情報501に基づいて開始60秒の時点で左右2分割の画面にレイアウトが変更され、左側領域に動画1、右側領域に動画3が表示される。
(3)編集情報502に基づいて開始180秒の時点で画面を3分割し、左の領域から順に動画2、動画3、動画4を表示する。
 なお、このタイムチャートは時間経過と編集操作の関係を示すものであり、バッファ部12に格納された配信者動画が配信時間分保存されていることを示すものではない。バッファ部12には数秒から数十秒程度分の配信者動画が一時記憶され、随時更新される。
 ストリーミングコンテンツの生成では、バッファ部12への配信者動画の記録の最新時間から2秒程度遅れたタイミングで随時ストリーミングコンテンツの生成を行う。これは編集者端末3への編集画面の送信、編集者端末3での編集画面の表示、編集情報の受信までの一連の処理に時間がかかるため、ストリーミングコンテンツ生成部15での編集情報における時間指定とストリーミングコンテンツ生成のタイミングを同期させるためである。
 ストリーミングコンテンツ生成部15は、ストリーミングコンテンツを生成し、ストリーミングコンテンツ配信部16へ送信する。ストリーミングコンテンツ配信部16は、ネットワーク100を介して視聴者端末4にストリーミングコンテンツを配信する。
 本実施形態によれば、ネットワークで接続された複数の配信者動画からストリーミング配信を行う際のコンテンツ編集機能をソフトウエアで提供することができ、配信者および編集者は配信場所の物理的な制限を受けることなく、かつ低コストでストリーミングコンテンツの編集と配信を行うことが可能となる。
 〔実施形態2〕
 本実施形態では、コンテンツ配信サーバ1はさらに動画記憶部(配信者動画記憶手段)17を有し、永続的に配信者動画を保存する。また、編集画面5により、動画記憶部17内の配信者動画の所定の時間範囲を指定することでストリーミングコンテンツに配信者動画の過去動画(プレイバック動画)を含めることができる。
 図6は本実施形態におけるコンテンツ配信サーバ1の構成例を示すブロック図である。図2の構成例に動画記憶部17が追加されている。動画記憶部17は、配信者動画を記録し、バッファ部12からリアルタイムに配信者動画を受け取り、追記する形で配信者動画を記録する。バッファ部12は一時的に所定範囲の配信者動画を記録するのに対して、動画記憶部17では配信開始から最新更新分までの配信者動画を継続的に記録し、配信終了後も保持し続ける。動画記憶部17に記憶した配信者動画は、編集画面5内の図示しない指示手段で消去の指示を受け付け、動画記憶部17から消去される。また、ストリーミングコンテンツ配信後所定時間経過後に自動的に消去されてもよい。
 図3の編集画面5の下部破線で囲まれた領域はプレイバック指示手段550である。編集者端末3は、編集者がプレイバック指示手段550を介して配信者動画の過去の一部分をプレイバック動画としてストリーミングコンテンツに含むよう編集する指示を受け付ける。編集者は、プルダウン552によりプレイバック対象となる配信者撮像撮像動画を選択する。このときプルダウン552には配信者端末におけるユーザ名が表示されて選択可能となっている。プレイバック対象となる動画が選択されると、タイムラインプレビュー領域551に該当する配信者動画が時系列にてサムネイル表示される。時系列の表示は動画の初めから最後まで全体を表示していてもよいし、所定時間前から現在までの範囲や過去の所定の時間範囲で表示してもよい。
 編集者はタイムラインプレビュー領域551からプレイバック対象となる時間範囲を設定する。設定はタイムラインプレビュー領域551の時間軸範囲をマウスのドラッグアンドドロップやクリック操作などで指定する。図3の例では7秒から20秒までの範囲が選択されている。時間範囲の選択後、ボタン553を押下することにより、選択した配信者動画の指定範囲がプレイバック対象となったことを表すように、サムネイル画像がストリーミングコンテンツの切替表示候補としてサムネイル表示部52に表示される。本実施形態では時間範囲の最初のフレームの静止画サムネイルが表示されている。プレイバック対象であることを示すためにサムネイルには図3に示すように「REPLAY」の文字が重畳して表示されている。一方ストリーミングで受信している配信者動画のサムネイルには「LIVE」の文字が重畳されている。このようにストリーミング動画とプレイバック対象の動画が区別できるようにサムネイル部52、プレビュー部51、ストリーミングコンテンツで「LIVE」、「REPLAY」などの文字が重畳して表示されると、視聴者にもどのタイミングでの動画であるのかわかりやすく好適である。
 編集者は、プレイバック対象の動画を切替え表示したい任意のタイミングで、該当するサムネイル部52内のサムネイル画像をプレビュー部の表示したい箇所にドラッグアンドドロップする。例えば、図4に示す編集画面において、プレビュー部51の右半分領域に現在Aさんの配信者動画が表示されているが、これに替えてサムネイル部52のBさんのプレイバック動画を表示したい場合は、サムネイル部52のBさんのプレイバック動画のサムネイルをプレビュー部51の右半分領域の所定の位置にドラッグアンドドロップする。これにより、プレビュー部にプレイバック対象の動画がプレビュー部51に表示され、編集情報として、プレイバック対象の動画となる配信者動画の識別情報および時間範囲の指示情報、レイアウト選択部53で選択した画面レイアウト情報、音量調節指示情報、テロップ情報と、これらの情報のもととなった各編集操作が行われた配信者動画における時間情報とが含まれる。
 ストリーミングコンテンツ生成部15は、受信した編集情報に基づいてストリーミングコンテンツを生成する。生成方法は実施形態1とほぼ同様であるが、プレイバック対象の動画が編集情報内で指定されている場合は、動画記憶部17から指定された配信者動画を取得し、指定された時間範囲の映像を編集情報の切替時間、レイアウトに応じて表示する。
 ストリーミングコンテンツ生成部15は、配信中は継続的にストリーミングコンテンツを生成し、ストリーミングコンテンツ配信部16へ送信する。ストリーミングコンテンツ配信部16は、ネットワーク100を介して視聴者端末4にストリーミングコンテンツを配信する。
 本実施形態によれば、リアルタイムのストリーミングコンテンツ配信において、プレイバック用の録画機器や編集機器を別途用意することなく、容易な操作で即時に、配信者動画の過去の場面をさかのぼって切替表示することが可能となる。
 なお、本実施形態では、動画記憶部(配信者動画記憶手段)17は、永続的に配信者動画を保存する例を示したが、最新の画像から遡って所定の範囲(例えば、時間範囲、または記憶容量によって許容される範囲)にのみを保存するように変更することができる。これにより、記憶容量が抑えられ、また記憶すべき時間の長さ(例えば配信するストリームコンテンツ全体の時間)に依存して使用される記憶容量が変動する問題が解決される。
 〔実施形態3〕
 本実施形態では、コンテンツ配信サーバ1はさらにジェスチャ認識部18を有し、配信者は所定のジェスチャにより動画切替などの編集操作を行うことができる。
 図7は本実施形態におけるコンテンツ配信サーバ1の構成例を示すブロック図である。本実施形態のコンテンツ配信サーバ1は、ジェスチャ認識部18を有する。
 ジェスチャ認識部18は、バッファ部12からストリーミングコンテンツ配信中は継続的に配信者動画を受信し、いずれかの配信者動画に写っている配信者が所定のジェスチャを行っているかを検出する。ジェスチャの認識手段は既存の骨格認識モジュールを利用し、所定のジェスチャをあらかじめ学習する。検出したジェスチャがストリーミングコンテンツの編集に関する動作である場合には、検出したジェスチャに基づいて編集情報を生成し、ストリーミングコンテンツ生成部15に送信する。またインタラクティブ性を高めるために、前述の配信者どうしのビデオ会議システム上でもジェスチャ動作に基づいて表示動画切替などの動作をすることが好適である。
 ジェスチャの例としては、配信者が頭上で両手を交差させて手を振り、自身の配信者動画への切り替えを希望するなどの動作が考えられる。また、画面の四隅のいずれかを手で指し示して手を振るなどのジェスチャを配信者動画の切り替えジェスチャとして、あらかじめ各四隅に対応する切換対象の配信者動画を定義しておき、該当する配信者動画への切り替えを行ってもよい。いずれにしても配信者がストリーミングコンテンツ配信時に行いうる動作とは識別可能なジェスチャを任意に設定することが好適である。
 編集情報にはジェスチャが行われた時間情報、ジェスチャによって指定された配信者動画の切替情報が含まれ、内容としては編集情報送受信部14から送られる編集情報と共通した内容が含まれる。ストリーミングコンテンツ生成部15は、ジェスチャ認識部18から送信された編集情報に基づいてストリーミングコンテンツを生成する。
 ストリーミングコンテンツ生成部15には、編集情報が編集情報送受信部14とジェスチャ認識部18の両方から送信されることになるが、特に区別することなく受信した時点で随時編集情報を適用してストリーミングコンテンツを生成してもよいし、いずれかを優先して、例えば数秒の間にジェスチャ認識部18と編集情報送受信部14の両方から編集情報を受信した時には、ジェスチャ認識部18からの編集情報のみを優先して適用するなどとしてもよい。
 ストリーミングコンテンツ生成部15は、配信中は継続的にストリーミングコンテンツを生成し、ストリーミングコンテンツ配信部16へ送信する。ストリーミングコンテンツ配信部16は、ネットワーク100を介して視聴者端末4にストリーミングコンテンツを配信する。
 これにより、配信者は自身の意思で即座に画面の切替操作が可能となる。通常時の画面切替などの編集操作は、コンテンツの番組構成や編集者の裁量で行われるが、配信者の動作によって即座に切り替えられることでより配信者の意思を反映し、かつ視聴者からは臨場感を感じられるストリーミングコンテンツを生成することができる。また、配信者自らが配信者端末あるいは編集端末を操作することなくストリーミングコンテンツの切替編集作業を行うことができ、コンテンツ配信中に配信者の動作が中断されることがない。
 なお、図7に示した構成例では、コンテンツ配信サーバ1が動画記憶部17を備えるが、動画記憶部17は省略されてもよい。
 〔実施形態4〕
 コンテンツ配信サーバ1は、実施形態3の構成から生成部13および編集情報送受信部14を有さず、編集者端末との接続がない構成となってもよい。ストリーミングコンテンツ配信中の画面切替は配信者のジェスチャのみによって行われる。配信者のジェスチャによる編集操作、ストリーミングコンテンツの生成については実施形態3で述べた方法と同様である。
 これにより、編集用の端末を用意することなく、より簡易な構成でコンテンツ配信サーバ1を実現することができる。また、配信者自らが配信者端末あるいは編集端末を操作することなくストリーミングコンテンツの切替編集作業を行うことができ、コンテンツ配信中に配信者の動作が中断されることがない。
 以上本発明者によってなされた発明を実施形態に基づいて具体的に説明したが、本発明はそれに限定されるものではなく、その要旨を逸脱しない範囲において種々変更可能であることは言うまでもない。
 本発明は、複数台カメラからの動画像を中継して、複数の視聴者端末にライブストリーミング放送を配信する映像配信サーバに利用することができる。
1 コンテンツ配信サーバ
11 配信者動画受信部
12 バッファ部
13 編集画面生成部
14 編集情報送受信部
15 ストリーミングコンテンツ生成部
16 ストリーミングコンテンツ配信部
17 配信者動画記憶部
18 ジェスチャ認識部
2 配信者端末
3 編集者端末
4 視聴者端末
5 編集画面
501、502 編集情報
503 タイムライン
51 プレビュー部
52 サムネイル表示部
53 レイアウト選択部
54 音量調節部
55 テロップ入力部
550 プレイバック指示手段
551 タイムラインプレビュー領域
552 プルダウン
553 ボタン
100 ネットワーク
 

 

Claims (4)

  1.  ネットワークを介して接続された複数の配信者端末からの配信者動画を受信してストリーミングコンテンツを生成し、視聴者端末に前記ストリーミングコンテンツを配信するコンテンツ配信サーバであって、
    前記複数の配信者動画を受信する配信者動画受信部と、
    前記複数の配信者動画を一時記憶するバッファ部と、
    前記バッファ部内の複数の配信者動画を合成し、前記ネットワークを介して接続された編集者端末から前記ストリーミングコンテンツの編集操作を受け付けるための編集画面を生成する編集画面生成部と、
    前記編集者端末に前記編集画面を送信し、前記編集者端末から前記編集画面を介して入力された前記編集操作を編集情報として受信する編集情報送受信部と、
    前記編集情報に基づいて、前記バッファ部内に保持された前記複数の配信者動画から前記ストリーミングコンテンツを生成するストリーミングコンテンツ生成部と、
    前記ネットワークを介して視聴者端末に前記ストリーミングコンテンツを配信するストリーミングコンテンツ配信部と、
    を備えたコンテンツ配信サーバ。
  2.  前記編集情報は、前記ストリーミングコンテンツにおける画面構成と、前記画面構成に配置される前記複数の配信者動画の切替指示を含むことを特徴とする請求項1に記載のコンテンツ配信サーバ。
  3.  前記コンテンツ配信サーバは配信者動画記憶手段をさらに有し、
     前記バッファ部に記憶された前記複数の配信者動画のうちの一部または全部を記憶し、
     前記編集情報送受信部は、前記編集者端末により前記編集画面を介して入力されたプレイバック指示を前記編集情報に含めて受信する機能をさらに有し、
     前記プレイバック指示は、プレイバック対象となる前記配信者動画記憶手段内の配信者動画の指定と、前記ストリーミングコンテンツにおける切替挿入対象となる前記プレイバック対象動画の時間の範囲の指示とを含み、
     前記ストリーミングコンテンツ生成部は、受信した前記編集情報に基づいて前記プレイバック指示で指定された前記配信者動画記憶手段内の指定された配信者動画の範囲を用いて前記ストリーミングコンテンツを生成することを特徴とする請求項2に記載のコンテンツ配信サーバ。
  4.  前記コンテンツ配信サーバはさらにジェスチャ認識部を有し、
     前記ジェスチャ認識部は、前記バッファ部から受信した前記複数の配信者動画からいずれかの配信者が所定のジェスチャを行ったことを識別し、前記ジェスチャがストリーミングコンテンツにおける切替操作を要求するジェスチャである場合、検知したジェスチャに基づいて前記ストリーミングコンテンツ生成部に編集情報を送信することを特徴とする請求項1ないし請求項3に記載のコンテンツ配信サーバ。

     
PCT/JP2021/034436 2021-09-17 2021-09-17 コンテンツ配信サーバ WO2023042403A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2021/034436 WO2023042403A1 (ja) 2021-09-17 2021-09-17 コンテンツ配信サーバ
JP2022503425A JP7062328B1 (ja) 2021-09-17 2021-09-17 コンテンツ配信サーバ

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/034436 WO2023042403A1 (ja) 2021-09-17 2021-09-17 コンテンツ配信サーバ

Publications (1)

Publication Number Publication Date
WO2023042403A1 true WO2023042403A1 (ja) 2023-03-23

Family

ID=81456247

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/034436 WO2023042403A1 (ja) 2021-09-17 2021-09-17 コンテンツ配信サーバ

Country Status (2)

Country Link
JP (1) JP7062328B1 (ja)
WO (1) WO2023042403A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002199331A (ja) * 2000-12-26 2002-07-12 Nippon Telegraph & Telephone East Corp 会議映像編集システムおよびそれを用いた会議映像配信システム
WO2005013618A1 (ja) * 2003-07-31 2005-02-10 Institute Of Tsukuba Liaison Co.,Ltd. ライブストリーミング放送方法、ライブストリーミング放送装置、ライブストリーミング放送システム、プログラム、記録媒体、放送方法及び放送装置
JP2009267999A (ja) * 2008-04-28 2009-11-12 Pasuteru Lab:Kk ライブ配信システム、動画撮影システム、及び動画配信方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016039612A (ja) * 2014-08-11 2016-03-22 株式会社電通 コンテンツ配信システム、コンテンツ配信方法、送信装置及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002199331A (ja) * 2000-12-26 2002-07-12 Nippon Telegraph & Telephone East Corp 会議映像編集システムおよびそれを用いた会議映像配信システム
WO2005013618A1 (ja) * 2003-07-31 2005-02-10 Institute Of Tsukuba Liaison Co.,Ltd. ライブストリーミング放送方法、ライブストリーミング放送装置、ライブストリーミング放送システム、プログラム、記録媒体、放送方法及び放送装置
JP2009267999A (ja) * 2008-04-28 2009-11-12 Pasuteru Lab:Kk ライブ配信システム、動画撮影システム、及び動画配信方法

Also Published As

Publication number Publication date
JP7062328B1 (ja) 2022-05-06
JPWO2023042403A1 (ja) 2023-03-23

Similar Documents

Publication Publication Date Title
US9135956B2 (en) Method and computer program product for establishing playback timing correlation between different contents to be playbacked
US7956929B2 (en) Video background subtractor system
US20070122786A1 (en) Video karaoke system
JP2001313915A (ja) テレビ会議装置
JPH11196345A (ja) 表示システム
US9472238B2 (en) Systems and methods for linked mobile device content generation
KR20040025073A (ko) 디지털 방송상에서 스케쥴 정보를 간이 채널 이미지와병기하여 텔레비젼 화면에 표시하는 방법
KR20060120571A (ko) 라이브 스트리밍 방송 방법, 라이브 스트리밍 방송 장치,및 컴퓨터 프로그램
KR20170090392A (ko) 디바이스간 동기화된 인터랙션을 제공하는 콘텐츠 동기화 장치 및 방법
US20240146863A1 (en) Information processing device, information processing program, and recording medium
KR101581343B1 (ko) 멀티앵글영상서비스의 사용자인터페이스 메뉴 제공방법 및 사용자 인터페이스메뉴 제공장치
CN117837150A (zh) 显示设备、通信终端及投屏画面动态显示方法
US9924209B2 (en) System and method for controlling reproduction using terminal
JP2006041884A (ja) 情報処理装置および方法、記録媒体、並びにプログラム
WO2023042403A1 (ja) コンテンツ配信サーバ
JP2007104540A (ja) 撮影画像配信装置、撮影画像配信プログラム及び撮影画像配信方法
KR101566981B1 (ko) 공중파 방송과 중첩 재생되는 코멘트 방송 시스템
US20070169160A1 (en) Image display device and reservation recording method thereof
TWI401948B (zh) 具有畫面顯示調整功能之影音儲存與播放系統以及應用於其上之方法
JP2008090526A (ja) 会議情報保存装置、システム、会議情報表示装置及びプログラム
JP2019169928A (ja) 字幕生成装置及び字幕生成プログラム
WO2023138222A1 (zh) 显示设备和直播方法
CN109862311B (zh) 视频内容的实时制作方法
TWI619388B (zh) Interactive media player system and method for instantly playing media exclusive information
JPH11355732A (ja) 送信装置および受信装置

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 2022503425

Country of ref document: JP

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21957584

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE