WO2022055198A1 - 다중 라이브 송출 환경에서의 채널 간 고속 전환 모드를 구현하는 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체 - Google Patents

다중 라이브 송출 환경에서의 채널 간 고속 전환 모드를 구현하는 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체 Download PDF

Info

Publication number
WO2022055198A1
WO2022055198A1 PCT/KR2021/012025 KR2021012025W WO2022055198A1 WO 2022055198 A1 WO2022055198 A1 WO 2022055198A1 KR 2021012025 W KR2021012025 W KR 2021012025W WO 2022055198 A1 WO2022055198 A1 WO 2022055198A1
Authority
WO
WIPO (PCT)
Prior art keywords
view
video
channel
image
full
Prior art date
Application number
PCT/KR2021/012025
Other languages
English (en)
French (fr)
Inventor
장준기
김성호
노혜성
정윤호
김진훈
정영진
김정기
강인철
이종혁
안재철
조성택
Original Assignee
네이버 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 네이버 주식회사 filed Critical 네이버 주식회사
Priority to JP2023513587A priority Critical patent/JP2023540047A/ja
Publication of WO2022055198A1 publication Critical patent/WO2022055198A1/ko
Priority to US18/181,233 priority patent/US20230217047A1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • H04N21/4316Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations for displaying supplemental content in a region of the screen, e.g. an advertisement in a separate window
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/21805Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • H04N21/23424Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving splicing one content stream with another content stream, e.g. for inserting or substituting an advertisement
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/266Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
    • H04N21/2662Controlling the complexity of the video stream, e.g. by scaling the resolution or bitrate of the video stream based on the client capabilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4318Generation of visual interfaces for content selection or interaction; Content or additional data rendering by altering the content in the rendering process, e.g. blanking, blurring or masking an image region
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/44016Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/485End-user interface for client configuration
    • H04N21/4858End-user interface for client configuration for modifying screen layout parameters, e.g. fonts, size of the windows

Definitions

  • the description below relates to a technique for switching between channels in a multi-live transmission environment.
  • the rapid increase in the number of users of high-speed communication networks enables the development of new services and diversification of service items through communication networks.
  • the most common service is a video service.
  • a client-server video service system is a structure that delivers real-time video streaming from an encoder server to a client.
  • a method and system for configuring a multi-view including multi-channel video using a minimal network in a multi-live transmission environment that provides multi-channel live video are provided.
  • a method and system for implementing a fast switching mode while maintaining audio and video synchronization when switching between channels in a multi-live transmission environment are provided.
  • a live video playback method executed in a computer device comprising at least one processor configured to execute computer readable instructions contained in a memory, the live video playback method being performed by the at least one processor , receiving a composite image in which images of multi-channels are synthesized into one in a live transmission environment as one stream to configure a multi-view composed of the images of the multi-channels; and receiving the original video of the specific channel as the video of the specific channel is selected in the multi-view by the at least one processor and converting to a full-view of the video of the specific channel in the multi-view It provides a live video playback method comprising the steps.
  • the configuring of the multi-view may include: obtaining sprites for each channel by separating a composition image for each channel from the synthesized image; and configuring the multi-view by rendering the sprites for each channel according to the layout.
  • an image of one channel may be composed of a main image having a higher resolution than that of the other channels, and images of the other channel may be composed of sub images.
  • the method may include receiving the original image and rendering the original image on a full screen.
  • the sprites of the other channels may be included in a hidden state without being rendered.
  • receiving, by the at least one processor, a request for switching from the full-view to the multi-view is received receiving the composite video and switching from the full-view to the multi-view. may include more.
  • a temporary screen is rendered in a predetermined layout according to the switching request, and then the composite image is received and the sprites for each channel separated from the composite image are converted into the multi-view. It may include rendering to the layout of the view.
  • the temporary screen is constructed using any one of a thumbnail included in a video stream, a copy of the original video, and the last video exposed to the multi-view before switching to the full view.
  • the copy in the case of the temporary screen using the copy, the copy may be blurred and exposed.
  • a segment duration of a video stream may be changed for video conversion between the multi-view and the full view.
  • an image stream corresponding to previous data may be flushed from a player buffer for image switching between the multi-view and the full-view.
  • a video switching time between the multi-view and the full view may be determined using timed-metadata included in the container of the video stream.
  • a computer-readable recording medium in which a program for executing the live video reproducing method on a computer is recorded.
  • a computer device comprising: at least one processor configured to execute computer readable instructions contained in a memory, wherein the at least one processor generates a composite image in which images of multiple channels in a live transmission environment are synthesized into one Receive as a stream to configure a multi-view consisting of images of the multi-channel, and when an image of a specific channel is selected in the multi-view, receive the original video of the specific channel and pool the video of the specific channel in the multi-view
  • a computer device characterized in that it switches to a view.
  • multi-channel live video can be reproduced using a minimal network by receiving a single stream synthesized from multi-channel live video in a multi-live transmission environment and configuring a multi-view.
  • FIG. 1 is a diagram illustrating an example of a network environment according to an embodiment of the present invention.
  • FIG. 2 is a block diagram illustrating an example of a computer device according to an embodiment of the present invention.
  • FIG. 3 is a diagram illustrating an example of a process of providing a live video service according to an embodiment of the present invention.
  • FIG. 4 is a diagram illustrating an example of a multi-live transmission environment according to an embodiment of the present invention.
  • FIG. 5 is a diagram illustrating an example of a process of encoding a multi-channel video according to an embodiment of the present invention.
  • FIG. 6 is a flowchart illustrating an example of a live video playback method according to an embodiment of the present invention.
  • FIG. 7 is a diagram illustrating an example of a basic process of configuring a multi-view with one stream according to an embodiment of the present invention.
  • FIG. 8 is a diagram illustrating an example of an interface for switching a view mode according to an embodiment of the present invention.
  • FIGS. 9 to 10 are diagrams illustrating an example of a layout conversion process from a multi-view to a full-view according to an embodiment of the present invention.
  • FIG. 11 is a diagram illustrating an example of a layout conversion process from a full view to a multi view according to an embodiment of the present invention.
  • FIG. 12 is a diagram illustrating another example of a layout conversion process from a full view to a multi view according to an embodiment of the present invention.
  • FIG. 13 is a diagram illustrating an example of a process of determining an image transition time according to an embodiment of the present invention.
  • the live video playback system may be implemented by at least one computer device, and the live video playback method according to the embodiments of the present invention includes at least one computer device included in the live video playback system.
  • the computer program according to an embodiment of the present invention may be installed and driven in the computer device, and the computer device may perform the live video playback method according to the embodiments of the present invention under the control of the driven computer program.
  • the above-described computer program may be stored in a computer-readable recording medium in order to be combined with a computer device and execute a method for reproducing a live video on a computer.
  • FIG. 1 is a diagram illustrating an example of a network environment according to an embodiment of the present invention.
  • the network environment of FIG. 1 shows an example including a plurality of electronic devices 110 , 120 , 130 , 140 , a plurality of servers 150 , 160 , and a network 170 .
  • 1 is an example for explaining the invention, and the number of electronic devices or the number of servers is not limited as in FIG. 1 .
  • the network environment of FIG. 1 only describes one example of environments applicable to the present embodiments, and the environment applicable to the present embodiments is not limited to the network environment of FIG. 1 .
  • the plurality of electronic devices 110 , 120 , 130 , and 140 may be a fixed terminal implemented as a computer device or a mobile terminal.
  • Examples of the plurality of electronic devices 110 , 120 , 130 , 140 include a smart phone, a mobile phone, a navigation device, a computer, a notebook computer, a digital broadcasting terminal, a personal digital assistant (PDA), and a portable multimedia player (PMP). ), tablet PCs, etc.
  • PDA personal digital assistant
  • PMP portable multimedia player
  • FIG. 1 the shape of a smartphone is shown as an example of the electronic device 110 , but in embodiments of the present invention, the electronic device 110 is substantially different through the network 170 using a wireless or wired communication method. It may refer to one of various physical computer devices capable of communicating with the electronic devices 120 , 130 , 140 and/or the servers 150 and 160 .
  • the communication method is not limited, and not only a communication method using a communication network (eg, a mobile communication network, a wired Internet, a wireless Internet, a broadcasting network) that the network 170 may include, but also short-range wireless communication between devices may be included.
  • the network 170 may include a personal area network (PAN), a local area network (LAN), a campus area network (CAN), a metropolitan area network (MAN), a wide area network (WAN), and a broadband network (BBN). , the Internet, and the like.
  • the network 170 may include any one or more of a network topology including a bus network, a star network, a ring network, a mesh network, a star-bus network, a tree or a hierarchical network, etc. not limited
  • Each of the servers 150 and 160 communicates with the plurality of electronic devices 110 , 120 , 130 , 140 and the network 170 through a computer device or a plurality of computers that provides commands, codes, files, contents, services, etc. It can be implemented in devices.
  • the server 150 provides a service (eg, a live video service, a content providing service, a group call service (or voice conference service), messaging service, mail service, social network service, map service, translation service, financial service, payment service, search service, etc.).
  • a service eg, a live video service, a content providing service, a group call service (or voice conference service), messaging service, mail service, social network service, map service, translation service, financial service, payment service, search service, etc.
  • FIG. 2 is a block diagram illustrating an example of a computer device according to an embodiment of the present invention.
  • Each of the plurality of electronic devices 110 , 120 , 130 , 140 or the servers 150 and 160 described above may be implemented by the computer device 200 illustrated in FIG. 2 .
  • the computer device 200 may include a memory 210 , a processor 220 , a communication interface 230 , and an input/output interface 240 .
  • the memory 210 is a computer-readable recording medium and may include a random access memory (RAM), a read only memory (ROM), and a permanent mass storage device such as a disk drive.
  • RAM random access memory
  • ROM read only memory
  • a permanent mass storage device such as a disk drive.
  • a non-volatile mass storage device such as a ROM and a disk drive may be included in the computer device 200 as a separate permanent storage device distinct from the memory 210 .
  • an operating system and at least one program code may be stored in the memory 210 . These software components may be loaded into the memory 210 from a computer-readable recording medium separate from the memory 210 .
  • the separate computer-readable recording medium may include a computer-readable recording medium such as a floppy drive, a disk, a tape, a DVD/CD-ROM drive, and a memory card.
  • the software components may be loaded into the memory 210 through the communication interface 230 instead of a computer-readable recording medium.
  • the software components may be loaded into the memory 210 of the computer device 200 based on a computer program installed by files received through the network 170 .
  • the processor 220 may be configured to process instructions of a computer program by performing basic arithmetic, logic, and input/output operations.
  • the instructions may be provided to the processor 220 by the memory 210 or the communication interface 230 .
  • the processor 220 may be configured to execute a received instruction according to a program code stored in a recording device such as the memory 210 .
  • the communication interface 230 may provide a function for the computer device 200 to communicate with other devices (eg, the storage devices described above) through the network 170 .
  • a request, command, data, file, etc. generated by the processor 220 of the computer device 200 according to a program code stored in a recording device such as the memory 210 is transmitted to the network ( 170) to other devices.
  • signals, commands, data, files, etc. from other devices may be received by the computer device 200 through the communication interface 230 of the computer device 200 via the network 170 .
  • a signal, command, or data received through the communication interface 230 may be transferred to the processor 220 or the memory 210 , and the file may be a storage medium (described above) that the computer device 200 may further include. persistent storage).
  • the input/output interface 240 may be a means for an interface with the input/output device 250 .
  • the input device may include a device such as a microphone, keyboard, or mouse
  • the output device may include a device such as a display or a speaker.
  • the input/output interface 240 may be a means for an interface with a device in which functions for input and output are integrated into one, such as a touch screen.
  • the input/output device 250 may be configured as one device with the computer device 200 .
  • the computer device 200 may include fewer or more components than those of FIG. 2 . However, there is no need to clearly show most of the prior art components.
  • the computer device 200 may be implemented to include at least a portion of the above-described input/output device 250 or may further include other components such as a transceiver and a database.
  • 3 is a diagram illustrating an example of a process of providing a live video service according to an embodiment of the present invention.
  • 3 shows a streaming server 310 , an encoder server 320 , and a player 330 , respectively.
  • the streaming server 310 and the encoder server 320 may be software modules installed and driven in the server device to provide a live video service.
  • the player 330 may be software modules installed and driven in a user's terminal device for video reproduction.
  • the software module may correspond to a computer program installed and driven in the computer device 200 .
  • the streaming server 310 is a server device serving as a transmission, and may include, for example, an open broadcaster software (OBS) module for recording and real-time streaming.
  • OBS open broadcaster software
  • the streaming server 310 may receive a video simultaneously shot through a plurality of cameras as input to each channel and stream it in real time to the encoder server 320 as a multi-channel image.
  • the encoder server 320 may use audio of a channel corresponding to a basic channel among a plurality of channels as an elementary stream.
  • the streaming server 310 may transmit multi-channel images in real time by using the OBS module for synchronization processing between video channels. Accordingly, the encoder server 320 may process the synchronization between video channels by obtaining the absolute time of each video frame using coordinated universal time (UTC) time and a video timestamp (PTS).
  • UTC coordinated universal time
  • PTS video timestamp
  • the encoder server 320 may provide an image obtained by synthesizing multi-channel videos into one video so that the player 330 can configure a multi-view using a minimum network.
  • the encoder server 320 may provide a plurality of original images 501 input through multi-channels and a synthesized image 502 created by synthesizing the original images 501 .
  • the encoder server 320 may generate the composite image 502 using the original images (Cam#1 to Cam#6) 501 captured by six cameras.
  • the synthesized image 502 is an image in which the original images 501 are combined into one, and the encoder server 320 may generate the synthesized image 502 by combining the original images 501 according to a predetermined layout.
  • the encoder server 320 may configure a video of one channel among multi-channels as a main video and a video of the other channel as a sub-video.
  • the encoder server 320 may configure a video (main video) of one channel with a higher resolution than a video (sub video) of another channel.
  • the encoder server 320 may configure all the videos (sub-videos) of the channels except for one channel with the same resolution or with a higher resolution according to the priority in consideration of the priority of each channel.
  • the encoder server 320 may generate the composite image 502 by combining the videos of all channels at the same resolution.
  • the above-described method of generating the synthesized image 502 , the number of synthesized images 502 , and a layout structure are exemplary and can be changed as much as possible.
  • the encoder server 320 synthesizes the original image 501 together with the original image 501 for each channel into one synthesized image 502.
  • the encoder server 320 selectively transmits a composite image 502 for multi-channels for a high-speed switching mode between channels to the player 330 in a multi-live transmission environment, or transmits only one original image 501 for a specific channel can
  • a multi-channel video may be transmitted as a single stream by using the composite video 502 , rather than transmitting all of the plurality of videos coming through the multi-channel as each stream.
  • the original image 501 will be referred to as a 'channel #1 original image', a 'channel #2 original image', and the like for each channel.
  • Each stream of the original image 501 and the synthesized image 502 may include unique information for distinguishing the corresponding image.
  • the player 330 may recognize that the changed image is the channel #2 original image when the playback image is changed to the channel #2 original image while the synthesized image is being reproduced through image unique information of each stream.
  • FIG. 6 is a flowchart illustrating an example of a live video playback method according to an embodiment of the present invention.
  • the live video playback method according to the present embodiment may be performed by the computer device 200 implementing the player 330 described above. If the player 330 is implemented in the user's terminal device, the computer device 200 may correspond to the user's terminal device.
  • the processor 220 of the computer device 200 may be implemented to execute a control instruction according to a code of an operating system included in the memory 210 or a code of at least one program.
  • the processor 220 causes the computer device 200 to perform the steps S610 to S650 included in the method of FIG. 6 according to a control command provided by the code stored in the computer device 200 . can control
  • the computer device 200 may receive one composite image composed of a plurality of images input through multi-channels from the encoder server 320 in a multi-live transmission environment.
  • the computer device 200 downloads one stream from the encoder server 320 , and may receive an image stream in which live images of multiple channels are synthesized into one.
  • the encoder server 320 has a plurality of synthesized images having different layouts
  • the computer device 200 selectively receives the synthesized image corresponding to the layout information determined by the player 330 with reference to the layout information of the synthesized image. can do. For example, when the player 330 requests a layout in which the video of channel 1 is composed of a main image, a synthesized image corresponding to the layout may be received from the encoder server 320 .
  • the computer device 200 may obtain a sprite for each channel by separating a composition image for each channel from the composite image received as one stream.
  • the computer device 200 may obtain sprites for each channel by separating the synthesized image through post processing.
  • a composite image may be separated using various graphics engines, for example, an open graphics library (open GL).
  • the computer device 200 may configure a multi-view by rendering sprites for each channel according to the layout of the player 330 .
  • the computer device 200 may reproduce a multi-channel live image received as one stream in a multi-view by rendering the sprites for each camera separated from the composite image according to a desired layout.
  • step S640 the computer device 200 receives an original video of the corresponding channel from the encoder server 320 when a full-view conversion request for a specific channel is received from the user as a specific channel is selected in the multi-view.
  • the encoder server The synthesized image received from 320 may be changed to an original image of a channel to be switched.
  • step S650 the computer device 200 may convert the view mode of the player 330 to the full view by rendering the original image of the specific channel selected by the user on the full screen of the player 330 .
  • the computer device 200 repeats the above-described processes (S610 to S630) to change the view mode of the player 330 to full view. can be switched to multiview.
  • FIG. 7 is a diagram illustrating an example of a basic process of configuring a multi-view with one stream according to an embodiment of the present invention.
  • the composite image is composed of a main image in which the video (Cam#1) of channel 1 has a higher resolution than the videos (Cam#2 to Cam#6) of other channels.
  • the player 330 receives the synthesized image frame from the encoder server 320, obtains sprites for each channel from the synthesized image frame through post-processing, and then renders the separated sprites for each channel according to a predetermined layout. Multiview can be configured.
  • the player 330 may download only one stream in a multi-live transmission environment to configure a multi-view composed of multi-channel live images.
  • FIG. 8 is a diagram illustrating an example of an interface for switching a view mode according to an embodiment of the present invention.
  • the player 330 provides an interface for requesting to switch from the multi-view to the full-view of an image of a specific channel.
  • the user can input a layout change request to convert one of the videos (Cam#1 to Cam#6) in the multi-view to the full view. there is.
  • the video of channel 2 (Cam#2) is currently reproduced by the video (Cam#1) of channel 1 through drag 80.
  • the video (Cam#2) of channel 2 is currently reproduced by the video (Cam#1) of channel 1 through drag 80.
  • FIGS. 9 to 10 are diagrams illustrating an example of a layout conversion process from a multi-view to a full-view according to an embodiment of the present invention.
  • 9 to 10 show a process of switching from a multi-view using a composite image to a full-view of a video (Cam#2) of channel 2;
  • the player 330 When the user requests to switch to the full view for the video (Cam#2) of channel 2 on the multi-view screen using the composite video, first, the player 330 performs the composite video as shown in FIG. 9 for seamless screen switching. Among the sprites for each channel separated from , only the sprite corresponding to the video (Cam#2) of channel 2 can be rendered in full screen.
  • the video (Cam#2) of channel 2 separated from the composite image is a low-quality image and can be enlarged and displayed in a full view in a low-quality state. At this time, the videos (Cam#1, Cam#3 to Cam#6) of the remaining channels separated from the composite image are not rendered and are maintained in a hidden state.
  • the player 330 may receive the channel #2 original image from the encoder server 320 in order to provide a high-quality image for the video (Cam#2) of channel 2 displayed in full view.
  • the player 330 may provide a full view of a high-definition image with respect to the video (Cam#2) of the channel 2 by receiving the channel #2 original image frame and rendering the image in full screen immediately.
  • the player 330 preferentially controls the low-resolution sprite separated from the composite image so that the screen does not break. Display the video of channel 2 (Cam#2) in full view first, then receive the original video of channel #2 and display the high-resolution video (Cam#2) of channel 2 in full view to switch the layout from multi-view to full view can be performed.
  • FIG. 11 is a diagram illustrating an example of a layout conversion process from a full view to a multi view according to an embodiment of the present invention.
  • FIG. 11 shows a process of switching from a full view of a video (Cam#2) of channel 2 to a multi-view using a composite image.
  • the player 330 can configure a multi-view by receiving the synthesized image frame from the encoder server 320, obtaining sprites for each channel from the synthesized image frame through post-processing, and then rendering the separated sprites for each channel according to a predetermined layout.
  • the player 330 converts the channel #2 original video received from the encoder server 320 into a composite video as quickly as possible through the track high-speed switching technology to convert the track to the basic layout in the full view screen of the video (Cam#2) of channel 2 By switching, you can perform a quick layout switch from full view to multi view.
  • the channel #2 original video stream does not have the information necessary to configure the multi-view layout, that is, the videos of other channels (Cam#1, Cam#3 ⁇ Cam#6), it is difficult to receive the composite video stream in a short time.
  • Track switching technology is used for In this case, when audio and video are used in an interleaved mode, the player 330 plays the audio without interruption when the image (original image and the composite image) received from the encoder server 320 is changed and the track is changed. can only be converted quickly.
  • the segment duration of a stream may be changed during live video playback.
  • the media segment duration for streaming can be set to be short in order to quickly switch images, and as another example, a technique for flushing existing data in the buffer of the player 330 can be applied.
  • a technique for flushing existing data in the buffer of the player 330 can be applied.
  • the previous data channel #2 original
  • a method of emptying the video stream) and filling it with new data may be applied.
  • a request from the player 330 may be caught by a multi-view interceptor and re-requested to a segment (TS file) of the converted track may be implemented.
  • the multi-view interceptor serves as a proxy server, and may be software modules installed and driven in a user's terminal device to play a video together with the player 330 .
  • the player 330 continues to request the multi-view, and at this time, the multi-view interceptor may change the request of the player 330 to the full view.
  • the audio of the TS file of each track can be encoded into the same audio to provide a seamless user experience when transitioning.
  • FIG. 12 is a diagram illustrating another example of a layout conversion process from a full view to a multi view according to an embodiment of the present invention.
  • FIG. 12 shows a process of switching from a full view of a video (Cam#2) of channel 2 to a multi-view using a composite image.
  • a temporary screen switching technique using a thumbnail may be applied.
  • the player 330 performs a seamless screen transition.
  • at least one thumbnail eg, image, animation, etc.
  • thumbnails may be output at a predetermined time period (eg, in units of 1 second).
  • the temporary view mode may be provided by configuring the temporary screen in the multi-view format of the basic layout using a copy of the channel #2 original image.
  • an image of a channel other than channel #2 may be temporarily exposed as a copy of the original image of channel #2.
  • the temporary view mode may be provided by rendering the scene of the last image exposed to the multi-view before the transition from the multi-view to the full view as a temporary screen.
  • the player 330 receives the synthesized image frame from the encoder server 320, obtains sprites for each channel from the synthesized image frame through post-processing, and renders the separated sprites for each channel according to a predetermined layout, thereby providing a temporary view mode. can be switched to multiview.
  • the player 330 preferentially prevents screen breakage when a user requests to switch to a multi-view using a composite image from the full view screen of the channel 2 video (Cam#2) using the channel #2 original image.
  • a composite image from the full view screen of the channel 2 video (Cam#2) using the channel #2 original image.
  • the player 330 may determine an image switching time between view modes based on meta information for image classification as unique information included in the image stream.
  • Meta information for video classification may vary depending on the system environment. For example, in an environment using TS chunks, timed-metadata included in the TS container is used to determine the video transition time. can do.
  • the time-specified metadata has time information of a predetermined time standard (PTS), and when the corresponding time is reached, the metadata is output.
  • PTS predetermined time standard
  • the player 330 can classify the video by the metadata 13 included in the TS chunk of the video stream in the buffer 1302, and can determine the video conversion time through this. there is.
  • the time-specified metadata value is input at the time when the composite video stream is switched to the channel #2 original video stream, the stream input after the time-designated metadata can be recognized and used as the channel #2 original video.
  • the video conversion time can be changed at the server end, but in the case of a session base, there is a limit to the number of users that can provide the service.
  • the present embodiments can determine the video conversion time on the client side by using time-specified metadata, and in particular, provide a live streaming video service through an HTTP-based protocol rather than a session-based protocol. It can be applied in the environment and can provide stable service for more users.
  • multi-channel live video can be reproduced using a minimal network by receiving a single stream synthesizing multi-channel live video in a multi-live transmission environment and configuring a multi-view. Furthermore, according to embodiments of the present invention, when switching between channels in a multi-live transmission environment, a high-speed switching mode can be implemented while maintaining audio and video synchronization, thereby improving service quality and immersion quality.
  • the device described above may be implemented as a hardware component, a software component, and/or a combination of the hardware component and the software component.
  • the apparatus and components described in the embodiments may include a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable gate array (FPGA), and a programmable logic unit (PLU). It may be implemented using one or more general purpose or special purpose computers, such as a logic unit, microprocessor, or any other device capable of executing and responding to instructions.
  • the processing device may execute an operating system (OS) and one or more software applications executed on the operating system.
  • a processing device may also access, store, manipulate, process, and generate data in response to execution of the software.
  • OS operating system
  • a processing device may also access, store, manipulate, process, and generate data in response to execution of the software.
  • the processing device includes a plurality of processing elements and/or a plurality of types of processing elements. It can be seen that can include For example, the processing device may include a plurality of processors or one processor and one controller. Other processing configurations are also possible, such as parallel processors.
  • Software may comprise a computer program, code, instructions, or a combination of one or more thereof, which configures a processing device to operate as desired or is independently or collectively processed You can command the device.
  • the software and/or data may be embodied in any tangible machine, component, physical device, computer storage medium or device for interpretation by or providing instructions or data to the processing device. there is.
  • the software may be distributed over networked computer systems and stored or executed in a distributed manner.
  • Software and data may be stored in one or more computer-readable recording media.
  • the method according to the embodiment may be implemented in the form of program instructions that can be executed through various computer means and recorded in a computer-readable medium.
  • the medium may be to continuously store a program executable by a computer, or to temporarily store it for execution or download.
  • the medium may be various recording means or storage means in the form of a single or several hardware combined, it is not limited to a medium directly connected to any computer system, and may exist distributed over a network. Examples of the medium include a hard disk, a magnetic medium such as a floppy disk and a magnetic tape, an optical recording medium such as CD-ROM and DVD, a magneto-optical medium such as a floppy disk, and those configured to store program instructions, including ROM, RAM, flash memory, and the like.
  • examples of other media may include recording media or storage media managed by an app store that distributes applications, sites that supply or distribute various other software, and servers.

Abstract

다중 라이브 송출 환경에서의 채널 간 고속 전환 모드를 구현하는 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체가 개시된다. 라이브 송출 환경에서의 멀티 채널의 영상이 하나로 합성된 합성 영상을 하나의 스트림으로 수신하여 상기 멀티 채널의 영상으로 이루어진 멀티뷰(multi-view)를 구성하고, 상기 멀티뷰에서 특정 채널의 영상이 선택됨에 따라 상기 특정 채널의 원본 영상을 수신하여 상기 멀티뷰에서 상기 특정 채널의 영상에 대한 풀뷰(full-view)로 전환할 수 있다.

Description

다중 라이브 송출 환경에서의 채널 간 고속 전환 모드를 구현하는 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체
아래의 설명은 다중 라이브 송출 환경에서의 채널 간 전환을 위한 기술에 관한 것이다.
초고속 통신망 이용자의 급격한 증가는 통신망을 통한 신규 서비스의 개발 및 서비스 아이템의 다양화를 가능하게 한다. 이러한 통신망을 이용한 서비스 중 가장 일반적인 서비스가 동영상 서비스라 할 수 있다.
예컨대, 한국등록특허 제10-0827198호(등록일 2008년 04월 25일) "동영상 링크 서비스를 제공하는 장치 및 그 방법"에는 이동통신 단말기를 이용하여 이동 중에 인터넷 상에서 링크된 동영상을 감상할 수 있는 동영상 링크 서비스를 제공하는 기술이 개시되어 있다.
클라이언트-서버 방식의 동영상 서비스 시스템은 인코더 서버로부터의 실시간 동영상 스트리밍을 클라이언트로 전달하는 구조로, 라이브 송출 환경에서는 카메라 등으로부터 입력된 영상을 인코딩하여 오디오 데이터와 함께 실시간으로 클라이언트까지 전달하는 방식이 사용되고 있다.
라이브 송출을 위한 동영상 스트리밍 데이터가 멀티 채널로 들어오는 경우 멀티 채널로 들어오는 다수의 동영상을 실시간으로 인코딩하고 전송하는 방식을 통해 다수의 클라이언트를 대상으로 라이브 동영상 서비스를 제공하기에는 많은 어려움과 한계가 있다.
멀티 채널의 라이브 동영상을 제공하는 다중 라이브 송출 환경에서 최소한의 네트워크를 사용하여 멀티 채널의 동영상을 포함하는 멀티뷰(multi-view)를 구성할 수 있는 방법 및 시스템을 제공한다.
다중 라이브 송출 환경에서의 채널 간 전환 시 오디오 및 비디오의 동기를 유지하면서 고속 전환(fast switching) 모드를 구현할 수 있는 방법 및 시스템을 제공한다.
컴퓨터 장치에서 실행되는 라이브 동영상 재생 방법에 있어서, 상기 컴퓨터 장치는 메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고, 상기 라이브 동영상 재생 방법은, 상기 적어도 하나의 프로세서에 의해, 라이브 송출 환경에서의 멀티 채널의 영상이 하나로 합성된 합성 영상을 하나의 스트림으로 수신하여 상기 멀티 채널의 영상으로 이루어진 멀티뷰(multi-view)를 구성하는 단계; 및 상기 적어도 하나의 프로세서에 의해, 상기 멀티뷰에서 특정 채널의 영상이 선택됨에 따라 상기 특정 채널의 원본 영상을 수신하여 상기 멀티뷰에서 상기 특정 채널의 영상에 대한 풀뷰(full-view)로 전환하는 단계를 포함하는 라이브 동영상 재생 방법을 제공한다.
일 측면에 따르면, 상기 멀티뷰를 구성하는 단계는, 상기 합성 영상으로부터 각 채널 별로 구성된 영상(composition image)을 분리함으로써 채널 별 스프라이트(sprite)를 획득하는 단계; 및 상기 채널 별 스프라이트를 레이아웃에 따라 렌더링하여 상기 멀티뷰를 구성하는 단계를 포함할 수 있다.
다른 측면에 따르면, 상기 합성 영상은 한 채널의 영상이 나머지 다른 채널의 영상보다 해상도가 높은 메인 영상으로 구성되고 상기 다른 채널의 영상이 서브 영상으로 구성될 수 있다.
또 다른 측면에 따르면, 상기 풀뷰로 전환하는 단계는, 상기 멀티뷰에서 상기 특정 채널의 영상이 선택되면, 상기 합성 영상에서 분리된 채널 별 스프라이트 중 상기 특정 채널의 스프라이트를 전체 화면으로 렌더링한 이후, 상기 원본 영상을 수신하여 상기 원본 영상을 전체 화면으로 렌더링하는 단계를 포함할 수 있다.
또 다른 측면에 따르면, 상기 특정 채널의 스프라이트가 전체 화면으로 렌더링된 풀뷰에서는 나머지 다른 채널의 스프라이트가 렌더링되지 않고 히든(hidden) 상태로 포함될 수 있다.
또 다른 측면에 따르면, 상기 라이브 동영상 재생 방법은, 상기 적어도 하나의 프로세서에 의해, 상기 풀뷰에서 상기 멀티뷰로의 전환 요청을 수신하는 경우 상기 합성 영상을 수신하여 상기 풀뷰에서 상기 멀티뷰로 전환하는 단계를 더 포함할 수 있다.
또 다른 측면에 따르면, 상기 멀티뷰로 전환하는 단계는, 상기 전환 요청에 따라, 임시 화면을 사전에 정해진 레이아웃으로 렌더링한 이후, 상기 합성 영상을 수신하여 상기 합성 영상에서 분리된 채널 별 스프라이트를 상기 멀티뷰의 레이아웃으로 렌더링하는 단계를 포함할 수 있다.
또 다른 측면에 따르면, 상기 멀티뷰로 전환하는 단계는, 영상 스트림에 포함된 썸네일, 상기 원본 영상의 복사본, 상기 풀뷰로 전환되기 이전 멀티뷰로 노출된 마지막 영상 중 어느 하나를 이용하여 상기 임시 화면을 구성하는 단계를 포함할 수 있다.
또 다른 측면에 따르면, 상기 복사본을 이용한 상기 임시 화면의 경우 상기 복사본이 블러(blur) 처리되어 노출될 수 있다.
또 다른 측면에 따르면, 상기 멀티뷰와 상기 풀뷰 간의 영상 전환을 위해 영상 스트림의 세그먼트 듀레이션(Segment Duration)을 변경할 수 있다.
또 다른 측면에 따르면, 상기 멀티뷰와 상기 풀뷰 간의 영상 전환을 위해 플레이어 버퍼에서 이전 데이터에 해당되는 영상 스트림을 플러시(flush)할 수 있다.
또 다른 측면에 따르면, 영상 스트림의 컨테이너에 포함된 시간지정 메타데이터(timed-metadata)를 이용하여 상기 멀티뷰와 상기 풀뷰 간의 영상 전환 시점을 판단할 수 있다.
상기 라이브 동영상 재생 방법을 컴퓨터에 실행시키기 위한 프로그램이 기록되어 있는 컴퓨터 판독 가능한 기록 매체를 제공한다.
컴퓨터 장치에 있어서, 메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 라이브 송출 환경에서의 멀티 채널의 영상이 하나로 합성된 합성 영상을 하나의 스트림으로 수신하여 상기 멀티 채널의 영상으로 이루어진 멀티뷰를 구성하고, 상기 멀티뷰에서 특정 채널의 영상이 선택됨에 따라 상기 특정 채널의 원본 영상을 수신하여 상기 멀티뷰에서 상기 특정 채널의 영상에 대한 풀뷰로 전환하는 것을 특징으로 하는 컴퓨터 장치를 제공한다.
본 발명의 실시예들에 따르면, 다중 라이브 송출 환경에서 멀티 채널의 라이브 동영상을 합성한 하나의 스트림을 받아 멀티뷰를 구성함으로써 최소한의 네트워크를 사용하여 멀티 채널의 라이브 동영상을 재생할 수 있다.
본 발명의 실시예들에 따르면, 다중 라이브 송출 환경에서의 채널 간 전환 시 오디오 및 비디오의 동기를 유지하면서 고속 전환 모드를 구현할 수 있어 서비스 품질(QoS)과 체감 품질(QoE)을 향상시킬 수 있다.
도 1은 본 발명의 일실시예에 따른 네트워크 환경의 예를 도시한 도면이다.
도 2는 본 발명의 일실시예에 따른 컴퓨터 장치의 예를 도시한 블록도이다.
도 3은 본 발명의 일실시예에 있어서 라이브 동영상 서비스를 제공하는 과정의 예를 도시한 도면이다.
도 4는 본 발명의 일실시예에 있어서 다중 라이브 송출 환경의 예를 도시한 도면이다.
도 5는 본 발명의 일실시예에 있어서 멀티 채널의 비디오를 인코딩하는 과정의 예를 도시한 도면이다.
도 6은 본 발명의 일실시예에 따른 라이브 동영상 재생 방법의 예를 도시한 흐름도이다.
도 7은 본 발명의 일실시예에 있어서 하나의 스트림으로 멀티뷰를 구성하는 기본 과정의 예를 도시한 도면이다.
도 8은 본 발명의 일실시예에 있어서 뷰 모드를 전환하는 인터페이스의 예를 도시한 도면이다.
도 9 내지 도 10은 본 발명의 일실시예에 있어서 멀티뷰에서 풀뷰로의 레이아웃 전환 과정의 예를 도시한 도면이다.
도 11은 본 발명의 일실시예에 있어서 풀뷰에서 멀티뷰로의 레이아웃 전환 과정의 예를 도시한 도면이다.
도 12는 본 발명의 일실시예에 있어서 풀뷰에서 멀티뷰로의 레이아웃 전환 과정의 다른 예를 도시한 도면이다.
도 13은 본 발명의 일실시예에 있어서 영상 전환 시점을 판단하는 과정의 예를 도시한 도면이다.
이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
본 발명의 실시예들에 따른 라이브 동영상 재생 시스템은 적어도 하나의 컴퓨터 장치에 의해 구현될 수 있으며, 본 발명의 실시예들에 따른 라이브 동영상 재생 방법은 라이브 동영상 재생 시스템에 포함되는 적어도 하나의 컴퓨터 장치를 통해 수행될 수 있다. 이때, 컴퓨터 장치에는 본 발명의 일실시예에 따른 컴퓨터 프로그램이 설치 및 구동될 수 있고, 컴퓨터 장치는 구동된 컴퓨터 프로그램의 제어에 따라 본 발명의 실시예들에 따른 라이브 동영상 재생 방법을 수행할 수 있다. 상술한 컴퓨터 프로그램은 컴퓨터 장치와 결합되어 라이브 동영상 재생 방법을 컴퓨터에 실행시키기 위해 컴퓨터 판독 가능한 기록매체에 저장될 수 있다.
도 1은 본 발명의 일실시예에 따른 네트워크 환경의 예를 도시한 도면이다. 도 1의 네트워크 환경은 복수의 전자 기기들(110, 120, 130, 140), 복수의 서버들(150, 160) 및 네트워크(170)를 포함하는 예를 나타내고 있다. 이러한 도 1은 발명의 설명을 위한 일례로 전자 기기의 수나 서버의 수가 도 1과 같이 한정되는 것은 아니다. 또한, 도 1의 네트워크 환경은 본 실시예들에 적용 가능한 환경들 중 하나의 예를 설명하는 것일 뿐, 본 실시예들에 적용 가능한 환경이 도 1의 네트워크 환경으로 한정되는 것은 아니다.
복수의 전자 기기들(110, 120, 130, 140)은 컴퓨터 장치로 구현되는 고정형 단말이거나 이동형 단말일 수 있다. 복수의 전자 기기들(110, 120, 130, 140)의 예를 들면, 스마트폰(smart phone), 휴대폰, 네비게이션, 컴퓨터, 노트북, 디지털방송용 단말, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 태블릿 PC 등이 있다. 일례로 도 1에서는 전자 기기(110)의 예로 스마트폰의 형상을 나타내고 있으나, 본 발명의 실시예들에서 전자 기기(110)는 실질적으로 무선 또는 유선 통신 방식을 이용하여 네트워크(170)를 통해 다른 전자 기기들(120, 130, 140) 및/또는 서버(150, 160)와 통신할 수 있는 다양한 물리적인 컴퓨터 장치들 중 하나를 의미할 수 있다.
통신 방식은 제한되지 않으며, 네트워크(170)가 포함할 수 있는 통신망(일례로, 이동통신망, 유선 인터넷, 무선 인터넷, 방송망)을 활용하는 통신 방식뿐만 아니라 기기들간의 근거리 무선 통신 역시 포함될 수 있다. 예를 들어, 네트워크(170)는, PAN(personal area network), LAN(local area network), CAN(campus area network), MAN(metropolitan area network), WAN(wide area network), BBN(broadband network), 인터넷 등의 네트워크 중 하나 이상의 임의의 네트워크를 포함할 수 있다. 또한, 네트워크(170)는 버스 네트워크, 스타 네트워크, 링 네트워크, 메쉬 네트워크, 스타-버스 네트워크, 트리 또는 계층적(hierarchical) 네트워크 등을 포함하는 네트워크 토폴로지 중 임의의 하나 이상을 포함할 수 있으나, 이에 제한되지 않는다.
서버(150, 160) 각각은 복수의 전자 기기들(110, 120, 130, 140)과 네트워크(170)를 통해 통신하여 명령, 코드, 파일, 컨텐츠, 서비스 등을 제공하는 컴퓨터 장치 또는 복수의 컴퓨터 장치들로 구현될 수 있다. 예를 들어, 서버(150)는 네트워크(170)를 통해 접속한 복수의 전자 기기들(110, 120, 130, 140)로 서비스(일례로, 라이브 동영상 서비스, 컨텐츠 제공 서비스, 그룹 통화 서비스(또는 음성 컨퍼런스 서비스), 메시징 서비스, 메일 서비스, 소셜 네트워크 서비스, 지도 서비스, 번역 서비스, 금융 서비스, 결제 서비스, 검색 서비스 등)를 제공하는 시스템일 수 있다.
도 2는 본 발명의 일실시예에 따른 컴퓨터 장치의 예를 도시한 블록도이다. 앞서 설명한 복수의 전자 기기들(110, 120, 130, 140) 각각이나 서버들(150, 160) 각각은 도 2를 통해 도시된 컴퓨터 장치(200)에 의해 구현될 수 있다.
이러한 컴퓨터 장치(200)는 도 2에 도시된 바와 같이, 메모리(210), 프로세서(220), 통신 인터페이스(230) 그리고 입출력 인터페이스(240)를 포함할 수 있다. 메모리(210)는 컴퓨터에서 판독 가능한 기록매체로서, RAM(random access memory), ROM(read only memory) 및 디스크 드라이브와 같은 비소멸성 대용량 기록장치(permanent mass storage device)를 포함할 수 있다. 여기서 ROM과 디스크 드라이브와 같은 비소멸성 대용량 기록장치는 메모리(210)와는 구분되는 별도의 영구 저장 장치로서 컴퓨터 장치(200)에 포함될 수도 있다. 또한, 메모리(210)에는 운영체제와 적어도 하나의 프로그램 코드가 저장될 수 있다. 이러한 소프트웨어 구성요소들은 메모리(210)와는 별도의 컴퓨터에서 판독 가능한 기록매체로부터 메모리(210)로 로딩될 수 있다. 이러한 별도의 컴퓨터에서 판독 가능한 기록매체는 플로피 드라이브, 디스크, 테이프, DVD/CD-ROM 드라이브, 메모리 카드 등의 컴퓨터에서 판독 가능한 기록매체를 포함할 수 있다. 다른 실시예에서 소프트웨어 구성요소들은 컴퓨터에서 판독 가능한 기록매체가 아닌 통신 인터페이스(230)를 통해 메모리(210)에 로딩될 수도 있다. 예를 들어, 소프트웨어 구성요소들은 네트워크(170)를 통해 수신되는 파일들에 의해 설치되는 컴퓨터 프로그램에 기반하여 컴퓨터 장치(200)의 메모리(210)에 로딩될 수 있다.
프로세서(220)는 기본적인 산술, 로직 및 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리(210) 또는 통신 인터페이스(230)에 의해 프로세서(220)로 제공될 수 있다. 예를 들어 프로세서(220)는 메모리(210)와 같은 기록 장치에 저장된 프로그램 코드에 따라 수신되는 명령을 실행하도록 구성될 수 있다.
통신 인터페이스(230)는 네트워크(170)를 통해 컴퓨터 장치(200)가 다른 장치(일례로, 앞서 설명한 저장 장치들)와 서로 통신하기 위한 기능을 제공할 수 있다. 일례로, 컴퓨터 장치(200)의 프로세서(220)가 메모리(210)와 같은 기록 장치에 저장된 프로그램 코드에 따라 생성한 요청이나 명령, 데이터, 파일 등이 통신 인터페이스(230)의 제어에 따라 네트워크(170)를 통해 다른 장치들로 전달될 수 있다. 역으로, 다른 장치로부터의 신호나 명령, 데이터, 파일 등이 네트워크(170)를 거쳐 컴퓨터 장치(200)의 통신 인터페이스(230)를 통해 컴퓨터 장치(200)로 수신될 수 있다. 통신 인터페이스(230)를 통해 수신된 신호나 명령, 데이터 등은 프로세서(220)나 메모리(210)로 전달될 수 있고, 파일 등은 컴퓨터 장치(200)가 더 포함할 수 있는 저장 매체(상술한 영구 저장 장치)로 저장될 수 있다.
입출력 인터페이스(240)는 입출력 장치(250)와의 인터페이스를 위한 수단일 수 있다. 예를 들어, 입력 장치는 마이크, 키보드 또는 마우스 등의 장치를, 그리고 출력 장치는 디스플레이, 스피커와 같은 장치를 포함할 수 있다. 다른 예로 입출력 인터페이스(240)는 터치스크린과 같이 입력과 출력을 위한 기능이 하나로 통합된 장치와의 인터페이스를 위한 수단일 수도 있다. 입출력 장치(250)는 컴퓨터 장치(200)와 하나의 장치로 구성될 수도 있다.
또한, 다른 실시예들에서 컴퓨터 장치(200)는 도 2의 구성요소들보다 더 적은 혹은 더 많은 구성요소들을 포함할 수도 있다. 그러나, 대부분의 종래기술적 구성요소들을 명확하게 도시할 필요성은 없다. 예를 들어, 컴퓨터 장치(200)는 상술한 입출력 장치(250) 중 적어도 일부를 포함하도록 구현되거나 또는 트랜시버(transceiver), 데이터베이스 등과 같은 다른 구성요소들을 더 포함할 수도 있다.
도 3은 본 발명의 일실시예에 있어서, 라이브 동영상 서비스를 제공하는 과정의 예를 도시한 도면이다. 도 3은 스트리밍 서버(310), 인코더 서버(320), 및 플레이어(330)를 각각 나타내고 있다. 여기서, 스트리밍 서버(310) 및 인코더 서버(320)는 라이브 동영상 서비스를 제공하기 위해 서버 장치에 설치 및 구동되는 소프트웨어 모듈일 수 있다. 또한, 플레이어(330)는 동영상 재생을 위해 사용자의 단말 장치에 설치 및 구동되는 소프트웨어 모듈들일 수 있다. 여기서, 소프트웨어 모듈은 컴퓨터 장치(200)에 설치 및 구동되는 컴퓨터 프로그램에 대응될 수 있다.
도 4를 참조하면, 스트리밍 서버(310)는 송출 역할을 하는 서버 장치로, 예를 들어 녹화 및 실시간 스트리밍을 위한 OBS(open broadcaster software) 모듈을 포함할 수 있다. 스트리밍 서버(310)는 복수 개의 카메라를 통해 동시에 촬영된 비디오를 각각의 채널로 입력받아 멀티 채널의 영상으로서 인코더 서버(320)로 실시간 스트리밍할 수 있다.
카메라와 상관없이 오디오 채널은 동일한 입력을 사용할 수 있다. 인코더 서버(320)는 복수 개의 채널 중 기본 채널에 해당되는 채널의 오디오를 기본 스트림으로 사용할 수 있다.
스트리밍 서버(310)는 비디오 채널 간 동기화 처리를 위해 OBS 모듈을 사용하여 멀티 채널의 영상을 실시간 송출할 수 있다. 이에, 인코더 서버(320)는 UTC(coordinated universal time) 시간과 비디오 타임스탬프(PTS, predetermined time standard)로 각 비디오 프레임의 절대 시간을 구하여 비디오 채널 간 동기화를 처리할 수 있다.
특히, 다중 라이브 송출 환경에서 플레이어(330)가 최소한의 네트워크를 사용하여 멀티뷰를 구성할 수 있도록 인코더 서버(320)는 멀티 채널의 비디오를 하나의 비디오로 합성한 이미지를 제공할 수 있다.
도 5에 도시한 바와 같이, 인코더 서버(320)는 멀티 채널을 통해 입력되는 복수 개의 원본 영상(501), 그리고 원본 영상(501)을 합성하여 만든 합성 영상(502)을 제공할 수 있다.
예를 들어, 인코더 서버(320)는 6개의 카메라를 통해 촬영된 원본 영상(Cam#1~Cam#6)(501)을 이용하여 합성 영상(502)을 생성할 수 있다. 합성 영상(502)은 원본 영상(501)이 하나로 결합된 이미지로, 인코더 서버(320)는 사전에 정해진 레이아웃에 따라 원본 영상(501)을 결합하여 합성 영상(502)을 생성할 수 있다.
일례로, 인코더 서버(320)는 멀티 채널 중 한 채널의 비디오를 메인 영상으로 구성하고 나머지 다른 채널의 비디오를 서브 영상으로 구성할 수 있다. 다시 말해, 인코더 서버(320)는 한 채널의 비디오(메인 영상)를 다른 채널의 비디오(서브 영상)보다 높은 해상도로 구성할 수 있다. 이때, 인코더 서버(320)는 한 채널을 제외한 나머지 채널의 비디오(서브 영상)를 모두 동일한 해상도로 구성하거나 각 채널의 우선순위를 고려하여 우선순위에 따라 높은 해상도로 구성할 수도 있다.
인코더 서버(320)는 모든 채널의 비디오를 동일한 해상도로 결합하여 합성 영상(502)을 생성하는 것 또한 가능하다.
상기한 합성 영상(502)의 생성 방식이나 합성 영상(502)의 개수, 레이아웃 구조 등은 예시적인 것이며 얼마든지 변경 가능하다.
다시 말해, 클라이언트인 플레이어(330)에서 채널 간 고속 전환 모드를 구현하기 위해 인코더 서버(320)에서는 각 채널 별 원본 영상(501)과 함께 원본 영상(501)을 합성한 하나의 합성 영상(502)을 준비한다.
인코더 서버(320)는 다중 라이브 송출 환경에서 플레이어(330)를 대상으로 채널 간 고속 전환 모드를 위해 선택적으로 멀티 채널에 대한 합성 영상(502)을 전송하거나 특정 채널에 대한 원본 영상(501) 하나만 전송할 수 있다. 특히, 다중 라이브 송출 환경에서는 멀티 채널로 들어오는 다수의 동영상을 모두 각각의 스트림으로 전송하는 것이 아니라, 합성 영상(502)을 이용하여 멀티 채널의 동영상을 하나의 스트림으로 전송할 수 있다.
이하 실시예에서는 원본 영상(501)을 각 채널에 대해 '채널#1 원본 영상', '채널#2 원본 영상' 등으로 칭하기로 한다.
원본 영상(501)과 합성 영상(502) 각각의 스트림에는 해당 영상을 구분할 수 있는 고유의 정보가 포함될 수 있다. 플레이어(330)는 각 스트림의 영상 고유 정보를 통해 합성 영상이 재생되는 도중에 재생 영상이 채널#2 원본 영상으로 변경될 때 변경된 영상이 채널#2 원본 영상이라는 것을 인지할 수 있다.
도 6은 본 발명의 일실시예에 따른 라이브 동영상 재생 방법의 예를 도시한 흐름도이다. 본 실시예에 따른 라이브 동영상 재생 방법은 앞서 설명한 플레이어(330)를 구현하는 컴퓨터 장치(200)에 의해 수행될 수 있다. 만약, 플레이어(330)가 사용자의 단말 장치에 구현되는 경우, 컴퓨터 장치(200)는 사용자의 단말 장치에 대응될 수 있다. 이 경우, 컴퓨터 장치(200)의 프로세서(220)는 메모리(210)가 포함하는 운영체제의 코드나 적어도 하나의 프로그램의 코드에 따른 제어 명령(instruction)을 실행하도록 구현될 수 있다. 여기서, 프로세서(220)는 컴퓨터 장치(200)에 저장된 코드가 제공하는 제어 명령에 따라 컴퓨터 장치(200)가 도 6의 방법이 포함하는 단계들(S610 내지 S650)을 수행하도록 컴퓨터 장치(200)를 제어할 수 있다.
단계(S610)에서 컴퓨터 장치(200)는 다중 라이브 송출 환경에서의 인코더 서버(320)로부터 멀티 채널로 입력되는 다수의 영상으로 구성된 하나의 합성 영상을 수신할 수 있다. 컴퓨터 장치(200)는 인코더 서버(320)로부터 하나의 스트림을 다운로드받는 것으로, 멀티 채널의 라이브 영상이 하나로 합성된 영상 스트림을 수신할 수 있다. 인코더 서버(320)에서 서로 다른 레이아웃의 복수 개의 합성 영상을 가지고 있는 경우, 컴퓨터 장치(200)는 합성 영상의 레이아웃 정보를 참조하여 플레이어(330)에서 정해진 레이아웃 정보와 대응되는 합성 영상을 선택적으로 수신할 수 있다. 예를 들어, 플레이어(330)에서 채널1의 비디오가 메인 영상으로 구성된 레이아웃을 요청하는 경우 인코더 서버(320)로부터 해당 레이아웃과 대응되는 합성 영상을 수신할 수 있다.
단계(S620)에서 컴퓨터 장치(200)는 하나의 스트림으로 수신된 합성 영상으로부터 각 채널 별로 구성된 영상(composition image)을 분리하여 채널 별 스프라이트(sprite)를 획득할 수 있다. 다시 말해, 컴퓨터 장치(200)는 후처리(post processing)를 통해 합성 영상을 분리하여 채널 별 스프라이트를 획득할 수 있다. 플랫폼에 따라 다양한 그래픽스 엔진(graphics engine), 예를 들어 오픈GL(open graphics library) 등을 사용하여 합성 영상을 분리할 수 있다.
단계(S630)에서 컴퓨터 장치(200)는 채널 별 스프라이트를 플레이어(330)의 레이아웃에 따라 렌더링함으로써 멀티뷰를 구성할 수 있다. 다시 말해, 컴퓨터 장치(200)는 합성 영상에서 분리된 카메라 별 스프라이트를 원하는 레이아웃에 맞게 렌더링함으로써 하나의 스트림으로 수신된 멀티 채널의 라이브 영상을 멀티뷰로 재생할 수 있다.
단계(S640)에서 컴퓨터 장치(200)는 멀티뷰에서 특정 채널이 선택됨에 따라 사용자로부터 특정 채널에 대한 풀뷰(full-view) 전환 요청이 수신되는 경우 인코더 서버(320)로부터 해당 채널의 원본 영상을 수신할 수 있다. 컴퓨터 장치(200)는 플레이어(330) 상에 멀티뷰로 현재 재생 중인 멀티 채널의 라이브 영상에 대하여 사용자가 특정 채널을 선택하여 전체 화면 모드(full screen mode), 즉 풀뷰로의 전환을 요청한 경우 인코더 서버(320)로부터 수신되는 합성 영상을 전환하고자 하는 채널의 원본 영상으로 변경할 수 있다.
단계(S650)에서 컴퓨터 장치(200)는 사용자가 선택한 특정 채널의 원본 영상을 플레이어(330)의 전체 화면으로 렌더링함으로써 플레이어(330)의 뷰 모드를 풀뷰로 전환할 수 있다.
컴퓨터 장치(200)는 플레이어(330)의 현재 뷰 모드가 풀뷰인 상태에서 사용자로부터 멀티뷰로의 전환 요청이 수신되는 경우 상기한 과정(S610 내지 S630)을 반복함으로써 플레이어(330)의 뷰 모드를 풀뷰에서 멀티뷰로 전환할 수 있다.
도 7은 본 발명의 일실시예에 있어서 하나의 스트림으로 멀티뷰를 구성하는 기본 과정의 예시를 도시한 도면이다.
도 7은 플레이어(330)에서 합성 영상을 이용하여 멀티뷰를 구성하는 과정을 나타내고 있다. 예를 들어, 합성 영상은 채널1의 비디오(Cam#1)가 다른 채널의 비디오(Cam#2~Cam#6)보다 높은 해상도를 가진 메인 영상으로 구성된 것이다.
도 7을 참조하면, 플레이어(330)는 인코더 서버(320)로부터 합성 영상 프레임을 수신하여 후처리를 통해 합성 영상 프레임으로부터 채널 별 스프라이트를 획득한 후 분리된 채널 별 스프라이트를 정해진 레이아웃에 맞게 렌더링함으로써 멀티뷰를 구성할 수 있다.
따라서, 플레이어(330)는 다중 라이브 송출 환경에서 하나의 스트림만을 다운로드하여 멀티 채널의 라이브 영상으로 이루어진 멀티뷰를 구성할 수 있다.
도 8은 본 발명의 일실시예에 있어서 뷰 모드를 전환하는 인터페이스의 예시를 도시한 도면이다.
플레이어(330)에서는 멀티뷰에서 특정 채널의 영상에 대한 풀뷰로의 전환을 요청하기 위한 인터페이스를 제공한다.
플레이어(330) 상에 멀티뷰 형태로 멀티 채널의 라이브 영상이 재생 중인 상황에서 사용자는 멀티뷰 내 비디오(Cam#1~Cam#6) 중 하나를 풀뷰로 전환하기 위한 레이아웃 전환 요청을 입력할 수 있다.
예를 들어, 도 8에 도시한 바와 같이 합성 영상을 이용한 멀티뷰 화면에서 드래그(80)를 통해 채널2의 비디오(Cam#2)를 현재 채널1의 비디오(Cam#1)가 재생 중인 메인 영상 위치로 이동시킴으로써 채널2의 비디오(Cam#2)에 대한 풀뷰로의 전환을 요청할 수 있다. 드래그(80) 이외에 멀티뷰 내 비디오(Cam#1~Cam#6)에서 채널2의 비디오(Cam#2)를 선택하여 소정 메뉴나 다른 제스처를 통해 풀뷰로의 전환을 요청하는 것 또한 가능하다.
도 9 내지 도 10은 본 발명의 일실시예에 있어서 멀티뷰에서 풀뷰로의 레이아웃 전환 과정의 예시를 도시한 도면이다.
도 9 내지 도 10은 합성 영상을 이용한 멀티뷰에서 채널2의 비디오(Cam#2)의 풀뷰로 전환되는 과정을 나타내고 있다.
합성 영상을 이용한 멀티뷰 화면에서 사용자가 채널2의 비디오(Cam#2)에 대해 풀뷰로의 전환을 요청한 경우, 먼저 플레이어(330)는 끊김 없는 화면 전환을 위해서 도 9에 도시한 바와 같이 합성 영상에서 분리된 채널 별 스프라이트 중 채널2의 비디오(Cam#2)에 해당되는 스프라이트만을 전체 화면으로 렌더링할 수 있다. 합성 영상에서 분리된 채널2의 비디오(Cam#2)는 저화질의 영상으로 저화질 상태에서 확대되어 풀뷰로 표시될 수 있다. 이때, 합성 영상에서 분리된 나머지 채널의 비디오(Cam#1, Cam#3~Cam#6)는 렌더링되지 않고 히든(hidden) 상태로 유지된다.
다음으로, 도 10을 참조하면 플레이어(330)는 풀뷰로 표시된 채널2의 비디오(Cam#2)에 대해 고화질 영상을 제공하기 위해 인코더 서버(320)로부터 채널#2 원본 영상을 수신할 수 있다. 플레이어(330)는 채널#2 원본 영상 프레임을 수신하여 해당 영상을 바로 전체 화면으로 렌더링함으로써 채널2의 비디오(Cam#2)에 대해 고화질 영상의 풀뷰를 제공할 수 있다.
따라서, 플레이어(330)는 합성 영상을 이용한 멀티뷰 화면에서 사용자가 채널2의 비디오(Cam#2)를 풀뷰로 전환 요청하는 경우, 화면 끊김이 발생하지 않도록 우선적으로 합성 영상에서 분리된 스프라이트인 저해상도의 채널2의 비디오(Cam#2)를 풀뷰로 먼저 표시하고, 이후 채널#2 원본 영상을 수신하여 고해상도의 채널2의 비디오(Cam#2)를 풀뷰로 표시함으로써 멀티뷰에서 풀뷰로의 레이아웃 전환을 수행할 수 있다.
도 11은 본 발명의 일실시예에 있어서 풀뷰에서 멀티뷰로의 레이아웃 전환 과정의 예시를 도시한 도면이다.
도 11은 채널2의 비디오(Cam#2)의 풀뷰에서 합성 영상을 이용한 멀티뷰로 전환되는 과정을 나타내고 있다.
채널#2 원본 영상을 이용한 채널2의 비디오(Cam#2)의 풀뷰 화면에서 기본 레이아웃의 멀티뷰, 즉 합성 영상을 이용한 멀티뷰로의 전환을 요청한 경우, 도 11에 도시한 바와 같이 플레이어(330)는 인코더 서버(320)로부터 합성 영상 프레임을 수신하여 후처리를 통해 합성 영상 프레임으로부터 채널 별 스프라이트를 획득한 후 분리된 채널 별 스프라이트를 정해진 레이아웃에 맞게 렌더링함으로써 멀티뷰를 구성할 수 있다.
플레이어(330)는 인코더 서버(320)로부터 수신되는 채널#2 원본 영상을 최대한 빨리 합성 영상으로 변경하는 트랙 고속 전환 기술을 통해 채널2의 비디오(Cam#2)의 풀뷰 화면에서 기본 레이아웃으로 트랙을 전환하여 풀뷰에서 멀티뷰로의 빠른 레이아웃 전환을 수행할 수 있다.
채널#2 원본 영상 스트림에는 멀티뷰 레이아웃을 구성하기 위해 필요한 정보, 즉 나머지 다른 채널의 비디오(Cam#1, Cam#3~Cam#6)를 가지고 있지 않기 때문에 짧은 시간 내에 합성 영상 스트림을 수신하기 위한 트랙 전환 기술이 사용된다. 이는, 오디오와 비디오가 인터리빙(interleaving)된 모드에서 사용되는 경우 플레이어(330)는 인코더 서버(320)로부터 수신되는 영상(원본 영상과 합성 영상)이 변경되는 트랙 전환 시 오디오는 끊김 없이 재생되고 영상만 빠르게 전환될 수 있다.
라이브 송출을 위한 동영상 스트리밍 환경에서 라이브 영상 재생 중에 스트림의 세그먼트 듀레이션(Segment Duration)을 변경할 수 있다. 오디오와 비디오가 인터리빙된 환경에서는 영상을 빠르게 전환하기 위해 스트리밍을 위한 미디어 세그먼트 듀레이션을 짧게 설정하여 적용할 수 있으며, 다른 예로 플레이어(330)의 버퍼 내 기존 데이터를 플러시(flush)하는 기술을 적용할 수 있다. 예를 들어, 플레이어(330)는 채널#2 원본 영상을 이용한 풀뷰에서 합성 영상을 이용한 멀티뷰로 전환할 때 보다 빠른 전환을 위해 뷰 모드 전환 요청이 수신되는 시점에 버퍼에서 이전 데이터(채널#2 원본 영상 스트림)을 비우고 새로운 데이터(합성 영상 스트림)로 채우는 방식 등을 적용할 수 있다.
오디오와 비디오가 인터리빙되어 있지 않은(non-interleaving) 환경에서는 트랙 전환 시 오디오 트랙은 전환하지 않고 비디오 트랙만 빠르게 전환하는 방법으로 적용 가능하며, 비디오 트랙 전환 시 빠른 전환을 위해 플레이어(330)의 버퍼 내 기존 데이터를 플러시하는 기술을 적용할 수 있다.
플레이어(330)를 커스터마이징할 수 없는 환경에서는 플레이어(330)의 요청을 멀티뷰 인터셉터(interceptor)에서 캐치하여 전환된 트랙의 세그먼트(TS 파일)로 재요청하여 구현할 수 있다. 멀티뷰 인터셉터는 프록시(proxy) 서버 역할을 하는 것으로, 플레이어(330)와 함께 동영상 재생을 위해 사용자의 단말 장치에 설치 및 구동되는 소프트웨어 모듈들일 수 있다. 합성 영상을 이용한 멀티뷰에서 풀뷰로 전환할 때 플레이어(330)는 계속해서 멀티뷰를 요청하고 있으며, 이때 멀티뷰 인터셉터에서 플레이어(330)의 요청을 풀뷰로 변경하여 요청할 수 있다. 각 트랙의 TS 파일의 오디오는 전환 시 끊김 없는 사용자 경험을 제공하기 위해서 동일한 오디오로 인코딩할 수 있다.
도 12는 본 발명의 일실시예에 있어서 풀뷰에서 멀티뷰로의 레이아웃 전환 과정의 다른 예시를 도시한 도면이다.
도 12는 채널2의 비디오(Cam#2)의 풀뷰에서 합성 영상을 이용한 멀티뷰로 전환되는 과정을 나타내고 있다.
채널#2 원본 영상 스트림에는 멀티뷰 레이아웃을 구성하기 위해 필요한 정보, 즉 나머지 다른 채널의 비디오(Cam#1, Cam#3~Cam#6)를 가지고 있지 않기 때문에 풀뷰에서 멀티뷰로의 전환 시 일시적인 끊김 현상이 발생할 수 있다.
이러한 문제를 개선하기 위해 썸네일(thumbnail)을 이용한 임시 화면 전환 기술을 적용할 수 있다.
채널#2 원본 영상을 이용한 채널2의 비디오(Cam#2)의 풀뷰 화면에서 기본 레이아웃의 멀티뷰, 즉 합성 영상을 이용한 멀티뷰로의 전환을 요청한 경우, 먼저 플레이어(330)는 끊김 없는 화면 전환을 위해서 도 12에 도시한 바와 같이 영상 스트림 내 메타데이터로 제공되는 적어도 하나의 썸네일(예를 들어, 이미지, 애니메이션 등)을 사전에 정해진 레이아웃으로 렌더링하여 임시 뷰 모드로 전환할 수 있다. 임시 뷰 모드에서는 일정 시간 주기로(예컨대, 1초 단위로) 썸네일을 출력할 수 있다.
썸네일을 이용한 임시 화면 전환 기술 이외에도 다른 관련 정보를 임시 화면으로 렌더링하는 것 또한 가능하다. 예를 들어, 채널#2 원본 영상의 복사본을 이용하여 임시 화면을 기본 레이아웃의 멀티뷰 형식으로 구성함으로써 임시 뷰 모드를 제공할 수 있다. 다시 말해, 채널#2 이외에 다른 채널의 영상을 채널#2 원본 영상의 복사본으로 임시 노출할 수 있다. 이때, 임시로 노출되는 다른 채널의 영상(즉, 채널#2 원본 영상의 복사본)의 경우 블러(blur) 처리하여 노출할 수 있다. 다른 예로, 멀티뷰에서 풀뷰로 전환되기 이전 멀티뷰로 노출된 마지막 영상의 장면을 임시 화면으로 렌더링하여 임시 뷰 모드를 제공할 수 있다.
다음으로, 플레이어(330)는 인코더 서버(320)로부터 합성 영상 프레임을 수신하여 후처리를 통해 합성 영상 프레임으로부터 채널 별 스프라이트를 획득한 후 분리된 채널 별 스프라이트를 정해진 레이아웃에 맞게 렌더링함으로써 임시 뷰 모드에서 멀티뷰로 전환할 수 있다.
따라서, 플레이어(330)는 채널#2 원본 영상을 이용한 채널2의 비디오(Cam#2)의 풀뷰 화면에서 사용자가 합성 영상을 이용한 멀티뷰로의 전환을 요청하는 경우, 화면 끊김이 발생하지 않도록 우선적으로 임시 이미지를 제공하고, 이후 합성 영상을 수신하여 합성 영상에서 분리된 채널 별 스프라이트를 해당 레이아웃에 맞게 렌더링함으로써 풀뷰에서 임시 뷰 모드를 거쳐 멀티뷰로의 레이아웃 전환을 수행할 수 있다.
일반적으로는 동일한 해상도의 스트림이 반복해서 출력될 때 해당 스트림이 어떤 형태의 스트림인지 구분할 수 없다. 멀티뷰 환경에서는 현재 출력되는 스트림이 어떤 형태로 구성되어 있는지 알아야 하고 그 정보를 바탕으로 해당 레이아웃으로 각 채널의 비디오들을 분리할 수 있다.
플레이어(330)는 영상 스트림에 포함된 고유 정보로서 영상 구분을 위한 메타 정보를 기초로 뷰 모드 간의 영상 전환 시점을 판단할 수 있다. 영상 구분을 위한 메타 정보는 시스템 환경에 따라 다양할 수 있으며, 일례로 TS 청크(Chunk)를 사용하는 환경에는 TS 컨테이너에 포함된 시간지정 메타데이터(timed-metadata)를 활용하여 영상 전환 시점을 판단할 수 있다. 시간지정 메타데이터는 PTS(predetermined time standard)의 시간 정보를 가지고 있고 해당 시간에 도달하면 메타데이터가 출력된다.
예를 들어, 도 13에 도시한 바와 같이 플레이어(330)는 버퍼(1302) 내 영상 스트림의 TS 청크에 포함된 메타데이터(13)로 해당 영상을 구분할 수 있고 이를 통해 영상 전환 시점을 판단할 수 있다. 다시 말해, 합성 영상 스트림에서 채널#2 원본 영상 스트림으로 전환될 때 해당 시점에 시간지정 메타데이터 값을 넣어주면 시간지정 메타데이터 이후로 입력되는 스트림을 채널#2 원본 영상으로 인식하여 사용할 수 있다.
클라이언트와 서버 간의 세션 연결을 통해 라이브 동영상 서비스를 제공하는 구조의 시스템에서는 서버 단에서 영상 전환 시점을 변경해줄 수 있으나 세션 베이스의 경우 서비스 제공이 가능한 사용자 수에 한계가 있다. 이와 달리, 본 실시예들은 시간지정 메타데이터를 활용하여 클라이언트 측에서 영상 전환 시점을 판단할 수 있고, 특히 세션 베이스가 아닌 HTTP 기반의 프로토콜을 통해 라이브 스트리밍 방식의 동영상 서비스를 제공할 수 있어 기존 시스템 환경에서도 적용 가능하며 보다 많은 사용자를 대상으로 안정된 서비스를 제공할 수 있다.
이처럼 본 발명의 실시예들에 따르면, 다중 라이브 송출 환경에서 멀티 채널의 라이브 동영상을 합성한 하나의 스트림을 받아 멀티뷰를 구성함으로써 최소한의 네트워크를 사용하여 멀티 채널의 라이브 동영상을 재생할 수 있다. 더욱이, 본 발명의 실시예들에 따르면, 다중 라이브 송출 환경에서의 채널 간 전환 시 오디오 및 비디오의 동기를 유지하면서 고속 전환 모드를 구현할 수 있어 서비스 품질과 채감 품질을 향상시킬 수 있다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 이때, 매체는 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수 개의 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 어플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (20)

  1. 컴퓨터 장치에서 실행되는 라이브 동영상 재생 방법에 있어서,
    상기 컴퓨터 장치는 메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고,
    상기 라이브 동영상 재생 방법은,
    상기 적어도 하나의 프로세서에 의해, 라이브 송출 환경에서의 멀티 채널의 영상이 하나로 합성된 합성 영상을 하나의 스트림으로 수신하여 상기 멀티 채널의 영상으로 이루어진 멀티뷰(multi-view)를 구성하는 단계; 및
    상기 적어도 하나의 프로세서에 의해, 상기 멀티뷰에서 특정 채널의 영상이 선택됨에 따라 상기 특정 채널의 원본 영상을 수신하여 상기 멀티뷰에서 상기 특정 채널의 영상에 대한 풀뷰(full-view)로 전환하는 단계
    를 포함하는 라이브 동영상 재생 방법.
  2. 제1항에 있어서,
    상기 멀티뷰를 구성하는 단계는,
    상기 합성 영상으로부터 각 채널 별로 구성된 영상(composition image)을 분리함으로써 채널 별 스프라이트(sprite)를 획득하는 단계; 및
    상기 채널 별 스프라이트를 레이아웃에 따라 렌더링하여 상기 멀티뷰를 구성하는 단계
    를 포함하는 라이브 동영상 재생 방법.
  3. 제1항에 있어서,
    상기 합성 영상은 한 채널의 영상이 나머지 다른 채널의 영상보다 해상도가 높은 메인 영상으로 구성되고 상기 다른 채널의 영상이 서브 영상으로 구성되는 것
    을 특징으로 하는 라이브 동영상 재생 방법.
  4. 제1항에 있어서,
    상기 풀뷰로 전환하는 단계는,
    상기 멀티뷰에서 상기 특정 채널의 영상이 선택되면, 상기 합성 영상에서 분리된 채널 별 스프라이트 중 상기 특정 채널의 스프라이트를 전체 화면으로 렌더링한 이후, 상기 원본 영상을 수신하여 상기 원본 영상을 전체 화면으로 렌더링하는 단계
    를 포함하는 라이브 동영상 재생 방법.
  5. 제4항에 있어서,
    상기 특정 채널의 스프라이트가 전체 화면으로 렌더링된 풀뷰에서는 나머지 다른 채널의 스프라이트가 렌더링되지 않고 히든(hidden) 상태로 포함되는 것
    을 특징으로 하는 라이브 동영상 재생 방법.
  6. 제1항에 있어서,
    상기 라이브 동영상 재생 방법은,
    상기 적어도 하나의 프로세서에 의해, 상기 풀뷰에서 상기 멀티뷰로의 전환 요청을 수신하는 경우 상기 합성 영상을 수신하여 상기 풀뷰에서 상기 멀티뷰로 전환하는 단계
    를 더 포함하는 라이브 동영상 재생 방법.
  7. 제6항에 있어서,
    상기 멀티뷰로 전환하는 단계는,
    상기 전환 요청에 따라, 임시 화면을 사전에 정해진 레이아웃으로 렌더링한 이후, 상기 합성 영상을 수신하여 상기 합성 영상에서 분리된 채널 별 스프라이트를 상기 멀티뷰의 레이아웃으로 렌더링하는 단계
    를 포함하는 라이브 동영상 재생 방법.
  8. 제7항에 있어서,
    상기 멀티뷰로 전환하는 단계는,
    영상 스트림에 포함된 썸네일, 상기 원본 영상의 복사본, 상기 풀뷰로 전환되기 이전 멀티뷰로 노출된 마지막 영상 중 어느 하나를 이용하여 상기 임시 화면을 구성하는 단계
    를 포함하는 라이브 동영상 재생 방법.
  9. 제8항에 있어서,
    상기 복사본을 이용한 상기 임시 화면의 경우 상기 복사본이 블러(blur) 처리되어 노출되는 것
    을 특징으로 하는 라이브 동영상 재생 방법.
  10. 제1항에 있어서,
    상기 멀티뷰와 상기 풀뷰 간의 영상 전환을 위해 영상 스트림의 세그먼트 듀레이션(Segment Duration)을 변경하는 것
    을 특징으로 하는 라이브 동영상 재생 방법.
  11. 제1항에 있어서,
    상기 멀티뷰와 상기 풀뷰 간의 영상 전환을 위해 플레이어 버퍼에서 이전 데이터에 해당되는 영상 스트림을 플러시(flush)하는 것
    을 특징으로 하는 라이브 동영상 재생 방법.
  12. 제1항에 있어서,
    영상 스트림의 컨테이너에 포함된 시간지정 메타데이터(timed-metadata)를 이용하여 상기 멀티뷰와 상기 풀뷰 간의 영상 전환 시점을 판단하는 것
    을 특징으로 하는 라이브 동영상 재생 방법.
  13. 제1항의 라이브 동영상 재생 방법을 컴퓨터에 실행시키기 위한 프로그램이 기록되어 있는 컴퓨터 판독 가능한 기록 매체.
  14. 컴퓨터 장치에 있어서,
    메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서
    를 포함하고,
    상기 적어도 하나의 프로세서는,
    라이브 송출 환경에서의 멀티 채널의 영상이 하나로 합성된 합성 영상을 하나의 스트림으로 수신하여 상기 멀티 채널의 영상으로 이루어진 멀티뷰를 구성하고,
    상기 멀티뷰에서 특정 채널의 영상이 선택됨에 따라 상기 특정 채널의 원본 영상을 수신하여 상기 멀티뷰에서 상기 특정 채널의 영상에 대한 풀뷰로 전환하는 것
    을 특징으로 하는 컴퓨터 장치.
  15. 제14항에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 합성 영상으로부터 각 채널 별로 구성된 영상을 분리함으로써 채널 별 스프라이트를 획득하고,
    상기 채널 별 스프라이트를 레이아웃에 따라 렌더링하여 상기 멀티뷰를 구성하는 것
    을 특징으로 하는 컴퓨터 장치.
  16. 제14항에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 멀티뷰에서 상기 특정 채널의 영상이 선택되면, 상기 합성 영상에서 분리된 채널 별 스프라이트 중 상기 특정 채널의 스프라이트를 전체 화면으로 렌더링한 이후, 상기 원본 영상을 수신하여 상기 원본 영상을 전체 화면으로 렌더링하는 것
    을 특징으로 하는 컴퓨터 장치.
  17. 제14항에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 풀뷰에서 상기 멀티뷰로의 전환 요청을 수신하는 경우 상기 합성 영상을 수신하여 상기 풀뷰에서 상기 멀티뷰로 전환하는 것으로,
    상기 전환 요청에 따라, 임시 화면을 사전에 정해진 레이아웃으로 렌더링한 이후, 상기 합성 영상을 수신하여 상기 합성 영상에서 분리된 채널 별 스프라이트를 상기 멀티뷰의 레이아웃으로 렌더링하는 것
    을 특징으로 하는 컴퓨터 장치.
  18. 제17항에 있어서,
    상기 적어도 하나의 프로세서는,
    영상 스트림에 포함된 썸네일, 상기 원본 영상의 복사본, 상기 풀뷰로 전환되기 이전 멀티뷰로 노출된 마지막 영상 중 어느 하나를 이용하여 상기 임시 화면을 구성하는 것
    을 특징으로 하는 컴퓨터 장치.
  19. 제14항에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 멀티뷰와 상기 풀뷰 간의 영상 전환을 위해 영상 스트림의 세그먼트 듀레이션을 변경하는 것
    을 특징으로 하는 컴퓨터 장치.
  20. 제14항에 있어서,
    상기 적어도 하나의 프로세서는,
    영상 스트림의 컨테이너에 포함된 시간지정 메타데이터를 이용하여 상기 멀티뷰와 상기 풀뷰 간의 영상 전환 시점을 판단하는 것
    을 특징으로 하는 컴퓨터 장치.
PCT/KR2021/012025 2020-09-10 2021-09-06 다중 라이브 송출 환경에서의 채널 간 고속 전환 모드를 구현하는 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체 WO2022055198A1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2023513587A JP2023540047A (ja) 2020-09-10 2021-09-06 多重ライブ配信環境でのチャンネル間の高速切替モードを実現する方法、システム、およびコンピュータ読み取り可能な記録媒体
US18/181,233 US20230217047A1 (en) 2020-09-10 2023-03-09 Method, system, and computer-readable recording medium for implementing fast-switching mode between channels in multi-live transmission environment

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2020-0115872 2020-09-10
KR1020200115872A KR102403259B1 (ko) 2020-09-10 2020-09-10 다중 라이브 송출 환경에서의 채널 간 고속 전환 모드를 구현하는 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/181,233 Continuation US20230217047A1 (en) 2020-09-10 2023-03-09 Method, system, and computer-readable recording medium for implementing fast-switching mode between channels in multi-live transmission environment

Publications (1)

Publication Number Publication Date
WO2022055198A1 true WO2022055198A1 (ko) 2022-03-17

Family

ID=80632328

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/012025 WO2022055198A1 (ko) 2020-09-10 2021-09-06 다중 라이브 송출 환경에서의 채널 간 고속 전환 모드를 구현하는 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체

Country Status (4)

Country Link
US (1) US20230217047A1 (ko)
JP (1) JP2023540047A (ko)
KR (2) KR102403259B1 (ko)
WO (1) WO2022055198A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024082561A1 (zh) * 2022-10-20 2024-04-25 腾讯科技(深圳)有限公司 视频处理方法、装置、计算机、可读存储介质及程序产品

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004177614A (ja) * 2002-11-26 2004-06-24 Mitsubishi Electric Corp マルチ画面表示装置
KR20070025335A (ko) * 2005-09-01 2007-03-08 엘지전자 주식회사 멀티 채널 디스플레이 기능을 갖는 영상기기 및 그 방법
KR20140055252A (ko) * 2012-10-31 2014-05-09 삼성에스디에스 주식회사 다자간 영상 통화 장치 및 이를 이용한 다자간 영상 출력 방법
KR20150008739A (ko) * 2013-07-15 2015-01-23 주식회사 케이티 개인화된 비디오 기반의 화면을 제공하는 서버 및 방법, 그리고 디바이스
KR20160078027A (ko) * 2014-12-24 2016-07-04 삼성전자주식회사 디스플레이 디바이스 및 디스플레이 방법

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101235305B1 (ko) * 2011-06-20 2013-02-21 주식회사 아이티엑스시큐리티 화면 전환시의 영상 공백 해소를 위한 화면출력 제어장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004177614A (ja) * 2002-11-26 2004-06-24 Mitsubishi Electric Corp マルチ画面表示装置
KR20070025335A (ko) * 2005-09-01 2007-03-08 엘지전자 주식회사 멀티 채널 디스플레이 기능을 갖는 영상기기 및 그 방법
KR20140055252A (ko) * 2012-10-31 2014-05-09 삼성에스디에스 주식회사 다자간 영상 통화 장치 및 이를 이용한 다자간 영상 출력 방법
KR20150008739A (ko) * 2013-07-15 2015-01-23 주식회사 케이티 개인화된 비디오 기반의 화면을 제공하는 서버 및 방법, 그리고 디바이스
KR20160078027A (ko) * 2014-12-24 2016-07-04 삼성전자주식회사 디스플레이 디바이스 및 디스플레이 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024082561A1 (zh) * 2022-10-20 2024-04-25 腾讯科技(深圳)有限公司 视频处理方法、装置、计算机、可读存储介质及程序产品

Also Published As

Publication number Publication date
KR102403259B1 (ko) 2022-05-30
JP2023540047A (ja) 2023-09-21
KR20220034022A (ko) 2022-03-17
KR20220033694A (ko) 2022-03-17
US20230217047A1 (en) 2023-07-06
KR102403263B1 (ko) 2022-05-30

Similar Documents

Publication Publication Date Title
WO2014129747A1 (en) Method and apparatus for streaming multimedia content of server by using cache
WO2014142492A1 (en) Method and apparatus for allowing playback devices to perform synchronized playback of streaming content
WO2011059275A2 (en) Method and apparatus for managing data
WO2013077525A1 (ko) 제어 방법 및 그를 이용한 장치
WO2015076537A1 (ko) 동영상 제공 방법 및 동영상 제공 시스템
WO2013077524A1 (ko) 사용자 인터페이스 표시 방법 및 그를 이용한 장치
CN110719516A (zh) 视频同步的方法及装置、终端和存储介质
CN111818383B (zh) 视频数据的生成方法、系统、装置、电子设备及存储介质
WO2015007137A1 (zh) 一种会议电视终端、辅流数据接入方法及计算机存储介质
WO2022055198A1 (ko) 다중 라이브 송출 환경에서의 채널 간 고속 전환 모드를 구현하는 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체
WO2022050625A1 (ko) 다중 라이브 송출 환경에서의 채널 간 심리스 전환 모드를 구현하는 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체
WO2015064854A1 (ko) 멀티앵글영상서비스의 사용자인터페이스 메뉴 제공방법 및 사용자 인터페이스메뉴 제공장치
WO2021029671A1 (ko) 스트리밍 콘텐츠의 재생 방법 및 시스템
WO2011093629A2 (ko) 미디어 스트리밍을 이용한 리치미디어 서비스 방법 및 시스템
WO2020138567A1 (ko) 컨텐츠 스트리밍 장치, 시스템 및 방법
WO2022231267A1 (ko) 싱글 스트림을 이용하여 관심 영역 고화질 영상을 제공하는 방법, 컴퓨터 장치, 및 컴퓨터 프로그램
WO2013154364A1 (ko) 스트리밍 재생 방법 및 이를 이용한 컴퓨팅 장치
CN108282670A (zh) 用于实时影像合成的代码转换器
WO2019050067A1 (ko) 비디오 품질 제어
WO2016018102A1 (ko) 클라우드 스트리밍 기반 방송 연동형 서비스 시스템, 방송 연동형 서비스 클라이언트 장치, 트리거 컨텐츠 제공 서버 및 이를 이용한 방법
WO2019225788A1 (ko) 복수의 채널을 이용하여 동적 비트레이트의 비디오를 송출 및 재생하는 방법 및 시스템
WO2021045474A1 (ko) 로컬 스트리밍 서버를 이용한 스트리밍 콘텐츠의 재생 방법 및 시스템
WO2016088940A1 (ko) 클라우드 스트리밍 서비스 시스템, 어플리케이션 코드를 이용한 이미지 클라우드 스트리밍 서비스 방법 및 이를 위한 장치
WO2009108004A2 (en) Content reproduction apparatus and method
WO2018155910A1 (ko) 중계 방송을 지원하기 위한 방법, 디바이스 및 비일시성의 컴퓨터 판독 가능한 기록 매체

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21867064

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2023513587

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21867064

Country of ref document: EP

Kind code of ref document: A1