KR102414301B1 - Pod 기반의 영상 관제 시스템 및 pod 기반의 영상 처리 방법 - Google Patents

Pod 기반의 영상 관제 시스템 및 pod 기반의 영상 처리 방법 Download PDF

Info

Publication number
KR102414301B1
KR102414301B1 KR1020210191148A KR20210191148A KR102414301B1 KR 102414301 B1 KR102414301 B1 KR 102414301B1 KR 1020210191148 A KR1020210191148 A KR 1020210191148A KR 20210191148 A KR20210191148 A KR 20210191148A KR 102414301 B1 KR102414301 B1 KR 102414301B1
Authority
KR
South Korea
Prior art keywords
image
content
output
output condition
images
Prior art date
Application number
KR1020210191148A
Other languages
English (en)
Inventor
윤성재
김희석
Original Assignee
엔쓰리엔 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엔쓰리엔 주식회사 filed Critical 엔쓰리엔 주식회사
Priority to KR1020210191148A priority Critical patent/KR102414301B1/ko
Application granted granted Critical
Publication of KR102414301B1 publication Critical patent/KR102414301B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/181Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a plurality of remote sources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/35Switches specially adapted for specific applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/222Secondary servers, e.g. proxy server, cable television Head-end
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/239Interfacing the upstream path of the transmission network, e.g. prioritizing client content requests
    • H04N21/2393Interfacing the upstream path of the transmission network, e.g. prioritizing client content requests involving handling client requests
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/266Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
    • H04N21/2662Controlling the complexity of the video stream, e.g. by scaling the resolution or bitrate of the video stream based on the client capabilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

본 발명의 일 양태는, POD 기반의 영상 관제 시스템을 개시하고 있다. 상기 시스템은, 촬영한 영상을 압축하여 제공하는 카메라, 상기 카메라에서 전송되는 동영상 압축 스트림을 디코딩한 영상을 처리하는 영상 처리부를 포함하되, 상기 영상 처리부는, 상기 카메라로부터 전송되는 복수의 동영상 압축 스트림을 바인딩하여 바인딩 영상을 생성하는 영상 머지 서버와, 상기 영상 머지 서버에서 생성된 상기 바인딩 영상을 전체 영상으로 구성하고, 소정 출력 조건에 따라 상기 전체 영상 중 적어도 일부를 재구성하여 사용자 단말로 최종 출력 영상을 전달하는 디스플레이 서버를 구비하고, 상기 디스플레이 서버는 상기 전체 영상과 상기 전체 영상에 대응하는 컨텐츠 복원 모델을 상기 사용자 단말로 전송한다.

Description

POD 기반의 영상 관제 시스템 및 POD 기반의 영상 처리 방법{POD-BASED VIDEO CONTROL SYSTEM AND METHOD}
본 발명은 비디오를 전송하는 방법에 관한 것으로, 보다 상세하게는, 사용자 단말의 요청에 맞게 적응적으로 실시간으로 비디오를 전송하는 방법 및 장치에 관한 것이다.
인터넷을 통한 비디오 전송이 급격하게 증가하고 있으며, 증강 현실이나 가상 현실을 제공하는 스트리밍 서비스가 등장함에 따라 인터넷 비디오가 전체 인터넷 트래픽에서 차지하는 비중이 높아지고 있다.
인터넷 비디오 전송 기술은 컨텐츠 전송 네트워크(content delivery networks, CDNs)에서부터 HTTP 적응적 스트리밍(adaptive streaming) 및 QoE(Quality of Experience)를 위한 데이터를 이용한 최적화에 이르기까지, 한정된 네트워크 자원 내에서 사용자에게 최상의 화질을 제공할 수 있도록 하기 위해 다양한 기술이 제안된 바 있다.
도 1은 종래 비디오 전송을 담당하는 미디어 분배 서버의 전송 방법을 설명하기 위한 개념도이다.
도 1을 참조하면, 종래 미디어 분배 서버(120)는 다수의 카메라(110-1~110-N)로부터 컨텐츠를 전송받아, 다수의 클라이언트들(사용자 단말이라고 부를 수 있음)(130-1~130-4)로 분배한다. 특히, 이러한 미디어 분배 서버(120)는 무인 감시 시스템에 활용될 수 있다.
무인 감시 시스템은 폐쇄 회로 카메라(110-1~110-N)에서 촬영한 영상 데이터를 사용자 단말들(130-1~130-4)로 출력하도록 하기 위한 것으로, 이러한 무인 감시 시스템의 효율적인 통제와 활용을 위해서는 다수의 위치에 산재하여 있는 다량의 카메라(110-1~110-N)로부터 제공되는 영상 데이터를 선택하여 사용자 단말(130-1~130-4)에서 효과적으로 확인 및 감시가 이루어지도록 할 필요가 있다.
특히, 종래의 비디오 분배 방법에 있어서, 미디어 분배 서버(120)는 사용자 단말(130-1~130-4)의 능력을 고려하지 않고 동일한 영상 컨텐츠를 단순 분배하여 전송하기 때문에, 대역폭과 같은 네트워크 활용 측면에서 그 효율성이 매우 떨어지는 문제점이 있었다. 즉, SD 영상이 가능한 단말(130-4)이나, UHD(4K) 영상이 가능한 단말(130-1)이나 동일한 화질의 영상 컨텐츠(도 1의 실시예에서는 동일하게 13Mbps의 영상 컨텐츠를 사용)가 단순 분배되었기 때문에, 네트워크 활용과 관련된 효율성이 매우 떨어지게 된다.
상술한 문제점을 해결하기 위한 본 발명의 일 양태에 따른 목적은, 사용자 단말의 능력 및/또는 출력조건에 대응하여, 영상 데이터를 적응적으로 재구성하여 전송 및 처리하는 POD(Pixel On Demand) 기반의 영상 관제 시스템 및 POD 기반의 영상 처리 방법를 제공하는 것이다.
상기한 목적을 달성하기 위한 본 발명의 일 양태에 따른, POD 기반의 영상 관제 시스템은, 촬영한 영상을 압축하여 제공하는 카메라, 상기 카메라에서 전송되는 동영상 압축 스트림을 디코딩한 영상을 처리하는 영상 처리부를 포함하되, 상기 영상 처리부는, 상기 카메라로부터 전송되는 복수의 동영상 압축 스트림을 바인딩하여 바인딩 영상을 생성하는 영상 머지 서버와, 상기 영상 머지 서버에서 생성된 상기 바인딩 영상을 전체 영상으로 구성하고, 소정 출력 조건에 따라 상기 전체 영상 중 적어도 일부를 재구성하여 사용자 단말로 최종 출력 영상을 전달하는 디스플레이 서버를 구비하고, 상기 디스플레이 서버는 상기 전체 영상과 상기 전체 영상에 대응하는 인공지능(AI: Artificial Intelligence) 기반의 컨텐츠 복원 모델을 상기 사용자 단말로 전송할 수 있다.
상기 카메라들은 복수 개로 마련되고, 복수 개의 상기 카메라는 적어도 하나 이상의 허브에 연결되고, 상기 허브와 상기 영상 처리부는 상기 허브에 의하여 스위칭될 수 있다.
상기 영상 머지 서버는 복수 개로 구비되고, 상기 디스플레이 서버와 상기 영상 머지 서버 사이에는 각각의 상기 영상 머지 서버의 영상을 처리하는 멀티플 머지 서버가 구비될 수 있다.
상기 소정 출력 조건을 상기 디스플레이 서버는 상기 영상 머지 서버로 전달하고, 상기 영상 머지 서버는 상기 소정 출력 조건에 따라 상기 바인딩 영상에서 상기 소정 출력 조건의 영상을 재구성하여 상기 디스플레이 서버로 전달할 수 있다.
상기 시스템은, 복수의 카메라로부터 다수의 영상 컨텐츠를 수신하고, 이를 압축시켜 대체 영상 컨텐츠를 생성하고, 상기 대체 영상 컨텐츠로부터 컨텐츠 원본을 출력하도록 상기 컨텐츠 복원 모델을 학습시키는 AI 모듈을 더 포함할 수 있다.
상기 AI 모듈은 상기 전체 영상의 저해상도 영상을 생성하고, 상기 컨텐츠 복원 모델에 상기 저해상도 영상으로부터 상기 전체 영상의 원본을 출력하도록 학습시킬 수 있다.
상기 대체 영상 컨텐츠는 상기 전체 영상의 원본으로부터 생성될 수 있다.
상기한 목적을 달성하기 위한 본 발명의 다른 양태에 따른, POD 기반의 영상 관제 시스템은, 촬영한 영상을 압축하여 제공하는 카메라, 상기 카메라에서 전송되는 동영상 압축 스트림을 디코딩한 영상을 처리하는 영상 처리부를 포함하되, 상기 영상 처리부는, 상기 카메라로부터 전송되는 복수의 동영상 압축 스트림을 바인딩하여 바인딩 영상을 생성하는 영상 머지 서버와, 상기 영상 머지 서버에서 생성된 상기 바인딩 영상을 전체 영상으로 구성하고, 소정 출력 조건에 따라 상기 전체 영상 중 적어도 일부를 재구성하여 사용자 단말로 최종 출력 영상을 전달하는 디스플레이 서버를 구비하고, 상기 디스플레이 서버는 상기 최종 출력 영상과 상기 최종 출력 영상에 포함된 복수의 동영상 압축 스트림에 개별적으로 대응하는 인공지능(AI: Artificial Intelligence) 기반의 컨텐츠 복원 모델을 상기 사용자 단말로 전송할 수 있다.
상기 시스템은, 복수의 카메라로부터 다수의 영상 컨텐츠를 수신하고, 이를 압축시켜 대체 영상 컨텐츠를 생성하고, 상기 대체 영상 컨텐츠로부터 컨텐츠 원본을 출력하도록 상기 컨텐츠 복원 모델을 학습시키는 AI 모듈을 더 포함할 수 있다.
상기 AI 모듈은 상기 최종 출력 영상의 저해상도 영상을 생성하고, 상기 컨텐츠 복원 모델에 상기 저해상도 영상으로부터 상기 최종 출력 영상의 원본을 출력하도록 학습시킬 수 있다.
상기 대체 영상 컨텐츠는 상기 최종 출력 영상의 원본으로부터 생성될 수 있다.
상기한 목적을 달성하기 위한 본 발명의 일 양태에 따른, POD 기반의 영상 처리 방법은, 카메라에서 영상을 압축하여 제공하는 단계, 상기 압축된 영상을 디코딩하는 디코딩 단계, 상기 디코딩되는 영상을 소정 출력 조건으로 재구성하여 전체 영상을 준비하는 준비 단계 및 상기 전체 영상에서 상기 소정 출력 조건의 영상을 최종 출력 영상으로 출력하는 출력 단계를 포함하되, 상기 준비 단계에서, 상기 전체 영상에 상기 소정 출력 조건에 해당하는 영상이 있으면 상기 전체 영상에서 상기 소정 출력 조건의 영상을 전달하고, 상기 전체 영상에 상기 소정 출력 조건의 영상이 없으면 상기 디코딩 단게에서 이미 디코딩된 영상 중에서 상기 소정 출력 조건에 해당하는 영상이 포함된 상기 전체 영상을 재구성하고, 상기 재구성된 전체 영상에서 상기 소정 출력 조건의 영상을 선택하여 전달하되, 상기 소정 출력 조건의 영상을 선택하여 전달할 때, 상기 재구성된 전체 영상과 상기 재구성된 전체 영상에 대응하는 인공지능(AI: Artificial Intelligence) 기반의 컨텐츠 복원 모델을 상기 사용자 단말로 전송할 수 있다.
상기 디코딩 단계는 복수개의 상기 카메라에서 촬영한 복수개의 영상을 디코딩 한 후 상기 복수개의 영상을 묶어서 재생할 수 있다.
상기한 목적을 달성하기 위한 본 발명의 다른 양태에 따른, POD 기반의 영상 처리 방법은, 다수의 카메라가 촬영한 영상을 압축하여 전송하고, 상기 다수의 카메라에서 압축 전송된 영상을 디코딩하여 영상을 최종 출력이 이루어지는 동안에 다수의 영상으로 함께 지속적으로 재생하고, 상기 다수의 영상을 상기 카메라가 촬영하는 최대 해상도 이하의 범위를 가지는 소정 출력 조건으로 전체 영상을 구성하고, 상기 전체 영상에서 상기 소정 출력 조건에 해당하는 영상을 선택하여 출력하되, 상기 소정 출력 조건이 바뀌면 상기 전체 영상에서 바뀐 출력 조건의 영상을 선택하여 출력하되, 상기 선택하여 출력할 때, 바뀐 출력 조건의 영상과 그에 대응하는 인공지능(AI: Artificial Intelligence) 기반의 컨텐츠 복원 모델을 함께 출력할 수 있다.
상기한 목적을 달성하기 위한 본 발명의 또 다른 양태에 따른, POD 기반의 영상 처리 방법은, 다수의 카메라가 촬영한 영상을 압축하여 전송하고, 상기 다수의 카메라에서 압축 전송된 영상을 디코딩하여 영상을 최종 출력이 이루어지는 동안에 다수의 영상으로 함께 지속적으로 재생하고, 상기 다수의 영상을 상기 카메라가 촬영하는 최대 해상도 이하의 범위를 가지는 소정 출력 조건으로 전체 영상을 구성하고, 상기 전체 영상에서 상기 소정 출력 조건에 해당하는 영상을 선택하여 출력하되, 상기 소정 출력 조건이 바뀌고, 상기 전체 영상에 바뀐 출력 조건의 영상이 포함되어 있지 않으면, 상기 재생되는 영상으로부터 상기 전체 영상을 재구성하고, 상기 재구성된 영상으로부터 상기 바뀐 출력 조건에 해당하는 영상을 선택하여 출력하되, 상기 선택하여 출력할 때, 상기 바뀐 출력 조건에 해당하는 영상과 그에 대응하는 인공지능(AI: Artificial Intelligence) 기반의 컨텐츠 복원 모델을 함께 출력할 수 있다.
본 발명의 POD 기반의 영상 관제 시스템 및 POD 기반의 영상 처리 방법에 따르면, 사용자 단말의 출력 조건에 맞춰 영상 컨텐츠의 처리량을 자동 조절함으로써 네트워크 대역폭 사용량을 획기적으로 감소시키고, 시스템 자원 낭비를 방지하는 효과가 있다.
도 1은 종래 비디오 전송을 담당하는 미디어 분배 서버의 전송 방법을 설명하기 위한 개념도,
도 2는 본 발명의 일 실시예에 따른 POD 기반의 영상 컨텐츠 전송 방법이 적용된 시스템을 설명하기 위한 개념도,
도 3은 본 발명의 일 실시예에 따른 POD 기반의 영상 컨텐츠 전송 방법에 AI(Artificial Intelligence) 복원 기술까지 적용된 시스템을 설명하기 위한 개념도,
도 4는 본 발명의 일 실시예에 따른 POD 기반의 영상 컨텐츠 전송 장치의 구성을 구체적으로 나타낸 상세블록도,
도 5는 본 발명의 일 실시예에 따른 POD 기반의 영상 컨텐츠 전송 방법을 상세하게 나타낸 상세흐름도,
도 6은 본 발명의 일 실시예에 따라, 플레이백 서버, 영상 머지 서버 및 디스플레이 서버를 포함하는 POD 모듈의 시스템 구성을 상세하게 나타낸 상세블록도,
도 7은 바인딩 영상을 구성하는 실시예를 설명하기 위한 도면,
도 8은 다수의 영상 컨텐츠를 수신하여 전체 영상을 구성하는 실시예들을 설명하기 위한 도면,
도 9은 도 8의 영상들을 기반으로 최종 출력 영상에 대한 실시예들을 설명하기 위한 도면,
도 10은 본 발명의 다른 실시예에 따라, 영상 머지 서버 및 디스플레이 서버를 포함하는 POD 모듈의 시스템 구성을 상세하게 나타낸 상세블록도,
도 11은 도 4의 AI 모듈의 구성을 구체적으로 나타낸 상세블록도,
도 12는 컨텐츠 복원 모델 학습 방법을 설명하기 위한 개념도,
도 13은 군집별 컨텐츠 복원 모델을 이용한 컨텐츠 전송 방법을 설명하기 위한 개념도,
도 14는 본 발명의 일 실시예에 따른 POD 기반의 영상 컨텐츠 전송 방법에 따라 네트워크 대역폭에서의 효율의 차이를 나타낸 테이블이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다.
그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제 1, 제 2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제 1 구성요소는 제 2 구성요소로 명명될 수 있고, 유사하게 제 2 구성요소도 제 1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.
도 2는 본 발명의 일 실시예에 따른 POD 기반의 영상 컨텐츠 전송 방법이 적용된 시스템을 설명하기 위한 개념도이다. 도 2에 도시된 바와 같이, 본 발명의 일 실시예에 따른 시스템은 카메라(210-1~210-N), 미디어 분배 서버(220) 및 사용자 단말(230-1~230-4)을 포함할 수 있다.
도 2를 참조하면, 카메라(210-1~210-N)는 촬영된 영상을 H.263, H.264, H.265, MJPEG, JPEG 2000 등과 같은 영상 압축 프로토콜로 압축하는 인코더(encoder)를 구비한다. 카메라(210-1~210-N)는 촬영한 영상을 동영상 압축 스트림(stream)으로 출력한다. 카메라(210-1~210-N)는 640 X 480 부터 1920 X 1080, 3840 X 2160 (4K), 8K 등 그 이상에 이르기까지 다양한 해상도의 영상을 생성하는 네트워크 IP 카메라 또는 아날로그 카메라일 수 있다. 카메라(210-1~210-N)는 미리 설정된 기본 해상도의 영상을 제공한다.
다른 예에서, 카메라(210-1~210-N)는 영상 컨텐츠를 제공하는 주체로써, 반드시 카메라와 같은 촬영장치로 구현되어야만 하는 것은 아니다. 카메라(210-1~210-N)라고 표현된 구성요소는 미리 만들어진 영상 컨텐츠를 제공하는 "컨텐츠 제공자"로 구현되어도 무방하다. 즉, 본 명세서 상에서, 카메라로 표현된 부분은 영상 컨텐츠를 제공하는 다양한 형태의 컨텐츠 제공자 또는 컨텐츠 스트리밍 서비스 제공자 등(대용량 서버 또는 컴퓨팅 장치로 구현될 수 있음)으로 대체되어 표현될 수 있다. 그 반대도 마찬가지다. 여기서, 영상 컨텐츠는 방송 컨텐츠, 오디오 또는 비디오 컨텐츠 등 다양한 멀티미디어 컨텐츠를 포함한다. 컨텐츠는 소정의 미디어 컨텐츠이면 그 내용이나 형식에는 제한이 없다. 따라서, 컨텐츠에는 컨텐츠 제작 사업자가 제작한 컨텐츠 뿐만 아니라 개인이 만들어 배포하는 UCC(User Creative Contents)가 포함될 수 있다.
보다 구체적으로, 컨텐츠 제공자는 컨텐츠 제공 서비스를 위한 컨텐츠를 생성하여 제공한다. 컨텐츠 제공자는 서비스 목적에 따라 다양한 컨텐츠를 생성할 수 있다. 예컨대, VOD(Video On Demand) 서비스를 제공하는 컨텐츠 제공자는 비디오/오디오 형태의 컨텐츠를 생성하여 제공할 수 있고, 개인 방송을 제공하는 컨텐츠 제공자는 라이브 스트림 형태의 컨텐츠를 생성하여 제공할 수 있다. 또한, 다시점 영상 공유 서비스를 제공하는 컨텐츠 제공자는 영상의 깊이 정보를 포함하는 컨텐츠를 생성하여 제공할 수 있다. AR(Augmented Reality) 서비스를 제공하는 컨텐츠 제공자는 360 카메라를 통해 스티칭된 컨텐츠를 생성하여 제공할 수 있다.
미디어 분배 서버(220)는 다수의 카메라들(또는 컨텐츠 제공자)(210-1~210-N)로부터 영상 컨텐츠를 수신한다. 그리고는, 사용자 단말(230-1~230-4)이 요청한 영상 컨텐츠를 요청 대상 단말에게, 독립적으로, 그리고 병렬적으로 전송할 수 있다. 미디어 분배 서버(220)는 영상 컨텐츠 전송 장치, 영상 처리 장치, 영상 처리 시스템, 영상 관제 시스템(CCTV 카메라 등으로부터 영상을 수신하여 처리) 등으로 불릴 수 있다.
미디어 분배 서버(220)는 POD 모듈(225)을 포함할 수 있다. POD 모듈(225)은 영상 데이터를 효율적으로 전송/처리하는 지능형 영상 처리 모듈로, 카메라 영역이나 채널 구분 없이 사용자 단말(230-1~230-4)에서 필요한 영상 데이터만 전송하여 네트워크 효율을 극대화한다. 예를 들어, 화면의 줌(ZOOM)/패닝(PANNING) 레벨에 맞춰 적응적으로 비디오(VIDEO)(또는 영상(IMAGE)) 처리량을 자동 조절함으로써 네트워크 대역폭 사용량을 감소시킬 수 있다. 그 결과 낭비되는 시스템 자원(CPU, GPU, MEMORY) 및 네트워크 부하량을 최소화한다.
POD 모듈(225)은 다수 개의 카메라(210-1~210-N)들로부터 제공되는 동영상 압축 스트림을 저장할 수 있는 기록매체와 기록된 영상의 재생을 위하여 압축된 영상 데이터를 디코딩하기 위한 디코더(decoder)와 그래픽 카드를 구비하는 디지털 영상 저장장치로 구현될 수 있다. POD 모듈(225)은 수신되는 영상 컨텐츠를 별도의 디코딩 과정 없이 샘플링하여 출력 준비하기 위한 것으로 빠른 프레임 레이트로 영상을 준비하는 영상 머지 모듈(미도시)(프로세서 또는 별도의 서버 장치로 구현될 수 있음)와 영상 머지 모듈(미도시)에서 전달받은 영상을 신속하게 편집하는 디스플레이 모듈(미도시)(프로세서 또는 별도의 서버 장치로 구현될 수 있음)를 포함할 수 있다.
한편, 영상 머지 모듈은 복수 개의 디코딩된 영상 데이터를 처리한다. 영상 머지 모듈은 개별 사용자 단말(230-1~230-4)의 요청에 따라 영상 데이터를 재구성하여 고품질의 영상을 디스플레이 모듈로 전달할 수 있다. 영상 데이터의 재구성시 디코딩된 카메라 수신 영상들 중 재구성에 필요한 선택하여 처리한다.
한편, 디스플레이 모듈은 4 채널의 비디오 캡처 카드(video capture card)를 구비할 수 있다. 디스플레이 모듈은 영상 머지 모듈에서 제공하는 재구성 영상을 이용하여 전체 영상(M1, M2, M3, 도 7 및 도 8 참조)으로부터 소정 출력 조건에 따른 영상을 선택 및 편집한다. 이 소정 출력 조건은 사용자 단말(230-1~230-4)과의 상호작용(예를 들어 마우스 클릭, 드래그(drag), 터치 스크린 동작 등)을 의미할 수 있다. 여기에, 개별 사용자 단말(230-1~230-4)의 스크린 해상도 정보, 또는 사용자 단말(230-1~230-4)에서 요청하는 프레임 레이트(frame rate) 및 비트 레이트(bit rate) 정보도 포함될 수 있다. 해상도 정보, 프레임 레이트 및 비트레이트 정보 중 적어도 하나는 사용자의 상호작용과 관련하여 사용자 단말(230-1~230-4)과 미디어 분배 서버(220) 간에 실시간으로 송수신되는 정보(예를 들어, 특정 영상 컨텐츠를 요청하는 정보)에 포함되어 전달될 수도 있고, 미리 미디어 분배 서버(220)에 사용자 단말(230-1~230-4)의 성능 정보와 매칭되어 저장되어 있을 수도 있다. 즉, 제 1 사용자 단말(230-1)은 UHD(4K) 디스플레이 장치로, 3840 X 2160의 해상도를 갖는 것으로 저장되어 있을 수 있고, 제 2 사용자 단말은 FHD 디스플레이 장치로, 1920 X 1080의 해상도를 갖는 것으로 저장되어 있을 수 있다. 또한, 제 4 사용자 단말(230-4)은 핸드폰으로 648 X 480의 해상도를 갖는 것으로 저장되어 있을 수 있다. 프레임 레이트 및/또는 비트 레이트도 마찬가지로, 특정 사용자 단말(230-1~230-4)에 각각 대응하는 프레임 레이트 정보가 미리 저장되어 있을 수 있다.
POD 모듈(225)은 위와 같은 출력 조건에 대응하여, 그에 맞게 적절한 재구성된 영상을 대응하는 비트레이트로 제공할 수 있다. 예를 들어, 제 1 사용자 단말(230-1)에는 그것의 최대 해상도인, 4K 영상에 맞게 높은 해상도로, 높은 품질의 영상(예를 들어, 13Mbps의 영상)으로 생성하여 제공할 수 있다. 만약, 카메라(210-1~210-N)의 기본 해상도가 4K인 경우, 특별한 디코딩 및 인코딩 작업, 또는 다른 영상 처리 작업 없이, 카메라(210-1~210-N)로부터의 원본 영상 컨텐츠를 그대로 제 1 사용자 단말(230-1)로 제공할 수 있다. 반면, 제 2 사용자 단말(230-2)이 FHD 해상도를 갖는 경우, 카메라(210-1~210-N)로부터의 원본 영상 컨텐츠를 FHD 영상 품질에 맞게 재구성하는 것이 필요하다. 즉, 제 2 사용자 단말(230-2)의 출력 조건 하에서 원본 영상 컨텐츠의 해상도가 유지될 수 있도록, 그에 대응하는 품질의 영상(예를 들어, 3Mbps의 영상)으로 생성하여 제공할 수 있는 것이다. 적절한 품질의 영상을 생성하기 위해, POD 모듈(225)은 디코더뿐만 아니라 인코더를 모두 포함할 수 있다.
한편, 사용자 단말(230-1~230-4)의 출력조건에 반응하여 디스플레이 모듈이 영상 머지 모듈에게 최종 출력할 카메라(210-1)를 지정하고, 해당 카메라(210-1)에게 상기 출력조건에 대응하여 출력되어야 할 해상도 정보 등을 보내줄 수 있다. 이를 통해, 사용자 단말(230-1~230-4)의 출력 조건에 응답하여 영상 머지 모듈은 카메라로부터 수신되는 영상을 별도의 디코딩 과정과 같은 오버헤드 없이 디스플레이 모듈에 소정 출력 조건의 영상을 제공하게 된다.
사용자 단말(230-1~230-4)은 스마트폰, 태블릿 PC, 노트북 또는 데스크탑 등일 수 있고, 디스플레이 모듈로부터 수신되는 영상 컨텐츠를 제공받아 출력할 수 있다.
도 3은 본 발명의 일 실시예에 따른 POD 기반의 영상 컨텐츠 전송 방법에 AI(Artificial Intelligence) 복원 기술까지 적용된 시스템을 설명하기 위한 개념도이다.
도 3을 참조하면, 미디어 분배 서버(320)는 POD 모듈(325)뿐만 아니라 AI 모듈(327)을 더 포함할 수 있다.
AI 모듈(327)은 다수의 컨텐츠를 군집화하여, 컨텐츠의 카테고리에 따라 다양한 복원 모델을 학습시키고, 사용자 단말(330-1~330-4)에서 요구하는 컨텐츠에 대응하는 복원 모델을 매칭시키는 기능을 수행한다.
AI 모듈(327)은 다수의 컨텐츠를 군집화하기 위해 컨텐츠 제공자로부터 제공되는 컨텐츠에 대한 메타 데이터를 이용하거나, 이미지의 유사도를 판단하는 기계학습 기반의 모델을 이용할 수 있다. 구체적으로, 이미지 분류(classification)를 학습한 신경망 모델을 통해 컨텐츠의 유사도를 판단하여 제공되는 다수의 컨텐츠를 군집화할 수 있다.
AI 모듈(327)은 각 군집에 포함되어 있는 유사도가 높은 컨텐츠들을 이용하여, 저화질 또는 압축된 형태의 컨텐츠로부터 고화질 또는 고품질의 컨텐츠를 출력하도록 컨텐츠 복원 모델을 학습시킬 수 있다. 군집 내에 포함되어 있는 컨텐츠들은 유사도가 높은 컨텐츠로 서로 공유하고 있는 중복된 정보가 많기 때문에, 동일한 컨텐츠 복원 모델을 이용할 수 있다.
사용자 단말(330-1~330-4)은 POD 모듈(325)에 의해 재구성되어 제공되는 영상 컨텐츠와 그에 대응하는 컨텐츠 복원 모델을 미디어 분배 서버(320)를 통해 수신한다.
사용자 단말(330-1~330-4)의 종류, 출력 조건 및/또는 네트워크 상태에 따라 그에 적합한 컨텐츠 제공 모델이 제공될 수 있다.
컨텐츠 복원 모델은 사용자 단말(330-1~330-4)이 수신하는 매니페스트 파일(manifest file)의 메타 데이터에 포함될 수 있다. 사용자 단말(330-1~330-4)은 매니 페스트 파일을 통해 컨텐츠에 접근 또는 컨텐츠를 요청하는 것 이외에, 해당 컨텐츠에 적합한 컨텐츠 복원 모델을 수신할 수 있다.
사용자 단말(330-1~330-4)은 수신되는 영상 컨텐츠 및 그에 대응하는 컨텐츠 복원 모델을 이용하여, 원하는 품질의 컨텐츠를 생성할 수 있다. 즉, 제공받은 컨텐츠 복원 모델을 이용하여 사용자 단말(330-1~330-4) 내에서의 연산을 통해 고품질의 컨텐츠를 생성할 수 있기 때문에 사용자는 네트워크 환경이 좋지 않더라도 고품질의 컨텐츠를 제공받을 수 있게 된다.
위와 같이, AI 기반의 컨텐츠 복원 모델을 이용하여, POD 기술을 통해 각 사용자 단말(330-1~330-4)의 출력 조건에 맞게 상이하게 생성된 영상 컨텐츠보다 더 저품질의 영상 컨텐츠를 사용자 단말(330-1~330-4)에 제공해도, 사용자 단말(330-1~330-4)은 그에 대응하는 컨텐츠 복원 모델을 이용하여 자신에게 적합한 고품질의 영상을 생성하여 재생할 수 있다. 즉, 제 2 사용자 단말(330-2)의 예를 들면, 기본적으로 13Mbps의 영상을 POD를 통해 3Mbps의 영상으로 줄여서 전달가능한데, AI 복원 기술까지 더하게 되면, 1.5Mbps의 영상 크기로 줄여서 전달해도 최초 13Mbps의 영상 컨텐츠와 동일 또는 유사한 품질의 영상 컨텐츠로 복원하여 재생할 수 있는 것이다. 이를 통해, 네트워크 대역폭 사용량을 크게 효율적으로 만들 수 있다.
한편, 사용자 단말(330-1~330-4)은 각 컨텐츠의 서비스 타입이 지원하는 전송 프로토콜을 통해 각 컨텐츠 및 컨텐츠 복원 모델을 수신한다. 예컨대, VOD 서비스를 제공받기 위하여 RTSP 및 HLS 프로토콜을 통해 컨텐츠를 수신하거나, 개인 방송 서비스를 제공받기 위해 라이브 스트림 형태의 컨텐츠를 HLS 프로토콜 또는 MPEG-TS 프로토콜을 통해 수신할 수 있다.
도 4는 본 발명의 일 실시예에 따른 POD 기반의 영상 컨텐츠 전송 장치의 구성을 구체적으로 나타낸 상세블록도이다. 도 4에 도시된 바와 같이, 본 발명의 일 실시예에 따른 영상 컨텐츠 전송 장치(400)는 컨텐츠 수신 모듈(410), POD 모듈(420), AI 모듈(430) 및 전송 모듈(440)을 포함할 수 있다. 개별 모듈들은 각각 하나의 프로세서로 구현되어 복수 개의 프로세서가 포함된 장치로 구현될 수 있다. 또는, 개별 모듈의 기능이 조합하여 하나의 프로세서에서 처리되는 형태로 하나의 장치로써 구현될 수 있다.
도 4의 (a)를 참조하면, 컨텐츠 수신 모듈(410)은 다수의 카메라(또는 컨텐츠 제공자)들로부터 영상 컨텐츠를 수신한다.
POD 모듈(420)은 사용자 단말(405)로부터의 컨텐츠 요청 정보를 수신하여, 그에 대응하는 영상 컨텐츠를 재구성한다(요청 정보 수신 모듈 미도시). 이때, 컨텐츠 요청 정보에는 다수의 카메라로부터의 영상 컨텐츠들 중 적어도 하나(복수 개일 수 있음)를 지시하는 정보가 포함되어 있을 수 있다. 또한, 출력 조건 정보도 포함될 수 있다. 출력 조건 정보는 특정 영상들의 조합과 관련된 정보, 줌/패닝 관련 정보를 포함한다. 그리고, 해상도, 프레임레이트 및/또는 비트레이트와 관련된 정보도 포함될 수 있다. 특히, 해상도, 프레임레이트 및/또는 비트레이트는 영상 컨텐츠의 품질에 직접적으로 영향을 주는 것이다. 해상도, 프레임 레이트 및/또는 비트레이트는 컨텐츠 요청 정보에 포함되어 실시간으로 수신되어 확인할 수도 있고, 그렇지 않고, 미리 저장된 사용자 단말(405)에 관한 정보를 기반으로 확인할 수도 있다. POD 모듈(420)은 컨텐츠 요청 정보 및 그에 포함된 출력 조건 정보를 기반으로 POD가 적용된 재구성 영상 컨텐츠를 생성한다.
한편, POD 모듈(420)은 사용자 단말(405)의 최대 최대 또는 미리 설정된 해상도에 맞춰 요청된 영상 컨텐츠의 기초 해상도(이는 원본 영상 컨텐츠의 원본 해상도일 수 있음(예를 들어, 카메라의 기초 또는 최대 해상도를 포함함))의 영상이 사용자 단말(405) 상에서 재생되도록 영상의 품질(예를 들어, 해상도)을 조절한다. 예를 들어, 제 1 사용자 단말의 가용가능한 최대 해상도가 4K라면, 4K의 최대 해상도에서, 상기 원본 해상도를 유지하면서 영상 컨텐츠가 재생되도록 재구성 영상의 품질을 조절하고, 제 2 사용자 단말의 최대 해상도가 1K라면, 1K의 최대 해상도로, 원본 해상도가 유지되면서 영상 컨텐츠가 재생되도록 재구성 영상의 품질을 조절할 수 있다. 특히, 원본 해상도가 4K이면, 제 1 사용자 단말로는 그대로 원본 영상 컨텐츠를 전송하면 되지만, 제 2 사용자 단말로는 영상 컨텐츠의 해상도를 1/4로 줄여서 전송하는 것이 바람직하다.
다만, 이때 사용자 단말(405)에서의 해상도는 반드시 최대 해상도일 필요는 없고, 단말(405)마다 미리 설정된 기초 해상도 또는 선택된 해상도(시간에 따라 변경 가능함) 값이 되어도 무방하다. 한편, POD 모듈(420)은 프레임 레이트 및/또는 비트레이트 측면에서도, 사용자 단말(405)의 요청에 맞게 영상의 품질을 조절할 수 있다.
AI 모듈(430)은 컨텐츠 수신 모듈(410)로부터 다수의 영상 컨텐츠를 수신할 수 있다. 다수의 군집화된 카테고리에 대응하는 컨텐츠 복원 모델을 학습시켜 보유하고 있는 모듈이다. 또한, AI 모듈(430)은 다수의 컨텐츠 복원 모델을 기반으로, POD 모듈(420)에서 재구성된 영상 컨텐츠를 수신하여 이를 기반으로 대체 컨텐츠 및 그에 대응하는 복원 모델을 생성할 수 있다. 예를 들어, POD 기반의 재구성 영상 컨텐츠를 기반으로 그보다 더 낮은 품질의 대체 영상 컨텐츠를 생성하고, 그와 대응하는 컨텐츠 복원 모델을 생성할 수 있다. 이때, POD 기반의 재구성 영상 컨텐츠와 대응하는 컨텐츠 복원 모델은 상기 재구성된 영상 컨텐츠와 특정 컨텐츠 복원 모델과 관련된 특정 카테고리의 영상 컨텐츠와의 유사도를 기반으로 미리 생성된 컨텐츠 복원 모델을 매칭시킴에 의해 생성될 수 있다. 이때, 영상 컨텐츠들의 메타데이터도 활용될 수 있다.
한편, AI 모듈(430)에 의해 생성되는 컨텐츠 복원 모델은 하나의 영상 컨텐츠에 대해서도 전송되는 영상의 품질에 따라 다수 개의 컨텐츠 복원 모델이 존재할 수 있다. 즉, 동일한 영상 컨텐츠에 대해서도, 저품질의 영상으로부터 고품질 영상 복원을 위한 제 1 컨텐츠 복원 모델과 중품질의 영상으로부터 고품질의 영상 복원을 위한 제 2 컨텐츠 복원 모델, 흑백의 영상으로부터 고품질 영상 복원을 위한 제 3 컨텐츠 복원 모델 등 다양한 컨텐츠 복원 모델이 존재할 수 있다. 이때, 사용자 단말(405)로부터의 요청에 의해 특정된 영상 컨텐츠에 대한 컨텐츠 복원 모델을 매칭시킬 때, AI 모듈(430)은 현재 사용자 단말(405)의 네트워크 환경 정보를 수신하여, 그에 맞춰 복원 모델을 매칭시킬 수 있다. 즉, 현재 네트워크 연결 상태가 기준 값 이하로 좋지 않을 때는 제 1 컨텐츠 복원 모델을, 기준 값 이상으로 좋을 때는 제 2 복원 모델이 선택되도록 제어할 수 있다.
본 발명의 실시예에 따르면, POD 모듈(420)을 통해 영상 컨텐츠를 출력 조건 기반으로 재구성해 놓고, 재구성된 영상에 대한 대체 컨텐츠를 생성하면서 상기 컨텐츠 복원 모델을 매칭시키는 제 1 모드가 존재할 수 있다. 또한, 도 4의 (b)의 제 2 모드도 존재할 수 있다. 이는 후술하도록 한다.
전송 모듈(440)은 POD가 적용된 재구성 영상과 그에 대응하는 컨텐츠 복원 모델을 함께 사용자 단말(405)로 전송한다
도 4의 (b)를 참조하면, 본 발명의 다른 실시예에 있어서, AI 모듈(420)과 POD 모듈(430)의 처리 순서는 변경될 수 있다. 즉, 컨텐츠 수신모듈(410)로부터 영상 컨텐츠가 수신될 때, AI 모듈(420)이 카메라(또는 컨텐츠 제공자)로부터 획득되는 영상마다 개별적으로 대체 컨텐츠 및 컨텐츠 복원 모델을 미리 매칭하여 생성하고, POD 모듈(420)이 AI 모듈(420)에 의해 미리 생성된 대체 컨텐츠 및 그에 대응하는 컨텐츠 복원 모델을 이용하여, 이들을 사용자 단말(405)로부터의 출력 조건에 따라 재구성하여 최종 출력 영상을 생성하는 제 2 모드가 존재할 수 있다.
장치는 사용자 설정을 통해 두 개의 모드 중 하나를 선택적으로 활용할 수 있다. 또는, 복수 영상의 바인딩 여부에 따라 바인딩되는 경우에는 제 1 모드를, 바인딩되지 않고 단일 영상을 전송하는 경우에는 제 2 모드를 사용하도록 설정할 수도 있다. 또는, 제 1 기본영상은 제 1 모드를, 제 2 기본영상은 제 2 모드를 사용하는 등, 기본영상에 따라 서로 다른 모드를 사용할 수 있다. 아니면, 사용자 단말에 따라 서로 다른 모드를 사용할 수도 있다.
한편, POD 모듈(420)에서 복수 개의 영상(예를 들어, 제 1 영상과 제 2 영상)이 바인딩되는 경우, 제 1 영상에 대응하는 제 1 컨텐츠 복원 모델과 제 2 영상에 대응하는 제 2 컨텐츠 복원 모델이 함께 전송되며, 이때, 제 1 영상과 제 1 컨텐츠 복원 모델과의 매칭관계, 제 2 영상과 제 2 컨텐츠 복원 모델과의 매칭관계가 매니페스트 파일 등을 통해 함께 전달되어 사용자 단말(405)에서 매칭 관계를 이용하여 AI 기반의 복원 작업이 이루어지도록 할 수 있다.
다른 예에서, 복수 개의 영상이 바인딩될 때, 바인딩된 영상에 대한 컨텐츠 복원 모델은 하나로 생성될 수 있다. 즉, 바인딩된 영상에 대한 대체 영상 컨텐츠를 생성하면서, 바인딩된 영상을 하나의 단일 영상으로 고려하여 컨텐츠 복원 모델도 하나로 생성할 수 있다. 그리고는, 바인딩된 영상과 컨텐츠 복원 모델 쌍을 1 대 1의 관계로 형성하여 사용자 단말로 제공할 수 있다. 본 문단의 바인딩 영상은 후술하는 전체 영상, 최종 출력 영상에 대응될 수 있다. 즉, 전체 영상 및/또는 최종 출력 영상에 대해 대체 영상 컨텐츠가 생성되면서, 하나의 컨텐츠 복원 모델이 생성될 수 있다.
도 5는 본 발명의 일 실시예에 따른 POD 기반의 영상 컨텐츠 전송 방법을 상세하게 나타낸 상세흐름도이다.
도 5를 참조하면, 카메라가 촬영된 영상은 압축되어 영상 전송 장치의 컨텐츠 수신 모듈로 전송된다(S10). 이때 카메라는 자신의 최대 해상도로 영상을 촬영하여 압축하는 것이 바람직하다.
그리고, POD 모듈은 압축된 영상을 디코딩하여 한 화면에 다수의 카메라에서 촬영한 영상을 묶어서 바인딩 영상(P)으로 구성한다(S20).
그리고는, POD 모듈은 디코딩된 영상들과 사용자 단말에서 요청되는 소정 출력 조건에 따라 영상을 재구성하여 전체 영상으로 준비한다(S30).
그리고 나서, POD 모듈은 디폴트 영상(default display) 또는 사용자에 의하여 요청된 소정 출력 조건에 따른 다양한 전체 영상(M1, M2, M3)을 인식하고, 이 전체 영상(M1, M2, M3)에서 디폴트 영상 또는 소정 출력 조건에 따른 영상을 확인하여 선택 및 편집하여 최종 출력 영상을 생성한다. 그리고 이 선택 및 편집된 영상을 사용자 단말로 전달하면, 사용자 단말은 해당 영상을 최종 출력 영상(D1, D2, D3, 도 9 참조)으로 출력한다(S40).
한편, 사용자가 입력한 소정 출력 조건의 영상을 POD 모듈이 전체 영상(M1, M2, M3)에서 인식하고 있지 않은 경우, POD 모듈은 영상 머지 모듈(미도시)로부터 받은 영상 데이터로 해당 출력 조건의 영상이 포함된 영상으로 전체 영상(M1, M2, M3)을 갱신시킨다.
그리고, POD 모듈 내의 디스플레이 모듈은 이 갱신된 전체 영상(M1, M2, M3)으로부터 해당 출력 조건의 영상을 재편집 구성하여 사용자 단말로 전달한다. 이때의 소정 출력 조건은 특정 카메라가 촬영한 특정 해상도의 줌인, 줌아웃, 패닝 등과 같은 다양한 화면 상태에 대한 조건일 수 있다. 여기에, 사용자 단말의 해상도, 프레임레이트 및/또는 비트레이트 관련 정보도 포함된다. 기본적으로, 해상도는 카메라가 촬영한 최대 해상도(컨텐츠 제공자가 제공한 최대 해상도)로 선택될 수 있다. 따라서, 사용자 단말은 자신이 요구하는 다양한 출력 조건에 따른 영상을 실시간으로 수신하여 출력함으로써 빠른 시간 안에 고해상도의 영상을 화면 상에 표시할 수 있게 된다. 더욱이, 영상의 출력 중 사용자 단말에서 표시하고자 하는 영상의 조건이 바뀔 때, 영상 머지 모듈은 실시간으로 영상을 재구성하여, 높은 프레임 레이트와 고해상도의 영상을 실시간으로 디스플레이 모듈로 전달하기 때문에 최종적으로 사용자 단말에서 표시되는 다양한 영상들은 매우 빠른 응답으로 고품질의 영상이 출력될 수 있다.
도 6은 본 발명의 일 실시예에 따라, 플레이백 서버, 영상 머지 서버 및 디스플레이 서버를 포함하는 POD 모듈의 시스템 구성을 상세하게 나타낸 상세블록도이다.
도 6을 참조하면, 카메라들(660)은 각각의 허브(hub)(650)에 연결될 수 있다. 카메라(660)들이 연결된 모든 허브(650)는 카메라(160)의 IP 어드레스 또는 MAC 어드레스와 같은 카메라(660)의 고유 어드레스에 따라 데이터 송수신을 위한 연결을 제어한다. 또한 각각의 허브(650)는 이들 허브(650)에 대한 라우팅(routing)이 가능한 기가비트 스위칭 허브(gigabit switching hub)(640)에 집선된다.
그리고 기가비트 스위칭 허브(640)는 컨텐츠 수신 모듈을 거쳐 POD 모듈과 연결된다. POD 모듈은 플레이백 서버(630a, 630b, 630c, 630d) 및 영상 준비부(620)를 포함하고, 영상 준비부(620)는 영상 머지 서버(622), 디스플레이 서버(621)를 포함한다. 영상 준비부(620)는 영상 처리부라고 불릴 수 있다.
다수개의 플레이백 서버(630a, 630b, 630c, 630d)는 영상 준비부(620)와 전용선으로 연결된다. 기가비트 스위칭 허브(640)는 카메라(660)가 연결된 허브(650)들과 각각의 플레이백 서버(630)를 라우팅할 수 있다.
플레이백 서버(630)는 각각이 하나의 허브(650)에 연결된 다수개의 카메라(660)들로부터 제공되는 동영상 압축 스트림을 저장할 수 있는 기록매체와 기록된 영상의 재생을 위하여 압축된 영상 데이터를 디코딩하기 위한 디코더(decoder)와 그래픽 카드를 구비하는 디지털 영상 저장장치(Digital Video Recorder)일 수 있다. 본 실시예는 플레이백 서버(630)가 4대인 경우를 예시하고 있다. 하지만 플레이백 서버(630)는 이보다 작거나 많을 수 있다.
한편, 모든 플레이백 서버들(630a, 630b, 630c, 630d)은 영상 준비부(620)와 연결된다. 영상 준비부(620)는 플레이백 서버(630)에서 재생하는 영상을 별도의 디코딩 과정없이 샘플링하여 출력 준비하기 위한 것으로 빠른 프레임 레이트로 영상을 준비하는 영상 머지 서버(622)와 영상 머지 서버(622)에서 전달받은 영상을 신속하게 편집하는 디스플레이 서버(621)를 포함할 수 있다.
이러한 영상 머지 서버(622)와 플레이백 서버(630)는 두 개의 영상출력단자로 연결될 수 있다. 이 두 개의 영상 출력단자는 2개의 DVI(digital video interactive) 또는 1개의 DVI와 1개의 RGB 단자일 수 있다.
본 실시예에서 영상 머지 서버(622)는 네 개의 플레이백 서버(630a, 630b, 630c, 630d)로부터 디코딩된 영상 데이터를 받아 처리한다. 영상 머지 서버(622)는 디스플레이 서버(621)의 요청에 따라 영상 데이터를 재구성하여 고품질의 영상을 디스플레이 서버(621)로 전달할 수 있다. 영상 데이터의 재구성시 영상 머지 서버(622)는 플레이백 서버들(630a, 630b, 630c, 630d)로부터 재구성에 필요한 영상을 받아서 처리한다.
한편, 앞서 설명한 바와 같이, 영상 머지 서버(622)에 연결되는 디스플레이 서버(621)는 4 채널의 비디오 캡처 카드를 구비한다.
그리고는, 디스플레이 서버(621)는 영상 머지 서버(622)에서 제공하는 재구성 영상을 이용하여 전체 영상으로부터 소정 출력 조건에 따른 영상을 선택, 편집한다.
한편, 디스플레이 서버(621)에서 소정 출력 조건에 따라 구성된 영상 데이터는 사용자 단말(610)로 전송된다. 이때의 디스플레이 서버(621)는 영상 머지 서버(622)에서 출력하는 영상을 저해상도와 고해상도 영역으로 분할하여 각 화면을 고유한 개체(unique object)로 인식하여 처리할 수 있다.
또한, POD 모듈은 플레이백 서버(630), 영상 머지 서버(622) 그리고 디스플레이 서버(621)의 동작을 제어하는 제어부(600)를 구비한다.
도 7은 바인딩 영상을 구성하는 실시예를 설명하기 위한 도면이다.
도 7을 참조하면, 플레이백 서버는 18개의 영상 데이터를 처리한다. 이를 위하여 플레이백 서버는 균등 크기로 분할된 두 개의 영상 출력 영역(video output area)(A1, A2)으로 바인딩 영상(P)을 모자익 뷰로 구성하여 재생한 후 각각의 플레이백 서버는 바인딩 영상(P)을 두 개의 DVI 또는 한 개의 DVI와 한 개의 RGB 단자를 이용하여 영상 머지 서버로 전송한다.
그리고 바인딩 영상(P) 중 하나의 영역(A1 또는 A2)은 하나의 DVI 또는 RGB 단자를 통하여 전송될 수 있다. 그리고 플레이백 서버에서 구성하는 바인딩 영상(P)에 포함되는 한 개의 영상이 640 X 480 해상도를 가지는 경우 하나의 영역(A1 또는 A2)은 9개의 영상을 포함하므로 1920 X 1440 화면 크기로 구성될 수 있다.
이와 같이 플레이백 서버는 카메라가 촬영한 영상을 촬영시의 해상도로 디코딩하여 영상 머지 서버로 전송한다. 그리고 영상 머지 서버는 모두 8개의 채널로 각각의 플레이백 서버로부터 전송되는 출력 영상을 신속하게 받는다.
그리고 영상 머지 서버는 모든 플레이백 서버에서 전송하는 바인딩 영상(P)을 다른 디코딩 과정 없이 재구성하여 디스플레이 서버로 전송한다. 이때 영상 머지 서버는 디스플레이 서버에서 필요로 하는 화면 내용을 소정의 화면 크기로 구성할 수 있고, 또한 디스플레이 서버가 사용자에 의하여 요청된 다양한 출력 조건으로 영상을 재구성하거나, 샘플링할 수 있다.
본 실시예에서 영상 머지 서버는 플레이백 서버에서 전송되는 바인딩 영상(P)을 네 개의 1280 X 720 화면크기로 재구성하여 네 개의 DVI를 이용하여 디스플레이 서버로 전송한다. 따라서 영상 머지 서버에서 디스플레이 서버로 제공하는 전체 영상(M1, M2, M3)의 크기는 2560 X 1440이 될 수 있다. 이때의 재구성 영상과 전체 영상(M1, M2, M3)의 크기는 다양하게 변형 실시될 수 있다.
한편, 디스플레이 서버는 다양한 배치 방법으로 전체 영상(M1, M2, M3)을 인식할 수 있다. 그리고 모든 플레이백 서버에서 제공하는 화면은 전체 영상(M1, M2, M3)에 포함될 수 있다. 영상 머지 서버는 플레이백 서버들에서 갱신한 영상 데이터를 실시간으로 입력받아 각 화면의 영상 데이터를 계속해서 갱신한 후 화면을 재구성하고, 이 재구성한 영상을 디스플레이 서버로 전송한다. 따라서 디스플레이 서버는 실시간으로 전송되는 영상 머지 서버의 재구성 영상을 받아 전체 영상(M1, M2, M3)을 다양한 배치상태로 인식하여 처리할 수 있다.
도 8은 다수의 영상 컨텐츠를 수신하여 전체 영상을 구성하는 실시예들을 설명하기 위한 도면이다.
도 8의 (a)에 도시된 실시예는 전체 영상(M1)의 상단 1/4 영역에 플레이백 서버로 부터 디코딩되는 72개의 영상 각각을 배치한다. 예를 들어 디스플레이 서버가 2560 X 1440 크기로 전체 영상(M1)을 나타내는 경우 72개 기본영상(1~ 72) 각각은 120 X 90 화면 크기로 나타내어질 수 있다. 이 72개의 영상(이하에서는 "기본영상"이라고 한다)은 사용자 단말에서 멀티뷰(multi-view)의 기본영상으로 제공할 때 사용될 수 있다. 그리고 전체 영상(M1, M2, M3)의 하단 3/4 영역에 전체 72개 영상 중 12개의 영상(1~12)을 기본영상보다 고해상도를 가지는 화면크기로 배치할 수 있다.
예를 들어 전체 영상(M1) 중 1~12번까지의 화면을 고해상도로 구성하는 경우 2560 X 1440 화면 크기로 전체 영상(M1)을 구성하는 디스플레이 서버는 1~12번까지의 화면을 최대 해상도인 640 X 480 해상도로 구성할 수 있다.
도 8의 (b)에 도시된 실시예는 전체 영상(M2)의 상측 1/4 영역에 영상 머지 서버로부터 재구성되어 전송되는 72개의 영상을 저해상도로 배치한다. 이 72개의 저해상도 화면은 사용자 단말에서 멀티뷰(multi-view)의 기본영상으로 제공될 수 있다. 그리고 전체 영상(M2)의 하단 3/4 영역에 24개의 영상을 기본영상보다 높은 해상도를 가지는 화면으로 배치할 수 있는데, 이 경우 24개의 영상들은 320 × 240 해상도일 수 있다.
도 8의 (c)에 도시된 실시예는 전체 영상(M3)의 좌측 1/2 영역에 영상 머지 서버로부터 받은 재구성 영상을 이용하여 72개의 영상 각각을 저해상도로 배치한다. 그리고 우측의 1/2 영역에 전체 72개 영상중 9개의 영상을 보다 높은 해상도를 가지는 영상으로 배치할 수 있다.
즉, 이와 같이 디스플레이 서버는 영상 머지 서버가 재구성하여 전송하는 재구성 영상을 전체 영상(M1, M2, M3)의 일부 영역에 저해상도로 모두 배치하고, 이와 함께 일부 미리 설정되거나, 소정 출력 조건으로 설정된 영상을 다양한 해상도와 배치방법으로 구성할 수 있다. 그리고 영상 머지 서버에서 재구성하는 이 전체 영상(M1, M2, M3)에 포함되는 각각의 영상은 카메라가 촬영한 최대 해상도가 될 수 있다. 따라서 영상 머지 서버는 해당 영상의 최종 출력시 고품질의 영상이 제공될 수 있도록 한다.
이하에서는 최종 출력 영상을 구성하는 방법에 대한 구체적인 실시예를 설명한다.
디스플레이 서버는 사용자에 의하여 별도로 출력 조건이 입력되지 않을 때 디폴트(default) 영상을 사용자 단말로 제공한다. 그리고 사용자가 소정 출력 조건, 즉 특정 카메라가 촬영한 영상에 대한 특정 해상도, 줌인, 줌아웃, 패닝 등과 같은 출력 조건을 입력하면, 디스플레이 서버는 해당 출력 조건에 대한 영상이 디스플레이 서버에서 구성하는 전체 영상(M1, M2, M3)에 포함되어 있는지 확인하고, 이 출력 조건의 영상이 전체 영상(M1, M2, M3)에 포함되어 있으면, 이를 선택 및 편집하여 사용자 단말로 전송한다.
반면에 만약 해당 출력 조건의 영상이 디스플레이 서버의 전체 영상(M1, M2, M3)에 포함되어 있지 않으면, 디스플레이 서버는 영상 머지 서버로부터 제공되는 재구성 영상을 이용하여 전체 영상(M1, M2, M3)을 재인식한다.
도 9은 도 8의 영상들을 기반으로 최종 출력 영상에 대한 실시예들을 설명하기 위한 도면이다.
도 9의 (a)는 디스플레이 서버가 모든 플레이백 서버에서 인코딩한 바인딩 영상(P)을 모두 표시한 상태를 나타낸다. 이러한 상태는 영상처리시스템의 동작이 시작될 때 표시될 수 있는 디폴트 영상일 수 있다. 이 디폴트 영상은 디스플레이 서버가 전체 영상(M1)에서 이들 기본영상들(1~72)을 선택하여 사용자 단말에서 표시하는 화면 크기인 1920 X 1080으로 기본영상(1~72)을 배치한 후 사용자 단말로 전송함으로써 최종 출력되는 출력 영상이 될 수 있다.
반면에 사용자가 기본영상 중에서 일부 영상을 선택하여 줌아웃 또는 줌인과 같은 출력 조건을 터치스크린(Touch screen)동작, 마우스 클릭, 드래그 및 기타의 사용자 인터페이스(user interface)를 위한 방법을 이용하여 입력하면, 디스플레이 서버는 선택된 화면을 이때의 출력 조건에 따라 전체 영상(M1)에서 선택, 편집한다.
예를 들어, 도 9의 (b)에 도시된 바와 같이, 사용자가 기본영상들과 함께 기본영상들 중에서 1번 영상을 카메라가 촬영한 고해상도로 줌인하기 위하여 사용자 인터페이스를 조작하면, 1번 영상에 대한 고유 식별자, 특정 해상도, 그리고 1번 영상에 대한 컬럼(column)과 로우(row)의 어드레스 등이 결정되어 제어부를 거쳐 디스플레이 서버로 전달된다.
그리고 디스플레이 서버는 전체 영상(M1, M2, M3) 중에서 1번 영상에 대하여 사용자가 입력한 출력 조건에 부합하는 영상을 구성하고 있는지를 확인한다. 예를 들어, 도 8의 (a)에서와 같이 1번 영상에 대하여 카메라가 촬영한 소정 출력 조건의 해상도 및 줌인 영상을 보유하고 있는 경우라면, 디스플레이 서버는 전체 영상(M1, M2, M3)에서 1번 영상을 선택하고, 선택된 영상 데이터를 출력 영상의 컬럼과 로우 위치에 맵핑하도록 영상 데이터를 편집 처리한다. 이러한 과정은 이미 영상 머지 서버에서 제공하는 전체 영상(M1, M2, M3)에서 선택되어 즉시 출력되므로 고화질의 화면을 매우 빠른 프레임 레이트를 구현할 수 있다.
그리고 1번 영상의 소정 출력 조건의 영상과 함께 다른 기본영상들을 디폴트 조건으로 함께 선택하여 출력 영상으로 디스플레이 장치에 제공할 수 있다. 이에 따라 사용자 단말에서 출력하는 출력 영상(D2)에는 1번 확대 영상과 사용자 단말에서 표시 가능한 나머지 화면 영역 이내에 다른 기본영상들이 함께 표시된다.
그리고 또 다른 실시예로, 도 9의 (c)에 도시된 바와 같이, 1~16번까지의 영상을 고해상도로 확대하도록 사용자가 사용자 인터페이스를 통하여 해당 출력 조건을 입력할 수 있다. 이 경우에는 도 8의 (a)에 도시된 바와 같은 전체 영상(M1)에서는 13~16번까지에 대한 확대 영상을 구성하고 있지 않다.
반면에, 도 8의(b)에 도시된 실시예의 디스플레이 서버의 전체 영상(M2)에서는 1~16번 화면까지의 확대 영상을 포함하고 있다. 따라서 만약 디스플레이 서버의 전체 영상(M1)이 도 8의 (a)와 같이 구성되어 있는 경우에는, 영상 머지 서버로부터 받은 재구성 영상을 도 8의 (b)에 도시된 상태로 전체 영상(M2)으로 구성하고, 이중에서 1~16번 화면만을 선택한 후 이를 사용자 단말로 제공하도록 함으로써 1~16번 화면에 대한 줌인 영상으로 최종 출력 영상(D3)을 제공할 수 있게 된다. 이러한 경우에도 이미 영상 머지 서버는 플레이백 서버로 부터 재생되는 영상을 실시간으로 받고 있기 때문에 전체 영상(M1, M2, M3)의 재구성이 빠른 시간 안에 이루어지므로, 디스플레이 서버에서 영상을 선택하여 사용자 단말로 고화질의 화면을 매우 빠른 프레임 레이트로 전송할 수 있다.
이와 같이 다수의 영상에 대한 다양한 크기의 줌인, 줌아웃이 요구되는 경우 디스플레이 서버는 요구하는 영상 내용에 따라 현재 구성하고 있는 영상과 일치하는 영상이 요청되는 경우에는 해당 영상을 즉시 선택 편집하여 사용자 단말로 전송하도록 하고, 해당 영상으로 현재의 화면을 구성하고 있지 않은 경우에도 영상 머지 서버로부터 재구성되어 전송되는 전체 영상(M1, M2, M3)을 신속하게 인식하여 이 전체 영상(M1, M2, M3)에서 요구되는 영상을 빠른 시간 안에 선택 편집하여 사용자 단말로 전송한다. 이를 통해, 신속하게 사용자가 요구하는 다양한 영상을 단말에 표시하도록 할 수 있다.
한편, 컨텐츠 복원 모델은 (i) 카메라로부터 수신되는 개별 영상(기본영상)에 대응하여 매칭 및 생성될 수 있다. 또는, (ii) 도 8의 실시예의 전체 영상에 대응하여 매칭 및 생성될 수도 있다. 나아가, (iii) 디스플레이 서버에서 선택 편집한 최종 출력 영상에 대응하여 매칭 및 생성될 수 있다.
추가적으로, 전술한 실시예를 이용하여 영상처리시스템을 보다 광대역으로 확장하여 실시할 수 있다. 도 10은 본 발명의 다른 실시예에 따른 영상처리시스템을 도시한 도면이다.
도 10은 본 발명의 다른 실시예에 따라, 영상 머지 서버 및 디스플레이 서버를 포함하는 POD 모듈의 시스템 구성을 상세하게 나타낸 상세블록도이다.
도 10에 도시된 바와 같이 보다 넓은 지역의 보다 많은 카메라(1060)에서 촬영하는 영상을 처리할 수 있도록 하기 위하여 플레이백 서버와 영상 머지 서버를 포함하는 복수개의 단일 영상 머지 시스템(1080, 1090)을 구성시키고, 이 단일 영상 머지 시스템(1080, 1090)들을 하나의 멀티플 머지 서버(1070)에 연결시킨 후 디스플레이 서버(1020)와 사용자 단말(1010)로 영상을 표시하도록 할 수 있으며, 이러한 실시예는 보다 넓은 지역에 대하여 보다 많은 화면의 신속한 처리가 가능해지도록 한다.
이상과 같은 본 실시예에 따른 영상처리시스템과 영상처리방법은 영상 처리를 위하여 플레이백 서버와 영상 머지 서버 그리고 디스플레이 서버들 간에 영상정보를 전송시 압축된 영상 형태를 데이터 네트워크를 통하여 전송하지 않고, 다수의 영상을 묶어서 재생하는 플레이백 서버에서 전송되는 영상에서 필요한 영상을 캡처하여 디스플레이 하도록 한다. 따라서 본 실시예에서의 서버 사이의 영상정보 전달 방식은 영상정보 전송을 위하여 압축/복원하는 오버헤드(overhead)과정을 없앨 수 있기 때문에 실시간으로 영상의 처리가 가능하고, 또한 이더넷(ethernet)과 같이 여러 서버가 공유하는 데이터 전송망이 아닌, 서버들 간의 전용선을 통하여 데이터 전송을 수행하므로 훨씬 더 많은 양의 영상정보를 고속으로 전송할 수 있도록 함으로써 고화질 상태가 유지되어 줌인, 줌아웃 또는 패닝되는 영상을 실시간으로 디스플레이할 수 있도록 하도록 한다.
도 11은 도 4의 AI 모듈의 구성을 구체적으로 나타낸 상세블록도이다. 도 11에 도시된 바와 같이, 본 발명의 일 실시예에 따른 AI 모듈은 컨텐츠 군집화부(1110), 학습부(1120) 및 저장부(1130)를 포함할 수 있다. 한편, 저장부(1130)는 컨텐츠 저장부(1131) 및 메타데이터 저장부(1132)를 포함할 수 있다.
컨텐츠 군집화부(1110)는 컨텐츠 제공자로부터 제공되는 다수의 컨텐츠(카메라로부터 제공되는 영상 컨텐츠를 포함함)를 유사도에 기반하여 군집화한다. 컨텐츠 군집화부(1110)는 컨텐츠 수신 모듈로부터 수신되는 다수의 컨텐츠를 군집화하기 위해, 컨텐츠 제공자로부터 제공되는 컨텐츠에 대한 메타 데이터를 이용하거나, 이미지의 유사도를 판단하는 기계학습 기반의 모델을 이용할 수 있다. 구체적으로, 컨텐츠 군집화부(1110)는 이미지 분류(classification)를 학습한 신경망 모델을 통해 컨텐츠의 유사도를 판단하여 제공되는 다수의 컨텐츠를 군집화할 수 있다.
예컨대, 컨텐츠 제공자(1110)로부터 다양한 스포츠 관련 영상을 제공받은 경우에, 컨텐츠 제공자(1110)가 각 컨텐츠에 대하여 생성한 메타 데이터를 분석하여 농구 경기, 축구 경기, 야구 경기 등으로 유사한 컨텐츠들을 군집화할 수 있다. 또는 기계학습을 통해 이미지 분류를 학습한 이미지 분류 모델을 이용하여 제공받은 컨텐츠의 프레임을 분석하여 유사도에 따라 농구 경기, 축구 경기, 야구 경기 등으로 분류하여 군집화할 수도 있다. 군집화는 장소를 기반으로 구분될 수도 있다. 또는, 차량이냐, 사람이냐, 동물이냐 등 객체를 기반으로 구분될 수도 있다.
컨텐츠 군집화부(1110)는 컨텐츠 제공자(1110)로부터 새로운 컨텐츠를 제공받으면, 이미지 분류 모델을 통해 새로운 컨텐츠와 기존의 군집들 간의 유사도를 판단한다. 컨텐츠 군집화부(1110)는 새로운 컨텐츠가 기존에 존재하는 군집과 중복성이 높다면 중복성이 가장 높은 군집으로 새로운 컨텐츠를 분류하고, 중복성이 일정 수준 이하인 경우 유사도가 높은 군집이 없으므로 새로운 컨텐츠를 새로운 군집으로 분류할 수 있다.
학습부(1120)는 군집화 결과에 따라 각 군집에 포함된 컨텐츠를 이용하여 군집별 컨텐츠 복원 모델을 학습시킨다. 컨텐츠 복원 모델은, 저화질 또는 압축된 컨텐츠로부터 고화질 또는 고품질의 컨텐츠를 출력하도록 학습된 신경망 기반의 모델로, 저해상도의 영상으로부터 고해상도의 영상을 출력하도록 학습하거나, 흑백 또는 윤곽선으로 이루어진 영상으로부터 원본 영상을 복원하여 출력하도록 학습하거나, 압축된 영상으로부터 보간된 프레임이 포함된 고품질의 영상을 출력하도록 영상의 프레임간 보간을 학습할 수 있다.
학습부(1120)는 각 군집에 포함되어 있는 유사도가 높은 컨텐츠들을 이용하여, 저화질 또는 압축된 형태의 컨텐츠로부터 고화질 또는 고품질의 컨텐츠를 출력하도록 컨텐츠 복원 모델을 학습시킬 수 있다. 군집 내에 포함되어 있는 컨텐츠들은 유사도가 높은 컨텐츠로 서로 공유하고 있는 중복된 정보가 많기 때문에, 동일한 컨텐츠 복원 모델을 이용할 수 있다.
예컨대, 축구 경기의 경우, 축구장과 같은 배경이나 플레이어 등은 영상 전체를 통하여 반복하여 나타나고, 여러 축구 경기 영상에서 동일한 배경 및 플레이어가 나타날 수 있다. 또한, 동일한 축구 경기장이나 동일한 플레이어가 아니라 하더라도 경기장의 잔디 색이나 축구장 전경에 나타나는 관중 모습 등과 같이 축구 경기 영상이공유하는 중복된 정보가 많다. 따라서, 이렇게 유사한 컨텐츠를 군집화하여 컨텐츠 복원 모델을 학습시키는 경우에, 다양한 경기 영상에 적용되는 뛰어난 컨텐츠 복원 성능을 보여줄 수 있으며, 군집에 포함된 모든 경기 영상이 해당 컨텐츠 복원 모델을 공유할 수 있다.
학습부(1120)는 CNN(convolutional neural network)과 같이 이미지 처리에 적합한 신경망을 이용하여 각 군집 내 컨텐츠들에 대한 컨텐츠 복원 모델을 생성한다. 학습부(1120)는 군집별 컨텐츠 복원 모델과 군집 내 컨텐츠를 연관시키고 해당 연관 정보를 메타데이터로서 매니페스트 파일에 기록한다. 학습부(1120)는 컨텐츠 복원 모델의 학습 내용에 따라 컨텐츠의 저화질 또는 압축된 형태의 컨텐츠(이하 '대체 컨텐츠' 또는 '대체 영상 컨텐츠'라 함)를 생성하고, 대체 컨텐츠를 매니페스트 파일에 기록한다. 즉, 매니페스트 파일에는 컨텐츠 복원 모델과 대체 컨텐츠가 포함되어 있을 수 있다.
본 발명의 실시예에 따르면, 학습부(1120)는 카메라 또는 컨텐츠 제공자로부터 직접 수신된 기본 영상 컨텐츠를 기반으로 대체 컨텐츠를 미리 생성한 후, 대체 컨텐츠 영상을 기반으로, POD 모듈을 통해 POD 영상 처리 방식을 적용하여 최종 출력 영상을 생성할 수 있다.
다른 예에서, 학습부(1120)는 POD 모듈을 통해 POD 영상 처리된 최종 출력 영상을 수신한 상태에서 수신된 POD 기반의 최종 출력 영상에 대한 대체 컨텐츠를 생성하고, 이에 대응하는 컨텐츠 복원 모델을 복수 개 생성할 수 있다.
컨텐츠를 군집화하지 않고, 모든 컨텐츠에 적용되는 컨텐츠 복원 모델을 학습시키는 경우에, 연산을 위한 비용이 증가하며 모든 컨텐츠에 대해 고른 컨텐츠 복원 성능을 보여줄 수 없다. 따라서, 본 발명의 일 실시예에서는 컨텐츠 제공자로부터 제공되는 다수의 컨텐츠들을 유사도가 높은 컨텐츠들끼리 군집화하고, 각 군집에 대해 개별적으로 군집 내에 포함된 컨텐츠들을 이용하여 학습시킨 컨텐츠 복원 모델을 생성함으로써, 연산 비용을 감소시킬 수 있을 뿐 아니라 뛰어난 컨텐츠 복원 성능을 보여줄 수 있다.
저장부(1130)는 다수의 컨텐츠 및 군집별 컨텐츠 복원 모델을 저장한다. 컨텐츠 저장부(1131)는 컨텐츠 제공자(1110)로부터 수신한 컨텐츠를 저장한다. 저장된 컨텐츠는 컨텐츠 원본 파일일 수도 있고, 경우에 따라 저화질 또는 압축된 형태의 컨텐츠(대체 컨텐츠)일 수 있다. 이때, 대체 컨텐츠는 컨텐츠 원본 영상으로부터 저화질 또는 압축된 형태의 컨텐츠일 수 있고, POD 모듈에서 재구성된 영상 컨텐츠(전체 영상 및/또는 최종 출력 영상)로부터 저화질 또는 압축된 형태의 컨텐츠일 수 있다. 메타데이터 저장부(1132)는 컨텐츠에 관련된 메타데이터를 저장한다.
전술한 바와 같이, AI 모듈은 사용자 단말과의 네트워크 연결 상태를 고려하여 요청된 컨텐츠의 원본 또는 대체 컨텐츠를 컨텐츠 복원 모델과 함께 전송할 수 있다. 이때, 네트워크 연경 상태에 따라 대체 컨텐츠의 품질을 결정할 수 있다. 그에 따라 컨텐츠 복원 모델도 달라질 수 있다.
도 12는 컨텐츠 복원 모델 학습 방법을 설명하기 위한 개념도이다.
도 12를 참조하면, 컨텐츠 복원 모델은 각 군집에 대해 개별적으로 생성된다. 군집은 서로 유사한 컨텐츠를 포함하고 있기 때문에, 동일한 컨텐츠 복원 모델을 공유할 수 있다. 컨텐츠 복원 모델은, 저화질 또는 압축된 컨텐츠로부터 고화질 또는 고품질의 컨텐츠를 출력하도록 학습된 신경망 기반의 모델로, 저해상도의 영상으로부터 고해상도의 영상을 출력하도록 학습하거나, 흑백 또는 윤곽선으로 이루어진 영상으로부터 원본 영상을 복원하여 출력하도록 학습하거나, 압축된 영상으로부터 보간된 프레임이 포함된 고품질의 영상을 출력하도록 영상의 프레임간 보간을 학습할 수 있다.
예컨대, 군집 A는 축구 경기, 군집 B는 농구 경기, 군집 C는 야구 경기인 경우에, 학습 모델 A는 군집 A에 포함된 컨텐츠인 축구 경기를 학습한 컨텐츠 복원 모델이고, 학습 모델 B는 농구 경기를 학습한 컨텐츠 복원 모델이고, 학습 모델 C는 야구 경기를 학습한 컨텐츠 복원 모델이 될 수 있다.
도 13은 군집별 컨텐츠 복원 모델을 이용한 컨텐츠 전송 방법을 설명하기 위한 개념도이다.
도 13을 참조하면, 미디어 분배 서버는 사용자 단말에 컨텐츠와 함께 컨텐츠 복원 모델을 전송한다. 사용자 단말 1 및 사용자 단말 3과의 네트워크 연결이 좋지 않은 상황이고, 사용자 단말 2와의 네트워크 연결은 양호한 경우를 가정한다. 사용자 단말 1 및 사용자 단말 3과의 네트워크 연결 상황이 좋지 않은 경우에, 대체 컨텐츠와 함께 컨텐츠 복원 모델을 전송하여 사용자 단말 1 및 사용자 단말 3에서 자체적으로 연산하여 고품질의 컨텐츠를 생성할 수 있다. 또한, 사용자 단말 2와 같이 네트워크 연결 상황이 양호한 경우에는 미디어 분배 서버에서 고품질의 컨텐츠를 직접 전송하는 것도 가능하다. 이 경우에도, 대체 컨텐츠 및 컨텐츠 복원 모델을 전송할 수도 있으며, 고품질의 컨텐츠와 함께 컨텐츠 복원 모델을 전송하여 사용자가 원하는 품질의 컨텐츠를 제공받을 수 있도록 할 수 있다.
즉, 사용자로부터 컨텐츠 요청이 있는 경우 컨텐츠-학습 모델 쌍을 사용자 단말에 전송한다. 이 때, 전송되는 컨텐츠는 네트워크 연결 상황에 따라 대체 컨텐츠 이거나 컨텐츠 원본일 수 있다. 컨텐츠 복원 모델은 사용자 단말이 수신하는 매니페스트 파일(manifest file)의 메타 데이터에 포함될 수 있다. 사용자 단말은 매니 페스트 파일을 통해 컨텐츠에 접근 또는 컨텐츠를 요청하는 것 이외에, 해당 컨텐츠에 적합한 컨텐츠 복원 모델을 요청하여 수신할 수 있다.
이하, 본 발명의 일 실시예에 따른 컨텐츠 복원 모델의 구현 및 이를 이용한 비디오 전송 방법을 구체적으로 설명한다.
1. 고해상도 복원
슈퍼 해상도(SR: Super-resolution imaging)는 이미지 해상도를 향상시키는 기술로 저해상도 미디어로부터 고해상도의 이미지를 복구하는 기술이다. 이하에서는, 컨텐츠 인지 기반 슈퍼 레졸루션을 이용한 컨텐츠 복원 모델을 통한 비디오 전송 방법에 대해 설명한다. 이러한 컨텐츠 복원 모델은 적응형 스트리밍의 대안이 될 수 있으며, 안정적이고 향상된 품질을 제공할 수 있게 한다.
컨텐츠 복원 모델로서 이미지 슈퍼 해상도 복원을 위해 심층 컨볼루션 신경망을 이용한다. 컨텐츠 인지 기반의 모델을 생성하기 위하여, 시리즈로 구성된 컨텐츠의 각 에피소드를 군집으로 하여 학습 데이터로 이용할 수 있다.
2. 원본 영상 복원
GANs(Generative Adversarial Networks)는 이미지의 간단한 설명이 주어지면 실제의 이미지와 구분할 수 없는 이미지를 합성하는 신경망이다. 이러한 GANs을 이용하여, 중복성이 적은 비디오에 대해서도 높은 품질의 비디오를 생성할 수 있다. 본 실시예에서 대체 컨텐츠로는 컨텐츠를 YCbCr 색상 공간에서 채도를 제거하고 원본 비디오의 휘도(Y)만을 포함하여 데이터를 표현하는 LUM과 에지(edge) 검출 알고리즘을 이용하여 각 프레임의 경계선을 추출하고 1 비트 양자화를 통해 흑백 이미지를 생성하는 EDGE를 사용할 수 있다.
3. 프레임 보간
심층 신경망(DNN)을 이용한 프레임 보간 학습은, 신호 처리 기반의 프레임 보간에 비해 더 나은 성능을 나타낸다. 따라서, 본 실시예에 따르면, 컨텐츠 복원 모델이 컨텐츠들에 대한 프레임 보간을 학습하는 경우에, 대체 컨텐츠로서 프레임이 압축된 컨텐츠를 생성하고, 프레임 보간을 학습한 컨텐츠 복원 모델을 함께 전송하는 경우 에 기존의 신호 처리 기반의 프레임 보간에 비해 아티팩트가 적게 나타나고 영상간 연결이 더 자연스러운 컨텐츠를 제공할 수 있다.
도 14는 본 발명의 일 실시예에 따른 POD 기반의 영상 컨텐츠 전송 방법에 따라 네트워크 대역폭에서의 효율의 차이를 나타낸 테이블이다.
도 14를 참조하면, 도 1의 종래 방식의 기본 미디어 분배 서버에서 4개의 사용자 단말로 영상 컨텐츠를 동일한 품질과 동일한 해상도로 동일한 네트워크 대역폭을 사용하여 분배할 때는 52Mbps의 대역폭이 필요하였다. 하지만, 본 발명의 일 실시예에 따라 POD 기술을 사용하여 4개의 사용자 단말로 전달할 때는 사용자 단말의 출력 조건에 적응적으로 전송되는 영상 컨텐츠를 재구성하여 결과적으로 18Mbps의 대역폭만을 사용하였음을 확인할 수 있다. 이를 통해, 34Mbps에 해당하는 컨테츠를 추가전송할 수 있는 대역폭이 생기는 효과가 있다. 또한, 본 발명의 일 실시예에 따라 POD 기술과 AI 복원 기술을 함께 사용할 때에는 5.4Mbps의 대역폭만 사용할 수 있게 되어 기본 미디어 분배 방식 대비 10%의 네트워크 대역폭만으로 동일한 영상 재생 효과를 확보할 수 있어, 네트워크 사용효율을 극대화할 수 있음을 확인할 수 있다.
이상에서 설명된 시스템 또는 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 시스템, 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예들에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (15)

  1. 촬영한 영상을 압축하여 제공하는 카메라;
    상기 카메라에서 전송되는 동영상 압축 스트림을 디코딩한 영상을 처리하는 영상 처리부를 포함하되, 상기 영상 처리부는,
    상기 카메라로부터 전송되는 복수의 동영상 압축 스트림을 바인딩하여 바인딩 영상을 생성하는 영상 머지 서버와,
    상기 영상 머지 서버에서 생성된 상기 바인딩 영상을 전체 영상으로 구성하고, 소정 출력 조건에 따라 상기 전체 영상 중 적어도 일부를 재구성하여 사용자 단말로 최종 출력 영상을 전달하는 디스플레이 서버를 구비하고,
    상기 디스플레이 서버는 상기 전체 영상과 상기 전체 영상에 대응하는 인공지능(AI: Artificial Intelligence) 기반의 컨텐츠 복원 모델을 상기 사용자 단말로 전송하되,
    상기 컨텐츠 복원 모델은 상기 사용자 단말의 종류, 상기 소정 출력 조건 및 네트워크 상태를 종합적으로 고려하여 결정되는, POD 기반의 영상 관제 시스템.
  2. 제 1 항에 있어서,
    상기 카메라들은 복수 개로 마련되고,
    복수 개의 상기 카메라는 적어도 하나 이상의 허브에 연결되고,
    상기 허브와 상기 영상 처리부는 상기 허브에 의하여 스위칭되는, POD 기반의 영상 관제 시스템.
  3. 제 1 항에 있어서,
    상기 영상 머지 서버는 복수 개로 구비되고, 상기 디스플레이 서버와 상기 영상 머지 서버 사이에는 각각의 상기 영상 머지 서버의 영상을 처리하는 멀티플 머지 서버가 구비되는, POD 기반의 영상 관제 시스템.
  4. 제 1 항에 있어서,
    상기 소정 출력 조건을 상기 디스플레이 서버는 상기 영상 머지 서버로 전달하고, 상기 영상 머지 서버는 상기 소정 출력 조건에 따라 상기 바인딩 영상에서 상기 소정 출력 조건의 영상을 재구성하여 상기 디스플레이 서버로 전달하는, POD 기반의 영상 관제 시스템.
  5. 제 1 항에 있어서,
    복수의 카메라로부터 다수의 영상 컨텐츠를 수신하고, 이를 압축시켜 대체 영상 컨텐츠를 생성하고, 상기 대체 영상 컨텐츠로부터 컨텐츠 원본을 출력하도록 상기 컨텐츠 복원 모델을 학습시키는 AI 모듈을 더 포함하는, POD 기반의 영상 관제 시스템.
  6. 제 5 항에 있어서,
    상기 AI 모듈은 상기 전체 영상의 저해상도 영상을 생성하고, 상기 컨텐츠 복원 모델에 상기 저해상도 영상으로부터 상기 전체 영상의 원본을 출력하도록 학습시키는, POD 기반의 영상 관제 시스템.
  7. 제 5 항에 있어서,
    상기 대체 영상 컨텐츠는 상기 전체 영상의 원본으로부터 생성되는, POD 기반의 영상 관제 시스템.
  8. 촬영한 영상을 압축하여 제공하는 카메라;
    상기 카메라에서 전송되는 동영상 압축 스트림을 디코딩한 영상을 처리하는 영상 처리부를 포함하되, 상기 영상 처리부는,
    상기 카메라로부터 전송되는 복수의 동영상 압축 스트림을 바인딩하여 바인딩 영상을 생성하는 영상 머지 서버와,
    상기 영상 머지 서버에서 생성된 상기 바인딩 영상을 전체 영상으로 구성하고, 소정 출력 조건에 따라 상기 전체 영상 중 적어도 일부를 재구성하여 사용자 단말로 최종 출력 영상을 전달하는 디스플레이 서버를 구비하고,
    상기 디스플레이 서버는 상기 최종 출력 영상과 상기 최종 출력 영상에 포함된 복수의 동영상 압축 스트림에 개별적으로 대응하는 인공지능(AI: Artificial Intelligence) 기반의 컨텐츠 복원 모델을 상기 사용자 단말로 전송하되,
    상기 컨텐츠 복원 모델은 상기 사용자 단말의 종류, 상기 소정 출력 조건 및 네트워크 상태를 종합적으로 고려하여 결정되는, POD 기반의 영상 관제 시스템.
  9. 제 8 항에 있어서,
    복수의 카메라로부터 다수의 영상 컨텐츠를 수신하고, 이를 압축시켜 대체 영상 컨텐츠를 생성하고, 상기 대체 영상 컨텐츠로부터 컨텐츠 원본을 출력하도록 상기 컨텐츠 복원 모델을 학습시키는 AI 모듈을 더 포함하는, POD 기반의 영상 관제 시스템.
  10. 제 9 항에 있어서,
    상기 AI 모듈은 상기 최종 출력 영상의 저해상도 영상을 생성하고, 상기 컨텐츠 복원 모델에 상기 저해상도 영상으로부터 상기 최종 출력 영상의 원본을 출력하도록 학습시키는, POD 기반의 영상 관제 시스템.
  11. 제 9 항에 있어서,
    상기 대체 영상 컨텐츠는 상기 최종 출력 영상의 원본으로부터 생성되는, POD 기반의 영상 관제 시스템.
  12. 카메라에서 영상을 압축하여 제공하는 단계;
    상기 압축된 영상을 디코딩하는 디코딩 단계;
    상기 디코딩되는 영상을 소정 출력 조건으로 재구성하여 전체 영상을 준비하는 준비 단계;
    상기 전체 영상에서 상기 소정 출력 조건의 영상을 최종 출력 영상으로 출력하는 출력 단계를 포함하되,
    상기 준비 단계에서, 상기 전체 영상에 상기 소정 출력 조건에 해당하는 영상이 있으면 상기 전체 영상에서 상기 소정 출력 조건의 영상을 전달하고, 상기 전체 영상에 상기 소정 출력 조건의 영상이 없으면 상기 디코딩 단게에서 이미 디코딩된 영상 중에서 상기 소정 출력 조건에 해당하는 영상이 포함된 상기 전체 영상을 재구성하고, 상기 재구성된 전체 영상에서 상기 소정 출력 조건의 영상을 선택하여 전달하되,
    상기 소정 출력 조건의 영상을 선택하여 전달할 때, 상기 재구성된 전체 영상과 상기 재구성된 전체 영상에 대응하는 인공지능(AI: Artificial Intelligence) 기반의 컨텐츠 복원 모델을 사용자 단말로 전송하되,
    상기 컨텐츠 복원 모델은 상기 사용자 단말의 종류, 상기 소정 출력 조건 및 네트워크 상태를 종합적으로 고려하여 결정되는, POD 기반의 영상 처리 방법.
  13. 제 12 항에 있어서,
    상기 디코딩 단계는 복수개의 상기 카메라에서 촬영한 복수개의 영상을 디코딩 한 후 상기 복수개의 영상을 묶어서 재생하는, POD 기반의 영상 처리 방법.
  14. 다수의 카메라가 촬영한 영상을 압축하여 전송하고, 상기 다수의 카메라에서 압축 전송된 영상을 디코딩하여 영상을 최종 출력이 이루어지는 동안에 다수의 영상으로 함께 지속적으로 재생하고, 상기 다수의 영상을 상기 카메라가 촬영하는 최대 해상도 이하의 범위를 가지는 소정 출력 조건으로 전체 영상을 구성하고, 상기 전체 영상에서 상기 소정 출력 조건에 해당하는 영상을 선택하여 출력하되, 상기 소정 출력 조건이 바뀌면 상기 전체 영상에서 바뀐 출력 조건의 영상을 선택하여 출력하되,
    상기 선택하여 출력할 때, 바뀐 출력 조건의 영상과 그에 대응하는 인공지능(AI: Artificial Intelligence) 기반의 컨텐츠 복원 모델을 함께 출력하되,
    상기 컨텐츠 복원 모델은 출력 단말의 종류, 상기 소정 출력 조건 및 네트워크 상태를 종합적으로 고려하여 결정되는, POD 기반의 영상 처리 방법.
  15. 다수의 카메라가 촬영한 영상을 압축하여 전송하고, 상기 다수의 카메라에서 압축 전송된 영상을 디코딩하여 영상을 최종 출력이 이루어지는 동안에 다수의 영상으로 함께 지속적으로 재생하고, 상기 다수의 영상을 상기 카메라가 촬영하는 최대 해상도 이하의 범위를 가지는 소정 출력 조건으로 전체 영상을 구성하고, 상기 전체 영상에서 상기 소정 출력 조건에 해당하는 영상을 선택하여 출력하되, 상기 소정 출력 조건이 바뀌고, 상기 전체 영상에 바뀐 출력 조건의 영상이 포함되어 있지 않으면, 상기 재생되는 영상으로부터 상기 전체 영상을 재구성하고, 상기 재구성된 영상으로부터 상기 바뀐 출력 조건에 해당하는 영상을 선택하여 출력하되,
    상기 선택하여 출력할 때, 상기 바뀐 출력 조건에 해당하는 영상과 그에 대응하는 인공지능(AI: Artificial Intelligence) 기반의 컨텐츠 복원 모델을 함께 출력하되,
    상기 컨텐츠 복원 모델은 출력 단말의 종류, 상기 소정 출력 조건 및 네트워크 상태를 종합적으로 고려하여 결정되는, POD 기반의 영상 처리 방법.
KR1020210191148A 2021-12-29 2021-12-29 Pod 기반의 영상 관제 시스템 및 pod 기반의 영상 처리 방법 KR102414301B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210191148A KR102414301B1 (ko) 2021-12-29 2021-12-29 Pod 기반의 영상 관제 시스템 및 pod 기반의 영상 처리 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210191148A KR102414301B1 (ko) 2021-12-29 2021-12-29 Pod 기반의 영상 관제 시스템 및 pod 기반의 영상 처리 방법

Publications (1)

Publication Number Publication Date
KR102414301B1 true KR102414301B1 (ko) 2022-07-01

Family

ID=82397047

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210191148A KR102414301B1 (ko) 2021-12-29 2021-12-29 Pod 기반의 영상 관제 시스템 및 pod 기반의 영상 처리 방법

Country Status (1)

Country Link
KR (1) KR102414301B1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090077869A (ko) * 2008-01-12 2009-07-16 (주) 이노티브잉크코리아 영상처리시스템, 영상처리방법 및 영상전달방법
KR20100094181A (ko) * 2009-02-18 2010-08-26 장태환 영상처리시스템 및 영상처리방법
KR101923184B1 (ko) * 2017-08-25 2018-11-28 삼성전자주식회사 뉴럴 네트워크를 이용한 영상 복원 방법 및 그 자기 공명 영상 장치
KR20190093746A (ko) * 2018-01-10 2019-08-12 한국과학기술원 신경망을 이용한 컨텐츠 인지 기반 컨텐츠 전송 서버 장치 및 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090077869A (ko) * 2008-01-12 2009-07-16 (주) 이노티브잉크코리아 영상처리시스템, 영상처리방법 및 영상전달방법
KR20100094181A (ko) * 2009-02-18 2010-08-26 장태환 영상처리시스템 및 영상처리방법
KR101923184B1 (ko) * 2017-08-25 2018-11-28 삼성전자주식회사 뉴럴 네트워크를 이용한 영상 복원 방법 및 그 자기 공명 영상 장치
KR20190093746A (ko) * 2018-01-10 2019-08-12 한국과학기술원 신경망을 이용한 컨텐츠 인지 기반 컨텐츠 전송 서버 장치 및 방법

Similar Documents

Publication Publication Date Title
KR102241082B1 (ko) 복수의 뷰포인트들에 대한 메타데이터를 송수신하는 방법 및 장치
EP3804349B1 (en) Adaptive panoramic video streaming using composite pictures
US10666863B2 (en) Adaptive panoramic video streaming using overlapping partitioned sections
KR100962673B1 (ko) 영상처리시스템, 영상처리방법 및 영상전달방법
KR102027410B1 (ko) 계층화된 신호 품질 계층에서의 재구성 데이터의 송신
US20070024705A1 (en) Systems and methods for video stream selection
US20100260468A1 (en) Multi-user remote video editing
US10560731B2 (en) Server apparatus and method for content delivery based on content-aware neural network
US10873737B1 (en) VR device and control method for the same
KR20190008901A (ko) 가상 현실 미디어 콘텐트의 스트리밍을 개선하는 방법, 디바이스, 및 컴퓨터 프로그램
KR102157658B1 (ko) 복수의 뷰포인트들에 대한 메타데이터를 송수신하는 방법 및 장치
US11979544B2 (en) 360 video transmission method, 360 video reception method, 360 video transmission apparatus, and 360 video reception apparatus
KR102214085B1 (ko) 복수의 뷰포인트들에 대한 메타데이터를 송수신하는 방법 및 장치
JP2011509626A5 (ko)
Podborski et al. Virtual reality and DASH
US20210352347A1 (en) Adaptive video streaming systems and methods
US11706375B2 (en) Apparatus and system for virtual camera configuration and selection
KR102414301B1 (ko) Pod 기반의 영상 관제 시스템 및 pod 기반의 영상 처리 방법
KR102440794B1 (ko) Pod 기반의 영상 컨텐츠 전송 방법 및 장치
Podborski et al. 360-degree video streaming with MPEG-DASH
Zeng et al. A new architecture of 8k vr fov video end-to-end technology
US20240348840A1 (en) Unique Remote Experience of Live Event
Blum et al. End-user viewpoint control of live video from a medical camera array

Legal Events

Date Code Title Description
GRNT Written decision to grant