KR102471288B1

KR102471288B1 - 송신, 수신 장치 및 방법

Info

Publication number: KR102471288B1
Application number: KR1020200108300A
Authority: KR
Inventors: 김성제; 정진우; 홍민수
Original assignee: 한국전자기술연구원
Priority date: 2020-08-27
Filing date: 2020-08-27
Publication date: 2022-11-28
Also published as: KR20220027436A

Abstract

본 발명은 인코딩, 디코딩 장치 및 장법에 관한 것이다. 본 발명의 일 실시예에 따른 인코딩 장치는 고화질의 원본 영상을 다운 스케일링 처리하여 저화질 영상으로 변환하는 스케일러; 변환된 저화질 영상을 압축 처리하여 저화질 영상의 제1 인코딩 코드를 생성하는 제1 인코더부; 변환된 저화질 영상으로부터 화질 개선 영상을 생성하는 다수의 머신 러닝 모델(machine learning model) 중에서 적어도 하나의 최적 모델을 선택하는 선택부; 선택된 최적 모델을 압축 처리하여 최적 모델의 제2 인코딩 코드를 생성하는 제2 인코더부; 제1 및 제2 인코딩 코드를 합성하여 제1 및 제2 인코딩 코드가 포함된 비트스트림을 생성하는 합성부;를 포함하는 것을 특징으로 한다.

Description

송신, 수신 장치 및 방법{METHOD AND APPARATUS FOR TRANSMITTING AND RECEAVING}

본 발명은 동영상의 송수신 처리에 관한 것으로서, 더욱 상세하게는 화질 개선 동영상의 송수신을 위한 장치 및 방법에 관한 것이다.

최근 들어, 머신 러닝(machine learning) 기법이 다양한 분양에 적용되고 있다. 예를 들어, 머신 러닝 기법 중에 하나인 딥 러닝(deep learning) 기법은 영상 인식, 음성 신호처리, 자연어 처리 등 다양한 응용 분야에서 종래의 전통적인 방법을 압도하는 고무적인 성능을 보이고 있다. 특히, 이러한 딥 러닝 기법은 노이즈 제거, 초해상화(Super resolution) 등의 영상 화질을 개선하는 분야에서도 괄목할 만한 성과를 보이고 있다.

한편, 고해상도 영상을 인코딩할 경우, 매우 많은 양의 데이터가 요구된다. 특히, 이러한 높은 대역폭의 요구로 인해, 네트워크의 대역폭이 높지 않을 경우에는 원활한 스트리밍이 이루어지지 않는다. 이를 해결하기 위해 종래의 스트리밍 기술의 경우, 서버에서는 동일 영상에 대하여 여러 해상도의 버전을 만들어, 버전 별로 다양한 데이터 크기의 비트스트림(bitstream)을 생성한다. 이후, 수신측(단말)의 네트워크 상황 등에 따라 적응적으로 최적의 비트스트림을 선택한다.

하지만, 이러한 종래 기술의 경우, 동일 영상에 대해 여러 종류의 비트스트림을 저장해야 하므로, 서버에 요구되는 저장 용량이 매우 큰 문제점이 있다.

이를 해결하기 위해, MPEG에서 제정한 H.264, HEVC 등은 스케일러블 비디오 코딩(Scalable Video Coding; SVC) 기법을 개발하였다. 이 기법은 먼저 원본 영상을 저해상도로 다운사이징(down-sizing)한 후 저해상도 영상을 인코딩하며, 이를 기본(base line) 영상이라 한다. 또한, 원본 영상과 저해상도 영상의 차이를 인코딩하며, 이를 향상(enhancement line) 영상이라고 한다. 이러한 향상 영상은 네트워크 상황에 따라 그 전송 여부가 결정된다. 즉, 네트워크 상황이 나쁠 경우에는 기본 영상만이 전송되고, 네크워크 상황이 좋을 경우에는 기본 영상과 향상 영상을 모두 전송되어, 수신측에서 높은 화질의 시청이 가능하게 한다

하지만, 이러한 종래 기술은 SVC를 위한 별도의 디코더부(decoder)가 필요한 문제점이 있다. 특히, 대부분의 단말에는 SVC 디코더부가 포함되어 있지 않으므로, 이러한 종래 기술의 활용도는 떨어질 수밖에 없다.

KR

10-2020-0046163

A

상기한 바와 같은 종래 기술의 문제점을 해결하기 위하여, 본 발명은 수신측 디바이스에 기본적으로 탑재되는 디코더부의 변형이 필요 없는 동영상 송수신 장치 및 방법을 제공하는 것이 그 목적이다.

또한, 본 발명은 수신측 디바이스의 상황에 따라 적응적으로 영상 스트림을 제공하되 적은 네트워크 대역폭에서도 높은 품질의 동영상 제공이 가능한 동영상 송수신 장치 및 방법을 제공하는 것이 그 다른 목적이다.

또한, 본 발명은 주문형 비디오(video on demand; VOD) 뿐 아니라 실시간 스트리밍에도 적용 가능한 동영상 송수신 장치 및 방법을 제공하는 것이 그 또 다른 목적이다

다만, 본 발명이 해결하고자 하는 과제는 이상에서 언급한 과제에 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

상기와 같은 과제를 해결하기 위한 본 발명의 일 실시예에 따른 송신 장치는, 고화질의 원본 영상을 다운 스케일링 처리하여 저화질 영상으로 변환하는 스케일러; 변환된 저화질 영상을 압축 처리하여 저화질 영상의 제1 인코딩 코드를 생성하는 제1 인코더부; 변환된 저화질 영상으로부터 화질 개선 영상을 생성하는 다수의 머신 러닝 모델(machine learning model) 중에서 적어도 하나의 최적 모델을 선택하는 선택부; 선택된 최적 모델을 압축 처리하여 최적 모델의 제2 인코딩 코드를 생성하는 제2 인코더부; 제1 및 제2 인코딩 코드를 합성하여 제1 및 제2 인코딩 코드가 포함된 비트스트림을 생성하는 합성부;를 포함한다.

상기 각 머신 러닝 모델은 머신 러닝 종류, 파라미터 또는 출력하는 화질 개선 종류가 다를 수 있다.

상기 각 머신 러닝 모델은 저화질 영상의 입력 데이터과 화질 개선 영상의 출력 데이터를 포함하는 학습 데이터를 이용해 기 학습될 수 있다.

상기 선택부는 원본 영상과 각 머신 러닝 모델이 생성하는 화질 개선 영상을 비교하여 최적 모델을 선택할 수 있다.

상기 선택부는 원본 영상에 대한 각 화질 개선 영상의 차이를 고려하되, 각 머신 러닝 모델의 저장 용량 또는 연산 복잡도를 함께 고려하여 최적 모델을 선택할 수 있다.

하기 식을 이용하여 각 머신 러닝 모델이 가지는 J 값에 따라 상기 최적 모델을 선택할 수 있다.

J = λ_cR_{c +}λ_bR_b + D

(단, R_b는 모델의 저장 용량, R_C는 모델의 연산 복잡도, D는 원본 영상과 화질 개선 영상의 차이, λ_b 및 λ_c는 가중치)

상기 최적 모델은 영상 전체에 적용되거나, 복수개가 영상의 서로 다른 블록, 프레임, 장면 또는 인트라 주기에 적용될 수 있다.

상기 최적 모델이 수신측에 기 전송된 경우, 상기 합성부는 제1 인코딩 코드 및 최적 모델의 인덱스 정보를 포함한 비트스트림을 생성할 수 있다.

수신측에 기 저장된 머신 러닝 모델의 리스트를 수신한 경우, 상기 선택부는 해당 리스트 중에서 최적 모델을 선택할 수 있으며, 상기 합성부는 제1 인코딩 코드 및 최적 모델의 인덱스 정보를 포함한 비트스트림을 생성할 수 있다.

상기 선택부는 서로 다른 종류의 화질 개선을 수행하는 다수의 머신 러닝 모델에서 최적 모델을 선택할 수 있다.

상기 머신 러닝 모델은 해상도 증가, 노이즈 제거, 프레임율 증가 및 다이나믹 레인지 증가 중 어느 하나의 화질 개선을 수행할 수 있다.

상기 선택부는 서로 다른 종류의 화질 개선을 수행하는 복수의 최적 모델을 선택할 수 있으며, 상기 복수의 최적 모델 중 적어도 하나는 해상도 증가의 화질 개선을 수행하는 모델일 수 있다.

상기 선택부는 전체 머신 러닝 모델 중의 일부를 후보 모델로 선택한 후, 선택된 후보 모델이 생성하는 화질 개선 영상과 원본 영상을 비교하여 최적 모델을 선택할 수 있다.

상기 선택부는 화질 개선 종류, 학습 데이터 종류, 저장 용량, 또는 연산 복잡도에 따라 후보 모델을 선택할 수 있다.

상기 선택부는 비트스트림이 전송되는 네트워크의 상태, 수신측의 장치 사양, 또는 수신측의 요청 정보에 따라 후보 모델을 선택할 수 있다.

본 발명의 일 실시예에 따른 송신 시스템은, 고화질의 원본 영상을 다운 스케일링 처리하여 저화질 영상으로 변환하고, 변환된 저화질 영상을 압축 처리하여 저화질 영상의 제1 인코딩 코드가 포함된 영상 비트스트림을 생성하며, 변환된 저화질 영상으로부터 화질 개선 영상을 생성하는 다수의 머신 러닝 모델(machine learning model) 중에서 적어도 하나의 최적 모델을 선택하여, 영상 비트스트림과 최적 모델의 인덱스 정보를 전송하는 송신 서버; 및 상기 각 머신 러닝 모델을 저장하고 있으며, 수신된 상기 영상 비트스트림과 수신된 상기 최적 모델의 인덱스 정보에 대응하는 머신 러닝 모델의 비트스트림을 수신측에 전송하는 콘텐츠 전송 네트워크(Content Delivery Network; CDN);를 포함한다.

본 발명의 일 실시예에 따른 수신 장치는, 수신한 비트스트림에 포함된 제1 및 제2 인코딩 코드를 각각 분해하는 분해부; 제1 인코딩 코드를 압축 해제 처리하여 저화질 영상을 복원하는 제1 디코더부; 제2 인코딩 코드를 압축 해제 처리하여 저화질 영상으로부터 화질 개선 영상을 생성하는 머신 러닝 모델(machine learning model)을 복원하는 제2 디코더부; 복원된 머신 러닝 모델에 복원된 저화질 영상을 입력시켜 화질 개선 영상을 생성하는 처리부;를 포함한다.

본 발명의 일 실시예에 따른 수신 장치는 상기 복원된 저화질 영상 또는 화질 개선 영상을 표시하는 디스플레이를 더 포함할 수 있다.

본 발명의 일 실시예에 따른 송신 방법은, 고화질의 원본 영상을 다운 스케일링 처리하여 저화질 영상으로 변환하는 단계; 변환된 저화질 영상을 압축 처리하여 저화질 영상의 제1 인코딩 코드를 생성하는 단계; 변환된 저화질 영상으로부터 화질 개선 영상을 생성하는 다수의 머신 러닝 모델(machine learning model) 중에서 적어도 하나의 최적 모델을 선택하는 단계; 선택된 최적 모델을 압축 처리하여 최적 모델의 제2 인코딩 코드를 생성하는 단계; 제1 및 제2 인코딩 코드를 합성하여 제1 및 제2 인코딩 코드가 포함된 비트스트림을 생성하는 단계;를 포함한다.

본 발명의 일 실시예에 따른 송신 방법은, 송신 서버가 고화질의 원본 영상을 다운 스케일링 처리하여 저화질 영상으로 변환하는 단계; 송신 서버가 변환된 저화질 영상을 압축 처리하여 저화질 영상의 제1 인코딩 코드가 포함된 영상 비트스트림을 생성하는 단계; 송신 서버가 변환된 저화질 영상으로부터 화질 개선 영상을 생성하는 다수의 머신 러닝 모델(machine learning model) 중에서 적어도 하나의 최적 모델을 선택하여, 영상 비트스트림과 최적 모델에 대한 정보를 전송하는 단계; 및 상기 각 머신 러닝 모델을 저장하고 있는 콘텐츠 전송 네트워크(Content Delivery Network; CDN)가 수신된 상기 영상 비트스트림과 수신된 상기 최적 모델에 대한 정보에 대응하는 머신 러닝 모델의 비트스트림을 수신측에 전송하는 단계;를 포함한다.

본 발명의 일 실시예에 따른 수신 방법은, 전자 장치에 의해 수행되는 수신 방법으로서, 수신한 비트스트림에 포함된 제1 및 제2 인코딩 코드를 각각 분해하는 단계; 제1 인코딩 코드를 압축 해제 처리하여 저화질 영상을 복원하는 단계; 제2 인코딩 코드를 압축 해제 처리하여 저화질 영상으로부터 화질 개선 영상을 생성하는 머신 러닝 모델(machine learning model)을 복원하는 단계; 복원된 머신 러닝 모델에 복원된 저화질 영상을 입력시켜 화질 개선 영상을 생성하는 단계;를 포함한다.

상기와 같이 구성되는 본 발명은 본 발명은 수신측 디바이스에 기본적으로 탑재되는 디코더부의 변형 없이 동영상 송수신이 가능한 이점이 있다.

또한, 본 발명은 수신측 디바이스의 성능 또는 대역폭 등의 상황에 따라 적응적으로 영상 스트림을 제공 가능하며, 저화질 영상으로부터 화질 개선 영상을 생성하는 최적 머신 러닝 모델을 송신하므로, 적은 네트워크 대역폭에서도 높은 품질의 동영상 제공이 가능한 이점이 있다.

또한, 본 발명은 수신측에 최적합한 다양한 화질 개선 기법의 적용 가능하므로, 주문형 비디오(video on demand; VOD) 뿐 아니라 실시간 스트리밍에도 적용 가능한 이점이 있다.

또한, 본 발명은 수신측 디바이스의 상황에 따라 적응적으로 영상 스트림을 제공하되 적은 네트워크 대역폭에서도 높은 품질의 동영상 제공이 가능한 이점이 있다.

또한, 본 발명은 주문형 비디오(video on demand; VOD) 뿐 아니라 실시간 스트리밍에도 적용 가능한 이점이 있다.

본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 발명의 일 실시예에 따른 송신 장치(100)의 블록 구성도를 나타낸다.
도 2는 본 발명의 일 실시예에 따른 송신 장치(100)의 제어부(150)의 구성을 나타낸다.
도 3은 본 발명의 일 실시예에 따른 송신 방법의 순서도를 나타낸다.
도 4는 제어부(150)에서의 처리 과정에 대한 일 예를 나타낸다.
도 5는 제어부(150)에서의 처리 과정에 대한 다른 일 예를 나타낸다.
도 6은 본 발명의 일 실시예에 따른 수신 장치(200)의 블록 구성도를 나타낸다.
도 7은 본 발명의 일 실시예에 따른 수신 장치(200)의 제어부(250)의 구성을 나타낸다.
도 8은 본 발명의 일 실시예에 따른 수신 방법의 순서도를 나타낸다.
도 9는 제어부(250)에서의 처리 과정에 대한 일 예를 나타낸다.
도 10은 제어부(250)에서의 처리 과정에 대한 다른 일 예를 나타낸다.
도 11은 본 발명의 일 실시예에 따른 송수신 시스템의 일 예를 나타낸다.

본 발명의 상기 목적과 수단 및 그에 따른 효과는 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며, 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 경우에 따라 복수형도 포함한다. 본 명세서에서, "포함하다", “구비하다”, “마련하다” 또는 “가지다” 등의 용어는 언급된 구성요소 외의 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다.

본 명세서에서, “또는”, “적어도 하나” 등의 용어는 함께 나열된 단어들 중 하나를 나타내거나, 또는 둘 이상의 조합을 나타낼 수 있다. 예를 들어, “또는 B”“및 B 중 적어도 하나”는 A 또는 B 중 하나만을 포함할 수 있고, A와 B를 모두 포함할 수도 있다.

본 명세서에서, “예를 들어” 등에 따르는 설명은 인용된 특성, 변수, 또는 값과 같이 제시한 정보들이 정확하게 일치하지 않을 수 있고, 허용 오차, 측정 오차, 측정 정확도의 한계와 통상적으로 알려진 기타 요인을 비롯한 변형과 같은 효과로 본 발명의 다양한 실시 예에 따른 발명의 실시 형태를 한정하지 않아야 할 것이다.

본 명세서에서, 어떤 구성요소가 다른 구성요소에 '연결되어’ 있다거나 '접속되어' 있다고 기재된 경우, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성 요소에 '직접 연결되어' 있다거나 '직접 접속되어' 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해될 수 있어야 할 것이다.

본 명세서에서, 어떤 구성요소가 다른 구성요소의 '상에' 있다거나 '접하여' 있다고 기재된 경우, 다른 구성요소에 상에 직접 맞닿아 있거나 또는 연결되어 있을 수 있지만, 중간에 또 다른 구성요소가 존재할 수 있다고 이해되어야 할 것이다. 반면, 어떤 구성요소가 다른 구성요소의 '바로 위에' 있다거나 '직접 접하여' 있다고 기재된 경우에는, 중간에 또 다른 구성요소가 존재하지 않은 것으로 이해될 수 있다. 구성요소 간의 관계를 설명하는 다른 표현들, 예를 들면, '～사이에'와 '직접 ～사이에' 등도 마찬가지로 해석될 수 있다.

본 명세서에서, '제1', '제2' 등의 용어는 다양한 구성요소를 설명하는데 사용될 수 있지만, 해당 구성요소는 위 용어에 의해 한정되어서는 안 된다. 또한, 위 용어는 각 구성요소의 순서를 한정하기 위한 것으로 해석되어서는 안되며, 하나의 구성요소와 다른 구성요소를 구별하는 목적으로 사용될 수 있다. 예를 들어, '제1구성요소'는 '제2구성요소'로 명명될 수 있고, 유사하게 '제2구성요소'도 '제1구성요소'로 명명될 수 있다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.

이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일 실시예를 상세히 설명하도록 한다.

도 1은 본 발명의 일 실시예에 따른 송신 장치(100)의 블록 구성도를 나타낸다.

본 발명의 일 실시예에 따른 송신 장치(100)는 고화질의 원본 영상을 저화질 영상으로 변환한 후, 변환된 저화질 영상의 데이터를 압축 처리하여 인코딩(encoding)함으로써 비트스트림(bitstream)을 생성하는 장치로서, 컴퓨팅(computing)이 가능한 전자 장치 또는 컴퓨팅 네트워크일 수 있다. 이러한 송신 장치(100)는 영상을 처리하는 영상 처리 장치, 처리된 영상 등의 정보를 수신측으로 송출하는 서버 등으로 동작할 수 있다. 이때, 영상은 동영상(video)을 지칭할 수 있다.

특히, 송신 장치(100)는 변환된 저화질 영상으로부터 화질 개선 영상을 생성하는 적어도 하나의 머신 러닝 모델(machine learning model)의 데이터를 압축 처리하여 인코딩(encoding)함으로써 그 인코딩 코드를 함께 포함하는 비트스트림을 생성하거나, 해당 머신 러닝 모델의 인덱스 정보를 함께 포함하는 비트스트림을 생성할 수 있다.

예를 들어, 전자 장치는 데스크탑 PC(desktop personal computer), 랩탑 PC(laptop personal computer), 태블릿 PC(tablet personal computer), 넷북 컴퓨터(netbook computer), 워크스테이션(workstation), PDA(personal digital assistant), 스마트폰(smartphone), 스마트패드(smartpad), 또는 휴대폰(mobile phone), 등일 수 있으나, 이에 한정되는 것은 아니다.

머신 러닝 모델은 입력 데이터 및 출력 데이터 쌍(데이터셋)의 학습 데이터를 통해 지도 학습(supervised learning)의 머신 러닝 기법에 따라 학습된 모델이다. 즉, 머신 러닝 모델은 저화질 영상의 입력 데이터와 화질 개선 영상의 출력 데이터를 포함하는 학습 데이터를 이용해 학습될 수 있다. 이에 따라, 머신 러닝 모델은 입력 데이터인 저화질 영상과 출력 데이터인 화질 개선 영상 간의 관계에 대한 함수를 가지며, 이를 다양한 파라미터를 이용해 표현한다. 예를 들어, 머신 러닝 모델은 가중치(Weights)와 편항치(Biases)의 파라미터를 이용해 저화질 영상과 화질 개선 영상 간의 관계를 표현할 수 있다. 즉, 머신 러닝 모델에 저화질 영상의 입력 데이터가 입력되는 경우, 해당 함수에 따른 화질 개선 영상의 출력 데이터가 출력될 수 있다.

이때, 화질 개선 종류는 저화질 영상에 비해 해상도 증가, 노이즈 제거, 프레임율 증가 및 다이나믹 레인지 증가 중 어느 하나일 수 있다. 따라서, 머신 러닝 모델은 저화질 영상이 입력되면, 해상도 증가, 노이즈 제거, 프레임율 증가 및 다이나믹 레인지 증가 중 어느 하나의 화질 개선 영상을 출력할 수 있다.

예를 들어, 머신 러닝 기법은 Artificial neural network, Boosting, Bayesian statistics, Decision tree, Gaussian process regression, Nearest neighbor algorithm, Support vector machine, Random forests, Symbolic machine learning, Ensembles of classifiers, 또는 Deep learning 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.

특히, 딥 러닝(Deep learning) 기법에 의해 학습된 딥 러닝 모델은 입력 데이터와 출력 데이터 간의 관계를 다수의 층(레이어)으로 표현하며, 이러한 다수의 표현층을 “신경망(neural network)”라 지칭하기도 한다. 이러한 딥 러닝 모델은 본 발명과 같은 영상 처리 분야에서 고무적인 성능을 가질 수 있다.

예를 들어, 딥 러닝 기법은 Deep Neural Network(DNN), Convolutional Neural Network(CNN), Recurrent Neural Network(RNN), Restricted Boltzmann Machine(RBM), Deep Belief Network(DBN), Deep Q-Networks 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.

한편, 머신 러닝 모델은 복수개가 저장될 수 있다. 이때, 각 머신 러닝 모델은 머신 러닝 기법의 종류(모델 종류), 학습 데이터 종류, 파라미터, 또는 화질 개선 종류가 다를 수 있다. 예를 들어, 복수의 머신 러닝 모델은 동일한 머신 러닝 기법으로 학습된 것이라도 그 파라미터(수)가 다르거나 그 화질 개선 종류가 다를 수 있다. 따라서, 각 머신 러닝 모델은 서로 다른 저장 용량(데이터 크기) 또는 연산 복잡도를 가질 수 있다. 이때, 연산 복잡도는 머신 러닝 모델에 입력 데이터의 저화질 영상을 입력할 경우, 그 출력 데이터인 화질 개선 영상을 생성하기까지 필요한 연산량 또는 연산시간으로 나타낼 수 있다. 이러한 연산량 또는 연산시간은 동일 프로세서에서 처리되게 함으로써 측정될 수 있다. 학습 데이터 종류는 학습 시 사용했던 영상의 종류로서, 애니메이션, 자연 영상, CG 영상, 또는 노이즈 영상 등에 대한 종류를 나타낸다.

하기 표 1은 어느 한 머신 러닝 모델의 구조에 대한 일 예를 나타낸다.

모델 번호	00-001
화질 개선 종류	초해상화(저해상도->초고해상도)
모델 종류	Resnet-152
학습 데이터 종류	Noisy 영상
파라미터 수	15M 개
압축된 비트스트림의 저장 용량(비트수)(R_b)	5M bits
FLOPS(R_c)	150
MACC(R_c)	200
파라미터
압축된 비트스트림

이러한 송신 장치(100)는, 도 1에 도시된 바와 같이, 입력부(110), 통신부(120), 디스플레이(130), 메모리(140) 및 제어부(150)를 포함할 수 있다.

입력부(110)는 다양한 사용자의 입력에 대응하여, 입력데이터를 발생시키며, 다양한 입력수단을 포함할 수 있다. 예를 들어, 입력부(110)는 키보드(key board), 키패드(key pad), 돔 스위치(dome switch), 터치 패널(touch panel), 터치 키(touch key), 터치 패드(touch pad), 마우스(mouse), 메뉴 버튼(menu button) 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.

통신부(120)는 수신 장치(200), 콘텐츠 전송 네트워크(Content Delivery Network; CDN) 등과 같은 다른 장치와의 통신을 수행하는 구성으로서, 제어부(150)에서 생성된 비트스트림(B_S1, B_S2) 등을 송신할 수 있다. 또한, 통신부(120)는 기 학습된 머신 러닝 모델에 대한 정보를 다른 장치로부터 수신할 수도 있다. 예를 들어, 통신부(120)는 5G(5th generation communication), LTE-A(long term evolution-advanced), LTE(long term evolution), 블루투스, BLE(bluetooth low energe), NFC(near field communication), 와이파이(WiFi) 통신 등의 무선 통신을 수행하거나, 케이블 통신 등의 유선 통신을 수행할 수 있으나, 이에 한정되는 것은 아니다.

디스플레이(130)는 다양한 영상 데이터를 화면으로 표시하는 것으로서, 비발광형 패널이나 발광형 패널로 구성될 수 있다. 예를 들어, 디스플레이(130)는 액정 디스플레이(LCD; liquid crystal display), 발광 다이오드(LED; light emitting diode) 디스플레이, 유기 발광 다이오드(OLED; organic LED) 디스플레이, 마이크로 전자기계 시스템(MEMS; micro electro mechanical systems) 디스플레이, 또는 전자 종이(electronic paper) 디스플레이 등을 포함할 수 있으나, 이에 한정되는 것은 아니다. 또한, 디스플레이(130)는 입력부(120)와 결합되어 터치 스크린(touch screen) 등으로 구현될 수 있다.

메모리(140)는 송신 장치(100)의 동작에 필요한 각종 정보를 저장한다. 저장 정보로는 영상, 머신 러닝 모델, 후술할 송신 방법에 관련된 프로그램 정보 등이 포함될 수 있으나, 이에 한정되는 것은 아니다. 특히, 머신 러닝 모델은 복수개가 저장될 수도 있으며, 압축 처리된 형태로 저장될 수 있으나, 이에 한정되는 것은 아니다. 예를 들어, 메모리(140)는 그 유형에 따라 하드디스크 타입(hard disk type), 마그네틱 매체 타입(Sagnetic media type), CD-ROM(compact disc read only memory), 광기록 매체 타입(Optical Media type), 자기-광 매체 타입(Sagneto-optical media type), 멀티미디어 카드 마이크로 타입(Sultimedia card micro type), 플래시 저장부 타입(flash memory type), 롬 타입(read only memory type), 또는 램 타입(random access memory type) 등을 포함할 수 있으나, 이에 한정되는 것은 아니다. 또한, 메모리(140)는 그 용도/위치에 따라 캐시(cache), 버퍼, 주기억장치, 또는 보조기억장치이거나 별도로 마련된 저장 시스템일 수 있으나, 이에 한정되는 것은 아니다.

제어부(150)는 송신 장치(100)의 다양한 제어 동작을 수행할 수 있다. 즉, 제어부(150)는 후술할 송신 방법의 수행을 제어할 수 있으며, 송신 장치(100)의 나머지 구성, 즉 입력부(110), 통신부(120), 디스플레이(130), 메모리(140) 등의 동작을 제어할 수 있다. 또한, 제어부(150)는 머신 러닝 모델을 다른 장치로부터 수신하여 메모리(140)에 저장하도록 제어할 수 있다. 또는, 제어부(150)는 메모리(140) 등에 저장된 학습 데이터를 이용하여 머신 러닝 모델을 학습시켜 메모리(140)에 저장하도록 제어할 수 있다. 예를 들어, 제어부(150)는 하드웨어인 프로세서(processor) 또는 해당 프로세서에서 수행되는 소프트웨어인 프로세스(process) 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.

도 2는 본 발명의 일 실시예에 따른 송신 장치(100)의 제어부(150)의 구성을 나타내며, 도 3은 본 발명의 일 실시예에 따른 송신 방법의 순서도를 나타낸다. 또한, 도 4는 제어부(150)에서의 처리 과정에 대한 일 예를 나타내고, 도 5는 제어부(150)에서의 처리 과정에 대한 다른 일 예를 나타낸다.

본 발명의 일 실시예에 따른 송신 방법을 수행하는 제어부(150)는, 도 2에 도시된 바와 같이, 스케일러(151), 제1 인코더부(152), 선택부(153), 제2 인코더부(154) 및 합성부(155)를 포함할 수 있다. 예를 들어, 스케일러(151), 제1 인코더부(152), 선택부(153), 제2 인코더부(154) 및 합성부(155)는 제어부(150)의 하드웨어 구성이거나, 제어부(150)에서 수행되는 소프트웨어인 프로세스일 수 있으나, 이에 한정되는 것은 아니다.

도 3을 참조하면, 본 발명의 일 실시예에 따른 송신 방법은 S101 내지 S107을 포함할 수 있다.

먼저, 스케일러(151)는 고화질의 원본 영상을 다운 스케일링(scaling down) 처리하여 저화질 영상으로 변환한다(S101). 이때, 고화질 영상과 저화질 영상 간에는 프레임에 포함된 픽셀수(해상도)나 시간당 프레임수(프레임율)의 차이가 발생할 수 있다. 즉, 고화질 영상에서 저화질 영상으로의 변환(즉, 다운 스케일링)은 원본 영상에 비해 해상도가 감소되거나, 프레임율이 감소되는 것을 지칭할 수 있다. 예를 들어, 도 4 및 도 5에 도시된 바와 같이, 8k 해상도의 원본 영상을 4k 또는 2k 해상도의 저화질 영상으로 변환하거나, 시간당 프레임 수가 120p 또는 60p인 원본 영상을 30p 또는 15p의 저화질 영상으로 변환할 수 있으나, 이에 한정되는 것은 아니다.

이후, 제1 인코더부(152)는 변환된 저화질 영상을 압축 처리하여 저화질 영상의 제1 인코딩 코드(E₁)를 생성한다(S102). 또한, 생성된 제1 인코딩 코드(E₁)는 합성부(155)로 전달된다. 즉, 제1 인코더부(152)는 다양한 영상 압축 기법을 사용하여 제1 인코딩 코드(E₁)를 생성할 수 있다. 이때, 영상 압축 기법은 움직임 보상, 쿼터 픽셀, 또는 디블로킹 필터 등을 이용한 기법이거나, 스트리밍(streaming) 또는 주문형 비디오(video on demand; VOD) 등에서 사용되는 기법일 수 있다. 예를 들어, 영상 압축 기법은 MPEG 시리즈(MPEG-1, MPEG-2, MPEG-3, MPEG-4, MPEG-7 등), H.2xx 시리즈(H.261, H.263, H.264, H.265 등) 등일 수 있으나, 이에 한정되는 것은 아니다.

이후, 선택부(153)는 원본 영상과 저화질 영상을 이용하여 메모리(140)에 저장된 다수의 머신 러닝 모델(M₁, …M_n)(단, n은 2이상의 자연수) 중에서 적어도 하나의 최적 모델을 선택한다(S103). 이때, 선택부(153)는 스케일러(151) 또는 제1 인코더부(152)로부터 저화질 영상을 전달받을 수 있다. 특히, 메모리(140)에 저장된 각 머신 러닝 모델(M₁, …M_n)은 상술한 바와 같이 저화질 영상의 입력 데이터로부터 화질 개선 영상의 출력 데이터를 출력할 수 있다.

한편, 도 4에서, 제1 인코더부(152)가 저화질 영상을 선택부(153)에 전달하는 것으로 도시되었으나, 본 발명이 이에 한정되는 것은 아니다. 다만, 제1 인코더부(152)의 경우, 제1 인코딩 코드(E₁)의 생성 과정 중에 제1 인코딩 코드(E₁)로부터 저화질 영상을 복원하여 선택부(153)에 전달할 수도 있다.

최적 모델은 특정 조건을 만족함에 따라 선택부(153)에서 선택된 최적의 머신 러닝 모델(M)이다. 즉, 선택부(153)는 각 머신 러닝 모델(M₁, …M_n)에 저화질 영상을 입력시켜, 각 머신 러닝 모델(M₁, …M_n)이 생성하는 화질 개선 영상과 원본 영상을 비교함으로써 최적 모델을 선택할 수 있다.

이러한 최적 모델은 하나가 선택되거나 복수개가 선택될 수 있다. 복수개가 선택될 경우, 각 최적 모델은 서로 작은 화질 개선을 수행하는 모델일 수 있으며, 그 중에 적어도 하나는 해상도 증가의 화질 개선을 수행하는 모델일 수 있다. 이는 해상도 증가의 화질 개선이 수신측에서 대부분 요구하는 가장 기본적인 화질 개선 작용이기 때문이다. 예를 들어, 제1 최적 모델은 해상도 증가 작용을 하는 모델이며, 제2 최적 모델은 노이즈 제거, 프레임율 증가 및 다이나믹 레인지 증가 중 어느 하나의 작용을 하는 모델일 수 있으나, 이에 한정되는 것은 아니다. 다만, 해상도 증가의 화질 개선은 복수개의 최적 모델을 통해 이루어질 수도 있다.

또한, 최적 모델은 저화질 영상의 전체에 적용될 수 있다. 또는, 복수개의 최적 모델이 저화질 영상의 서로 다른 블록, 프레임, 장면 또는 인트라 주기에 적용될 수 있다. 즉, 제1 최적 모델은 제1 블록, 제1 프레임, 제1 장면 또는 제1 인트라 주기에 적용되고, 제2 최적 모델은 제2 블록, 제2 프레임, 제2 장면 또는 제2 인트라 주기에 적용될 수 있다.

한편, 선택부(153)는 율 왜곡 최적화(Rate distortion optimization) 기법을 이용해 최적 모델을 선택할 수 있으나, 이에 한정하지 않는다. 이때, 율 왜곡 최적화 기법은, 원본 영상에 대한 각 화질 개선 영상의 차이(이하, “제1 조건”이라 지칭함)를 고려하여 최적 모델을 선택하는 방법일 수 있거나, 제1 조건과 함께 각 머신 러닝 모델(M₁, …M_n)의 저장 용량(이하, “제2 조건”이라 지칭함)이나, 각 머신 러닝 모델(M₁, …M_n)의 연산 복잡도(이하, “제3 조건”이라 지칭함)를 함께 고려하여 최적 모델을 선택하는 방법일 수 있다.

즉, 율 왜곡 최적화 기법에 따를 경우, 하기 식(1) 및 식(2)를 이용하여 J 값에 따라 최적 모델을 선택할 수 있다.

J = λ_cR_{c +}λ_bR_b + D (1)

D = ∑(X(i, j, t) - Y(i, j, t))² (2)

D는 제1 조건으로서, 원본 영상(X)과, 머신 러닝 모델에 저화질 영상(X_R)을 적용한 결과인 화질 개선 영상(Y=F(X_R))의 차이(X-Y)를 나타낸다. 이러한 D는 식 (2)와 같이 표현할 수 있다. 식 (2)에서, i 및 j는 영상의 공간 좌표를 나타내며, t는 영상의 시간 좌표를 나타낸다. 기본적으로, 하나의 머신 러닝 모델은 다양한 적용 범위를 가진다. 즉, 하나의 머신 러닝 모델은 블록, 프레임, 장면, 인트라 주기 또는 전체 영상에 적용될 수 있다. 이러한 적용 범위에 따라, i, j 및 t가 결정될 수 있다. 이때, 적용 범위는 전체 영상의 데이터량, 대역폭 등에 따라 가변적일 수 있다.

R_b는 제2 조건으로서, 머신 러닝 모델의 저장 용량(파라미터의 파일 크기)를 나타낸다. 예를 들어, R_b는 머신 모델 모델에 압축 적용할 경우의 압축된 데이터양(비트 수)을 나타낼 수 있으나, 이에 한정되는 것은 아니다.

R_C는 제3 조건으로서, 머신 러닝 모델의 연산 복잡도를 나타낸다. 예를 들어, R_c는 머신 러닝 모델의 플로팅 포인트 연산량(Floating point operations) 또는 곱셈 연산량 MACC(multiply accumulate operations) 등으로 산출될 수 있으며, 이러한 연산량은 머신 러닝 모델과 함께 저장될 수 있으나, 이에 한정되는 것은 아니다.

λ_b 및 λ_c는 라그랑지안(Lagrangian) 파라미터로서, λ_b는 R_b의 가중치를 나타내며, λ_c는 R_c의가중치를 나타낸다. 즉, 제2 조건과 제3 조건이 고려되는 정도를 결정한다.

하기 표 2는 메모리(140)에 저장된 복수의 머신 러닝 모델에 대한 일 예를 나타낸다.

		머신 러닝 모델 종류
학습 데이터 타입		Renset-15	Resnet-50	Resnet-150	...
	애니메이션	F_A1	F_A2	F_A3	...
	자연 영상	F_B1	F_B2	F_B3	...
	CG 영상	F_c1	F_C2	F_C3	...
	노이즈 영상	F_D1	F_D2	F_D3	...
	...	...	...	...	...

한편, 선택부(153)는 J의 값에 따라 최적 모델을 선택하는데, J의 값이 일정 이하이거나, 최소가 되는 적어도 하나의 머신 러닝 모델을 최적 모델로 선택할 수 있다.

예를 들어, 표 2에서 머신 러닝 모델의 종류와 학습 데이터 타입에 따라 F_A1부터 F_D3까지의 모델이 저장된 경우, 각 모델의 J 값을 산출한 후 이 중 J 값이 일정 이하 또는 최소의 J 값을 가지는 모델을 최적 모델로 선택할 수 있다.

한편, J 값을 산출하기 위해서는 각 머신 러닝 모델에 대한 추론 과정이 필요하다. 이 과정을 GPU로 처리해서 빠른 시간 안에 처리할 수 있지만, 수많은 머신 러닝 모델이 존재할 경우 상당한 시간이 소요될 수밖에 없다. 따라서, 다수의 머신 러닝 모델 중에서 후보 모델을 간추려 선택한 후, 해당 후보 모델에 대해서만 J 값을 산출하여 최적 모델을 선택함으로써 해당 시간을 줄일 수 있다.

이때, 후보 모델을 선택할 때는 J 값 계산을 수행하지 않으며, 이후, 선택된 후보 모델이 생성하는 화질 개선 영상과 원본 영상을 비교함으로써(즉, J 값을 도출하여 비교함으로써) 최적 모델을 선택할 수 있다.

후보 모델 선택의 조건은 다음과 같다. 즉, 머신 러닝 모델이 가지는 화질 개선 종류, 학습 데이터 종류, 저장 용량, 또는 연산 복잡도를 이용하여 후보 모델을 선택할 수 있다. 또는, 비트스트림이 전송되는 네트워크의 상태, 수신측의 장치 사양, 또는 수신측의 요청 정보에 따라 후보 모델을 선택할 수도 있다.

예를 들어, 학습 데이터 종류를 고려하여, 원본 영상과 유사한 종류의 학습 데이터 종류로 학습된 머신 러닝 모델을 후보 모델로 선택할 수 있다. 또한, 비트스트림이 전송되는 네트워크의 상태(전송 속도, 대역폭 등)를 고려하여, 해당 상태가 나쁠 경우, 저용량의 저장 용량을 가지는 머신 러닝 모델을 후보 모델로 선택할 수 있다. 또한, 수신측의 장치 사양을 고려하여, 해당 사양이 떨어지는 경우, 저용량의 저장 용량을 가지는 머신 러닝 모델을 후보 모델로 선택할 수 있다. 또한, 수신측의 요청 정보를 고려하여, 해당 요청 정보에 따른 화질 개선 종류, 학습 데이터 종류, 저장 용량, 또는 연산 복잡도를 가지는 머신 러닝 모델을 후보 모델로 선택할 수 있다. 다만, 본 발명이 이에 한정되는 것은 아니며, 다양한 조건에 따라 후보 모델을 선택할 수도 있다.

이후, 선택된 최적 모델이 수신측에 기 전송된 것인지 판단한다(S104).

만일, S104에서 최적 모델이 기 전송되지 않은 새로운 것이라면, 도 4에 도시된 바와 같이, 제2 인코더부(154)로 해당 최적 모델의 인덱스 정보(F₀)가 전달되며, 제2 인코더부(154)는 메모리(140)에 저장된 해당 인덱스 정보(F₀)의 최적 모델 데이터(B₀)를 압축 처리하여 최적 모델의 제2 인코딩 코드(E₂)를 생성한다(S105). 또한, 생성된 제2 인코딩 코드(E₂)는 합성부(155)로 전달된다.

이후, 합성부(155)는 제1 및 제2 인코더부(152, 154)로부터 전달받은 제1 및 제2 인코딩 코드(E₁, E₂)를 합성하여 제1 및 제2 인코딩 코드(E₁, E₂)가 포함된 비트스트림(B_S1)을 생성한다(S106). 또한, 생성된 비트스트림(B_S1)은 수신측으로 전달될 수 있다.

한편, S104에서 최적 모델이 기 전송된 것인 경우, 도 5에 도시된 바와 같이, 합성부(155)로 해당 최적 모델의 인덱스 정보(F₀)가 전달되며, 합성부(155)는 제1 인코더부(152)로부터 전달받은 제1 인코딩 코드(E₁)와 선택부(153)에서 전달받은 최적 모델의 인덱스 정보(F₀)를 합성하여 제1 인코딩 코드(E₁) 및 최적 모델의 인덱스 정보(F₀)가 포함된 비트스트림(B_S2)을 생성한다(S107). 또한, 생성된 비트스트림(B_S2)은 수신측으로 전달된다.

도 6은 본 발명의 일 실시예에 따른 수신 장치(200)의 블록 구성도를 나타내고, 도 11은 본 발명의 일 실시예에 따른 송수신 시스템의 일 예를 나타낸다.

한편, 송신 장치(100)에서 생성된 비트스트림(B_S1, B_S2)은 수신측으로 전달되는데, 이때 수신측은 도 6에 따른 수신 장치(200) 외에도 도 13에 따른 콘텐츠 전송 네트워크(Content Delivery Network; CDN) 등일 수도 있다.

이러한 수신 장치(200)는, 도 6에 도시된 바와 같이, 입력부(210), 통신부(220), 디스플레이(230), 메모리(240) 및 제어부(250)를 포함할 수 있다.

입력부(210)는 다양한 사용자의 입력에 대응하여, 입력데이터를 발생시키며, 다양한 입력수단을 포함할 수 있다. 예를 들어, 입력부(210)는 키보드(key board), 키패드(key pad), 돔 스위치(dome switch), 터치 패널(touch panel), 터치 키(touch key), 터치 패드(touch pad), 마우스(mouse), 메뉴 버튼(menu button) 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.

통신부(220)는 송신 장치(100), 콘텐츠 전송 네트워크(Content Delivery Network; CDN) 등과 같은 다른 장치와의 통신을 수행하는 구성으로서, 송신 장치(100) 등에서 생성된 비트스트림(B_S1, B_S2) 등을 수신할 수 있다. 예를 들어, 통신부(220)는 5G(5th generation communication), LTE-A(long term evolution-advanced), LTE(long term evolution), 블루투스, BLE(bluetooth low energe), NFC(near field communication), 와이파이(WiFi) 통신 등의 무선 통신을 수행하거나, 케이블 통신 등의 유선 통신을 수행할 수 있으나, 이에 한정되는 것은 아니다.

디스플레이(230)는 다양한 영상 데이터를 화면으로 표시하는 것으로서, 비발광형 패널이나 발광형 패널로 구성될 수 있다. 이때, 디스플레이(230)는 복원된 저화질 영상 또는 화질 개선 영상을 표시할 수 있다. 예를 들어, 디스플레이(230)는 액정 디스플레이(LCD; liquid crystal display), 발광 다이오드(LED; light emitting diode) 디스플레이, 유기 발광 다이오드(OLED; organic LED) 디스플레이, 마이크로 전자기계 시스템(MEMS; micro electro mechanical systems) 디스플레이, 또는 전자 종이(electronic paper) 디스플레이 등을 포함할 수 있으나, 이에 한정되는 것은 아니다. 또한, 디스플레이(230)는 입력부(220)와 결합되어 터치 스크린(touch screen) 등으로 구현될 수 있다.

메모리(240)는 수신 장치(200)의 동작에 필요한 각종 정보를 저장한다. 저장 정보로는 비트스트림(B_S1, B_S2), 비트스트림(B_S1, B_S2)에서 분해된 영상 및 머신 러닝 모델, 후술할 수신 방법에 관련된 프로그램 정보 등이 포함될 수 있으나, 이에 한정되는 것은 아니다. 특히, 머신 러닝 모델은 복수개가 저장될 수도 있으며, 압축 처리된 형태로 저장될 수 있으나, 이에 한정되는 것은 아니다. 예를 들어, 메모리(240)는 그 유형에 따라 하드디스크 타입(hard disk type), 마그네틱 매체 타입(Sagnetic media type), CD-ROM(compact disc read only memory), 광기록 매체 타입(Optical Media type), 자기-광 매체 타입(Sagneto-optical media type), 멀티미디어 카드 마이크로 타입(Sultimedia card micro type), 플래시 저장부 타입(flash memory type), 롬 타입(read only memory type), 또는 램 타입(random access memory type) 등을 포함할 수 있으나, 이에 한정되는 것은 아니다. 또한, 메모리(240)는 그 용도/위치에 따라 캐시(cache), 버퍼, 주기억장치, 또는 보조기억장치이거나 별도로 마련된 저장 시스템일 수 있으나, 이에 한정되는 것은 아니다.

제어부(250)는 수신 장치(200)의 다양한 제어 동작을 수행할 수 있다. 즉, 제어부(250)는 후술할 수신 방법의 수행을 제어할 수 있으며, 송신 장치(200)의 나머지 구성, 즉 입력부(210), 통신부(220), 디스플레이(230), 메모리(240) 등의 동작을 제어할 수 있다. 예를 들어, 제어부(250)는 하드웨어인 프로세서(processor) 또는 해당 프로세서에서 수행되는 소프트웨어인 프로세스(process) 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.

도 7은 본 발명의 일 실시예에 따른 수신 장치(200)의 제어부(250)의 구성을 나타내며, 도 8은 본 발명의 일 실시예에 따른 수신 방법의 순서도를 나타낸다. 또한, 도 9는 제어부(250)에서의 처리 과정에 대한 일 예를 나타내고, 도 10은 제어부(250)에서의 처리 과정에 대한 다른 일 예를 나타낸다.

본 발명의 일 실시예에 따른 수신 방법을 수행하는 제어부(250)는, 도 7에 도시된 바와 같이, 분해부(251), 제1 디코더부(252), 제2 디코더부(253) 및 처리부(254)를 포함할 수 있다. 예를 들어, 분해부(251), 제1 디코더부(252), 제2 디코더부(253) 및 처리부(254)는 제어부(250)의 하드웨어 구성이거나, 제어부(250)에서 수행되는 소프트웨어인 프로세스일 수 있으나, 이에 한정되는 것은 아니다.

도 8을 참조하면, 본 발명의 일 실시예에 따른 송신 방법은 S201 내지 S206을 포함할 수 있다.

먼저, 분해부(251)는 수신한 비트스트림(B_S1, B_S2)을 분해하며(S201), 비트스트림(B_S1, B_S2)에 제2 인코딩 코드(E₂)가 포함되었는지 판단한다(S202). 즉, S202에서, 제1 및 제2 인코딩 코드(E₁, E₂)가 포함된 비트스트림(B_S1)이 수신되었는지, 또는 제1 인코딩 코드(E₁) 및 최적 모델의 인덱스 정보(F₀)가 포함된 비트스트림(B_S2)이 수신되었는지 판단한다. 다만, S201 및 S202는 하나의 단계에서 동시에 이루어질 수도 있다.

만일, S202에서, 제1 및 제2 인코딩 코드(E₁, E₂)가 포함된 비트스트림(B_S1)이 수신된 경우, 도 9에 도시된 바와 같이, 분해부(251)에서 각각 분해된 제1 및 제2 인코딩 코드(E₁, E₂)를 이용하여 저화질 영상 및 머신 러닝 모델이 복원된다(S203). 즉, S203에서, 제1 디코더부(252)는 제1 인코딩 코드(E₁)를 압축 해제 처리하여 저화질 영상을 복원한다. 예를 들어, 저화질 영상은 4k 또는 2k 해상도의 영상이거나, 시간당 프레임 수가 30p 또는 15p의 영상일 수 있으나, 이에 한정되는 것은 아니다. 또한, S203에서, 제2 디코더부(253)는 제2 인코딩 코드(E₂)를 압축 해제 처리하여 최적 모델을 복원한다. 이때, 최적 모델은 저화질 영상으로부터 화질 개선 영상을 생성하는 머신 러닝 모델이며, 메모리(240)에 저장될 수 있다.

이후, 처리부(254)는 복원된 머신 러닝 모델에 복원된 저화질 영상을 입력시켜 화질 개선 영상을 생성한다(S204).

만일, S202에서, 제1 인코딩 코드(E₁) 및 최적 모델의 인덱스 정보(F₀)가 포함된 비트스트림(B_S2)이 수신된 경우, 도 10에 도시된 바와 같이, 분해부(251)에서 각각 분해된 제1 인코딩 코드(E₁) 및 해당 인덱스 정보(F₀)를 이용하여 저화질 영상이 복원되고 메모리(240)에 기 저장된 머신 러닝 모델이 로딩된다(S205). 즉, S205에서, 제1 디코더부(252)는 제1 인코딩 코드(E₁)를 압축 해제 처리하여 저화질 영상을 복원한다. 또한, S205에서, 제2 디코더부(253)는 메모리(240)에 기 저장된 머신 러닝 모델 중에 최적 모델의 인덱스 정보(F₀)에 해당하는 머신 러닝 모델의 데이터(B0)를 매칭시켜 로딩한다.

이후, 처리부(254)는 로딩된 머신 러닝 모델에 복원된 저화질 영상을 입력시켜 화질 개선 영상을 생성한다(S206).

예를 들어, S203 또는 S205에서 복원되는 저화질 영상은 4k 또는 2k 해상도의 영상이거나, 시간당 프레임 수가 30p 또는 15p의 영상일 수 있으나, 이에 한정되는 것은 아니다. 또한, S204 또는 S206에서 생성된 화질 개선 영상은 저화질 영상 보다 해상도가 증가(8k 이상)되거나, 저화질 영상에서 노이즈 제거되거나, 저화질 영상 보다 프레임율이 증가(120p 또는 60p 이상)되거나, 저화질 영상 보다 다이나믹 레인지가 증가될 수 있으나, 이에 한정되는 것은 아니다.

상술한 송수신 방법은 종래의 동영상 플레이어에 애드온(add-on) 형태로 제공될 수 있다. 즉, 수신 장치(200)에서도 머신 러닝 모델의 데이터베이스(DB)가 메모리(240) 등에 존재하여, 자주 사용되는 모델들은 해당 DB에 미리 저장될 수 있고, 한 번 수신한 모델도 해당 DB에 저장되어 사용될 수 있다.

또한, 수신 장치(200)는 자신의 DB에 포함된 머신 러닝 모델의 리스트(즉, 인덱스 정보의 리스트)를 송신 장치(100)에 알려주면서, 해당 모델 중에서만 머신 러닝을 적용한다고 송신 장치(100)에 시그널링(signaling)할 수 있다. 이때, 송신 장치(100)에서는 수신 장치(200)에서 보유한 모델 중에서만 최적 모델을 찾은 후 해당 최적 모델의 인덱스 정보를 수신 장치(200)에 전송할 수 있다. 이 경우, 머신 러닝 모델의 전송을 위한 대역폭을 크게 줄일 수 있는 이점이 있다.

한편, 도 11을 참조하면, 본 발명의 일 실시예에 따른 송수신 시스템은 비트스트림을 더 효율적으로 전송하기 위한 기술을 제시하는 것으로서, 서버(300), CDN(400) 및 수신 장치(500)를 포함할 수 있다.

서버(300)는 도 1 등에 따라 상술한 송신 장치(100)에 대응될 수 있고, 수신 장치(500)는 도 6 등에 따라 상술한 수신 장치(200)에 대응될 수 있다. 다만, 서버(300)는, 도 5에 도시된 경우와 같이, 저화질 영상에 대한 제1 인코딩 코드(E₁)와 최적 모델의 인덱스 정보(F₀)를 포함한 비트스트림(B_S2)을 생성하되, 수신측으로의 최적 모델 기 전송 여부와 관계없이 해당 비트스트림(B_S2)을 생성한다. 이는 최적 모델 데이터(B₀)의 제2 인코딩 코드(E₂)를 포함한 비트스트림(B_S1)이 전송될 경우, 상당한 대역폭이 필요할 뿐 아니라, 수신 장치(200)에 해당 비트스트림(B_S1)이 수신되기까지 상당한 지연 시간이 소요되기 때문이다.

따라서, 서버(300)는 최적 모델의 인덱스 정보(F₀)를 포함한 비트스트림(B_S2)을 생성하여 CDN(400)으로 전송하며, 수신 장치(500)에 근접 위치한 CDN(400)에서 수진 장치(500)로 최적 모델의 제2 인코딩 코드(E₂)를 전송한다. 이 경우, 수신 장치(500)에 근접한 CDN(400)에서 최적 모델 데이터(B₀)의 제2 인코딩 코드(E₂)를 포함한 비트스트림(B_S1)을 전송하므로, 해당 지연 시간을 줄일 수 있는 이점이 있다.

또한, 종래 기술의 경우, 각 영상에만 적용되는 고유의 머신 러닝 모델이 각각 저장되어 있어야 하나, 본 발명은 각 머신 러닝 모델(M₁, …M_n)이 모든 영상에 공유될 수 있으므로, CDN(400)의 저장 용량을 큰 폭으로 줄일 수 있는 이점이 있다. 또한, 도 11을 참조하면, CDN(400)을 통해 각 수신 장치(500)는 그 성능 또는 대역폭에 적합한 최적 모델을 적응적으로 수신할 수 있는 이점이 있다.

즉, CDN(400)는 각 머신 러닝 모델(M₁, …M_n)의 데이터 또는 그 각각의 압축 코드인 각 제2 인코딩 코드(E₂)를 저장하고 있으며, 서버(300)에서 수신된 비트스트림(B_S2)에서 해당 인덱스 정보(F₀)에 대응하는 제2 인코딩 코드(E₂)를 수신 장치(500)에 전송한다. 물론, CDN(400)는 제1 및 제2 인코딩 코드(E₁, E₂)를 포함한 비트스트림(B_S1)를 전송한다.

다만, 수신 장치(500)에 기 저장된 최신 모델이 전송될 경우, 서버(300)가 직접 해당 인덱스 정보를 포함한 비트스트림(B_S2)을 수신 장치(500)에 전송하거나, 중간의 CDN(400)을 거치되 CDN(400)에서도 해당 인덱스 정보를 포함한 비트스트림(B_S2)을 수신 장치(500)에 전송할 수도 있다.

상술한 바와 같이 구성되는 본 발명은 수신측 디바이스에 기본적으로 탑재되는 디코더부의 변형 없이 동영상 송수신이 가능한 이점이 있다. 즉, 수신 장치(200)에서, 제1 디코더부(252)는 영상에 대한 압축 해제 처리하는 구성으로서, 수신측에 기본적으로 탑재되는 구성이다. 본 발명은 이러한 제1 디코더부(252)의 변형이 필요 없어, 종래의 동영상 수신 디바이스에 큰 어려움 없이 확장 적용 가능한 이점이 있다. 또한, 본 발명은 수신측 디바이스의 성능 또는 대역폭 등의 상황에 따라 적응적으로 영상 스트림을 제공 가능하며, 저화질 영상으로부터 화질 개선 영상을 생성하는 최적 머신 러닝 모델을 송신하므로, 적은 네트워크 대역폭에서도 높은 품질의 동영상 제공이 가능한 이점이 있다. 또한, 본 발명은 수신측에 최적합한 다양한 화질 개선 기법의 적용 가능하므로, 주문형 비디오(video on demand; VOD) 뿐 아니라 실시간 스트리밍에도 적용 가능한 이점이 있다.

본 발명의 상세한 설명에서는 구체적인 실시 예에 관하여 설명하였으나 본 발명의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다. 그러므로 본 발명의 범위는 설명된 실시 예에 국한되지 않으며, 후술되는 청구범위 및 이 청구범위와 균등한 것들에 의해 정해져야 한다.

100: 송신 장치 200: 수신 장치
110, 210: 입력부 120, 220: 통신부
130, 230: 디스플레이 140, 240: 메모리
150, 250: 제어부 151: 스케일러
152: 제1 인코더부 153: 선택부
154: 제2 인코더부 155: 합성부
251: 분해부 252: 제1 디코더부
253: 제2 디코더부 254: 처리부

Claims

고화질의 원본 영상을 다운 스케일링 처리하여 저화질 영상으로 변환하는 스케일러;
변환된 저화질 영상을 압축 처리하여 저화질 영상의 제1 인코딩 코드를 생성하는 제1 인코더부;
변환된 저화질 영상에 대해 해상도 증가, 노이즈 제거, 프레임율 증가 및 다이나믹 레인지 증가 중 어느 하나의 화질 개선을 수행한 화질 개선 영상을 생성하는 다수의 머신 러닝 모델(machine learning model) 중에서 적어도 하나의 최적 모델을 선택하는 선택부;
선택된 최적 모델을 압축 처리하여 최적 모델의 제2 인코딩 코드를 생성하는 제2 인코더부;
제1 및 제2 인코딩 코드를 합성하여 제1 및 제2 인코딩 코드가 포함된 비트스트림을 생성하는 합성부;를 포함하며,
상기 선택부는 서로 다른 종류의 화질 개선을 수행하는 제1 및 제2 머신 러닝 모델을 포함하는 복수의 최적 모델을 선택하고,
상기 제1 머신 러닝 모델은 해상도 증가의 화질 개선을 수행하는 모델이며,
상기 제2머신 러닝 모델은 노이즈 제거, 프레임율 증가 및 다이나믹 레인지 증가 중에 어느 하나의 화질 개선을 수행하는 모델인 송신 장치.
제1항에 있어서,
상기 각 머신 러닝 모델은 머신 러닝 종류, 파라미터 또는 출력하는 화질 개선 종류가 다른 송신 장치.
제1항에 있어서,
상기 각 머신 러닝 모델은 저화질 영상의 입력 데이터과 화질 개선 영상의 출력 데이터를 포함하는 학습 데이터를 이용해 기 학습된 송신 장치.
제1항에 있어서,
상기 선택부는 원본 영상과 각 머신 러닝 모델이 생성하는 화질 개선 영상을 비교하여 최적 모델을 선택하는 송신 장치.
제1항에 있어서,
상기 선택부는 원본 영상에 대한 각 화질 개선 영상의 차이를 고려하되, 각 머신 러닝 모델의 저장 용량 또는 연산 복잡도를 함께 고려하여 최적 모델을 선택하는 송신 장치.
제1항에 있어서,
하기 식을 이용하여 각 머신 러닝 모델이 가지는 J 값에 따라 상기 최적 모델을 선택하는 송신 장치.
J = λ_cR_{c +}λ_bR_b + D
(단, R_b는 모델의 저장 용량, R_C는 모델의 연산 복잡도, D는 원본 영상과 화질 개선 영상의 차이, λ_b 및 λ_c는 가중치)
제1항에 있어서,
상기 최적 모델은 영상 전체에 적용되거나, 복수개가 영상의 서로 다른 블록, 프레임, 장면 또는 인트라 주기에 적용되는 송신 장치.
삭제
삭제
삭제
삭제
삭제
제1항에 있어서,
상기 선택부는 전체 머신 러닝 모델 중의 일부를 후보 모델로 선택한 후, 선택된 후보 모델이 생성하는 화질 개선 영상과 원본 영상을 비교하여 최적 모델을 선택하는 송신 장치.
제13항에 있어서,
상기 선택부는 화질 개선 종류, 학습 데이터 종류, 저장 용량, 또는 연산 복잡도에 따라 후보 모델을 선택하는 송신 장치.
제13항에 있어서,
상기 선택부는 비트스트림이 전송되는 네트워크의 상태, 수신측의 장치 사양, 또는 수신측의 요청 정보에 따라 후보 모델을 선택하는 송신 장치.
삭제
수신한 비트스트림에 포함된 제1 및 제2 인코딩 코드를 각각 분해하는 분해부;
제1 인코딩 코드를 압축 해제 처리하여 저화질 영상을 복원하는 제1 디코더부;
제2 인코딩 코드를 압축 해제 처리하여 저화질 영상으로부터 화질 개선 영상을 생성하는 머신 러닝 모델(machine learning model)을 복원하는 제2 디코더부;
복원된 머신 러닝 모델에 복원된 저화질 영상을 입력시켜 화질 개선 영상을 생성하는 처리부;를 포함하며,
상기 제1 인코딩 코드는 고화질의 원본 영상이 다운 스케일링 처리되어 변화된 저화질 영상을 압축 처리한 인코딩 코드이고,
상기 제2 인코딩 코드는 변환된 저화질 영상에 대해 해상도 증가, 노이즈 제거, 프레임율 증가 및 다이나믹 레인지 증가 중 어느 하나의 화질 개선을 수행한 화질 개선 영상을 생성하는 다수의 머신 러닝 모델(machine learning model) 중에서 선택된 최적 모델을 압축 처리한 인코딩 코드이며,
상기 제2 인코딩 코드는 서로 다른 종류의 화질 개선을 수행하는 제1 및 제2 머신 러닝 모델을 포함하는 복수의 최적 모델에 대한 인코딩 코드를 포함하고,
상기 제1 머신 러닝 모델은 해상도 증가의 화질 개선을 수행하는 모델이며,
상기 제2머신 러닝 모델은 노이즈 제거, 프레임율 증가 및 다이나믹 레인지 증가 중에 어느 하나의 화질 개선을 수행하는 모델인 수신 장치.
제17항에 있어서,
상기 복원된 저화질 영상 또는 화질 개선 영상을 표시하는 디스플레이를 더 포함하는 수신 장치.
전자 장치에 의해 수행되는 송신 방법으로서,
고화질의 원본 영상을 다운 스케일링 처리하여 저화질 영상으로 변환하는 단계;
변환된 저화질 영상을 압축 처리하여 저화질 영상의 제1 인코딩 코드를 생성하는 단계;
변환된 저화질 영상에 대해 해상도 증가, 노이즈 제거, 프레임율 증가 및 다이나믹 레인지 증가 중 어느 하나의 화질 개선을 수행한 화질 개선 영상을 생성하는 다수의 머신 러닝 모델(machine learning model) 중에서 적어도 하나의 최적 모델을 선택하는 단계;
선택된 최적 모델을 압축 처리하여 최적 모델의 제2 인코딩 코드를 생성하는 단계;
제1 및 제2 인코딩 코드를 합성하여 제1 및 제2 인코딩 코드가 포함된 비트스트림을 생성하는 단계;를 포함하며,
상기 선택하는 단계는 서로 다른 종류의 화질 개선을 수행하는 제1 및 제2 머신 러닝 모델을 포함하는 복수의 최적 모델을 선택하는 단계를 포함하고,
상기 제1 머신 러닝 모델은 해상도 증가의 화질 개선을 수행하는 모델이며,
상기 제2머신 러닝 모델은 노이즈 제거, 프레임율 증가 및 다이나믹 레인지 증가 중에 어느 하나의 화질 개선을 수행하는 모델인 송신 방법.
삭제
전자 장치에 의해 수행되는 수신 방법으로서,
수신한 비트스트림에 포함된 제1 및 제2 인코딩 코드를 각각 분해하는 단계;
제1 인코딩 코드를 압축 해제 처리하여 저화질 영상을 복원하는 단계;
제2 인코딩 코드를 압축 해제 처리하여 저화질 영상으로부터 화질 개선 영상을 생성하는 머신 러닝 모델(machine learning model)을 복원하는 단계;
복원된 머신 러닝 모델에 복원된 저화질 영상을 입력시켜 화질 개선 영상을 생성하는 단계;를 포함하며,
상기 제1 인코딩 코드는 고화질의 원본 영상이 다운 스케일링 처리되어 변화된 저화질 영상을 압축 처리한 인코딩 코드이고,
상기 제2 인코딩 코드는 변환된 저화질 영상으로부터 해상도 증가, 노이즈 제거, 프레임율 증가 및 다이나믹 레인지 증가 중 어느 하나의 화질 개선이 수행된 화질 개선 영상을 생성하는 다수의 머신 러닝 모델(machine learning model) 중에서 선택된 최적 모델을 압축 처리한 인코딩 코드이며,
상기 제2 인코딩 코드는 서로 다른 종류의 화질 개선을 수행하는 제1 및 제2 머신 러닝 모델을 포함하는 복수의 최적 모델에 대한 인코딩 코드를 포함하고,
상기 제1 머신 러닝 모델은 해상도 증가의 화질 개선을 수행하는 모델이며,
상기 제2머신 러닝 모델은 노이즈 제거, 프레임율 증가 및 다이나믹 레인지 증가 중에 어느 하나의 화질 개선을 수행하는 모델인 수신 방법.