WO2023211000A1

WO2023211000A1 - 컨볼루션 뉴럴 네트워크를 이용한 영상 처리 방법, 전자 디바이스, 및 저장매체

Info

Publication number: WO2023211000A1
Application number: PCT/KR2023/004681
Authority: WO
Inventors: 박용섭; 백상욱; 이상미; 이유진; 장태영; 김계현; 김범석; 박영오; 최광표
Original assignee: 삼성전자 주식회사
Priority date: 2022-04-28
Filing date: 2023-04-06
Publication date: 2023-11-02

Abstract

컨볼루션 뉴럴 네트워크를 이용한 영상 처리 방법, 전자 디바이스 및 저장 매체에 관한 것이다. 상기 방법은, 입력 영상을 업스케일링하여, 업스케일된 영상을 생성하는 단계, 상기 업스케일된 영상을 컨볼루션 뉴럴 네트워크에 입력하여, 상기 업스케일된 영상과 상기 컨볼루션 뉴럴 네트워크에 포함되는 하나 이상의 커널들과의 컨볼루션 연산을 수행함으로써, 제 1 특징 맵, 및 제 2 특징 맵을 획득하는 단계, 상기 제 1 특징 맵을 제 1 컨볼루션 레이어에 입력하여 게인 맵(Gain Map)을 획득하는 단계, 상기 제 2 특징 맵을 제 2 컨볼루션 레이어에 입력하여 오프셋 맵(Offset Map)을 획득하는 단계, 상기 업스케일된 영상, 상기 게인 맵, 및 상기 오프셋 맵에 기초하여, 출력 영상을 생성하는 단계를 포함하고, 상기 컨볼루션 뉴럴 네트워크는 상기 입력 영상과 상기 출력 영상의 색상 차이를 감소시키도록 학습된다.

Description

컨볼루션 뉴럴 네트워크를 이용한 영상 처리 방법, 전자 디바이스, 및 저장매체

본 개시는, 컨볼루션 뉴럴 네트워크를 이용하여 입력 영상과 출력 영상의 색상의 차이를 감소시키는 영상 처리 방법 및 전자 디바이스에 관한 것이다.

컴퓨터 기술의 발달과 함께 인공지능은 미래 혁신을 주도하는 중요한 트랜드로 자리잡았다. 인공지능은 사람의 사고방식을 모방하는 방식이기 때문에 사실상 전 산업에 무한하게 응용이 가능하다. 인공지능의 대표적인 기술로는 패턴 인식, 기계 학습, 전문가 시스템, 뉴럴 네트워크, 자연어 처리 등이 있다.

뉴럴 네트워크는 인간의 생물학적 신경 세포의 특성을 수학적 표현에 의해 모델링한 것으로, 인간이 가지고 있는 학습이라는 능력을 모방한 알고리즘을 이용한다. 이 알고리즘을 통하여, 뉴럴 네트워크는 입력 데이터와 출력 데이터 사이의 사상(mapping)을 생성할 수 있고, 이러한 사상을 생성하는 능력은 뉴럴 네트워크의 학습 능력이라고 표현될 수 있다. 또한, 뉴럴 네트워크는 학습된 결과에 기초하여, 이용되지 않았던 입력 데이터에 대하여, 올바른 출력 데이터를 생성할 수 있는 일반화 능력을 가진다.

심층 신경망(예를 들어, 층이 깊은 컨볼루션 뉴럴 네트워크(CNN: Convolution Neural Network))를 이용하여, 영상의 스케일링을 수행하는 경우, 색상(Hue)의 변화를 고려하지 않은 출력 영상이 생성된다. 즉, 영상에 대한 개별 색상 채널마다 스케일링을 독립적으로 수행하기 때문에, 색상의 왜곡이 발생하는 문제점이 있다.

일 실시예에 따라, 영상 처리 방법이 제공된다. 상기 방법은, 입력 영상을 업스케일링하여, 업스케일된 영상을 생성할 수 있다. 상기 방법은, 상기 업스케일된 영상을 컨볼루션 뉴럴 네트워크에 입력하여, 상기 업스케일된 영상과 상기 컨볼루션 뉴럴 네트워크에 포함되는 하나 이상의 커널들과의 컨볼루션 연산을 수행함으로써, 제 1 특징 맵, 및 제 2 특징 맵을 획득할 수 있다. 상기 방법은, 상기 제 1 특징 맵을 제 1 컨볼루션 레이어에 입력하여 게인 맵(Gain Map)을 획득할 수 있다. 상기 방법은, 상기 제 2 특징 맵을 제 2 컨볼루션 레이어에 입력하여 오프셋 맵(Offset Map)을 획득할 수 있다. 상기 업스케일된 영상, 상기 게인 맵, 및 상기 오프셋 맵에 기초하여, 출력 영상을 생성하는 단계를 포함할 수 있다. 상기 컨볼루션 뉴럴 네트워크는 상기 컨볼루션 뉴럴 네트워크를 이용하여 입력 영상과 출력 영상의 색상의 차이를 감소시키도록 학습될 수 있다.

일 실시예에 따른, 영상 처리를 위한 전자 디바이스에 있어서, 하나 이상의 인스트럭션들을 저장하는 메모리 및 상기 메모리에 저장된 상기 하나 이상의 인스트럭션들을 실행하는 프로세서를 포함할 수 있다. 상기 적어도 하나의 프로세서는, 입력 영상을 업스케일링하여, 업스케일된 영상을 생성할 수 있다. 상기 업스케일된 영상을 컨볼루션 뉴럴 네트워크에 입력하여, 상기 업스케일된 영상과 상기 컨볼루션 뉴럴 네트워크에 포함되는 하나 이상의 커널들과의 컨볼루션 연산을 수행함으로써, 제 1 특징 맵, 및 제 2 특징 맵을 획득할 수 있다. 상기 적어도 하나의 프로세서는, 상기 제 1 특징 맵을 제 1 컨볼루션 레이어에 입력하여 게인 맵(Gain Map)을 획득할 수 있다. 상기 적어도 하나의 프로세서는, 상기 제 2 특징 맵을 제 2 컨볼루션 레이어에 입력하여 오프셋 맵(Offset Map)을 획득할 수 있다. 상기 적어도 하나의 프로세서는, 상기 업스케일된 영상, 상기 게인 맵, 및 상기 오프셋 맵에 기초하여, 출력 영상을 생성할 수 있다. 상기 컨볼루션 뉴럴 네트워크는 상기 컨볼루션 뉴럴 네트워크를 이용하여 입력 영상과 출력 영상의 색상의 차이를 감소시키도록 학습될 수 있다.

일 실시예에 따라, 상기 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체가 제공될 수 있다. 상기 기록 매체는, 입력 영상을 업스케일링하여, 업스케일된 영상을 생성하는 단계를 컴퓨터에서 실행시키기 위해 컴퓨터로 읽을 수 있도록 제공될 수 있다. 상기 기록 매체는, 상기 업스케일된 영상을 컨볼루션 뉴럴 네트워크에 입력하여, 상기 업스케일된 영상과 상기 컨볼루션 뉴럴 네트워크에 포함되는 하나 이상의 커널들과의 컨볼루션 연산을 수행함으로써, 제 1 특징 맵 및, 제 2 특징 맵을 획득하는 단계를 컴퓨터에서 실행시키기 위해 컴퓨터로 읽을 수 있도록 제공될 수 있다. 상기 기록 매체는, 상기 제 1 특징 맵을 제 1 컨볼루션 레이어에 입력하여 게인 맵(Gain Map)을 획득하는 단계를 컴퓨터에서 실행시키기 위해 컴퓨터로 읽을 수 있도록 제공될 수 있다. 상기 기록 매체는, 상기 제 2 특징 맵을 제 2 컨볼루션 레이어에 입력하여 오프셋 맵(Offset Map)을 획득하는 단계를 컴퓨터에서 실행시키기 위해 컴퓨터로 읽을 수 있도록 제공될 수 있다. 상기 기록 매체는, 상기 업스케일된 영상, 상기 게인 맵, 및 상기 오프셋 맵에 기초하여, 출력 영상을 생성하는 단계를 컴퓨터에서 실행시키기 위해 컴퓨터로 읽을 수 있도록 제공될 수 있다. 상기 컨볼루션 뉴럴 네트워크는 컨볼루션 뉴럴 네트워크를 이용하여 입력 영상과 출력 영상의 색상의 차이를 감소시키도록 학습될 수 있다.

도 1은 일 실시예에 따른, 영상을 처리하는 전자 디바이스가 영상 처리 네트워크를 이용하여 영상을 처리하는 동작을 나타내는 도면이다.

도 2는 일 실시예에 따른, 그레이 스케일 영상에 대하여, AI 스케일러 및 색상 보정 AI 스케일러를 통해 스케일링을 수행한 결과를 나타내는 도면이다.

도 3은 일 실시예에 따른, RGB 색 공간을 가지는 영상에 대하여, AI 스케일러 및 색상 보정 AI 스케일러를 통해 스케일링을 수행한 결과를 나타내는 도면이다.

도 4는 일 실시예에 따른, AI 스케일러를 통해 스케일링을 수행한 결과를 나타내는 도면이다.

도 5는 일 실시예에 따른, 색상 보정 AI 스케일러를 통해 스케일링을 수행한 결과를 나타내는 도면이다.

도 6은 일 실시예에 따른, 컨볼루션 뉴럴 네트워크 또는 컨볼루션 레이어에서 수행되는 컨볼루션 연산을 설명하기 위해 참조되는 도면이다.

도 7은 일 실시예에 따른, RGB 색 공간을 가지는 영상을 입력으로 하는 색상 보정 AI 스케일러의 모델을 나타내는 도면이다.

도 8는 일 실시예에 따른, YCoCg 색 공간을 가지는 영상를 입력으로 하는 색상 보정 AI 스케일러의 모델을 나타내는 도면이다.

도 9은 일 실시예에 따른, 색상 보정 AI 스케일러 모델이 화질 파이프 라인 내에서 적용될 수 있는 위치를 나타내는 도면이다.

도 10은 일 실시예에 따른, 색상을 보정하기 위한 영상 처리 방법을 설명하기 위한 도면이다.

도 11는 일 실시예에 따른, 전자 디바이스의 구성을 나타내는 블록도이다.

본 개시의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 개시가 이하에서 제시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 알려주기 위해 제공되는 것이며, 본 개시는 청구항의 범주에 의해 정의될 뿐이다.

본 개시에서 사용되는 용어는 본 개시에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.

본 개시에서 사용된 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것이며, 본 개시를 한정하려는 의도로 사용되는 것이 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 용어들은 본 명세서에 기재된 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가질 수 있다. 또한, 제1, 제2 등의 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 구성 요소들은 이 용어들에 의해 한정되어서는 안 된다. 이 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로 사용된다.

본 명세서, 특히, 특허 청구 범위에서 사용된 "상기" 및 이와 유사한 지시어는 단수 및 복수 모두를 지시하는 것일 수 있다. 또한, 본 개시에 따른 방법을 설명하는 단계들의 순서를 명백하게 지정하는 기재가 없다면, 기재된 단계들은 적당한 순서로 행해질 수 있다. 기재된 단계들의 기재 순서에 따라 본 개시가 한정되는 것은 아니다.

본 명세서에서 다양한 곳에 등장하는 "일부 실시 예에서" 또는 "일 실시 예에서" 등의 어구는 반드시 모두 동일한 실시 예를 가리키는 것은 아니다.

본 개시의 일부 실시 예는 기능적인 블록 구성들 및 다양한 처리 단계들로 나타내어질 수 있다. 이러한 기능 블록들의 일부 또는 전부는, 특정 기능들을 실행하는 다양한 개수의 하드웨어 및/또는 소프트웨어 구성들로 구현될 수 있다. 예를 들어, 본 개시의 기능 블록들은 하나 이상의 마이크로프로세서들에 의해 구현되거나, 소정의 기능을 위한 회로 구성들에 의해 구현될 수 있다. 또한, 예를 들어, 본 개시의 기능 블록들은 다양한 프로그래밍 또는 스크립팅 언어로 구현될 수 있다. 기능 블록들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다. 또한, 본 개시는 전자적인 환경 설정, 신호 처리, 및/또는 데이터 처리 등을 위하여 종래 기술을 채용할 수 있다. "매커니즘", "요소", "수단" 및 "구성"등과 같은 용어는 넓게 사용될 수 있으며, 기계적이고 물리적인 구성들로서 한정되는 것은 아니다.

또한, 도면에 도시된 구성 요소들 간의 연결 선 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것일 뿐이다. 실제 장치에서는 대체 가능하거나 추가된 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들에 의해 구성 요소들 간의 연결이 나타내어질 수 있다.

명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에서 사용되는 "부"라는 용어는 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, "부"는 어떤 역할들을 수행한다. 그렇지만 "부"는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. "부"는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 "부"는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 "부"들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 "부"들로 결합되거나 추가적인 구성요소들과 "부"들로 더 분리될 수 있다.

아래에서는 첨부한 도면을 참고하여 본 개시의 실시예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그리고 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략한다.

본 명세서에서, "색상(Hue)"은 색상(Hue), 채도(Saturation), 및 명도(Value)의 좌표를 사용하여 색을 표현하는 HSV 색공간에서의 색상을 의미할 수 있다.

본 명세서에서, "색상 보정(Hue Correction)"은, 임의의 영상을 처리하여 출력 영상을 생성하는 과정에서, 임의의 영상과 출력 영상의 색상(Hue) 차이를 감소시키기 위한 동작일 수 있다. 또한, 색상 보정 AI(Artificial Intelligence) 스케일러는, 색상 보정을 위한 구조를 포함하는 영상 처리 네트워크를 의미할 수 있다.

본 명세서에서, "특징 맵"(Feature Map)은, 임의의 영상을 컨볼루션 뉴럴 네트워크(Convolution Neural Networks)에 입력하여, 임의의 영상과 하나 이상의 커널들과의 컨볼루션 연산을 수행하여 획득한 결과를 의미할 수 있다. 예를 들면, 제 1 특징 맵은 업스케일된 영상를 컨볼루션 뉴럴 네트워크에 입력하여, 하나 이상의 커널들과의 컨볼루션 연산을 수행하여 획득된 출력의 일부일 수 있고, 제 2 특징 맵은 업스케일된 영상을 컨볼루션 뉴럴 네트워크에 입력하여, 하나 이상의 커널들과의 컨볼루션 연산을 수행하여 획득된 출력에서 제 1 특징 맵을 제외한 나머지 일부일 수 있다. 제 1 특징 맵을 출력하기 위해 이용된 하나 이상의 커널들과 제 2 특징 맵 출력하기 위해 이용된 하나 이상의 커널들은 상이할 수 있다.

본 명세서에서, "게인 맵"(Gain Map)은 제 1 특징 맵과 제 1컨볼루션 레이어의 하나 이상의 커널들과의 컨볼루션 연산을 수행하여 획득한 결과를 의미할 수 있다. 또한 게인 맵은, 임의의 맵과 요소별 곱셈 연산을 수행할 수 있다.

본 명세서에서, "오프셋 맵"(Offset Map)은 제 2 특징 맵과 제 2 컨볼루션 레이어의 하나 이상의 커널들과의 컨볼루션 연산을 수행하여 획득한 결과를 의미할 수 있다. 또한, 오프셋 맵은, 임의의 맵과 요소별 덧셈 연산을 수행할 수 있다.

본 명세서에서, "중간 맵"은 게인 맵과 임의의 맵과의 요소별 곱셈 연산을 수행하여 획득한 결과를 의미할 수 있다. 또한, 중간 맵은 출력 영상을 생성하기 위해 수행하는 연산의 과정에서 생성되는 맵일 수 있다. 중간 맵은 게인 맵과 업스케일된 영상의 복수 개의 개별 색상 채널과 요소별 곱셈 연산을 수행한 결과를 의미할 수도 있고, 게인 맵과 업스케일된 영상의 복수개의 개별 색상 채널에 요소별 곱셈 연산을 수행하고, 개별 요소에 정규화 상수를 나눈 값을 의미할 수 도 있다.

일 실시예에서, 영상을 처리하는 전자 디바이스(100, 이하, 전자 디바이스)는 영상 처리 네트워크를 이용하여 영상을 처리할 수 있다. 영상 처리 네트워크는 색상 보정 AI 스케일러(Hue Correcting Artificial Intelligence Scaler) 일 수 있다.

일 실시예에서, 영상 처리 네트워크(130)는 입력 영상(110)을 입력 받아, 입력 영상(110)을 처리함으로써, 출력 영상(120)을 생성할 수 있다. 이때, 입력 영상은 RGB 색 공간을 가지는 영상일 수도 있고, YCoCg 색 공간을 가지는 영상일 수도 있다. 전자 디바이스(100)는, 영상 처리 네트워크(130)을 이용하여, 입력 영상(110)을 업스케일링하여, 업스케일된 영상을 생성할 수 있다. 또한, 업스케일된 영상의 개별 픽셀의 밝기(Value)와 채도(Saturation)을 변화시킬 수 있고, AI를 이용하여 픽셀의 밝기 및/또는 채도의 변화의 정도를 결정할 수 있다. 영상 처리 네트워크(130)는 입력 영상(110) 또는 업스케일된 영상을 처리하여, 입력 영상 또는 업스케일된 영상으로부터 색상 차이가 감소되도록 색상 보정된 출력 영상(120)을 획득 또는 생성할 수 있다. 한편 본 명세서에서는, 설명의 편의상 스케일된 영상을 업스케일된 영상을 예로 들어 설명하나, 업스케일된 영상에 한하지 않는다.

일 실시예에서, 영상 처리 네트워크(130)에서 수행되는 영상 처리에 대하여는 이하 도면들을 참조하여 자세히 설명하기로 한다.

일 실시예에 따르면, 다수의 샘플을 사용하거나 복잡한 뉴럴 네트워크를 사용하지 않고도, 입력 영상과의 색상 차이를 감소시킨 출력 영상을 획득 또는 생성할 수 있다.

일 실시예에서, 그레이 스케일(Gray Scale) 영상은, RGB 색 공간을 가지는 영상의 색상 채널인 R(Red) 채널, G(Green) 채널, B(Blue) 채널이 모두 동일한 값을 가지는 영상 일 수 있다.

이하, 입력 영상은 그레이 스케일 영상일 수 있다. 종래 존재하던 AI 업스케일러(Artificial Intelligence Upscaler)에 입력 영상을 입력하여, 획득한 출력 영상을 살펴본다. 그리고, 일 실시예에 따른 색상 보정 AI 스케일러에 그레이 스케일 영상을 입력하여 획득 또는 생성한 출력 영상을 종래 AI 업스케일러로부터 생성된 출력 영상과 비교해본다.

일 실시예에서, 전자 디바이스(100)는 종래 존재하던 AI 업스케일러(Artificial Intelligence Upscaler)는 입력 영상으로 그레이 스케일 영상을 획득할 수 있다. 전자 디바이스(100)는 Nearest neighbor, 또는 Bilinear 업스케일러를 통해, 업스케일링을 수행한 후, 전자 디바이스(100)는, 업스케일된 영상(210)을 컨볼루션 뉴럴 네트워크에 입력하여 AI 업스케일 영상(220)을 출력 영상으로 생성할 수 있다. 한편, 업스케일링을 수행하는 업스케일러는 상기 기재된 업스케일러에 한하지 않는다.

일 실시예에서, 전자 디바이스(100)는, 그레이 스케일 영상을 입력 영상으로 입력한 경우, 업스케일된 영상(210)은 주변의 픽셀을 이용하여 크기를 키우는 방식으로 업스케일된 바, RGB 색 공간의 각각의 색상 채널의 값이 동일한 값을 가질 수 있다. 예를 들어, 업스케일된 영상(210)의 내부의 한 픽셀(212)은 R 채널, G 채널, B 채널 모두 159의 값을 갖는다.

일 실시예에서, 종래 존재하던 AI 업스케일러를 이용하여 생성한 AI 업스케일 영상(220)을 살펴보면, 알고리즘 및 CNN학습을 통하여 개별 상황에서의 픽셀의 색상은 AI 업스케일 영상(220)에 세세하게 반영될 수 있다. 그러나, 그레이 스케일 영상인 업스케일된 영상(210)을 컨볼루션 뉴럴 네트워크에 입력하여 획득한 출력 영상인 AI 업스케일 영상(220)은 개별 색상 채널마다 독립적으로 색상이 처리되기 때문에, 입력 영상 또는 업스케일된 영상(210)의 색상은 AI 업스케일 영상(220)에서 왜곡될 수 있다. 즉, AI 업스케일 영상(220)의 RGB 색 공간의 개별 색상 채널인 R, G, B 채널의 값은 서로 상이할 수 있다. 예를 들어, 업스케일된 영상(210) 내부의 한 픽셀(212)은 R 채널, G 채널, B 채널 모두 159의 값을 가진다. 즉, R, G, B 채널이 모두 동일한 값을 가졌다. 그러나, AI 업스케일 영상(220) 내부의 한 픽셀(222)은 R 채널은 172, G 채널은 173, B 채널은 169의 값을 갖는다. 즉, 입력 영상 또는 업스케일된 영상(210)이 그레이 스케일 영상인 것과 달리 AI 업 스케일 영상(220)은 그레이 스케일이 아닌 영상이 출력된다.

일 실시예에서, 색상 보정 AI 스케일러는 그레이 스케일 영상을 입력 받을 수 있다. 색상 보정 AI 스케일러는 Nearest neighbor, 또는 Bilinear 업스케일러를 포함할 수 있다. 전자 디바이스(100)는, Nearest neighbor, 또는 Bilinear 업스케일러 통해, 업스케일링을 수행하여 업스케일된 영상(210)을 생성할 수 있다. 또한, 업스케일된 영상(210)에 색상 보정을 수행하여, 출력 영상을 생성할 수 있다. 출력 영상을 색상 보정 AI 업스케일 영상(230)이라고 할 수 있다. 색상 보정 AI 업스케일 영상(230)과 업스케일된 영상(210)의 색상 차이는 AI 업스케일 영상(220)과 업스케일된 영상(210)의 색상 차이보다 적을 수 있다.

일 실시예에서, 색상 보정 AI 스케일러를 이용하여 생성한 색상 보정 AI 업스케일 영상(230)을 살펴보면, AI 업스케일 영상(220)과 마찬가지로, 알고리즘 및 CNN학습을 통하여 개별 상황에서의 픽셀 색상이 색상 보정 AI 업스케일 영상(230) 영상에 세세하게 반영될 수 있다. 다만, 그레이 스케일 영상을 입력 영상으로 입력한 경우, 그레이 스케일 영상인 색상 보정 AI 업스케일 영상(230)을 출력 영상으로 생성할 수 있다. 즉, 생성된 색상 보정 AI 업스케일 영상(230)의 RGB 색 공간의 색상 채널의 값이 모두 동일할 수 있다. 예를 들어, 색상 보정 AI 업스케일 영상(230) 내부의 한 픽셀(232)은 R 채널, G 채널, B 채널 모두 124의 값을 갖는다. 한편, 상기 예시는 RGB 색 공간을 가지는 영상을 예로 들어 설명하나, YCoCg영상에도 동일하게 적용될 수 있다.

일 실시예에서, 색상 보정 AI 스케일러를 이용하여, 출력 영상의 색상이 입력 영상의 색상으로부터 왜곡되는 것을 감소 또는 최소화 시키고, 색상의 품질을 유지시킨 출력 영상을 생성할 수 있다.

도 3은 일 실시예에 따른, RGB 색 공간을 가지는 영상에 대하여, 개별 스케일러(Scaler)를 통해 스케일링(Scaling)을 수행한 결과를 나타내는 도면이다.

일 실시예에서, RGB 색 공간을 가지는 영상(이하, RGB 영상)에서, RGB 영상의 색상 채널인 R(Red) 채널, G(Green)채널, 및 B(Blue)채널 중에서 2개의 색상 채널의 값이 동일한 값을 가질 수 있다.

일 실시예에서, 입력 영상이 RGB 영상의 색상 채널 중에서 2개의 색상 채널의 값이 동일한 값을 갖는 영상(이하, 2 색상 채널 동일 RGB 영상)일 수 있다. 예를 들어, R 채널과 G 채널이 동일한 값을 갖고, B 채널은 다른 값을 가질 수 있다. 또는, R 채널과 B 채널이 동일한 값을 갖고, G 채널은 다른 값을 가질 수 있으며, B 채널과 G 채널이 동일한 값을 갖고, R 채널은 다른 값을 가질 수도 있다.

이하, 종래 존재하던 AI 업스케일러(Artificial Intelligence Upscaler)에 2 색상 채널 동일 RGB 영상을 입력 영상으로 입력하여, 획득한 출력 영상을 살펴본다. 그리고, 색상 보정 AI 스케일러에 2 색상 채널 동일 RGB 영상을 입력 영상으로 입력하여 획득 또는 생성한 출력 영상을 종래 AI 업스케일러로부터 생성된 출력 영상과 비교해본다.

일 실시예에서, 종래 존재하던 AI 업스케일러(Artificial Intelligence Upscaler)는 2 색상 채널 동일 RGB 영상을 입력 영상으로 입력 받을 수 있다. Nearest neighbor, 또는 Bilinear 업스케일러를 통해, 업스케일링을 수행한 후, 업스케일된 영상(310)을 컨볼루션 뉴럴 네트워크에 입력하여 AI 업스케일 영상 (320)을 출력 영상으로 생성할 수 있다. 한편, 업스케일링을 수행하는 업스케일러는 상기 기재된 업스케일러에 한하지 않는다.

일 실시예에서, 2 색상 채널 동일 RGB 영상을 입력 영상으로 입력한 경우, 업스케일된 영상(310)은 주변의 픽셀을 이용하여 크기를 키우는 방식으로 업스케일된 바, 입력 영상에서 동일한 값을 가지는 2개의 색상 채널이 업스케일된 영상(310)에서도 동일한 값을 갖는다. 예를 들어, 업스케일된 영상(310) 내부의 한 픽셀(312)은 G 채널, 및 B 채널의 값은 96으로 같은 값을 가지고, R 채널의 값은 255로 다른 채널과 다른 값을 가진다.

일 실시예에서, 종래 존재하던 AI 업스케일러를 이용하여 생성한 AI 업스케일 영상(320)을 살펴보면, 알고리즘 및 CNN학습을 통하여 개별 상황에서의 픽셀의 색상이 AI 업스케일 영상(320)에 세세하게 반영될 수 있다. 일반적인 AI 업스케일러에 2 색상 채널 동일 RGB 영상을 입력 영상으로 입력한 경우, AI 업스케일 영상(320)에서 동일한 값을 가지는 것으로 식별되었던 2 개의 색상 채널이 서로 다른 값을 가질 수 있다. 예를 들어, 업스케일된 영상(310) 내부의 한 픽셀(312)은 G 채널, 및 B 채널의 값은 96으로 같은 값을 가지고, R 채널의 값은 255로 G 채널, 및 B 채널과 다른 값을 가질 수 있다. 그러나, 업스케일된 영상(310) 내부의 한 픽셀(312)과 대응되는 위치에 있는 AI 업스케일 영상(320) 내부의 한 픽셀(322)의 R 채널은 223, G 채널은 61, B채널은 68의 값을 가질 수 있다. 즉, 업스케일된 영상(310)은 2 색상 채널 동일 RGB 영상으로, G채널 및 B채널의 값이 서로 동일할 수 있으나, AI 업스케일 영상(320)에서는 G채널과 B채널이 서로 다른 값을 가질 수 있다. 즉, AI 업스케일 영상(320)이 입력 영상으로부터 왜곡된 색상을 가진 상태로 출력되는 것을 확인할 수 있다.

일 실시예에서, 색상 보정 AI 스케일러는 2 색상 채널 동일 RGB 영상을 입력 영상으로 입력 받을 수 있다. 색상 보정 AI 스케일러는 Nearest neighbor, 또는 Bilinear 업스케일러를 포함할 수 있다. Nearest neighbor, 또는 Bilinear 업스케일러 통해, 업스케일링을 수행하여, 출력 영상을 생성할 수 있다. 생성된 출력 영상은 색상 보정 AI 업스케일 영상(330)이라고 지칭할 수 있으며, 색상 보정 AI 업스케일 영상(330)은 업스케일된 영상(310)과의 색상 차이가 AI 업스케일 영상(320)과 업스케일된 영상(310)과의 색상 차이보다 적은 값을 가질 수 있다. 일 실시예에서, 색상 보정 AI 스케일러를 이용하여 생성한 색상 보정 AI 업스케일 영상(330)을 살펴보면, AI 업스케일 영상(320)과 마찬가지로, 알고리즘 및 CNN학습을 통하여 개별 상황에서의 픽셀 색상이 색상 보정 AI 업스케일러를 통해 세세하게 반영될 수 있다. 그러나, 색상 보정 AI 업스케일러에 2 색상 채널 동일 RGB 영상을 입력 영상으로 입력한 경우, 색상 보정 AI 업스케일 영상(330)에서 동일한 값을 가지는 것으로 식별된 2 개의 색상 채널은, 색상 보정 AI 업스케일 영상(330)에서도 서로 동일한 값을 가질 수 있다. 입력 영상에서 2가지 색상 채널이 동일한 것으로 식별된 값과 출력 영상에서 2가지 색상 채널이 동일한 것으로 식별된 값은 동일 또는 상이할 수 있다.

일 실시예에서, 색상 보정 AI 업스케일 영상(330) 내부의 한 픽셀(332)은 G 채널, 및 B 채널의 값은 63으로 같은 값을 가지고, R 채널의 값은 254로 G 채널, 및 B채널과 다른 값을 가질 수 있다. 업스케일된 영상(310) 내부의 한 픽셀(312)은, G 채널과 B 채널은 96의 값을 가지고, R 채널은 255의 값을 가진다. 업스케일된 영상(310) 내부의 한 픽셀(312)에서 서로 동일한 값인 96의 값을 가졌던 G, B 채널은, 업스케일된 영상(310) 내부의 한 픽셀(312)에 대응하는 위치에 있는 색상 보정 AI 업스케일 영상(330) 내부의 한 픽셀(332)에서도 G, B 채널이 각각 동일한 값인 63의 값을 가지는 것을 확인할 수 있다. 즉, 업스케일된 영상(310)의 색상이 색상 보정 AI 업스케일러의 네트워크를 거친 이후에도 색상의 품질이 유지된 것을 확인할 수 있다.

일 실시예에서, 색상의 품질이 유지되는 것은 색상 채널의 값이 동일하다는 것이 아니라, 색상 채널의 값이 선형으로 유지되어 다음의 식을 만족한다는 의미일 수 있다.

일 실시예에서, 업스케일된 영상(310) 내부의 한 픽셀(312)에서 같은 값을 가지는 G 채널과 B 채널의 식별 값은 96이고, 색상 보정 AI 업스케일 영상(330) 내부의 한 픽셀(332)에서 같은 값을 가지는 G 채널과 B 채널의 식별 값은 63이다. 즉, 색상 채널의 값이 선형으로 유지되어 상기 식을 만족하는 바, 색상의 품질이 유지된다고 할 수 있다. 한편, 상기 예시는 RGB 색 공간을 가지는 영상을 예로 들어 설명하나, YCoCg영상에도 동일하게 적용될 수 있다.

일 실시예에서, 색상 보정 AI 스케일러를 이용하여, 출력 영상의 색상이 입력 영상의 색상으로부터 왜곡되는 것을 감소 또는 최소화시키고, 색상의 품질을 유지시킨 출력 영상을 생성할 수 있다.

도 4는 일 실시예에 따른, AI 스케일러(Scaler)를 통해 스케일링(Scaling)을 수행한 결과를 나타내는 도면이다.

일 실시예에서, 검정색의 글씨 영상은 그레이 스케일 영상과 같이 볼 수 있다. 따라서, RGB 색 공간을 가지는 영상의 색상 채널인 R(Red) 채널, G(Green) 채널, B(Blue) 채널이 모두 동일한 값을 가지는 영상 일 수 있다.

일 실시예에서, 종래 존재하던 AI 업스케일러는, 검정색의 글씨 영상을 입력 영상으로 하고, 입력 영상을 업스케일링하여, AI 업스케일 영상(410)을 생성할 수 있다.

일 실시예에서, AI 업스케일 영상(410)의 일부인 픽셀 그룹(420)에서, 입력 영상의 색상으로부터 픽셀 그룹(420)의 색상이 왜곡 또는 변화된 것을 확인할 수 있다. 픽셀 그룹(420)을 확대한 확대 픽셀 그룹(422)를 살펴보면, 입력 영상의 R,G,B 채널의 값이 높을수록(흰색에 가까울수록) 픽셀 그룹(420)의 색상이 황색으로 왜곡 또는 변화하고, 입력 영상의 R, G, B 값이 낮을수록(검정색에 가까울수록) 픽셀 그룹(420)의 색상이 청색으로 왜곡 또는 변화하는 현상이 발생한다.

한편, RGB 색 공간을 가지는 영상을 예로 들어 설명하나, YCoCg영상에도 동일하게 적용될 수 있다.

도 5는 일 실시예에 따른, 색상 보존 AI 스케일러(Hue Preserving AI Scaler)를 통해 스케일링 (Scaling)을 수행한 결과를 나타내는 도면이다.

일 실시예에서, 색상 보정 AI 업스케일러는, 검정색의 글씨 영상을 입력 영상으로 하고, 입력 영상을 업스케일링하여, 색상 보정 AI 업스케일 영상(510)을 생성할 수 있다.

일 실시예에서, 색상 보정 AI 업스케일 영상(510)의 일부인 픽셀 그룹(520)에서, 입력 영상의 색상으로부터 픽셀 그룹(520)의 색상이 왜곡 또는 변화하지 않는 것을 확인할 수 있다. 픽셀 그룹(520)을 확대한 확대 픽셀 그룹(522)를 살펴보면, 색상 보정 AI 스케일러를 통해 입력 영상의 색상으로부터 출력 영상의 색상의 왜곡 또는 변화를 감소시켜 색상 보정된 영상을 획득 또는 생성할 수 있다. 따라서, AI 업스케일 영상(410)에서 발생했던, 픽셀 그룹(420)의 색상이 황색 또는 청색으로 왜곡 또는 변화하는 현상이, 색상 보정 AI 업스케일 영상(510)에서는 발생하지 않는 것을 확인할 수 있다. 즉, R, G, B 채널의 값이 모두 동일한 값을 갖는 것을 확인할 수 있다.

도 6은 일 실시예에 따른, 컨볼루션 뉴럴 네트워크 또는, 컨볼루션 레이어에서 수행되는 컨볼루션 연산을 설명하기 위해 참조되는 도면이다.

일 실시예에서, 입력 영상을 업스케일링한 업스케일된 영상(610)과 커널(620)간의 컨볼루션 연산을 통해 출력 영상이 생성되는 과정을 설명하기 위해 참조되는 도면이다. 설명의 편의상, 업스케일된 영상(610)이 5 X 5의 크기를 가지며, 채널의 개수는 1인 것으로 가정한다. 또한, 업스케일된 영상(610)에 적용되는 커널(Kernel)은 3 x 3의 크기를 가지며 채널의 개수는 1인 것으로 가정한다.

일 실시예에서, 업스케일된 영상(610)의 좌측 상단으로부터 우측 하단까지 커널을 적용하여, 컨볼루션 연산을 수행할 수 있다. 좌측 상단 3 X 3 영역(611)에 포함되는 픽셀 값들과 커널(620)에 포함되는 파라미터 값들을 곱하여 합산함으로써, 좌측 상단 3 X 3 영역(611)에 매핑되는 하나의 픽셀 값(631)을 생성할 수 있다.

일 실시예에서, 업스케일된 영상(610)와 좌측 상단 3 X 3 영역(611)에서 우측으로 한 픽셀 이동시킨 3 X 3 영역(612)에 포함되는 픽셀 값들과 커널(620)에 포함되는 파라미터 값들을 곱하여 합산함으로써, 3 X 3 영역 (612)에 매핑되는 하나의 픽셀 값(632)을 생성할 수 있다. 동일한 방식으로, 업스케일된 영상(610)내에서 커널(620)을 좌측에서 우측으로, 상단에서 하단으로 한 픽셀씩 슬라이딩하면서, 커널(620)에 포함되는 파라미터 값들과 업스케일된 영상(610)의 픽셀 값들을 곱하여 합산함으로써, 특징 맵(630)의 픽셀 값들을 생성할 수 있다.

일 실시예에서, 컨볼루션 연산의 대상이 되는 데이터는 한 픽셀씩 이동하면서 샘플링될 수도 있으나, 2개 이상의 픽셀 개수만큼 이동하면서 샘플링될 수도 있다. 샘플링 과정에서 샘플링된 픽셀들의 간격의 크기를 스트라이드(stride)라고 하며, 스트라이드의 크기에 따라 출력되는 특징 맵(630)의 크기가 결정될 수 있다. 또한, 도 6에 도시된 바와 같이, 특징 맵(630)의 크기를 업스케일된 영상(610)과 동일하게 하기 위해서는 패딩이 수행될 수 있다. 패딩은 출력되는 특징 맵(630)의 크기가 작아지는 것을 방지하기 위하여, 업스케일된 영상(610)의 가장자리에 특정 값(예를 들어, ‘0’)을 주어, 업스케일된 영상(610)의 사이즈를 증가시키는 것을 의미한다. 패딩을 수행한 후, 컨볼루션 연산을 수행하면, 특징 맵(630)의 크기가 업스케일된 영상(610)의 크기와 동일할 수 있다. 다만, 이에 한정되지 않는다.

일 실시예에서, 커널(620)에 대한 컨볼루션 연산 결과(e.g., 특징 맵(630))만 도시하였지만, 복수 개의 커널들에 대해서, 컨볼루션 연산을 수행하는 경우, 복수 개의 채널 영상들을 포함하는 특징 맵들이 출력될 수 있다. 즉, 커널 그룹에 포함되는 커널들의 개수에 따라, 특징 맵(530)의 채널 수가 결정될 수 있다.

일 실시예에서, 컨볼루션 뉴럴 네트워크는 하나 이상의 컨볼루션(deconvolution) 레이어들을 포함할 수 있다. 컨볼루션 레이어들 각각에서는, 컨볼루션 레이어에 입력된 하나 이상의 영상들(또는 특징 맵들)과 커널(kernel)의 컨볼루션(deconvolution) 연산을 수행될 수 있으며, 컨볼루션 연산 결과, 생성된 하나 이상의 영상들(또는, 특징 맵들)이 출력될 수 있다. 또한, 현재 컨볼루션 레이어에서 출력된 하나 이상의 특징 맵들은 다음 컨볼루션 레이어로 입력될 수 있다.

도 7은 일 실시예에 따른, RGB 색 공간을 가지는 영상에 대하여, 색상 보정 AI 스케일러의 모델을 나타내는 도면이다.

일 실시예에서, 입력 영상(710)은 색상 보정 AI 스케일러에 입력된다. 입력 영상은 RGB 영상일 수 있다. 또한, 입력 영상의 크기는 W X H X 3으로 표현될 수 있다. 여기서 숫자 3은 색상 채널의 수를 의미한다.

일 실시예에서, 입력 영상을 업스케일링하여, 업스케일된 영상(720)을 생성할 수 있다. 입력 영상을 K 배 업스케일링 할 수 있고, 업스케일된 영상(720)의 크기는 KW X KH X 3으로 표현될 수 있다.

일 실시예에서, 업스케일링은, 영상의 픽셀과 픽셀 사이에 새로운 픽셀을 끼워 넣어 해상도는 높이는 기술을 나타낼 수 있다. 본 개시의 업스케일된 영상(720)을 생성하기 위해서, 업스케일링 알고리즘을 통하여 입력 영상(710)을 업스케일링하여 업스케일된 영상(720)을 생성할 수 있다. 업스케일링 알고리즘은 Nearest neighbor(최근접 이웃), Bilinear(이선형), Bicubic(쌍입방), Lanczos(란초스), 또는 spline(스플라인 곡선) 알고리즘 중 적어도 하나를 포함할 수 있으나, 이에 한정되는 것은 아니다.

일 실시예에서, 업스케일된 영상(720)을 컨볼루션 뉴럴 네트워크(730)에 입력하여, 업스케일된 영상(720)과 컨볼루션 뉴럴 네트워크(730)에 포함되는 하나 이상의 커널들과의 컨볼루션 연산을 수행할 수 있다. 도 6을 통해, 컨볼루션 연산이 수행되는 방법을 참고할 수 있다. 컨볼루션 뉴럴 네트워크(730)는 복수 개의 컨볼루션 레이어 및 복수개의 활성화 레이어를 포함할 수 있고, 컨볼루션 레이어 다음에 활성화 레이어가 위치할 수 있다.

일 실시예에서, 활성화 레이어에서는 활성화 레이어에 입력된 값들에 활성화 함수를 적용하는 활성화 함수 연산이 수행될 수 있다. 활성화 함수 연산은 특징 정보에 대해 비선형(non-linear) 특성을 부여하는 것으로, 활성화 함수는, 시그모이드 함수(sigmoid function), Tanh 함수, ReLU(Rectified Linear Unit) 함수, leaky ReLu 함수 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.

일 실시예에서, 컨볼루션 뉴럴 네트워크(730)에 포함된 하나 이상의 컨볼루션 레이어들, 하나 이상의 활성화 레이어들을 통과함으로써, 특징 맵을 획득할 수 있다. 특징 맵은 하나 이상일 수 있다. 업스케일된 영상(720)을 컨볼루션 뉴럴 네트워크(730)에 입력하여, 제 1 특징 맵(734), 및 제 2 특징 맵(732)을 획득할 수 있다. 제 1 특징 맵(734)은 업스케일된 영상(720)을 컨볼루션 뉴럴 네트워크(730)에 입력하여, 하나 이상의 커널들과의 컨볼루션 연산을 수행하여 획득된 출력의 일부일 수 있고, 제 2 특징 맵(732)은 업스케일된 영상(720)을 컨볼루션 뉴럴 네트워크(730)에 입력하여, 하나 이상의 커널들과의 컨볼루션 연산을 수행하여 획득된 출력에서 제 1 특징 맵(734)을 제외한 나머지 일부일 수 있다. 제 1 특징 맵(734)을 출력하기 위해 이용된 하나 이상의 커널들과 제 2 특징 맵(732) 출력하기 위해 이용된 하나 이상의 커널들은 상이할 수 있다.

일 실시예에서, 제 1 특징 맵(734)을 제 1 컨볼루션 레이어(740)에 입력할 수 있고, 제 2 특징 맵(732)을 제 2 컨볼루션 레이어(740)에 입력할 수 있다. 제 1 특징 맵을 제 1 컨볼루션 레이어(750)에 입력하여, 제 1 컨볼루션 레이어(750)에 포함되는 하나 이상의 커널들과의 컨볼루션 연산을 수행하여 게인 맵(Gain Map, 752)을 획득할 수 있다. 또한, 제 2 특징 맵(732)을 제 2 컨볼루션 레이어(740)에 입력하여, 제 2 컨볼루션 레이어(740)에 포함되는 하나 이상의 커널들과의 컨볼루션 연산을 수행하여 오프셋 맵(Gain Map, 742)을 획득할 수 있다.

일 실시예에서, 게인 맵(752)의 크기는 KW X KH X 1 로 표현될 수 있고, 오프셋 맵(742)의 크기는 KW X KH X 1 로 표현될 수 있다.

일 실시예에서, 업스케일된 영상(720), 게인 맵(752), 및 오프셋 맵(742)에 기초하여 출력 영상(780)을 획득할 수 있다.

일 실시예에서, 업스케일된 영상(720)의 복수개의 색상 채널, 게인 맵(752), 정규화 상수에 기초하여, 곱셈 연산을 수행하여 중간 맵(762)을 획득할 수 있다.

일 실시예에서, 업스케일된 영상(720)의 복수 개의 개별 색상 채널 각각과 게인 맵(752)에 대하여 요소별 곱셈 연산을 수행할 수 있다. 요소별 곱셈 연산은, 예를 들어, 업스케일된 영상(720)의 R 채널과 게인 맵(752)의 동일한 위치에 있는 값들끼리 곱셈을 수행할 수 있고, 업스케일된 영상(720)의 G 채널과 게인 맵(752)의 동일한 위치에 있는 값들끼리 곱셈을 수행할 수 있고, 업스케일된 영상(720)의 B 채널과 게인 맵(752)의 동일한 위치에 있는 값들끼리 곱셈을 수행할 수 있다. 또한, 요소별 곱셈 연산은 요소별 곱셈 레이어(760)를 통해 수행될 수 있다.

일 실시예에서, 요소별 곱셈 연산을 수행하면서, 각 요소의 정규화를 위해 임의의 스칼라 수인 d를 사용할 수 있다. 업스케일된 영상(720)의 복수 개의 개별 색상 채널 각각과 게인 맵(752)에 대하여 요소별 곱셈 레이어(760)를 통해서 요소별 곱셈 연산을 수행하고, 요소 별로 정규화 상수 1/d 를 곱하여, 즉 d를 나누어 중간 맵(762)을 획득할 수 있다.

일 실시예에서, 업스케일된 영상(720)의 R 채널과 게인 맵(752)에 대하여 요소별 곱셈 연산을 수행하고, 요소별로 정규화 상수 1/d 를 곱하여, 즉 d를 나눌 수 있다. 업스케일된 영상(720)의 G 채널 및 B 채널에 대해서도 동일한 동작을 수행할 수 있다. 또한, 상기 연산을 수행함으로써, 중간 맵(762)을 획득할 수 있다.

일 실시예에서, 업스케일된 영상(720)의 복수 개의 개별 색상 채널 각각과 중간 맵(762)에 기초하여 출력 영상(780)을 획득할 수 있다. 일 실시예에서, 업스케일된 영상(720)의 복수 개의 개별 색상 채널 각각과 중간 맵(762), 및 오프셋 맵(742)에 기초하여 출력 영상(780)을 획득할 수 있다.

일 실시예에서, 업스케일된 영상(720)의 복수 개의 개별 색상 채널 각각과 중간 맵(762), 및 오프셋 맵(742)에 대하여 덧셈 연산을 수행한 것에 기초하여, 출력 영상(780)을 생성할 수 있다.

일 실시예에서, 업스케일된 영상(720)의 복수개의 색상 채널 각각과 중간 맵(762), 오프셋 맵(742)에 대하여 요소별 덧셈 연산을 수행할 수 있다. 요소별 덧셈 연산은 예를 들어, 업스케일된 영상(720)의 R 채널, 중간 맵(762), 및 오프셋 맵(742)의 동일한 위치에 있는 값들끼리 덧셈 연산을 수행할 수 있다. 또한, 업스케일된 영상(720)의 G, B채널에 대하여도 같은 작업을 수행할 수 있다. 또한, 요소별 덧셈 연산은 요소별 덧셈 레이어(770)를 통해서 수행될 수 있다.

일 실시예에서, 요소별 덧셈 레이어(770)에 업스케일된 영상(720)의 개별 채널, 중간 맵(762), 및 오프셋 맵(742)을 입력하여, 요소별 덧셈 연산을 수행하여 출력 영상(780)을 생성할 수 있다. 출력 영상(780)의 크기는 KH X KW X 3으로 표현될 수 있다.

일 실시예에서, RGB 영상에 대하여, 색상 보정 AI 스케일러의 동작을 수학식으로 나타내면 다음과 같다.

일 실시예에서, 입력 영상(710)을

, 출력 영상(780)을

, 게인 맵(752)을

, 오프셋 맵(742)을

라 하고, 업스케일링을 Resize로 표현하면, RGB 색 공간에서 색상 보정 AI 스케일러의 수행은 다음과 같이 표현될 수 있다. 여기서, d는 정규화를 위한 상수를 의미한다.

한편, 도 7에 도시된 블록도는 일 실시예를 위한 블록도이다. 블록도의 각 구성요소는 실제 구현되는 전자 디바이스(100)의 사양에 따라 통합, 추가, 또는 생략될 수 있다. 즉, 필요에 따라 2 이상의 구성요소가 하나의 구성요소로 합쳐지거나, 혹은 하나의 구성요소가 2 이상의 구성요소로 세분되어 구성될 수 있다. 또한, 각 블록에서 수행하는 기능은 실시예들을 설명하기 위한 것이며, 그 구체적인 동작이나 장치는 본 발명의 권리범위를 제한하지 아니한다.

도 8는 일 실시예에 따른, YCoCg 색 공간을 가지는 영상에 대하여, 색상 보정 AI 스케일러의 모델을 나타내는 도면이다.

일 실시예에서, RGB 색 공간을 가지는 RGB 영상(805)이 입력되면, YCoCg 색 공간을 가지는 YCoCg 영상으로 색 변환을 수행하여, YCoCg 영상에 대하여 색상 보정 AI 스케일링을 수행할 수 있다. RGB 영상은 8 비트의 데이터로 영상을 표현하고, YCoCg 영상은 9-10 비트의 데이터로 영상을 표현한다. 따라서, 영상을 표현하는 데에 있어, YCoCg 영상이 더 많은 비트 수를 사용하기 때문에, 섬세한 화질 처리가 가능할 수 있다. 또한, 색상 보정 AI 스케일러 모델에 YCoCg 영상을 입력하는 경우, RGB 영상을 입력하는 경우보다 입력 영상으로부터의 색상 차이 또는 왜곡을 감소시키는 색상 보정 성능이 향상될 수 있다.

YCoCg 영상으로 변환하는 식은 다음과 같다.

일 실시예에서, 입력 영상(810)은 색상 보정 AI 스케일러에 입력된다. 입력 영상은 YCoCg 영상일 수 있다. 또한, 입력 영상의 크기는 W X H X 3으로 표현될 수 있다. 여기서 숫자 3은 색상 채널의 수를 의미한다.

일 실시예에서, 입력 영상을 업스케일링하여, 업스케일된 영상(820)을 생성할 수 있다. 입력 영상을 K 배 업스케일링 할 수 있고, 업스케일된 영상(820)의 크기는 KW X KH X 3으로 표현될 수 있다.

일 실시예에서, 업스케일된 영상(820)을 생성하기 위해서, 업스케일링 알고리즘을 통하여 입력 영상(810)을 업스케일링하여 업스케일된 영상(820)을 생성할 수 있다. 업스케일링 알고리즘은 Nearest neighbor(최근접 이웃), Bilinear(이선형), Bicubic(쌍입방), Lanczos(란초스), 또는 spline(스플라인 곡선) 알고리즘 중 적어도 하나를 포함할 수 있으나, 이에 한정되는 것은 아니다.

일 실시예에서, 업스케일된 영상(820)을 컨볼루션 뉴럴 네트워크(830)에 입력하여, 업스케일된 영상(820)과 컨볼루션 뉴럴 네트워크(830)에 포함되는 하나 이상의 커널들과의 컨볼루션 연산을 수행할 수 있다. 도 6을 통해, 컨볼루션 연산이 수행되는 방법을 참고할 수 있다. 컨볼루션 뉴럴 네트워크(830)는 복수 개의 컨볼루션 레이어 및 복수개의 활성화 레이어를 포함할 수 있고, 컨볼루션 레이어 다음에 활성화 레이어가 위치할 수 있다.

일 실시예에서, 컨볼루션 뉴럴 네트워크(830)에 포함된 하나 이상의 컨볼루션 레이어들, 하나 이상의 활성화 레이어들을 통과함으로써, 특징 맵을 획득할 수 있다. 특징 맵은 하나 이상일 수 있다. 업스케일된 영상을(820) 컨볼루션 뉴럴 네트워크에 입력하여, 제 1 특징 맵 (834), 및 제 2 특징 맵(832)을 획득할 수 있다. 제 1 특징 맵(834)은 업스케일된 영상(820)을 컨볼루션 뉴럴 네트워크(830)에 입력하여, 하나 이상의 커널들과의 컨볼루션 연산을 수행하여 획득된 출력의 일부일 수 있고, 제 2 특징 맵(832)은 업스케일된 영상(820)을 컨볼루션 뉴럴 네트워크(830)에 입력하여, 하나 이상의 커널들과의 컨볼루션 연산을 수행하여 획득된 출력에서 제 1 특징 맵(834)을 제외한 나머지 일부일 수 있다. 제 1 특징 맵(834)을 출력하기 위해 이용된 하나 이상의 커널들과 제 2 특징 맵(832) 출력하기 위해 이용된 하나 이상의 커널들은 상이할 수 있다.

일 실시예에서, 전자 디바이스(100)는 제 1 특징 맵(834)을 제 1 컨볼루션 레이어(850)에 입력할 수 있다. 또한, 전자 디바이스(100)는 제 2 특징 맵(832)을 제 2 컨볼루션 레이어(840)에 입력할 수 있다. 전자 디바이스(100)는 제 1 특징 맵(834)을 제 1 컨볼루션 레이어(850)에 입력하여, 제 1 컨볼루션 레이어(850)에 포함되는 하나 이상의 커널들과의 컨볼루션 연산을 수행하여 게인 맵(Gain Map, 852)을 획득할 수 있다. 또한, 전자 디바이스(100)는 제 2 특징 맵(832)을 제 2 컨볼루션 레이어(840)에 입력하여, 제 2 컨볼루션 레이어(840)에 포함되는 하나 이상의 커널들과의 컨볼루션 연산을 수행하여 오프셋 맵(Gain Map, 842)을 획득할 수 있다.

일 실시예에서, 게인 맵(852)의 크기는 KW X KH X 1 로 표현될 수 있고, 오프셋 맵(742)의 크기는 KW X KH X 1 로 표현될 수 있다.

일 실시예에서, 전자 디바이스(100)는 업스케일된 영상(820), 게인 맵(852), 및 오프셋 맵(842)에 기초하여 출력 영상(880)을 획득할 수 있다.

일 실시예에서, 전자 디바이스(100)는 업스케일된 영상(820)의 복수개의 색상 채널, 게인 맵(852), 정규화 상수에 기초하여, 곱셈 연산을 수행하여 중간 맵(862)을 획득할 수 있다.

일 실시예에서, 전자 디바이스(100)는 업스케일된 영상(820)의 복수 개의 개별 색상 채널 각각과 게인 맵(852)에 대하여 요소별 곱셈 연산을 수행할 수 있다. 요소별 곱셈 연산은, 업스케일된 영상(820)의 Y 채널과 게인 맵(852)의 동일한 위치에 있는 값들끼리 곱셈을 수행하는 연산일 수 있고, 업스케일된 영상(820)의 Co 채널 또는 Cg 채널과 게인 맵(852)의 동일한 위치에 있는 값들끼리 곱셈을 수행하는 연산일 수 있다. 또한, 요소별 곱셈 연산은 요소별 곱셈 레이어(860)를 통해 수행될 수 있다.

또한, 전자 디바이스(100)는 곱셈 연산을 수행하면서, 각 요소의 정규화를 위해 임의의 스칼라 수인 d를 사용할 수 있다. 전자 디바이스(100)는 업스케일된 영상(820)의 복수 개의 개별 색상 채널 각각과 게인 맵(852)에 대하여 요소별 곱셈 레이어(860)를 통해서 요소별 곱셈 연산을 수행하고, 요소 별로 정규화 상수 1/d 를 곱하여, 즉 d를 나누어 중간 맵(862)을 출력할 수 있다.

일 실시예에서, 업스케일된 영상(820)의 Y 채널과 게인 맵(852)에 대하여 요소별 곱셈 연산을 수행하고, 요소별로 정규화 상수 1/d 를 곱할 수 있다. 업스케일된 영상(820)의 Co 채널 및 Cg 채널에 대해서도 동일한 동작을 수행할 수 있다. 또한, 상기 연산을 수행함으로써, 중간 맵(862)을 획득할 수 있다.

일 실시예에서, 전자 디바이스(100)는 업스케일된 영상(820)의 복수 개의 개별 색상 채널 각각과 중간 맵(862)에 기초하여 출력 영상(880)을 획득할 수 있다.

일 실시예에서, 전자 디바이스(100)는 업스케일된 영상(820)의 복수 개의 개별 색상 채널 각각과 중간 맵(862), 및 오프셋 맵(842)에 기초하여 출력 영상(880)을 획득할 수 있다.

일 실시예에서, 전자 디바이스(100)는 업스케일된 영상(820)의 복수 개의 색상 채널 중, Y 채널과 중간 맵(862), 및 오프셋 맵(842)에 대하여 덧셈 연산을 수행한 것에 기초하여, 출력 영상(880)을 생성할 수 있다. 또한, 전자 디바이스(100)는 업스케일된 영상(820)의 복수 개의 색상 채널(864) 중, Co 또는 Cg 채널과 중간 맵(862)에 대하여 덧셈 연산을 수행한 것에 기초하여 출력 영상(880) 영상을 생성할 수 있다.

일 실시예에서, 전자 디바이스(100)는 업스케일된 영상(820)의 복수개의 색상 채널 각각과 중간 맵(862)에 기초하여, 요소별 덧셈 연산을 수행할 수 있다. 요소별 덧셈 연산은 업스케일된 영상(820)의 Y 채널, 중간 맵(862), 및 오프셋 맵(842)의 동일한 위치에 있는 값들끼리 덧셈 연산을 수행하는 연산일 수 있다. 또한, 전자 디바이스(100)는 업스케일된 영상(820)의 Co 또는 Cg 채널과 중간 맵(862)의 동일한 위치에 있는 값들끼리 덧셈 연산을 수행할 수 있다. 요소별 덧셈 연산은 요소별 덧셈 레이어(870-1,870-2)를 통해서 수행될 수 있다.

일 실시예에서, 전자 디바이스(100)는 업스케일된 영상(820)의 Y 채널, 중간 맵(862), 및 오프셋 맵(842)의 요소별 덧셈 연산을 수행할 수 있다. 전자 디바이스(100)는 업스케일된 영상(820)의 Co 채널, 중간 맵(862)의 요소별 덧셈 연산을 수행할 수 있다. 전자 디바이스(100)는 업스케일된 영상(820)의 Cg 채널, 중간 맵(862)의 요소별 덧셈 연산을 수행할 수 있다. 전자 디바이스(100)는 YCoCg 영상의 개별 채널에 대하여 각각 요소별 덧셈 연산을 수행하여, 출력 영상(880)을 생성할 수 있다. 출력 영상(880)의 크기는 KH X KW X 3으로 표현될 수 있다.

일 실시예에서, 전자 디바이스(100)는 YCoCg 영상의 복수 개의 색상 채널 중에서, Co채널 및 Cg 채널에 대하여는 오프셋 맵과 요소별 덧셈 연산을 수행하지 않는다. 중간 맵(862)은 YCoCg 채널과 게인 맵(852)에 요소별 곱셈 연산을 수행하고, 모든 요소에 정규화 함수 d를 나누어 획득한 맵(864)이고, KW X KH X 3 의 크기를 갖는다. 전자 디바이스(100)는 중간 맵 중에서 Y 채널의 특징을 포함하는 KW X KH X 1 크기의 맵과 오프셋 맵을 요소별 덧셈 레이어(870-1)에 입력할 수 있다. 전자 디바이스(100)는 요소별 덧셈 레이어(870-1)로부터 출력된 맵(866)과 업스케일된 영상(920)을 요소별 덧셈 레이어(870-2)에 입력할 수 있다. 요소별 덧셈 레이어(870-2)로부터 출력된 영상을 출력 영상(880)으로 지칭할 수 있다.

일 실시예에서, YCoCg 영상에 대한 색상 보정 AI 스케일러의 동작을 수학식으로 나타내면 다음과 같다.

일 실시예에서, 입력 영상(810)의 개별 채널을

,

이라고 표현하고, 출력 영상(880)의 개별 채널을

,

게인 맵(852)을

, 오프셋 맵(842)을

라 하고, 업스케일링을 Resize로 표현하면, YCoCg 색 공간에서 색상 보정 AI 스케일러의 수행은 다음과 같이 표현될 수 있다. d는 정규화를 위한 상수를 의미한다. 또한, 색상 채널 중 Co 채널과 Cg 채널에 대하여는, 동일한 연산을 수행하기 때문에 두 채널을 결합하여 표현하였다.

일 실시예에서, YCoCg 영상인 출력 영상(880)을 RGB 영상(885)으로 색 변환 하는 동작을 수행할 수 있다. YCoCg 영상을 RGB 영상으로 변환하는 식은 다음과 같다.

한편, 도 8에 도시된 블록도는 일 실시예를 위한 블록도이다. 블록도의 각 구성요소는 실제 구현되는 전자 디바이스(100)의 사양에 따라 통합, 추가, 또는 생략될 수 있다. 즉, 필요에 따라 2 이상의 구성요소가 하나의 구성요소로 합쳐지거나, 혹은 하나의 구성요소가 2 이상의 구성요소로 세분되어 구성될 수 있다. 또한, 각 블록에서 수행하는 기능은 실시예들을 설명하기 위한 것이며, 그 구체적인 동작이나 장치는 본 발명의 권리범위를 제한하지 아니한다.

일 실시예에서, 전자 디바이스(100)는 임의의 장면에 대한 영상을 획득할 수 있다. 예를 들어, 이미지 센서(920)가 식별한 장면(910)의 영상을 획득할 수 있다. 이미지 센서는 CCD 센서 (Charge-Coupled Device Sensor), 및 CMOS 센서(Complementary metal-oxide-semiconductor Sensor) 중 적어도 하나를 포함할 수 있다.

일 실시예에서, 이미지 센서(920)는 광자 정보를 식별하여 1 채널의 원시 이미지인 베이어 이미지(Bayer Image)를 획득할 수 있다. Neuro-ISP (Neuro-Image Signal Processor, 930)는 베이어 이미지를 RGB 이미지로 변환한다.

일 실시예에서, 전자 디바이스(100)는, RGB 영상에 대하여 부호화, 및 송수신 작업(940)을 수행할 수 있다. 또한, RGB 영상을 수신한 디바이스에서, RGB 영상을 영상 분석 및 영상 보정에 적합하도록 영상 전처리 작업인 Visual Enhancement(950) 작업을 수행한다.

일 실시예에서, 전자 디바이스(100)는 사용자가 설정한 해상도를 가지는 영상을 디스플레이 하기 위해 사용자의 입력(960)을 획득할 수 있다. 사용자가 설정한 해상도는 HD+, FHD+, 또는 그 이상의 해상도를 가질 수 있다. 전자 디바이스(100)는 사용자로부터, HD+의 해상도를 가지는 영상을 디스플레이 하는 명령이 입력된 경우, 입력 영상을 사용자가 설정한 해상도를 갖도록 업스케일링하여, 본 개시의 색상 보정 AI 스케일링 작업(970)을 수행하여 출력 영상을 생성할 수 있다. 한편, 사용자가 설정한 해상도가 입력 받은 RGB 영상의 해상도 보다 높으면 색상 보정 AI 스케일링 작업(970)이 수행될 수 있으며, 사용자가 설정한 해상도가 입력받은 RGB 영상의 해상도 보다 같거나 낮으면 색상 보정 AI 스케일링 작업(970)이 수행되지 않을 수 있다.

일 실시예에서, 전자 디바이스(100)는 색상 보정 AI 스케일러에 의해 생성된 출력 영상을 디스플레이부(980)에 디스플레이하여, 사용자에게 광자 정보의 영상(990)으로 제공할 수 있다.

한편, 도 9의 개시는 이미지 센서를 통해 영상을 획득, 처리, 또는 디스플레이 하는 대표적인 방법을 도시한 도면으로, 이미지 센서가 아닌 다른 방식으로 영상을 획득할 수 있다. 또한, 도 9에 개시된 모든 동작이 수행되어야 하는 것은 아니고, 동작이 개시된 순서대로 수행되어야 하는 것도 아니며, 일부 동작이 생략 될 수 있다. 한편, 상기 예시는 RGB 색 공간을 가지는 영상을 예로 들어 설명하나, YCoCg영상에도 동일하게 적용될 수 있다.

도 10은 일 실시예에 따른, 색상 보정을 위한 영상 처리 방법을 설명하기 위한 도면이다.

단계 S1010에서, 전자 디바이스(100)는, 입력 영상을 업스케일링하여, 업스케일된 영상을 생성한다.

일 실시예에서, 전자 디바이스(100)는 입력 영상을 색상 보정 AI 스케일러에 입력하여, 업스케일된 영상을 생성할 수 있다. 입력 영상은 RGB 영상일 수도 있고, YCoCg 영상일 수도 있다. 업스케일링은 Nearest neighbor(최근접 이웃), Bilinear(이선형), Bicubic(쌍입방), Lanczos(란초스), 또는 spline(스플라인 곡선) 중 적어도 하나의 알고리즘 방식에 의해서 수행될 수 있다.

단계 S1020에서, 전자 디바이스(100)는, 업스케일된 영상을 컨볼루션 뉴럴 네트워크에 입력하여, 업스케일된 영상과 컨볼루션 뉴럴 네트워크에 포함되는 하나 이상의 커널들과의 컨볼루션 연산을 수행함으로써, 제 1 특징 맵 및 제 2 특징 맵을 획득할 수 있다.

일 실시예에서, 전자 디바이스(100)는, 업스케일된 영상을 컨볼루션 뉴럴 네트워크에 입력할 수 있다. 컨볼루션 뉴럴 네트워크는 적어도 하나의 컨볼루션 레이어 및 적어도 하나의 활성화 레이어를 포함할 수 있다.

일 실시예에서, 컨볼루션 뉴럴 네트워크는 업스케일된 영상을 입력받아, 하나 이상의 커널들과 컨볼루션 연산을 수행하여, 특징 맵을 획득할 수 있으며, 특징 맵은 하나 이상일 수 있다.

일 실시예에서, 업스케일된 영상을 컨볼루션 뉴럴 네트워크에 입력하여, 제 1 특징 맵, 및 제 2 특징 맵을 획득할 수 있다. 제 1 특징 맵은 업스케일된 영상을 컨볼루션 뉴럴 네트워크에 입력하여, 하나 이상의 커널들과의 컨볼루션 연산을 수행하여 획득된 출력의 일부일 수 있고, 제 2 특징 맵은 업스케일된 영상을 컨볼루션 뉴럴 네트워크에 입력하여, 하나 이상의 커널들과의 컨볼루션 연산을 수행하여 획득된 출력에서 제 1 특징 맵을 제외한 나머지 일부일 수 있다. 제 1 특징 맵을 출력하기 위해 이용된 하나 이상의 커널들과 제 2 특징 맵 출력하기 위해 이용된 하나 이상의 커널들은 상이할 수 있다.

일 실시예에서, 컨볼루션 뉴럴 네트워크는 입력 영상들과 입력 영상에 대응하는 색상 보정 AI 스케일러에 의한 출력 영상을 포함하는 훈련 데이터 셋을 이용하여 훈련 될 수 있다. 또한, 컨볼루션 뉴럴 네트워크는 입력 영상과 출력 영상의 색상의 차이를 감소시키도록 학습 또는 훈련될 수 있다.

일 실시예에서, 컨볼루션 뉴럴 네트워크에 포함된 적어도 하나의 컨볼루션 레이어들 각각은 복수의 가중치들(weight values)을 갖고 있으며, 이전 레이어의 연산 결과와 가중치들 간의 연산을 통해 컨볼루션 연산을 수행할 수 있다. 적어도 하나의 컨볼루션 레이어들이 갖고 있는 복수의 가중치들은 학습 결과에 의해 최적화될 수 있다. 예를 들어, 훈련 과정 동안 획득한 트레이닝 로스(Training loss) 값이 감소 또는 최소화되도록 가중치들이 갱신될 수 있다.

일 실시예에서, 훈련에 이용되는 트레이닝 로스는 L1 loss, 또는 SSIM(Structural Similarity Index Measure) loss를 포함할 수 있다. L1 loss는 입력 영상과 출력 영상의 픽셀 값 차이의 절대 값의 합을 최소화 하기 위해 이용되는 트레이닝 로스일 수 있고, SSIM loss는 입력 영상과 출력 영상의 luminance, contrast, 및 structure의 3가지 요소 값에 대한 통계치의 차이를 최소화 하기 위해 이용되는 트레이닝 로스일 수 있다. 한편, 색상 보정 AI 스케일러는 색상 보정을 위한 구조를 포함하고 있어, 색상 보정을 위한 트레이닝 로스를 개별적으로 정의할 필요가 없다.

단계 S1030에서, 전자 디바이스(100)는, 제 1 특징 맵을 제 1 컨볼루션 레이어에 입력하여 게인 맵을 획득한다.

일 실시예에서, 전자 디바이스(100)는, 획득한 제 1 특징 맵을 제 1 컨볼루션 레이어에 입력할 수 있다. 제 1 특징 맵과 제 1 컨볼루션 레이어에 포함되는 하나 이상의 커널들과의 컨볼루션 연산을 수행하여 게인 맵을 획득할 수 있다.

일 실시예에서, 제 1 컨볼루션 레이어는 입력 영상들과 입력 영상에 대응하는 색상 보정 AI 스케일러에 의한 출력 영상을 포함하는 훈련 데이터 셋을 이용하여 훈련 될 수 있다. 또한, 컨볼루션 뉴럴 네트워크는 입력 영상과 출력 영상의 색상의 차이를 감소시키도록 학습 또는 훈련될 수 있다. 훈련에 이용되는 트레이닝 로스(Training loss)는 L1 loss, 또는 SSIM loss 을 포함할 수 있다.

단계 S1040에서, 전자 디바이스(100)는, 제 2 특징 맵을 제 2 컨볼루션 레이어에 입력하여 오프셋 맵을 획득한다.

일 실시예에서, 전자 디바이스(100)는, 획득한 제 2 특징 맵을 제 2 컨볼루션 레이어에 입력할 수 있다. 제 2 특징 맵과 제 2 컨볼루션 레이어에 포함된 하나 이상의 커널들과 컨볼루션 연산을 수행하여 오프셋 맵을 획득할 수 있다.

일 실시예에서, 제 2 컨볼루션 레이어는 입력 영상들과 입력 영상에 대응하는 색상 보정 AI 스케일러에 의한 출력 영상을 포함하는 훈련 데이터 셋을 이용하여 훈련 될 수 있다. 또한, 컨볼루션 뉴럴 네트워크는 입력 영상과 출력 영상의 색상의 차이를 감소시키도록 학습 또는 훈련될 수 있다. 훈련에 이용되는 트레이닝 로스(Training loss)는 L1 loss, 또는 SSIM loss 을 포함할 수 있다.

단계 S1050에서, 전자 디바이스(100)는, 업스케일된 영상, 게인 맵, 오프셋 맵에 기초하여, 출력 영상을 생성한다.

일 실시예에서, 전자 디바이스(100)는, 업스케일된 영상, 게인 맵, 오프셋 맵을 이용하여 색상의 왜곡 또는 변화를 감소시킨 출력 영상을 생성할 수 있다.

일 실시예에서, 업스케일된 영상이 RGB 영상인 경우, 업스케일된 영상의 복수개의 개별 색상 채널, 게인 맵을 곱하고, 정규화 상수를 나누어, 요소별 곱셈 연산을 수행함으로써, 중간 맵을 획득할 수 있다. 업스케일된 영상의 복수개의 개별 색상 채널, 중간 맵, 오프셋 맵을 더하여, 요소별 덧셈 연산을 수행함으로써, 출력 영상을 생성할 수 있다. 요소별 곱셈 연산 및 요소별 덧셈 연산은 요소별 곱셈 레이어, 요소별 덧셈 레이어를 통해서 수행될 수 있다.

일 실시예에서, 업스케일된 영상이 YCoCg 영상인 경우, 전자 디바이스(100)는 업스케일된 영상의 복수개의 개별 색상 채널, 게인 맵을 곱하고, 정규화 상수를 나누어, 요소별 곱셈 연산을 수행함으로써, 중간 맵을 획득할 수 있다. 그리고, 전자 디바이스(100)는 업스케일된 영상의 Y 채널, 중간 맵, 오프셋 맵을 더하여, 요소별 덧셈 연산을 수행할 수 있다. 전자 디바이스(100)는 업스케일된 영상의 Co 채널과 중간 맵을 더하여, 요소별 덧셈 연산을 수행할 수 있다. 또한, 전자 디바이스(100)는 업스케일된 영상의 Cg 채널과 중간 맵을 더하여, 요소별 덧셈 연산을 수행할 수 있다. 전자 디바이스(100)는 업스케일된 영상의 개별 채널에 요소별 덧셈 연산을 각각 수행함으로써, 출력 영상을 생성할 수 있다. 전자 디바이스(100)는 요소별 곱셈 연산 및 요소별 덧셈 연산을 요소별 곱셈 레이어, 요소별 덧셈 레이어를 이용하여 수행할 수 있다.

도 11는 일 실시예에 따른, 전자 디바이스(100)의 구성을 나타내는 블록도이다.

일 실시예에서, 전자 디바이스(100)는, 메모리(1110) 및 프로세서(1120)을 포함할 수 있다.

일 실시예에서, 프로세서(1120)는 전자 디바이스(100)를 전반적으로 제어할 수 있다. 일 실시예에 따른 프로세서(1120)는 메모리(1110)에 저장되는 하나 이상의 프로그램들을 실행할 수 있다.

일 실시예에서, 메모리(1110)는 전자 디바이스(100)를 구동하고, 제어하기 위한 다양한 데이터, 프로그램 또는 어플리케이션을 저장할 수 있다. 메모리(1110)에 저장되는 프로그램은 하나 이상의 인스트럭션을 포함할 수 있다. 메모리(1110)에 저장된 프로그램(하나 이상의 인스트럭션들) 또는 어플리케이션은 프로세서(1120)에 의해 실행될 수 있다.

일 실시예에서, 프로세서(1120)는 CPU(Cetral Processing Unit), GPU (Graphic Processing Unit) 및 VPU(Video Processing Unit) 중 적어도 하나를 포함할 수 있다. 또는, 실시예에 따라, CPU, GPU 및 VPU 중 적어도 하나를 통합한 SoC(System On Chip) 형태로 구현될 수 있다. 또는, 프로세서(1120)는 NPU(Neural Processing Unit)를 더 포함할 수 있다.

일 실시예에서, 프로세서(1120)는 색상 보정 AI 스케일러를 이용하여, 입력 영상에 대하여 업스케일링을 수행하면서 색상의 왜곡 또는 변화를 감소시키도록 색상 보정한 출력 영상을 생성할 수 있다. 예를 들어, 프로세서(1120)는, 도 6 내지 도 8에서 도시하고 설명한 단계들 중 적어도 하나를 수행할 수 있다.

일 실시예에서, 프로세서(1120)는 입력 영상을 색상 보정 AI 스케일러에 입력하여, 업스케일된 영상을 생성할 수 있다. 예를 들어, 프로세서(1120)는 Nearest neighbor(최근접 이웃), Bilinear(이선형), Bicubic(쌍입방), Lanczos(란초스), 또는 spline(스플라인 곡선) 알고리즘 중 적어도 하나를 이용하여, 업스케일링을 수행할 수 있다.

일 실시예에서, 프로세서(1120)는 업스케일된 영상을 컨볼루션 뉴럴 네트워크에 입력하여, 업스케일된 영상과 컨볼루션 뉴럴 네트워크에 포함되는 하나 이상의 커널들과의 컨볼루션 연산을 수행함으로써 제 1 특징 맵 및 제 2 특징맵을 획득할 수 있다. 컨볼루션 뉴럴 네트워크는 적어도 하나의 컨볼루션 레이어 및 적어도 하나의 활성화 레이어를 포함할 수 있다.

일 실시예에서, 프로세서(1120)는 업스케일된 영상을 컨볼루션 뉴럴 네트워크에 입력하여, 제 1 특징 맵, 및 제 2 특징 맵을 획득할 수 있다. 제 1 특징 맵은 업스케일된 영상을 컨볼루션 뉴럴 네트워크에 입력하여, 하나 이상의 커널들과의 컨볼루션 연산을 수행하여 획득된 출력의 일부일 수 있고, 제 2 특징 맵은 업스케일된 영상을 컨볼루션 뉴럴 네트워크에 입력하여, 하나 이상의 커널들과의 컨볼루션 연산을 수행하여 획득된 출력에서 제 1 특징 맵을 제외한 나머지 일부일 수 있다. 제 1 특징 맵을 출력하기 위해 이용된 하나 이상의 커널들과 제 2 특징 맵을 출력하기 위해 이용된 하나 이상의 커널들은 상이할 수 있다.

일 실시예에서, 프로세서(1120)는 컨볼루션 뉴럴 네트워크, 제 1 컨볼루션 레이어, 제 2 컨볼루션 레이어 중에서 적어도 하나를 입력 영상들과 입력 영상에 대응하는 색상 보정 AI 스케일러에 의한 출력 영상을 포함하는 훈련 데이터셋을 이용하여 훈련시킬 수 있다. 컨볼루션 뉴럴 네트워크, 제 1 컨볼루션 레이어, 제 2 컨볼루션 레이어 중에서 적어도 하나는 입력 영상과 상기 출력 영상의 색상의 차이를 감소시키도록 학습 또는 훈련될 수 있다. 상기 훈련에 이용되는 트레이닝 로스는 L1 loss, 또는 SSIM loss 을 포함할 수 있다.

일 실시예에서, 프로세서(1120)는, 획득한 제 1 특징 맵을 제 1 컨볼루션 레이어에 입력할 수 있고, 획득한 제 2 특징 맵을 제 2 컨볼루션 레이어에 입력할 수도 있다. 프로세서(1120)는 제 1 특징 맵을 제 1 컨볼루션 레이어에 입력하여, 제 1 특징 맵과 제 1 컨볼루션 레이어에 포함된 하나 이상의 커널들과 컨볼루션 연산을 수행하여 게인 맵을 획득할 수 있다. 프로세서(1120)는 제 2 특징 맵을 제 2 컨볼루션 레이어에 입력하여, 제 2 특징 맵과 제 2 컨볼루션 레이어에 포함된 하나 이상의 커널들과 컨볼루션 연산을 수행하여, 오프셋 맵을 획득할 수 있다.

일 실시예에서, 프로세서(1120)는 업스케일된 영상, 게인 맵, 및 오프셋 맵을 이용하여, 색상의 왜곡이 감소되도록 색상 보정된 출력 영상을 획득할 수 있다. 업스케일된 영상의 복수 개의 개별 색상 채널과 게인 맵을 곱하고 정규화 상수를 나누어, 요소별 곱셈 연산을 수행하여 중간 맵을 획득할 수 있다. 프로세서(1120)는, 업스케일된 영상이 RGB 영상인 것에 응답하여, 업스케일된 영상의 복수 개의 개별 색상 채널과 중간 맵, 오프셋 맵에 대하여 요소별 덧셈 연산을 수행함으로써, 출력 영상을 획득할 수 있다. 프로세서(1120)는, 업스케일된 영상이 YCocCg 영상인 것에 응답하여, 업스케일된 영상의 Y 채널과 중간 맵, 오프셋 맵에 대하여 요소별 덧셈 연산을 수행하고, 업스케일된 영상의 Co, Cg 채널과 중간 맵에 대하여 요소별 덧셈 연산을 수행함으로써, 출력 영상을 획득할 수 있다.

일 실시예에 따라, 영상 처리 방법이 제공된다. 상기 방법은, 입력 영상(710,810)을 업스케일링하여, 업스케일된 영상(720,820)을 생성할 수 있다. 상기 방법은, 상기 업스케일된 영상(720,820)을 컨볼루션 뉴럴 네트워크(730,830)에 입력하여, 상기 업스케일된 영상(720,820)과 상기 컨볼루션 뉴럴 네트워크(730,830)에 포함되는 하나 이상의 커널들과의 컨볼루션 연산을 수행함으로써, 제 1 특징 맵(734,834), 및 제 2 특징 맵(732,832)을 획득할 수 있다. 상기 방법은, 상기 제 1 특징 맵(734,834)을 제 1 컨볼루션 레이어(750,850)에 입력하여 게인 맵(Gain Map)(752,852)을 획득할 수 있다. 상기 방법은, 상기 제 2 특징 맵(732,832)을 제 2 컨볼루션 레이어(740,840)에 입력하여 오프셋 맵(Offset Map)(742,842)을 획득할 수 있다. 상기 업스케일된 영상(720,820), 상기 게인 맵(752,852), 및 상기 오프셋 맵(742,842)에 기초하여, 출력 영상(780,880)을 생성하는 단계를 포함할 수 있다. 상기 컨볼루션 뉴럴 네트워크(730,830)는 상기 입력 영상과 출력 영상의 색상(HUE) 차이를 감소시키도록 학습될 수 있다.

일 실시예에 따라, 상기 방법은, 상기 업스케일된 영상(720,820)의 복수 개의 색상 채널, 상기 게인 맵(752,852), 및 정규화 상수(normalization constant)에 기초하여, 요소별 곱셈 연산을 수행하여 중간 맵(762,862)을 획득할 수 있다. 상기 방법은, 상기 업스케일된 영상(720,820)의 복수 개의 색상 채널과 상기 중간 맵(762,862)에 대하여 요소별 덧셈 연산을 수행한 것에 기초하여, 상기 출력 영상(780,880)을 생성할 수 있다.

일 실시예에 따라, 상기 컨볼루션 뉴럴 네트워크(730,830), 상기 제 1 컨볼루션 레이어(750,850), 또는 상기 제 2 컨볼루션 레이어(740,840) 중에서 적어도 하나는, 입력 영상들과 상기 입력 영상들에 대응되는 출력 영상들을 포함하는 훈련 데이터 셋을 이용하여 훈련될 수 있다. 상기 출력 영상들은, 상기 업스케일된 영상들을 색상 보정하여 상기 입력 영상들로부터의 색상 왜곡을 감소시킨 영상일 수 있다.

일 실시예에 따라, 상기 훈련은, 트레이닝 로스(Training Loss)를 이용하여 수행되고, 상기 트레이닝 로스(Training Loss) 는 L1 loss, 및 SSIM loss 중 적어도 하나를 포함할 수 있다.

일 실시예에 따라, 상기 입력 영상(710,810) 및 상기 출력 영상(780,880)은 그레이 스케일(Gray Scale) 영상일 수 있다.

일 실시예에 따라, 상기 입력 영상(710,810) 및 상기 출력 영상(780,880)은, RGB 색 공간 또는 YCoCg 색 공간을 가지는 영상일 수 있다.

일 실시예에 따라, 상기 입력 영상(710,810)의 복수 개의 색상 채널 중에서 2 이상의 색상 채널이 동일한 값을 가질 수 있다. 동일한 값을 가지는, 상기 2 이상의 색상 채널에 대응하는, 상기 출력 영상(780,880)의 2 이상의 색상 채널은 동일한 값을 가질 수 있다.

일 실시에에 따라, 상기 방법은, RGB 색 공간을 가지는 영상에 색 공간 변환을 수행하여, YCoCg 색 공간을 가지는 영상을 획득할 수 있다. 상기 방법은, 생성한 상기 출력 영상에 색 공간 변환을 수행하여, RGB 색 공간을 가지는 영상을 획득할 수 있다. 상기 입력 영상(810)은, 획득한 상기 YCoCg 색 공간을 가지는 영상이고, 상기 출력 영상(880)은, YCoCg 색 공간을 가지는 영상인, 방법.

일 실시예에 따라, 상기 덧셈 연산을 수행한 것에 기초하여, 상기 출력 영상(780,880)을 생성하는 단계는, 상기 입력 영상(710) 및 상기 출력 영상(780)이 RGB 색 공간을 가지는 영상인 것에 응답하여, 상기 업스케일된 영상(720)의 복수 개의 색상 채널, 상기 중간 맵(762), 및 상기 오프셋 맵(742)에 대하여 요소별 덧셈 연산을 수행하여, 상기 출력 영상(780)을 생성할 수 있다. 상기 입력 영상 및 상기 출력 영상이 YCoCg 색 공간을 가지는 영상인 것에 응답하여, 상기 업스케일된 영상(820)의 Y 색상 채널, 상기 중간 맵(862), 및 상기 오프셋 맵(842)에 대하여 요소별 덧셈 연산을 수행하여, 상기 출력 영상(880)을 생성할 수 있다.

일 실시예에 따라, 상기 방법은, 사용자가 설정한 해상도를 가지는 영상을 디스플레이 하기 위한 상기 사용자의 입력을 획득할 수 있다. 상기 업스케일된 영상(720,820)을 생성하는 단계는, 사용자가 설정한 해상도를 가지도록 상기 입력 영상(710,810)을 업스케일링 할 수 있다. 상기 사용자가 설정한 해상도는 HD+ 이상의 해상도일 수 있다.

일 실시예에 따른, 영상 처리를 위한 전자 디바이스(100)에 있어서, 하나 이상의 인스트럭션들을 저장하는 메모리(1110) 및 상기 메모리에 저장된 상기 하나 이상의 인스트럭션들을 실행하는 프로세서(1120)를 포함할 수 있다. 상기 적어도 하나의 프로세서(1120)는, 입력 영상(710,810)을 업스케일링하여, 업스케일된 영상(720,820)을 생성할 수 있다. 상기 업스케일된 영상(720,820)을 컨볼루션 뉴럴 네트워크(730,830)에 입력하여, 상기 업스케일된 영상(720,820)과 상기 컨볼루션 뉴럴 네트워크(730,830)에 포함되는 하나 이상의 커널들과의 컨볼루션 연산을 수행함으로써, 제 1 특징 맵(734,834), 및 제 2 특징 맵(732,832)을 획득할 수 있다. 상기 적어도 하나의 프로세서(1120)는, 상기 제 1 특징 맵(734,834)을 제 1 컨볼루션 레이어(750,850)에 입력하여 게인 맵(Gain Map)(752,852)을 획득할 수 있다. 상기 적어도 하나의 프로세서(1120)는, 상기 제 2 특징 맵(732,832)을 제 2 컨볼루션 레이어(740,840)에 입력하여 오프셋 맵(Offset Map)(742,842)을 획득할 수 있다. 상기 적어도 하나의 프로세서(1120)는, 상기 업스케일된 영상(720,820), 상기 게인 맵(752,852), 및 상기 오프셋 맵(742,842)에 기초하여, 출력 영상(780,880)을 생성할 수 있다. 상기 컨볼루션 뉴럴 네트워크(730,830)는 상기 입력 영상과 상기 출력 영상의 색상(HUE) 차이를 감소시키도록 학습될 수 있다.

일 실시예에 따라, 적어도 하나의 프로세서(1120)는, 상기 업스케일된 영상(720,820)의 복수 개의 색상 채널, 상기 게인 맵(752,852), 및 정규화 상수(normalization constant)에 기초하여, 요소별 곱셈 연산을 수행하여 중간 맵(762,862)을 획득할 수 있다. 적어도 하나의 프로세서(1120)는, 상기 업스케일된 영상(720,820)의 복수 개의 색상 채널과 상기 중간 맵(762,862)에 대하여 요소별 덧셈 연산을 수행한 것에 기초하여, 상기 출력 영상(780,880)을 생성할 수 있다.

일 실시예에 따라, 상기 입력 영상(710,810), 및 상기 출력 영상(780,880)은, RGB 색 공간 또는 YCoCg 색 공간을 가지는 영상일 수 있다.

일 실시예에 따라, 상기 입력 영상(710,810)의 복수 개의 색상 채널 중에서 2 이상의 색상 채널이 동일한 값을 가지고, 동일한 값을 가지는, 상기 2 이상의 색상 채널에 대응하는, 상기 출력 영상(780,880)의 2 이상의 색상 채널은 동일한 값을 가질 수 있다.

일 실시예에 따라, 적어도 하나의 프로세서(1120)는, RGB 색 공간을 가지는 영상에 색 공간 변환을 수행하여, YCoCg 색 공간을 가지는 영상을 획득할 수 있다. 적어도 하나의 프로세서는, 생성한 상기 출력 영상에 색 공간 변환을 수행하여, RGB 색 공간을 가지는 영상을 획득할 수 있다. 입력 영상(810)은, 획득한 상기 YCoCg 색공간을 가지는 영상일 수 있다. 출력 영상(880)은, YCoCg 색공간을 가지는 영상일 수 있다.

일 실시예에 따라, 적어도 하나의 프로세서(1120)는 상기 입력 영상(710) 및 상기 출력 영상(780)이 RGB 색 공간을 가지는 영상인 것에 응답하여, 상기 업스케일된 영상(720)의 복수 개의 색상 채널, 상기 중간 맵(762), 및 상기 오프셋 맵(742)에 대하여 요소별 덧셈 연산을 수행하여, 상기 출력 영상(780)을 생성할 수 있다. 적어도 하나의 프로세서(1120)는 상기 입력 영상 및 상기 출력 영상이 YCoCg 색 공간을 가지는 영상인 것에 응답하여, 상기 업스케일된 영상(820)의 Y 색상 채널, 상기 중간 맵(862), 및 상기 오프셋 맵(842)에 대하여 요소별 덧셈 연산을 수행하여, 상기 출력 영상(880)을 생성할 수 있다.

일 실시예에 따라, 상기 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체가 제공될 수 있다. 상기 기록 매체는, 입력 영상을 업스케일링하여, 업스케일된 영상을 생성하는 단계를 컴퓨터에서 실행시키기 위해 컴퓨터로 읽을 수 있도록 제공될 수 있다. 상기 기록 매체는, 상기 업스케일된 영상을 컨볼루션 뉴럴 네트워크에 입력하여, 상기 업스케일된 영상과 상기 컨볼루션 뉴럴 네트워크에 포함되는 하나 이상의 커널들과의 컨볼루션 연산을 수행함으로써, 제 1 특징 맵 및, 제 2 특징 맵을 획득하는 단계를 컴퓨터에서 실행시키기 위해 컴퓨터로 읽을 수 있도록 제공될 수 있다. 상기 기록 매체는, 상기 제 1 특징 맵을 제 1 컨볼루션 레이어에 입력하여 게인 맵(Gain Map)을 획득하는 단계를 컴퓨터에서 실행시키기 위해 컴퓨터로 읽을 수 있도록 제공될 수 있다. 상기 기록 매체는, 상기 제 2 특징 맵을 제 2 컨볼루션 레이어에 입력하여 오프셋 맵(Offset Map)을 획득하는 단계를 컴퓨터에서 실행시키기 위해 컴퓨터로 읽을 수 있도록 제공될 수 있다. 상기 기록 매체는, 상기 업스케일된 영상, 상기 게인 맵, 및 상기 오프셋 맵에 기초하여, 출력 영상을 생성하는 단계를 컴퓨터에서 실행시키기 위해 컴퓨터로 읽을 수 있도록 제공될 수 있다. 상기 컨볼루션 뉴럴 네트워크는 상기 입력 영상과 상기 출력 영상의 색상 차이를 감소시키도록 학습될 수 있다.

본 개시의 방법은 프로세서, ASIC(application specific integrated circuit), FPGA(field programmable gate array) 또는 SoC(system-on-chip)에 의하여 실행될 수 있다. 또한, 기재된 방법은 컴퓨터로 실행할 수 있는 인스트럭션을 저장하고, 컴퓨터에 프로세서(130)에 의하여 실행될 때 본 개시의 방법을 실행하도록 할 수 있는 저장매체에 의하여 실행될 수 있다.

기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, ‘비일시적 저장매체'는 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다. 예로, '비일시적 저장매체'는 데이터가 임시적으로 저장되는 버퍼를 포함할 수 있다.

다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

또한, 개시된 실시예들에 따른 영상 처리 장치 및 영상 처리 장치의 동작방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다.

컴퓨터 프로그램 제품은 S/W 프로그램, S/W 프로그램이 저장된 컴퓨터로 읽을 수 있는 저장 매체를 포함할 수 있다. 예를 들어, 컴퓨터 프로그램 제품은 전자 장치의 제조사 또는 전자 마켓(예, 구글 플레이 스토어, 앱 스토어)을 통해 전자적으로 배포되는 S/W 프로그램 형태의 상품(예, 다운로더블 앱)을 포함할 수 있다. 전자적 배포를 위하여, S/W 프로그램의 적어도 일부는 저장 매체에 저장되거나, 임시적으로 생성될 수 있다. 이 경우, 저장 매체는 제조사의 서버, 전자 마켓의 서버, 또는 SW 프로그램을 임시적으로 저장하는 중계 서버의 저장매체가 될 수 있다.

컴퓨터 프로그램 제품은, 서버 및 클라이언트 장치로 구성되는 시스템에서, 서버의 저장매체 또는 클라이언트 장치의 저장매체를 포함할 수 있다. 또는, 서버 또는 클라이언트 장치와 통신 연결되는 제3 장치(예, 스마트폰)가 존재하는 경우, 컴퓨터 프로그램 제품은 제3 장치의 저장매체를 포함할 수 있다. 또는, 컴퓨터 프로그램 제품은 서버로부터 클라이언트 장치 또는 제3 장치로 전송되거나, 제3 장치로부터 클라이언트 장치로 전송되는 S/W 프로그램 자체를 포함할 수 있다.

이 경우, 서버, 클라이언트 장치 및 제3 장치 중 하나가 컴퓨터 프로그램 제품을 실행하여 개시된 실시예들에 따른 방법을 수행할 수 있다. 또는, 서버, 클라이언트 장치 및 제3 장치 중 둘 이상이 컴퓨터 프로그램 제품을 실행하여 개시된 실시예들에 따른 방법을 분산하여 실시할 수 있다.

예를 들면, 서버(예로, 클라우드 서버 또는 인공 지능 서버 등)가 서버에 저장된 컴퓨터 프로그램 제품을 실행하여, 서버와 통신 연결된 클라이언트 장치가 개시된 실시예들에 따른 방법을 수행하도록 제어할 수 있다.

이상에서 실시예들에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속한다.

Claims

영상 처리 방법에 있어서,

입력 영상(710,810)을 업스케일링하여, 업스케일된 영상(720,820)을 생성하는 단계;

상기 업스케일된 영상(720,820)을 컨볼루션 뉴럴 네트워크(730,830)에 입력하여, 상기 업스케일된 영상(720,820)과 상기 컨볼루션 뉴럴 네트워크(730,830)에 포함되는 하나 이상의 커널들과의 컨볼루션 연산을 수행함으로써, 제 1 특징 맵(734,834), 및 제 2 특징 맵(732,832)을 획득하는 단계;

상기 제 1 특징 맵(734,834)을 제 1 컨볼루션 레이어(750,850)에 입력하여 게인 맵(Gain Map)(752,852)을 획득하는 단계;

상기 제 2 특징 맵(732,832)을 제 2 컨볼루션 레이어(740,840)에 입력하여 오프셋 맵(Offset Map)(742,842)을 획득하는 단계; 및

상기 업스케일된 영상(720,820), 상기 게인 맵(752,852), 및 상기 오프셋 맵(742,842)에 기초하여, 출력 영상(780,880)을 생성하는 단계를 포함하고,

상기 컨볼루션 뉴럴 네트워크(730,830)는,

상기 입력 영상과 출력 영상의 색상(HUE) 차이를 감소시키도록 학습되는, 방법.
제 1항에 있어서,

상기 업스케일된 영상(720,820), 상기 게인 맵(752,852), 및 상기 오프셋 맵(742,842)에 기초하여, 상기 출력 영상(780,880)을 생성하는 단계는,

상기 업스케일된 영상(720,820)의 복수 개의 색상 채널, 상기 게인 맵(752,852), 및 정규화 상수에 기초하여, 요소별 곱셈 연산을 수행하여 중간 맵(762,862)을 획득하는 단계; 및

상기 업스케일된 영상(720,820)의 복수 개의 색상 채널과 상기 중간 맵(762,862)에 대하여 요소별 덧셈 연산을 수행한 것에 기초하여, 상기 출력 영상(780,880)을 생성하는 단계를 포함하는, 방법.
제 1항 내지 제 2항 중 어느 한 항에 있어서,

상기 컨볼루션 뉴럴 네트워크(730,830), 상기 제 1 컨볼루션 레이어(750,850), 또는 상기 제 2 컨볼루션 레이어(740,840) 중에서 적어도 하나는, 입력 영상들과 상기 입력 영상들에 대응되는 출력 영상들을 포함하는 훈련 데이터 셋을 이용하여 훈련되고,

상기 출력 영상들은, 상기 업스케일된 영상들을 색상 보정하여 상기 입력 영상들로부터의 색상 왜곡을 감소시킨 영상인, 방법.
제 3항에 있어서,

상기 훈련은,

트레이닝 로스(Training Loss)를 이용하여 수행되고,

상기 트레이닝 로스는 L1 loss, 및 SSIM loss 중 적어도 하나를 포함하는, 방법.
제 1항 내지 제 4항 중 어느 한 항에 있어서,

상기 입력 영상(710,810) 및 상기 출력 영상(780,880)은,

그레이 스케일(Gray Scale) 영상인, 방법.
제 1항 내지 제 5항 중 어느 한 항에 있어서

상기 입력 영상(710,810), 및 상기 출력 영상(780,880)은,

RGB 색 공간 또는 YCoCg 색 공간을 가지는 영상인, 방법.
제 6항에 있어서,

상기 입력 영상(710,810)의 복수 개의 색상 채널 중에서 2 이상의 색상 채널이 동일한 값을 가지고,

동일한 값을 가지는, 상기 2 이상의 색상 채널에 대응하는, 상기 출력 영상(780,880)의 2 이상의 색상 채널은 동일한 값을 가지는, 방법.
제 1항 내지 제 7항 중 어느 한 항에 있어서,

상기 영상 처리 방법은,

RGB 색 공간을 가지는 영상에 색 공간 변환을 수행하여, YCoCg 색 공간을 가지는 영상을 획득하는 단계; 및

생성한 상기 출력 영상에 색 공간 변환을 수행하여, RGB 색 공간을 가지는 영상을 획득하는 단계를 더 포함하고,

상기 입력 영상(810)은,

획득한 상기 YCoCg 색 공간을 가지는 영상이고,

상기 출력 영상(880)은,

YCoCg 색 공간을 가지는 영상인, 방법.
제 2항 내지 제 8항 중 어느 한 항에 있어서,

상기 요소별 덧셈 연산을 수행한 것에 기초하여, 상기 출력 영상(780,880)을 생성하는 단계는,

상기 입력 영상(710) 및 상기 출력 영상(780)이 RGB 색 공간을 가지는 영상인 것에 응답하여, 상기 업스케일된 영상(720)의 복수 개의 색상 채널, 상기 중간 맵(762), 및 상기 오프셋 맵(742)에 대하여 요소별 덧셈 연산을 수행하여, 상기 출력 영상(780)을 생성하는 단계; 또는

상기 입력 영상 및 상기 출력 영상이 YCoCg 색 공간을 가지는 영상인 것에 응답하여, 상기 업스케일된 영상(820)의 Y 색상 채널, 상기 중간 맵(862), 및 상기 오프셋 맵(842)에 대하여 요소별 덧셈 연산을 수행하여, 상기 출력 영상(880)을 생성하는 단계를 포함하는, 방법.
제 1항 내지 제 9항 중 어느 한 항에 있어서,

상기 영상 처리 방법은,

사용자가 설정한 해상도를 가지는 영상을 디스플레이 하기 위한 상기 사용자의 입력을 획득하는 단계를 더 포함하고,

상기 업스케일된 영상(720,820)을 생성하는 단계는,

상기 사용자가 설정한 해상도를 가지도록 상기 입력 영상(710,810)을 업스케일링하는 단계를 포함하고,

상기 사용자가 설정한 해상도는,

HD+ 이상의 해상도인, 방법.
영상 처리를 위한 전자 디바이스(100)에 있어서,

하나 이상의 인스트럭션들을 저장하는 메모리(1110); 및

상기 메모리(1110)에 저장된 상기 하나 이상의 인스트럭션들을 실행하는 적어도 하나의 프로세서(1120)를 포함하고,

상기 적어도 하나의 프로세서(1120)는,

입력 영상(710,810)을 업스케일링하여, 업스케일된 영상(720,820)을 생성하고,

상기 업스케일된 영상(720,820)을 컨볼루션 뉴럴 네트워크(730,830)에 입력하여, 상기 업스케일된 영상(720,820)과 상기 컨볼루션 뉴럴 네트워크(730,830)에 포함되는 하나 이상의 커널들과의 컨볼루션 연산을 수행함으로써, 제 1 특징 맵(734,834), 및 제 2 특징 맵(732,832)을 획득하고,

상기 제 1 특징 맵(734,834)을 제 1 컨볼루션 레이어(750,850)에 입력하여 게인 맵(752,852)을 획득하고,

상기 제 2 특징 맵(732,832)을 제 2 컨볼루션 레이어(740,840)에 입력하여 오프셋 맵(742,842)을 획득하고,

상기 업스케일된 영상(720,820), 상기 게인 맵(752,852), 및 상기 오프셋 맵(742,842)에 기초하여, 출력 영상(780,880)을 생성하고,

상기 컨볼루션 뉴럴 네트워크(730,830)는,

상기 입력 영상과 상기 출력 영상의 색상(HUE) 차이를 감소시키도록 학습되는, 전자 디바이스(100).
제 11 항에 있어서,

상기 적어도 하나의 프로세서(1120)는,

상기 업스케일된 영상(720,820)의 복수 개의 색상 채널, 상기 게인 맵(752,852), 및 정규화 상수에 기초하여, 요소별 곱셈 연산을 수행하여 중간 맵(762,862)을 획득하고,

상기 업스케일된 영상(720,820)의 복수 개의 색상 채널과 상기 중간 맵(762,862)에 대하여 요소별 덧셈 연산을 수행한 것에 기초하여, 상기 출력 영상(780,880)을 생성하는, 전자 디바이스(100).
제 11항 내지 제 12항 중 어느 한 항에 있어서,

상기 컨볼루션 뉴럴 네트워크(730,830), 상기 제 1 컨볼루션 레이어(750,850), 또는 상기 제 2 컨볼루션 레이어(740,840) 중에서 적어도 하나는, 입력 영상들과 상기 입력 영상들에 대응되는 출력 영상들을 포함하는 훈련 데이터 셋을 이용하여 훈련되고,

상기 출력 영상들은, 상기 업스케일된 영상들을 색상 보정하여 상기 입력 영상들로부터의 색상 왜곡을 감소시킨 영상인, 전자 디바이스(100).
제 13항에 있어서,

상기 훈련은, 트레이닝 로스(Training Loss)를 이용하여 수행되고,

상기 트레이닝 로스는 L1 loss, 및 SSIM loss 중 적어도 하나를 포함하는, 전자 디바이스(100).
제 1항 내지 제 10항의 방법 중 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.