KR102410907B1

KR102410907B1 - 영상 처리 장치 및 그 영상 처리 방법

Info

Publication number: KR102410907B1
Application number: KR1020190080346A
Authority: KR
Inventors: 이천; 김동현; 박용섭; 박재연; 안일준; 이현승; 안태경; 문영수; 이태미
Original assignee: 삼성전자주식회사
Priority date: 2019-05-22
Filing date: 2019-07-03
Publication date: 2022-06-21
Also published as: TW202044196A; TWI768323B; KR20200135102A

Abstract

영상 처리 장치가 개시된다. 영상 처리 장치는 적어도 하나의 명령어를 저장하는 메모리 및 메모리에 저장된 명령어를 실행함으로써, 영상을 제1 학습 네트워크 모델에 적용하여 영상의 에지가 강화된 제1 영상을 획득하고, 영상을 제2 학습 네트워크 모델에 적용하여 영상의 텍스처가 강화된 제2 영상을 획득하고, 영상에 포함된 에지 영역 및 텍스처 영역을 식별하고, 에지 영역 및 텍스처 영역에 대한 정보에 기초하여 제1 영상에 제1 가중치를 적용하고 제2 영상에 제2 가중치를 적용하여 출력 영상을 획득하는 프로세서를 포함한다.

Description

영상 처리 장치 및 그 영상 처리 방법 { Image processing apparatus and image processing method thereof }

본 발명은 영상 처리 장치 및 그 영상 처리 방법 방법에 관한 것으로, 더욱 상세하게는, 학습 네트워크 모델을 이용하여 영상의 특성을 강화시키는 영상 처리 장치 및 그 영상 처리 방법에 관한 것이다.

전자 기술의 발달에 힘입어 다양한 유형의 전자기기가 개발 및 보급되고 있다. 특히, 가정, 사무실, 공공 장소 등 다양한 장소에서 이용되는 영상 처리 장치는 최근 수년 간 지속적으로 발전하고 있다.

최근 4K UHD TV 등의 고해상도 디스플레이 패널들이 출시되어 널리 보급되어 있다. 하지만, 아직 고해상도 컨텐츠는 많이 부족한 상황이다. 이에 저해상도 컨텐츠에서 고해상도 컨텐츠를 생성하기 위한 다양한 기술이 요구되는 상황이다. 특히, 고해상도 컨텐츠를 생성하기 위해 요구되는 많은 연산량을 한정된 리소스(resource) 내에서 처리 가능한 방법에 대한 요구가 증가하고 있다.

또한, 근래에는 인간 수준의 지능을 구현하는 인공 지능 시스템이 다양한 분야에서 이용되고 있다. 인공 지능 시스템은 기존의 룰(rule) 기반 스마트 시스템과 달리 기계가 스스로 학습하고 판단하여 처리하는 시스템이다. 인공 지능 시스템은 사용할수록 인식률이 향상되고 사용자 취향을 보다 정확하게 이해할 수 있게 된다. 이에 따라, 기존 룰 기반 스마트 시스템은 점차 딥 러닝 기반 인공 지능 시스템으로 대체되고 있다.

인공 지능 기술은 기계학습(예로, 딥러닝) 및 기계학습을 활용한 요소 기술들로 구성된다.

기계학습은 입력 데이터들의 특징을 스스로 분류/학습하는 알고리즘 기술이다. 요소기술은 딥러닝 등의 기계학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 기술로서, 언어적 이해, 시각적 이해, 추론/예측, 지식 표현, 동작 제어 등의 기술 분야로 구성된다.

종래의 영상 처리 장치에서 인공 지능 기술을 이용하여 영상의 특성을 강화시키려는 시도가 있었다. 하지만, 종래의 영상 처리 장치의 성능으로는 고해상도 영상을 생성하기 위해 요구되는 연산량을 처리하기에 한계가 있었으며 많은 시간이 소요되는 문제가 있었다. 이에, 영상 처리 장치가 적은 양의 연산만을 처리하여 고해상도 영상을 생성하고, 제공하는 기술에 대한 요구가 있었다.

본 발명은 상술한 필요성에 따른 것으로, 본 발명의 목적은, 복수의 학습 네트워크 모델을 이용하여 영상의 특성을 강화시킨 고해상도 영상을 획득하는 영상 처리 장치 및 그 영상 처리 방법을 제공함에 있다.

이상과 같은 목적을 달성하기 위한 본 개시의 일 실시 예에 따른 영상 처리 장치는, 적어도 하나의 명령어를 저장하는 메모리 및 상기 메모리에 저장된 명령어를 실행함으로써, 영상을 제1 학습 네트워크 모델에 적용하여 상기 영상의 에지가 강화된 제1 영상을 획득하고, 상기 영상을 제2 학습 네트워크 모델에 적용하여 상기 영상의 텍스처가 강화된 제2 영상을 획득하는 프로세서를 포함하며, 상기 프로세서는, 상기 영상에 포함된 에지 영역 및 텍스처 영역을 식별하고, 상기 에지 영역 및 상기 텍스처 영역에 대한 정보에 기초하여 상기 제1 영상에 제1 가중치를 적용하고 상기 제2 영상에 제2 가중치를 적용하여 출력 영상을 획득한다.

또한, 상기 제1 학습 네트워크 모델과 상기 제2 학습 네트워크 모델은 서로 다른 종류의 학습 네트워크 모델일 수 있다.

또한, 상기 제1 학습 네트워크 모델은, 복수의 레이어를 이용하여 상기 영상의 에지를 강화하도록 학습하는 딥 러닝 모델(Deep Learning Model) 또는 기 학습된 복수의 필터를 이용하여 상기 영상의 에지를 강화하도록 학습된 머신 러닝 모델(Machine Learning Model) 중 하나일 수 있다.

또한, 상기 제2 학습 네트워크 모델은, 복수의 레이어를 이용하여 상기 영상의 텍스쳐를 강화하도록 학습하는 딥 러닝 모델(Deep Learning Model) 또는 기 학습된 복수의 필터를 이용하여 상기 영상의 텍스처를 강화하도록 학습된 머신 러닝 모델(Machine Learning Model) 중 하나일 수 있다.

또한, 상기 프로세서는, 상기 에지 영역 및 상기 텍스처 영역의 비율 정보에 기초하여 상기 에지 영역에 대응되는 상기 제1 가중치 및 상기 텍스처 영역에 대응되는 상기 제2 가중치를 획득할 수 있다.

또한, 상기 프로세서는, 입력 영상을 다운스케일링(Down Scaling)하여 상기 입력 영상 보다 저해상도의 상기 영상을 획득하고, 상기 제1 학습 네트워크 모델은, 상기 영상의 에지를 강화시키는 업스케일링(Up Scaling)을 수행하여 상기 제1 영상을 획득하고, 상기 제2 학습 네트워크 모델은, 상기 영상의 텍스처를 강화시키는 업스케일링을 수행하여 상기 제2 영상을 획득할 수 있다.

또한, 상기 프로세서는, 상기 다운스케일링된 상기 영상에 기초하여 상기 에지 영역 및 상기 텍스처 영역이 식별된 영역 검출 정보를 획득하고, 상기 영역 검출 정보 및 상기 영상을 상기 제1 및 제2 학습 네트워크 모델 각각에 제공할 수 있다.

여기서, 상기 프로세서는, 상기 영역 검출 정보에 기초하여 상기 에지 영역에 대응되는 픽셀 정보만을 포함하는 영상을 상기 제1 학습 네트워크 모델로 제공하고, 상기 텍스처 영역에 대응되는 픽셀 정보만 포함하는 영상을 상기 제2 학습 네트워크 모델로 제공하며, 상기 제1 학습 네트워크 모델은 상기 에지 영역을 업스케일링하여 상기 제1 영상을 획득하고, 상기 제2 학습 네트워크 모델은 상기 텍스처 영역을 업스케일링하여 상기 제2 영상을 획득할 수 있다.

또한, 상기 제1 및 제2 영상 각각은 제1 및 제2 차분 영상이고, 상기 프로세서는, 상기 제1 차분 영상에 상기 제1 가중치를 적용하고, 상기 제2 차분 영상에 상기 제2 가중치를 적용한 후 상기 영상과 믹싱(Mixing)하여 상기 출력 영상을 획득할 수 있다.

또한, 상기 제2 학습 네트워크 모델은, 복수의 이미지 패턴 각각에 대응되는 복수의 필터를 저장하며, 상기 영상에 포함된 이미지 블록들 각각을 상기 복수의 이미지 패턴 중 하나로 분류하고, 상기 복수의 필터 중 분류된 이미지 패턴에 대응되는 적어도 하나의 필터를 상기 이미지 블록에 적용하여 상기 제2 영상을 제공하는 모델일 수 있다.

여기서, 상기 프로세서는, 상기 분류된 각 이미지 블록들에 대응되는 이미지 패턴의 인덱스 정보를 누적시켜 누적 결과에 기초하여 상기 영상을 자연 영상 또는 그래픽 영상 중 어느 하나로 식별하고, 상기 식별 결과에 기초하여 상기 가중치를 조정할 수 있다.

여기서, 상기 프로세서는, 상기 영상이 상기 자연 영상으로 식별되면, 상기 제1 영상에 대응되는 상기 제1 가중치 또는 상기 제2 영상에 대응되는 상기 제2 가중치 중 적어도 하나를 증가시키고, 상기 영상이 상기 그래픽 영상으로 식별되면, 상기 제1 가중치 또는 상기 제2 가중치 중 적어도 하나를 감소시킬 수 있다.

한편, 본 개시의 일 실시 예에 따른 영상 처리 장치의 영상 처리 방법은, 영상을 제1 학습 네트워크 모델에 적용하여 상기 영상의 에지가 강하된 제1 영상을 획득하는 단계, 상기 영상을 제2 학습 네트워크 모델에 적용하여 상기 영상의 텍스처가 강화된 제2 영상을 획득하는 단계 및 상기 영상에 포함된 에지 영역 및 텍스처 영역을 식별하고, 상기 에지 영역 및 상기 텍스처 영역에 대한 정보에 기초하여 상기 제1 영상에 제1 가중치를 적용하고 상기 제2 영상에 제2 가중치를 적용하여 출력 영상을 획득하는 단계를 포함한다.

여기서, 상기 제1 학습 네트워크 모델과 상기 제2 학습 네트워크 모델은 서로 다른 종류의 학습 네트워크 모델일 수 있다.

또한, 상기 출력 영상을 획득하는 단계는, 상기 에지 영역 및 상기 텍스처 영역의 비율 정보에 기초하여 상기 에지 영역에 대응되는 상기 제1 가중치 및 상기 텍스처 영역에 대응되는 상기 제2 가중치를 획득하는 단계를 포함할 수 있다.

또한, 입력 영상을 다운스케일링(Down Scaling)하여 상기 입력 영상 보다 저해상도의 상기 영상을 획득하는 단계를 포함하고, 상기 제1 학습 네트워크 모델은, 상기 영상의 에지를 강화시키는 업스케일링(Up Scaling)을 수행하여 상기 제1 영상을 획득하고, 상기 제2 학습 네트워크 모델은, 상기 영상의 텍스처를 강화시키는 업스케일링을 수행하여 상기 제2 영상을 획득할 수 있다.

여기서, 상기 다운스케일링된 상기 영상에 기초하여 상기 에지 영역 및 상기 텍스처 영역이 식별된 영역 검출 정보를 획득하는 단계 및 상기 영역 검출 정보 및 상기 영상을 상기 제1 및 제2 학습 네트워크 모델 각각에 제공하는 단계를 포함할 수 있다.

여기서, 상기 영역 검출 정보 및 상기 영상을 상기 제1 및 제2 학습 네트워크 모델 각각에 제공하는 단계는, 상기 영역 검출 정보에 기초하여 상기 에지 영역에 대응되는 픽셀 정보만을 포함하는 영상을 상기 제1 학습 네트워크 모델로 제공하는 단계 및 상기 텍스처 영역에 대응되는 픽셀 정보만 포함하는 영상을 상기 제2 학습 네트워크 모델로 제공하는 단계를 포함하고, 상기 제1 학습 네트워크 모델은 상기 에지 영역을 업스케일링하여 상기 제1 영상을 획득하고, 상기 제2 학습 네트워크 모델은 상기 텍스처 영역을 업스케일링하여 상기 제2 영상을 획득하는 할 수 있다.

또한, 상기 제1 및 제2 영상 각각은 제1 및 제2 차분 영상이고, 상기 출력 영상을 획득하는 단계는, 상기 제1 차분 영상에 상기 제1 가중치를 적용하고, 상기 제2 차분 영상에 상기 제2 가중치를 적용한 후 상기 영상과 믹싱(Mixing)하여 상기 출력 영상을 획득할 수 있다.

상술한 바와 같이 본 개시의 다양한 실시 예에 따르면, 영상에 서로 다른 학습 네트워크 모델을 적용하여 고해상도의 영상을 생성하고, 해당 고해상도의 영상을 생성하기 위해 요구되는 연산량을 줄여 영상 처리 장치의 한정된 자원 내에서도 고해상도 영상을 생성하여 사용자에게 제공할 수 있게 된다.

도 1은 본 개시의 일 실시 예에 따른 영상 처리 장치의 구현 예를 설명하기 위한 도면이다.
도 2는 본 개시의 일 실시 예에 따른 영상 처리 장치의 구성을 나타내는 블록도이다.
도 3은 본 개시의 일 실시 예에 따른 제1 및 제2 학습 네트워크 모델을 설명하기 위한 도면이다.
도 4는 본 개시의 일 실시 예에 따른 다운스케일링을 설명하기 위한 도면이다.
도 5는 본 개시의 일 실시 예에 따른 딥 러닝 모델 및 머신 러닝 모델을 설명하기 위한 도면이다.
도 6은 본 개시의 다른 실시 예에 따른 제1 및 제2 학습 네트워크 모델을 설명하기 위한 도면이다.
도 7은 본 개시의 다른 실시 예에 따른 제1 및 제2 학습 네트워크 모델을 설명하기 위한 도면이다.
도 8은 본 개시의 일 실시 예에 따른 제2 학습 네트워크 모델의 동작을 개략적으로 설명하기 위한 도면이다.
도 9는 본 개시의 일 실시 예에 따른 인덱스 정보를 설명하기 위한 도면이다.
도 10은 본 개시의 일 실시 예에 따른 최종 출력 영상을 획득하는 방법을 설명하기 위한 도면이다.
도 11은 도 2에 도시된 영상 처리 장치의 세부 구성을 나타내는 블록도이다.
도 12는 본 개시의 일 실시 예에 따른 학습 네트워크 모델을 학습하고 이용하기 위한 영상 처리 장치의 구성을 나타내는 블록도이다.
도 13은 본 개시의 일 실시 예에 따른 영상 처리 방법을 설명하기 위한 흐름도이다.

이하에서는 첨부 도면을 참조하여 본 개시를 상세히 설명한다.

본 개시의 실시 예에서 사용되는 용어는 본 개시에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 개시의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.

본 명세서에서, "가진다," "가질 수 있다," "포함한다," 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.

A 또는/및 B 중 적어도 하나라는 표현은 "A" 또는 "B" 또는 "A 및 B" 중 어느 하나를 나타내는 것으로 이해되어야 한다.

본 명세서에서 사용된 "제1," "제2," "첫째," 또는 "둘째,"등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다.

어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "(기능적으로 또는 통신적으로) 연결되어((operatively or communicatively) coupled with/to)" 있다거나 "접속되어(connected to)" 있다고 언급된 때에는, 어떤 구성요소가 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제3 구성요소)를 통하여 연결될 수 있다고 이해되어야 할 것이다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "구성되다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

본 개시에서 "모듈" 혹은 "부"는 적어도 하나의 기능이나 동작을 수행하며, 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의 "모듈" 혹은 복수의 "부"는 특정한 하드웨어로 구현될 필요가 있는 "모듈" 혹은 "부"를 제외하고는 적어도 하나의 모듈로 일체화되어 적어도 하나의 프로세서(미도시)로 구현될 수 있다.

본 명세서에서, 사용자라는 용어는 전자 장치를 사용하는 사람 또는 전자 장치를 사용하는 장치(예: 인공지능 전자 장치)를 지칭할 수 있다.

이하 첨부된 도면들을 참조하여 본 개시의 일 실시예를 보다 상세하게 설명한다.

도 1은 본 개시의 일 실시 예에 따른 영상 처리 장치의 구현 예를 설명하기 위한 도면이다.

영상 처리 장치(100)는 도 1에 도시된 바와 같이 TV로 구현될 수 있으나, 이에 한정되는 것은 아니며 스마트 폰, 태블릿 PC, 노트북 PC, HMD(Head mounted Display), NED(Near Eye Display), LFD(large format display), Digital Signage(디지털 간판), DID(Digital Information Display), 비디오 월(video wall), 프로젝터 디스플레이, 카메라, 캠코더, 프린터 등과 같이 영상 처리 기능 및/또는 디스플레이 기능을 갖춘 장치라면 한정되지 않고 적용 가능하다.

영상 처리 장치(100)는 다양한 해상도의 영상 또는 다양한 압축 영상을 수신할 수 있다. 예를 들어, 영상 처리 장치(100)는 SD(Standard Definition), HD(High Definition), Full HD, Ultra HD 영상 중 어느 하나의 영상(10)을 수신할 수 있다. 또한 영상 처리 장치(100)는 MPEG(예를 들어, MP2, MP4, MP7 등), AVC, H.264, HEVC 등으로 압축된 형태로 영상(10)을 수신할 수도 있다.

일 실시 예에 따라 영상 처리 장치(100)가 UHD TV로 구현되더라도, UHD 컨텐츠 자체가 부족하기 때문에 SD(Standard Definition), HD(High Definition), Full HD 등의 영상(이하 저해상도 영상이라 함)이 입력되는 경우가 많다. 이 경우, 입력된 저해상도 영상을 UHD 영상(이하 고해상도 영상이라 함)으로 확대하여 제공하는 방법을 이용할 수 있다. 일 예로, 저해상도 영상을 학습 네트워크 모델에 적용하여 해당 저해상도 영상을 확대하여 고해상도 영상을 획득할 수 있다.

다만, 저해상도 영상을 고해상도로 확대하여 제공하기 위해서는 영상 처리 장치(100)가 매우 많은 양의 연산을 수행하여야 하므로, 고성능, 고복잡도의 영상 처리 장치(100)가 요구된다. 일 예로, 영상 처리 장치(100)는 820X480 해상도의 SD 급 60P 영상을 고해상도의 영상으로 업스케일링하기 위해 초당 820X480X60 개의 픽셀에 대한 연산을 수행하여야 하므로, 고성능의 CPU / GPU가 요구된다. 다른 예로, 영상 처리 장치(100)는 4K 해상도의 UHD 급 60P 영상을 8K 해상도의 영상으로 업스케일링하기 위해 초당 3840X2160X60 개의 픽셀에 대한 연산을 수행하여야 하므로, SD 급 영상을 업스케일링할 때 보다 최소 24배의 연산량을 처리 가능한 CPU / GPU가 요구된다.

따라서, 이하에서는 상술한 바와 같이 영상 처리 장치(100)가 저해상도 영상 또는 고해상도 영상을 업스케일링하기 위해 요구되는 연산량을 줄여 영상 처리 장치(100)의 한정된 리소스(resource)를 최대한 활용하는 다양한 실시 예에 대해 설명하도록 한다.

또한, 영상 처리 장치(100)가 입력 영상의 다양한 특성 중 적어도 하나의 특성을 강화시켜 출력 영상을 획득하는 다양한 실시 예에 대해 설명하도록 한다.

도 2는 본 개시의 일 실시 예에 따른 영상 처리 장치의 구성을 나타내는 블록도이다.

도 2에 따르면, 영상 처리 장치(100)는 메모리(110) 및 프로세서(120)를 포함한다.

메모리(110)는 프로세서(120)와 전기적으로 연결되며, 본 개시의 다양한 실시 예를 위해 필요한 데이터를 저장할 수 있다. 예를 들어, 메모리(110)는 프로세서(120)에 포함된 롬(ROM)(예를 들어, EEPROM(electrically erasable programmable read-only memory)), 램(RAM) 등의 내부 메모리로 구현되거나, 프로세서(120)와 별도의 메모리로 구현될 수도 있다.

메모리(110)는 데이터 저장 용도에 따라 영상 처리 장치(100)에 임베디드된 메모리 형태로 구현되거나, 영상 처리 장치(100)에 탈부착이 가능한 메모리 형태로 구현될 수도 있다. 예를 들어, 영상 처리 장치(100)의 구동을 위한 데이터의 경우 영상 처리 장치(100)에 임베디드된 메모리에 저장되고, 영상 처리 장치(100)의 확장 기능을 위한 데이터의 경우 영상 처리 장치(100)에 탈부착이 가능한 메모리에 저장될 수 있다. 영상 처리 장치(100)에 임베디드된 메모리로 구현되는 경우, 메모리(110)는 휘발성 메모리(예: DRAM(dynamic RAM), SRAM(static RAM), 또는 SDRAM(synchronous dynamic RAM) 등), 비휘발성 메모리(non-volatile Memory)(예: OTPROM(one time programmable ROM), PROM(programmable ROM), EPROM(erasable and programmable ROM), EEPROM(electrically erasable and programmable ROM), mask ROM, flash ROM, 플래시 메모리(예: NAND flash 또는 NOR flash 등), 하드 드라이브, 또는 솔리드 스테이트 드라이브(solid state drive(SSD)) 중 적어도 하나가 될 수 있다.

영상 처리 장치(100)에 탈부착이 가능한 메모리로 구현되는 경우, 메모리(110)는 메모리 카드(예를 들어, CF(compact flash), SD(secure digital), Micro-SD(micro secure digital), Mini-SD(mini secure digital), xD(extreme digital), MMC(multi-media card) 등), USB 포트에 연결가능한 외부 메모리(예를 들어, USB 메모리) 등이 될 수도 있다.

일 실시 예에 따르면, 메모리(110)는 프로세서(120)에 의해 실행되는 적어도 하나의 명령어를 저장할 수 있다. 여기서, 명령어는 프로세서(120)가 영상(10)를 학습 네트워크에 적용하여 출력 영상을 획득하기 위한 명령어일 수 있다.

다른 실시 예에 따라, 메모리(110)는 본 개시의 다양한 실시 예에 따른 학습 네트워크 모델을 저장할 수 있다.

일 실시 예에 따른 학습 네트워크 모델은 인공지능 알고리즘 기반으로 복수의 영상에 기초하여 학습된 판단 모델로서, 신경망(Neural Network)을 기반으로 하는 모델일 수 있다. 학습된 판단 모델은 인간의 뇌 구조를 컴퓨터 상에서 모의하도록 설계될 수 있으며 인간의 신경망의 뉴런(neuron)을 모의하는, 가중치를 가지는 복수의 네트워크 노드들을 포함할 수 있다. 복수의 네트워크 노드들은 뉴런이 시냅스(synapse)를 통하여 신호를 주고 받는 뉴런의 시냅틱(synaptic) 활동을 모의하도록 각각 연결 관계를 형성할 수 있다. 또한 학습된 판단 모델은, 일 예로, 기계 학습(Machine Learning) 모델, 신경망 모델, 또는 신경망 모델에서 발전한 딥 러닝(Deep Learning) 모델을 포함할 수 있다. 딥 러닝 모델에서 복수의 네트워크 노드들은 서로 다른 깊이(또는, 레이어)에 위치하면서 컨볼루션(convolution) 연결 관계에 따라 데이터를 주고 받을 수 있다.

일 예로, 학습 네트워크 모델은 영상에 기초하여 학습된 CNN(Convolution Neural Network, 컨벌루션 신경망) 모델일 수 있다. CNN은 음성처리, 이미지 처리 등을 위해 고안된 특수한 연결구조를 가진 다층신경망이다. 한편, 학습 네트워크 모델은 CNN에 한정되지 않음은 물론이다. 예를 들어, 학습 네트워크 모델은 RNN(Recurrent Neural Network), LSTM(Long Short Term Memory Network), GRU(Gated Recurrent Units) 또는 GAN(Generative Adversarial Networks) 중 적어도 하나의 DNN(Deep Neural Network) 모델로 구현될 수 있다.

예를 들어, 학습 네트워크 모델은 SRGAN(Super-resolution GAN)기반으로, 저해상도 영상을 고해상도 영상으로 복원할 수 있다. 한편, 본 개시의 일 실시 예에 따른 메모리(110)는 동종(同種) 또는 이종(異種)의 복수의 학습 네트워크 모델들을 저장할 수도 있다. 다만, 다른 실시 예에 따르면 본 개시의 다양한 실시 예에 따른 적어도 하나의 학습 네트워크 모델은 외부 장치 또는 외부 서버 중 적어도 하나에 저장될 수도 있음은 물론이다.

프로세서(120)는 메모리(110)와 전기적으로 연결되어 영상 처리 장치(100)의 전반적인 동작을 제어한다.

일 실시 예에 따라 프로세서(120)는 디지털 영상 신호를 처리하는 디지털 시그널 프로세서(digital signal processor(DSP), 마이크로 프로세서(microprocessor), AI(Artificial Intelligence) 프로세서, T-CON(Timing controller)으로 구현될 수 있다. 다만, 이에 한정되는 것은 아니며, 중앙처리장치(central processing unit(CPU)), MCU(Micro Controller Unit), MPU(micro processing unit), 컨트롤러(controller), 어플리케이션 프로세서(application processor(AP)), 또는 커뮤니케이션 프로세서(communication processor(CP)), ARM 프로세서 중 하나 또는 그 이상을 포함하거나, 해당 용어로 정의될 수 있다. 또한, 프로세서(120)는 프로세싱 알고리즘이 내장된 SoC(System on Chip), LSI(large scale integration)로 구현될 수도 있고, FPGA(Field Programmable gate array) 형태로 구현될 수도 있다.

프로세서(120)는 영상(10)을 학습 네트워크 모델에 적용하여 영상(10)의 특성 중 적어도 하나의 특성이 강화된 영상을 획득할 수 있다. 여기서, 영상(10)의 특성은 영상(10)에 포함된 복수의 픽셀들에 따른 에지(edge) 방향, 에지 강도, 텍스처(texture), 계조 값, 밝기, 명암 또는 감마 값 중 적어도 하나를 의미할 수 있다. 예를 들어, 프로세서(120)는 영상을 학습 네트워크 모델에 적용하여 영상의 특성 중 에지 및 텍스처가 강화된 영상을 획득할 수 있다. 여기서, 영상의 에지는 공간적으로 인접한 픽셀 값들이 급격하게 변하는 영역을 의미할 수 있다. 예를 들어, 에지는 영상의 밝기가 낮은 값에서 높은 값으로 또는 높은 값에서 낮은 값으로 급격하게 변화하는 영역이 될 수 있다. 또한, 영상의 텍스처는 영상 중에서 동일한 특성으로 간주되는 영역의 특유의 무늬 또는 모양을 의미한다. 다만, 영상의 텍스처 또한 세밀한 에지들로 이루어질 수 있다는 점에서, 프로세서(120)는 제1 임계 강도(또는 임계 굵기) 이상의 에지 성분 및 제2 임계 강도(또는 임계 굵기) 미만의 에지 성분이 강화된 영상을 획득할 수 있다. 여기서, 제1 임계 강도는 본 개시의 일 실시 예에 따른 에지 성분을 구분하기 위한 값이고, 제2 임계 강도는 본 개시의 일 실시 예에 따른 텍스처 성분을 구분하기 위한 값으로 기설정된 값이거나 영상의 특성에 기초하여 설정되는 값일 수 있다. 다만, 이하에서는 설명의 편의를 위하여 상술한 바와 같이 구분되는 특성들을 에지 및 텍스처로 명명하도록 한다.

한편, 본 개시의 일 실시 예에 따른 영상 처리 장치(100)는 복수의 학습 네트워크 모델을 포함할 수 있다. 복수의 학습 네트워크 모델 각각은 영상(10)의 서로 다른 특성을 강화시킬 수 있다. 이에 대한 구체적인 설명은 도 3을 참조하여 하도록 한다.

도 3은 본 개시의 일 실시 예에 따른 제1 및 제2 학습 네트워크 모델을 설명하기 위한 도면이다.

도 3을 참조하면, 일 실시 예에 따른 프로세서(120)는 영상(10)을 제1 학습 네트워크 모델에 적용하여 영상(10)의 에지가 강화된 제1 영상을 획득하고(S310), 영상(10)을 제2 학습 네트워크 모델에 적용하여 영상(10)의 텍스처가 강화된 제2 영상을 획득할 수 있다(S320).

한편, 본 개시의 일 실시 예에 따른 영상 처리 장치(100)는 서로 다른 인공지능 알고리즘을 기반으로 하는 제1 및 제2 학습 네트워크 모델을 병렬적으로 이용할 수 있다. 여기서, 제1 학습 네트워크 모델은 제2 학습 네트워크 모델보다 큰 리소스(resource)를 이용하여 학습된 모델일 수 있다. 여기서, 리소스란 학습 네트워크 모델의 학습 및/또는 처리에 필요한 다양한 항목이 될 수 있으며, 예를 들어, 실시간 학습 여부, 학습 데이터의 양, 학습 네트워크 모델에 포함된 컨벌루션 레이어의 개수, 파라미터 개수, 학습 네트워크 모델에서 이용하는 메모리 용량, 학습 네트워크가 GPU를 이용하는 정도 등을 포함할 수 있다.

예를 들어, 영상 처리 장치(100)에 구비된 GPU(미도시)는 텍스처 유닛, 특수 기능 유닛(Special Funtion Unit, SFU), 산술 논리 장치 등을 포함할 수 있다. 여기서, 텍스처 유닛은 영상(10)에 재질 또는 질감을 입혀주기 위한 리소스이고, 특수 기능 유닛은 제곱근, 역수 또는 삼각함수와 같은 복잡한 연산을 처리하기 위한 리소스이다. 정수 산술 논리 장치(Arithmatic Logic Unit: ALU)는 부동소수점, 정수 연산, 비교와 데이터 이동을 처리하는 리소스이다. 지오메트리 유닛(Geometry Unit)은 객체의 위치나 시점, 광원의 방향 등을 계산하는 리소스이다. 래스터 유닛(Raster Unit)은 3차원 데이터를 2차원 화면에 투영(projection)시키는 리소스이다. 이 경우, 딥 러닝 모델은 학습 및 연산을 위해 GPU에 포함된 다양한 리소스를 머신 러닝 모델 보다 많이 이용할 수 있다. 한편, 영상 처리 장치(100)의 리소스는 GPU의 리소스에 한정되지 않으며, 메모리(110)의 저장가능한 영역, 전력 등 영상 처리 장치(100)에 포함된 다양한 구성 요소들의 리소스를 의미할 수 있음은 물론이다.

본 개시의 일 실시 예에 따른 제1 학습 네트워크 모델과 제2 학습 네트워크 모델은 서로 다른 종류의 학습 네트워크 모델일 수 있다.

일 예로, 제1 학습 네트워크 모델은 복수의 영상에 기초하여 영상(10)의 에지를 강화시키도록 학습하는 딥 러닝(Deep Learning) 기반 모델 또는 기 학습된 복수의 필터를 이용하여 영상의 에지를 강화하도록 학습된 머신 러닝 모델 중 하나일 수 있다. 제2 학습 네트워크 모델은 복수의 레이어를 이용하여 상기 영상의 텍스쳐를 강화하도록 학습하는 딥 러닝 모델(Deep Learning Model) 또는 복수의 영상에 기초하여 기 학습된 DB(database), 기 학습된 복수의 필터 이용하여 영상의 텍스처를 강화하도록 학습된 머신 러닝(Machine Learning) 기반 모델일 수 있다. 여기서, 기 학습된 DB는 복수의 이미지 패턴 각각에 대응되는 복수의 필터일 수 있고, 제2 학습 네트워크 모델은 영상(10)에 포함된 이미지 블록에 대응되는 이미지 패턴을 식별하고, 복수의 필터 중 식별된 패턴에 대응되는 필터를 이용하여 영상(10)의 텍스처를 강화시킬 수 있다. 본 개시의 일 실시 예에 따라, 제1 학습 네트워크 모델은 딥 러닝 모델이고, 제2 학습 네트워크 모델은 머신 러닝 모델일 수 있다.

머신 러닝 모델은 지도(supervised) 학습, 자율(unsupervised) 학습, 준 지도(semi- supervised) 학습 등 다양한 정보 및 데이터 입력 방식에 기초하여 기 학습된 복수의 필터를 포함하고 있으며, 복수의 필터 중 영상(10)에 적용할 필터를 식별한다.

딥 러닝 모델은 방대한 데이터 양에 기초하여 학습을 수행하는 모델이며, 입력 레이어와 출력 레이어 사이에 복수의 히든 레이어(hidden layer)을 포함하므로 학습 및 연산을 수행하기 위해 머신 러닝 모델 보다 큰 영상 처리 장치(100)의 리소스를 이용할 수 있다.

다른 예로, 제1 및 제2 학습 네트워크 모델은 동일한 인공지능 알고리즘을 기반으로 하되, 사이즈가 상이한 모델일 수 있다. 예를 들어, 제2 학습 네트워크 모델은 제1 학습 네트워크 모델 보다 사이즈가 작은 저 복잡도 모델일 수 있다. 여기서, 학습 네트워크 모델의 사이즈, 복잡도는 해당 모델을 구성하는 컨벌루션 레이어의 개수, 파라미터의 개수와 비례 관계일 수 있다. 일 예에 따라 제2 학습 네트워크 모델은 딥 러닝 모델이고, 제1 학습 네트워크 모델은 제2 학습 네트워크 모델보다 적은 개수의 컨벌루션 레어어를 이용하는 딥 러닝 모델일 수 있다.

또 다른 예로, 제1 및 제2 학습 네트워크 모델 각각은 머신 러닝 모델일 수도 있음은 물론이다. 예를 들어, 제2 학습 네트워크 모델은 제1 학습 네트워크 모델 보다 사이즈가 작은 저 복잡도의 머신 러닝 모델일 수 있다.

한편, 제1 학습 네트워크 모델이 제2 학습 네트워크 모델 보다 큰 리소스를 이용하여 학습된 모델인 경우를 상정하여 본 개시의 다양한 실시 예를 설명하였으나, 이는 일 실시 예에 불과할 뿐 이에 한정되지 않음은 물론이다. 예를 들어 제1 및 제2 학습 네트워크 모델은 동일, 유사한 복잡도를 가지는 모델일 수 있고, 제2 학습 네트워크 모델이 제1 학습 네트워크 모델 보다 큰 리소스를 이용하여 학습된 모델일 수도 있음은 물론이다.

본 개시의 일 실시 예에 따른 프로세서(120)는 영상(10)에 포함된 에지 영역 및 텍스처 영역을 식별할 수 있다(S330). 이어서, 에지 영역 및 텍스처 영역에 대한 정보에 기초하여 제1 영상에 제1 가중치를 적용하고 제2 영상에 제2 가중치를 적용할 수 있다(S340). 일 예로, 프로세서(120)는 영상(10)에 포함된 에지 영역 및 텍스처 영역의 비율에 대한 정보에 기초하여 에지 영역에 대응되는 제1 가중치 및 텍스처 영역에 대응되는 제2 가중치를 획득할 수 있다. 예를 들어, 프로세서(120)는 비율에 따라 에지 영역이 텍스처 영역 보다 많은 것으로 식별되면, 에지 영역이 강화된 제1 영상에 텍스처가 강화된 제2 영상 보다 높은 가중치를 적용할 수 있다. 다른 예로, 프로세서(120)는 비율에 따라 텍스처 영역이 에지 영역 보다 많은 것으로 식별되면, 텍스처가 강화된 제2 영상에 에지가 강화된 제1 영상 보다 높은 가중치를 적용할 수 있다. 이어서, 제1 가중치가 적용된 제1 영상 및 제2 가중치가 적용된 제2 영상에 기초하여 출력 영상(10)을 획득할 수 있다.

다른 예로, 제1 및 제2 학습 네트워크 모델로부터 획득한 제1 및 제2 영상은 차분 영상(residual image)일 수 있다. 여기서, 차분 영상은 원 영상 이외의 residual 정보 만을 포함하는 영상일 수 있다. 일 예로, 제1 학습 네트워크 모델은 영상(10)에서 에지 영역을 식별하고, 식별된 에지 영역을 강화시켜 제1 영상을 획득할 수 있다. 제2 학습 네트워크 모델은 영상(10)에서 텍스처 영역을 식별하고, 식별된 텍스처 영역을 강화시켜 제2 영상을 획득할 수 있다.

이어서, 프로세서(120)는 영상(10)과 제1 영상 및 제2 영상을 믹싱(Mixing)하여 출력 영상(20)을 획득할 수 있다. 여기서, 믹싱은 영상(10)에 포함된 각 픽셀 값에 제1 영상 및 제2 영상 각각의 대응되는 픽셀 값을 더하는 처리가 될 수 있다. 이 경우, 출력 영상(20)은 제1 영상 및 제2 영상으로 인하여, 에지 및 텍스처가 강화된 영상이 될 수 있다.

본 개시의 일 실시 예에 따른 프로세서(120)는 제1 및 제2 영상 각각에 제1 및 제2 가중치를 적용한 후 영상(10)과 믹싱하여 출력 영상(20)을 획득할 수 있다.

또 다른 예로, 프로세서(120)는 영상(10)을 복수의 영역으로 구분할 수 있다. 이어서, 복수의 영역 각각의 에지 영역 및 텍스처 영역의 비율을 식별할 수 있다. 프로세서(120)는 복수의 영역 중 에지 영역의 비율이 높은 제1 영역은 제1 가중치를 제2 가중치 보다 높은 값으로 설정할 수 있다. 또한, 프로세서(120)는 복수의 영역 중 텍스처 영역의 비율이 높은 제2 영역은 제2 가중치를 제1 가중치 보다 높은 값으로 설정할 수 있다.

이어서, 가중치가 적용된 제1 및 제2 영상과 영상(10)을 믹싱하여 출력 영상을 획득할 수 있다(S340). 영상(10)과 해당 영상(10)에 대응되는 출력 영상(20)은 아래의 수학식 1과 같이 표현할 수 있다.

여기서, Y_img는 영상(10), Network_Model1(Y_img)은 제1 영상, Network_Model2(Y_img)는 제2 영상, a는 제1 영상에 대응되는 제1 가중치, b는 제2 영상에 대응되는 제2 가중치를 의미한다.

한편, 또 다른 예로, 프로세서(120)는 영상(10)을 제3 학습 네트워크 모델에 적용하여 제1 영상에 적용하기 위한 제1 가중치 및 제2 영상에 적용하기 위한 제2 가중치를 획득할 수도 있다. 예를 들어, 제3 학습 네트워크 모델은 영상(10)에 포함된 에지 영역 및 텍스처 영역을 식별하도록 학습되고, 식별된 에지 영역 및 텍스처 영역의 비율, 영상(10)의 특성 등에 기초하여 에지 영역을 강화시키는 제1 가중치 및 텍스처 영역을 강화시키는 제2 가중치를 출력할 수 있다.

도 4는 본 개시의 일 실시 예에 따른 다운스케일링를 설명하기 위한 도면이다.

도 4를 참조하면, 프로세서(120)는 입력 영상(10')에서 에지 영역 및 텍스처 영역을 식별하고, 에지 영역에 대응되는 제1 가중치 및 텍스처 영역에 대응되는 제2 가중치를 획득할 수 있다(S410). 일 예로, 프로세서(120)는 입력 영상(10')에 가이디드 필터(Guided Filter)를 적용하여 엣지 영역과 텍스처 영역을 식별할 수 있다. 가이디드 필터는 영상(10)을 베이스 레이어와 디테일 레이어로 나누기 위해 사용되는 필터를 의미한다. 프로세서(120)는 베이스 레이어에 기초하여 엣지 영역을 식별하고, 디테일 레이어에 기초하여 텍스처 영역을 식별할 수 있다.

이어서, 프로세서(120)는 입력 영상(10')을 다운스케일링하여 입력 영상(10') 보다 저해상도의 영상(10)을 획득할 수 있다(S420). 일 예로, 프로세서(120)는 입력 영상(10')에 서브 샘플링 (Sub-sampling)을 적용하여 입력 영상(10')의 해상도를 타겟 해상도로 다운스케일링할 수 있다. 여기서, 타겟 해상도는 입력 영상(10')의 해상도 보다 낮은 저해상도일 수 있다. 예를 들어, 타겟 해상도는 입력 영상(10')에 대응되는 원본 영상의 해상도가 될 수 있다. 여기서, 원본 영상의 해상도는 해상도 추정 프로그램을 통해 추정되거나, 입력 영상(10')과 함께 수신되는 부가 정보에 기초하여 식별될 수 있으나, 이에 한정되는 것은 아니다. 한편, 프로세서(120)는 서브 샘플링 외에도 다양한 공지의 다운스케일링 방법을 적용하여 입력 영상(10')에 대응되는 영상(10)을 획득할 수 있다.

일 예로, 입력 영상(10')이 4K 해상도의 UHD 영상이면, 해당 입력 영상(10')을 제1 및 제2 학습 네트워크 모델에 적용하여 출력 영상(20)을 획득하기 위해서는 820X480 해상도의 SD 영상을 제1 및 제2 학습 네트워크 모델에 적용할 때 보다 최소 5.33배(3840/820) 큰 라인 버퍼 메모리(미도시)가 요구된다. 또한, 제1 학습 네트워크 모델에 포함된 복수의 히든 레이어 각각의 중간 연산 결과를 저장하기 위한 메모리(110) 공간, 제1 학습 네트워크 모델이 제1 영상을 획득하기 위해 요구되는 연산량의 증가에 따른 CPU / GPU의 요구 성능이 기하급수적으로 증가하는 문제가 있다.

이에 따라, 본 개시의 일 실시 예에 따른 프로세서(120)는 제1 및 제2 학습 네트워크 모델에서 요구되는 연산량, 메모리(110) 저장 공간 등을 줄이기 위해 입력 영상(10')을 다운스케일링한 영상(10)을 제1 및 제2 학습 네트워크 모델에 적용할 수 있다.

일 실시 예에 따른 제1 학습 네트워크 모델은 다운 스케일링된 영상(10)이 입력되면, 입력된 영상(10)에 포함된 에지에 대응되는 고주파 성분을 강화시키는 업스케일링을 수행하여 고해상도의 제1 영상을 획득할 수 있다(S430). 제2 학습 네트워크 모델은 영상(10)에 포함된 텍스처에 대응되는 고주파 성분을 강화시키는 업스케일링을 수행하여 고해상도의 제2 영상을 획득할 수 있다(S440). 여기서, 제1 및 제2 영상의 해상도는 입력 영상(10')과 동일할 수 있다. 예를 들어 입력 영상(10')이 4K 영상이고, 다운스케일링된 영상(10)이 2K 영상이면, 제1 및 제2 학습 네트워크 모델은 영상(10)에 대한 업스케일링을 수행하여 4K 영상을 획득할 수 있다.

일 실시 예에 따른 프로세서(120)는 업스케일링된 제1 및 제2 영상을 입력 영상(10')에 믹싱하여 입력 영상(10')에서 에지 및 텍스처가 강화된 고해상도의 출력 영상(20)을 획득할 수 있다(S450). 도 4에 도시된 실시 예에 따라 입력 영상(10')과 해당 입력 영상(10')에 대응되는 출력 영상(20)을 획득하는 과정은 아래의 수학식 2과 같이 나타내어질 수 있다.

여기서, Y_org는 입력 영상(10'), DownScaling(Y_org)는 영상(10), Network_Model1(DownScaling(Y_org))은 제1 영상, Network_Model2(DownScaling(Y_org))는 제2 영상, a는 제1 영상에 대응되는 제1 가중치, b는 제2 영상에 대응되는 제2 가중치를 의미한다.

도 5는 본 개시의 일 실시 예에 따른 딥 러닝 모델 및 머신 러닝 모델을 설명하기 위한 도면이다.

도 5를 참조하면, 상술한 바와 같이 제1 학습 네트워크 모델은 복수의 레이어를 이용하여 영상(10)의 에지를 강화하도록 학습하는 딥 러닝 모델(Deep Learning Model)이고, 제2 학습 네트워크 모델은 기 학습된 복수의 필터를 이용하여 영상(10)의 텍스처를 강화하도록 학습된 머신 러닝 모델(Machine Learning Model)일 수 있다.

일 실시 예에 따라 딥 러닝 모델은 2개의 컨벌루션 레이어와 하나의 풀링 레이어가 반복되는 형태로 총 10개 이상의 레이어를 포함하는 뎁스(depth) 구조로 모델링될 수 있다. 또한, 딥 러닝 모델은 Identity Function, Logistic Sigmoid Function, Hyperbolic Tangent(tanh) Function, ReLU Function, Leaky ReLU Function 등 다양한 유형의 활성화 함수(Activation function)를 이용하여 연산을 수행할 수 있다. 또한, 딥 러닝 모델은 컨벌루션을 수행하는 과정에서 패딩(padding), 스트라이드(stride) 등을 수행하여 사이즈를 다양하게 조절할 수도 있음은 물론이다. 여기서, 패딩은 수신된 입력 값의 사방에 기설정된 사이즈만큼 특정한 값(예를 들어, 픽셀 값)을 채우는 것을 의미한다. 스트라이드는 컨벌루션 수행 시 가중치 매트릭스의 시프트 간격을 의미한다. 예를 들어, 스타라이드(stride) = 3 이면, 학습 네트워크 모델은 가중치 매트릭스를 세 칸씩 시프트시키면서 입력 값에 대한 컨벌루션을 수행할 수 있다.

일 실시 예에 따라, 딥 러닝 모델은 영상(10)의 다양한 특성 중 사람의 민감도가 높은 일 특성을 강화하도록 학습할 수 있고, 머신 러닝 모델은 기 학습된 복수의 필터를 이용하여 영상(10)의 나머지 특성 중 적어도 하나를 강화시킬 수 있다. 예를 들어, 에지 영역(예를 들어, 에지 방향, 에지 강도)의 선명도와 영상(10)에 대해 사용자가 느끼는 선명함 간에 밀접한 관계가 있는 경우를 상정할 수 있다. 영상 처리 장치(100)는 영상(10)의 에지는 딥 러닝 모델을 이용하여 강화시키고, 나머지 특성 예로, 텍스처는 머신 러닝 모델을 이용하여 강화시킬 수 있다. 딥 러닝 모델은 머신 러닝 모델 보다 방대한 데이터에 기초하여 학습하고, 많은 연산을 수행하므로 처리 결과가 머신 러닝 모델의 처리 결과 보다 우수한 경우를 상정한 것이다. 반드시 이에 한정되지 않으며, 제1 및 제2 학습 네트워크 모델은 모두 딥 러닝 기반의 모델로 구현될 수 있고, 머신 러닝 기반의 모델로 구현될 수도 있음은 물론이다. 또 다른 예로, 제1 학습 네트워크 모델은 머신 러닝 기반의 모델로 구현되고, 제2 학습 네트워크 모델은 딥 러닝 기반의 모델로 구현될 수도 있음은 물론이다.

또한, 제1 학습 네트워크 모델이 에지를 강화시키고, 제2 학습 네트워크 모델이 텍스처를 강화시키는 경우를 상정하여 본 개시의 다양한 실시 예를 설명하였으나, 이에 한정되지 않음은 물론이다. 예를 들어, 영상(10)의 노이즈에 대한 처리 정도와 해당 영상(10)에 대해 사용자가 느끼는 선명함 간에 가장 밀접한 관계가 있는 경우를 상정할 수 있다. 이 경우, 영상 처리 장치(100)는 영상(10)의 노이즈는 딥 러닝 모델을 이용하여 영상 처리하고, 나머지 특성 예로, 텍스처는 머신 러닝 모델을 이용하여 강화시킬 수 있다. 다른 예로, 영상(10)의 밝기에 대한 처리 정도와 해당 영상(10)에 대해 사용자가 느끼는 선명함 간에 가장 밀접한 관계가 있다면, 영상 처리 장치(100)는 영상(10)의 밝기는 딥 러닝 모델을 이용하여 영상 처리하고, 나머지 특성 예로, 노이즈는 머신 러닝 모델을 이용하여 필터링할 수 있다.

도 6은 본 개시의 다른 실시 예에 따른 제1 및 제2 학습 네트워크 모델을 설명하기 위한 도면이다.

본 개시의 일 실시 예에 따른 프로세서(120)는 입력 영상(10')을 다운스케일링하여 상대적으로 저해상도의 영상(10)을 획득하고(S610), 해당 영상(10)에 기초하여 에지 영역 및 텍스처 영역이 식별된 영역 검출 정보를 획득할 수 있다(S620). 도 5에 도시된 실시 예에 따르면, 프로세서(120)는 원본 해상도의 입력 영상(10')에 포함된 에지 영역 및 텍스처 영역을 식별할 수 있다. 도 6을 참조하면, 프로세서(120)는 입력 영상(10')의 해상도가 타겟 해상도로 다운스케일링된 영상(10)에 포함된 에지 영역 및 텍스처 영역을 식별할 수 있다.

이어서, 일 실시 예에 따른 프로세서(120)는 영역 검출 정보 및 영상(10)을 제1 및 제2 학습 네트워크 모델 각각에 제공할 수 있다.

일 실시 예에 따른 제1 학습 네트워크 모델은 영역 검출 정보에 기초하여 영상(10)의 에지 영역만을 강화시키는 업스케일링을 수행할 수 있다(S630). 제2 학습 네트워크 모델은 영역 검출 정보에 기초하여 영상(10)의 텍스처 영역만을 강화시키는 업스케일링을 수행할 수 있다(S640).

다른 예로, 프로세서(120)는 영역 검출 정보에 기초하여 영상(10)에 포함된 픽셀 정보 중 일부만 포함하는 영상을 학습 네트워크 모델에 제공할 수 있다. 프로세서(120)가 영상(10)이 아닌, 영상(10)에 포함된 일부 정보만을 학습 네트워크 모델에 제공하므로, 학습 네트워크 모델의 연산량이 줄어들 수 있다. 예를 들어, 프로세서(120)는 영역 검출 정보에 기초하여 에지 영역에 대응되는 픽셀 정보만을 포함하는 영상을 제1 학습 네트워크로 제공하고, 텍스처 영역에 대응되는 픽셀 정보만을 포함하는 영상을 제2 학습 네트워크 모델로 제공할 수 있다.

이어서, 제1 학습 네트워크 모델은 에지 영역을 업스케일링하여 제1 영상을 획득하고, 제2 학습 네트워크 모델은 텍스처 영역을 업스케일링하여 제2 영상을 획득할 수 있다.

이어서, 프로세서(120)는 제1 및 제2 영상을 입력 영상(10')에 추가하여 출력 영상(20)을 획득할 수 있다(S650).

도 7은 본 개시의 다른 실시 예에 따른 제1 및 제2 학습 네트워크 모델을 설명하기 위한 도면이다.

도 7을 참조하면, 본 개시의 일 실시 예에 따른 프로세서(120)는

본 개시의 일 실시 예에 따른 프로세서(120)는 입력 영상(10')을 제1 학습 네트워크 모델에 적용하여 제1 영상을 획득할 수 있다(S710). 일 예로, 프로세서(120)는 제1 학습 네트워크 모델이 입력 영상(10')에 포함된 에지에 대응되는 고주파 성분을 강화시키는 업스케일링을 수행함에 따라 고해상도의 제1 영상을 획득할 수 있다(S710). 여기서, 제1 영상은 차분 영상일 수 있다. 차분 영상은 원 영상 외에 차분 정보만을 포함하는 영상일 수 있다.

본 개시의 일 실시 예에 따른 프로세서(120)는 입력 영상(10')을 제2 학습 네트워크 모델에 적용하여 제2 영상을 획득할 수 있다(S720). 일 예로, 프로세서(120)는 제2 학습 네트워크 모델이 입력 영상(10')에 포함된 텍스처에 대응되는 고주파 성분을 강화시키는 업스케일링을 수행함에 따라 고해상도의 제2 영상을 획득할 수 있다. 여기서, 제2 영상은 차분 영상일 수 있다.

일 실시 예에 따라 제1 및 제2 학습 네트워크 모델은 각각 입력 영상(10')의 특성 중 적어도 하나의 특성을 강화시키는 업스케일링을 수행하므로, 제1 및 제2 영상은 입력 영상(10') 대비 고해상도이다. 예를 들어, 입력 영상(10')의 해상도가 2K이면, 제1 및 제2 영상 해상도는 4K일 수 있고, 입력 영상(10')의 해상도가 4K이면, 제1 및 제2 영상 해상도는 8K일 수 있다.

본 개시의 일 실시 예에 따른 프로세서(120)는 입력 영상(10')을 업스케일링하여 제3 영상을 획득할 수 있다(S730). 일 실시 예에 따라 영상 처리 장치(100)는 입력 영상(10')을 업스케일링하는 별도의 프로세서를 구비할 수도 있고, 프로세서(120)가 입력 영상(10')을 업스케일링하여 고해상도의 제3 영상을 획득할 수도 있음은 물론이다. 예를 들어, 프로세서(120)는 입력 영상(10')에 양선형 보간 (bilinear interpolation), 바이큐빅 보간 (bicubic interpolation), 큐빅 스플라인 보간 (cubic spline interpolation), 란조쉬 보간(Lanczos interpolation) 및 에지 방향 보간 (edge directed interpolation; EDI) 등을 이용한 업스케일링을 수행할 수 있다. 한편, 이는 일 실시 예에 불과하며 프로세서(120)는 다양한 업스케일링(또는, 초해상화(Super-Resolution)) 방법에 기초하여 입력 영상(10')을 업스케일링할 수 있다.

다른 예로, 프로세서(120)는 입력 영상(10')을 제3 학습 네트워크 모델에 적용하여 입력 영상(10')에 대응되는 고해상도의 제3 영상을 획득할 수도 있다. 여기서, 제3 학습 네트워크 모델은 딥 러닝 기반 또는 머신 러닝 기반의 모델일 수 있다. 일 실시 예에 따라 입력 영상(10')의 해상도가 4k이면, 제3 영상의 해상도는 8k일 수 있다. 일 실시 예에 따라, 제1 내지 제3 영상의 해상도는 동일할 수 있다.

이어서, 프로세서(120)는 제1 내지 제3 영상을 믹싱하여 출력 영상(20)을 획득할 수 있다(S740).

일 실시 예에 따른 프로세서(120)는 입력 영상(10')에서 에지를 강화시켜 업스케일링한 제1 차분 영상, 입력 영상(10')에서 텍스처를 강화시켜 업스케일링한 제2 차분 영상 및 입력 영상(10')을 업스케일링한 제3 영상을 믹싱하여 출력 영상을 획득할 수 있다. 여기서, 프로세서(120)는 입력 영상(10')에서 에지 영역을 식별하고, 식별된 에지 영역을 제1 학습 네트워크 모델에 적용하여 해당 에지 영역을 강화시켜 업스케일링된 제1 차분 영상을 획득할 수 있다. 또한, 프로세서(120)는 입력 영상(10')에서 텍스처 영역을 식별하고, 식별된 텍스처 영역을 제2 학습 네트워크 모델에 적용하여 해당 텍스처 영역을 강화시켜 업스케일링된 제2 차분 영상을 획득할 수 있다. 한편, 이는 일 실시 예로 이에 한정되지 않음은 물론이다. 예를 들어, 프로세서(120)는 입력 영상(10')을 제1 및 제2 학습 네트워크 모델에 적용할 수 있다. 이어서, 제1 학습 네트워크 모델은 입력 영상(10')의 다양한 특성 중 에지 특성에 기초하여 에지 영역을 식별하고, 식별된 에지 영역을 강화시켜 업스케일링된 고 해상도의 제1 차분 영상을 획득할 수 있다. 제2 학습 네트워크 모델은 입력 영상(10')의 다양한 특성 중 텍스처 특성에 기초하여 텍스처 영역을 식별하고, 식별된 텍스처 영역을 강화시켜 업스케일링된 고 해상도의 제2 차분 영상을 획득할 수 있다.

일 실시 예에 따른 프로세서(120)는 입력 영상(10')을 업스케일링하여 고 해상도의 제3 영상을 획득할 수 있다. 여기서, 제3 영상은 차분 영상이 아닌, 원본 영상을 업스케일링하여 획득된 영상일 수 있다.

본 개시의 일 실시 예에 따라 프로세서(120)는 제1 내지 제3 영상을 믹싱하여 입력 영상(10') 보다 고 해상도의 출력 영상(20)을 획득할 수 있다. 여기서, 출력 영상(20)은 해상도만 업스케일링된 영상이 아닌, 에지 영역 및 텍스처 영역이 강화된 업스케일링 영상일 수 있다. 한편, 이는 일 실시 예로서 프로세서(120)는 입력 영상(10')의 다양한 특성이 강화된 복수의 차분 영상을 획득하고, 입력 영상(10')을 업스케일링한 제3 영상과 복수의 차분 영상을 믹싱하여 출력 영상(20)을 획득할 수 있음은 물론이다.

도 8은 본 개시의 일 실시 예에 따른 제2 학습 네트워크 모델의 동작을 개략적으로 설명하기 위한 도면이다.

일 실시 예에 따른 프로세서(120)는 영상(10)을 제2 학습 네트워크에 적용하여 텍스처가 강화된 제2 영상을 획득할 수 있다.

본 개시의 일 실시 예에 따른 제2 학습 네트워크 모델은 복수의 이미지 패턴 각각에 대응되는 복수의 필터를 저장할 수 있다. 여기서, 복수의 이미지 패턴은 이미지 블록의 특성에 따라 분류될 수 있다. 예를 들어, 제1 이미지 패턴은 수평 방향의 선이 많은 이미지 패턴이고, 제2 이미지 패턴은 회전 방향의 선이 많은 이미지 패턴일 수 있다. 복수의 필터는 인공지능 알고리즘을 통해 기 학습된 필터일 수 있다.

일 실시 예에 따른 제2 학습 네트워크 모델은 영상(10)에서 기 설정된 크기의 이미지 블록을 독출할 수 있다. 여기서, 이미지 블록은 영상(10)에 포함된 대상 픽셀 및 복수의 주변 픽셀을 포함하는 복수의 픽셀들의 그룹일 수 있다. 일 예로, 제2 학습 네트워크 모델은 영상(10)의 좌측 상단 3 X 3의 제1 이미지 블록을 독출하고, 제1 이미지 블록을 이미지 처리할 수 있다. 그리고, 제2 학습 네트워크 모델은 영상(10)의 좌측 상단에서 단위 픽셀만큼 우측으로 이동하여 3 Х 3의 제2 이미지 블록을 독출하고, 제2 이미지 블록을 이미지 처리할 수 있다. 이러한 방식으로 제2 학습 네트워크 모델은 영상(10)에 대한 이미지 처리를 수행할 수 있다. 한편, 제2 학습 네트워크 모델이 영상(10)에서 제1 내지 제n 이미지 블록을 자체적으로 독출할 수도 있고, 프로세서(120)에 제1 내지 제n 이미지 블록을 순차적으로 제2 학습 네트워크 모델에 적용하여 영상(10)에 대한 이미지 처리를 수행할 수도 있음은 물론이다.

제2 학습 네트워크 모델은 이미지 블록에서 고주파 성분을 검출하기 위해 해당 이미지 블록에 기 설정된 크기의 필터를 적용할 수 있다. 일 예로, 제2 학습 네트워크 모델은 이미지 블록의 크기에 대응되는 3 Х 3 라플라시안(Laplacian) 필터(810)를 해당 이미지 블록에 적용하여 영상(10)에서 저주파 성분을 소거하고 고주파 성분을 검출할 수 있다. 다른 예로, 제2 학습 네트워크 모델은 이미지 블록에 소벨(Sobel), 프르윗(Prewitt) 로버트(Robert), 캐니(Canny) 등 다양한 유형의 필터를 적용하여 영상(10)의 고주파 성분을 획득할 수 있다.

이어서, 제2 학습 네트워크 모델은 이미지 블록으로부터 획득된 고주파 성분에 기초하여 그래디언트(gradient) 벡터(820)를 산출할 수 있다. 특히, 제2 학습 네트워크 모델은 수평 그래디언트 및 수직 그래디언트를 산출하고, 수평 그래디언트 및 수직 그래디언트에 기초하여 그래디언트 벡터를 산출할 수 있다. 여기서, 그래디언트 벡터는 각 픽셀을 기준으로 기설정된 방향에 있는 픽셀에 대한 변화량을 나타낼 수 있다. 제2 학습 네트워크 모델은 그래디언트 벡터의 방향성에 기초하여 이미지 블록을 복수의 이미지 패턴 중 하나로 분류할 수 있다.

이어서, 제2 학습 네트워크 모델은 인덱스 매트릭스(Index Matrix, 850)를 이용하여 영상(10)에서 검출된 고주파 성분에 적용될 필터를 써치(Filter Search, 830)할 수 있다. 구체적으로, 제2 학습 네트워크 모델은 인덱스 매트릭스에 기초하여 이미지 블록의 패턴을 인디케이팅하는 인덱스 정보를 식별하고, 인덱스 정보를 대응되는 필터를 써치(830)할 수 있다. 예를 들어, 제2 학습 네트워크 모델은 이미지 블록의 패턴을 인디케이팅하는 1 내지 32의 인덱스 정보 중 해당 이미지 블록에 대응되는 인덱스 정보가 32로 식별되면, 복수의 필터 중 인덱스 정보 32에 팹핑된 필터를 획득할 수 있다. 한편, 구체적인 값은 일 예시에 불과하며, 인덱스 정보는 필터들의 개수에 따라 감소 또는 증가할 수 있음은 물론이다. 인덱스 정보는 정수 외에도 다양한 방법으로 표현될 수 있음은 물론이다.

이후, 제2 학습 네트워크 모델은 필터 데이터베이스(Filter DB, 860)에 포함된 복수의 필터 중 써치 결과에 기초하여 적어도 하나의 필터를 획득하고, 이미지 블록에 적어도 하나의 필터를 적용(840)하여 제2 영상을 획득할 수 있다. 일 예로, 제2 학습 네트워크 모델은 써치 결과에 기초하여 복수의 필터 중 이미지 블록의 패턴에 대응되는 필터를 식별하고, 이미지 블록에 식별된 필터를 적용하여 텍스처 영역을 업스케일링한 제2 영상을 획득할 수 있다.

여기서, 필터 데이터베이스(860)에 포함된 필터는 저해상도 이미지 블록과 고해상도 이미지 블록의 관계를 인공지능 알고리즘을 통해 학습한 결과에 따라 획득될 수 있다. 예를 들어, 제2 학습 네트워크 모델은 저해상도의 제1 이미지 블록과 해당 제1 이미지 블록의 텍스처 영역을 업스케일링한 고해상도의 제2 이미지 블록 간의 관계를 인공지능 알고리즘을 통해 학습하여 제1 이미지 블록에 적용하기 위한 필터를 식별할 수 있고, 식별된 필터를 필터 데이터베이스(860)에 저장할 수 있다. 다만, 이는 일 실시 예로 이에 한정되지 않는다. 예를 들어, 제2 학습 네트워크 모델은 이미지 블록의 다양한 특성들 중 적어도 하나를 강화시키는 필터를 인공지능 알고리즘을 이용한 학습 결과를 통해 식별하고, 식별된 필터를 필터 데이터베이스(860)에 저장할 수 있다.

도 9는 본 개시의 일 실시 예에 따른 인덱스 정보를 설명하기 위한 도면이다.

본 개시의 일 실시 예에 따른 프로세서(120)는 분류된 각 이미지 블록들에 대응되는 이미지 패턴의 인덱스 정보를 누적시켜 누적 결과를 획득할 수 있다. 도 9을 참조하면, 프로세서(120)는 이미지 패턴을 인디케이팅하는 인덱스 정보들 중 이미지 블록의 이미지 패턴에 대응되는 인덱스 정보를 획득할 수 있다. 이어서, 프로세서(120)는 영상(10)에 포함된 복수의 이미지 블록 각각의 인덱스 정보를 누적시켜 도 9에 도시된 바와 같이 누적 결과를 획득할 수 있다.

프로세서(120)는 누적 결과를 분석하여 영상(10)을 자연 영상 또는 그래픽 영상 중 어느 하나로 식별할 수 있다. 예를 들어, 프로세서(120)는 누적 결과에 기초하여 영상(10)에 포함된 이미지 블록들 중 패턴을 포함하지 않는(또는, 방향성을 띄지 않는) 이미지 블록의 개수가 임계 값 이상이면, 영상(10)을 그래픽 영상으로 식별할 수 있다. 다른 예로, 누적 결과에 따라 영상(10)에 포함된 이미지 블록들 중 패턴을 포함하지 않는 이미지 블록의 개수가 임계 값 미만이면, 영상(10)을 자연 영상으로 식별할 수 있다. 또 다른 예로, 프로세서(120)는 누적 결과에 기초하여 수직 방향의 패턴 또는 수평 방향의 패턴을 가지는 이미지 블록의 개수가 임계 값 이상이면, 영상(10)을 자연 영상으로 식별할 수 있다. 한편, 이는 일 실시 예로 임계 값은 제조사의 목적, 사용자의 설정에 따라 변경될 수 있음은 물론이다.

또 다른 예로, 프로세서(120)는 누적 결과에 기초하여 특정 인덱스 정보의 개수 및 비율을 산출하고, 산출 결과에 기초하여 영상(10)을 자연 영상 또는 그래픽 영상을 식별할 수 있다. 예를 들어, 프로세서(120)는 누적 결과에 기초하여 적어도 3개의 특성(feature)을 산출할 수 있다.

인덱스 정보들 중 특정 인덱스 정보가 패턴이 식별되지 않은(또는, 방향성을 띄지 않는) 이미지 블록을 인디케이팅하는 정보이면, 프로세서(120)는 누적 결과에서 해당 인덱스 정보의 비율을 산출할 수 있다. 패턴이 식별되지 않은 이미지 블록을 평탄 영역을 포함하는 이미지 블록으로 통칭한다. 전제 이미지 블록 중 평탄 영역을 포함하는 이미지 블록의 비율은 아래의 수학식 3에 기초하여 산출할 수 있다.

여기서, Histogram[i]는 누적 결과에 기초하여 식별된 인덱스 정보 i를 가지는 이미지 블록의 개수를 의미한다. 또한, Histogram[32]는 평탄 영역을 포함하는 이미지 블록을 인디케이팅하는 인덱스 정보가 32인 경우를 상정하여, 인덱스 정보 32를 가지는 이미지 블록의 개수를 의미하고, P1은 전제 이미지 블록 중 평탄 영역을 포함하는 이미지 블록의 비율을 의미한다.

프로세서(120)는 이미지 블록이 패턴을 포함하면, 해당 패턴이 이미지 블록 내의 중심 영역에 위치하는지 여부를 인덱스 정보에 기초하여 식별할 수 있다. 일 예로, 인덱스 정보가 13 내지 16인 이미지 블록은 인덱스 정보가 1 내지 12 및 17 내지 31인 이미지 블록 보다 패턴이 블록 내의 중심 영역에 위치할 수 있다. 이미지 패턴이 이미지 블록 내의 중심 영역에 위치하는 이미지 블록을 중심 분포 이미지 블록으로 통칭한다. 이어서, 프로세서(120)는 누적 결과에 기초하여 중심 분포 이미지 블록의 비율을 아래의 수학식 4에 기초하여 산출할 수 있다.

여기서, 프로세서(120)는 평탄 영역을 포함하는 이미지 블록을 제외하고, 패턴을 포함하는 이미지 블록의 개수를 식별하기 위해 인덱스 정보 1 내지 31을 가지는 이미지 블록의 개수(

)를 산출할 수 있다. 또한, 프로세서(120)는 중심 분포 이미지 블록의 개수(

)를 산출할 수 있다. 한편, 패턴이 이미지 블록 내의 중심 영역에 위치하는 경우로서 이미지 블록의 인덱스 정보 13 내지 15는 일 실시 예이며, 반드시 이에 한정되지 않음은 물론이다. 다른 예로, 인덱스 정보 11 내지 17의 개수에 기초하여 P2를 산출할 수 있음은 물론이다.

이어서, 프로세서(120)는 영상(10)에 포함된 복수의 이미지 블록 각각의 인덱스 정보에 기초하여 영상(10)의 평균 인덱스 정보를 획득할 수 있다. 일 실시 예에 따라 프로세서(120)는 아래의 수학식 5에 기초하여 산출할 수 있다.

여기서, i는 인덱스 정보, Histogram[i]는 인덱스 정보 i에 대응되는 이미지 블록의 개수, P3는 평균 인덱스 정보를 의미한다.

일 실시 예에 따른 프로세서(120)는 아래의 수학식 6에 기초하여 산출할 수 있다.

여기서, P1은 평탄 영역을 포함하는 이미지 블록의 비율, P2는 중심 분포 이미지 블록의 비율 및 P3는 평균 인덱스 정보를 의미하고, W1, W2, W3, Bias는 인공지능 알고리즘 모델을 이용하여 기 학습된 파라미터를 의미한다.

일 실시 예에 따른 프로세서(120)는 Y 값이 0을 초과하면, 영상(10)을 그래픽 영상으로 식별하고, Y 값이 0 이하이면, 영상(10)을 자연 영상으로 식별할 수 있다.

이어서, 프로세서(120)는 식별 결과에 기초하여 제1 영상 및 제2 영상 각각에 대응되는 제1 및 제2 가중치를 조정할 수 있다. 일 예로, 프로세서(120)는 영상(10)이 자연 영상으로 식별되면, 제1 영상에 대응되는 제1 가중치 또는 제2 영상에 대응되는 제2 가중치 중 적어도 하나를 증가시킬 수 있다. 프로세서(120)는 수학식 1 및 수학식 2의 파라미터 a 또는 b 중 적어도 하나를 증가시킬 수 있다. 영상(10)이 자연 영상이면, 프로세서(120)는 영상(10) 또는 입력 영상(10')에 에지가 강화된 제1 영상 또는 텍스처가 강화된 제2 영상을 추가함에 따라 고해상도의 선명도가 개선된 영상을 획득할 수 있으므로 제1 또는 제2 가중치 중 적어도 하나를 증가시킬 수 있다.

다른 예로, 프로세서(120)는 영상(10)이 그래픽 영상으로 식별되면, 제1 영상에 대응되는 제1 가중치 또는 제2 영상에 대응되는 제2 가중치 중 적어도 하나를 감소시킬 수 있다. 프로세서(120)는 수학식 1 및 수학식 2의 파라미터 a 또는 b 중 적어도 하나를 감소시킬 수 있다. 영상(10)이 그래픽 영상이면, 프로세서(120)는 영상(10) 또는 입력 영상(10')에 에지가 강화된 제1 영상 또는 텍스처가 강화된 제2 영상을 추가함에 따라 왜곡이 발생한 영상을 획득할 수 있으므로 제1 또는 제2 가중치 중 적어도 하나를 감소시켜 왜곡의 발생을 최소화시킬 수 있다.

여기서, 그래픽 영상은 컴퓨터, 영상 장치 등을 이용해 실제 세계의 영상을 조작하거나 새롭게 만들어낸 영상을 의미할 수 있다. 예를 들어, 그래픽 영상은 공지의 소프트웨어를 이용하여 생성한 일러스트 영상, 컴퓨터 그래픽(CG) 영상, 애니메이션 영상 등을 포함할 수 있다. 자연 영상은 그래픽 영상 외에 나머지 영상을 의미할 수 있다. 예를 들어, 자연 영상은 실제 세계가 촬영 장치에 의해 촬영된 영상, 풍경 영상, 인물 영상 등을 포함할 수 있다.

도 10은 본 개시의 일 실시 예에 따른 최종 출력 영상을 획득하는 방법을 설명하기 위한 도면이다.

본 개시의 일 실시 예에 따라, 최종 출력 영상(30'), 즉, 디스플레이되는 영상의 해상도가 출력 영상(30)보다 고해상도의 영상인 경우, 프로세서(120)는 출력 영상(30)을 업스케일링하여 최종 출력 영상(30')을 획득할 수 있다(S350). 예를 들어, 출력 영상(30)이 4K UHD 영상이고, 최종 출력 영상이 8K 영상이면, 프로세서(120)는 출력 영상(30)을 8K UHD 영상으로 업스케일링하여 최종 출력 영상(30')을 획득할 수 있다. 한편, 다른 실시 예에 따르면, 출력 영상(30)에 대한 업스케일링을 수행하는 별도의 프로세서(미도시)가 영상 처리 장치(100)에 구비될 수 있다. 예를 들어, 영상 처리 장치(100)는 제1 및 제2 프로세서를 포함하고, 제1 프로세서를 이용하여 에지 및 텍스처가 강화된 출력 영상(30)을 획득하고, 제2 프로세서를 이용하여 출력 영상(30)의 해상도가 확대된 고 해상도의 최종 출력 영상(30')을 획득할 수 있다.

한편, 본 개시의 다양한 실시 예에 따른 제1 및 제2 학습 네트워크 모델 각각은 외부 장치에 의존하지 않고 영상 처리 장치(100) 자체적으로 학습을 수행하는 온 디바이스 머신 러닝 모델(On-device Machine Learning Model)일 수 있다. 한편, 이는 일 실시 예이고, 일부 학습 네트워크 모델은 온 디바이스(On-device) 기반으로 동작하고, 나머지 학습 네트워크 모델은 외부 서버 기반으로 동작하는 형태로 구현될 수도 있음은 물론이다.

도 11은 도 2에 도시된 영상 처리 장치의 세부 구성을 나타내는 블록도이다.

도 11에 따르면, 영상 처리 장치(100)는 메모리(110), 프로세서(120), 입력부(130), 디스플레이(140), 출력부(150) 및 사용자 인터페이스(160)을 포함한다. 도 9에 도시된 설명 중 도 2에 도시된 구성과 중복되는 구성에 대해서는 자세한 설명을 생략하도록 한다.

본 개시의 일 실시 예에 따르면, 메모리(110)는 본 개시에 따른 다양한 동작들에서 생성되는 데이터를 저장하는 단일 메모리로 구현될 수 있다,

다만, 본 개시의 다른 실시 예에 따르면, 메모리(110)는 제1 내지 제3 메모리를 포함하도록 구현될 수 있다.

제1 메모리는 입력부(130)를 통해 입력된 영상 중 적어도 일부를 저장할 수 있다. 특히, 제1 메모리는 입력된 영상 프레임 중 적어도 일부 영역을 저장할 수 있다. 이 경우 적어도 일부 영역은 본 개시의 일 실시 예에 따른 영상 처리를 수행하기에 필요한 영역이 될 수 있다. 일 실시 예에 따라, 제1 메모리는 N 라인 메모리로 구현될 수 있다. 예를 들어, N 라인 메모리는 세로 방향으로 17 라인 상당의 용량을 가지는 메모리가 될 수 있으나, 이에 한정되는 것은 아니다. 예를 들어, 1080p(1,920×1,080의 해상도)의 Full HD 영상이 입력되는 경우 Full HD 영상에서 17 라인의 영상 영역 만이 제1 메모리에 저장된다. 이와 같이 제1 메모리는 N 라인 메모리로 구현되고, 입력된 영상 프레임 중 일부 영역 만이 영상 처리를 위해 저장되는 이유는 하드웨어적 한계에 따라 제1 메모리의 메모리 용량이 제한적이기 때문이다. 제2 메모리는 메모리(110) 전체 영역 중 학습 네트워크 모델에 할당된 메모리 영역을 의미할 수도 있다.

제3 메모리는 제1 및 제2 영상, 출력 영상이 저장되는 메모리로, 본 개시의 다양한 실시 예에 따라 다양한 사이즈의 메모리로 구현될 수 있다. 일 실시 예에 따라 프로세서(120)는 입력 영상(10')을 다운스케일링한 영상(10)을 제1 및 제2 학습 네트워크 모델에 적용하므로, 제1 및 제2 학습 네트워크 모델로부터 획득한 제1 및 제2 영상을 저장하는 제3 메모리의 사이즈는 제1 메모리와 동일 유사한 사이즈로 구현될 수 있다.

입력부(130)는 다양한 타입의 컨텐츠, 예를 들어 영상 신호를 수신한다. 예를 들어 입력부(130)는 AP 기반의 Wi-Fi(와이파이, Wireless LAN 네트워크), 블루투스(Bluetooth), 지그비(Zigbee), 유/무선 LAN(Local Area Network), WAN, 이더넷, LTE, 5G(5th-generation), IEEE 1394, HDMI(High Definition Multimedia Interface), MHL (Mobile High-Definition Link), USB (Universal Serial Bus), DP(Display Port), 썬더볼트(Thunderbolt), VGA(Video Graphics Array)포트, RGB 포트, D-SUB(D-subminiature), DVI(Digital Visual Interface) 등과 같은 통신 방식을 통해 외부 장치(예를 들어, 소스 장치), 외부 저장 매체(예를 들어, USB), 외부 서버(예를 들어 웹 하드) 등으로부터 스트리밍 또는 다운로드 방식으로 영상 신호를 입력받을 수 있다. 특히, 5G 통신 시스템은 초고주파(mmWave) 대역 (예를 들어, 26, 28, 38, 60GHz 대역 등의 밀리미터 파 주파수 대역)을 이용하는 통신으로서, 영상 처리 장치(100)는 스트리밍 환경에서 4K, 8K UHD 영상을 전송 또는 수신할 수 있다

여기서, 영상 신호는 디지털 신호가 될 수 있으나 이에 한정되는 것은 아니다.

디스플레이(140)는 LCD(liquid crystal display), OLED(organic light-emitting diode), ED(Light-Emitting Diode), Micro LED, QLED(Quantum dot light-emitting diodes), LCoS(Liquid Crystal on Silicon), DLP(Digital Light Processing), QD(quantum dot) 디스플레이 패널 등과 같은 다양한 형태로 구현될 수 있다. 특히, 본 개시의 일 실시 예에 따른 프로세서(120)는 출력 영상(30) 또는 최종 출력 영상(30')을 디스플레이하도록 디스플레이(140)를 제어할 수 있다. 여기서, 최종 출력 영상(30')은 4K 또는 8K UHD의 실시간 영상, 스트리밍 영상 등을 포함할 수 있다.

출력부(150)는 음향 신호를 출력한다.

예를 들어, 출력부(150)는 프로세서(120)에서 처리된 디지털 음향 신호를 아날로그 음향 신호로 변환하고 증폭하여 출력할 수 있다. 예를 들어, 출력부(150)는 적어도 하나의 채널을 출력할 수 있는, 적어도 하나의 스피커 유닛, D/A 컨버터, 오디오 앰프(audio amplifier) 등을 포함할 수 있다. 일 예에 따라 출력부(150)는 다양한 멀티 채널 음향 신호를 출력하도록 구현될 수 있다. 이 경우, 프로세서(120)는 입력 영상의 인핸스 처리에 대응되도록 입력된 음향 신호를 인핸스 처리하여 출력하도록 출력부(150)를 제어할 수 있다. 예를 들어, 프로세서(120)는 입력된 2채널 음향 신호를 가상의 멀티 채널(예를 들어, 5.1 채널) 음향 신호로 변환하거나, 영상 처리 장치(100')가 놓인 위치를 인식해 공간에 최적화된 입체 음향 신호로 처리하거나, 입력 영상의 타입(예를 들어 컨텐츠 장르)에 따라 최적화된 음향 신호를 제공할 수 있다. 사용자 인터페이스(160)는 버튼, 터치 패드, 마우스 및 키보드와 같은 장치로 구현되거나, 상술한 디스플레이 기능 및 조작 입력 기능도 함께 수행 가능한 터치 스크린, 리모콘 수신부 등으로 구현될 수 있다. 리모콘 송수신부는 적외선 통신, 블루투스 통신 또는 와이파이 통신 중 적어도 하나의 통신 방식을 통해 외부 원격 제어 장치로부터 리모콘 신호를 수신하거나, 리모콘 신호를 송신할 수 있다.한편, 도 9에는 도시되지 않았지만, 본 개시의 실시 예에 따른 영상 처리 전에 입력 영상의 노이즈를 제거하는 프리 필터링을 추가적으로 적용하는 것도 가능하다. 예를 들어, 가우시안 필터와 같은 스무딩 필터(Smoothing Filter), 입력 영상을 기설정된 가이던스(guidance)에 대비시켜 필터링하는 가이디드(guided) 필터 등을 적용하여 두드러진 노이즈를 제거할 수 있다.

도 12는 본 개시의 일 실시 예에 따른 학습 네트워크 모델을 학습하고 이용하기 위한 영상 처리 장치의 구성을 나타내는 블록도이다.

도 12을 참조하면, 프로세서(120)는 학습부(1210) 및 인식부(1220) 중 적어도 하나를 포함할 수 있다. 도 12의 프로세서(120)는 도 2의 영상 처리 장치(100)의 프로세서(120) 또는 데이터 학습 서버(미도시)의 프로세서에 대응될 수 있다.

제1 및 제2 학습 네트워크 모델을 학습하고 이용하기 위한 영상 처리 장치(100)의 프로세서(120)는 학습부(1210) 및 인식부(1220) 중 적어도 하나를 포함할 수 있다.

일 실시 예에 따른 학습부(1210)는 영상(10)의 특성을 강화시킨 영상을 획득하고, 영상(10)과 해당 특성이 강화된 영상에 기초하여 출력 영상을 획득할 수 있다. 이어서, 학습부(1210)는 영상(10)의 왜곡을 최소화하며 영상(10)에 대응되는 고해상도의 업스케일링 영상을 획득하기 위한 기준을 갖는 인식 모델을 생성 또는 학습시킬 수 있다. 학습부(1210)는 수집된 학습 데이터를 이용하여 판단 기준을 갖는 인식 모델을 생성할 수 있다.

일 예로, 학습부(1210)는 출력 영상(30)이 입력 영상(10') 보다 에지 또는 텍스처 영역 중 적어도 하나가 강화되도록 학습 네트워크 모델을 생성, 학습 또는 갱신시킬 수 있다.

인식부(1220)는 소정의 데이터(예를 들어, 입력 영상)를 학습된 인식 모델의 입력 데이터로 사용하여, 소정의 데이터에 포함된 인식 대상 또는 상황을 추정할 수 있다.

학습부(1210)의 적어도 일부 및 인식부(1220)의 적어도 일부는, 소프트웨어 모듈로 구현되거나 적어도 하나의 하드웨어 칩 형태로 제작되어 영상 처리 장치에 탑재될 수 있다. 예를 들어, 학습부(1210) 및 인식부(1220) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 영상 처리 장치 또는 객체 인식 장치에 탑재될 수도 있다. 이때, 인공 지능을 위한 전용 하드웨어 칩은 확률 연산에 특화된 전용 프로세서로서, 기존의 범용 프로세서보다 병렬처리 성능이 높아 기계 학습과 같은 인공 지능 분야의 연산 작업을 빠르게 처리할 수 있다. 학습부(1210) 및 인식부(1220)가 소프트웨어 모듈(또는, 인스트럭션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 이 경우, 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 또는, 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.

이 경우, 학습부(1210) 및 인식부(1220)는 하나의 영상 처리 장치에 탑재될 수도 있으며, 또는 별개의 영상 처리 장치들에 각각 탑재될 수도 있다. 예를 들어, 학습부(1210) 및 인식부(1220) 중 하나는 영상 처리 장치(100)에 포함되고, 나머지 하나는 외부의 서버에 포함될 수 있다. 또한, 학습부(1210) 및 인식부(1220)는 유선 또는 무선으로 통하여, 학습부(1210)가 구축한 모델 정보를 인식부(1220)로 제공할 수도 있고, 학습부(1220)로 입력된 데이터가 추가 학습 데이터로서 학습부(1210)로 제공될 수도 있다.

도 13은 본 개시의 일 실시 예에 따른 영상 처리 방법을 설명하기 위한 흐름도이다.

도 13에 도시된 영상 처리 방법에 따르면, 우선, 영상을 제1 학습 네트워크 모델에 적용하여 영상의 에지가 강하된 제1 영상을 획득한다(S1310).

이어서, 영상을 제2 학습 네트워크 모델에 적용하여 영상의 텍스처가 강화된 제2 영상을 획득한다(S1320).

이어서, 영상에 포함된 에지 영역 및 텍스처 영역을 식별하고, 에지 영역 및 텍스처 영역에 대한 정보에 기초하여 제1 영상에 제1 가중치를 적용하고 제2 영상에 제2 가중치를 적용하여 출력 영상을 획득한다(S1330).

여기서, 제1 학습 네트워크 모델과 제2 학습 네트워크 모델은 서로 다른 종류의 학습 네트워크 모델일 수 있다.

본 개시의 일 실시 예에 따른 제1 학습 네트워크 모델은, 복수의 레이어를 이용하여 상기 영상의 에지를 강화하도록 학습하는 딥 러닝 모델(Deep Learning Model) 또는 기 학습된 복수의 필터를 이용하여 상기 영상의 에지를 강화하도록 학습된 머신 러닝 모델(Machine Learning Model) 중 하나일 수 있다.

또한, 본 개시의 일 실시 예에 따른 제2 학습 네트워크 모델은, 복수의 레이어를 이용하여 영상의 텍스쳐를 강화하도록 학습하는 딥 러닝 모델(Deep Learning Model) 또는 기 학습된 복수의 필터를 이용하여 영상의 텍스처를 강화하도록 학습된 머신 러닝 모델(Machine Learning Model) 중 하나일 수 있다.

또한, 출력 영상을 획득하는 S1330 단계는, 에지 영역 및 텍스처 영역의 비율 정보에 기초하여 에지 영역에 대응되는 제1 가중치 및 텍스처 영역에 대응되는 제2 가중치를 획득하는 단계를 포함할 수 있다.

또한, 본 개시의 일 실시 예에 따른 영상 처리 방법은 입력 영상을 다운스케일링(Down Scaling)하여 입력 영상 보다 저해상도의 영상을 획득하는 단계를 포함하고, 제1 학습 네트워크 모델은, 영상의 에지를 강화시키는 업스케일링(Up Scaling)을 수행하여 제1 영상을 획득하고, 제2 학습 네트워크 모델은, 영상의 텍스처를 강화시키는 업스케일링을 수행하여 제2 영상을 획득할 수 있다.

본 개시의 일 실시 예에 따른 영상 처리 방법은 다운스케일링된 영상에 기초하여 에지 영역 및 텍스처 영역이 식별된 영역 검출 정보를 획득하는 단계 및 영역 검출 정보 및 영상을 제1 및 제2 학습 네트워크 모델 각각에 제공하는 단계를 포함할 수 있다.

여기서, 영역 검출 정보 및 영상을 제1 및 제2 학습 네트워크 모델 각각에 제공하는 단계는, 영역 검출 정보에 기초하여 에지 영역에 대응되는 픽셀 정보만을 포함하는 영상을 제1 학습 네트워크 모델로 제공하는 단계 및 텍스처 영역에 대응되는 픽셀 정보만 포함하는 영상을 제2 학습 네트워크 모델로 제공하는 단계를 포함하고, 제1 학습 네트워크 모델은 에지 영역을 업스케일링하여 제1 영상을 획득하고, 제2 학습 네트워크 모델은 텍스처 영역을 업스케일링하여 제2 영상을 획득하는 할 수 있다.

본 개시의 일 실시 예에 따른, 제1 및 제2 영상 각각은 제1 및 제2 차분 영상이고, 출력 영상을 획득하는 S1330 단계는, 제1 차분 영상에 제1 가중치를 적용하고, 제2 차분 영상에 제2 가중치를 적용한 후 영상과 믹싱(Mixing)하여 출력 영상을 획득할 수 있다.

또한, 제2 학습 네트워크 모델은, 복수의 이미지 패턴 각각에 대응되는 복수의 필터를 저장하며, 영상에 포함된 이미지 블록들 각각을 복수의 이미지 패턴 중 하나로 분류하고, 복수의 필터 중 분류된 이미지 패턴에 대응되는 적어도 하나의 필터를 이미지 블록에 적용하여 제2 영상을 제공하는 모델일 수 있다.

본 개시의 일 실시 예에 따른 출력 영상을 획득하는 S1330 단계는, 분류된 각 이미지 블록들에 대응되는 이미지 패턴의 인덱스 정보를 누적시켜 누적 결과에 기초하여 영상을 자연 영상 또는 그래픽 영상 중 어느 하나로 식별하는 단계 및 식별 결과에 기초하여 가중치를 조정하는 단계를 포함할 수 있다.

여기서, 가중치를 조정하는 단계는, 영상이 자연 영상으로 식별되면, 제1 영상에 대응되는 제1 가중치 또는 제2 영상에 대응되는 제2 가중치 중 적어도 하나를 증가시키는 단계 및 영상이 그래픽 영상으로 식별되면, 제1 가중치 또는 제2 가중치 중 적어도 하나를 감소시키는 단계를 포함할 수 있다.

또한, 출력 영상은, 4K UHD(Ultra High Definition) 영상이고, 출력 영상을 8K UHD 영상으로 업스케일링하는 단계를 포함할 수 있다.

다만, 본 개시의 다양한 실시 예들은 영상 처리 장치 뿐 아니라, 셋탑 박스와 같은 영상 수신 장치, 영상 처리 장치 등 영상 처리가 가능한 모든 전자 장치에 적용될 수 있음은 물론이다.

한편, 이상에서 설명된 다양한 실시 예들은 소프트웨어(software), 하드웨어(hardware) 또는 이들의 조합을 이용하여 컴퓨터(computer) 또는 이와 유사한 장치로 읽을 수 있는 기록 매체 내에서 구현될 수 있다. 일부 경우에 있어 본 명세서에서 설명되는 실시 예들이 프로세서(120) 자체로 구현될 수 있다. 소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시 예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 동작을 수행할 수 있다.

한편, 상술한 본 개시의 다양한 실시 예들에 따른 음향 출력 장치(100)의 프로세싱 동작을 수행하기 위한 컴퓨터 명령어(computer instructions)는 비일시적 컴퓨터 판독 가능 매체(non-transitory computer-readable medium) 에 저장될 수 있다. 이러한 비일시적 컴퓨터 판독 가능 매체에 저장된 컴퓨터 명령어는 특정 기기의 프로세서에 의해 실행되었을 때 상술한 다양한 실시 예에 따른 음향 출력 장치(100)에서의 처리 동작을 특정 기기가 수행하도록 한다.

비일시적 컴퓨터 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 비일시적 컴퓨터 판독 가능 매체의 구체적인 예로는, CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등이 있을 수 있다.

이상에서는 본 개시의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시에 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

110: 메모리 120: 프로세서

Claims

적어도 하나의 명령어를 저장하는 메모리; 및
상기 메모리에 저장된 명령어를 실행함으로써,
영상을 제1 신경망 모델에 적용하여 상기 영상의 에지가 강화된 제1 영상을 획득하고,
상기 영상을 제2 신경망 모델에 적용하여 상기 영상의 텍스처가 강화된 제2 영상을 획득하는 프로세서;를 포함하며,
상기 프로세서는,
상기 영상에 포함된 에지 영역을 식별하여 상기 에지 영역에 대응되는 제1 가중치를 식별하고,
상기 영상에 포함된 텍스처 영역을 식별하여 상기 텍스처 영역에 대응되는 제2 가중치를 식별하고,
상기 제1 영상에 상기 제1 가중치를 적용하고,
상기 제2 영상에 상기 제2 가중치를 적용하고,
상기 제1 가중치가 적용된 제1 영상 및 상기 제2 가중치가 적용된 제2 영상에 기초하여 출력 영상을 획득하는, 영상 처리 장치.
제1항에 있어서,
상기 제1 신경망 모델과 상기 제2 신경망 모델은 서로 다른 종류의 신경망 모델인, 영상 처리 장치.
제1항에 있어서,
상기 제1 신경망 모델은,
복수의 레이어를 이용하여 상기 영상의 에지를 강화하도록 학습하는 딥 러닝 모델(Deep Learning Model) 또는 기 학습된 복수의 필터를 이용하여 상기 영상의 에지를 강화하도록 학습된 머신 러닝 모델(Machine Learning Model) 중 하나인, 영상 처리 장치.
제 1항에 있어서
상기 제2 신경망 모델은,
복수의 레이어를 이용하여 상기 영상의 텍스쳐를 강화하도록 학습하는 딥 러닝 모델(Deep Learning Model) 또는 기 학습된 복수의 필터를 이용하여 상기 영상의 텍스처를 강화하도록 학습된 머신 러닝 모델(Machine Learning Model) 중 하나인, 영상 처리 장치.
제1항에 있어서,
상기 프로세서는,
상기 에지 영역 및 상기 텍스처 영역의 비율 정보에 기초하여 상기 에지 영역에 대응되는 상기 제1 가중치 및 상기 텍스처 영역에 대응되는 상기 제2 가중치를 획득하는, 영상 처리 장치.
제1항에 있어서,
상기 프로세서는,
입력 영상을 다운스케일링(Down Scaling)하여 상기 입력 영상 보다 저해상도의 상기 영상을 획득하고,
상기 제1 신경망 모델은,
상기 영상의 에지를 강화시키는 업스케일링(Up Scaling)을 수행하여 상기 제1 영상을 획득하고,
상기 제2 신경망 모델은,
상기 영상의 텍스처를 강화시키는 업스케일링을 수행하여 상기 제2 영상을 획득하는, 영상 처리 장치.
제6항에 있어서,
상기 프로세서는,
상기 다운스케일링된 상기 영상에 기초하여 상기 에지 영역 및 상기 텍스처 영역이 식별된 영역 검출 정보를 획득하고,
상기 영역 검출 정보 및 상기 영상을 상기 제1 및 제2 신경망 모델 각각에 제공하는, 영상 처리 장치.
제7항에 있어서,
상기 프로세서는,
상기 영역 검출 정보에 기초하여 상기 에지 영역에 대응되는 픽셀 정보만을 포함하는 영상을 상기 제1 신경망 모델로 제공하고, 상기 텍스처 영역에 대응되는 픽셀 정보만 포함하는 영상을 상기 제2 신경망 모델로 제공하며,
상기 제1 신경망 모델은 상기 에지 영역을 업스케일링하여 상기 제1 영상을 획득하고,
상기 제2 신경망 모델은 상기 텍스처 영역을 업스케일링하여 상기 제2 영상을 획득하는, 영상 처리 장치.
제1항에 있어서,
상기 제1 및 제2 영상 각각은 제1 및 제2 차분 영상이고,
상기 프로세서는,
상기 제1 차분 영상에 상기 제1 가중치를 적용하고, 상기 제2 차분 영상에 상기 제2 가중치를 적용한 후 상기 영상과 믹싱(Mixing)하여 상기 출력 영상을 획득하는, 영상 처리 장치.
제1항에 있어서,
상기 제2 신경망 모델은,
복수의 이미지 패턴 각각에 대응되는 복수의 필터를 저장하며,
상기 영상에 포함된 이미지 블록들 각각을 상기 복수의 이미지 패턴 중 하나로 분류하고, 상기 복수의 필터 중 분류된 이미지 패턴에 대응되는 적어도 하나의 필터를 상기 이미지 블록에 적용하여 상기 제2 영상을 제공하는 모델인, 영상 처리 장치.
제10항에 있어서,
상기 프로세서는,
상기 분류된 각 이미지 블록들에 대응되는 이미지 패턴의 인덱스 정보를 누적시켜 누적 결과에 기초하여 상기 영상을 자연 영상 또는 그래픽 영상 중 어느 하나로 식별하고,
상기 식별 결과에 기초하여 상기 가중치를 조정하는, 영상 처리 장치.
제11항에 있어서,
상기 프로세서는,
상기 영상이 상기 자연 영상으로 식별되면, 상기 제1 영상에 대응되는 상기 제1 가중치 또는 상기 제2 영상에 대응되는 상기 제2 가중치 중 적어도 하나를 증가시키고,
상기 영상이 상기 그래픽 영상으로 식별되면, 상기 제1 가중치 또는 상기 제2 가중치 중 적어도 하나를 감소시키는, 영상 처리 장치.
영상 처리 장치의 영상 처리 방법에 있어서,
영상을 제1 신경망 모델에 적용하여 상기 영상의 에지가 강화된 제1 영상을 획득하는 단계;
상기 영상을 제2 신경망 모델에 적용하여 상기 영상의 텍스처가 강화된 제2 영상을 획득하는 단계;
상기 영상에 포함된 에지 영역을 식별하여 상기 에지 영역에 대응되는 제1 가중치를 식별하고, 상기 영상에 포함된 텍스처 영역을 식별하여 상기 텍스처 영역에 대응되는 제2 가중치를 식별하는 단계;
상기 제1 영상에 상기 제1 가중치를 적용하는 단계;
상기 제2 영상에 상기 제2 가중치를 적용하는 단계; 및
상기 제1 가중치가 적용된 제1 영상 및 상기 제2 가중치가 적용된 제2 영상에 기초하여 출력 영상을 획득하는 단계;를 포함하는 영상 처리 방법.
제13항에 있어서,
상기 제1 신경망 모델은,
복수의 레이어를 이용하여 상기 영상의 에지를 강화하도록 학습하는 딥 러닝 모델(Deep Learning Model) 또는 기 학습된 복수의 필터를 이용하여 상기 영상의 에지를 강화하도록 학습된 머신 러닝 모델(Machine Learning Model) 중 하나인, 영상 처리 방법.
제13항에 있어서,
상기 제2 신경망 모델은,
복수의 레이어를 이용하여 상기 영상의 텍스쳐를 강화하도록 학습하는 딥 러닝 모델(Deep Learning Model) 또는 기 학습된 복수의 필터를 이용하여 상기 영상의 텍스처를 강화하도록 학습된 머신 러닝 모델(Machine Learning Model) 중 하나인, 영상 처리 방법.
제13항에 있어서,
상기 제1 가중치 및 상기 제2 가중치를 식별하는 단계는,
상기 에지 영역 및 상기 텍스처 영역의 비율 정보에 기초하여 상기 에지 영역에 대응되는 상기 제1 가중치 및 상기 텍스처 영역에 대응되는 상기 제2 가중치를 식별하는 단계;를 포함하는, 영상 처리 방법.
제13항에 있어서,
입력 영상을 다운스케일링(Down Scaling)하여 상기 입력 영상 보다 저해상도의 상기 영상을 획득하는 단계;를 포함하고,
상기 제1 신경망 모델은,
상기 영상의 에지를 강화시키는 업스케일링(Up Scaling)을 수행하여 상기 제1 영상을 획득하고,
상기 제2 신경망 모델은,
상기 영상의 텍스처를 강화시키는 업스케일링을 수행하여 상기 제2 영상을 획득하는, 영상 처리 방법.
제17항에 있어서,
상기 다운스케일링된 상기 영상에 기초하여 상기 에지 영역 및 상기 텍스처 영역이 식별된 영역 검출 정보를 획득하는 단계; 및
상기 영역 검출 정보 및 상기 영상을 상기 제1 및 제2 신경망 모델 각각에 제공하는 단계;를 포함하는, 영상 처리 방법.
제18항에 있어서,
상기 영역 검출 정보 및 상기 영상을 상기 제1 및 제2 신경망 모델 각각에 제공하는 단계는,
상기 영역 검출 정보에 기초하여 상기 에지 영역에 대응되는 픽셀 정보만을 포함하는 영상을 상기 제1 신경망 모델로 제공하는 단계; 및
상기 텍스처 영역에 대응되는 픽셀 정보만 포함하는 영상을 상기 제2 신경망 모델로 제공하는 단계;를 포함하고,
상기 제1 신경망 모델은 상기 에지 영역을 업스케일링하여 상기 제1 영상을 획득하고,
상기 제2 신경망 모델은 상기 텍스처 영역을 업스케일링하여 상기 제2 영상을 획득하는, 영상 처리 방법.
제13항에 있어서,
상기 제1 및 제2 영상 각각은 제1 및 제2 차분 영상이고,
상기 출력 영상을 획득하는 단계는,
상기 제1 차분 영상에 상기 제1 가중치를 적용하고, 상기 제2 차분 영상에 상기 제2 가중치를 적용한 후 상기 영상과 믹싱(Mixing)하여 상기 출력 영상을 획득하는, 영상 처리 방법.