KR20190023546A

KR20190023546A - 영상 부호화 장치 및 영상 부호화 시스템

Info

Publication number: KR20190023546A
Application number: KR1020170109458A
Authority: KR
Inventors: 전성호; 정요원
Original assignee: 삼성전자주식회사
Priority date: 2017-08-29
Filing date: 2017-08-29
Publication date: 2019-03-08
Also published as: CN109429066A; US10841659B2; KR102343648B1; TWI791578B; CN109429066B; US20190069033A1; TW201914303A

Abstract

본 발명의 일 실시예에 따른 영상 부호화 장치는 복수의 시나리오 각각에 대한 관심 영역 정보를 저장하는 메모리 및 입력 영상의 시나리오에 대응하는 관심 영역 정보를 상기 메모리에서 추출하거나 사용자 입력에 기초하여 상기 메모리에 저장된 상기 관심 영역 정보를 업데이트하는 NPU(Neural Processing Unit)를 포함한다.

Description

영상 부호화 장치 및 영상 부호화 시스템 {VIDEO ENCODING APPARATUS AND VIDEO ENCODING SYSTEM}

본 발명은 영상 부호화 장치 및 영상 부호화 시스템에 관한 것이다.

HD(High Definition) 영상 및 UHD(Ultra High Definition) 영상과 같은 고해상도, 고품질의 영상에 대한 수요가 증가하고 있으며, 고해상도, 고품질의 영상을 처리하기 위해 고성능의 영상 압축 기술들이 활용되고 있다.

최근에는 휴대폰(Mobile Phone), 스마트 폰(Smart Phone) 등과 같은 모바일 기기가 널리 이용되고 있으며, 크기가 작고 배터리를 사용하는 등 제한된 환경을 가지는 모바일 기기 내에서 고해상도, 고품질의 영상을 효율적으로 압축할 수 있는 다양한 방안에 대한 연구가 진행되고 있다.

특히 최근에는 영상 부호화 시스템은 입력 영상의 부호화를 수행하기 위해 영상 내의 프래임을 관심 영역 및 비관심 영역을 구분하여 관심 영역과 비관심 영역에 비트 수를 다르게 할당하는 기술이 많이 이용되고 있다.

다만, 사용자마다 관심 영역이 달라질 수 있음에도 불구하고 최근 기술 동향에 따르면 동일한 기준을 이용하여 영상 내에서 관심 영역과 비관심 영역을 구분하고 있다. 따라서, 사용자에 따라 다른 관심 영역을 설정할 수 있도록 사용자 기반의 관심 영역을 인코딩하는 기술의 필요성이 대두되고 있다.

본 발명이 해결하고자 하는 기술적 과제는 영상의 시나리오에 따라 관심 영역을 다르게 설정하는 방법을 제공하는 것이다.

본 발명의 해결하고자 하는 다른 기술적 과제는 사용자가 관심을 가지는 영역을 인식하여 관심 영역을 설정하는 방법을 제공하는 것이다.

본 발명이 해결하고자 하는 다른 기술적 과제는 사용자의 입력에 기초하여 관심 영역을 업데이트 하는 방법을 제공하는 것이다.

본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

상기 기술적 과제를 달성하기 위한 본 발명의 일 실시예에 따른 영상 부호화 장치는, 복수의 시나리오 각각에 대한 관심 영역 정보를 저장하는 메모리 및 입력 영상의 시나리오에 대응하는 관심 영역 정보를 상기 메모리에서 추출하거나 사용자 입력에 기초하여 상기 메모리에 저장된 상기 관심 영역 정보를 업데이트하는 NPU(Neural Processing Unit)를 포함한다.

상기 기술적 과제를 달성하기 위한 본 발명의 일 실시예에 따른 영상 부호화 장치는, 복수의 시나리오 각각에 대한 관심 영역 정보를 저장하는 메모리, 입력 영상의 시나리오를 분석하고, 상기 입력 영상의 시나리오에 대응하는 관심 영역 정보를 상기 메모리에서 추출하는 NPU(Neural Processing Unit), 상기 입력 영상에 포함된 현재 프레임을 복수의 블록으로 구분하고, 상기 관심 영역 정보에 기초하여 상기 복수의 블록을 관심 영역에 대응하는 제1 블록 및 비관심 영역에 대응하는 제2 블록으로 구분하는 파티셔닝 유닛, 상기 제1 블록에 대한 제1 양자화 파라미터 값을 결정하고, 상기 제2 블록에 대한 제2 양자화 파라미터 값을 결정하는 레이트 제어 모듈 및 상기 제1 양자화 파라미터 값 및 상기 제2 양자화 파라미터 값에 기초하여 상기 현재 프레임에 대한 부호화 동작을 수행하여 압축 데이터를 형성하는 압축 모듈을 포함한다.

상기 기술적 과제를 달성하기 위한 본 발명의 일 실시예에 따른 영상 부호화 시스템은, 입력 영상을 제공하는 비디오 소스, 복수의 시나리오 각각에 대한 관심 영역 정보를 저장하는 제1 메모리, 상기 입력 영상의 시나리오에 대응하는 관심 영역 정보를 상기 제1 메모리에서 추출하는 NPU(Neural Processing Unit), 상기 입력 영상에 포함된 현재 프레임을 복수의 블록으로 구분하고, 상기 관심 영역 정보에 기초하여 상기 복수의 블록을 관심 영역에 대응하는 제1 블록 및 비관심 영역에 대응하는 제2 블록으로 구분하는 파티셔닝 유닛, 상기 제1 블록에 대한 제1 양자화 파라미터 값을 결정하고, 상기 제2 블록에 대한 제2 양자화 파라미터 값을 결정하는 레이트 제어 모듈, 상기 제1 양자화 파라미터 값 및 상기 제2 양자화 파라미터 값에 기초하여 상기 현재 프레임에 대한 부호화 동작을 수행하여 압축 데이터를 형성하는 압축 모듈을 포함하는 영상 부호화 장치 및 상기 압축 데이터를 이용하여 엔트로피 인코딩된 비트 스트림을 저장하는 제2 메모리를 포함한다.

기타 실시예들의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.

도 1은 본 발명의 몇몇 실시예에 따른 영상 부호화 시스템을 도시한 블록도이다.
도 2는 도 1에 도시된 영상 부호화 시스템에 포함된 인코더의 예시적인 블록도이다.
도 3은 몇몇 실시예에 따른 영상 부호화 시스템에서 복수의 시나리오 각각에 대한 관심 영역 정보를 메모리에 저장하는 방법을 나타내는 순서도이다.
도 4는 몇몇 실시예에 따른 영상 부호화 시스템에서 복수의 시나리오 각각에 대한 관심 영역 정보를 메모리에 저장하는 방법의 일례를 설명하기 위한 도면이다.
도 5는 몇몇 실시예에 따른 영상 부호화 시스템에서 영상을 부호화하는 과정을 나타내는 순서도이다.
도 6은 몇몇 실시예에 따른 인코더에서 관심 영역 및 비관심 영역을 구분하는 방법의 일례들을 설명하기 위한 도면이다.
도 7은 몇몇 실시예에 따른 인코더에서 관심 영역 및 비관심 영역을 구분하는 방법의 일례들을 설명하기 위한 도면이다.
도 8은 몇몇 실시예에 따른 영상 부호화 시스템에서 제1 메모리에 저장된 관심 영역 정보를 사용자 입력에 기초하여 업데이트하는 방법을 설명하기 위한 흐름도이다.
도 9는 몇몇 실시예에 따른 영상 부호화 시스템에서 제1 메모리에 저장된 관심 영역 정보를 사용자 입력에 기초하여 업데이트하는 방법의 일례를 설명하기 위한 도면이다.
도 10은 몇몇 실시예에 따른 NPU의 구성을 대략적으로 설명하기 위한 도면이다.

몇몇 실시예에 따른 영상 부호화 시스템에 따르면, 사전 테스트를 통해 입력 영상의 시나리오 별로 사용자의 관심 영역을 인식하여 영상 부호화 시에 이를 반영하고, 영상을 디스플레이할 때 사용자 입력에 기반하여 사용자의 행동 패턴을 분석 및 학습하여 시나리오 별로 관심 영역을 업데이트할 수 있다. 이는 이하 도 1 내지 도 10을 참조하여 설명한다.

도 1은 본 발명의 몇몇 실시예에 따른 영상 부호화 시스템을 도시한 블록도이다.

도 1을 참조하면, 영상 부호화 시스템(10)은 2D 또는 3D 그래픽 데이터를 처리하고, 처리된 데이터를 디스플레이할 수 있는 다양한 장치를 의미할 수 있다.

예를 들어, 영상 부호화 시스템(10)은, TV, DTV(Digital TV), IPTV(internet protocol TV), PC(personal computer), 데스크 탑 컴퓨터, 랩-탑(lap-top) 컴퓨터, 컴퓨터 워크스테이션(computer workstation), 태블릿(tablet) PC, 비디오 게임 플랫폼(또는 비디오 게임 콘솔), 서버 및 모바일 컴퓨팅 장치 중의 하나로 구현될 수 있다. 여기서, 모바일 컴퓨팅 장치는 이동 전화기, 스마트 폰(smart phone), EDA(enterprise digital assistant), 디지털 스틸 카메라(digital still camera), 디지털 비디오 카메라(digital video camera), PMP(portable multimedia player), PND(personal navigation device 또는 portable navigation device), 모바일 인터넷 장치(mobile internet device(MID)), 웨어러블 컴퓨터, 사물 인터넷(Internet of Things; IOT) 장치, 만물 인터넷(Internet of Everything; IOE) 장치 또는 e-book으로 구현될 수 있다.

영상 부호화 시스템(10)은 비디오 소스(50), 영상 부호화 장치(100), 디스플레이(200), 입력 장치(210) 및 제2 메모리(220)를 포함할 수 있다. 도 1에 도시된 구성요소들은 영상 부호화 시스템(10)을 구현하는데 있어서 필수적인 것은 아니어서, 위에서 열거된 구성요소들 보다 많거나, 또는 적은 구성요소들을 가질 수 있다. 여기서, 영상 부호화 장치(100)는 시스템 온 칩(System On Chip; SoC)으로 구성될 수 있다.

비디오 소스(50)는 예를 들어, CCD 또는 CMOS 이미지 센서를 탑재한 카메라로 구현될 수 있다. 비디오 소스(50)는 피사체를 촬영하고, 상기 피사체에 대한 제1 데이터(IM)를 생성하고, 생성된 제1 데이터(IM)를 영상 부호화 장치(100)에 제공할 수 있다. 제1 데이터(IM)는 정지 영상 데이터 또는 동영상 데이터일 수 있다. 몇몇 실시예에서, 비디오 소스(50)는 이와 달리 호스트(HOST)에 포함될 수 있다. 이 경우, 제1 데이터(IM)는 호스트로부터 제공된 영상 데이터일 수 있다.

영상 부호화 장치(100)는 영상 부호화 시스템(10)의 동작을 전반적으로 제어할 수 있다. 예컨데, 영상 부호화 장치(100)는 몇몇 실시예에 따른 동작들을 수행할 수 있는 직접 회로(intergrated circuit; IC), 마더보드, 애플리케이션 프로세서(Application Processor; AP) 또는 모바일(mobile) AP를 포함할 수 있다. 영상 부호화 장치(100)는 비디오 소스(50)로부터 출력된 제1 데이터(IM)를 처리하고, 처리된 데이터를 디스플레이(200)를 통해 디스플레이하거나, 제2 메모리(220)에 저장하거나, 다른 데이터 처리 시스템으로 전송할 수 있다.

영상 부호화 장치(100)는 전-처리 회로(110), 인코더(120, Encoder), 프로세서(130), 제1 메모리(140), 디스플레이 컨트롤러(150), 메모리 컨트롤러(160), 버스(170), 모뎀(180), 사용자 인터페이스(190) 및 NPU(Neural Processing Unit, 300)를 포함할 수 있다. 다만, 상술한 구성 요소들은 영상 부호화 장치(100)를 구현하는데 있어서 필수적인 것은 아니어서, 위에서 열거된 구성요소들 보다 많거나, 또는 적은 구성요소들을 가질 수 있다.

인코더(120), 프로세서(130), 제1 메모리(140), 디스플레이 컨트롤러(150), 메모리 컨트롤러(160), 모뎀(180), 사용자 인터페이스(190) 및 NPU(300)는 버스(170)를 통해 서로 데이터를 주고 받을 수 있다. 예시적으로, 버스(170)는 PCI 버스(Peripheral Component Interconnect Bus), PCI 익스프레스(PCI Express; PCIe) 버스, AMBA(Advanced High Performance Bus), AHB(Advanced High Performance Bus), APB(Advanced Peripheral Bus), AXI(Advanced Extensible Interface) 버스 및 이들의 어느 조합으로부터 선택된 적어도 하나로 구현될 수 있으나 이에 한정되는 것은 아니다.

전-처리 회로(110)는 비디오 소스(50)로부터 출력된 제1 데이터(IM)를 수신할 수 있다. 전-처리 회로(110)는 수신된 제1 데이터(IM)를 처리하고, 처리 결과에 따라 생성된 제2 데이터(FI)를 인코더(120)에 제공할 수 있다. 영상 부호화 장치(100)가 구동되는 환경에서, 제1 데이터(IM)와 제2 데이터(FI)는 예를 들어, 프레임(또는 픽쳐) 단위로 제공될 수 있다.

예를 들어, 제2 데이터(FI)는 특정 시점을 기준으로, 과거 프레임(PF) 데이터, 현재 프레임(CF) 데이터, 미래 프레임(FF) 데이터를 포함하는 데이터 집합일 수 있다. 이하, 설명의 편의를 위해, 제2 데이터(FI)에 포함된 현재 프레임(CF)을 부호화하는 경우에 한정하여 설명한다.

전-처리 회로(110)는 예를 들어, 이미지 신호 프로세서(Image Signal Processor; ISP)를 포함할 수 있다. 예컨대. ISP는 제1 데이터 포맷을 갖는 제1 데이터(IM)를 제2 데이터(FI)로 변환할 수 있다.

예를 들어, 제1 데이터(IM)는 베이어(Bayer) 패턴을 갖는 데이터이고 제2 데이터(FI)는 YUV 데이터일 수 있으나 이에 한정되는 것은 아니다.

도 1에서 전-처리 회로(110)는 영상 부호화 장치(100) 내부에 구현된 것으로 도시되어 있으나, 실시예가 이에 한정되는 것은 아니고 전-처리 회로(110)는 영상 부호화 장치(100) 외부에 구현될 수도 있다.

인코더(120)는 제2 데이터(FI)에 포함된 현재 프레임(CF)을 복수의 블록으로 분할하고, 상기 복수의 블록 각각에 대한 부호화 동작을 수행할 수 있다.

상기 부호화 동작은 JPEG(Joint Picture Expert Group), MPEG (Motion Picture Expert Groups), MPEG-2, MPEG-4, VC-1, H. 264, H. 265, 또는 HEVC(High Efficiency Video Coding) 등의 영상 데이터 부호화 기술을 이용 할 수 있으나 이에 한정되는 것은 아니다.

인코더(120)는 하드웨어 코덱 또는 소프트웨어 코덱으로 구현될 수 있다. 소프트웨어 인코더는 프로세서(130)에 의해 실행될 수 있다.

프로세서(130)는 영상 부호화 장치(100)의 동작을 제어할 수 있다.

프로세서(130)는 하나 또는 그 이상의 애플리케이션들(예를 들어, 소프트웨어 애플리케이션들)을 실행할 수 있도록 사용자 입력을 제공받을 수 있다.

프로세서(130)에 의해 실행되는 애플리케이션들 중 일부는 영상 통화 애플리케이션일 수 있다. 또한, 프로세서(130)에 의해 실행되는 애플리케이션들은 운영 체제(operating system; OS). 워드프로세서 애플리케이션, 미디어 플레이어 애플리케이션, 비디오 게임 애플리케이션 및/또는 그래픽 사용자 인터페이스(Graphic User Interface; GUI) 애플리케이션을 포함할 수 있으나 이에 한정되는 것은 아니다.

제1 메모리(140)는 영상 부호화 시 이용되는 복수의 시나리오 각각에 대응하는 관심 영역 정보를 저장할 수 있다.

복수의 시나리오는, 예를 들어, 영상에 포함된 오브젝트의 종류, 영상이 촬영된 날짜, 영상이 촬영된 시간 등을 나타내는 정보일 수 있다. 관심 영역 정보는 현재 프레임(CF)에 포함된 복수의 블록을 관심 영역에 대응하는 블록과 비관심 영역에 대응하는 블록으로 구분하는 정보일 수 있다.

제1 메모리(140)는 메모리 컨트롤러(160)의 제어 하에, 입력 영상의 시나리오에 대응하는 관심 영역 정보를 인코더(120)에 전송할 수 있다.

메모리 컨트롤러(160)는 인코더(120) 또는 프로세서(130)의 제어 하에 인코더(120)에서 부호화된 데이터 또는 프로세서(130)로부터 출력된 데이터를 제2 메모리(220)에 라이트할 수 있다.

제1 메모리(140)는 SRAM(Static Random Access Memory)과 같은 휘발성 메모리로 구현될 수 있다. 휘발성 메모리는 RAM(random access memory), SRAM(static RAM), DRAM (dynamic RAM), SDRAM(synchronous DRAM), T-RAM(thyristor RAM), Z-RAM(zero capacitor RAM), 또는 TTRAM(Twin Transistor RAM)으로 구현될 수 있다. 다만, 이에 한정되는 것은 아니고, 제1 메모리(140)는 비휘발성 메모리로 구현될 수도 있다.

제2 메모리(220)는 비휘발성 메모리로 구현될 수 있다. 비휘발성 메모리는 EEPROM(electrically erasable programmable read-only memory), 플래시(flash) 메모리, MRAM(magnetic RAM), 스핀전달토크 MRAM (spin-transfer torque MRAM), FeRAM(ferroelectric RAM), PRAM(phase change RAM), 또는 RRAM(resistive RAM)으로 구현될 수 있다. 또한, 비휘발성 메모리는 MMC(multimedia card), eMMC(embedded MMC), UFS(universal flash storage), 솔리드 스테이트 드라이브(solid state drive or solid state disk(SSD)), USB 플래시 드라이브, 또는 하드디스크 드라이브(hard disk drive; HDD)로 구현될 수 있다. 다만, 이에 한정되는 것은 아니고, 제2 메모리(220)는 휘발성 메모리로 구현될 수도 있다.

도 1에서는 영상 부호화 장치(100)의 외부에 제2 메모리(220)가 도시되어 있으나, 이에 한정되는 것은 아니고 제2 메모리(220)는 영상 부호화 장치(100)의 내부에 구현될 수도 있다.

디스플레이 컨트롤러(150)는, 인코더(120) 또는 프로세서(130)로부터 출력된 데이터를 디스플레이(200)로 전송할 수 있다. 디스플레이(200)는 모니터, TV 모니터, 프로젝션 장치(projection device), TFT-LCD(thin film transistorliquid crystal display), LED(light emitting diode) 디스플레이, OLED(organic LED) 디스플레이, AMOLED(active-matrix OLED) 디스플레이, 또는 플렉시블(flexible) 디스플레이로 구현될 수 있다.

예컨대, 디스플레이 컨트롤러(150)는 MIPI 디스플레이 시리얼 인터페이스 (display serial interface; DSI)를 통해 데이터를 디스플레이(200)로 전송할 수 있다.

입력 장치(210)는 사용자로부터 입력된 사용자 입력을 수신하고, 상기 사용자 조작에 응답된 입력 신호를 사용자 인터페이스(190)로 전송할 수 있다.

입력 장치(210)는 터치 패널(touch panel), 터치 스크린(touch screen), 음성 인식기(voice recognizer), 카메라, 터치 펜, 키보드, 마우스, 트랙 포인트 등으로 구현될 수 있으나 이에 한정되는 것은 아니다. 예컨대, 입력 장치(210)가 터치 스크린인 경우에, 입력 장치(210)는 터치 패널과 터치 패널 컨트롤러를 포함할 수 있다. 또한, 입력 장치(210)가 카메라인 경우, 입력 장치(210)는 시선 인식 센서를 포함할 수 있다. 입력 장치(210)는 디스플레이(200)와 접속될 수 있고, 디스플레이(200)와 분리되어 구현될 수도 있다.

입력 장치(210)는 입력 신호를 사용자 인터페이스(190)로 전송할 수 있다.

사용자 인터페이스(190)는 입력 장치(210)로부터 입력 신호를 수신하고, 상기 입력 신호에 의해 발생되는 데이터를 프로세서(130)로 전송할 수 있다.

또한, 사용자 인터페이스(190)는 입력 장치(210)로부터 입력 신호를 수신하고, 상기 입력 신호에 포함된 정보를 NPU(300)에 전송할 수 있다.

모뎀(180)은 인코더(120) 또는 프로세서(130)에 의해 인코딩된 데이터를 무선 통신 기술을 이용하여 외부로 출력할 수 있다. 모뎀(180)은 예를 들어, 와이파이(WI-FI), 와이브로(WIBRO), 3G 무선통신, LTE^TM(long term evolution), LTE-A(long term evolution-advanced), 또는 광대역(broadband) LTE-A 등의 방식을 채용할 수 있으나, 이에 한정되는 것은 아니다.

NPU(300)는, 비디오 소스(50)를 통해 제공되는 입력 영상의 시나리오를 인식할 수 있다. 예를 들어, NPU(300)는 입력 영상을 분석하여 입력 영상의 시나리오를 인식할 수 있다.

NPU(300)는, 인식된 시나리오에 대응하는 관심 영역 정보를 제1 메모리(140)에서 추출할 수 있다. 또한, NPU(300)는 사용자 입력에 기초하여 제1 메모리(140)에 저장되어 있는 관심 영역 정보를 업데이트할 수도 있다.

도 1에서 NPU(300)는 별도의 구성 요소로 구현되었으나, 이에 한정되는 것은 아니고 인코더(120) 또는/및 프로세서(130)가 NPU(300)의 기능을 수행할 수도 있다. 또한, NPU(300)는 영상 부호화 장치(100) 내부의 일 구성 요소로 포함되어 있을 수도 있고, 영상 부호화 장치(100) 외부에 존재할 수도 있다.

도 2는 도 1에 도시된 영상 부호화 시스템에 포함된 인코더의 예시적인 블록도이다.

도 2에서 인코더(120)는 파티셔닝 유닛(121), 예측 모듈(122), 압축 모듈(123), 레이트 제어 모듈(124), 디코딩 픽쳐 버퍼(Decoding Picture Buffer; DPB, 126), 합산기(125, 127) 및 엔트로피 인코딩 유닛(128)을 포함할 수 있다. 도 2에 도시된 구성요소들은 인코더(120)를 구현하는데 있어서 필수적인 것은 아니어서, 위에서 열거된 구성요소들 보다 많거나, 또는 적은 구성요소들을 가질 수 있다.

파티셔닝 유닛(121)은 입력된 제2 데이터(FI)에 포함된 현재 프레임(도 1의 CF)을 복수의 블록으로 구분할 수 있다. 이 경우, 복수의 블록은 관심 영역에 대응하는 블록을 적어도 하나 포함할 수도 있고, 비관심 영역에 대응하는 블록을 적어도 하나 포함할 수도 있다.

파티셔닝 유닛(121)은 복수의 블록 각각이 관심 영역에 대응하는 블록인지 아니면 비관심 영역에 대응하는 블록인지 제1 메모리(도 1의 140)에 저장되어 있는 관심 영역 정보에 기초하여 구분할 수 있다.

예측 모듈(122)은 입력 영상의 현재 프레임에 대한 인트라 예측 및 인터 예측 중 적어도 하나를 수행할 수 있다. 인트라 예측은 현재 프레임 외의 다른 프레임을 참조하지 않고 예측하는 것이고, 인터 예측은 현재 프레임 외에 다른 프레임을 참조하여 예측하는 것일 수 있다.

예측 모듈(122)은 인트라 예측을 통해 부호화된 블록 또는 인터 예측을 통해 부호화된 블록을 합산기(125)에 제공하여 잔차 블록 데이터를 생성할 수 있다.

레이트 제어 모듈(124)은 제1 메모리(도 1의 140)에 저장되어 있는 관심 영역 정보에 기초하여 양자화 하고자 하는 대상(예를 들어, 블록)에 대한 양자화 파라미터(QP) 값을 조절할 수 있다.

예를 들어, 레이트 제어 모듈(124)은 파티셔닝 유닛(121)을 통해 구분된 관심 영역에 대응하는 블록과 비관심 영역에 대응하는 블록의 양자화 파라미터 값을 서로 다르게 결정할 수 있다. 여기서, 비관심 영역에 대응하는 블록의 양자화 파라미터 값은 관심 영역에 대응하는 블록의 양자화 파라미터 값보다 클 수 있다.

압축 모듈(123)은 변환 모듈(123a), 양자화 유닛(123b), 역양자화 유닛(123c), 역변환 모듈(123d)을 포함할 수 있다.

압축 모듈(123)은 비관심 영역에 대응하는 블록의 양자화 파라미터 값 및 관심 영역에 대응하는 블록의 양자화 파라미터 값에 기초하여 현재 프레임에 대한 부호화 동작을 수행하여 압축 데이터를 형성할 수 있다.

변환 모듈(123a)은 잔차 블록 데이터로부터 변환된 블록 데이터를 형성할 수 있다. 변환 모듈(123a)은, 이산 코사인 변환(Discrete Cosine Transform; DCT) 또는 웨이브렛 변환(wavelet transform)등을 사용할 수 있다. 변환 모듈(123a)에서 생성된 변환 계수들은 양자화 유닛(123b)으로 전송될 수 있다.

양자화 유닛(123b)은 변환 계수들을 양자화하여 비트 수를 감소시킬 수 있다. 이 과정에서, 앞서 설명한 레이트 제어 모듈(124)은 관심 영역에 해당하는 블록과, 비관심 영역에 해당하는 블록에 대한 양자화 파라미터(Quantization Parameter) 값을 조정함으로써 양자화 정도를 수정할 수 있다.

역양자화부(123c), 역변환부(158) 및 가산부(127)는 손실 부호화된 데이터를 역으로 복호화하여 재구성 영상을 복원하기 위해 사용될 수 있다. 재구성 영상들은 DPB(126)에 저장되어 참조 영상으로 이용될 수 있다.

엔트로피 인코딩 유닛(128)은 압축 데이터를 엔트로피 코딩할 수 있다. 예를 들어, 엔트로피 인코딩 유닛(128)은 콘텍스트 적응 가변 길이 코딩(Context-Adaptive Variable-Length Coding; CAVLC), 콘텍스트 적응 이진 산술 코딩(Context-Adaptive Binary Arithmetic Coding; CABAC), 확률 인터벌 구획 엔트로피(Probability Interval Partitioning Entropy; PIPE) 또는 다른 엔트로피 인코딩 기술을 수행할 수도 있다. 엔트로피 인코딩 유닛(128)에 의한 엔트로피 인코딩에 후속하여 인코딩된 비트 스트림이 형성될 수 있고, 디코더로 송신되거나 제2 메모리(도 1의 220)에 저장될 수 있다.

도 2의 인코더의 부호화 방식은 예를 들어, HEVC, VP8, VP9, MPEG-2, MPEG-4, H. 263 및 H. 264 중 어느 하나일 수 있다. 다만, 이에 한정되는 것은 아니다.

도 3은 몇몇 실시예에 따른 영상 부호화 시스템에서 복수의 시나리오 각각에 대한 관심 영역 정보를 메모리에 저장하는 방법을 나타내는 순서도이다. 도 4는 몇몇 실시예에 따른 영상 부호화 시스템에서 복수의 시나리오 각각에 대한 관심 영역 정보를 메모리에 저장하는 방법의 일례를 설명하기 위한 도면이다. 도 3 및 도 4와 관련하여 도 1 및 도 2에서 상술한 바와 중복되는 내용은 다시 설명하지 않으며, 이하 차이점을 중심으로 설명한다.

제2 메모리(220)에는 복수의 시나리오 각각에 대한 복수의 영상이 미리 저장되어 있을 수 있다. 여기서, 복수의 영상은 동일한 영상에 서로 다른 관심 영역 정보가 적용된 영상들일 수 있다.

일례로, 시나리오가 사람을 촬영하는 시나리오인 경우, 제2 메모리(220)에는 사람이 포함된 영역의 화질이 향상된 제1 영상, 사람이 포함되지 않은 영역의 화질이 향상된 제2 영상 및 모든 영역의 화질이 동일한 제3 영상이 저장되어 있을 수 있다. 여기서, 제1 영상은 사람이 포함된 영역을 관심 영역이라는 관심 영역 정보를 가질 수 있고, 제2 영상은 사람이 포함되지 않은 영역이 관심 영역이라는 관심 영역 정보를 가질 수 있고, 제3 영상은 관심 영역이 설정되지 않았다는 관심 영역 정보를 가질 수 있다.

다른 일례로, 시나리오가 건물을 촬영하는 시나리오인 경우, 제2 메모리(220)에는 건물이 포함된 영역의 화질이 향상된 제1 영상, 건물이 포함되지 않은 영역의 화질이 향상된 제2 영상 및 모든 영역의 화질이 동일한 제3 영상이 저장되어 있을 수 있다. 여기서, 제1 영상은 건물이 포함된 영역을 관심 영역이라는 관심 영역 정보를 가질 수 있고, 제2 영상은 건물이 포함되지 않은 영역이 관심 영역이라는 관심 영역 정보를 가질 수 있고, 제3 영상은 관심 영역이 설정되지 않았다는 관심 영역 정보를 가질 수 있다.

도 3을 참조하면, 디스플레이(200)는 프리 테스트 명령에 따라 제2 메모리(220)에 저장되어 있는 복수의 영상 중 제1 시나리오에 대한 복수의 영상을 디스플레이할 수 있다(S310). 여기서, 프리 테스트 명령은, 사용자가 특정 메뉴를 선택함으로써 수행되는 명령일 수도 있고 초기 설정 메뉴에서 사용자의 입력을 통해 실행되는 명령일 수도 있다.

예를 들어, 도 4를 참조하면, 디스플레이(200)는 프리 테스트 명령에 따라, 제2 메모리(220)에 저장되어 있는 제1 시나리오에 대한 복수의 영상을 함께 디스플레이할 수 있다. 여기서, 제1 시나리오가 건물 및 사람을 촬영하는 시나리오인 경우, 디스플레이(200)는 제2 메모리(220)에 저장되어 있는 건물이 포함된 영역의 화질이 향상된 제1 영상(410), 사람이 포함된 영역의 화질이 향상된 제2 영상(420), 사람 및 건물이 포함되지 않은 영역의 화질이 향상된 제3 영상(430) 및 모든 영역에 대해 동일한 화질이 적용된 제4 영상(440)을 함께 디스플레이할 수 있다.

제1 영상(410)은 제1 관심 영역 정보를 가지는 영상일 수 있다. 예를 들어, 제1 관심 영역 정보는 건물이 포함된 영역을 관심 영역으로 설정한다는 정보일 수 있다.

제2 영상(420)은 제2 관심 영역 정보를 가지는 영상일 수 있다. 예를 들어, 제2 관심 영역 정보는, 사람이 포함된 영역을 관심 영역으로 설정한다는 정보일 수 있다.

제3 영상(430)은 제3 관심 영역 정보를 가지는 영상일 수 있다. 예를 들어, 제3 관심 영역 정보는, 사람 및 건물이 포함되지 않은 영역을 관심 영역으로 설정한다는 정보일 수 있다.

제4 영상(440)은 제4 관심 영역 정보를 가지는 영상일 수 있다. 예를 들어, 제4 관심 영역 정보는 관심 영역을 설정하지 않는다는 정보일 수 있다.

도 3을 다시 참조하면, 입력 장치(210)는 디스플레이(200)를 통해 디스플레이된 복수의 영상 중 어느 하나의 영상을 선택하는 사용자 입력을 수신할 수 있다.

예를 들어, 입력 장치(210)는 도 4에 도시된 제1 관심 영역 정보를 가지는 제1 영상(410)을 선택하는 사용자 입력을 수신할 수 있다(도 3의 S320).

프로세서(130)는 도 4에 도시된 제1 영상(410)을 선택하는 사용자 입력에 기초하여, 제1 시나리오(예를 들어, 건물 및 사람을 촬영하는 시나리오)에 대해 제1 관심 영역 정보(예를 들어, 건물이 포함된 영역을 관심 영역으로 설정한다는 정보)를 맵핑하여 저장할 수 있다(도 3의 S330).

만약, 샤용자가 도 4에 도시된 제1 영상(410)이 아닌 다른 영상(예를 들어, 제2 영상(420))을 선택하면, 프로세서(130)는 제1 시나리오에 대해 상기 선택된 영상이 가지는 관심 영역 정보(예를 들어, 제2 관심 영역 정보)를 맵핑하여 저장할 수도 있다.

제1 시나리오에 대한 관심 영역 정보가 제1 메모리(140)에 저장된 후, 제1 시나리오와 다른 제2 시나리오에 대응하는 복수의 영상을 디스플레이하여 동일한 과정을 반복하여 제2 시나리오에 대한 관심 영역 정보가 제1 메모리(140)에 저장될 수 있다.

결과적으로, 영상 부호화 시스템(10)은 복수의 시나리오 각각에 대한 복수의 영상을 디스플레이한 후 사용자로부터 화질이 가장 좋다고 인식되는 영상을 선택 받음으로써 복수의 시나리오 각각에 대해 관심 영역 정보를 제1 메모리(140)에 저장할 수 있게 된다.

도 5는 몇몇 실시예에 따른 영상 부호화 시스템에서 영상을 부호화하는 과정을 나타내는 순서도이다. 도 6 및 도 7은 몇몇 실시예에 따른 인코더에서 관심 영역 및 비관심 영역을 구분하는 방법의 일례들을 설명하기 위한 도면들이다. 도 5 내지 도 7과 관련하여 도 1 내지 도 4에서 상술한 바와 중복되는 내용은 다시 설명하지 않으며, 이하 차이점을 중심으로 설명한다.

설명의 편의를 위해, 이하 도 5 내지 도 7과 관련하여 제1 시나리오(예를 들어, 건물 및 사람을 촬영하는 시나리오)에 대해 건물이 포함된 영역을 관심 영역으로 설정하는 제1 관심 영역 정보가 맵핑되어 제1 메모리(140)에 저장되어 있고, 제2 시나리오(예를 들어, 건물 및 꽃을 촬영하는 시나리오)에 대해 꽃이 포함된 영역을 관심 영역으로 설정하는 제2 관심 영역 정보가 맵핑되어 제1 메모리(140)에 저장되어 있다고 가정하고 이하 설명한다. 또한, 제1 메모리(140)에는 제1 시나리오에 대한 제1 관심 영역 정보 및 제2 시나리오에 대한 제2 관심 영역 정보만 저장되어 있다고 가정하고 이하 설명한다.

도 5를 참조하면, 영상 부호화 시스템(10)에 포함된 비디오 소스(50)는 입력 영상을 수신할 수 있다(S410).

영상 부호화 장치(100)에 포함된 NPU(300)는 입력 영상의 시나리오를 인식하고, 입력 영상의 시나리오에 대응하는 관심 영역 정보를 제1 메모리(140)에서 추출할 수 있다(S420).

파티셔닝 유닛(121)은 입력 영상에 포함된 현재 프레임을 복수의 프레임으로 분할할 수 있다.

파티셔닝 유닛(121)은 입력 영상의 시나리오에 대응하는 관심 영역 정보에 기초하여 현재 프레임에 포함된 복수의 블록을 관심 영역(ROI)에 대응하는 제1 블록 및 비관심 영역(non-ROI)에 대응하는 제2 블록으로 구분할 수 있다(S430).

일례로, 도 6을 참조하면, 현재 프레임(610)의 제1 영역(611)에 건물이 포함되고, 제2 영역(612)에 사람이 포함되고 제3 영역(613)에 건물 및 사람이 포함되지 않은 경우, NPU(300)는 현재 프레임(610)을 제1 시나리오에 대응하는 프레임으로 인식할 수 있다. NPU(300)는 제1 시나리오에 대응하는 제1 관심 영역 정보를 제1 메모리(140)에서 추출할 수 있다. 그리고, 파티셔닝 유닛(121)은 제1 관심 영역 정보에 기초하여 제1 영역(611)에 포함된 적어도 하나의 제1 블록을 관심 영역(ROI)으로 설정하고, 현재 프레임(610) 내에서 제2 영역(612) 및 제3 영역(613)에 포함된 적어도 하나의 제2 블록을 비관심 영역(non-ROI)으로 설정할 수 있다.

다른 일례로, 도 7을 참조하면, 현재 프레임(620)의 제1 영역(621)에 건물이 포함되고, 제2 영역(612)에 꽃이 포함되고 제3 영역(613)에 건물 및 꽃이 포함되지 않은 경우, NPU(300)는 현재 프레임(620)을 제2 시나리오에 대응하는 프레임으로 인식할 수 있다. NPU(300)는 제2 시나리오에 대응하는 제2 관심 영역 정보를 제1 메모리(140)에서 추출할 수 있다. 그리고, 파티셔닝 유닛(121)은 제2 시나리오에 대응하는 제2 관심 영역 정보에 기초하여 제2 영역(622)에 포함된 적어도 하나의 제1 블록을 관심 영역(ROI)으로 설정하고, 제1 영역(621) 및 제3 영역(623)에 포함된 적어도 하나의 제2 블록을 비관심 영역(non-ROI)으로 설정할 수 있다.

몇몇 실시예에 따르면, 제1 메모리(140)에 복수의 시나리오 각각에 대한 관심 영역 정보(예를 들어, 제1 관심 영역 정보 및 제2 관심 영역 정보)가 저장된 상태에서, 제1 메모리(140)에 저장된 복수의 시나리오에 포함되지 않은 시나리오의 입력 영상이 비디오 소스(50)를 통해 수신될 수 도 있다. 이 경우, 입력 영상의 시나리오가 제1 메모리(140)에 저장된 복수의 시나리오에 포함되지 않으면, 입력 영상은 관심 영역 및 비관심 영역으로 구분되지 않을 수 있다. 즉, 파티셔닝 유닛(121)은 현재 프레임을 복수의 블록으로 구분하되, 상기 복수의 블록을 관심 영역에 대응하는 블록 및 비관심 영역에 대응하는 블록으로 구분하지 않을 수 있다.

몇몇 실시예에 따르면, 제1 메모리(140)에 복수의 시나리오 각각에 대한 관심 영역 정보(예를 들어, 제1 관심 영역 정보 및 제2 관심 영역 정보)가 저장된 상태에서, 상기 복수의 시나리오에 포함되지 않은 시나리오의 입력 영상이 비디오 소스(50)를 통해 수신된 경우, 파티셔닝 유닛(121)은, 특정 오브젝트(예를 들어, 얼굴)가 포함된 영역에 대응하는 블록을 관심 영역에 대응하는 블록으로 설정하고 상기 특정 오브젝트가 포함되지 않은 영역에 대응하는 블록으로 비관심 영역에 대응하는 블록으로 설정할 수도 있다.

몇몇 실시예에 따르면, 제1 메모리(140)에 복수의 시나리오 각각에 대한 관심 영역 정보(예를 들어, 제1 관심 영역 정보 및 제2 관심 영역 정보)가 저장된 상태에서, 상기 복수의 시나리오에 포함되지 않은 시나리오의 입력 영상이 비디오 소스(50)를 통해 수신된 경우, 파티셔닝 유닛(121)은 텍스쳐(texture) 값이 기 설정된 미만인 블록을 관심 영역에 대응하는 블록으로 설정하고, 복수의 블록 중 관심 영역에 대응하는 블록을 제외한 블록을 비관심 영역에 대응하는 블록으로 설정할 수 있다.

도 5를 다시 참조하면, 레이트 제어 모듈(124)은 관심 영역에 대응하는 제1 블록에 대한 제1 양자화 파라미터 값 및 비관심 영역에 대응하는 제2 블록에 대한 제2 양자화 파라미터 값을 결정할 수 있다(S440). 여기서, 제1 양자화 파라미터 값이 제2 양자화 파라미터 값보다 적을 수 있다.

압축 모듈(123)은 제1 양자화 파라미터 값 및 제2 양자화 파라미터 값을 이용하여 현재 프레임에 대한 부호화 동작을 수행하여 압축 데이터를 형성할 수 있다(S450).

몇몇 실시예에 따라, 압축 데이터가 형성된 후, 엔트로피 인코딩 유닛(128)은 압축 데이터를 엔트로피 인코딩하여 비트 스트림을 형성할 수 있다. 엔트로피 인코딩 유닛(128)에서 형성된 비트 스트림은 제2 메모리(220)에 저장될 수 있다.

몇몇 실시예에 따르면, NPU(300)는 제1 메모리(140)에 저장된 관심 영역 정보를 사용자 입력에 기초하여 업데이트할 수 있다. 이는 도 8 내지 도 10을 참조하여 좀더 자세히 설명한다.

도 8은 몇몇 실시예에 따른 영상 부호화 시스템에서 제1 메모리에 저장된 관심 영역 정보를 사용자 입력에 기초하여 업데이트하는 방법을 설명하기 위한 흐름도이다. 도 9는 몇몇 실시예에 따른 영상 부호화 시스템에서 제1 메모리에 저장된 관심 영역 정보를 사용자 입력에 기초하여 업데이트하는 방법의 일례를 설명하기 위한 도면이다. 도 8 및 도 9와 관련하여, 도 1 내지 도 8과 관련하여 상술한 바와 중복되는 내용은 다시 설명하지 않으며, 이하 차이점을 중심으로 설명한다.

도 8을 참조하면, 디스플레이(200)는 제1 시나리오에 대응하는 영상을 디스플레이할 수 있다(S510). 여기서, 상기 디스플레이(200)에 디스플레이되는 영상은 도 5에서 상술한 제2 메모리(220)에 저장된 비트 스트림이 복호화된 영상일 수 있다. 설명의 편의를 위해 제1 시나리오에 제1 관심 영역 정보가 맵핑되어 있다고 가정하고 이하 설명한다.

입력 장치(210)는 제1 시나리오에 대응하는 영상이 디스플레이된 상태에서, 사용자 입력을 수신할 수 있다(S520).

일례로, 사용자 입력은, 제1 시나리오에 대응하는 영상이 디스플레이될 때 디스플레이되는 영상 내의 일 영역을 사용자가 응시하는 입력일 수 있다.

다른 일례로, 사용자 입력은 제1 시나리오에 대응하는 영상이 디스플레이될 때 디스플레이되는 영상 내의 일 영역을 선택하는 사용자의 터치 입력일 수 있다.

또 다른 일례로, 사용자 입력은 제1 시나리오에 대응하는 영상이 디스플레이될 때 디스플레이되는 영상 내의 일 영역을 확대 또는 축소하는 사용자의 입력일 수 있다.

NPU(300)는 사용자 입력에 기초하여, 제1 시나리오에 대응하는 제1 관심 영역 정보를 업데이트할 수 있다.

일례로, 도 9를 참조하면, 입력 장치(210)는 제1 시나리오에 대응하는 영상이 디스플레이될 때 디스플레이되는 영상 내의 일 영역에 대한 사용자 입력(예를 들어, 디스플레이되는 영상 내의 일 영역을 터치, 확대 또는 축소하는 입력)을 수신할 수 있다. 이 경우, 입력 장치(210)는 사용자 입력에 대한 정보를 NPU(300)에 전송할 수 있다. NPU(300)는 상기 사용자 입력에 대한 정보에 기초하여 상기 사용자 입력이 감지된 영역에 대한 정보를 인식할 수 있다. 그리고, NPU(300)는, 상기 인식된 정보에 기초하여 제1 시나리오에 맵핑되어 있는 제1 관심 영역 정보를 업데이트할 수 있다. 예를 들어, 사용자 입력이 감지된 영역에 사람이 포함된 영역인 경우, NPU(300)는 사람이 포함된 영역이 관심 영역이라고 제1 관심 영역 정보를 업데이트(또는 수정)할 수 있다.

다른 일례로, 도면에 도시되지 않았지만, 입력 장치(210)는 제1 시나리오에 대응하는 영상이 디스플레이될 때 디스플레이되는 영상 내의 일 영역을 응시하는 사용자의 시선에 대한 정보를 NPU(300)에 전달할 수 있다. NPU(300)는 상기 수신된 정보에 기초하여 상기 영상 내에서 사용자의 시선이 머문 영역에 대한 정보를 인식할 수 있다. 또한, NPU(300)는, 상기 인식된 정보에 기초하여 제1 시나리오에 맵핑되어 있는 제1 관심 영역 정보를 업데이트할 수 있다. 예를 들어, 사용자의 시선이 머문 영역에 사람이 포함된 영역인 경우, NPU(300)는 사람이 포함된 영역이 관심 영역이라고 제1 관심 영역 정보를 업데이트(또는 수정)할 수 있다.

즉, NPU(300)는 사용자의 행동 패턴을 분석하고 학습하여 관심 영역 정보를 업데이트할 수 있다.

도 10은 몇몇 실시예에 따른 NPU의 구성을 대략적으로 설명하기 위한 도면이다.

몇몇 실시예에 따르면, NPU(300)는 입력 레이어(310), 히든 레이어(320) 및 출력 레이어(330)를 포함할 수 있다. 다만, 이에 한정되는 것은 아니고, NPU(300)는 다른 구성을 가질 수도 있다.

입력 레이어(310)는 데이터를 입력 받는 레이어로 데이터로 변환된 입력 영상이 입력 레이어(310)에 입력될 수 있다.

히든 레이어(320)는 입력 레이어(310)와 출력 레이어(330) 간의 상관 관계에 따라 적절히 조절되는 레이어일 수 있다. 히든 레이어(320)는 관심 영역 정보를 이용하여 입력 데이터에 곱해지는 가중치를 분산 저장하는 레이어일 수 있다. 제1 메모리(140)에 저장된 관심 영역 정보는 입력 데이터에 곱해지는 가중치에 대한 정보일 수 있다.

출력 레이어(330)는 트레이닝된 결과에 대한 정보를 포함하고 있을 수 있다.

NPU(300)는 입력 데이터를 히든 레이어(320)에 포함된 가중치들과 곱하여 결과 값을 출력할 수 있다. 이 때, 출력 데이터는 주어진 목표 출력 값과 다를 수 있다. 이 경우, NPU(300)는 목표 출력 값과 현재 출력 값의 오차를 이용하여 히든 레이어(320) 내의 가중치들을 업데이트할 수 있다.

결과적으로, 히든 레이어(320) 내의 가중치를 계속해서 업데이트함으로써 NPU(300)는 관심 영역을 설정하는 사용자의 패턴과 특성을 발견하고 학습 할 수 있게 된다. 이렇게 NPU(300)를 통해 학습된 정보는 제1 메모리(140)에 관심 영역 정보로 저장될 수 있다.

이상 첨부된 도면을 참조하여 본 발명의 실시예들을 설명하였으나, 본 발명은 상기 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 제조될 수 있으며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.

50: 비디오 소스 100: 영상 부호화 장치
110: 전-처리 회로 120: 인코더
130: 프로세서 140, 220: 제1 메모리
150: 디스플레이 컨트롤러 160: 메모리 컨트롤러
170: 버스 180: 모뎀
190: 사용자 인터페이스 200: 디스플레이
210: 입력 장치 300: NPU

Claims

복수의 시나리오 각각에 대한 관심 영역 정보를 저장하는 메모리; 및
입력 영상의 시나리오에 대응하는 관심 영역 정보를 상기 메모리에서 추출하거나 사용자 입력에 기초하여 상기 메모리에 저장된 상기 관심 영역 정보를 업데이트하는 NPU(Neural Processing Unit)를 포함하는, 영상 부호화 장치.
제 1항에 있어서,
상기 입력 영상에 포함된 현재 프레임을 복수의 블록으로 구분하고, 상기 관심 영역 정보에 기초하여 상기 복수의 블록을 관심 영역에 대응하는 제1 블록 및 비관심 영역에 대응하는 제2 블록으로 구분하는 파티셔닝 유닛;
상기 제1 블록에 대한 제1 양자화 파라미터 값을 결정하고, 상기 제2 블록에 대한 제2 양자화 파라미터 값을 결정하는 레이트 제어 모듈; 및
상기 제1 양자화 파라미터 값 및 상기 제2 양자화 파라미터 값에 기초하여 상기 현재 프레임에 대한 부호화 동작을 수행하여 압축 데이터를 형성하는 압축 모듈을 더 포함하는, 영상 부호화 장치.
제 2 항에 있어서,
상기 파티셔닝 유닛은,
상기 입력 영상의 시나리오가 상기 메모리에 저장되지 않은 시나리오인 경우, 상기 복수의 블록을 상기 제1 블록 및 상기 제2 블록으로 구분하지 않는, 영상 부호화 장치.
제 2 항에 있어서,
상기 파티셔닝 유닛은,
상기 입력 영상의 시나리오가 상기 복수의 시나리오에 포함되지 않는 경우, 특정 오브젝트가 포함된 영역에 대응하는 블록을 상기 제1 블록으로 설정하고, 상기 특정 오브젝트가 포함되지 않은 영역에 대응하는 블록을 상기 제2 블록으로 설정하는, 영상 부호화 장치.
제 2 항에 있어서,
상기 파티셔닝 유닛은,
상기 입력 영상의 시나리오가 상기 복수의 시나리오에 포함되지 않는 경우, 상기 복수의 블록 중 텍스쳐(texture) 값이 기 설정된 값 미만인 블록을 제1 블록으로 설정하고, 상기 복수의 블록 중 상기 제1 블록을 제외한 블록을 제2 블록으로 설정하는, 영상 부호화 장치.
제 1항에 있어서,
제1 시나리오에 대해 서로 다른 관심 영역 정보를 가지는 복수의 영상이 디스플레이된 상태에서 제1 관심 영역 정보를 가지는 제1 영상을 선택하는 사용자 입력에 기초하여 상기 제1 시나리오에 상기 제1 관심 영역 정보를 맵핑하여 상기 메모리에 저장하는 프로세서를 더 포함하는, 영상 부호화 장치.
제 6항에 있어서,
상기 NPU는,
상기 입력 영상의 시나리오가 상기 제1 시나리오에 대응하는 경우, 상기 제1 시나리오에 맵핑된 상기 제1 관심 영역 정보를 추출하는, 영상 부호화 장치.
제 1항에 있어서,
상기 메모리에 저장된 상기 관심 영역 정보는,
제2 시나리오에 대한 제2 관심 영역 정보를 포함하고,
상기 NPU는,
상기 제2 시나리오에 대응하는 제2 영상에 대한 사용자의 시선 정보 및 상기 제2 영상에 대한 사용자의 입력 정보 중 적어도 하나에 기초하여 상기 제2 관심 영역 정보를 업데이트하는, 영상 부호화 장치.
복수의 시나리오 각각에 대한 관심 영역 정보를 저장하는 메모리;
입력 영상의 시나리오를 분석하고, 상기 입력 영상의 시나리오에 대응하는 관심 영역 정보를 상기 메모리에서 추출하는 NPU(Neural Processing Unit);
상기 입력 영상에 포함된 현재 프레임을 복수의 블록으로 구분하고, 상기 관심 영역 정보에 기초하여 상기 복수의 블록을 관심 영역에 대응하는 제1 블록 및 비관심 영역에 대응하는 제2 블록으로 구분하는 파티셔닝 유닛;
상기 제1 블록에 대한 제1 양자화 파라미터 값을 결정하고, 상기 제2 블록에 대한 제2 양자화 파라미터 값을 결정하는 레이트 제어 모듈; 및
상기 제1 양자화 파라미터 값 및 상기 제2 양자화 파라미터 값에 기초하여 상기 현재 프레임에 대한 부호화 동작을 수행하여 압축 데이터를 형성하는 압축 모듈을 포함하는, 영상 부호화 장치.
입력 영상을 제공하는 비디오 소스;
복수의 시나리오 각각에 대한 관심 영역 정보를 저장하는 제1 메모리, 상기 입력 영상의 시나리오에 대응하는 관심 영역 정보를 상기 제1 메모리에서 추출하는 NPU(Neural Processing Unit), 상기 입력 영상에 포함된 현재 프레임을 복수의 블록으로 구분하고, 상기 관심 영역 정보에 기초하여 상기 복수의 블록을 관심 영역에 대응하는 제1 블록 및 비관심 영역에 대응하는 제2 블록으로 구분하는 파티셔닝 유닛, 상기 제1 블록에 대한 제1 양자화 파라미터 값을 결정하고, 상기 제2 블록에 대한 제2 양자화 파라미터 값을 결정하는 레이트 제어 모듈, 상기 제1 양자화 파라미터 값 및 상기 제2 양자화 파라미터 값에 기초하여 상기 현재 프레임에 대한 부호화 동작을 수행하여 압축 데이터를 형성하는 압축 모듈을 포함하는 영상 부호화 장치; 및
상기 압축 데이터를 이용하여 엔트로피 인코딩된 비트 스트림을 저장하는 제2 메모리를 포함하는, 영상 부호화 시스템.