KR101938311B1

KR101938311B1 - 기계학습을 이용한 객체정보 기반 고속 고효율 비디오 코덱 영상 부호화 시스템

Info

Publication number: KR101938311B1
Application number: KR1020180073994A
Authority: KR
Inventors: 이윤진
Original assignee: 주식회사 다누시스
Priority date: 2018-06-27
Filing date: 2018-06-27
Publication date: 2019-01-14

Abstract

본 발명은 기계학습을 이용한 객체정보 기반 고속 고효율 비디오 코덱 영상 부호화 시스템에 관한 것이다.
여기서, 본 발명의 기계학습을 이용한 객체정보 기반 고속 고효율 비디오 코덱 영상 부호화 시스템은 시간에 따라 일정영역을 촬영하여 시간에 따라 서로 다른 영상이미지를 생성하는 영상이미지생성부;
특정 객체가 기계 학습되어, 학습된 객체로부터 객체정보를 추출하는 객체정보제공부;
영상이미지생성부에서 영상이미지를 일정한 간격으로 나누어, 복수 개의 제1블록이 형성된 영상이미지를 입력 받고, 객체정보제공부에서 객체정보를 입력 받아, 저장된 기준객체와 객체정보를 대비하여, 매칭되지 않는 객체를 비학습객체로 추출하고, 매칭되는 객체를 학습객체로 추출하는 객체영역추출부;
학습객체에 포함되는 제1블록을 복수 개의 학습객체하위블록으로 분할하여, 학습객체하위블록에 가중치를 부여하여 부호화 하는 학습객체부호화부; 및
비학습객체에 포함되는 제1블록을 부호화 하는 비학습객체부호화부를 포함한다.

Description

기계학습을 이용한 객체정보 기반 고속 고효율 비디오 코덱 영상 부호화 시스템{System Of Fast And High Efficiency Video Codec Image Coding Based On Object Information Using Machine Learning}

본 발명은 기계학습으로 학습된 객체를 이용해 영상이미지를 빠르고 효율적으로 부호화 하는 기술에 관한 것이다.

기계학습 방법은 하나의 영상으로부터 다양한 객체를 분류하고, 분류된 객체 정보를 추출하는데 이용되고 있다. 보다 구체적으로, 기계학습 방법은 하나의 영상으로부터 사람, 차, 자전거, 자동차 등을 감지하며 객체에 맞게 분류하는 것이다.

기계학습은 객체를 분류 및 감지하며 객체에 대해 학습하며 학습된 데이터를 기반으로 보다 객체를 보다 정확하게 분류 및 감지할 수 있다. 대표적으로 딥 러닝(Deep learing) 기술은 기계학습 방법의 하나의 예가 된다.

현재, 기계학습 기술은 카메라 또는 비디오 입력 장치에 결합되어 영상으로부터 특정 객체를 추출한다는 점에서, 불법 주차 단속, 불법 쓰레기 유기 및 제품불량여부를 판별할 수 있는 어플리케이션으로 활용되고 있다.

그러나, 현재까지 개발된 기계학습 기술은 객체를 분류하고, 부호화 하는 과정에서 불필요한 분류 및 불필요한 부호화를 진행시키고 있다. 이는, 기계학습에 대한 복잡도를 증가시키며 부호화 효율을 낮추는 문제가 되고 있다.

대한민국 등록특허 10-1851099 (공고일자 2018.04.20)

이에, 본 발명이 해결하고자 하는 과제는 이러한 문제점을 해결하기 위한 것으로서, 본 발명은 기계학습을 통해 학습된 객체정보를 기반으로 영상의 부호화 효율을 증가시키고, 영상부호화의 복잡도를 감소시킬 수 있도록 한다.

본 발명의 해결 하고자 하는 과제는 이상에서 언급한 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

상기 해결하고자 하는 과제를 달성하기 위한 본 발명의 기계학습을 이용한 객체정보 기반 고속 고효율 비디오 코덱 영상 부호화 시스템은,

시간에 따라 일정영역을 촬영하여 시간에 따라 서로 다른 영상이미지를 생성하는 영상이미지생성부;

특정 객체가 기계 학습되어, 학습된 객체로부터 객체정보를 추출하는 객체정보제공부;

상기 영상이미지생성부에서 상기 영상이미지를 일정한 간격으로 나누어, 복수 개의 제1블록이 형성된 영상이미지를 입력 받고, 상기 객체정보제공부에서 상기 객체정보를 입력 받아, 저장된 기준객체와 상기 객체정보를 대비하여, 매칭되지 않는 객체를 비학습객체로 추출하고, 매칭되는 객체를 학습객체로 추출하는 객체영역추출부;

상기 학습객체에 포함되는 제1블록을 복수 개의 학습객체하위블록으로 분할하여, 상기 학습객체하위블록에 가중치를 부여하여 부호화 하는 학습객체부호화부; 및

상기 비학습객체에 포함되는 제1블록을 부호화 하는 비학습객체부호화부를 포함하고,

상기 영상이미지생성부는 시간의 경과에 따라 서로 다른 제1영상이미지와 제2영상이미지를 생성하고,

상기 비학습객체부호화부는 상기 제1영상이미지와 상기 제2영상이미지를 중첩하여, 상기 제1영상이미지의 비학습객체에 포함되는 영역에 상기 제2영상이미지의 학습객체가 중첩되는 경우 상기 제2영상이미지의 학습객체의 제1블록을 상기 제1블록의 크기 이하로 분할할 수 있다.

상기 비학습객체부호화부는 상기 제1블록의 분할을 제한하는 분할블록의 크기값을 포함하고 있으며, 상기 분할블록의 크기값에 대응될 때까지 상기 제1블록을 분할할 수 있다.

상기 비학습객체부호화부는 상기 제1블록을 상기 제1블록의 가로 및 세로의 길이가 1/2이 되는 상기 제2블록으로 분할하여 상기 제2블록을 부호화 할 수 있다.

상기 비학습객체부호화부는 상기 제2블록에 상기 제1블록 보다 큰 가중치를 부여할 수 있다.

상기 학습객체하위블록은 상기 제1블록의 가로 및 세로의 길이가 1/2이 되는 상기 제2블록 및 상기 제2블록의 가로 및 세로의 길이가 1/2이 되는 상기 제3블록이 되고, 제3블록의 가로 및 세로의 길이가 1/2이 되는 제4블록이 되고, 상기 학습객체부호화부는 상기 제4블록에 상기 제3블록 보다 큰 가중치 그리고 상기 제3블록에 상기 제2블록 보다 큰 가중치 그리고 상기 제2블록에 상기 제1블록 보다 큰 가중치를 부여할 수 있다.

상기 객체영역추출부는 학습객체를 포함하여, 학습객체의 크기 보다 크게 학습객체영역을 설정할 수 있다.

삭제

본 발명에 따른 기계학습을 이용한 객체정보 기반 고속 고효율 비디오 코덱 영상 부호화 시스템은 기계학습을 통해 학습된 객체를 기반으로 영상이미지에서 학습객체와 비학습객체를 분류하고 학습객체와 비학습객체를 서로 다른 부호화 과정으로 부호화한다.

즉, 본 발명은 하나의 영상이미지에 서로 다른 부호화를 진행시키며, 영상이미지의 부호화 효율을 향상시킬 수 있다. 또한, 본 발명은 하나의 영상이미지에 서로 다른 블록 분할과정을 진행시키며, 분할된 블록을 부호화 시키며 영상이미지에 대한 부호화 속도를 높일 수 있다.

도 1은 본 발명의 일 실시예에 따른 기계학습을 이용한 객체정보 기반 고속 고효율 비디오 코덱 영상 부호화 시스템의 블록도이다.
도 2는 영상이미지생성부에 촬영된 영상이미지를 나타낸 도면이다.
도 3은 영상이미지생성부와 객체정보제공부가 결합된 일례의 장치를 나타낸 도면이다.
도 4는 도 1의 객체영역추출부가 도 2의 제2영상이미지를 처리하는 상태를 나타낸 도면이다.
도 5는 도 4의 제1블록이 학습객체하위블록으로 분할되는 과정을 나타낸 도면이다.
도 6은 기계학습을 이용한 객체정보 기반 고속 고효율 비디오 코덱 영상 부호화 시스템의 학습객체부호화부의 부호화 과정을 나타낸 도면이다.
도 7은 객체영역추출부가 영상이미지에 포함된 학습객체의 영역을 표시한 도면이다.
도 8은 학습객체의 영역에 가중치를 표시한 도면이다.
도 9는 학습객체부호화부와 비학습객체부호화부가 시간에 따라 연속된 영상을 분할하는 과정을 나타낸 도면이다.
도 10은 SKIP 모드 이용 코딩유닛 분할 구조 조기 종료방법을 나타낸 도면이다.
도 11은 코딩유닛 분할구조 제한 종료방법을 나타낸 도면이다.
도 12는 움직임 예측 탐색범위 제한 종료방법의 처리순서도이다.
도 13은 향상된 움직임 벡터 예측 (AMVP: Advanced Motion Vector Prediction) 탐색 방법을 나타낸 도면이다.

본 발명의 이점 및 특징 그리고 그것들을 달성하기 위한 방법들은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다.

그러나, 본 발명은 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며 단지 본 실시 예들은 본 발명의 개시가 완전하도록 하고 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이다.

본 발명의 청구범위는 청구항을 비롯해 청구항을 뒷받침하는 설명에 의해 정의될 수 있다.

아울러, 명세서 전체에 걸쳐 기술된 기계학습을 이용한 객체정보 기반 고속 고효율 비디오 코덱 영상 부호화에 대한 모든 설명은 기계학습을 이용한 객체정보 기반 고속 고효율 비디오 코덱 영상 부호화 시스템 및 기계학습을 이용한 객체정보 기반 고속 고효율 비디오 코덱 영상 부호화 방법에 그대로 적용될 수 있다. 또한 명세서 전체에 걸쳐 동일 참조부호는 동일 구성요소를 지칭한다.

이하의 내용은 단지 본 발명의 원리를 예시한다. 그러므로 당업자는 비록 본 명세서에 명확히 설명되거나 도시되지 않았지만 본 발명의 원리를 구현하고 본 발명의 개념과 범위에 포함된 다양한 장치를 발명할 수 있는 것이다. 또한, 본 명세서에 열거된 모든 조건부 용어 및 실시예들은 원칙적으로, 본 발명의 개념이 이해되도록 하기 위한 목적으로만 명백히 의도되고, 이와 같이 특별히 열거된 실시예들 및 상태들에 제한적이지 않는 것으로 이해되어야 한다.

또한, 본 발명의 원리, 관점 및 실시 예들뿐만 아니라 특정 실시예를 열거하는 모든 상세한 설명은 이러한 사항의 구조적 및 기능적 균등물을 포함하도록 의도되는 것으로 이해되어야 한다. 또한 이러한 균등물들은 현재 공지된 균등물 뿐만 아니라 장래에 개발될 균등물 즉 구조와 무관하게 동일한 기능을 수행하도록 발명된 모든 소자를 포함하는 것으로 이해되어야 한다.

따라서, 예를 들어, 본 명세서의 블럭도는 본 발명의 원리를 구체화하는 예시적인 회로의 개념적인 관점을 나타내는 것으로 이해되어야 한다. 이와 유사하게, 모든 흐름도, 상태 변환도, 의사 코드 등은 컴퓨터가 판독 가능한 매체에 실질적으로 나타낼 수 있고 컴퓨터 또는 프로세서가 명백히 도시되었는지 여부를 불문하고 컴퓨터 또는 프로세서에 의해 수행되는 다양한 프로세스를 나타내는 것으로 이해되어야 한다.

이하, 도 1 내지 도 11을 참조하여 본 발명의 일 실시예에 따른 기계학습을 이용한 객체정보 기반 고속 고효율 비디오 코덱 영상 부호화 시스템에 대해 상세히 설명한다. 그리고 이를 바탕으로 도 12를 참조해 기계학습을 이용한 객체정보 기반 고속 고효율 비디오 코덱 영상 부호화 방법에 대해 상세히 설명한다.

먼저, 도 1을 참조하여 본 발명의 일 실시예에 따른 기계학습을 이용한 객체정보 기반 고속 고효율 비디오 코덱 영상 부호화 시스템에 대해 구체적으로 설명한다.

기계학습을 이용한 객체정보 기반 고속 고효율 비디오 코덱 영상 부호화 시스템(1)은 기계학습을 통해 학습된 객체를 기반으로 영상이미지에서 학습객체와 비학습객체를 분류하고 학습객체와 비학습객체를 서로 다른 부호화 과정으로 부호화한다.

이러한 기계학습을 이용한 객체정보 기반 고속 고효율 비디오 코덱 영상 부호화 시스템(1)은 영상이미지생성부(10), 객체정보제공부(20), 객체영역추출부(30), 학습객체부호화부(40) 및 비학습객체부호화부(50)를 포함한다.

아울러, 기계학습을 이용한 객체정보 기반 고속 고효율 비디오 코덱 영상 부호화 시스템(1)은 부호화종료여부판단부(60)를 포함할 수 있다.

영상이미지생성부(10)는 시간에 따라 일정영역을 촬영하여 시간에 따라 서로 다른 영상 이미지를 생성한다. 이러한 영상이미지생성부(10)는 객체가 위치한 일정영역을 촬영하여 영상 이미지를 생성할 수 있는 카메라가 될 수 있다. 일례로, 영상이미지생성부(10)는 객체정보와 매칭되는 복수 개의 객체를 포함하는 일정영역을 촬영하여 도 2의 (a)에 도시된 바와 같이, 제1영상이미지(110)와 도 2의 (b)에 도시된 바와 같이, 제2영상이미지(120)를 생성할 수 있다. 이때, 복수 개의 객체는 객체정보제공부(20)에서 기계학습 된 객체정보에 대응되는 자동차 객체, 자전거 객체 및 강아지 객체가 될 수 있다. 이러한 객체는 블록기반 부호화 코덱에서 블록 내에 여러 개가 존재할 수 있다. 이때, 객체에 대한 객체정보 예를 들어, 플래그 정보 등은 영상을 코딩 하여 전송하는 비트스트림에 포함될 수 있다.

객체정보제공부(20)는 영상(또는 영상 프레임)이미지에 포함된 객체를 추출하고 기계학습하며 학습된 객체로부터 객체정보를 추출한다.

이러한 객체정보제공부(20)는 영상이미지생성부(10)에 설치될 수 있다. 다시 말해, 영상이미지생성부(10)와 객체정보제공부(20)는 하나의 개체로 통합된 장치로 형성될 수 있다. 일례로, 도 3에 도시된 바와 같이, 기계학습을 하는 객체정보제공부(20)가 영상생성부(10)에 설치된 CCTV 카메라로 형성될 수 있다.

아울러, 객체정보제공부(20)는 도 3에 도시된 바와 같이 영상이미지생성부(10)에서 영상 프레임을 생성하기 이전에 다양한 특정 객체 일례로, 자전거, 자동차, 개 등의 객체를 기계학습 할 수 있다. 이때 객체정보제공부(20)는 딥 러닝 기술과 같은 기계학습 기술을 통해, 객체를 기계 학습할 수 있다. 또한, 객체정보제공부(20)는 영상이미지의 부호화에 필요한 객체정보를 이용할 수 있도록 한다.

객체정보제공부(20)는 영상이미지생성부(10)를 통해 촬영된 영상이미지로부터 학습된 객체를 감지하며 객체로부터 정보 즉, 객체정보를 추출할 수 있다.

영상이미지생성부(10)는 생성된 영상이미지 그리고 객체정보제공부(20)는 추출된 객체정보를 객체영역추출부(30)에 전송한다.

객체영역추출부(30)는 도 4에 도시된 바와 같이 영상이미지를 일정한 간격으로 나누어, 복수 개의 제1블록이 형성된 영상이미지를 입력 받는다.

객체영역추출부(30)는 저장된 기준객체 즉, 기계 학습된 객체정보와 영상이미지에서 추출된 객체정보를 비교한다. 이때, 객체영역추출부(30)는 매칭되지 않는 객체를 비학습객체(Ba1)로 추출하고, 매칭되는 객체를 학습객체(Aa1, Ab1, Ac1)로 추출한다.

학습객체부호화부(40)는 객체영역추출부(30)에서 추출된 학습객체 일례로, 강아지 학습객체(Aa1)에 포함되는 제1블록(Aa11)을 복수 개의 학습객체하위블록(Aa21)로 분할할 수 있다.

여기서, 학습객체하위블록(Aa21)은 도 5에 도시된 바와 같이 제1블록의 가로 및 세로의 길이가 1/2이 되는 제2블록(Aa12) 및 제2블록의 가로 및 세로의 길이가 1/2이 되는 제3블록(Aa13)이 되고, 제3블록의 가로 및 세로의 길이가 1/2이 되는 제4블록(Aa14)이 될 수 있다.

학습객체부호화부(40)는 제4블록에 제3블록 보다 큰 가중치 그리고 제3블록에 제2블록 보다 큰 가중치 그리고 제2블록에 상기 제1블록 보다 큰 가중치를 부여할 수 있다. 그리고 가중치가 부여된 블록을 부호화 할 수 있다. 일례로, 학습객체부호화부(40)는 최초 제1블록에서부터 제1블록이 분할되어 형성되는 블록에 가중치 1씩 증가시키며 부여하며 최초 제1블록에 가중치 0, 제2블록에 가중치 1, 제3블록에 가중치 2 및 제4블록에 가중치 3을 부여할 수 있다. 그리고 각 블록을 부호화 할 수 있다. 즉, 학습객체부호화부(40)는 학습객체가 검출된 영역에 제1블록에서 많이 분할되어 큰 가중치가 부여된 제3블록 및 제4블록이 형성되도록 하며, 분할된 블록을 부호화 한다.

보다 구체적으로 학습객체부호화부(40)는 부호화를 수행할 때 영상을 코딩 유닛(CU: Coding Unit, 이하 'CU')의 기본 단위인 최대코딩유닛(LCU: Largest Coding Unit) 단위로 나누어 부호화를 수행한다. 여기서, 코딩 유닛(CU)은 기존의 비디오 코덱인 H.264 /AVC에서의 기본 블록인 매크로블록(MB: Macro Block, 이하 'MB')과 유사한 역할을 한다. 그러나, 코딩유닛은 16x16의 고정 크기를 갖는 매크로블록과 달리 가변적으로 크기가 정해질 수 있다. 또한 최대코딩유닛(LCU)은 영상의 효율적인 부호화를 위해 다시 최대코딩유닛 보다 작은 크기를 갖는 여러 코딩유닛(CU)으로 분할될 수 있다. 64x64 크기의 최대코딩유닛은 다양한 방식으로 복수의 코딩유닛(CU)들로 분할될 수 있다. 64x64 크기의 최대코딩유닛은 도 5와 같이 복수 개의 코딩유닛들로 분할될 수 있다.

이하, 도 5를 참조하여, 제1블록이 학습객체하위블록으로 분할되는 과정을 설명한다. 여기서, 도 5의 ①은 도 4의 강아지 학습객체(Aa1)에 포함되는 제1블록(Aa11)을 나타낸다. 제1블록(Aa11)은 도 5의 ②에 도시된 바와 같이, 최대코딩유닛이 분할 깊이 1인 32x32 크기의 코딩유닛(CU)들로 분할될 수 있다. 32x32 크기의 코딩유닛(CU)들은 도 5의 ④, ⑧, ⑫에 도시된 바와 같이, 32x32 크기의 코딩유닛(CU)이 분할 깊이 2인 16x16 크기의 코딩유닛(CU)들로 분할될 수 있다. 그리고, 16x16 크기의 코딩유닛(CU)들은 도 5의 ⑥, ⑩에 도시된 바와 같이, 8x8 크기의 분할 깊이 3의 코딩유닛(CU)들로 분할될 수 있다.

최대코딩유닛(LCU)은 이와 같이 복수 개의 코딩유닛(CU)으로 분할될 수 있다. 이러한 최대코딩유닛(LCU)의 분할 구조는 부호화 단위의 분할 정보가 될 수 있다. 학습객체부호화부(40)는 다양한 최대코딩유닛(LCU) 분할 구조를 생성하여 최대코딩유닛(LCU) 분할 구조 후보에 저장한 뒤, 최적의 최대코딩유닛(LCU) 분할 구조를 결정하는 단계에서 최대코딩유닛(LCU) 단위로 최대코딩유닛(LCU) 분할 구조 후보 중 하나의 분할 구조를 최적의 최대코딩유닛(LCU) 분할 구조로 선택할 수 있도록 한다.

코딩유닛(CU) 후보에 대한 선택은 율-왜곡 최적화(Rate-distortion Optimization) 방법에 의해 결정되며, 이를 통해 가장 부호화 효율이 좋은 분할구조로 결정된다.

이와 같은 최대코딩유닛(LCU)의 분할구조는 최대코딩유닛(LCU) 단위로 영상의 특성에 맞게 최대코딩유닛(LCU) 분할 구조를 기초로 하여, 부호화를 수행함으로써 부호화 효율을 높일 수 있다. 아울러, 이러한 학습객체부호화부의 부호화 과정은 도 6에 도시된 바와 같이 나타날 수 있다.

학습객체부호화부의 부호화 과정은 HEVC 비디오 코덱 부호화 과정이 될 수 있다. 이러한 HEVC 비디오 코덱 부호화 과정은 도 6에 도시된 바와 같이, 블록 된 영상을 입력 받아 부호화 단위 및 구조, 화면 간(Inter) 예측, 보간(Interpolation), 필터링(Filtering), 변환(Transform) 방법 등 수행할 수 있다.

비학습객체부호화부(50)는 객체영역추출부(30)에서 추출된 비학습객체에 포함되는 제1블록을 부호화 할 수 있다. 또한, 비학습객체부호화부(50)는 제1영상이미지(110)와 제2영상이미지(120)를 중첩하여 제1영상이미지의 비학습객체에 포함되는 영역에 제2영상이미지의 학습객체가 중첩되는 경우, 즉, 학습객체가 움직여 비학습객체로 진입하는 경우 제2영상이미지의 학습객체의 제1블록(Aa11)을 학습객체부호화부와 같이 제1블록의 크기 이하로 분할할 수 있다. 즉, 비학습객체부호화부(50)는 제1블록을 제1블록의 가로 및 세로의 길이가 1/2이 되는 제2블록으로 분할할 수 있다. 특히, 비학습객체부호화부(50)는 제1블록의 분할을 제한하는 분할블록의 크기값을 포함하고 있어, 분할블록의 크기값에 대응될 때까지 제1블록을 분할할 수 있다.

또한, 비학습객체부호화부(50)는 제2블록에 제1블록 보다 큰 가중치를 부여할 수 있다. 일례로, 비학습객체부호화부(50)는 제1블록에 가중치 0을 부여하고, 제2블록에 가중치 1을 부여할 수 있다. 비학습객체부호화부(50)는 이와 같이 분할된 블록을 부호화 할 수 있다. 이와 같은, 비학습객체부호화부(50)는 객체가 검출되지 않고 객체의 움직임이 적은 또는 화소 변화가 적은 영역에 제1블록에서 많이 분할되지 않고, 분할되더라도 한 번 분할되어, 적은 가중치가 부여된 제2블록이 형성되도록 하며 분할된 블록을 부호화 한다.

이하, 도 7 및 도 8을 참조하여 객체영역추출부가 갖는 다른 특징에 대해 설명하도록 한다. 객체영역추출부(30)는 학습객체를 포함하여, 도 7에 도시된 바와 같이 학습객체(Aa1, Ab1, Ac1)의 크기 보다 크게 학습객체영역(OA)을 설정할 수 있다. 보다 구체적으로 객체영역추출부(30)는 학습객체의 외측을 따라 한 층의 제1블록이 감싼 영역을 학습객체영역으로 설정할 수 있다.

도 8의 (a)는 객체영역추출부에서 비학습객체의 영역을 구하는 첫 번째 단계로서, 제1블록 즉, 최대코딩유닛(LCU)로 분할된 영상이미지에서 객체영역이 포함된 최대코딩유닛(LCU)에 대해서는 가중치를 '2'로 부여하고, 그외의 최대코딩유닛(LCU) 즉, 제1블록에 대해서는 가중치를 '0'으로 부여한다. (b)는 객체영역추출부에서 비학습객체의 영역을 구하는 두 번째 단계로서, 가중치가 '2'로 부여된 최대코딩유닛(LCU)의 인접한 최대코딩유닛(LCU)에 가중치를 '1'로 한다. 이 과정을 통해 영상이미지에서 가중치가 2로 부여된 객체영역, 그리고 가중치가 1로 부여된 객체영역의 인접영역을 제외한 비학습 객체영역을 정확하게 구할 수 있다.

이하, 도 9를 참조하여, 학습객체부호화부(40)와 비학습객체부호화부(50)의 또 다른 특징에 대해 설명하도록 한다.

도 9의 (a)와 (b)는 시간차를 두고 촬영된 영상이미지이다. 이러한 영상이미지는 시간 축 상에 고속 고효율 비디오 코덱으로 부호화된 연속된 영상으로 그것의 코딩유닛(CU) 분할구조의 일 예를 나타내고 있다. 코딩유닛(CU) 분할 구조는 영상의 특성에 따라 결정되는 특성을 보여주고 있다. 보다 구체적으로 코딩유닛 분할 구조는 객체 또는 그것의 경계와 같이 움직임이 많거나 복잡한 영역에서는 최대코딩유닛(LCU)의 분할구조가 배경과 같은 비학습 객체영역에서의 분할구조와 비교해 극명한 차이를 나타내고 있다.

도 9에서 표시된 바와 같이, (1)과 같이 비학습된 객체가 위치하는 영역에는 최대코딩유닛(LCU)이 위치하고, (2)와 같이 학습객체가 위치하는 영역에는 최대코딩유닛(LCU)과 달리 화소 변화가 적어 상대적으로 큰 크기의 코딩유닛(CU)로 분할되어 부호화가 수행되고 있다. 일례로, (2)와 같이 학습객체가 위치하는 영역이라도, 화소가 동일한 객체의 일부분이 움직일 경우, 화소 변화가 적어 움직인 부분에 대해서는 최대코딩유닛(LCU)에서 적게 분할되어 부호화가 수행될 수 있다.

즉, 도 9의 (a)와 (b)의 (1)과 (2)의 최대코딩유닛(LCU) 비교를 통해 시간적으로 동일한 위치의 최대코딩유닛(LCU)에 대한 분할구조가 상당한 유사성을 갖는 것을 알 수 있다. 이러한 점은 코딩유닛(CU) 분할구조를 결정하는데 있어서 분할구조의 형태를 미리 예측할 수 있는 좋은 정보가 될 수 있다.

특히, 이러한 객체정보는 비학습 객체영역에 위치하는 최대코딩유닛(LCU)이 대체로 깊이가 크지 않으며 코딩유닛(CU) 크기가 큰 형태로 분할구조를 갖는 것으로 예상할 수 있도록 하고, 시간적으로 동일한 위치의 최대코딩유닛(LCU)에 대해서 객체정보를 참조하면 분할구조가 유사하게 될 것임을 예상할 수 있다.

따라서, 이와 같은 객체정보를 이용하여, 모든 코딩유닛(CU)에 대해 부호화를 수행함으로써, 분할구조를 결정하는 기존의 방법에서 객체 및 배경 영역에 따른 분할구조를 예측할 수 있어 부호화 복잡도를 감소시킬 수 있다.

이와 같은 전술한 최대코딩유닛 및 코딩유닛 분할 구조에는 SKIP 모드 이용 코딩유닛 분할 구조 조기 종료방법, 코딩유닛 분할구조 제한 방법 그리고 움직임 예측 탐색범위 제한 방법이 적용될 수 있다.

먼저, 전술한 최대코딩유닛 및 코딩유닛 분할 구조가 도 10에 도시된 바와 같은 SKIP 모드 이용 코딩유닛 분할 구조 조기 종료방법에 적용된 것에 대해 설명한다.

SKIP 모드 이용 코딩유닛 분할 구조 조기 종료방법은 비학습 객체영역의 블록이 대체로 움직임의 변화가 크기 않아 SKIP 모드로 부호화를 수행한다. 이러한 방법은 현재 코딩유닛(CU)이 배경에 해당할 경우 부호화 수행과정에서 최적의 코딩유닛(CU)이 2Nx2N 크기의 SKIP 모드로 결정이 될 경우에는 더 이상의 코딩유닛(CU) 분할을 수행하지 않고 종료한다. 이러한 방법을 통해, 블록의 분할에 대한 계산 복잡도를 감소시켜 블록의 부호화 속도를 향상시킬 수 있다.

보다 구체적으로 SKIP 모드 이용 코딩유닛 분할 구조 조기 종료방법에 대해 설명하면, SKIP 모드 이용 코딩유닛 분할 구조 조기 종료방법은 7단계로 일련의 단계를 진행될 수 있다.

먼저, 현재 코딩유닛(CU)의 영역이 비학습 객체영역인지 판단하고, 최적 에측단위(PU: Prediction unit) 모드를 결정하는 제1단계를 일련의 단계로 시작한다. 제1단계 이후, 현재 코딩유닛(CU)이 가장 작은 크기의 코딩유닛(CU)인지 판단하는 제2단계를 진행한다. 이때, 코딩유닛이 가장 작은 크기의 코딩유닛이 아닐 경우 제3단계를 진행한다. 반면, 코딩유닛이 가장 작은 크기의 코딩유닛일 경우 제6단계를 진행한다.

제3단계로 진행되어, 코딩유닛이 비학습 객체영역에 속하는 코딩 유닛일 경우 제4단계를 진행한다. 만약 그렇지 않을 경우에는 제5단계를 진행한다.

제4단계로 진행되어, 현재 코딩유닛이 SKIP 모드로 결정되었는지 판단하여, SKIP 모드로 결정되었다면 제6단계를 진행한다.

제5단계로 진행될 경우, 현재 코딩유닛의 가로 절반, 세로 절반의 크기를 갖는 4개의 코딩유닛으로 분할하고 제1단계를 수행한다.

코딩유닛의 분할이 종료되면, 현재 크기의 코딩유닛를 부호화하여 코딩유닛 분할 구조 후보에 저장하는 제6단계를 진행한다. 이후, 현재 최대코딩유닛(LCU)에 저장되어 있는 코딩유닛(CU) 후보들 중 율-왜곡 최적화 방법(Rate-distortion Optimization)을 통하여 화질 및 비트량 측면에서 가장 효율적인 CU의 분할구조를 선택하는 제7단계를 진행한다. 그리고 제7단계를 끝으로 일련의 단계를 종료한다.

또한, 도 9와 같은 코딩유닛 분할 구조는 도 11과 같이 코딩유닛 분할구조 제한 방법이 적용될 수 있다.

코딩유닛 분할구조 제한 방법은 비학습 객체영역의 블록이 대체로 시간적 위치의 코딩유닛의 분할구조와 유사한 구조를 갖는 점을 바탕으로 시간적 위치의 코딩유닛의 분할구조가 단순할 경우 부호화하려는 코딩유닛의 분할구조 역시 단순한 점을 이용하는 것이다.

이러한 방법은 현재 코딩유닛이 비학습 객체영역에 해당할 경우 시간적 상관관계에 있는 최대코딩유닛(LCU)의 최소크기가 설정된 코딩유닛의 크기 이하가 아니라면, 현재의 최대코딩유닛(LCU)도 해당 범위 이하의 코딩유닛 분할을 수행 하지 않고 종료한다.

이하, 보다 구체적으로 코딩유닛 분할구조 제한 방법에 대해 설명한다. 다만, 코딩유닛 분할구조 제한 방법에 대한 설명이 간결하고 명확해질 수 있도록, 코딩유닛 분할구조 제한 방법에 대해 코딩유닛의 설정된 크기는 32x32로 하였다.

코딩유닛 분할구조 제한 방법은 8단계로 일련의 단계를 진행할 수 있다.

먼저, 현재 코딩유닛의 영역이 비 객체영역인지 판단하고, 최적 예측유닛 모드를 결정하는 제1단계로 시작한다. 제1단계 이후, 현재 코딩유닛이 가장 작은 크기의 코딩유닛인지 판단하는 제2단계를 진행한다. 이때, 가장 작은 크기의 코딩유닛이 아닐 경우 제3단계를 수행하고, 가장 작은 크기의 코딩유닛일 경우 제7단계를 수행한다.

제3단계에서는 현재 코딩유닛이 비학습 객체영역에 속하는지를 판별한다. 이때, 현재 코딩유닛이 비학습 객체영역에 속할 경우 제4단계를 진행한다.

제4단계에서 현재 코딩유닛의 크기가 32x32보다 작은지 판단하여, 코딩유닛의 크기가 32x32보다 작다면 제5단계를 수행하고, 코딩유닛의 크기가 32x32보다 크거나 같다면 제6단계를 수행한다.

제5단계에서는 참조 프레임으로부터 대응되는(Co-located) 최대코딩유닛(LCU)의 최소 코딩유닛(CU) 크기가 32x32보다 크거나 같은지를 판단한다. 이때, 최대코딩유닛의 크기가 32x32보다 크거나 같으면 제7단계를 수행하고, 최대코딩유닛의 크기가 32x32 보다 작다면 제6단계를 수행한다.

제6단계에서는 현재 코딩유닛의 가로 절반, 세로 절반의 크기를 갖는 4개의 코딩유닛으로 분할하고 제1단계를 수행한다.

반면, 제7단계에서는 현재 크기를 부호화하여 코딩유닛의 분할 구조 후보에 저장하고 제8단계를 수행한다.

제8단계에서는 현재 최대코딩유닛(LCU)에 저장되어 있는 코딩유닛 후보들 중 율-왜곡 최적화 방법(Rate-distortion Optimization)을 통하여 화질 및 비트량 측면에서 가장 효율적인 코딩유닛의 분할구조를 선택한다. 이와 같은 제8단계를 끝으로 일련의 단계를 종료한다. 그리고, 도 9와 같이 코딩유닛 분할 구조는 도 12와 같이 움직임 예측 탐색범위 제한 방법에 적용될 수 있다.

움직임 예측 탐색 범위 제한 종료방법은 일 예로 비학습 객체영역의 부호화 과정에서 움직임 예측을 수행하는 경우 기존의 움직임 예측 탐색범위에 대비하여 1/2로 제한하는 방법이다.

움직임 예측 탐색 범위 제한 방법은 도 12에 도시된 바와 같은 처리 순서로 진행된다. 특히, 움직임 예측 탐색 범위 제한 방법은 현재 예측 유닛(PU)가 움직임 탐색을 수행하는 경우에 움직임 예측 범위를 기존보다 1/2 값으로 설정하고, 영상 이미지에서 현재 코딩유닛이 배경영역에 해당할 경우, 움직임 예측 탐색 범위를 설정값 64에서 1/2인 32로 설정하고, 그 외의 경우에는 기존 방법을 따른다. 이러한 움직임 예측 탐색 범위 제한 방법은 기존 방법보다 계산 복잡도를 줄일 수 있다. 여기서, 기존 방법은 Advanced Motion Vector Prediction(AMVP)와 Merge가 될 수 있다.

이러한 기존 방법 가운데, Advanced Motion Vector Prediction(AMVP)은 도 13에 도시된 바와 같이, 참조 프레임으로부터 움직임 탐색 영역 안의 위치들에 다이아몬드 탐색 방법을 이용하여 1차로 현재 PU와 제일 근접한 블록이 존재하는 위치를 찾고 2차로 2포인트 탐색 방법을 이용하여 해당 위치를 중심으로 세밀하게 주변 위치들과 비교하여 최적의 움직임 벡터를 구하는 방법이다.

또한 Merge 방법은 SKIP 모드로 부호화 할 수 있는 것으로서, SKIP 모드는 해당 PU의 잔여신호를 제외한 움직임 정보만을 부호화하여, 현재 PU와 참조블록의 화소 값이 모두 동일하며 어떠한 화소 정보도 추가되지 않고 현재 PU 그대로 가져오도록 한다. 더욱이, SKIP 모드는 2Nx2N의 예측유닛(PU)에만 적용되며, 해당 PU가 SKIP 모드로 부호화 되었는지의 확인 여부는 SKIP_FLAG를 사용하여 판단한다.

아울러, 상술한 코딩유닛 분할 구조에 적용되는 방법들은 모두 블록 크기 혹은 CU 깊이 등에 따라 적용 범위를 달리할 수 있다. 이렇게 적용 범위를 결정하는 변수(즉, 크기 혹은 깊이 정보)는 부호화기 및 복호화기가 미리 정해진 값을 사용하도록 설정할 수도 있고, 프로파일 또는 레벨에 따라 정해진 값을 사용하도록 할 수 도 있다. 또한, 부호화기가 변수 값을 비트스트림에 기재하면 복호화기는 비트스트림으로부터 이 값을 구하여 사용할 수도 있다.

코딩유닛 깊이에 따라 적용 범위를 달리하는 할 때는 아래 표에 예시한 바와 같이, 방법 A 주어진 깊이 이상의 깊이에만 적용하는 방법, 방법 B 주어진 깊이 이하에만 적용하는 방법, 방법 C 주어진 깊이에만 적용하는 방법이 있을 수 있다.

주어진 코딩유닛의 깊이가 2인 경우, 본 발명의 방법들을 적용하는 범위 결정 방식의 예 이다. (O: 해당 깊이에 적용, X: 해당 깊이에 적용하지 않음.)

적용범위를 나타내는 코딩유닛 깊이	방법A	방법B	방법C
0	X	O	X
1	X	O	X
2	O	O	O
3	O	X	X
4	O	X	X

모든 깊이에 대하여 본 발명의 방법들을 적용하지 않는 경우는 임의의 지시자(flag)를 사용하여 나타낼 수도 있다. 그리고, 코딩유닛(CU) 깊이의 최대값보다 하나 더 큰 값을 적용범위를 나타내는 코딩유닛(CU) 깊이 값으로 시그널링 함으로써 표현할 수도 있다.또한 상술한 방법은 휘도 블록의 크기에 따라 색차 블록에 다르게 적용할 수 있다. 또한, 휘도 신호영상 및 색차 영상에 다르게 적용할 수 있다.

휘도블록크기	색차블록크기	휘도 적용	색차 적용	방법들
4(4x4, 4x2, 2x4)	2(2x2)	O or X	O or X	가 1, 2, ..
	4(4x4, 4x2, 2x4)	O or X	O or X	나 1, 2, ..
	8(8x8, 8x4, 4x8, 2x8 등)	O or X	O or X	다 1, 2, ..
	16(16x16, 16x8, 4x16, 2x16 등)	O or X	O or X	라 1, 2, ..
	32(32x32)	O or X	O or X	마 1, 2, ..
8(8x8, 8x4, 2x8 등)	2(2x2)	O or X	O or X	바 1, 2, ..
	4(4x4, 4x2, 2x4)	O or X	O or X	사 1, 2, ..
	8(8x8, 8x4, 4x8, 2x8 등)	O or X	O or X	아 1, 2, ..
	16(16x16, 16x8, 4x16, 2x16 등)	O or X	O or X	자 1, 2, ..
	32(32x32)	O or X	O or X	카 1, 2, ..
16(16x16, 8x16, 4x16 등)	2(2x2)	O or X	O or X	타 1, 2, ..
	4(4x4, 4x2, 2x4)	O or X	O or X	파 1, 2, ..
	8(8x8, 8x4, 4x8, 2x8 등)	O or X	O or X	하 1, 2, ..
	16(16x16, 16x8, 4x16, 2x16 등)	O or X	O or X	개 1, 2, ..
	32(32x32)	O or X	O or X	내 1, 2, ..

표 2는 방법들의 조합의 일 예를 나타낸다.

표 2의 변형된 방법들 중에서 방법 "사 1"을 살펴보면, 휘도 블록의 크기가 8(8x8, 8x4, 2x8 등)인 경우이고, 그리고 색차 블록의 크기가 4(4x4, 4x2, 2x4)인 경우에 명세서의 방법을 휘도 신호 및 색차 신호에 적용할 수 있다. 위의 변형된 방법들 중에서 방법 "파 2"를 살펴보면, 휘도블록의 크기가 16(16x16, 8x16, 4x16 등)인 경우이고, 그리고 색차 블록의 크기가 4(4x4, 4x2, 2x4)인 경우에 명세서의 방법을 휘도 신호에 적용하고 색차 신호에는 적용하지 않을 수 있다. 또 다른 변형된 방법들로 휘도 신호에만 명세서의 방법이 적용되고 색차 신호에는 적용되지 않을 수 있다. 반대로 색차 신호에만 명세서의 방법이 적용되고 휘도 신호에는 적용되지 않을 수 있다.

삭제

이상 첨부된 도면을 참조하여 본 발명의 실시예들을 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야 한다.

1: 기계학습을 이용한 객체정보 기반 고속 고효율 비디오 코덱 영상 부호화 시스템
10: 영상이미지생성부 110: 제1영상이미지
120: 제2영상이미지
20: 객체정보제공부
30: 객체영역추출부 40: 학습객체부호화부
50: 비학습객체부호화부 60: 부호화종료여부판단부

Claims

시간에 따라 일정영역을 촬영하여 시간에 따라 서로 다른 영상이미지를 생성하는 영상이미지생성부;
특정 객체가 기계 학습되어, 학습된 객체로부터 객체정보를 추출하는 객체정보제공부;
상기 영상이미지생성부에서 상기 영상이미지를 일정한 간격으로 나누어, 복수 개의 제1블록이 형성된 영상이미지를 입력 받고, 상기 객체정보제공부에서 상기 객체정보를 입력 받아, 저장된 기준객체와 상기 객체정보를 대비하여, 매칭되지 않는 객체를 비학습객체로 추출하고, 매칭되는 객체를 학습객체로 추출하는 객체영역추출부;
상기 학습객체에 포함되는 제1블록을 복수 개의 학습객체하위블록으로 분할하여, 상기 학습객체하위블록에 가중치를 부여하여 부호화 하는 학습객체부호화부; 및
상기 비학습객체에 포함되는 제1블록을 부호화 하는 비학습객체부호화부를 포함하고,
상기 영상이미지생성부는 시간의 경과에 따라 서로 다른 제1영상이미지와 제2영상이미지를 생성하고,
상기 비학습객체부호화부는 상기 제1영상이미지와 상기 제2영상이미지를 중첩하여, 상기 제1영상이미지의 비학습객체에 포함되는 영역에 상기 제2영상이미지의 학습객체가 중첩되는 경우 상기 제2영상이미지의 학습객체의 제1블록을 상기 제1블록의 크기 이하로 분할할 수 있는, 기계학습을 이용한 객체정보 기반 고속 고효율 비디오 코덱 영상 부호화 시스템.
삭제
제1항에 있어서,
상기 비학습객체부호화부는 상기 제1블록의 분할을 제한하는 분할블록의 크기값을 포함하고 있으며, 상기 분할블록의 크기값에 대응될 때까지 상기 제1블록을 분할하는, 기계학습을 이용한 객체정보 기반 고속 고효율 비디오 코덱 영상 부호화 시스템.
제1항에 있어서,
상기 비학습객체부호화부는 상기 제1블록을 상기 제1블록의 가로 및 세로의 길이가 1/2이 되는 제2블록으로 분할하여 상기 제2블록을 부호화 할 수 있는, 기계학습을 이용한 객체정보 기반 고속 고효율 비디오 코덱 영상 부호화 시스템.
제4항에 있어서,
상기 비학습객체부호화부는 상기 제2블록에 상기 제1블록 보다 큰 가중치를 부여할 수 있는, 기계학습을 이용한 객체정보 기반 고속 고효율 비디오 코덱 영상 부호화 시스템.
제1항에 있어서,
상기 학습객체하위블록은 상기 제1블록의 가로 및 세로의 길이가 1/2이 되는 제2블록 및 상기 제2블록의 가로 및 세로의 길이가 1/2이 되는 제3블록이 되고, 제3블록의 가로 및 세로의 길이가 1/2이 되는 제4블록이 되고, 상기 학습객체부호화부는 상기 제4블록에 상기 제3블록 보다 큰 가중치 그리고 상기 제3블록에 상기 제2블록 보다 큰 가중치 그리고 상기 제2블록에 상기 제1블록 보다 큰 가중치를 부여할 수 있는, 기계학습을 이용한 객체정보 기반 고속 고효율 비디오 코덱 영상 부호화 시스템.
제1항에 있어서,
상기 객체영역추출부는 학습객체를 포함하여, 학습객체의 크기 보다 크게 학습객체영역을 설정하는, 기계학습을 이용한 객체정보 기반 고속 고효율 비디오 코덱 영상 부호화 시스템.
삭제
삭제