KR20230148579A

KR20230148579A - 머신 비전을 위한 영상 압축 방법 및 장치

Info

Publication number: KR20230148579A
Application number: KR1020220047507A
Authority: KR
Inventors: 김준수; 윤정일
Original assignee: 한국전자통신연구원
Priority date: 2022-04-18
Filing date: 2022-04-18
Publication date: 2023-10-25
Also published as: US20230336710A1

Abstract

본 발명의 일 실시예에 따른 머신 비전을 위한 영상 압축 방법은 입력 영상의 프레임들에 대하여 예측 모드를 결정하는 단계; 입력 프레임을 이용하여 예측 프레임 및 차분 영상을 생성하는 단계; 상기 예측 프레임과 상기 차분 영상을 합하여 복원된 프레임을 생성하는 단계; 상기 입력 프레임 및 상기 복원된 프레임 각각의 특징을 추출하는 단계; 상기 추출된 특징의 차이값 및 상기 예측 프레임의 비트율에 기반하여 상기 복원된 프레임을 보정하는 단계; 및 상기 보정된 프레임을 부호화하는 단계를 포함한다.

Description

머신 비전을 위한 영상 압축 방법 및 장치{METHOD AND APPARATUS FOR VIDEO COMPRESSING FOR MACHINE VISION}

본 발명은 머신 비전 태스크 수행을 위한 영상 변형 및 압축 방법에 관한 것이다.

구체적으로, 본 발명은 재건된 영상의 인지적 화질을 최대한 유지하는 대신 재건된 영상 기반의 머신 비전 임무 수행 성능을 최대한 유지하는 방법에 관한 것이다.

동영상 부호화 기술은 데이터 중복성 제거, 상대적으로 덜 중요한 정보의 제거 등을 통해 인지적 화질의 감소를 최소화하면서도 원본 데이터를 훨씬 작은 비트스트림으로 압축하는 형태로 발전해왔다고 할 수 있다. 기술의 목적 자체가 원본 데이터와 최대한 가까운 품질의 영상을 사용자에게 보여주는 것이므로, 복호화된 영상이 원본 영상과 충분히 비슷해야 한다는 조건이 사실상 유일한 설계 조건이다.

그러나 영상을 소비하는 주체가 사람이 아니라 특수한 목적을 가진 기계인 경우, 다른 조건이 요구될 수 있다. 구체적으로, 디코딩된 영상이 원본 영상과 비슷하지 않더라도, 해당 기계가 수행하고자 하는 임무에 필요한 정보들을 포함하고 있다면 특정 임무를 수행하기에는 충분할 것이다. 영상으로부터 추출할 수 있는 정보의 양은 해당 정보를 얻은 소스 영상보다 적을 것이므로, 기계는 영상을 손실없이 복원하기 위해 필요한 정보보다는 적은 양의 정보를 필요로 한다.

MPEG에서 논의되고 있는 Video Coding for Machine (VCM) 표준은 위와 같은 아이디어를 포함하고 있으며, 이에 따라 머신 비전 성능을 같이 고려하여 end-to-end 이미지 압축 네트워크를 학습시키는 기술, 머신 비전 임무에 필수적인 특징맵의 추출 및 이를 압축하는 기술 등이 논의되고 있다. End-to-end 이미지 압축 기술들은 기존 비디오 코덱 기반 압축을 넘어서는 성능을 보여주고 있으나 아직 이미지 압축 기법을 동영상으로 확장하지 않은 상태이고, intermediate 특징맵 압축의 경우 효과적이지 않은 중복성 제거와 높은 데이터 redundancy로 인해 추가적인 압축률 개선이 필요한 상황이다.

본 발명에서는 기존의 동영상 코덱을 최대한 그대로 활용하여 동영상으로 쉽게 확장 가능하면서도, 머신 비전 임무 수행에 상대적으로 덜 중요한 정보를 폐기하도록 유도하는 알고리즘을 제안한다.

국내 등록특허공보 제10-2245682호(발명의 명칭: 영상 압축 장치, 이의 학습 장치 및 방법)

본 발명의 목적은 동일한 특징맵이 추출되는 영상 중 주어진 영상 부호화기를 통해 가장 많이 압축할 수 있는 영상을 찾아내는 것이다.

또한, 본 발명의 목적은 압축 효율 감소를 방지하기 위해 연속적인 프레임이 비슷한 방식으로 변형되도록 유도하는 구조를 제공하는 것이다.

상기한 목적을 달성하기 위한 본 발명의 일 실시예에 따른 머신 비전을 위한 영상 압축 방법은 입력 영상의 프레임들에 대하여 예측 모드를 결정하는 단계; 입력 프레임을 이용하여 예측 프레임 및 차분 영상을 생성하는 단계; 상기 예측 프레임과 상기 차분 영상을 합하여 복원된 프레임을 생성하는 단계; 상기 입력 프레임 및 상기 복원된 프레임 각각의 특징을 추출하는 단계; 상기 추출된 특징의 차이값 및 상기 예측 프레임의 비트율에 기반하여 상기 복원된 프레임을 보정하는 단계; 및 상기 보정된 프레임을 부호화하는 단계를 포함한다.

이때, 상기 예측 모드를 결정하는 단계는 제1 프레임과 상기 제1 프레임 이전에 I 프레임으로 설정된 제2 프레임의 특징맵 유사도에 기반하여 상기 제1 프레임을 분류하는 단계를 포함할 수 있다.

이때, 상기 제1 프레임을 분류하는 단계는 상기 제1 프레임의 특징맵과 상기 제2 프레임의 특징맵 유사도가 기설정된 값을 초과하면 상기 제1 프레임을 P 프레임으로 분류하고, 상기 특징맵 유사도가 기설정된 값 이하이면 상기 제1 프레임을 I 프레임으로 분류할 수 있다.

이때, 상기 입력 프레임을 이용하여 예측 프레임 및 차분 영상을 생성하는 단계는 상기 입력 프레임이 I 프레임에 상응하면 상기 입력 프레임을 부호화 및 복호화한 왜곡 프레임을 생성할 수 있다.

이때, 상기 복원된 프레임을 생성하는 단계는 상기 차분 영상을 비트스트림으로 변환 및 역변환하는 단계를 포함할 수 있다.

이때, 상기 입력 프레임을 이용하여 예측 프레임 및 차분 영상을 생성하는 단계는 상기 복원된 프레임을 입력으로 반복 수행될 수 있다.

이때, 상기 입력 프레임을 이용하여 예측 프레임 및 차분 영상을 생성하는 단계는 상기 입력 프레임이 P 프레임에 상응하면, 원본 I 프레임을 참조하여 움직임 벡터를 추정하는 단계; 및 상기 움직임 벡터 및 복원된 I 프레임을 이용하여 움직임 보상 프레임을 생성하는 단계를 포함할 수 있다.

이때, 상기 복원된 프레임을 보정하는 단계는 상기 추출된 특징의 차이값 및 상기 예측 프레임의 비트율에 기반하여 상기 차분 영상에 대한 변환 계수를 업데이트할 수 있다.

또한, 상기한 목적을 달성하기 위한 본 발명의 일 실시예에 따른 머신 비전을 위한 영상 압축 장치는 적어도 하나의 프로그램이 기록된 메모리; 및 상기 프로그램을 실행하는 프로세서를 포함하며, 상기 프로그램은 입력 영상의 프레임들에 대하여 예측 모드를 결정하는 단계; 입력 프레임을 이용하여 예측 프레임 및 차분 영상을 생성하는 단계; 상기 예측 프레임과 상기 차분 영상을 합하여 복원된 프레임을 생성하는 단계; 상기 입력 프레임 및 상기 복원된 프레임 각각의 특징을 추출하는 단계; 상기 추출된 특징의 차이값 및 상기 예측 프레임의 비트율에 기반하여 상기 복원된 프레임을 보정하는 단계; 및 상기 보정된 프레임을 부호화하는 단계의 수행을 위한 명령어들을 포함한다.

본 발명에 따르면, 동일한 특징맵이 추출되는 영상 중 주어진 영상 부호화기를 통해 가장 많이 압축할 수 있는 영상을 찾아낼 수 있다.

또한, 본 발명은 연속적인 프레임이 비슷한 방식으로 변형되도록 유도하는 구조를 제공할 수 있다.

도 1은 본 발명의 일 실시예에 따른 머신 비전을 위한 영상 압축 방법을 나타낸 흐름도이다.
도 2는 본 발명의 일 실시예에 따른 I 프레임 및 P 프레임 선택 방법을 나타낸 흐름도이다.
도 3 및 4는 본 발명의 일 실시예에 따른 I 프레임 부호화 루틴을 나타낸 도면이다.
도 5는 본 발명의 실시예에 따른 I 프레임 및 P 프레임에 대한 부호화 과정을 개념적으로 나타낸 도면이다.
도 6은 도 5의 차분 최적화(residue optimization) 블록을 상세히 나타낸 도면이다.
도 7은 실시예에 따른 컴퓨터 시스템의 구성을 나타낸 도면이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.

비록 "제1" 또는 "제2" 등이 다양한 구성요소를 서술하기 위해서 사용되나, 이러한 구성요소는 상기와 같은 용어에 의해 제한되지 않는다. 상기와 같은 용어는 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용될 수 있다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있다.

본 명세서에서 사용된 용어는 실시예를 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 또는 "포함하는(comprising)"은 언급된 구성요소 또는 단계가 하나 이상의 다른 구성요소 또는 단계의 존재 또는 추가를 배제하지 않는다는 의미를 내포한다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 해석될 수 있다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.

이하, 첨부된 도면을 참조하여 본 발명의 실시예들을 상세히 설명하기로 하며, 도면을 참조하여 설명할 때 동일하거나 대응하는 구성 요소는 동일한 도면 부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.

도 1은 본 발명의 일 실시예에 따른 머신 비전을 위한 영상 압축 방법을 나타낸 흐름도이다.

본 발명의 실시예에 따른 머신 비전을 위한 영상 압축 방법은 컴퓨팅 디바이스와 같은 머신 비전을 위한 영상 압축 장치에서 수행될 수 있다.

도 1을 참조하면, 본 발명의 실시예에 따른 머신 비전을 위한 영상 압축 방법은 입력 영상의 프레임들에 대하여 예측 모드를 결정하는 단계(S110), 입력 프레임을 이용하여 예측 프레임 및 차분 영상을 생성하는 단계(S120), 상기 예측 프레임과 상기 차분 영상을 합하여 복원된 프레임을 생성하는 단계(S130), 상기 입력 프레임 및 상기 복원된 프레임 각각의 특징을 추출하는 단계(S140), 상기 추출된 특징의 차이값 및 상기 예측 프레임의 비트율에 기반하여 상기 복원된 프레임을 보정하는 단계(S150) 및 상기 보정된 프레임을 부호화하는 단계(S160)를 포함한다.

이때, 도 1에는 도시되지 않았지만, 상기 예측 모드를 결정하는 단계(S110)는 제1 프레임과 상기 제1 프레임 이전에 I 프레임으로 설정된 제2 프레임의 특징맵 유사도에 기반하여 상기 제1 프레임을 분류하는 단계를 포함할 수 있다.

즉, 장면 전환 등의 이유로 특징맵이 크게 변화하는 지점을 기준으로 I 프레임을 선택할 수 있다.

이때, 상기 특징맵 유사도를 산출하는 방법은 코사인 유사도, Hamming 거리 계산 등의 방법을 이용할 수 있다.

이때, 상기 입력 프레임을 이용하여 예측 프레임 및 차분 영상을 생성하는 단계(S120)는 상기 입력 프레임이 I 프레임에 상응하면 상기 입력 프레임을 부호화 및 복호화한 왜곡 프레임을 생성할 수 있다.

즉, I 프레임에 대한 예측 프레임은 왜곡 프레임에 상응할 수 있다.

이때, 상기 복원된 프레임을 생성하는 단계(S130)는 상기 차분 영상을 비트스트림으로 변환 및 역변환하는 단계를 포함할 수 있다.

이때, 상기 입력 프레임을 이용하여 예측 프레임 및 차분 영상을 생성하는 단계(S120)는 상기 복원된 프레임을 입력으로 반복 수행될 수 있다.

이때, 상기 입력 프레임을 이용하여 예측 프레임 및 차분 영상을 생성하는 단계(S120)는 현재 프레임이 P 프레임에 상응하는 경우, 원본 I 프레임을 참조하여 움직임 벡터를 추정하는 단계 및 상기 움직임 벡터 및 상기 변형된 I 프레임을 이용하여 움직임 보상 프레임을 생성하는 단계를 포함할 수 있다.

즉, P 프레임에 대한 예측 프레임은 움직임 보상 프레임에 상응할 수 있다.

이때, 상기 복원된 프레임을 보정하는 단계(S150)는 상기 추출된 특징의 차이값 및 상기 예측 프레임의 비트율에 기반하여 상기 차분 영상에 대한 변환 계수를 업데이트할 수 있다.

이하, 본 발명에서 제안하는 영상 부호화 방법을 구체적 실시예에 대한 묘사를 통해 설명한다. 먼저, 부호화 대상 영상을 순서가 있는 프레임의 집합 {I_i|i=0,1,2,...}으로 표현하고, 각 프레임은 주어진 특징맵 추출 모듈(Feature extractor)에 의해 특징맵 {F_i|i=0,1,2,...}으로 맵핑되는 상황을 가정한다.

특징맵은 타겟 머신 비전 임무를 수행하기에 충분한 정보를 포함하고 있어야 하며, 특징맵 추출 모듈에 의해 미니멀(minimal)한 정보가 추출되는 것이 바람직하다.

도 2는 본 발명의 일 실시예에 따른 I 프레임 및 P 프레임 분류 방법을 나타낸 흐름도이다.

도 2를 참조하면, 고정된 간격으로 I-프레임을 선택하는 대신, 장면 전환 등의 이유로 특징맵이 크게 변화하는 지점을 기준으로 I-프레임을 선택하는 방법을 사용하는 것을 알 수 있다.

구체적으로, 부호화 대상 프레임 I_i를 입력 받으면(S210) 부호화기는 대상 프레임 I_i의 특징맵을 추출하고, 대상 프레임이 첫 번째 프레임인지 판단한다(S220, S230). 부호화 대상 프레임 I_i가 첫 번째 프레임인 경우(S230) 대상 프레임의 인덱스를 저장하고(S280), I 프레임 부호화 루틴을 수행한다(S290).

부호화 대상 프레임 I_i가 첫 번째 프레임이 아닌 경우(S230) 가장 최근에 I 프레임(I-frame)으로 선택된 프레임의 특징맵을 새로운 프레임의 특징맵 F_i와 비교한다(S240~S260).

이때, 특징맵 유사도는 특징맵의 타입에 따라 코사인 유사도, Hamming 거리 등으로 계산될 수 있으며, 필요에 따라 적절한 정규화 과정이 포함될 수 있다.

특징맵 유사도가 특정 임계값 S_th를 초과하는 경우(S260)에는 I_i에 대한 P 프레임 부호화 루틴이 수행(S270)되며, 초과하지 않는 경우(S260) 최근 I 프레임과 I 프레임 특징맵을 I_i와 F_i로 대체한 뒤(S280)에 I_i에 대한 I 프레임 부호화 루틴을 수행한다(S290). I_i에 대한 부호화가 끝나면 다음 프레임을 입력받아 동일한 과정을 수행하며, 이는 더 이상 읽을 수 있는 프레임이 없을 때까지 반복된다.

도 3 및 4는 본 발명의 일 실시예에 따른 I 프레임 부호화 루틴을 나타낸 도면이다.

도 3 및 4를 참조하면, 실시예에 따른 I 프레임 부호화 루틴은 점진적 프레임 변형 단계(Stage)로 구성된다.

프레임 I_i가 첫 번째 변형 단계에 진입하면, 먼저 기존 영상 코덱에 의한 부호화 및 복호화(301, 302)를 거쳐 왜곡이 가해진 프레임(Distorted frame)을 얻고, 이어서 원본 프레임과의 차분 영상(Residual)을 얻는다. 이때, 기존 코덱은 MPEG 비디오 코덱의 transform block 구조를 사용하며, 파라미터(QP)의 설정을 통해 디코딩된 영상의 왜곡 수준을 조절할 수 있는 형태로 가정한다.

기존 코덱에서 사용된 transform block 구조를 참조하여 차분 영상에 대한 변환 계수(TC)들을 산출(303)하며, 이 계수들은 이하에서 설명하는 방식에 따라 반복적으로 업데이트 된다. 먼저, 변환 계수들을 엔트로피 부호화하였을 때의 비트레이트를 추정하는 인공신경망 네트워크(304)에 입력하여 비트레이트 감소를 유도하는 비트레이트 손실 L_rate(305)를 계산한다. 동시에 변환 계수들을 역변환(306)하여 차분 영상을 복원하고 이를 왜곡이 가해진 프레임과 더한 뒤, 특징 추출 모듈(feature extractor, 307-2)에 입력하여 복원 특징(reconstructed feature) G_i를 얻는다. G_i와 앞에서 구한 F_i의 차이(예를 들어, L2-norm)를 구하면 복원 손실(reconstruction loss) L_recon(308)을 얻는다. 이제 전체 손실함수 L_tot=L_recon+λL_rate(λ는 가중치)로부터 역전파(backpropagation)를 시작하여 변환 계수에 대한 손실함수의 gradient(∇_TCL_tot)를 산출할 수 있으며, 이를 활용하여 아래와 같은 수학식 1에 따라 변환 계수를 업데이트 한다.

[수학식 1]

이때, η는 학습률 파라미터이다. 변환 계수 업데이트와 gradient 벡터 산출은 미리 정해진 횟수만큼 반복되거나 손실함수가 특정 임계값 이하로 감소할 때까지 수행될 수 있으며, 반복(iteration)이 진행됨에 따라 특징 추출 모듈에 입력되는 이미지는 I_i에서부터 점차적으로 변형되어 L_recon이 크게 증가하지 않는 선에서 왜곡이 가해진 프레임과 유사해지게 된다.

도 4에 도시된 바와 같이, 첫 번째 단계에서 변형된 프레임은 다음 단계의 입력으로 사용되며, 기존 코덱의 파라미터 (QP)가 다르다는 점만 제외하면 첫 번째 단계와 완전히 동일한 방식으로 프레임을 변형시킨다. 프레임 변형 단계는 최소 1회부터 임의의 횟수만큼 반복될 수 있는데, 원하는 왜곡 프레임의 품질 열화 속도에 따라 단계의 개수와 각 단계에서의 QP값을 선택하여야 한다. 반복적인 프레임 변형을 통해 기존 부호화기로 압축하기에 용이하면서도 특징맵 출력은 기존과 유사한 이미지를 얻을 수 있다.

도 5는 본 발명의 실시예에 따른 I 프레임 및 P 프레임에 대한 부호화 과정을 개념적으로 나타낸 도면이다.

도 5를 참조하면, I_i에 반복적인 변형을 가하고 나면 변형된 프레임은 최종적으로 기존 부호화기에 입력되어 출력 비트스트림에 기록된다. 따라서 I 프레임은 기존 복호화기를 통해 재건할 수 있다. 한편으로 인코딩 부가 정보(Side information) 및 기존 복호화기로 복원된 프레임은 버퍼에 저장되어 이후 입력될 P 프레임의 부호화에 활용된다.

I 프레임 I_i 이후에 입력된 프레임 I_i+m이 P 프레임 부호화 루틴에 진입하면, 먼저 원본 프레임을 참조하여 움직임 벡터(motion vector) 추정이 수행된다. 움직임 정보는 출력 비트스트림에 기록되며, 한편으로 움직임 보상(motion-compensated) 프레임을 생성하는데 사용된다. 움직임 보상 프레임은 motion vector 정보와 버퍼에 저장된 변형된 I 프레임(deformed I-frame)을 사용하여 만들어지며, 이 이미지 근방에서 특징맵 복원 손실(reconstruction loss)이 적은 이미지를 찾는다면 화면간 예측이 효과적으로 동작하면서도 원본 P 프레임과의 특징맵 차이는 크지 않은 프레임을 얻을 수 있다.

도 6은 도 5의 차분 최적화(residue optimization) 블록을 상세히 나타낸 도면이다.

도 6을 참조하면, 움직임 보상(motion-compensated) 프레임을 기점으로 특징맵 복원 손실(reconstruction loss)이 작은 이미지를 찾는 차분 최적화(residue optimization) 블록을 표현하고 있다. 원본 프레임에서 얻은 특징맵을 참조한 복원 손실(reconstruction loss)을 사용하는 점, 변환 계수 모음으로부터 비트레이트 손실(rate loss)을 산출하는 점, 그리고 total loss 함수에 기반하여 변환 계수를 학습한다는 점에서 상기 기술된 I 프레임 변형 단계와 유사하나, 잔차 영상이 더해지는 이미지가 왜곡 프레임이 아닌 움직임 보상 프레임(motion-compensated frame)이라는 차이가 있다. 변환 계수 최적화가 완료되면, 특징 추출 모듈(feature extractor)에 입력되는 이미지를 기존 부호화기에 입력하여 출력 비트스트림에 기록한다.

이때, 변형된 P 프레임은 기존 부호화기의 화면 간 예측 모드를 사용하여 부호화 될 수 있으며, 이 때 사용되는 복호화된 I 프레임은 앞에서 언급된 변형된 I 프레임(deformed I-frame)이다. P 프레임 부호화에 기존 부호화기를 사용하였으므로 복호화 또한 기존 복호화기로 수행 가능하다.

도 7은 실시예에 따른 컴퓨터 시스템의 구성을 나타낸 도면이다.

실시예에 따른 머신 비전을 위한 영상 압축 장치는 컴퓨터로 읽을 수 있는 기록매체와 같은 컴퓨터 시스템(1000)에서 구현될 수 있다.

컴퓨터 시스템(1000)은 버스(1020)를 통하여 서로 통신하는 하나 이상의 프로세서(1010), 메모리(1030), 사용자 인터페이스 입력 장치(1040), 사용자 인터페이스 출력 장치(1050) 및 스토리지(1060)를 포함할 수 있다. 또한, 컴퓨터 시스템(1000)은 네트워크(1080)에 연결되는 네트워크 인터페이스(1070)를 더 포함할 수 있다. 프로세서(1010)는 중앙 처리 장치 또는 메모리(1030)나 스토리지(1060)에 저장된 프로그램 또는 프로세싱 인스트럭션들을 실행하는 반도체 장치일 수 있다. 메모리(1030) 및 스토리지(1060)는 휘발성 매체, 비휘발성 매체, 분리형 매체, 비분리형 매체, 통신 매체, 또는 정보 전달 매체 중에서 적어도 하나 이상을 포함하는 저장 매체일 수 있다. 예를 들어, 메모리(1030)는 ROM(1031)이나 RAM(1032)을 포함할 수 있다.

본 발명의 일실시예에 따른 머신 비전을 위한 영상 압축 장치는 적어도 하나의 프로그램이 기록된 메모리(1030) 및 상기 프로그램을 실행하는 프로세서(1010)를 포함하며, 상기 프로그램은 입력 영상의 프레임들에 대하여 예측 모드를 결정하는 단계, 입력 프레임을 이용하여 예측 프레임 및 차분 영상을 생성하는 단계, 상기 예측 프레임과 상기 차분 영상을 합하여 복원된 프레임을 생성하는 단계, 상기 입력 프레임 및 상기 복원된 프레임 각각의 특징을 추출하는 단계, 상기 추출된 특징의 차이값 및 상기 예측 프레임의 비트율에 기반하여 상기 복원된 프레임을 보정하는 단계 및 상기 보정된 프레임을 부호화하는 단계의 수행을 위한 명령어들을 포함한다.

이때, 상기 입력 프레임을 이용하여 예측 프레임 및 차분 영상을 생성하는 단계는 상기 입력 프레임이 P 프레임에 상응하면, 원본 I 프레임을 참조하여 움직임 벡터를 추정하는 단계 및 상기 움직임 벡터 및 복원된 I 프레임을 이용하여 움직임 보상 프레임을 생성하는 단계를 포함할 수 있다.

본 발명에서 설명하는 특정 실행들은 실시예들로서, 어떠한 방법으로도 본 발명의 범위를 한정하는 것은 아니다. 명세서의 간결함을 위하여, 종래 전자적인 구성들, 제어시스템들, 소프트웨어, 상기 시스템들의 다른 기능적인 측면들의 기재는 생략될 수 있다. 또한, 도면에 도시된 구성 요소들 간의 선들의 연결 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것으로서, 실제 장치에서는 대체 가능하거나 추가의 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들로서 나타내어질 수 있다. 또한, “필수적인”, “중요하게” 등과 같이 구체적인 언급이 없다면 본 발명의 적용을 위하여 반드시 필요한 구성 요소가 아닐 수 있다.

따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 또는 이로부터 등가적으로 변경된 모든 범위는 본 발명의 사상의 범주에 속한다고 할 것이다.

1000: 컴퓨터 시스템 1010: 프로세서
1020: 버스 1030: 메모리
1031: 롬 1032: 램
1040: 사용자 인터페이스 입력 장치
1050: 사용자 인터페이스 출력 장치
1060: 스토리지 1070: 네트워크 인터페이스
1080: 네트워크

Claims

입력 영상의 프레임들에 대하여 예측 모드를 결정하는 단계;
입력 프레임을 이용하여 예측 프레임 및 차분 영상을 생성하는 단계;
상기 예측 프레임과 상기 차분 영상을 합하여 복원된 프레임을 생성하는 단계;
상기 입력 프레임 및 상기 복원된 프레임 각각의 특징을 추출하는 단계;
상기 추출된 특징의 차이값 및 상기 예측 프레임의 비트율에 기반하여 상기 복원된 프레임을 보정하는 단계; 및
상기 보정된 프레임을 부호화하는 단계;
를 포함하는 것을 특징으로 하는 머신 비전을 위한 영상 압축 방법.
청구항 1에 있어서,
상기 예측 모드를 결정하는 단계는
제1 프레임과 상기 제1 프레임 이전에 I 프레임으로 설정된 제2 프레임의 특징맵 유사도에 기반하여 상기 제1 프레임을 분류하는 단계를 포함하는 것을 특징으로 하는 머신 비전을 위한 영상 압축 방법.
청구항 2에 있어서,
상기 제1 프레임을 분류하는 단계는
상기 제1 프레임의 특징맵과 상기 제2 프레임의 특징맵 유사도가 기설정된 값을 초과하면 상기 제1 프레임을 P 프레임으로 분류하고, 상기 특징맵 유사도가 기설정된 값 이하이면 상기 제1 프레임을 I 프레임으로 분류하는 것을 특징으로 하는 머신 비전을 위한 영상 압축 방법.
청구항 1에 있어서,
상기 입력 프레임을 이용하여 예측 프레임 및 차분 영상을 생성하는 단계는
상기 입력 프레임이 I 프레임에 상응하면 상기 입력 프레임을 부호화 및 복호화한 왜곡 프레임을 생성하는 것을 특징으로 하는 머신 비전을 위한 영상 압축 방법.
청구항 1에 있어서,
상기 복원된 프레임을 생성하는 단계는
상기 차분 영상을 비트스트림으로 변환 및 역변환하는 단계를 포함하는 것을 특징으로 하는 머신 비전을 위한 영상 압축 방법.
청구항 5에 있어서,
상기 입력 프레임을 이용하여 예측 프레임 및 차분 영상을 생성하는 단계는
상기 복원된 프레임을 입력으로 반복 수행되는 것을 특징으로 하는 머신 비전을 위한 영상 압축 방법.
청구항 1에 있어서,
상기 입력 프레임을 이용하여 예측 프레임 및 차분 영상을 생성하는 단계는
상기 입력 프레임이 P 프레임에 상응하면,
원본 I 프레임을 참조하여 움직임 벡터를 추정하는 단계; 및
상기 움직임 벡터 및 복원된 I 프레임을 이용하여 움직임 보상 프레임을 생성하는 단계;
를 포함하는 것을 특징으로 하는 머신 비전을 위한 영상 압축 방법.
청구항 4에 있어서,
상기 복원된 프레임을 보정하는 단계는
상기 추출된 특징의 차이값 및 상기 예측 프레임의 비트율에 기반하여 상기 차분 영상에 대한 변환 계수를 업데이트하는 것을 특징으로 하는 머신 비전을 위한 영상 압축 방법.
적어도 하나의 프로그램이 기록된 메모리; 및
상기 프로그램을 실행하는 프로세서
를 포함하며,
상기 프로그램은
입력 영상의 프레임들에 대하여 예측 모드를 결정하는 단계;
입력 프레임을 이용하여 예측 프레임 및 차분 영상을 생성하는 단계;
상기 예측 프레임과 상기 차분 영상을 합하여 복원된 프레임을 생성하는 단계;
상기 입력 프레임 및 상기 복원된 프레임 각각의 특징을 추출하는 단계;
상기 추출된 특징의 차이값 및 상기 예측 프레임의 비트율에 기반하여 상기 복원된 프레임을 보정하는 단계; 및
상기 보정된 프레임을 부호화하는 단계;
의 수행을 위한 명령어들을 포함하는 것을 특징으로 하는 머신 비전을 위한 영상 압축 장치.
청구항 9에 있어서,
상기 예측 모드를 결정하는 단계는
제1 프레임과 상기 제1 프레임 이전에 I 프레임으로 설정된 제2 프레임의 특징맵 유사도에 기반하여 상기 제1 프레임을 분류하는 단계를 포함하는 것을 특징으로 하는 머신 비전을 위한 영상 압축 장치.
청구항 10에 있어서,
상기 제1 프레임을 분류하는 단계는
상기 제1 프레임의 특징맵과 상기 제2 프레임의 특징맵 유사도가 기설정된 값을 초과하면 상기 제1 프레임을 P 프레임으로 분류하고, 상기 특징맵 유사도가 기설정된 값 이하이면 상기 제1 프레임을 I 프레임으로 분류하는 것을 특징으로 하는 머신 비전을 위한 영상 압축 장치.
청구항 9에 있어서,
상기 입력 프레임을 이용하여 예측 프레임 및 차분 영상을 생성하는 단계는
상기 입력 프레임이 I 프레임에 상응하면 상기 입력 프레임을 부호화 및 복호화한 왜곡 프레임을 생성하는 것을 특징으로 하는 머신 비전을 위한 영상 압축 장치.
청구항 9에 있어서,
상기 복원된 프레임을 생성하는 단계는
상기 차분 영상을 비트스트림으로 변환 및 역변환하는 단계를 포함하는 것을 특징으로 하는 머신 비전을 위한 영상 압축 장치.
청구항 13에 있어서,
상기 입력 프레임을 이용하여 예측 프레임 및 차분 영상을 생성하는 단계는
상기 복원된 프레임을 입력으로 반복 수행되는 것을 특징으로 하는 머신 비전을 위한 영상 압축 장치.
청구항 9에 있어서,
상기 입력 프레임을 이용하여 예측 프레임 및 차분 영상을 생성하는 단계는
상기 입력 프레임이 P 프레임에 상응하면,
원본 I 프레임을 참조하여 움직임 벡터를 추정하는 단계; 및
상기 움직임 벡터 및 복원된 I 프레임을 이용하여 움직임 보상 프레임을 생성하는 단계;
를 포함하는 것을 특징으로 하는 머신 비전을 위한 영상 압축 장치.
청구항 12에 있어서,
상기 복원된 프레임을 보정하는 단계는
상기 추출된 특징의 차이값 및 상기 예측 프레임의 비트율에 기반하여 상기 차분 영상에 대한 변환 계수를 업데이트하는 것을 특징으로 하는 머신 비전을 위한 영상 압축 장치.