KR20160142760A

KR20160142760A - 로컬 및 글로벌 모션에 효율적인 멀티-프레임 초해상도 방법 및 장치

Info

Publication number: KR20160142760A
Application number: KR1020160041237A
Authority: KR
Inventors: 쩡핑 지; 치앙 장; 릴롱 쉬; 일리아 오브시안니코브
Original assignee: 삼성전자주식회사
Priority date: 2015-06-03
Filing date: 2016-04-04
Publication date: 2016-12-13
Also published as: KR102519085B1; US9665927B2; US20160358314A1

Abstract

연속 이미지들 중 적어도 하나를 강화하는 방법이 제공된다. 상기 방법은 상기 연속 이미지들을 선택하는 단계, 상기 연속 이미지들 각각을 업스케일링하는 단계, 상기 연속 이미지들 중 기준 이미지를 선택하는 단계, 상기 기준 이미지를 사용하여 상기 연속 이미지들을 정렬하기 위해 이미지 등록을 수행하는 단계, 프레임간 변동이 큰 픽셀 위치들의 서브셋을 검출하기 위하여 상기 정렬된 연속 이미지들을 식별하는 단계, 상기 식별된 픽셀 위치들의 서브셋으로부터 잡음을 제거하고 모션 바이어스를 제거하기 위하여 학습 프로세스를 수행하는 단계, 그리고 초해상도 이미지를 생성하기 위해 상기 정렬되고 학습 처리된 이미지들에 대해 픽셀 결합을 수행하는 단계를 포함한다. 그리고 상술한 기능을 수행하는 컴퓨터 프로그램 제품과 이미지 시스템이 게시된다.

Description

로컬 및 글로벌 모션에 효율적인 멀티-프레임 초해상도 방법 및 장치{METHOD AND APPARATUS OF MULTI-FRAME SUPER RESOLUTION ROBUST TO LOCAL AND GLOBAL MOTION}

본 발명은 이미지 처리에 관한 것으로, 보다 상세하게는 글로벌 및 로컬 모션을 처리하는 초해상도 기술에 관한 것이다.

다양한 목적을 달성하기 위한 이미지 처리 기술들은 이미지 데이터에 종속적이다. 예를 들면, 의료 진단, 감시, 법의학 및 위성 이미지 애플리케이션들은 이미지 데이터를 엄청나게 많이 사용한다. 이러한 이미지 데이터에 의존적인 기술들의 효율은 대상 이미지의 품질을 향상함으로써 높일 수 있다. 몇몇 사례들에서, 이미지 처리의 효율은 관련된 이미지 하드웨어의 성능을 향상시킴으로써 달성될 수도 있다. 예를 들면, 광학 요소뿐 아니라 센서 성능의 향상은 고품질 이미지를 생산할 수 있다. 하지만, 하드웨어의 성능 향상이 항상 가능한 것은 아니다. 어떤 경우에는, 손익분석에 의해 더 좋은 하드웨어의 사용은 배제될 수 있다. 또 다른 경우에는, 하드웨어 성능 향상은 불가한 경우도 있다. 따라서, 이미지 품질을 높이기 위해서 이미지 분석 기술이 사용될 수 있다.

초해상도(Super resolution: 이하, SR) 기법은 저해상도의 이미지나 연속 이미지를 고해상도의 이미지나 연속 이미지로 생성하는 기술이다. 고해상도 이미지는 높은 픽셀 밀도를 제공하고, 따라서 원래 장면에 대한 보다 상세한 정보를 제공할 수 있다. 일반적으로, 초해상도(SR) 기법은 주어진 이미지 내의 콘텐츠를 보강하기 위해 관련된 이미지들의 시리즈를 사용하는 기술이다. 간단히 말해서, 초해상도(SR) 기법은 하나의 이미지에 관련된 후속 그리고/또는 이전 이미지를 사용하여 하나의 이미지의 표현을 향상시키는 기술이다.

많은 경우, 초해상도(SR) 기법은 이미지 품질의 획기적인 향상을 제공할 수 있다. 특히, 이것은 이미지 센서가 대상에 비해 상대적으로 고정되고, 대상은 실질적으로 고정된 경우(즉, 센싱되는 이미지의 풍경에 움직임이 없을 때)에 현저하다.

불행히도, 이러한 제한 조건은 좀처럼 존재하기 어렵다. 예를 들면, 의료용 이미지의 경우, 이미지를 센싱시 대상은 위치를 이동함에 따라 움직일 수 있다. 이미지 센서가 풍경을 센싱하는데 사용되는 보안 시스템에서의 적용시, 사람들은 거리를 걸어다니고, 대상들은 연속된 이미지에서 이동할 것이다. 따라서, 보안 시스템과 같은 적용에서 센서는 센서가 장착된 건물의 바람의 난기류와 같은 것들로부터 지배적인 영향을 받을 수 있다.

결과적으로, 많은 연속 이미지들은 글로벌 움직임(즉, 센싱 영역에 대한 센서의 움직임)뿐 아니라 로컬 움직임(즉, 센싱 영역 내에서의 움직임)을 포함할 수 있다. 결과적으로, 실제 조건에서는 초해상도 기법은 실험이나 테스트 조건과 같이 바람직한 동작을 하지 못할 수도 있다.

따라서, 보다 향상된 초해상도 기술이 요구되고 있다. 향상된 기술은 출력 이미지에서 글로벌 모션 및 로컬 모션의 영향을 제거하기 위한 기술을 제공해야 한다.

본 발명은 상술한 기술적 문제점을 해결하기 위해 제안된 것으로, 본 발명의 목적은 효과적으로 글로벌 모션 및 로컬 모션의 영향을 제거할 수 있는 초해상도 이미지 기법을 제공하는데 있다.

일 실시 예에서, 연속 이미지들 중 적어도 하나(“기준 이미지”라 칭함)를 강화하는 방법이 제공된다. 상기 방법은 상기 연속 이미지들을 선택하는 단계, 상기 연속 이미지들 각각을 업스케일링하는 단계, 상기 연속 이미지들 중 기준 이미지를 선택하는 단계, 상기 기준 이미지를 사용하여 상기 연속 이미지들을 정렬하기 위해 이미지 등록을 수행하는 단계, 프레임간 변동이 큰 픽셀 위치들의 서브셋을 검출하기 위하여 상기 정렬된 연속 이미지들을 식별하는 단계, 상기 식별된 픽셀 위치들의 서브셋으로부터 잡음을 제거하고 모션 바이어스를 제거하기 위하여 학습 프로세스를 수행하는 단계, 그리고 초해상도 이미지를 생성하기 위해 상기 정렬되고 학습 처리된 이미지들에 대해 픽셀 결합을 수행하는 단계를 포함한다. 그리고 상술한 기능을 수행하는 컴퓨터 프로그램 제품과 이미지 시스템이 게시된다.

상기 연속 이미지들은 2개 이상의 연속된 이미지들을 포함할 수 있다. 상기 이미지 등록은 상기 기준 이미지의 픽셀들과 다른 이미지의 픽셀들 간의 상관 연산을 포함할 수 있고, 상기 기준 이미지의 선택된 픽셀들의 적어도 하나의 특성과 다른 이미지의 선택된 픽셀들의 적어도 하나의 특성을 비교하는 단계를 더 포함할 수 있고, 상기 선택된 픽셀들의 적어도 하나의 특성은 스케일-불변 특성 변환(SIFT, Scale-Invariant Feature Transform, 키 포인트와 그것의 이웃들에 기반한 로컬 디스크립터)을 포함할 수 있다. 상기 학습 프로세서를 수행하는 단계는, 상기 연속 이미지들 각각에 복수의 키 포인트들을 할당하는 단계를 포함할 수 있다. 기준 프레임의 SIFT 특성과 타깃 프레임의 SIFT 특성간의 상관 연산을 수행하는 단계는 SIFT 플로우로 불리는 방법을 포함할 수 있다. 프레임간 변동이 큰 픽셀 위치들의 서브셋을 검출하기 위하여 상기 정렬된 연속 이미지들을 식별하는 단계는, 정렬된 위치에서의 픽셀들의 편차를 결정하고, 결정될 결과를 임계값과 비교하는 단계를 포함할 수 있고, 상기 편차는 하나 이상의 픽셀 채널들의 중간값(Median)에 대한 평균 자승 거리(Mean Square Distance)를 포함할 수 있다. 상기 학습 프로세서를 수행하는 단계는 자율 K-평균(K-means) 프로세스를 포함할 수 있다. 상기 픽셀 결합을 수행하는 단계는, 상기 연속되는 이미지들의 프레임간 적어도 하나의 중간값(Median) 필터링 그리고/또는 평균값 필터링을 포함할 수 있다.

다른 실시 예에 따르면, 넌-트랜지터리(Non-transitory) 머신 읽기 가능 매체에 저장되는 컴퓨터 프로그램 제품이 제공된다. 상기 컴퓨터 프로그램 제품은, 연속 이미지들을 사용하여 초해상도 기준 이미지를 생성하는 방법을 수행하는 신경망을 구동하기 위한 기계 실행 가능 명령어들을 포함할 수 있으며, 상기 초해상도 기준 이미지를 생성하는 방법은, 상기 연속 이미지들을 선택하는 단계, 상기 연속 이미지들 각각을 업스케일링하는 단계, 상기 연속 이미지들 중 기준 이미지를 선택하는 단계, 상기 기준 이미지를 사용하여 상기 연속 이미지들을 정렬하기 위해 이미지 등록을 수행하는 단계, 프레임간 변동이 큰 픽셀 위치들의 서브셋을 검출하기 위하여 상기 정렬된 연속 이미지들을 식별하는 단계, 상기 식별된 픽셀 위치들의 서브셋으로부터 잡음을 제거하고 모션 바이어스를 제거하기 위하여 학습 프로세스를 수행하는 단계, 그리고 초해상도 이미지를 생성하기 위해 상기 정렬되고 학습 처리된 이미지들에 대해 픽셀 결합을 수행하는 단계를 포함할 수 있다.

상기 선택하는 단계는 상기 연속 이미지들을 통신 네트워크를 통해서 수신하는 단계를 포함할 수 있다. 상기 초해상도 기준 이미지를 생성하는 방법은, 저장된 데이터, 스트림으로 제공되는 데이터, 그리고 실시간 입력되는 데이터 중 적어도 어느 하나에 적용될 수 있다. 상기 컴퓨터 프로그램 제품은 인텔리전트 시스템에 출력을 제공하는 단계를 더 포함할 수 있다.

또 다른 실시 예에 따르면, 이미지 시스템이 제공된다. 상기 이미지 시스템은, 연속 이미지들을 제공하는 장치, 초해상도 기준 이미지를 생성하기 위한 머신 실행 가능 명령어들을 저장하는 넌-트랜지터리(Non-transitory) 머신 읽기 가능 매체, 그리고 상기 머신 실행 가능 명령어들을 읽어내고, 이미지 강화 동작을 수행하는 프로세서를 포함하되, 상기 이미지 강화 동작은, 상기 연속 이미지들을 선택하는 단계, 상기 연속 이미지들 각각을 업스케일링하는 단계, 상기 연속 이미지들 중 기준 이미지를 선택하는 단계, 상기 기준 이미지를 사용하여 상기 연속 이미지들을 정렬하기 위해 이미지 등록을 수행하는 단계, 프레임간 변동이 큰 픽셀 위치들의 서브셋을 검출하기 위하여 상기 정렬된 연속 이미지들을 식별하는 단계, 상기 식별된 픽셀 위치들의 서브셋으로부터 잡음을 제거하고 모션 바이어스를 제거하기 위하여 학습 프로세스를 수행하는 단계, 그리고 초해상도 이미지를 생성하기 위해 상기 정렬되고 학습 처리된 이미지들에 대해 픽셀 결합을 수행하는 단계를 포함할 수 있다.

상기 연속된 이미지들을 제공하는 장치는 스마트폰, 카메라, 테블릿 컴퓨터, 스케너, 특성화 장치들 중 적어도 하나를 포함할 수 있다. 상기 이미지 시스템은, 디지털 줌-인, 이미지 안정화, 비디오 감시, 의로 이미지 분석, 이미지 인식 동작들 중 적어도 하나를 수행하도록 설정될 수 있다.

본 발명의 실시 예에 따르면, 이미지 센서의 움직임이나 노이즈 등에 의해서 발생하는 글로벌 모션 및 로컬 모션의 영향을 효과적으로 제거하여 높은 품질의 이미지를 제공할 수 있다.

도 1은 본 발명의 이미지 시스템(100)을 보여주는 블록도이다.
도 2는 로컬 모션을 나타내는 연속 이미지들(200)을 보여준다.
도 3은 글로벌 모션을 나타내는 연속 이미지들(300)을 보여준다.
도 4는 본 발명의 실시 예에 따른 제 1 프로세싱 파이프라인(400)의 절차를 보여주는 순서도이다.
도 5는 초해상도를 제공하기 위한 제 2 처리 파이프라인(500) 절차를 보여주는 순서도이다.
도 6은 스케일-불변 특성 변환(SIFT) 처리의 특징을 보여주는 도면이다.
도 7a, 도 7b, 도 7c, 그리고 도 7d는 처리 파이프라인들을 보여주는 도면들이다.
도 8은 도 7에서 등록 및 업스케일된 연속 이미지들 간의 정렬된 픽셀들의 변동을 보여주는 도면이다.
도 9는 연속된 이미지들 간의 등록된 픽셀들의 변동을 보여주는 도면이다.
도 10은 연속 이미지의 프레임간 픽셀 값들의 변동을 나타내는 히스토그램이다.
도 11 및 도 12는 글로벌 모션을 갖는 실험실 테스트 영상에 대한 인터폴레이션에 의한 업스케일링 및 초해상도 처리의 결과를 보여주는 도면이다.
도 13, 도 14, 그리고 도 15는 로컬 모션 및 글로벌 모션을 포함하는 이미지에 대한 처리 방법의 이점을 보여주는 도면들이다.

이하에서, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 정도로 상세히 설명하기 위하여, 본 발명의 실시 예를 첨부된 도면을 참조하여 설명하기로 한다.

여기에 게시되는 기술들은 순차적으로 연속되는 이미지들의 이미지 품질을 향상시키기 위한 기술이다. 좀더 구체적으로, 이 기술들은 이미지들의 초해상도(Super-Resolution: SR)를 제공하기 위한 것이고, 연속적인 이미지들의 글로벌 모션뿐 아니라 로컬 모션을 효율적으로 처리할 수 있다. 이 기술의 결과로 종래 기술을 적용했을 때보다 높은 이미지 품질과, 더 많은 정보에 사용자의 접근이 가능하게 한다.

여기에 게시되는 기술들은 다양한 산업 분야 및 다양한 업무에 유용하게 적용될 수 있다. 무엇보다, 보안 감시, 맵핑, 비디오 추적, 모션 추적, 로봇 구현, 머신 비전, 환경 및 야생동물 감시, 의료 진단 등의 영상 품질을 요구한다. 여기에 게시되는 기술에 의해서 지원되는 업무는 예를 들면, 안면 인식, 직원 신원 확인, 보안 구역의 모니터링, X-선이나 CT 스캔, 자기 공명 이미지(MRI) 등의 의료 진단 영상의 생성을 포함할 수 있다. 여기에 게시되는 기술은 실시간 또는 이전에 저장된 데이터의 분석에 사용될 수 있다. 일반적으로, 여기에 게시되는 기술들은 광범위한 산업 분야 그리고 광범위한 업무에 사용될 수 있다.

여기의 게시들에 대한 정확한 의미를 제공하기 위하여 이제 몇몇 특징들이 소개될 것이다.

여기에 언급될 용어 “이미지”는 2차원으로 배열된 디지털 이미지 데이터를 의미하지만, 이것은 예시일 뿐 본 발명은 여기에 국한되지 않는다. 설명된 바와 같이 각각의 이미지는 연속적인 이미지들의 한 부분을 의미할 수 있다. 즉, 각각의 이미지는 비디오, 또는 영화 등을 구성하는 프레임들의 시리즈로부터 선택될 수 있는 하나의 프레임으로 간주될 수 있다. 각각의 2차원 어레이는 복수의 픽셀들을 포함한다. 예를 들면, 하나의 이미지는 200 픽셀의 가로 크기와 300 픽셀의 세로(200×300) 사이즈를 가질 수 있다. 일반적으로 이미지 사이즈는 이미지를 수집하는 이미지 센서, 사용자의 필요, 그리고 유사한 제한들에 의해서 제한된다. 여기에 게시되는 기술에서 처리되는 이미지의 사이즈는 가변될 수 있다. 여기에 언급될 용어 “비디오”, “무비” 등의 용어는 이미지의 시리즈를 의미한다. 여기서 이미지의 시리즈에서 각각의 이미지는 가시적으로 그리로 실질적으로 관계된 바로 앞의 이미지뿐 아니라 바로 후속되어 따르는 이미지일 수 있다(물론, 연속 이미지들의 시작 및 마지막 이미지는 제외). 어떤 실시 예에서, 연속 이미지들은 적어도 30 개의 연속 프레임들을 포함할 수 있다.

이미지 보강을 위해서 선택되는 연속 이미지들은 저장되고, 스트림화되고, 또는 실시간으로 입력될 수 있다. 예를 들면, 연속 이미지들은 하드 디스크 드라이버, 광디스크, 불휘발성 스토리지 등의 스토리지 장치에 저장된 데이터 형태로 이미지 향상 시스템에 제공될 수 있다. 데이터는 이미지 향상 시스템에 통신 채널을 통해서 스트림으로 제공될 수 있고, 반드시 동시에 제공될 필요는 없으며, 이전의 이벤트로부터 파생될 수도 있다. 보안 시스템과 같은 장비로부터 생성되는 이미지들은 실시간으로 제공될 수 있다.

여기에 언급될 용어 “대상” 또는 “특징” 등의 용어는 이미지 내에 나타나거나 포함되는 형태를 의미한다. 예를 들면, 경관(사물의 조합)을 보여주는 픽쳐(이미지) 내에 차량(대상)이 나타날 수 있다. 예시적으로 “특징”은 이미지 내에서 나타나는 라인, 곡선, 강도, 칼라, 그리고 다른 특정 특징들을 포함할 수 있다.

일반적으로, 이미지 향상을 위한 복잡한 통상의 기술에서는 2가지 형태의 모션이 존재한다. 용어 “글로벌 모션”은 일반적으로 연속 이미지를 수집하기 위하여 사용되는 센서의 움직임을 나타낸다. 용어 “로컬 모션”은 센서에 의해서 보여지는 경관 내부에서의 움직임을 나타낸다.

여기서 언급된 용어 “서버”는 강력한 컴퓨터 자원을 갖는 컴퓨터 리소스를 의미한다. 예시적인 자원은, 여기서 게시되는 업무를 수행하기 위한 중요한 자원들을 포함하고, 실질적인 메모리, 처리 능력, 데이터 스토리지 등을 포함할 수 있다. 예시적인 실시 예에서, 서버는 블레이드 서버와 같은 통상의 서버를 포함할 수 있고, 메인 프레임, 개인용 컴퓨터의 네트워크, 또는 단순한 개인용 컴퓨터일 수 있다. 서버는 입력을 위해 사용되는 모바일 장치와 같은 다른 장치로부터 원거리에 위치할 수 있다. 입력 장치의 일 예는 스마트폰일 수 있다.

여기서 언급된 용어 “모바일 장치”는 모바일 환경에서 사용 가능한 컴퓨팅 자원을 의미한다. 종종, 모바일 장치로 설정된 장치는 컴퓨팅 자원의 감소된 셋을 가질 수 있다. 따라서, 다양한 실시 예의 모바일 장치들이 컴퓨팅 능력을 제공하기 위해 통신을 유지할 수 있다. 모바일 장치의 예로서 스마트폰, 테블릿 컴퓨터, 그리고/또는 특성화된 장치들이 포함될 수 있다. 모바일 장치는 또한 카메라를 포함할 수 있다. 어떤 실시 예에서, 카메라는 네트워크에 실시간 통신이 가능하도록 설정된다. 어떤 실시 예에서, 카메라는 연속 이미지들을 데이터 스토리지에 저장할 것이다.

여기서 언급된 용어 “클라이언트”는 축소된 계산 리소스를 갖는 컴퓨팅 자원을 의미한다. 예시적인 자원은 여기서 게시되는 업무 수행을 위한 중요한 것들을 포함하고, 최소량의 메모리와, 처리 능력, 데이터 스토리지 등을 포함할 수 있다. 어떤 실시 예에서, 클라이언트는 신경망에 입력되는 입력 이미지를 조합하기 위한 이미지 처리 능력을 포함할 수 있다. 어떤 실시 예에서, 클라이언트는 모바일 장치에서 사용되기 위해 설정되고, 원거리 서버에서 동작하는 강력하며, 무료인 자원들과 통신할 수 있다.

여기서 언급된 용어들 “프로그램”, “소프트웨어”, “애플리케이션”, “애드-인”, 그리고 다른 유사한 용어들은 넌-트랜지터리 머신 읽기 가능 매체에 저장되는 기계 실행 명령어들을 의미한다. 기계 실행 명령어들은 컴퓨팅 리소스 및 관련된 컴포넌트의 제어를 통해서 구현되는 본 발명의 방법을 실행하기 위한 것이다.

도 1을 참조하여, 본 발명의 이미지 시스템(100)이 예시적으로 설명될 것이다. 이 실시 예에서, 이미지 시스템(100)은 컴퓨팅 시스템(130), 통신 시스템(151), 그리고 적어도 하나의 모바일 장치(180)를 포함한다.

컴퓨팅 시스템(130)은 하나 이상의 중앙처리장치들(101a, 101b, 101c, …)을 포함한다. 이하에서 프로세서(101)로 칭하기로 한다. 프로세서(101)는 RAM(140, 시스템 메모리 또는 메모리)에 연결되고, 시스템 버스(113)를 통해서 다양한 컴포넌트들과 연결될 수 있다. 이미지 시스템(100)은 시스템 버스(113)를 통해서 ROM(141)과 연결될 수도 있다. ROM(141)은 이미지 시스템(100)의 기본 기능들을 제어하는 BIOS(built-in operating system)를 포함할 수 있다.

도 1은 시스템 버스(113)를 통해서 연결되는 입출력 어댑터(107)와 통신 어댑터(106)를 도시하고 있다. 입출력 어댑터(107)는 PATA(parallel ATA 또는 IDE나 EIDE), SATA(Serial ATA), SCSI, SAS(Serial Attached SCSI), 광섬유 채널, 또는 다른 종류의 인터페이스를 포함할 수 있다. 입출력 어댑터(107)는 하드 디스크(103) 그리고/또는 롱텀 스토리지 유닛(105, 일예로 테이프 드라이브) 또는 광드라이브와 같은 다른 유사한 컴포넌트들과 통신을 제공한다. 입출력 어댑터(107), 하드 디스크(103), 롱텀 스토리지 유닛(105)은 이하에서는 매스 스토리지(104)로 통합적으로 칭하기로 한다.

통신 어댑터(106)는 컴퓨팅 시스템(130)이 다른 시스템과 통신할 수 있도록 시스템 버스(113)와 외부 네트워크(150)를 연결한다. 통신 어댑터(106)는 유선 통신과 무선 통신 프로토콜 중 적어도 하나에 의해서 지지될 수 있다. 일반적으로, 통신 어댑터(106)는 네트워크(150)와 통신하고, 인터넷(121)과 직간접적으로 통신할 수 있다.

컴퓨팅 시스템(130)은 AC 그리고/또는 DC를 소스로 하는 파워 서플라이(120)로부터 전원을 공급받는다. 도시된 바와 같이 입출력 장치들이 사용자 인터페이스 어댑터(108)에 의해서 시스템 버스(113)에 연결된다. 키보드(109), 마우스(110), 스피커(111) 등이 사용자 인터페이스 어댑터(108)에 의해서 시스템 버스(113)에 연결된다. 적절한 동작을 위해서 다른 사용자 인터페이스 컴포넌트들이 더 포함될 수 있다.

디스플레이 모니터(136)를 연결하기 위한 디스플레이 어댑터(112)는 시스템 버스(113)에 연결된다. 디스플레이 어댑터(112) 그리고/또는 디스플레이 모니터(136)는 그래픽 애플리케이션의 성능을 향상시키기 위한 그래픽 어댑터, 비디오 컨트롤러, 정전식 디스플레이(터치 스크린)와 같은 다양한 컴포넌트들로 설정될 수 있다. 디스플레이 모니터(136)는 사용자 인터페이스(501)를 디스플레이하기 위해 사용될 수도 있다.

어떤 실시 예에서, 어댑터들(106, 107, 108, 112)은 중간 버스 브릿지(미도시)를 통해서 시스템 버스(113)와 연결되는 적어도 하나의 입출력 버스에 연결될 수 있다. 하드 디스크 컨트롤러, 네트워크 어댑터, 그래픽 어댑터 등과 같은 주변 장치들과의 연결을 위한 적절한 입출력 버스는 PCI 버스와 같은 공통 프로토콜을 포함할 것이다. 컴퓨팅 시스템(130)은 추가적인 구성들을 더 포함할 수 있다. 추가적인 구성들은 다른 기능들을 제공할 것이다.

통신 시스템(151)은 제 3 자 엔터프라이즈의 일부일 수 있다. 예를 들면, 통신 시스템(151)은 셀룰러 통신 서비스 제공자 또는 다른 형태의 전화, 케이블, 광네트워크 제공자일 수 있다. 일반적으로, 통신 시스템(151)은 컴퓨터 시스템(130)과 적어도 하나의 모바일 장치(180) 간의 통신 서비스를 제공한다.

적어도 하나의 모바일 장치(180)는 스마트폰과 같은 장치를 포함할 수 있다. 스마트폰 장치는 예시적으로 애플사의 아이폰, 구글사의 안드로이드 플랫폼에서 동작하는 장치뿐 아니라 마이크로소프트사의 윈도 환경에서 동작하는 장치를 포함할 수 있다. 이 실시 예에서, 적어도 하나의 모바일 장치(180)는 컴퓨팅 시스템(130)에서 발견되는 종류의 컴포넌트를 포함할 수 있다. 예를 들면, 적어도 하나의 모바일 장치(180)는 적어도 하나의 CPU를 포함할 수 있다. CPU는 내부 시스템 버스를 통하여 다른 컴포넌트와 연결되거나 통신할 수 있다. 모바일 장치(180) 내의 다른 컴포넌트의 예로, 파워 서플라이, 메모리, 소프트웨어, 사용자 컨트롤, 디스플레이, 카메라(전면 또는 후면 카메라), 램프, 통신 인터페이스, 그리고 가속도 센서, 자이로스코프, GPS 수신기, 자기 센서 등의 다양한 센서들을 포함할 수 있다.

적어도 하나의 모바일 장치(180)는 카메라일 수 있다. 예를 들면, 적어도 하나의 모바일 장치(180)에 카메라로 구현되면, 적어도 하나의 모바일 장치(180)는 데이터를 저장하기 위한 실질적 메모리를 포함할 수 있고, 추가적인 조명 소스, 교환식 렌즈, 그리고 이미지 캡쳐를 위한 많은 사용자 제어 수단들을 포함할 수 있다.

일반적으로, 컴퓨팅 시스템(130)은 넌-트랜지터리 기계 읽기 가능 매체(ROM, RAM, 또는 매스 스토리지 유닛 104과 같은)에 기계 읽기 가능 명령어를 저장한다. 기계 읽기 가능 명령어(여기서, 소프트웨어, 애플리케이션, 클라이언트, 프로세스, 플러그-인, 그리고 다른 유사한 용어들에 대응)는 후술하게 될 기능들을 제공한다.

컴퓨팅 시스템(130)의 어떤 실시 예에서, 기계 읽기 가능 명령어는 다른 컴포넌트들과 통신하기 위한 드라이브에 저장될 수 있다. 예를 들면, 드라이버들은 모바일 장치(180)의 카메라 그리고/또는 센서들과 통신하기 위해 컴퓨팅 시스템(130)을 활성화시킬 수 있다.

넌-트랜지터리 머신 읽기 가능 매체에 저장된 머신 읽기 가능 명령어들은 운영 환경을 포함할 수 있다. 예를 들면, 운영 환경은 마이크로소프트사의 윈도우(WINDOWS)일 수 있다. 여기에 게시된 소프트웨어는 예를 들면, 관계 데이터베이스를 관리하기 위한 SQL 언어를 사용하여 개발될 수 있다. 소프트웨어는 다른 소프트웨어로 구현될 수도 있다. 예를 들면, 사용자 인터페이스는 XML, HTML 등을 통해서 제공될 수 있다.

이미지 시스템(100) 내의 특정 컴퓨터는 목적 중심 장치일 수 있다. 예를 들면, 컴퓨팅 인프라 구조는 파일 서버(즉, 컴퓨팅 인프라 구조 내에서 효과적인 저장을 위한 데이터 저장 장치), 입력 장치로 복수의 컴퓨터들(컴퓨팅 인프라 구조와 인터페이싱을 위해 원거리에서 동작하는 모바일 스테이션), 콘솔(컴퓨팅 인프라 구조에 전적으로 사용되는) 등을 위해 하나의 컴퓨터를 원칙적으로 사용할 수 있다.

여기에 게시되는 몇몇 기능들은 후술될 컨포넌트들과 같은 하드웨어나 소프트웨어로 구현될 수 있음을 잘 이해될 것이다. 따라서, 하나의 방식으로 또는 또 다른 방식으로 소개되는 실시 예들은 단순히 예시적일 뿐이며 본 발명은 표현에 국한되지 않는다. 결국, 후술하게 될 이미지 시스템(100)은 본 발명을 암시하는 하나의 환경을 제공할 뿐이며, 제한적으로 이해되어서는 안된다.

일반적으로, 이미지 시스템(100)은 사용자로 하여금 신경망 시스템을 훈련하거나 동작 가능하게 하는 소프트웨어 솔루션을 구현한다. 이미지 시스템(100)은 예를 들면 통신, 메시지 전달, 그래픽 편집, 통계 분석, 등과 같은 다양한 목적의 제 3 자 소프트웨어 시스템을 구현할 수 있다.

이제 도 2a, 도 2b, 그리고 도 2c를 참조하면, 로컬 모션을 나타내는 연속 이미지들(200)이 도시된다. 이 연속 이미지들(200)에 있어서, 이미지 센서(카메라)는 고정된 위치에서 고정된 상태를 유지하면서 이미지를 생성하고 있는 것으로 가정한다. 즉, 이 연속 이미지에서는 글로벌 모션은 존재하지 않는다. 도 2a에 있어서, 제 1 프레임(201)은 태양이 구름의 왼편 뒤쪽에 위치하는 것을 보여준다. 도 2b에 있어서, 제 2 프레임(202)은 태양이 구름의 중앙 뒤쪽에 위치함을 보여준다. 도 2c에 있어서, 제 3 프레임(203)은 태양이 구름의 오른편 뒤쪽에 위치함을 보여준다. 이 간단한 예는 “로컬 모션”의 예를 설명하고 있다. 즉, 다른 모든 특징은 고정적이지만, 각각의 프레임들(201, 202, 203)의 한 부분에서는 움직임이 존재한다.

도 3a, 도 3b, 그리고 도 3c를 참조하면, 글로벌 모션을 나타내는 연속 이미지들(300)이 도시된다. 이 연속 이미지들(300)에 있어서, 이미지 센서(카메라)는 고정되지 않은 상태에서 이미지를 생성하고 있는 것으로 가정한다. 게다가, 로컬 모션이 존재하지 않는다. 도 3a에 있어서, 제 1 프레임(301)은 태양이 구름의 왼편 뒤쪽에 위치하는 것을 보여준다. 도 3b에 있어서, 제 2 프레임(302)은 태양이 구름의 왼편 뒤쪽에 위치하는 것을 보여주지만, 전체 장면이 왼편으로 이동된 것을 나타낸다. 도 3c에 있어서, 제 3 프레임(303)은 태양이 구름의 왼편 뒤쪽에 위치하는 것을 보여주지만, 전체 장면이 왼편으로 좀더 이동된 것을 나타낸다. 이 간단한 예는 “글로벌 모션”의 예를 설명하고 있다. 즉, 장면 내에서 많은 대상이 상대적으로 고정된 위치에 있지만 각각의 프레임들(201, 202, 203)에는 움직임이 존재한다.

설명된 바와 같이, 로컬 모션 그리고/또는 글로벌 모션에도 일관적인 멀티-프레임 초해상도를 제공하기 위한 기술이 제공될 것이다. 일반적으로, 이러한 기술은 이미지에서의 로컬 그리고/또는 글로벌 양상을 등록하는 것으로 진행된다. 스케일-불변 특성 변환(Scale-Invariant Feature Transform: 이하, SIFT) 순서 알고리즘이 로컬 이미지 등록을 위해서 적용될 것이다. 스케일-불변 특성 변환(SIFT) 절차 알고리즘은 공동 저자들(Ce Liu, Jenny Yuen and Antonio Torralba)에 의해서 『“SIFT Flow: Dense Correspondence across Scenes and its Applications”, IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No.5, 2011』 라는 제목의 논문으로 발표되었으며, 본 발명의 레퍼런스에 포함된다.

일반적으로, 이미지 등록 이후에, 잠재적인 모션 블러(Motion blur)가 예상되는 영역을 식별하기 위한 프레임간 픽셀 분포의 분석에 기초한 이미지 프레임들의 조합; 잡음과 바이어스를 제거하기 위한 프레임간 픽셀 값을 자율적으로 학습하고; 그리고 정렬된 모션이 배제된 픽셀들에 대한 중간값(또는 평균) 필터링을 수행하는 절차가 수행된다. 도 4 및 도 5는 본 발명의 실시 예에 따른 기술을 표현하기 위한 순서도이다.

도 4를 참조하면, 제 1 프로세싱 파이프라인(400)에 따른 프로세서 절차가 도시되어 있다. 401 단계에서, 저해상도의 연속 이미지들이 처리를 위해서 선택된다. 용어 “저해상도”는 최종적으로 출력되는 값에 대한 상대적인 의미일뿐 다른 기준에 비교한 의미는 아니다. 이 실시 예에서, 저해상도 이미지는 200×200 픽셀들에 해당한다. 상술한 연속 이미지들에 포함되는 각각의 이미지는 다른 이미지와 동일한 특성을 나타내는 것으로 간주한다. 402 단계에서, 연속 이미지들 각각을 업스케일링이 수행된다. 일반적으로, 업스케일링에 있어서, 이미지들의 해상도가 변화된다. 이 실시 예에서, 저해상도의 이미지는 200×200 픽셀 사이즈에서 업스케일된 600×600 픽셀 사이즈로 조정된다. 원래의 픽셀들 사이의 데이터 생성에 사용되는 기술은 다양하게 적용될 수 있다. 일 예로, 바이큐빅 인터폴레이션(Bicubic Interpolation)이 원래의 픽셀 사이의 데이터를 생성하는데 사용될 수 있다.

403 단계에서, 선택된 연속 이미지들 중에서 레퍼런스 이미지를 선택하기 위한 글로벌 이미지 등록이 수행된다. 글로벌 이미지 등록에서, 연속 이미지들 시퀀스의 다른 이미지들이 레퍼런스 이미지와 정렬된다. 글로벌 이미지 등록을 수행하기 위한 기술의 예로 광자 에러 최소화 기법이 적용될 수 있다. 강자 에러 최소화 기법에서, 레퍼런스 이미지의 각 픽셀들은 대응하는 타깃 이미지의 픽셀들과 연관된다. 점대점 대응의 변환 매트릭스는 글로벌 등록의 결과로 추정될 수 있다. 404 단계에서, 로컬 모션이 존재하는지에 대한 테스트가 수행된다. 일 실시 예에서, 모든 픽셀 위치에서 프레임간 변동이 계산되고, 이것이 로컬 모션의 존재를 나타내는 지표로 사용된다. 405 단계에서, 높은 프레임간 변동의 비율이 로컬 모션에 대한 처리가 필요한지에 대한 결정을 수행하는데 사용된다. 높은 프레임간 변동은 실험치에 의해서 정의된다. 예를 들면, 어떤 구현에서는 높은 프레임간 변동은 0.1 또는 그 이상으로 정의될 수 있다. 만일, 높은 프레임간 변동이 임계치를 초과하는 경우, 로컬 모션 프로세스가 뒤따르게 된다(블로벌 모션 프로세싱에서 다루게 됨). 만일, 높은 프레임간 변동이 임계치를 초과하지 않는 경우, 절차는 409 단계로 이동한다. 409 단계에서, 픽셀 조합이 이루어진다. 픽셀 조합은 중간값(또는 평균) 또는 다른 적절한 필터링 방식들과 같은 필터링에 의해서 수행될 수 있다. 410 단계에서, 초해상도 이미지가 제공된다. 이 실시 예에서, 초해상도 이미지는 600×600 픽셀 사이즈를 가질 수 있다.

로컬 모션을 처리하기 위한 단계로 다시 돌아가, 프레임간 변동의 비율이 임계치를 초과하면, 절차는 406 단계로 이동한다. 406 단계에서, 로컬 이미지 등록이 완료된다. 로컬 이미지 등록은 스케일-불변 특성 변환(SIFT) 처리 알고리즘에 기반하여 수행된다. 407 단계에서, 높은 프레임간 변동 비율을 갖는 픽셀 위치가 로컬 모션으로서 식별된다. 408 단계에서, 407 단계에서 식별된 픽셀 위치에 대한 노이즈 및 모션 바이어스를 제거하기 위한 처리가 수행된다. 408 단계를 수행하기 위한 기술은, 예를 들면, 자율적 K-평균 프로세싱을 포함한다. 408 단계가 완료되면, 절차는 409 단계로 이동한다.

제 1 처리 파이프라인(400)의 단계들은 다양하게 변경되거나 조정될 수 있음은 잘 이해될 것이다. 예를 들면, 일 실시 예에서, 글로벌 이미지 등록은 업스케일링 단계 이전에 수행될 수도 있다. 일반적으로, 제 1 처리 파이프라인(400)은 연속된 프레임들에 포함되는 로컬 모션들의 양이 제한적인 경우에 보다 효율적인 것으로 알려졌으며, 이것은 406 단계 내지 408 단계가 스킵될 수 있음을 의미한다. 제 2 실시 예에서, 도 5에 게시된 예에 따르면, 연속된 프레임들에 로컬 모션이 충분한 양만큼 존재하는 경우에 제 1 처리 파이프라인(400)은 더 효율적일 수 있다.

도 5를 참조하면, 초해상도를 제공하기 위한 절차가 제 2 처리 파이프라인(500)으로 도시되어 있다. 501 단계에서, 처리를 위해 저해상도의 연속 이미지들이 선택된다. 용어 “저해상도”는 최종 출력을 기준으로 저해상도라는 것이지, 다른 표준에 비교하여 저해상도라는 의미는 아니다. 이 실시 예에서, 저해상도 이미지는 200×200 픽셀 사이즈로 제공된다. 연속 이미지들에 포함되는 각각의 이미지들은 다른 이미지들과 동일한 특성을 갖는다. 예를 들면, 각각의 “저해상도” 이미지들은 200×200 픽셀 사이즈의 해상도를 갖는다. 502 단계에서, 연속 이미지들 각각에 대한 업스케일링이 수행된다. 일반적으로, 업스케일링에 있어서, 이미지들의 해상도가 변화된다. 이 실시 예에서, 저해상도의 이미지는 200×200 픽셀 사이즈에서 업스케일된 600×600 픽셀 사이즈로 조정된다. 원래의 픽셀들 사이의 데이터 생성에 사용되는 기술은 다양하게 적용될 수 있다. 일 예로, 바이큐빅 인터폴레이션(Bicubic Interpolation)이 원래의 픽셀 사이의 데이터를 생성하는데 사용될 수 있다.

제 2 처리 파이프라인(500)에서, 이미지들 간에는 높은 프레임간 변동의 실질적 양이 존재하는 것으로 가정한다. 높은 프레임간 변동은 실험치에 의해서 정의될 수 있으며, 예를 들면, 어떤 구현에서는 높은 프레임간 변동은 0.1 또는 그 이상으로 정의될 수 있다. 따라서, 제 1 처리 파이프라인(400)에서 404 단계 및 405 단계는 누락된다.

따라서, 506 단계가 이어진다. 506 단계에서, 로컬 이미지 등록이 완료된다. 로컬 이미지 등록은 스케일-불변 특성 변환(SIFT) 처리 알고리즘에 기반하여 수행된다. 507 단계에서, 높은 프레임간 변동 비율을 갖는 픽셀 위치가 로컬 모션으로서 식별된다. 508 단계에서, 507 단계에서 식별된 픽셀 위치에 대한 노이즈 및 모션 바이어스를 제거하기 위한 처리가 수행된다. 508 단계를 수행하기 위한 기술은, 예를 들면, 자율적 K-평균 프로세싱을 포함한다. 508 단계가 완료되면, 절차는 509 단계로 이동한다.

도 6은 스케일-불변 특성 변환(SIFT) 처리의 특징을 보여준다. 스케일-불변 특성 변환(SIFT)은 이미지의 로컬 특징을 검출하고 표현하는 컴퓨터 비전 알고리즘이다. 스케일-불변 특성 변환(SIFT)은 관심 포인트의 주변 픽셀들의 경도에 대한 방향성 히스토그램에 기초하여 픽셀들을 로컬 디스크립터로 변환할 것이다. 밀착된 스케일-불변 특성 변환(SIFT)은 로컬 디스크립터를 추출하기 위해 관심 포인트의 검출없이 진행되고, 이미지에 밀집되게 키포인트를 할당할 수 있다.

도 6a에서, 이미지(601)의 예가 도식적으로 제공된다. 도 6b에서는 복수의 밀집된 키포인트들이 이미지(601) 상에서 분포하는 것이 표시되어 있다. 도 6c에서 도시된 바와 같이, 각각의 이웃 픽셀들(625), 키포인트(610)로부터 복수의 로컬 디스크립터(650, 또는 경도 특성)이 추출될 수 있다. 세부적으로 분해된 도면을 통해서, 각 이웃 픽셀들(625) 내의 로컬 디스크립터(650)는 각각 방향과 크기로 특징지어지는 복수의 벡터들을 포함한다.

이미지 등록을 위해서, 상술한 제 2 처리 파이프라인(500)의 506 단계에서의 로컬 이미지 등록에서 고밀도 스케일-불변 특성 변환(SIFT)이 적용될 수 있다.

두 개의 이미지에 대한 고밀도 스케일-불변 특성 변환(SIFT)을 위한 알고리즘은 본 발명의 로컬 이미지 등록을 전개하기 위한 스케일-불변 특성 변환(SIFT) 순서라 칭하기로 한다.

스케일-불변 특성 변환(SIFT) 함수를 실행하는 절차를 제공하기 위한 에너지 함수는 아래 수학식 1로 나타낼 수 있다. 이 실시 예에서, p(x,y)는 연속 이미지들의 격자 성분을 나타내고, w(p)=(u(p), v(p))는 p에서의 흐름 벡터를 나타낸다. 수학식 1에서, u(p)와 v(p)는 정수이며, u(p)와 v(p) 각각은 L 개의 상태를 가질 수 있다. s1 및 s2는 각각 매칭될 2개의 고밀도 SIFT 이미지들이다. ε는 4-이웃 시스템에서 모든 공간적 이웃들을 포함하도록 설정된다. 스케일-불변 특성 변환(SIFT) 처리를 위한 에너지 함수는 아래 수학식 1로 정의된다.

도 7a, 도 7b, 도 7c, 그리고 도 7d를 참조하면, 처리 파이프라인의 실시 예가 설명된다. 도 7a에서, 하나의 이미지(701)가 나타나 있다. 이미지(701)는 실질적으로는 연속 이미지들 중 하나이다. 연속 이미지들 사이에는 도시된 화살표 방향의 글로벌 모션이 존재할 수 있다. 도 7b에서 보이는 바와 같이, 이미지(701)의 중간 부분을 잘라낸 크롭 센터 이미지(710)가 선택될 수 있다. 일반적으로 크롭 센터 이미지(710)는 사용자의 관심을 반영한 영역이다. 상대적으로 큰 이미지(701)에 따라, 크롭 센터 이미지(710)의 글로벌 모션이 도시된 화살표와 같이 나타날 수 있다. 이 예에서, 연속 이미지는 연속된 크롭 센터 이미지(710)들로 제공될 수 있다. 도 7c에 도시된 바와 같이, 글로벌 이미지 등록이 수행되면, 글로벌 모션은 실질적으로 제거된다. 도 7d에 도시된 것처럼, 연속된 크롭 센터 이미지(710)들 각각의 부분이 입력 이미지(725)로 선택될 수 있다. 이 예에서, 각각의 입력 이미지는 200×200 픽셀 사이즈를 가질 수 있다. 실질적으로 각각의 입력 이미지들은 업스케일될 수 있고, 여기에서는 3배인 600×600 픽셀 사이즈로 업스케일되는 것으로 가정한다.

도 7의 등록 및 업스케일된 연속 이미지들에 대해 이미지들 간의 정렬된 픽셀들의 변동에 대해 도 8을 통해서 설명될 것이다. 모든 픽셀 위치들(x축 상의 모든 600×600 픽셀들)에 대한 오름차순 순서로 정렬된다. 도 8의 곡선은, 도 7에 도시된 것과 같은 글로벌 모션만 존재하는 실험실 테스트 장면에 대한 프레임간 픽셀 변동을 보여준다. 이 예에서, 픽셀 변동은 Y-채널(Luminous 또는 밝기 채널)에서 측정된 값이다. 다른 색공간 특성이 픽셀 변동을 측정하는데 사용될 수도 있을 것이다. 도 8에서 도시된 곡선은 중간값에서 평균 자승 거리가 0.1보다 큰 제한된 수의 픽셀들(2% 이하의 픽셀들)에 대한 것이다. 따라서, 업스케일된 연속 이미지들 내에는 로컬 모션은 검출되지 않는다.

이제 야외 장면을 포함하는 연속 이미지들에 대해서 고려하기로 하자. 이러한 이미지는 일반적으로 글로벌 모션(카메라의 움직임에 의한)뿐만 아니라 로컬 모션(바람에 의한 나뭇잎의 움직임에 의한)을 포함한다. 이 예에서는 도 5에서 설명된 제 2 처리 파이프라인(500)을 진행하는 것이 바람직하다. 즉, 이 예에서 글로벌 이미지 등록은 이미지 변환 추정(image transformation estimation)에 의해서, 로컬 이미지 등록은 스케일-불변 특성 변환(SIFT) 처리 방법에 근거하여 수행될 수 있다. 연속된 이미지들 간의 등록된 픽셀들의 변동은 도 9에 나타나 있다.

도 9를 참조하면, 상술한 야외 경관을 샘플링한 연속 이미지들 간에 나타나는 픽셀들의 변동이 도시되어 있다. 도 9에서, 변동 값들은 모든 픽셀 위치들(x축 상의 모든 600×900 픽셀들)에 대한 오름차순 순서로 정렬된다. 도 9에 도시된 곡선은 글로벌 모션과 로컬 모션이 모두 존재하는 야외 장면에 대한 프레임간 픽셀 변동을 보여준다. 이 예에서, 픽셀 변동은 Y-채널(또는 밝기 채널)에서 측정된 값이다. 다른 색공간 특성이 픽셀 변동을 측정하는데 사용될 수도 있을 것이다. 도 9에서 도시된 곡선은 중간값에서 평균 자승 거리가 0.1보다 큰 제한된 수의 픽셀들(2% 이하의 픽셀들)에 대한 것이다. 따라서, 업스케일된 연속 이미지들 내에는 로컬 모션이 검출된다.

고해상도 이미지를 제공하기 위해 업스케일된 이미지를 혼합할 때, 로컬 이미지는 블러링 현상으로 나타난다. 모션 블러(Motion blur) 문제는 여기에 게시되는 2단계 처리에 의해서 해결될 수 있다. 첫 번째 단계는 로컬 이미지 정렬 및 등록을 위해 원래 픽셀 강도(raw pixel intensity) 대신에 앞서 설명된 고밀도 스케일-불변 특성 변환(SIFT) 특성을 사용하는 것이다. 두 번째 단계는, 후술하는 바와 같이, 정렬된 업스케일된 이미지들 간의 픽셀 강도(raw pixel intensity)의 분포를 분석하고, 잠재적인 모션 블러를 식별한다. 식별된 모션 블러의 가능성에 의해, 혼합을 위한 업스케일 프레임들이 적응적으로 선택된다. 이 선택은 잡음과 모션 바이어스를 필터링하기 동일한 위치의 정렬된 픽셀 값들에 대한 자율적인 학습에 근거하여 수행된다. 자율적인 학습의 일 예로 K-평균(K-means) 기술이 사용될 수 있다. K-평균(K-means) 클러스터링은 데이터 마이닝 분야에서 클러스터 분석을 위한 벡터 양자화 기술로 잘 알려진 기술이다. K-평균(K-means) 클러스터링은 N개 대상을, K개의 클러스터들로 분리하는 것을 목적으로 한다. 여기서, 각각의 대상들은 가장 근접한 평균을 갖는 클러스터에 포함되고, 클러스터의 프로토타입으로 제공된다.

도 10을 참조하면, 연속 이미지의 프레임간 픽셀 값들의 변동을 나타내는 히스토그램이 도시되어 있다. 이 예에서, 픽셀의 혼합을 위해 0.2와 0.75 사이에 픽셀 값들이 위치하는 픽셀들이 사용되었다. 이 결과에서, 이미지들은 실질적으로 모션 블러가 감소하고 선명도(Sharpness)는 향상되었다.

도 11 및 도 12를 참조하면, 글로벌 모션을 갖는 실험실 테스트 영상에 대한 인터폴레이션에 의한 업스케일링 및 초해상도 처리의 결과가 도시되어 있다. 업스케일링된 이미지(도 11)는 크롭 센터 이미지(710)에 대한 3배 큐빅 인터폴레이션의 결과를 보여준다. 도시된 바와 같이, 이들 이미지에는 반점들과 드롭아웃(Dropout)이 실질적으로 존재한다. 도 12는 여기에서 게시되는 기술들에 의한 이미지 처리 이후의 크롭 센터 이미지(710)를 보여준다. 도시된 바와 같이, 반점들과 드롭아웃(Dropout)이 존재하지 않는 크게 향상된 결과가 도시되어 있다.

도 13, 도 14, 그리고 도 15는, 로컬 모션 및 글로벌 모션을 포함하는 이미지에 대한 처리 방법의 이점을 보여주는 도면들이다. 도 13, 도 14, 그리고 도 15에서, 프레임들의 글로벌 이미지 등록 및 혼합에 의해 생성된, 그리고 본 발명의 기술에 의해서 처리된 초해상도 결과에 대응하는 업스케일링 이미지가 제공된다. 업스케일링된 이미지(도 13)는 야외에서 캡쳐된 크롭 이미지에 대한 3배 큐빅 인터폴레이션의 결과를 보여준다. 도시된 바와 같이, 이들 이미지에는 반점들과 드롭아웃(Dropout)이 실질적으로 존재한다. 도 14의 초해상도 이미지는 로컬 모션에 대한 처리없이 혼합에 후속되는 글로벌 이미지 등록의 결과이다. 여기서 도시된 바와 같이, 이 이미지에는 실질적인 양의 모션 블러가 존재한다. 도 15의 출력된 초해상도 이미지는 본 발명의 글로벌 모션 및 로컬 모션 모두에 대한 처리 기술에 따라 생성된다. 도시된 바와 같이, 결과는 의미있는 반점들과 드롭아웃(Dropout)이 존재하지 않고, 모션 블러도 훨씬 감소하여 크게 향상된 이미지가 생성된다.

이미지 향상 기술의 소개된 실시 예들은, 여기에 소개되는 몇몇 추가된 이점 및 특징이 존재할 수 있다.

어떤 실시 예에서, 이미지 시스템(100)의 출력은 사물 인식을 위한 컨볼루션 신경망과 같은 다른 시스템에 의해서 수신될 수 있다. 사물 인식, 이미지 분석, 이미지 분석을 향상시키는 등의 시스템을 이하에서는 “인텔리전트 시스템”이라 칭하기로 한다. 일반적으로 인텔리전트 시스템은 이미지 시스템(100)으로부터의 출력을 수신하여 추가적인 기능을 제공하기 위하여 보강된 이미지를 사용할 것이다.

여기서 언급되는 용어 픽셀들의 “상관(Correlated)”은 일반적으로 연속 이미지들의 레퍼런스 프레임의 픽셀 위치를 나타낸다. 이미지 등록이 수행되면, 픽셀들은 상관성이 높아진다. 예를 들면, 글로벌 모션이나 로컬 모션이 존재하지 않는 경우, 잡음 없는 이미지 센서에 의해서 생성된 연속 이미지의 제 1 이미지의 픽셀은 후속되는 이미지의 픽셀과 완전하게 상관성을 갖는다. 물론, 글로벌 모션이나 로컬 모션뿐 아니라 이미지 센서의 잡음에 의해서 프레임간 픽셀들의 상관성은 완전하지 않을 수 있다. 글로벌 모션만 존재하는 연속 이미지의 경우, 레퍼런스 프레임의 픽셀은 타깃 프레임의 픽셀과 픽셀들의 분석에 의해서 상관성을 가질 수 있다. 예를 들면, 채도와 같은 특성이 다른 픽셀들은 강제적으로 차이가 최소화되도록 동일한 변환 방식을 적용함으로써 상관성을 가질 수 있다. 다른 방식으로, 글로벌 모션의 경우, 레퍼런스 이미지의 모든 픽셀들과 타깃 이미지의 모든 픽셀들과 상관성이 있을 때, 레퍼런스 이미지는 타깃 이미지와 정렬될 수 있다.

따라서, 글로벌 변환의 적용에 따라 하나의 이미지의 픽셀들이 다른 이미지의 픽셀들과 높은 상관성을 갖지 않는 경우, 이것은 로컬 모션이 존재함을 의미한다. 즉, 높은 프레임간 변동이 존재하는 로컬 모션의 존재를 나타낸다.

여기서 언급되는 용어 “픽셀 퓨전(fusion)”은 일반적으로 동일한 정보나 장면을 나타내는 복수의 픽셀들을 조합 그리고/또는 정제(refine)하는 기술을 의미한다. 업스케일링이 픽셀 인터폴리에션에 근거하기 때문에, 픽셀간 데이터가 추정되지만, 실제로는 존재하지 않을 수 있다. 등록된 업스케일링된 이미지들을 퓨전(fusion)하는 과정은 실제 존재하는 데이터를 추정된 데이터의 정제를 통해서 제공하기 위한 것이다. 따라서, 복수의 이미지 출력에 대한 픽셀 퓨전의 적용은 이미지 등록과 업스케일링, 그리고 중간값 필터링, 평균 필터링, 인터폴레이션 등의 적용될 것이다.

일반적으로 여기에 게시되는 초해상도는 연속 이미지에 포함되는 적어도 30개의 이미지들에 대해서 가장 효율적이다. 하지만, 이것은 본 발명을 달성하기 위한 요구 조건이 아니다. 예를 들면, 여기에 게시된 이미지를 향상시키기 위한 기술들은 적어도 2개의 연속된 이미지에 대해서도 적용할 수 있다.

여기에 기술된 바와 같이, 용어 “잡음”은 적어도 하나의 이미지에 포함된 불필요한 데이터를 의미한다. 잡음은 랜덤 또는 시스템적일 수 있다. 예를 들면, 랜덤 잡음은 이미지 센서에서 정적 전기 상태의 버스트(burst)에 의해서 야기되는 데이터 소실을 포함할 수 있다. 시스템적 노이즈는 예를 들면, 센서의 데드 픽셀에 기인하며 각각의 이미지의 동일한 위치에서 데이터 소실로 나타난다. 이러한 종류의 이미지 문제는 본 발명의 설명을 위해 모두 노이즈로 광범위하게 분류될 것이다.

여기에 게시된 특징을 제공하기 위해 다양한 다른 컴포넌트들이 포함되거나 요구될 수 있을 것이다. 예를 들면, 추가적인 물질, 물질들의 조합, 물질들의 누락이 여기에 게시된 기술의 스코프 내의 부가된 실시 예를 위해 사용될 수 있을 것이다.

여기에 사용된 용어 '하나'는 하나 또는 그 이상의 요소들이 존재함을 의미한다. 유사하게, 하나의 요소를 소개하기 위한 형용사 '또 다른'은 하나 이상의 요소들이 존재함을 의미한다. 용어 “포함하는”, “가지는”은 리스팅된 요소 이외에도 다른 추가적인 요소들이 존재할 수 있음을 나타낸다.

한편, 본 발명의 상세한 설명에서는 구체적인 실시예에 관하여 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다. 그러므로 본 발명의 범위는 상술한 실시 예에 국한되어 정해져서는 안되며 후술하는 특허청구범위뿐만 아니라 이 발명의 특허청구범위와 균등한 것들에 의해 정해져야 한다.

Claims

연속 이미지들에 대한 초해상도 이미지를 제공하는 방법에 있어서:
상기 연속 이미지들을 선택하는 단계;
상기 연속 이미지들 각각을 업스케일링하는 단계;
상기 연속 이미지들 중 기준 이미지를 선택하는 단계;
상기 기준 이미지를 사용하여 상기 연속 이미지들을 정렬하기 위해 이미지 등록을 수행하는 단계;
프레임간 변동이 큰 픽셀 위치들의 서브셋을 검출하기 위하여 상기 정렬된 연속 이미지들을 식별하는 단계;
상기 식별된 픽셀 위치들의 서브셋으로부터 잡음을 제거하고 모션 바이어스를 제거하기 위하여 학습 프로세스를 수행하는 단계; 그리고
초해상도 이미지를 생성하기 위해 상기 정렬되고 학습 처리된 이미지들에 대해 픽셀 결합을 수행하는 단계를 포함하는 방법.
제 1 항에 있어서,
상기 연속 이미지들은 2개 이상의 연속된 이미지들을 포함하는 방법.
제 1 항에 있어서,
상기 이미지 등록은 상기 기준 이미지의 픽셀들과 다른 이미지의 픽셀들 간의 상관 연산을 포함하는 방법.
제 1 항에 있어서,
상기 이미지 등록은 상기 기준 이미지의 선택된 픽셀들의 적어도 하나의 특성과 다른 이미지의 선택된 픽셀들의 적어도 하나의 특성을 비교하는 단계를 포함하는 방법.
제 4 항에 있어서,
상기 선택된 픽셀들의 적어도 하나의 특성은 SIFT(Scale-Invariant Feature Transform)을 포함하는 방법.
제 1 항에 있어서,
상기 학습 프로세서를 수행하는 단계는, 상기 연속 이미지들 각각에 복수의 키 포인트들을 할당하는 단계를 포함하는 방법.
제 1 항에 있어서,
상기 이미지 등록을 수행하는 단계는, SIFT(Scale-Invariant Feature Transform) 알고리즘을 처리하는 단계를 포함하는 방법.
제 1 항에 있어서,
프레임간 변동이 큰 픽셀 위치들의 서브셋을 검출하기 위하여 상기 정렬된 연속 이미지들을 식별하는 단계는, 정렬된 위치에서의 픽셀들의 편차를 결정하고, 결정될 결과를 임계값과 비교하는 단계를 포함하는 방법.
제 8 항에 있어서,
상기 편차는 하나 이상의 픽셀 채널들의 중간값(Median)에 대한 평균 자승 거리(Mean Square Distance)를 포함하는 방법.
제 9 항에 있어서,
상기 편차는 로컬 디스크립터들 각각의 중간값(Median)에 대한 평균 자승 거리(Mean Square Distance)를 포함하는 방법.
제 1 항에 있어서,
상기 학습 프로세서를 수행하는 단계는 자율 K-평균(K-means) 프로세스를 포함하는 방법.
제 1 항에 있어서,
상기 이미지 등록을 수행하는 단계는, SIFT에 대한 에너지 함수를 처리하는 단계를 포함하되,
상기 에너지 함수 E(w)는,

이고,
상기 p(x,y)는 상기 연속된 이미지의 격자 성분을 나타내고,
상기 w(p)=(u(p), v(p))는 p에서의 흐름 벡터를 나타내고,
상기 u(p)와 v(p)는 정수이며, 각각 L개의 상태를 가질 수 있으며,
상기 s1 및 s2는 각각 매칭될 2개의 고밀도 SIFT 이미지들이고, ε는 4-이웃 시스템에서 모든 공간적 이웃들을 포함하도록 설정되는 방법.
제 1 항에 있어서,
상기 픽셀 결합을 수행하는 단계는, 상기 연속되는 이미지들의 프레임간 적어도 하나의 중간값(Median) 필터링 및 평균값 필터링을 포함하는 방법.
넌-트랜지터리(Non-transitory) 머신 읽기 가능 매체에 저장되며, 연속 이미지들을 사용하여 초해상도 기준 이미지를 생성하는 방법을 수행하는 신경망을 구동하기 위한 기계 실행 가능 명령어들을 포함하는 컴퓨터 프로그램 제품에 있어서:
상기 초해상도 기준 이미지를 생성하는 방법은,
상기 연속 이미지들을 선택하는 단계;
상기 연속 이미지들 각각을 업스케일링하는 단계;
상기 연속 이미지들 중 기준 이미지를 선택하는 단계;
상기 기준 이미지를 사용하여 상기 연속 이미지들을 정렬하기 위해 이미지 등록을 수행하는 단계;
프레임간 변동이 큰 픽셀 위치들의 서브셋을 검출하기 위하여 상기 정렬된 연속 이미지들을 식별하는 단계;
상기 식별된 픽셀 위치들의 서브셋으로부터 잡음을 제거하고 모션 바이어스를 제거하기 위하여 학습 프로세스를 수행하는 단계; 그리고
초해상도 이미지를 생성하기 위해 상기 정렬되고 학습 처리된 이미지들에 대해 픽셀 결합을 수행하는 단계를 포함하는 컴퓨터 프로그램 제품.
제 14 항에 있어서,
상기 선택하는 단계는 상기 연속 이미지들을 통신 네트워크를 통해서 수신하는 단계를 포함하는 컴퓨터 프로그램 제품.
제 14 항에 있어서,
상기 초해상도 기준 이미지를 생성하는 방법은, 저장된 데이터, 스트림으로 제공되는 데이터, 그리고 실시간 입력되는 데이터 중 적어도 어느 하나에 적용되는 컴퓨터 프로그램 제품.
제 14 항에 있어서,
인텔리전트 시스템에 출력을 제공하는 단계를 더 포함하는 컴퓨터 프로그램 제품.
이미지 시스템에 있어서:
연속 이미지들을 제공하는 장치;
초해상도 기준 이미지를 생성하기 위한 머신 실행 가능 명령어들을 저장하는 넌-트랜지터리(Non-transitory) 머신 읽기 가능 매체; 그리고
상기 머신 실행 가능 명령어들을 읽어내고, 이미지 강화 동작을 수행하는 프로세서를 포함하되,
상기 이미지 강화 동작은;
상기 연속 이미지들을 선택하는 단계;
상기 연속 이미지들 각각을 업스케일링하는 단계;
상기 연속 이미지들 중 기준 이미지를 선택하는 단계;
상기 기준 이미지를 사용하여 상기 연속 이미지들을 정렬하기 위해 이미지 등록을 수행하는 단계;
프레임간 변동이 큰 픽셀 위치들의 서브셋을 검출하기 위하여 상기 정렬된 연속 이미지들을 식별하는 단계;
상기 식별된 픽셀 위치들의 서브셋으로부터 잡음을 제거하고 모션 바이어스를 제거하기 위하여 학습 프로세스를 수행하는 단계; 그리고
초해상도 이미지를 생성하기 위해 상기 정렬되고 학습 처리된 이미지들에 대해 픽셀 결합을 수행하는 단계를 포함하는 이미지 시스템.
제 18 항에 있어서,
상기 연속된 이미지들을 제공하는 장치는 스마트폰, 카메라, 테블릿 컴퓨터, 스케너, 특성화 장치들 중 적어도 하나를 포함하는 이미지 시스템.
제 18 항에 있어서,
상기 이미지 시스템은, 디지털 줌-인, 이미지 안정화, 비디오 감시, 의로 이미지 분석, 이미지 인식 동작들 중 적어도 하나를 수행하도록 설정되는 이미지 시스템.