KR20240018150A - 영상 잡음 제거 방법 및 장치 - Google Patents

영상 잡음 제거 방법 및 장치 Download PDF

Info

Publication number
KR20240018150A
KR20240018150A KR1020220096060A KR20220096060A KR20240018150A KR 20240018150 A KR20240018150 A KR 20240018150A KR 1020220096060 A KR1020220096060 A KR 1020220096060A KR 20220096060 A KR20220096060 A KR 20220096060A KR 20240018150 A KR20240018150 A KR 20240018150A
Authority
KR
South Korea
Prior art keywords
image
frame
focus
learning
data
Prior art date
Application number
KR1020220096060A
Other languages
English (en)
Inventor
장훈석
Original Assignee
한국전자기술연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자기술연구원 filed Critical 한국전자기술연구원
Priority to KR1020220096060A priority Critical patent/KR20240018150A/ko
Publication of KR20240018150A publication Critical patent/KR20240018150A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/571Depth or shape recovery from multiple images from focus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20024Filtering details
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Processing (AREA)

Abstract

본 발명은 영상 잡음 제거 방법 및 장치에 관한 것이다. 본 발명의 일 실시예에 따른 방법은 전자 장치에 의해 수행되는 방법으로서, 영상 시퀀스에서 서로 다른 프레임의 위치를 가지는 복수의 제1 학습용 영상에 대해 제1 학습용 영상마다 그 위치에 영향을 주는 노이즈가 부가된 n개(단, n은 2 이상의 자연수)의 학습용 위치 데이터를 생성하는 단계; 상기 학습용 위치 데이터를 이용하여 베이즈 필터(Bayes Filter)를 설정함으로써 각 프레임의 위치에 대한 추정 위치를 설정하는 단계; 및 상기 추정 위치를 대상 영상들에 적용하여 대상 영상들이 프레임 위치를 보정하는 단계;를 포함한다.

Description

영상 잡음 제거 방법 및 장치{METHOD AND APPARATUS FOR REMOVING IMAGE NOISE}
본 발명은 영상 잡음 제거 기술에 관한 것으로서, 더욱 상세하게는 우사 관제 시스템의 무인 소독 시스템 등에서 초점이 다른 영상들의 획득 시에 광축 방향으로 생성되는 지터 잡음(jitter noise)을 베이즈 필터 기술을 사용하여 제거함으로써 최적의 다초점 영상 획득이 가능한 기술에 관한 것이다.
가상현실, 게임, 애니메이션 등의 컴퓨터 그래픽스에 기반한 응용에서는 숙련된 디자이너가 수작업으로 3차원 모델을 제작하는데, 이는 시간이 많이 소요되고, 디자이너의 숙련도에 따라서 품질의 차이가 많은 문제점이 있다. 이러한 문제점에 대한 대안으로 3차원 형상 복원 기술이 활용되고 있다. 즉, 3차원 형상 복원 기술은 영상을 분석하여 물체의 3차원 형상에 대한 정보를 복원하는 기술이다.
이러한 3차원 형상 복원 기술 중에 빈번하게 사용되는 DFF(depth from focus) 기반의 깊이 추정 기술은 구현이 간단하고 정밀한 기술이다. 이러한 DFF 기반의 깊이 영상을 이용하여 다초점 영상 획득이 가능하다. 이때, DFF 기반의 깊이 추정을 수행하기 위해서는 영상 시퀀스에서 각 영상의 프레임 위치(즉, 순서)가 정확히 파악되어야 한다. 하지만, 카메라로 촬영 중에 지터 잡음(jitter noise)이 발생하기 쉬우며, 이러한 지터 잡음은 영상 시퀀스의 각 영상에 대한 프레임 위치 파악에 악영향을 줄 수 있다.
이에 따라, 이러한 지터 잡음을 제거하기 위해, 위너 필터 또는 중간값 필터 등을 이용하는 방식이 있다. 하지만, 이러한 방식은 2차원 영상 잡음만을 제거하기 ‹š문에 광축 방향으로 발생하는 기계 진동인 지터 잡음을 효과적으로 제거하지 못하여, 우사 관제 시스템의 무인 소독 시스템 등에서 영상 센서를 통해 도출되는 다초점 영상의 정확도가 낮아지는 문제점이 발생한다.
다만, 상술한 내용은 단순히 본 발명에 대한 배경 정보를 제공할 뿐 기 공개된 기술에 해당하는 것은 아니다.
상기한 바와 같은 종래 기술의 문제점을 해결하기 위하여, 본 발명은 우사 관제 시스템의 무인 소독 시스템 등에서 다초점 영상 도출을 위해 초점이 다른 영상들의 획득 시에 각 영상 프레임에서 광축 방향으로 생성되는 기계 진동인 지터 잡음(jitter noise)를 효과적으로 제거함으로써 최적의 다초점 영상 도출이 가능한 기술을 제공하는데 그 목적이 있다.
다만, 본 발명이 해결하고자 하는 과제는 이상에서 언급한 과제에 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
상기와 같은 과제를 해결하기 위한 본 발명의 일 실시예에 따른 방법은 전자 장치에 의해 수행되는 방법으로서, 영상 시퀀스에서 서로 다른 프레임의 위치를 가지는 복수의 제1 학습용 영상에 대해 제1 학습용 영상마다 그 위치에 영향을 주는 노이즈가 부가된 n개(단, n은 2 이상의 자연수)의 학습용 위치 데이터를 생성하는 단계; 상기 학습용 위치 데이터를 이용하여 베이즈 필터(Bayes Filter)를 설정함으로써 각 프레임의 위치에 대한 추정 위치를 설정하는 단계; 및 상기 추정 위치를 대상 영상들에 적용하여 대상 영상들이 프레임 위치를 보정하는 단계;를 포함한다.
상기 학습용 위치 데이터는 지터 노이즈(jitter noise)를 시뮬레이션하도록 가우시안(Gaussian)의 분포를 가지는 랜덤(random)한 노이즈가 부가될 수 있다.
상기 설정하는 단계는 상기 학습용 위치 데이터를 상기 베이즈 필터의 입력으로 사용하는 단계를 포함할 수 있다.
상기 추정 위치는 하기 수학식의 범위를 가질 수 있다.
[수학식]
(단, s는 각 제1 학습용 영상의 프레임에 대한 추정 위치를 나타내고, zn은 각 제1 학습용 영상의 프레임에 대한 원래 위치를 나타내며, σn은 가우시안 분포를 가지는 지터 노이즈의 표준 편차를 나타내고, A는 상수를 나타냄)
상기 설정하는 단계는 상기 학습용 위치 데이터를 이용하여 상기 제1 학습용 영상의 프레임에 대한 가우시안 확률 밀도 함수를 적용하여 프레임의 추정 위치들에 대한 해당 확률 값들을 누적하고, 일정 범위 내에 가장 높은 확률 값을 가지는 위치가 해당 제1 학습용 영상의 프레임에 대한 최적 위치로 설정하는 단계를 포함할 수 있다.
상기 확률 밀도 함수는 하기 수학식을 이용하여 계산될 수 있다.
[수학식]
(단, i는 학습용 위치 데이터의 프레임 위치를 나타내고, p(i)는 i 프레임 위치 학습용 위치 데이터에 대한 가우시안 확률 밀도 함수를 나타내며, x(j)는 i의 프레임 위치를 가지는 학습용 위치 데이터가 지터 잡음에 의해서 변화된 위치를 나타내고, s(i)는 i의 프레임 위치를 가지는 학습용 영상 프레임의 추정 위치를 나타내며, σn은 가우시안 분포를 가지는 지터 잡음의 표준 편차를 나타냄)
상기 깊이 추정을 수행하는 단계는 보정된 대상 영상들의 위치를 기반으로 대상 영상들의 초점 값을 도출하며, 도출된 초점 값을 이용하여 깊이 추정을 수행하는 단계를 포함할 수 있다.
상기 깊이 추정을 수행하는 단계는 제2 학습용 영상에서 다수의 픽셀에 대한 제1 초점 측정 연산의 결과로 도출된 각 픽셀의 초점 값(focus value)과, 해당 초점 값을 기반으로 추정되는 초점 커브의 피팅 함수를 기반으로 가우시안 프로세스 회귀(Gaussian Process Regression)의 머신 러닝에 따른 학습이 수행된 모델을 이용하여 깊이 추정을 수행하는 단계를 포함할 수 있다.
상기 깊이 추정을 수행하는 단계는, 보정된 대상 영상들에서 다수의 픽셀에 대해 제2 초점 측정 연산을 수행하는 단계; 상기 제2 초점 측정 연산의 결과로 도출된 다수 픽셀의 초점 값(focus value)을 상기 모델에 입력시켜, 다수의 초점 커브를 피팅(fitting)하는 단계; 피팅된 다수의 초점 커브에서 최대의 초점 값을 가지는 보정된 대상 영상들에서의 픽셀 위치를 추출하는 단계; 및 추출된 상기 픽셀 위치를 기반으로 깊이 추정을 수행하는 단계;를 포함할 수 있다.
상기 제1 및 제2 초점 측정 연산은 SML(Sum of Modified Laplacian)을 이용할 수 있다.
상기 SML은 하기 식을 이용할 수 있다.
(단, I(x, y)는 (x, y)의 픽셀에서의 그레이 레벨 밝기, W는 영상 윈도우 크기)
상기 모델에 대한 학습 방법은, 피팅 함수에 대한 확률 분포의 커널 함수를 제곱 지수 커널인 k(i, i')로 선정하는 단계; 피팅 함수에 대한 초기 확률 분포에 대해, 평균을 0으로 설정하고 커널 함수를 k(x0, x0')로 설정하는 단계(단, x0와 x0'는 타겟 데이터에서 픽셀 위치에 대한 축인 x축의 값들의 집합); 및 피팅 함수에 대한 갱신된 확률 분포에 대해, 평균을 mg(x0)로 설정하고 커널 함수를 kg(x0, x0')로 설정하는 단계;를 포함할 수 있다.
(단, i와 I'는 제곱 지수 커널 함수의 입력, | | | |는 유클리디안 거리)
(단, xt는 훈련 데이터에서 픽셀 위치 값에 대한 축인 x축의 값들의 집합, xt'는 훈련 데이터에서 초점 값에 대한 축인 y축의 값들의 집합)
상기 제2 초점 측정 연산을 수행하는 단계는 보정된 상기 대상 영상에서 무작위로 샘플링하여 다수의 픽셀을 추출하고, 추출된 다수의 픽셀에 대해 제2 초점 측정 연산을 수행하는 단계를 포함할 수 있다.
본 발명의 일 실시예에 따른 방법은 프레임 위치가 보정된 대상 영상들을 이용하여 깊이 추정을 수행하는 단계를 더 포함할 수 있다.
본 발명의 일 실시예에 따른 방법은 상기 깊이 추정의 정보를 이용하여 다초점 영상을 도출하는 단계를 더 포함할 수 있다.
본 발명의 일 실시예에 따른 장치는 메모리; 및 메모리에 저장된 정보를 이용하여, 영상 처리의 수행을 제어하는 제어부;를 포함한다.
상기 제어부는, 영상 시퀀스에서 서로 다른 프레임의 위치를 가지는 복수의 제1 학습용 영상에 대해 제1 학습용 영상마다 그 위치에 영향을 주는 노이즈가 부가된 n개(단, n은 2 이상의 자연수)의 학습용 위치 데이터를 생성하도록 제어하고, 상기 학습용 위치 데이터를 이용하여 베이즈 필터(Bayes Filter)를 설정함으로써 각 프레임의 위치에 대한 추정 위치를 설정하도록 제어하며, 상기 추정 위치를 대상 영상들에 적용하여 대상 영상들이 프레임 위치를 보정하도록 제어하며, 프레임 위치가 보정된 대상 영상들을 이용하여 깊이 추정을 수행하도록 제어할 수 있다.
상기와 같이 구성되는 본 발명은 우사 관제 시스템의 무인 소독 시스템 등에서 다초점 영상 도출을 위해 초점이 다른 영상들의 획득 시에 각 영상 프레임에 포함된 지터 잡음(jitter noise)를 효과적으로 제거함으로써 최적의 다초점 영상 도출이 가능하게 하는 이점이 있다.
또한, 본 발명은 종래의 필터 기술을 사용해서 제거하지 못하는 지터 잡음(jitter noise)을 베이즈 필터 기술의 설계 및 적용을 통해 효과적으로 제거함으로써 영상 프레임 위치를 보다 정확하게 추정함으로써 다초점 영상 추정의 정확도를 개선할 수 있는 이점이 있다.
본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 일 실시예에 따른 영상 획득 장치(100)의 블록 구성도를 나타낸다.
도 2는 본 발명의 일 실시예에 따른 영상 획득 장치(100)에서 영상의 프레임 위치 보정에 대한 제어를 위한 제어부(150)의 블록 구성도를 나타낸다.
도 3은 본 발명의 일 실시예에 따른 영상 획득 장치(100)에서 DFF 기법에 따른 깊이 추정에 대한 제어를 위한 제어부(150)의 블록 구성도를 나타낸다.
도 4 및 도 5는 본 발명에 따라 베이즈 필터를 이용하여 영상 프레임의 위치에 대한 지터 잡음을 최소화하는 기술에 대한 개념도를 나타낸다.
도 6은 본 발명의 일 실시예에 따른 영상 획득 방법의 순서도를 나타낸다.
도 7은 가우시안 프로세스 회귀에 기반하여 깊이 추정을 수행하는 방법에 대한 순서도를 나타낸다.
도 8은 S310의 상세한 순서도를 나타낸다.
도 9는 S320의 상세한 순서도를 나타낸다.
도 10은 DFF(depth from focus)에 의하여 깊이 추정이 수행되는 원리를 나타내는 일 예를 나타낸다.
도 11은 종래 기술과 본 발명에 따른 비교 결과 그래프를 나타낸다.
본 발명의 상기 목적과 수단 및 그에 따른 효과는 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며, 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 경우에 따라 복수형도 포함한다. 본 명세서에서, "포함하다", "구비하다", "마련하다" 또는 "가지다" 등의 용어는 언급된 구성요소 외의 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다.
본 명세서에서, "또는", "적어도 하나" 등의 용어는 함께 나열된 단어들 중 하나를 나타내거나, 또는 둘 이상의 조합을 나타낼 수 있다. 예를 들어, "A 또는 B", "A 및 B 중 적어도 하나"는 A 또는 B 중 하나만을 포함할 수 있고, A와 B를 모두 포함할 수도 있다.
본 명세서에서, "예를 들어" 등에 따르는 설명은 인용된 특성, 변수, 또는 값과 같이 제시한 정보들이 정확하게 일치하지 않을 수 있고, 허용 오차, 측정 오차, 측정 정확도의 한계와 통상적으로 알려진 기타 요인을 비롯한 변형과 같은 효과로 본 발명의 다양한 실시 예에 따른 발명의 실시 형태를 한정하지 않아야 할 것이다.
본 명세서에서, 어떤 구성요소가 다른 구성요소에 '연결되어' 있다거나 '접속되어' 있다고 기재된 경우, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성 요소에 '직접 연결되어' 있다거나 '직접 접속되어' 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해될 수 있어야 할 것이다.
본 명세서에서, 어떤 구성요소가 다른 구성요소의 '상에' 있다거나 '접하여' 있다고 기재된 경우, 다른 구성요소에 상에 직접 맞닿아 있거나 또는 연결되어 있을 수 있지만, 중간에 또 다른 구성요소가 존재할 수 있다고 이해되어야 할 것이다. 반면, 어떤 구성요소가 다른 구성요소의 '바로 위에' 있다거나 '직접 접하여' 있다고 기재된 경우에는, 중간에 또 다른 구성요소가 존재하지 않은 것으로 이해될 수 있다. 구성요소 간의 관계를 설명하는 다른 표현들, 예를 들면, '~사이에'와 '직접 ~사이에' 등도 마찬가지로 해석될 수 있다.
본 명세서에서, '제1', '제2' 등의 용어는 다양한 구성요소를 설명하는데 사용될 수 있지만, 해당 구성요소는 위 용어에 의해 한정되어서는 안 된다. 또한, 위 용어는 각 구성요소의 순서를 한정하기 위한 것으로 해석되어서는 안 되며, 하나의 구성요소와 다른 구성요소를 구별하는 목적으로 사용될 수 있다. 예를 들어, '제1구성요소'는 '제2구성요소'로 명명될 수 있고, 유사하게 '제2구성요소'도 '제1구성요소'로 명명될 수 있다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일 실시예를 상세히 설명하도록 한다.
도 1은 본 발명의 일 실시예에 따른 영상 획득 장치(100)의 블록 구성도를 나타낸다.
본 발명의 일 실시예에 따른 영상 획득 장치(100)는 영상 시퀀스에서 서로 다른 프레임의 위치를 가지는 복수의 영상에 대해 베이즈 필터(Bayes Filter)을 기반으로 지터 잡음(jitter noise)을 제거한 후 깊이 추정을 수행하여 해당 깊이 추정에 따른 영상을 획득하는 장치로서, 컴퓨팅(computing)이 가능한 전자 장치일 수 있다.
예를 들어, 전자 장치는 데스크탑 PC(desktop personal computer), 랩탑 PC(laptop personal computer), 태블릿 PC(tablet personal computer), 넷북 컴퓨터(netbook computer), 워크스테이션(workstation), PDA(personal digital assistant), 스마트폰(smartphone), 스마트패드(smartpad), 또는 휴대폰(mobile phone), 등의 범용 컴퓨팅 시스템이거나, 임베디드 리눅스(Embeded Linux) 등을 기반으로 구현된 전용의 임베디드 시스템과 같이 영상 획득을 위해 별도로 구현된 장치일 수도 있으나, 이에 한정되는 것은 아니다.
특히, 영상 획득 장치(100)는 우사 관제 시스템의 무인 소독 시스템 등과 같은 다양한 관제 시스템에 적용되는 장치일 수 있다. 즉, 영상 획득 장치(100)는 관제 시스템의 대상 영역을 관리하기 위해 영상 촬영 장치(가령, 카메라 등)에서 획득되는 대상 영역의 영상에 대한 영상 처리를 수행한다.
영상 촬영 장치에서는 초점이 다른 다수의 영상이 획득되며, 이러한 각 영상에는 광축 방향으로 생성되는 지터 잡음이 포함된다. 이에 따라, 영상 획득 장치(100)는 베이즈 필터 기술을 적용하여 해당 지터 잡음을 제거한다. 이러한 지터 잡음 제거 기능에 따라 영상 획득 장치(100)는 "영상 잡음 제거 장치"라고도 지칭될 수 있다 이후, 영상 획득 장치(100)는 지터 잡음이 제어된 영상들에 대해 DFF(depth from focus) 기법을 적용하여 깊이 추정을 수행하며, 추정된 깊이 정보를 이용하여 다초점 영상을 도출할 수 있다.
일례로, 깊이 추정은 지터 잡음이 제거된 영상들에 대해 DFF(depth from focus) 기법을 기반으로 대상 영역에 대한 깊이 정보(즉, 깊이 영상 등)를 도출하는 영상 처리 기술에 해당할 수 있다.
이러한 영상 획득 장치(100)는, 도 1에 도시된 바와 같이, 입력부(110), 통신부(120), 디스플레이(130), 메모리(140) 및 제어부(150)를 포함할 수 있다.
입력부(110)는 사용자의 입력에 대응하여, 입력데이터를 발생시키며, 다양한 입력수단을 포함할 수 있다. 예를 들어, 입력부(110)는 키보드(key board), 키패드(key pad), 돔 스위치(dome switch), 터치 패널(touch panel), 터치 키(touch key), 터치 패드(touch pad), 마우스(mouse), 메뉴 버튼(menu button) 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.
통신부(120)는 다른 장치와의 통신을 수행하는 구성이다. 예를 들어, 통신부(120)는 5G(5th generation communication), LTE-A(long term evolution-advanced), LTE(long term evolution), 블루투스, BLE(bluetooth low energy), NFC(near field communication), 와이파이(WiFi) 통신 등의 무선 통신을 수행하거나, 케이블 통신 등의 유선 통신을 수행할 수 있으나, 이에 한정되는 것은 아니다.
가령, 통신부(120)는 영상 또는 깊이 추정을 위한 모델(이하, "모델"이라 지칭함) 등에 대한 정보를 타 장치로부터 수신할 수 있으며, 지터 잡음이 제거된 영상, 파라미터가 설정된 베이즈 필터, 모델 또는 깊이 추정 결과 등에 대한 정보를 타 장치로 송신할 수 있다.
디스플레이(130)는 다양한 영상 데이터를 화면으로 표시하는 것으로서, 비발광형 패널이나 발광형 패널로 구성될 수 있다. 예를 들어, 디스플레이(130)는 액정 디스플레이(LCD; liquid crystal display), 발광 다이오드(LED; light emitting diode) 디스플레이, 유기 발광 다이오드(OLED; organic LED) 디스플레이, 마이크로 전자기계 시스템(MEMS; micro electro mechanical systems) 디스플레이, 또는 전자 종이(electronic paper) 디스플레이 등을 포함할 수 있으나, 이에 한정되는 것은 아니다. 또한, 디스플레이(130)는 입력부(110)와 결합되어 터치 스크린(touch screen) 등으로 구현될 수 있다.
메모리(140)는 영상 획득 장치(100)의 동작에 필요한 각종 정보를 저장한다. 저장 정보로는 영상, 베이즈 필터, 모델, 후술할 영상 획득 방법에 관련된 프로그램 정보 등이 포함될 수 있으나, 이에 한정되는 것은 아니다. 예를 들어, 메모리(140)는 그 유형에 따라 하드디스크 타입(hard disk type), 마그네틱 매체 타입(Magnetic media type), CD-ROM(compact disc read only memory), 광기록 매체 타입(Optical Media type), 자기-광 매체 타입(Magneto-optical media type), 멀티미디어 카드 마이크로 타입(Multimedia card micro type), 플래시 저장부 타입(flash memory type), 롬 타입(read only memory type), 또는 램 타입(random access memory type) 등을 포함할 수 있으나, 이에 한정되는 것은 아니다. 또한, 메모리(140)는 그 용도/위치에 따라 캐시(cache), 버퍼, 주기억장치, 또는 보조기억장치이거나 별도로 마련된 저장 시스템일 수 있으나, 이에 한정되는 것은 아니다.
제어부(150)는 영상 획득 장치(100)의 다양한 제어 동작을 수행할 수 있다. 즉, 제어부(150)는 후술할 영상 획득 방법의 수행을 제어할 수 있으며, 영상 획득 장치(100)의 나머지 구성, 즉 입력부(110), 통신부(120), 디스플레이(130), 메모리(140) 등의 동작을 제어할 수 있다. 예를 들어, 제어부(150)는 하드웨어인 프로세서(processor) 또는 해당 프로세서에서 수행되는 소프트웨어인 프로세스(process) 등을 포함할 수 있으나, 이에 한정되는 것은 아니다. 일례로, 프로세서는 마이크로프로세서(Microprocessor), 중앙처리장치(Central Processing Unit: CPU), 프로세서 코어(Processor Core), 멀티프로세서(Multiprocessor), ASIC(Application-Specific Integrated Circuit), FPGA(Field Programmable Gate Array) 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.
도 2는 본 발명의 일 실시예에 따른 영상 획득 장치(100)에서 영상의 프레임 위치 보정에 대한 제어를 위한 제어부(150)의 블록 구성도를 나타낸다. 또한, 도 3은 본 발명의 일 실시예에 따른 영상 획득 장치(100)에서 DFF 기법에 따른 깊이 추정에 대한 제어를 위한 제어부(150)의 블록 구성도를 나타낸다.
제어부(150)는 본 발명의 일 실시예에 따른 영상 획득 방법의 수행을 제어하며, 도 2 및 도 3에 도시된 바와 같이, 필터 설정부(151), 필터 적용부(152), 초점 측정 연산부(153), 모델 학습부(154), 모델 적용부(155), 추출부(156) 및 수집부(157)를 포함할 수 있다. 예를 들어, 필터 설정부(151), 필터 적용부(152), 초점 측정 연산부(153), 모델 학습부(154), 모델 적용부(155), 추출부(156) 및 수집부(157는 제어부(150)의 하드웨어 구성이거나, 제어부(150)에서 수행되는 소프트웨어인 프로세스일 수 있으나, 이에 한정되는 것은 아니다.
한편, 모델은 머신 러닝 기법(machine learning)에 따라 학습된 모델일 수 있다. 특히, 모델은 학습 데이터를 통해 가우시안 프로세스 회귀의 머신 러닝 기법 따라 학습된 모델일 수 있다.
가령, 학습 데이터는 입력 데이터 및 출력 데이터 쌍(데이터 셋)을 포함할 수 있다. 이때, 모델은 다수의 레이어(layer)를 포함하여, 입력층의 입력 데이터와 출력층의 출력 데이터의 관계에 대한 함수를 은닉층에 포함한다. 모델의 입력층에 입력 데이터가 입력되는 경우, 해당 함수에 따른 출력 데이터가 출력층에 출력될 수 있다.
즉, 모델은 입력 데이터와 출력 데이터 간의 관계를 다수의 층(즉, 레이어)으로 표현하며, 이러한 다수의 표현층을 "인공신경망(neural network)"라 지칭하기도 한다. 인공신경망 내의 각 레이어는 적어도 하나 이상의 필터로 이루어지며, 각 필터는 가중치(weight)의 매트릭스(matrix)를 가진다. 즉, 해당 필터의 매트릭스에서 각 원소는 가중치의 값에 해당할 수 있다. 모델의 학습 및 적용 등에 대한 상세한 설명은 후술하도록 한다.
도 4 및 도 5는 본 발명에 따라 베이즈 필터를 이용하여 영상 프레임의 위치에 대한 지터 잡음을 최소화하는 기술에 대한 개념도를 나타낸다.
한편, DFF(depth from focus) 기법에 따른 깊이 추정은 대상 영역에 대해 초점 정도가 다른 다수의 2차원 영상들을 이용하여 대상 영역에 대한 깊이 정보를 추정하는 기술이다. 이때, 각 2차원 영상은 대상 영역을 촬영하는 영상 촬영 장치로부터 영상 시퀀스에 따라 획득될 수 있고, 그 영상 시퀀스에 따라 획득된 각 2차원 영상의 프레임 위치가 결정되며, 결정된 프레임 위치에 따라 획득된 각 2차원 영상에 대한 초점 값이 도출될 수 있으며, 도출된 초점 값을 기반으로 DFF 기법에 따라 대상 영역에 대한 깊이 정보가 추정될 수 있다.
다만, 각 2차원 영상을 획득할 때, 광축 방향으로 영상 촬영 장치의 기계 진동에 따른 지터 잡음(jitter noise)이 발생할 수 있다. 이러한 지터 잡음이 발생하게 되면, 2차원 영상들은 영상 시퀀스의 순서에 대응하여 결정되는 그 프레임 위치가 변하게 되며, 이에 따라 이들 2차원 영상을 이용하여 추정된 깊이 정보는 정확도가 떨어질 수밖에 없다. 이러한 문제를 해결하기 위해, 본 발명에서는 제1 학습용 영상들을 이용하여 베이즈 필터의 파라미터를 설정한 후, 설정된 베이즈 필터를 대상 영상들에 적용하여 대상 영상들의 지터 잡음을 제거함으로써, 대상 영상들에 대한 프레임 위치를 보정할 수 있다. 그 결과, 보정된 대상 영상들에 대해 추정된 깊이 정보는 그 정확성이 보다 향상될 수 있다.
이때, 학습용 영상과 대상 영상은 동일한 대상 영역에 대해 영상 촬영 장치로부터 획득된 2차원 영상인 것이 바람직하다. 일례로, 학습용 영상과 대상 영상은 우사 관제 시스템의 무인 소독 시스템에 설치된 영상 촬영 장치로부터 획득된 동일 대상 영역에 대한 영상일 수 있다. 다만, 제1 학습용 영상은 지터 잡음에 의해 변경된 프레임 위치에 대한 정보가 사전에 파악된 영상이며, 이러한 제1 학습용 영상들을 이용하여 베이즈 필터의 파라미터들에 대한 설정이 가능하다. 또한, 제2 학습용 영상은 후술할 모델을 학습시키기 위해 사용될 수 있다.
이하, 본 발명에 따른 영상 획득 방법에 대해 보다 상세하게 설명하도록 한다.
도 6은 본 발명의 일 실시예에 따른 영상 획득 방법의 순서도를 나타낸다.
즉, 도 6을 참조하면, 본 발명의 일 실시예에 따른 영상 획득 방법은, 베이즈 필터를 설정하는 단계(S100)와, 대상 영상들의 프레임 위치를 보정하는 단계(S200)와, 깊이 추정을 수행하는 단계(S300)와, 다초점 영상을 도출하는 단계(S400)를 포함한다. 이때, S100 및 S200를 포함하는 영상 처리 방법을 영상 잡음 제거 방법이라 지칭할 수도 있다.
먼저, S100에서, 제어부(150)의 필터 설정부(151)는 제1 학습용 영상들을 이용하여 베이즈 필터를 설정한다.
이때, 복수의 제1 학습용 영상의 프레임 위치에 대해 노이즈를 부가한 정보(이하, "학습용 위치 데이터"라 지칭함)를 생성할 수 있다. 이때, 제1 학습용 영상은 대상 영역에 대한 영상 시퀀스에서 서로 다른 프레임의 위치를 가지는 영상 프레임일 수 있다. 또한, 노이즈는 지터 잡음을 시뮬레이션하는 노이즈로서, 가우시안(Gaussian)의 분포를 가질 수 있다.
즉, 필터 설정부(151)는 서로 다른 프레임 위치를 가지는 각 제1 학습용 영상에 대해 그 프레임 위치에 영향을 주는 가우시안 분포의 랜덤(random)한 노이즈가 부가된 N개의 학습용 위치 데이터를 생성한다. 단, N은 2 이상의 자연수이며, 10 이상인 것이 바람직할 수 있으나, 이에 한정되는 것은 아니다.
예를 들어, 영상 시퀀스의 첫번째 프레임 위치의 제1 학습용 영상에 대해서 N개의 학습용 위치 데이터가 생성되고, 두번째 프레임 위치의 제1 학습용 영상에 대해서 N개의 학습용 위치 데이터가 생성된다. 이와 같은 방식으로, 제1 학습용 영상마다 N개(단, n은 2 이상의 자연수)의 학습용 위치 데이터가 생성될 수 있다.
또한, 어느 한 제1 학습용 영상에 대해 생성된 N개의 학습용 위치 데이터의 위치는 부가된 노이즈에 따라 그 제1 학습용 영상의 원래 프레임 위치(실제 위치 또는 원래 위치)에 대한 정보(이하, "원위치 데이터"라 지칭함)와 동일한 위치 값을 가지거나 다른 위치 값을 가질 수 있다.
예를 들어, 영상 시퀀스의 m번째(단, m은 1 이상의 자연수) 프레임 위치의 제1 학습용 영상에 대해 생성된 N개의 학습용 위치 데이터의 위치는 부가된 노이즈에 따라 그 제1 학습용 영상의 원위치 데이터의 값(즉, 'm번째' 관련 값)과 동일하거나 다를 수 있다. 이때, 생성된 학습용 위치 데이터의 위치는 부가된 노이즈의 값이 커질수록 'm번째' 관련 값에서 많이 벗어난 값을 그 학습용 위치 데이터의 값으로 가지게 된다. 물론, 생성된 학습용 위치 데이터의 위치는 부가된 노이즈의 값이 '0'이라면 원위치 데이터와 동일한 값을 그 학습용 위치 데이터의 값으로 가지게 된다.
즉, m번째 프레임 위치의 제1 학습용 영상에 대해 생성된 N개의 학습용 위치 데이터에 각각 적용되는 N개의 노이즈는 랜덤하게 생성되며, 지터 잡음을 시뮬레이션하기 위해 가우시안 분포를 가질 수 있다.
이후, 필터 설정부(151)는 각 제1 학습용 영상에 대해 생성한 학습용 위치 데이터들과, 해당 제1 학습용 영상의 원위치 데이터를 각각 이용하여, 베이즈 필터를 설정할 수 있다. 즉, 지터 잡음에 의해서 위치가 무작위로 변한 각 제1 학습용 영상 프레임들의 위치가 베이즈 필터의 입력으로 사용된다. 여기서, 베이즈 필터를 설정하는 것은 하기의 수학식들을 이용하여 각 프레임 위치에 대해 최적 위치를 설정하는 것을 의미할 수 있다.
구체적으로, 필터 설정부(151)는 제1 학습용 영상들을 기반으로 설정되는 각 제1 학습용 영상 프레임에 대한 추정 위치(s)가 하기 수학식 1의 범위를 가지는 것으로 정의할 수 있다.
[수학식 1]
여기서, s는 각 제1 학습용 영상 프레임의 추정 위치를 나타내며, zn은 각 제1 학습용 영상 프레임의 실제 위치(원래 프레임 위치)를 나타낸다. 또한, σn은 가우시안 분포를 가지는 지터 잡음의 표준 편차, A는 상수를 각각 나타낸다. 한편, 수학식 1에서 s의 전체 범위 길이는 M으로 나타낼 수 있다.
이때, A는 사전에 설정되거나 필요에 따라 사용자에 의해 설정될 수 있으며, 2 내지 10의 값을 가질 수 있다. 특히, A는 각 제1 학습용 영상 프레임의 추정 위치(s)가 지터 잡음의 가우시안 분포에 대해 99% 이상까지 포함하는 범위를 가지도록 하는 값인 것이 바람직할 수 있으며, 3 이상인 것이 바람직할 수 있으나, 이에 한정되는 것은 아니다.
또한, 필터 설정부(151)는 수학식 1에 따른 각 제1 학습용 영상 프레임의 추정 위치(s)의 위치 범위 내에서, 하기 수학식 2와 같이 정의되는 각 제1 학습용 영상(즉, 학습용 위치 데이터) 프레임에 대한 가우시안 확률 밀도 함수를 적용한다.
[수학식 2]
여기서, i는 제1 학습용 영상 프레임의 시퀀스 번호(즉, 프레임 위치)를 나타내고, p(i)는 i의 프레임 위치를 가지는 제1 학습용 영상 프레임의 위치에 대한 가우시안 확률 밀도 함수를 나타낸다. 또한, x(j)는 i의 프레임 위치를 가지는 제1 학습용 영상 프레임이 지터 잡음에 의해서 변화된 위치를 나타내고, s(i)는 i의 프레임 위치를 가지는 영상 프레임의 추정 위치를 나타낸다. 이러한 s(i)는 수학식 1의 위치 범위를 가질 수 있다.
즉, 각각 N개의 학습용 위치 데이터를 포함하는 제1 학습용 영상들에 대해 하나씩 수학식 1의 위치 범위에서 수학식 2를 반복 적용한다. 이러한 반복이 진행됨에 따라, 각 제1 학습용 영상(즉, 학습용 위치 데이터) 프레임의 추정 위치들에 대한 확률 값들은 누적하여 더해진다. 이러한 누적 결과, 수학식 1의 위치 범위에서, 가장 높은 확률 값을 가지는 위치가 각 제1 학습용 영상 프레임(즉, 각 프레임 위치)에 대한 최적 위치로 설정된다.
예를 들어, m번째 프레임의 제1 학습용 영상에 대한 N개의 학습용 위치 데이터를 각각 수학식 1의 위치 범위 내에서 수학식 2에 적용함으로써, m번째 프레임의 제1 학습용 영상에 대한 추정 위치들의 확률 값을 누적한다. 이러한 누적 결과, 수학식 1의 위치 범위에서, 가장 높은 확률 값을 가지는 위치가 m번째 프레임의 제1 학습용 영상에 대한 최적 위치로 설정된다. 이러한 방식으로, 모든 프레임 위치의 제1 학습용 영상에 대한 최적 위치를 설정할 수 있다.
즉, 필터 설정부(151)는 각 제1 학습용 영상에 대해 생성한 학습용 위치 데이터들과, 해당 제1 학습용 영상의 원위치 데이터를 각각 이용하여, 수학식 1의 위치 범위 내에서 수학식 2를 적용함으로써, 제1 학습용 영상들의 프레임 위치에 대한 최적 위치를 설정할 수 있다.
다만, 상술한 S100은 타 장치에서 수행될 수도 있다. 이 경우, 타 장치에서 수행된 S100에 따른 결과는 통신부(120)를 통해 본 발명의 영상 획득 장치(100)로 수신되어, 후술할 S200에서 활용될 수 있다. 또한, 본 발명의 영상 획득 장치(100)에서 상술한 S100을 수행한 결과를 통신부(120)를 통해 타 장치로 전송할 수도 있다. 이 경우, 본 발명의 영상 획득 장치(100)는 해당 결과를 전송하는 서버로 동작할 수 있다.
다음으로, S200에서, 제어부(150)의 필터 적용부(152)의 설정된 각 프레임 위치에 대한 추정 위치를 대상 영상들을 적용하여 대상 영상들의 프레임 위치를 보정한다. 이러한 대상 영상들은 지터 잡음을 포함하는 영상일 수 있다.
예를 들어, 필터 적용부(152)는 m번째 프레임 위치의 제1 학습용 영상에 대해 생성된 최적 위치를 m번째 프레임 위치의 대상 영상에 대한 보정 위치로 적용한다. 이러한 방식으로 필터 적용부(152)는 모든 프레임 위치의 대상 영상들에 대한 보정 위치를 적용할 수 있다. 즉, 모든 프레임 위치의 대상 영상들에 대해 그 프레임 위치(즉, 원위치 데이터)를 보정할 수 있다.
다음으로, S300에서, 제어부(150)는 프레임 위치가 보정된 대상 영상들을 이용하여 깊이 추정을 수행한다.
일례로, 제어부(150)는 도 3에 도시된 구성들을 통해 가우시안 프로세스 회귀에 기반하여 깊이 추정을 수행할 수 있다.
도 7은 가우시안 프로세스 회귀에 기반하여 깊이 추정을 수행하는 방법에 대한 순서도를 나타낸다. 또한, 도 8은 S310의 상세한 순서도를 나타내며, 도 9는 S320의 상세한 순서도를 나타낸다.
이러한 가우시안 프로세스 회귀에 기반하여 깊이 추정을 수행하는 방법은, 도 7에 도시된 바와 같이, S310 및 S320을 포함한다. 즉, S310에서는 가우시안 프로세스 회귀에 기반하여 모델이 학습되며, S320에서는 프레임 위치가 보정된 각 대상 영상을 이용하여 S310에서 학습된 모델을 기반으로 DFF(depth from focus) 기법에 따른 깊이 추정이 수행된다. 이때, 도 8을 참조하면, S310은 S311 및 S312를 포함할 수 있다. 또한, 도 9를 참조하면, S320은 S321 내지 S324를 포함할 수 있다.
S311에서, 제어부(150)의 초점 측정 연산부(153)는 제2 학습용 영상에서 선택된 다수의 픽셀에 대해 초점 측정 연산(이하, "제1 초점 측정 연산"이라 지칭함)을 수행한다. 이때, 초점 측정 연산은 제2 학습용 영상의 다수의 픽셀에 대해 각각 그 초점 값(focus value)을 계산하는 것을 지칭한다. 이때, 선택되는 다수의 픽셀은 제2 학습용 영상에서 무작위로 샘플링(sampling)된 것일 수 있으며, 서로 이웃하지 않고 최소 하나 이상의 픽셀을 사이에 두어 서로 이격된 위치에 존재하는 픽셀일 수 있다.
예를 들어, 초점 측정 연산을 위한 기법은 라플라시안 기법, SML(Sum of Modified Laplacian) 기법, Tenengrad 초점 측도법, 또는 Gray Level Variance 기법 등을 포함할 수 있으나, 이에 한정되는 것은 아니다. 다만, 라플라시안 기법의 경우, 공간적인 주파수(spatial frequency)를 기반으로 하는 기법으로서, 물체 표면에 많은 텍스쳐가 존재할 경우에만 정상적으로 동작할 수 있다. 이에 따라, 이러한 텍스쳐 문제를 보완하기 위해 작은 윈도우 내에서도 초점 값 측정이 가능한 SML 기법을 이용하는 것이 바람직할 수 있다.
이때, SML 기법은 하기 수학식 3을 이용하여 초점 값을 계산할 수 있다.
[수학식 3]
단, SML(x, y)는 영상의 (x, y) 좌표점의 픽셀에 대한 SML 연산의 결과 값(즉, 초점 값)을 나타내며, ML(x, y)는 영상의 (x, y) 좌표점의 픽셀에 대한 ML 연산의 결과 값을 나타낸다. 또한, I(x, y)는 영상의 (x, y) 좌표점의 픽셀에서의 그레이 레벨 밝기를 나타내며, W는 영상 윈도우 크기를 나타낸다.
다음으로, S312에서, 제어부(150)의 모델 학습부(154)는 S321에서 연산된 각 픽셀의 초점 값을 이용하여 가우시안 프로세스 회귀(Gaussian Process Regression)에 따른 머신 러닝 기법으로 모델에 대한 학습을 수행한다. 즉, 모델 학습부(154)는 제1 초점 측정 연산의 결과로 도출된 각 픽셀의 초점 값과, 해당 초점 값을 기반으로 추정되는 초점 커브의 피팅 함수를 기반으로 가우시안 프로세스 회귀의 머신 러닝을 수행할 수 있다.
이때, 입력 데이터는 영상의 초점 값(focus value)에 대한 정보를 포함할 수 있다 또한, 출력 데이터는 해당 초점 값에 대응하는 해당 영상의 픽셀 위치에 대한 정보를 포함할 수 있다. 이에 따라, 모델은 어떤 영상의 초점 값을 입력 받는 경우에 이에 대응하는 픽셀 위치를 출력하도록 가우시안 프로세스 회귀의 머신 러닝 기법으로 학습된 모델이다.
후술할 DFF를 위해, 학습 데이터(훈련 데이터)는 제1 초점 측정 연산을 통해 획득한 초점 값을 입력 데이터에 포함할 수 있고, 회귀 함수는 훈련 데이터를 기반으로 추정되는 초점 커브(x축은 초점 위치, y축은 초점 값을 나타내는 좌표계 상에서의 커브)로 각각 정의될 수 있다. 이에 따라, 모델의 은닉층은 영상에서 초점 값(입력 데이터)과 픽셀 위치(출력 데이터)의 관계에 대한 함수를 가진다. 이때, 해당 함수는 초점 값들에 따라 추정되는 다수 초점 커브의 특성을 반영할 수 있다.
구체적으로, S312는 피팅 함수에 대한 확률 분포의 커널 함수를 제곱 지수 커널인 k(i, i')로 선정하는 단계를 포함할 수 있다.
이때, 제곱 지수 커널인 k(i, i')는 다음의 수학식 4과 같이 나타낼 수 있다.
[수학식 4]
단, i와 I'는 제곱 지수 커널 함수의 입력을 나타내며, | | | |는 유클리디안 거리(Euclidean distance)를 나타낸다.
또한, S312는 피팅 함수에 대한 초기 확률 분포에 대해, 평균을 0으로 설정하고 커널 함수를 k(x0, x0')로 설정하는 단계를 포함할 수 있다. 이때, k(x0, x0')에서 x0와 x0'는 타겟 데이터에서 픽셀 위치에 대한 축(즉, x축)의 값들의 집합을 나타낸다.
또한, S312는 피팅 함수에 대한 갱신된 확률 분포에 대해, 평균을 mg(x0)로 설정하고 커널 함수를 kg(x0, x0')로 설정하는 단계를 포함할 수 있다. 이때, mg(x0)와 kg(x0, x0')는 다음의 수학식 5와 같이 나타낼 수 있다.
[수학식 5]
단, xt는 제2 훈련 데이터에서 픽셀 위치 값에 대한 축(즉, x축)의 값들의 집합을 나타낸다. 또한, xt'는 제2 훈련 데이터에서 초점 값에 대한 축(즉, y축)의 값들의 집합을 나타낸다.
다만, 상술한 S310은 타 장치에서 수행될 수 있다. 이 경우, 타 장치에서 수행된 S310에 따른 모델은 통신부(120)를 통해 본 발명의 영상 획득 장치(100)로 수신되어, 후술할 S320에서 활용될 수 있다. 또한, 본 발명의 영상 획득 장치(100)에서 상술한 S310을 수행한 결과인 모델을 통신부(120)를 통해 타 장치로 전송할 수도 있다. 이 경우, 본 발명의 영상 획득 장치(100)는 가우시안 프로세스 회귀의 학습을 수행하여 그 결과인 모델을 전송하는 서버로 동작할 수 있다.
다음으로, S321에서, 제어부(150)의 초점 측정 연산부(153)는 보정된 대상 영상에서 선택된 다수의 픽셀에 대해 초점 측정 연산(이하, "제2 초점 측정 연산"이라 지칭함)을 수행한다. 이러한 초점 측정 연산은 S311에서 상술한 바와 같으며, 다만 제2 학습용 영상이 아닌 대상 영상에서 선택된 다수의 픽셀에 대해 수행되는 점만 다를 뿐이다. 이때, 선택되는 다수의 픽셀은 대상 영상에서 무작위로 샘플링(sampling)된 것일 수 있으며, 서로 이웃하지 않고 최소 하나 이상의 픽셀을 사이에 두어 서로 이격된 위치에 존재하는 픽셀일 수 있다.
다음으로, S322에서, 제어부(150)의 모델 적용부(155)는 S321에서 연산된 다수 픽셀의 초점 값을 S312에서 학습된 모델에 적용한다. 즉, 모델 적용부(155)는 제2 초점 측정 연산의 결과로 도출된 다수 픽셀의 초점 값을 모델에 입력시켜, 다수의 초점 커브를 피팅(fitting)한다.
다음으로, S323에서, 제어부(150)의 추출부(156)는 피팅된 다수의 초점 커브에서 최대의 초점 값을 가지는 보정된 대상 영상에서의 픽셀 위치를 추출한다. 가령, 도 7에서, 피팅된 붉은 그래프의 초점 커브 중에 10번에 해당하는 픽셀 위치가 최대의 초점 값(약 8.6)을 가진다. 이 경우, 추출부(156)는 해당 10번의 픽셀 위치를 최대의 초점 값을 가지는 픽셀로 추출할 수 있다.
다음으로, S324에서, 제어부(150)의 수집부(157)는 추출된 픽셀 위치를 기반으로, DFF 기법에 따른 깊이 추정을 수행하여, 해당 영상 정보를 수집한다. 즉, 다수의 보정된 대상 영상들에 대해 S321 내지 S323을 통해 획득된 각 최대의 초점 값을 이용하여, 수집부(157)는 보정된 대상 영상에 대해, DFF 기법에 따른 깊이 추정을 수행할 수 있다.
이때, DFF는 영상의 초점에 맞는 렌즈의 위치를 찾아내어 렌즈 공식에 의하여 초점이 맞는 부분의 거리를 구한다. 즉, DFF는 초점이 맞은 정도를 계산하기 위하여 렌즈의 광학 축(Optical axis)에 수직인 단순한 평면에서 초점 값이 최대가 되는 위치를 찾아내어 물체의 깊이(거리) 또는 3차원적 형상을 측정할 수 있다.
도 10은 DFF(depth from focus)에 의하여 깊이 추정이 수행되는 원리를 나타내는 일 예를 나타낸다.
즉, 도 10에서, 렌즈(L)로부터 이격 거리(u)에 위치한 광원(P)의 초점이 맞는 영상(Focused Image)(P')은 렌즈(L)로부터 v만큼의 위치에서 구해진다. 초점이 맞는 영상의 광도는 물체의 광도에 비례하고 물체의 거리는 초점이 맞는 영상의 위치와 다음의 식에 따른 관계를 갖는다.
단, f는 초점거리, u는 렌즈평면에서 물체까지의 거리, v는 초점이 맞는 영상까지의 거리이다. 즉, 렌즈 공식으로부터 초점이 맞는 영상의 광도와 위치가 주어지면, 물체의 광도와 위치는 결정되고 물체의 깊이 정보가 획득될 수 있다.
정리하면, DFF를 위해, S321에서 2차원 영상들에서 무작위로 샘플링하여 획득된 2차원 영상들의 각 픽셀에 초점 측정 연산자 SML을 적용한다. 이후, S322에서 광축을 따라 존재하는 픽셀들의 초점 데이터에 가우시안 프로세스 회귀 기술을 사용하여 피팅한다. 이후, S323에서 피팅된 초점 커브에서 최대 값을 가지는 픽셀 위치를 구하여 이들에 대해 DFF를 적용함으로써, 영상에서 물체에 대한 깊이 맵을 획득할 수 있다.
도 11은 종래 기술과 본 발명에 따른 비교 결과 그래프를 나타낸다.
한편, 도 11에서, 영상의 모든 픽셀에 대해 SML을 수행하는 종래 기술은 점선 그래프와 같고, 본 발명에 따라 가우시안 프로세스 회귀 기반으로 영상 중 일부 픽셀만으로 획득된 초점 커브는 붉은 그래프와 같다.
도 11을 참조하면, 본 발명은 적은 양의 데이터만으로도 영상에서 최대의 초점 값을 가지는 픽셀 위치를 보다 정확하게 획득하여, 이를 이용하여 최적의 깊이 추정에 따른 영상 정보를 수집할 수 있다.
다음으로, S400는 S300에서 획득된 깊이 추정에 따른 영상 정보를 기반으로 다초점 영상을 도출하는 단계이다. 이러한 깊이 정보를 이용하여 다초점 영상을 도출하는 기술은 공지 기술을 이용할 수 있으므로, 이에 대해서는 생략에 해당하므로, 이하 이에 대한 상세한 설명은 생략하도록 한다.
상술한 바와 같이 구성되는 본 발명은 우사 관제 시스템의 무인 소독 시스템 등에서 다초점 영상 도출을 위해 초점이 다른 영상들의 획득 시에 각 영상 프레임에 포함된 지터 잡음(jitter noise)를 효과적으로 제거함으로써 최적의 다초점 영상 도출이 가능하게 하는 이점이 있다. 또한, 본 발명은 종래의 필터 기술을 사용해서 제거하지 못하는 지터 잡음(jitter noise)을 베이즈 필터 기술의 설계 및 적용을 통해 효과적으로 제거함으로써 영상 프레임 위치를 보다 정확하게 추정함으로써 다초점 영상 추정의 정확도를 개선할 수 있는 이점이 있다. 또한, 본 발명은 가우시안 프로세스 회귀 기술을 이용함으로써 적은 양의 데이터만으로도 최적의 깊이 추정을 기반으로 하는 최적의 다초점 영상 정보를 도출할 수 있는 이점이 있다.
본 발명의 상세한 설명에서는 구체적인 실시 예에 관하여 설명하였으나 본 발명의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다. 그러므로 본 발명의 범위는 설명된 실시 예에 국한되지 않으며, 후술되는 청구범위 및 이 청구범위와 균등한 것들에 의해 정해져야 한다.
100: 영상 획득 장치 110: 입력부
120: 통신부 130: 디스플레이
140: 메모리 150: 제어부
151: 데이터 생성부 152: 제1 학습부
153: 제1 적용부 154: 초점 측정 연산부
155: 제2 학습부 156: 제2 적용부
157: 추출부 158: 수집부

Claims (16)

  1. 전자 장치에 의해 수행되는 방법으로서,
    영상 시퀀스에서 서로 다른 프레임의 위치를 가지는 복수의 제1 학습용 영상에 대해 제1 학습용 영상마다 그 위치에 영향을 주는 노이즈가 부가된 n개(단, n은 2 이상의 자연수)의 학습용 위치 데이터를 생성하는 단계;
    상기 학습용 위치 데이터를 이용하여 베이즈 필터(Bayes Filter)를 설정함으로써 각 프레임의 위치에 대한 추정 위치를 설정하는 단계; 및
    상기 추정 위치를 대상 영상들에 적용하여 대상 영상들이 프레임 위치를 보정하는 단계;
    를 포함하는 방법.
  2. 제1항에 있어서,
    상기 학습용 위치 데이터는 지터 노이즈(jitter noise)를 시뮬레이션하도록 가우시안(Gaussian)의 분포를 가지는 랜덤(random)한 노이즈가 부가된 방법.
  3. 제1항에 있어서,
    상기 설정하는 단계는 상기 학습용 위치 데이터를 상기 베이즈 필터의 입력으로 사용하는 단계를 포함하는 방법.
  4. 제1항에 있어서,
    상기 추정 위치는 하기 수학식의 범위를 가지는 방법.
    [수학식]

    (단, s는 각 제1 학습용 영상의 프레임에 대한 추정 위치를 나타내고, zn은 각 제1 학습용 영상의 프레임에 대한 원래 위치를 나타내며, σn은 가우시안 분포를 가지는 지터 노이즈의 표준 편차를 나타내고, A는 상수를 나타냄)
  5. 제1항에 있어서,
    상기 설정하는 단계는 상기 학습용 위치 데이터를 이용하여 상기 제1 학습용 영상의 프레임에 대한 가우시안 확률 밀도 함수를 적용하여 프레임의 추정 위치들에 대한 해당 확률 값들을 누적하고, 일정 범위 내에 가장 높은 확률 값을 가지는 위치가 해당 제1 학습용 영상의 프레임에 대한 최적 위치로 설정하는 단계를 포함하는 방법.
  6. 제5항에 있어서,
    상기 확률 밀도 함수는 하기 수학식을 이용하여 계산되는 방법.
    [수학식]
    (단, i는 학습용 위치 데이터의 프레임 위치를 나타내고, p(i)는 i 프레임 위치 학습용 위치 데이터에 대한 가우시안 확률 밀도 함수를 나타내며, x(j)는 i의 프레임 위치를 가지는 학습용 위치 데이터가 지터 잡음에 의해서 변화된 위치를 나타내고, s(i)는 i의 프레임 위치를 가지는 학습용 영상 프레임의 추정 위치를 나타내며, σn은 가우시안 분포를 가지는 지터 잡음의 표준 편차를 나타냄)
  7. 제1항에 있어서,
    상기 깊이 추정을 수행하는 단계는 보정된 대상 영상들의 위치를 기반으로 대상 영상들의 초점 값을 도출하며, 도출된 초점 값을 이용하여 깊이 추정을 수행하는 단계를 포함하는 방법.
  8. 제1항에 있어서,
    상기 깊이 추정을 수행하는 단계는 제2 학습용 영상에서 다수의 픽셀에 대한 제1 초점 측정 연산의 결과로 도출된 각 픽셀의 초점 값(focus value)과, 해당 초점 값을 기반으로 추정되는 초점 커브의 피팅 함수를 기반으로 가우시안 프로세스 회귀(Gaussian Process Regression)의 머신 러닝에 따른 학습이 수행된 모델을 이용하여 깊이 추정을 수행하는 단계를 포함하는 방법.
  9. 제8항에 있어서,
    상기 깊이 추정을 수행하는 단계는,
    보정된 대상 영상들에서 다수의 픽셀에 대해 제2 초점 측정 연산을 수행하는 단계;
    상기 제2 초점 측정 연산의 결과로 도출된 다수 픽셀의 초점 값(focus value)을 상기 모델에 입력시켜, 다수의 초점 커브를 피팅(fitting)하는 단계;
    피팅된 다수의 초점 커브에서 최대의 초점 값을 가지는 보정된 대상 영상들에서의 픽셀 위치를 추출하는 단계; 및
    추출된 상기 픽셀 위치를 기반으로 깊이 추정을 수행하는 단계;
    를 포함하는 방법.
  10. 제9항에 있어서,
    상기 제1 및 제2 초점 측정 연산은 SML(Sum of Modified Laplacian)을 이용하는 방법.
  11. 제10항에 있어서,
    상기 SML은 하기 식을 이용하는 방법.


    (단, I(x, y)는 (x, y)의 픽셀에서의 그레이 레벨 밝기, W는 영상 윈도우 크기)
  12. 제8항에 있어서,
    상기 모델에 대한 학습 방법은,
    피팅 함수에 대한 확률 분포의 커널 함수를 제곱 지수 커널인 k(i, i')로 선정하는 단계;
    (단, i와 I'는 제곱 지수 커널 함수의 입력, | | | |는 유클리디안 거리)
    피팅 함수에 대한 초기 확률 분포에 대해, 평균을 0으로 설정하고 커널 함수를 k(x0, x0')로 설정하는 단계(단, x0와 x0'는 타겟 데이터에서 픽셀 위치에 대한 축인 x축의 값들의 집합); 및
    피팅 함수에 대한 갱신된 확률 분포에 대해, 평균을 mg(x0)로 설정하고 커널 함수를 kg(x0, x0')로 설정하는 단계;

    (단, xt는 훈련 데이터에서 픽셀 위치 값에 대한 축인 x축의 값들의 집합, xt'는 훈련 데이터에서 초점 값에 대한 축인 y축의 값들의 집합)
    를 포함하는 방법.
  13. 제9항에 있어서,
    상기 제2 초점 측정 연산을 수행하는 단계는 보정된 상기 대상 영상에서 무작위로 샘플링하여 다수의 픽셀을 추출하고, 추출된 다수의 픽셀에 대해 제2 초점 측정 연산을 수행하는 단계를 포함하는 방법.
  14. 제1항에 있어서,
    프레임 위치가 보정된 대상 영상들을 이용하여 깊이 추정을 수행하는 단계를 더 포함하는 방법.
  15. 제14항에 있어서,
    상기 깊이 추정의 정보를 이용하여 다초점 영상을 도출하는 단계를 더 포함하는 방법.
  16. 메모리; 및
    메모리에 저장된 정보를 이용하여, 영상 처리의 수행을 제어하는 제어부;를 포함하며,
    상기 제어부는,
    영상 시퀀스에서 서로 다른 프레임의 위치를 가지는 복수의 제1 학습용 영상에 대해 제1 학습용 영상마다 그 위치에 영향을 주는 노이즈가 부가된 n개(단, n은 2 이상의 자연수)의 학습용 위치 데이터를 생성하도록 제어하고,
    상기 학습용 위치 데이터를 이용하여 베이즈 필터(Bayes Filter)를 설정함으로써 각 프레임의 위치에 대한 추정 위치를 설정하도록 제어하며,
    상기 추정 위치를 대상 영상들에 적용하여 대상 영상들이 프레임 위치를 보정하도록 제어하는 장치.
KR1020220096060A 2022-08-02 2022-08-02 영상 잡음 제거 방법 및 장치 KR20240018150A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220096060A KR20240018150A (ko) 2022-08-02 2022-08-02 영상 잡음 제거 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220096060A KR20240018150A (ko) 2022-08-02 2022-08-02 영상 잡음 제거 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20240018150A true KR20240018150A (ko) 2024-02-13

Family

ID=89899529

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220096060A KR20240018150A (ko) 2022-08-02 2022-08-02 영상 잡음 제거 방법 및 장치

Country Status (1)

Country Link
KR (1) KR20240018150A (ko)

Similar Documents

Publication Publication Date Title
RU2770752C1 (ru) Способ и устройство для обучения модели распознавания лица и устройство для определения ключевой точки лица
CN109508681B (zh) 生成人体关键点检测模型的方法和装置
CN110427917B (zh) 用于检测关键点的方法和装置
WO2019223382A1 (zh) 单目深度估计方法及其装置、设备和存储介质
CN104079827B (zh) 一种光场成像自动重对焦方法
CN108230384B (zh) 图像深度计算方法、装置、存储介质和电子设备
WO2020134238A1 (zh) 活体检测方法、装置以及存储介质
JP2023529527A (ja) 点群データの生成方法及び装置
CN107980150A (zh) 对三维空间建模
US11182945B2 (en) Automatically generating an animatable object from various types of user input
US20240046557A1 (en) Method, device, and non-transitory computer-readable storage medium for reconstructing a three-dimensional model
CN109272543B (zh) 用于生成模型的方法和装置
US11908183B2 (en) Image analysis and processing pipeline with real-time feedback and autocapture capabilities, and visualization and configuration system
JP2018156640A (ja) 学習方法およびプログラム
EP4007993A1 (en) Sub-pixel data simulation system
CN114511661A (zh) 图像渲染方法、装置、电子设备及存储介质
FR2757002A1 (fr) Systeme de suivi de mobiles en temps reel sur un terrain de sports
CN110827341A (zh) 一种图片深度估计方法、装置和存储介质
US11645800B2 (en) Advanced systems and methods for automatically generating an animatable object from various types of user input
JP6573196B2 (ja) 距離情報補正装置、距離情報補正方法及び距離情報補正プログラム
Mori et al. Good keyframes to inpaint
KR20240018150A (ko) 영상 잡음 제거 방법 및 장치
CN114898447A (zh) 一种基于自注意力机制的个性化注视点检测方法及装置
CN111866493B (zh) 基于头戴显示设备的图像校正方法、装置及设备
JP2018081378A (ja) 画像処理装置、撮像装置、画像処理方法および画像処理プログラム