KR102564476B1

KR102564476B1 - 영상 내의 객체 정렬 방법 및 장치

Info

Publication number: KR102564476B1
Application number: KR1020150168688A
Authority: KR
Inventors: 허진구; 남동경
Original assignee: 삼성전자주식회사
Priority date: 2015-11-30
Filing date: 2015-11-30
Publication date: 2023-08-07
Also published as: KR20170062911A; US20170154423A1

Abstract

영상 내의 객체 정렬 방법 및 장치가 개시된다. 일 실시예에 따른 객체 정렬 방법은 입력 영상의 품질에 대응하는 얼라이너(aligner)를 이용하여 입력 영상에서 객체를 정렬하는 단계들을 포함한다.

Description

영상 내의 객체 정렬 방법 및 장치{METHOD AND APPARATUS FOR ALIGNING OBJECT IN IMAGE}

아래 실시예들은 영상 내의 객체 정렬 방법 및 장치에 관한 것이다.

영상에서 객체를 검출하고 추출된 객체를 정렬함으로써 영상으로부터 원하는 정보를 획득할 수 있다. 예컨대, 객체 검출 및 객체 정렬을 통해 영상에서 사용자의 안구 위치를 획득할 수 있고, 사용자의 안구 위치에 기초하여 이에 대응하는 3차원 영상을 생성할 수 있다. 객체 검출은 영상에서 객체의 위치를 파악하는 기법을 의미하며, 객체 정렬은 영상으로부터 검출된 객체의 형상을 점이나 선으로 표현할 수 있도록 객체의 특징 점을 추출하는 기법을 의미한다. 객체 정렬은 객체가 검출된 위치에서 구체적으로 어떠한 포즈 및 어떠한 모양으로 보여지는지를 결정하는 기법이다. 예컨대, 객체 정렬을 통해 사용자의 포즈나 표정 등이 인지될 수 있다.

일 측에 따른 객체 정렬 방법은, 입력 영상의 품질을 결정하는 단계; 및 상기 입력 영상의 품질에 대응하는 얼라이너(aligner)를 이용하여 상기 입력 영상에서 객체를 정렬하는 단계를 포함한다.

상기 입력 영상의 품질은 상기 얼라이너가 상기 입력 영상을 정렬하기 위한 난이도를 나타낼 수 있다. 상기 입력 영상의 품질은 정렬의 난이도가 제1 기준 값보다 낮은 높은 품질, 정렬의 난이도가 상기 제1 기준 값과 제2 기준 값의 사이인 중간 품질 및 정렬의 난이도가 상기 제2 기준 값보다 높은 낮은 품질 중 어느 하나로 결정될 수 있다.

상기 입력 영상의 품질을 결정하는 단계는, 다양한 품질의 영상들을 학습한 분류기를 이용하여 상기 입력 영상의 품질을 결정하는 단계를 포함할 수 있다. 상기 입력 영상의 품질을 결정하는 단계는, 높은 품질의 영상들을 학습한 제1 분류기, 중간 품질의 영상들을 학습한 제2 분류기 및 낮은 품질의 영상들을 학습한 제3 분류기를 포함하는 품질 분류기를 이용하여 상기 입력 영상의 품질을 결정하는 단계를 포함할 수 있다. 상기 제1 분류기는, 높은 품질의 영상들을 양성 클래스(positive class)로 하고, 중간 품질의 영상들과 낮은 품질의 영상들을 음성 클래스(negative class)로 하는, 학습 샘플에 기초하여 학습된 것일 수 있다.

상기 얼라이너는 상기 입력 영상의 품질에 대응하는 학습 샘플에 기초하여 학습된 것일 수 있다. 상기 입력 영상의 품질에 대응하는 얼라이너를 이용하여 상기 입력 영상에서 객체를 정렬하는 단계는, 높은 품질에 대응하는 제1 얼라이너, 중간 품질에 대응하는 제2 얼라이너 및 낮은 품질에 대응하는 제3 얼라이너 중에 상기 입력 영상의 품질에 대응하는 얼라이너를 이용하여 상기 객체를 정렬하는 단계를 포함할 수 있다. 상기 제1 얼라이너는 높은 품질의 학습 샘플에 기초하여 학습된 것이고, 상기 제2 얼라이너는 중간 품질의 학습 샘플에 기초하여 학습된 것이고, 상기 제3 얼라이너는 낮은 품질의 학습 샘플에 기초하여 학습된 것일 수 있다.

일 측에 따른 객체 정렬 장치는, 입력 영상의 품질을 결정하는 품질 결정부; 및 상기 입력 영상의 품질에 대응하고, 상기 입력 영상에서 객체를 정렬하는 얼라이너(aligner)를 포함한다.

일 측에 따른 학습 방법은, 학습 샘플의 품질을 결정하는 단계; 및 상기 학습 샘플의 품질에 대응하는 얼라이너(aligner)를 학습시키는 단계를 포함한다.

상기 학습 샘플의 품질은 상기 얼라이너가 상기 학습 샘플을 정렬하기 위한 난이도를 나타낼 수 있다. 상기 학습 샘플의 품질을 결정하는 단계는, 미리 학습된 테스트 얼라이너로 상기 학습 샘플을 정렬할 때 발생하는 에러율에 기초하여 상기 학습 샘플의 품질을 결정하는 단계를 포함할 수 있다. 상기 학습 샘플의 품질을 결정하는 단계는, 상기 학습 샘플의 품질을 정렬의 난이도가 제1 기준 값보다 낮은 높은 품질, 정렬의 난이도가 상기 제1 기준 값과 제2 기준 값의 사이인 중간 품질 및 정렬의 난이도가 상기 제2 기준 값보다 높은 낮은 품질 중 어느 하나로 결정하는 단계를 포함할 수 있다.

상기 학습 샘플의 품질에 대응하는 얼라이너(aligner)를 학습시키는 단계는, 높은 품질에 대응하는 제1 얼라이너, 중간 품질에 대응하는 제2 얼라이너 및 낮은 품질에 대응하는 제3 얼라이너 중에 상기 학습 샘플의 품질에 대응하는 얼라이너를 학습시키는 단계를 포함할 수 있다.

상기 학습 방법은, 상기 제1 얼라이너로 중간 품질의 학습 샘플 및 낮은 품질의 학습 샘플을 정렬하는 단계; 및 상기 중간 품질의 학습 샘플 및 상기 낮은 품질의 학습 샘플 중에 정렬의 정확도가 높은 샘플의 품질을 높은 품질로 변경하는 단계를 포함할 수 있다. 상기 학습 방법은, 상기 학습 샘플에 기초하여, 입력 영상의 품질을 결정하기 위한 품질 분류기를 학습시키는 단계를 더 포함할 수 있고, 상기 품질 분류기는 높은 품질의 영상들을 학습하는 제1 분류기, 중간 품질의 영상들을 학습하는 제2 분류기 및 낮은 품질의 영상들을 학습하는 제3 분류기를 포함할 수 있다.

도 1은 일 실시예에 따른 객체 정렬 장치를 나타낸 블록도.
도 2는 일 실시예에 따른 객체 얼라이너를 나타낸 블록도.
도 3은 일 실시예에 따른 품질 분류기를 나타낸 블록도.
도 4는 일 실시예에 따른 품질 분류기와 객체 얼라이너를 학습시키는 학습기를 나타낸 블록도.
도 5는 일 실시예에 따른 객체 얼라이너의 학습 과정을 설명하기 위한 블록도.
도 6은 일 실시예에 따른 학습 샘플의 분류 과정을 설명하기 위한 도면.
도 7은 일 실시예에 따른 품질 분류기의 학습 과정을 설명하기 위한 블록도.
도 8은 일 실시예에 따른 높은 품질의 영상과 낮은 품질의 영상을 나타낸 도면.
도 9는 일 실시예에 따른 객체 정렬 방법을 나타낸 동작 흐름도.
도 10은 일 실시예에 따른 학습 방법을 나타낸 동작 흐름도.

이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다. 하기에서 제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 해석되어야 한다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다. 하기에서 설명될 실시예들은 입력 영상에서 미리 정해진 객체를 검출하기 위해 이용될 수 있다. 예를 들어, 3차원 영상을 생성하기 위해 사용자의 안구 위치를 결정하는데 사용될 수 있다.

도 1은 일 실시예에 따른 객체 정렬 장치를 나타낸 블록도이다. 도 1을 참조하면, 일 실시예에 따른 객체 정렬 장치(100)는 품질 산정부(110) 및 객체 얼라이너(120)를 포함한다. 객체 정렬 장치(100)는 입력 영상에 기초하여 정렬 정보를 생성할 수 있다. 객체 정렬 장치(100)는 입력 영상에서 객체를 정렬함으로써 영상으로부터 원하는 정보를 획득할 수 있다. 일 측에 따르면, 객체 정렬 장치(100)는 객체 검출 장치(미도시)로부터 객체에 관한 검출 정보를 수신할 수 있다. 객체 정렬 장치(100)는 검출 정보에 기초하여 입력 영상에서 객체를 정렬할 수 있다. 객체 정렬 장치(100)는 객체에 대한 정렬 결과에 기초하여 정렬 정보를 생성할 수 있다. 예컨대, 정렬 정보는 입력 영상에서 사용자의 안구 위치를 획득하기 위해 사용될 수 있고, 사용자의 안구 위치에 기초하여 이에 대응하는 3차원 영상이 생성될 수 있다. 객체 검출은 영상에서 객체의 위치를 파악하는 것을 의미한다. 객체 정렬은 영상으로부터 검출된 객체의 형상을 점이나 선으로 표현할 수 있도록 객체의 특징 점을 추출하는 것을 의미한다. 정렬 정보는 객체의 형상을 점이나 선으로 표현하기 위한 특징 점에 관한 정보를 포함할 수 있다. 객체 정렬에 기초하여 객체의 포즈 및 객체의 모양이 결정될 수 있다. 예컨대, 객체 정렬을 통해 사용자의 포즈나 표정 등이 인지될 수 있다.

품질 산정부(110)는 입력 영상의 품질을 결정한다. 실시예에서 품질은 암시적 품질을 의미할 수 있다. 암시적 품질은 명시적 품질과 구분되는 개념을 의미한다. 명시적 품질(explicit quality)는 사용자의 시각적 기준에 의한 품질을 의미한다. 예컨대, 명시적 품질은 해상도(resolution), 선명도(sharpness), 왜곡(distortion), 채도(saturation), 밝기(brightness) 및 아티팩트(artifact)와 같이 사용자에 의해 시각적으로 판단 가능한 기준에 의해 결정될 수 있다. 암시적 품질(implicit quality)은 분류기나 얼라이너의 실험적 기준에 의한 품질을 의미한다. 예컨대, 암시적 품질은 검출기의 경계 박스(bounding box) 문제, 사용자의 포즈, 눈의 형태 및 특징 점의 검증 값(Ground-Truth) 오류 등에 의해 결정될 수 있다. 사용자게 명확하게 관측돼도 얼라이너에 의해 특징 점을 찾기 어려운 영상은 암시적 품질이 낮은 영상에 해당할 수 있다. 따라서, 암시적 품질은 객체 얼라이너(120)가 입력 영상을 정렬하기 위한 난이도를 나타낼 수 있다. 추후 상세히 설명 되겠으나, 실시예들은 입력 영상의 품질을 결정하고, 입력 영상을 품질 별로 정렬하여 정렬의 정확성을 높일 수 있다. 예컨대, 특정한 품질의 학습 샘플로 학습된 얼라이너는 다양한 품질의 학습 샘플로 학습된 얼라이너에 비해 특정한 품질의 입력 영상을 정확하게 정렬할 수 있다. 이를 위해 실시예들은 품질 별 학습 샘플을 구성하는 방법 및 품질 별 얼라이너를 학습 시키는 방법 등을 제공한다.

품질 산정부(110)는 미리 학습된 품질 분류기를 이용하여 입력 영상의 품질을 산정할 수 있다. 아래에서는 3개의 품질을 기준으로 실시예들을 설명하겠으나, 아래에서 설명되는 내용은 2개의 품질 또는 4개 이상의 품질에 관해서도 유사하게 적용될 수 있다. 품질 분류기는 특정 영상의 품질을 분류할 수 있도록 품질 별로 학습 샘플을 학습할 수 있다. 품질 분류기에 관해서는 추후 상세히 설명한다.

객체 얼라이너(120)는 입력 영상에서 객체를 정렬한다. 객체 얼라이너(120)는 ASM(Active Shape Model), AAM(Active Appearance Model), 또는 SDM(Supervised Descent Method)에 따라 객체를 정렬할 수 있다. 객체 얼라이너(120)는 복수의 얼라이너들을 포함할 수 있다. 객체 얼라이너(120)는 복수의 얼라이너들 중에 입력 영상의 품질에 대응하는 얼라이너를 이용하여 입력 영상에서 객체를 정렬할 수 있다. 객체 얼라이너(120)는 정렬 결과에 기초하여 정렬 정보를 생성 및 출력할 수 있다. 객체 얼라이너(120)는 객체 검출 장치(미도시)로부터 객체에 관한 검출 정보를 수신할 수 있다. 객체 얼라이너(120)는 검출 정보에 기초하여 입력 영상에서 객체를 정렬할 수 있다. 예컨대, 객체 검출 장치(미도시)는 사용자의 얼굴에 관한 입력 영상에서 눈, 코 및 입을 검출할 수 있다. 객체 검출 장치(미도시)는 눈, 코 및 입의 위치에 관한 검출 정보를 생성할 수 있다. 객체 얼라이너(120)는 눈, 코 및 입의 위치에 관한 검출 정보에 기초하여 입력 영상에서 눈, 코, 입을 정렬할 수 있다. 예컨대, 객체 얼라이너(120)는 입력 영상에서 눈, 코 및 입을 점이나 선으로 표현할 수 있도록 눈, 코 및 입의 특징 점을 추출할 수 있다. 객체 얼라이너(120)는 추출된 특징 점에 기초하여 정렬 정보를 생성 및 출력할 수 있다. 객체 얼라이너(120)에 관해서는 도 2를 참조하여 상세하게 설명한다.

도 2는 일 실시예에 따른 객체 얼라이너를 나타낸 블록도이다. 도 2를 참조하면, 일 실시예에 따른 객체 얼라이너(120)는 제1 얼라이너(121), 제2 얼라이너(122) 및 제3 얼라이너(123)를 포함한다. 이하 객체 얼라이너(120)가 세 개의 얼라이너들(121, 122, 123)을 포함하는 실시예를 설명하겠지만, 객체 얼라이너(120)는 두 개의 얼라이너들을 포함하거나, 넷 이상의 얼라이너들을 포함할 수 있다.

앞서 언급된 것처럼, 객체 얼라이너(120)는 품질 별로 학습된 복수의 얼라이너들(121, 122, 123)을 포함할 수 있다. 예컨대, 제1 얼라이너(121)는 높은 품질에 대응할 수 있고, 제2 얼라이너(122)는 중간 품질에 대응할 수 있고, 제3 얼라이너(123)는 낮은 품질에 대응할 수 있다. 다시 말해, 제1 얼라이너(121)는 높은 품질의 학습 샘플로 학습될 수 있고, 제2 얼라이너(122)는 중간 품질의 학습 샘플로 학습될 수 있고, 제3 얼라이너(123)는 낮은 품질의 학습 샘플로 학습될 수 있다.

입력 영상 또는 학습 샘플은 정렬의 난이도가 제1 기준 값보다 낮은 경우 높은 품질로 분류될 수 있고, 정렬의 난이도가 상기 제1 기준 값과 제2 기준 값의 사이인 경우 중간 품질로 분류될 수 있고, 정렬의 난이도가 상기 제2 기준 값보다 높은 경우 낮은 품질로 분류될 수 있다. 정렬의 난이도는 정렬 시 발생하는 오류에 기초하여 결정될 수 있다. 예컨대, 특정 영상을 정렬하는데 발생하는 오류가 높은 경우 상기 특정 영상은 정렬의 난이도가 높은 것으로 결정될 수 있다.

객체 얼라이너(120)는 품질 정보에 기초하여 입력 영상을 제1 얼라이너(121), 제2 얼라이너(122) 및 제3 얼라이너(123) 중에 어느 하나로 전송할 수 있다. 객체 얼라이너(120)는 제1 얼라이너(121), 제2 얼라이너(122) 및 제3 얼라이너(123) 중에 품질 정보에 대응하는 얼라이너를 이용하여 입력 영상에서 객체를 정렬할 수 있다. 예컨대, 품질 정보에 의해 입력 영상이 높은 품질임이 식별된 경우, 객체 얼라이너(120)는 높은 품질에 대응하는 제1 얼라이너(121)로 객체를 정렬할 수 있다.

도 3은 일 실시예에 따른 품질 분류기를 나타낸 블록도이다. 도 3을 참조하면, 품질 분류기(130)는 제1 분류기(131), 제2 분류기(132) 및 제3 분류기(133)를 포함한다. 앞서 언급된 것처럼, 품질 산정부는 품질 분류기(130)를 이용하여 입력 영상의 품질을 산정할 수 있다. 이하 품질 분류기(130)가 세 개의 분류기들(131, 132, 133)을 포함하는 실시예를 설명하겠지만, 품질 분류기(130)는 하나의 분류기 또는 두 개의 분류기들을 포함하거나, 넷 이상의 분류기들을 포함할 수 있다.

제1 분류기(131), 제2 분류기(132) 및 제3 분류기(133)는 각각 입력 영상을 수신한다. 제1 분류기(131), 제2 분류기(132) 및 제3 분류기(133)는 각각 품질 정보를 생성 및 출력할 수 있다. 제1 분류기(131), 제2 분류기(132) 및 제3 분류기(133)는 어느 하나의 품질을 학습하고, 해당 품질에 대응하는 품질 정보를 생성할 수 있다. 예컨대, 제1 분류기(131)는 높은 품질의 영상을 학습하고, 입력 영상 중에 높은 품질의 영상을 검출하고, 높은 품질의 영상에 대응하는 정렬 정보를 생성할 수 있다.

추후 상세히 설명되겠으나, 제1 분류기(131)는 높은 품질의 영상들을 양성 클래스(positive class)로 하고, 중간 품질의 영상들과 낮은 품질의 영상들을 음성 클래스(negative class)로 하는, 학습 샘플을 학습할 수 있다. 또한, 제2 분류기(132)는 중간 품질의 영상들을 양성 클래스로 하고, 높은 품질의 영상들과 낮은 품질의 영상들을 음성 클래스로 하는, 학습 샘플을 학습할 수 있다. 또한, 제3 분류기(133)는 낮은 품질의 영상들을 양성 클래스로 하고, 높은 품질의 영상들과 중간 품질의 영상들을 음성 클래스로 하는, 학습 샘플을 학습할 수 있다.

이 경우, 높은 품질의 영상은 제1 분류기(131)에 의해 검출될 수 있고, 중간 품질의 영상은 제2 분류기(132)에 의해 검출될 수 있고, 낮은 품질의 영상은 제3 분류기(133)에 의해 검출될 수 있다. 입력 영상은 제1 분류기(131), 제2 분류기(132) 및 제3 분류기(133)에 순차적으로 입력되거나, 병렬적으로 입력될 수 있다. 제1 분류기(131)가 입력 영상 중에 높은 품질의 영상을 검출한 경우 높은 품질에 대응하는 품질 정보를 생성할 수 있다. 유사하게, 제2 분류기(132)가 입력 영상 중에 중간 품질의 영상을 검출한 경우 중간 품질에 대응하는 품질 정보를 생성할 수 있고, 제3 분류기(133)가 입력 영상 중에 낮은 품질의 영상을 검출한 경우 낮은 품질에 대응하는 품질 정보를 생성할 수 있다.

도 4는 일 실시예에 따른 품질 분류기와 객체 얼라이너를 학습시키는 학습기를 나타낸 블록도이다. 도 4를 참조하면, 학습기(200)는 객체 분류기(130) 및 객체 얼라이너(120)를 학습시킨다. 학습기(200)는 다양한 기계 학습(machine learning) 기법을 통해 객체 분류기(130) 및 객체 얼라이너(120)를 학습시킬 수 있다. 학습기(200)는 다수의 학습 샘플에 기초하여 객체 분류기(130) 및 객체 얼라이너(120)를 학습시킬 수 있다. 학습기(200)는 학습 결과에 기초하여 객체 분류기(130) 및 객체 얼라이너(120)의 파라미터를 조절할 수 있다. 예컨대, 학습기(200)는 객체 분류기(130)가 학습 샘플에서 양성 클래스를 검출할 수 있도록 객체 분류기(130)의 파라미터를 조절할 수 있다. 객체 얼라이너(120) 및 객체 분류기(130)의 구체적인 학습 과정은 도 5 내지 도 7을 참조하여 설명한다.

도 5는 일 실시예에 따른 객체 얼라이너의 학습 과정을 설명하기 위한 블록도이다. 도 5를 참조하면, 객체 얼라이너(120)는 제1 얼라이너(121), 제2 얼라이너(122) 및 제3 얼라이너(123)를 포함한다. 객체 얼라이너(120)는 학습기에 의해 학습될 수 있다. 제1 얼라이너(121)는 학습 샘플(DB1)을 학습할 수 있다. 제2 얼라이너(122)는 학습 샘플(DB2)을 학습할 수 있고, 제3 얼라이너(123)는 학습 샘플(DB3)을 학습할 수 있다. 학습 샘플(DB1), 학습 샘플(DB2) 및 학습 샘플(DB3)은 각각 상이한 품질의 영상들을 포함할 수 있다. 예컨대, 학습 샘플(DB1)은 높은 품질의 영상들을 포함할 수 있다. 학습 샘플(DB2)은 중간 품질의 영상들을 포함할 수 있고, 학습 샘플(DB3)은 낮은 품질의 영상들을 포함할 수 있다. 학습 샘플(DB1), 학습 샘플(DB2) 및 학습 샘플(DB3)은 정렬 오류에 기초하여 분류될 수 있다. 학습 샘플(DB1), 학습 샘플(DB2) 및 학습 샘플(DB3)의 분류 과정은 도 6을 참조하여 설명한다.

도 6은 일 실시예에 따른 학습 샘플의 분류 과정을 설명하기 위한 도면이다. 학습 샘플들은 다수의 스테이지를 거쳐 분류될 수 있다.

우선, 스테이지 0(Stage 0)에서는 기본 얼라이너(default aligner)에 의해 학습 샘플(DB0)이 복수의 품질에 관한 학습 샘플들(DB1_S1, DB2_S1, DB3_S1)로 분류될 수 있다. 기본 얼라이너는 다양한 품질에 의해 학습될 수 있다. 다시 말해, 기본 얼라이너는 학습 샘플의 품질에 무관하게 학습된 얼라이너일 수 있다. 예컨대, 기본 얼라이너는 다양한 품질의 영상을 포함하는 학습 샘플(DB0)에 의해 학습될 수 있다.

기본 얼라이너는 학습 샘플(DB0)를 정렬하고, 정렬 정보를 생성할 수 있다. 기본 얼라이너는 ASM(Active Shape Model), AAM(Active Appearance Model), 또는 SDM(Supervised Descent Method)에 따라 객체를 정렬할 수 있다. 기본 얼라이너의 성능에 따라 정렬 정보는 오류를 포함할 수 있다. 오류는 다양한 기준에 의해 정의될 수 있으나, 아래에서는 오류를 실제 특징 점의 위치와 기본 얼라이너가 생성한 정렬 정보에 의한 특징 점의 위치 간의 간격으로 정의한다. 따라서, 특정 학습 샘플에 대해, 실제 검증 데이터(validation data)에 의한 특징 점의 실제 위치와 기본 얼라이너가 생성한 정렬 정보에 의한 특징 점의 위치 간의 간격이 클수록, 상기 특정 학습 샘플에 대한 기본 얼라이너의 정렬 오류는 큰 것을 의미할 수 있다.

이러한 정렬 오류가 큰 학습 샘플은 정렬의 난이도가 큰 샘플을 의미하고, 정렬 오류가 낮은 학습 샘플은 정렬의 난이도가 낮은 샘플을 의미한다. 또한, 앞서 언급된 암시적 품질의 정의에 따라 정렬 오류가 큰 학습 샘플은 영상의 품질이 낮은 것을 의미하고, 정렬 오류가 작은 학습 샘플은 영상의 품질이 높은 것을 의미한다. 예컨대, 정렬의 난이도가 제1 기준 값보다 낮은 학습 샘플은 높은 품질을 갖는 것으로 결정될 수 있고, 정렬의 난이도가 제1 기준 값과 제2 기준 값의 사이인 학습 샘플은 중간 품질을 갖는 것으로 결정될 수 있고, 정렬의 난이도가 제2 기준 값보다 높은 학습 샘플은 낮은 품질을 갖는 것으로 결정될 수 있다. 스테이지 0(Stage 0)에서는 기본 얼라이너(default aligner)에 의해 학습 샘플(DB0)이 높은 품질의 학습 샘플(DB1_S1), 중간 품질의 학습 샘플(DB2_S1) 및 낮은 품질의 학습 샘플(DB3_S1)로 분류될 수 있다. 아래에서 학습 샘플(DB1_Sn), 학습 샘플(DB2_Sn), 학습 샘플(DB3_Sn)은 각각 높은 품질, 중간 품질 및 낮은 품질에 대응할 수 있다. 여기서, n은 1 이상의 자연수이다.

스테이지 1(Stage 1) 및 스테이지 2(Stage 2)에서는 얼라이너의 학습 및 학습 샘플들의 조정이 이루어질 수 있다. 구체적으로, 스테이지 1(Stage 1)에서 제1 얼라이너는 학습 샘플(DB1_S1)을 학습할 수 있다. 또한, 제2 얼라이너는 학습 샘플(DB2_S1)을 학습할 수 있고, 제3 얼라이너는 학습 샘플(DB3_S1)을 의해 학습할 수 있다. 스테이지 1(Stage 1)에서, 제2 얼라이너는 학습 샘플(DB2_S1)을 학습한 이후에, 학습 샘플(DB2_S1)을 테스트할 수 있다. 정렬 오류의 정도에 따라 학습 샘플(DB2_S1)로 분류된 적어도 하나의 샘플은 학습 샘플(DB1_S1)로 분류될 수 있다. 예컨대, 학습 샘플(DB2_S1)에 포함된 특정 샘플에 대한 제2 얼라이너의 테스트 결과, 정렬 오류가 제1 기준 값보다 낮은 경우, 상기 특정 샘플은 학습 샘플(DB1_S1)로 분류될 수 있다.

또한, 스테이지 1(Stage 1)에서 제3 얼라이너는 학습 샘플(DB3_S1)을 학습한 이후에, 학습 샘플(DB3_S1)을 테스트할 수 있다. 정렬 오류의 정도에 따라 학습 샘플(DB3_S1)로 분류된 적어도 하나의 샘플은 학습 샘플(DB1_S1) 또는 학습 샘플(DB2_S1)로 분류될 수 있다. 예컨대, 학습 샘플(DB3_S1)에 포함된 특정 샘플에 대한 제3 얼라이너의 테스트 결과, 정렬 오류가 제1 기준 값보다 낮은 경우, 상기 특정 샘플은 학습 샘플(DB1_S1)로 분류될 수 있다. 또한, 학습 샘플(DB3_S1)에 포함된 특정 샘플에 대한 제3 얼라이너의 테스트 결과, 정렬 오류가 제1 기준 값보다 높고, 제2 기준 값보다 낮은 경우, 상기 특정 샘플은 학습 샘플(DB2_S1)로 분류될 수 있다.

스테이지 2(Stage 2)에서도 스테이지 1(Stage 1)과 유사한 얼라이너의 학습 및 학습 샘플들의 조정이 이루어질 수 있다. 즉, 스테이지 2(Stage 2)에서 제1 얼라이너, 제2 얼라이너 및 제3 얼라이너는 각각 학습 샘플(DB1_S2), 학습 샘플(DB2_S2) 및 학습 샘플(DB3_S2)을 학습할 수 있다. 또한, 스테이지 2(Stage 2)에서 제2 얼라이너 및 제3 얼라이너의 테스트 결과에 따라 학습 샘플들(DB1_S2, DB2_S2 및 DB3_S2)이 조정될 수 있다.

스테이지 N(Stage N)에서 학습 샘플들(DB1, DB2 및 DB3)이 확정될 수 있다. 스테이지 N-1(Stage N-1)에서 제2 얼라이너 및 제3 얼라이너의 테스트 결과에 따라 학습 샘플들(DB1_S _(n-1), DB2_S _(n-1) 및 DB3_S _(n-1))이 더 이상 조정되지 않는 경우, 스테이지 N(Stage N)에서 학습 샘플들(DB1, DB2 및 DB3)이 확정될 수 있다. 스테이지 N(Stage N)에서 제1 얼라이너, 제2 얼라이너 및 제3 얼라이너는 각각 학습 샘플(DB1), 학습 샘플(DB2) 및 학습 샘플(DB3)을 학습함으로써, 제1 얼라이너, 제2 얼라이너 및 제3 얼라이너는 각각 확정될 수 있다.

도 7은 일 실시예에 따른 품질 분류기의 학습 과정을 설명하기 위한 블록도이다. 도 7을 참조하면, 품질 분류기(130)는 제1 분류기(131), 제2 분류기(132) 및 제3 분류기(133)를 포함한다. 제1 분류기는 제1 학습 샘플을 학습할 수 있다. 또한, 제2 분류기는 제2 학습 샘플을 학습하고, 제3 분류기는 제3 학습 샘플을 학습할 수 있다. 제1 학습 샘플, 제2 학습 샘플 및 제3 학습 샘플은 각각 상이한 품질의 영상을 학습하기 위한 샘플을 포함할 수 있다. 예컨대, 제1 학습 샘플은 높은 품질의 영상을 학습하기 위한 샘플을 포함할 수 있다. 또한, 제2 학습 샘플은 중간 품질의 영상을 학습하기 위한 샘플을 포함할 수 있고, 제3 학습 샘플은 낮은 품질의 영상을 학습하기 위한 샘플을 포함할 수 있다.

일 측에 따르면, 제1 학습 샘플은 높은 품질의 영상들을 양성 클래스로 하고, 중간 품질의 영상들과 낮은 품질의 영상들을 음성 클래스로 할 수 있다. 또한, 제2 학습 샘플은 중간 품질의 영상들을 양성 클래스로 하고, 높은 품질의 영상들과 낮은 품질의 영상들을 음성 클래스로 할 수 있다. 또한, 제3 학습 샘플은 낮은 품질의 영상들을 양성 클래스로 하고, 높은 품질의 영상들과 중간 품질의 영상들을 음성 클래스로 할 수 있다. 따라서, 제1 분류기(131)는 입력 영상에서 높은 품질의 영상을 검출할 수 있고, 제2 분류기(132)는 입력 영상에서 중간 품질의 영상을 검출할 수 있으며, 제3 분류기(133)는 입력 영상에서 낮은 품질의 영상을 검출할 수 있다.

도 8은 일 실시예에 따른 높은 품질의 영상과 낮은 품질의 영상을 나타낸 도면이다. 도 8을 참조하면, 정렬의 대상이 사용자의 눈인 경우, 높은 품질의 영상 및 낮은 품질의 영상의 예시가 도시되어 있다. 앞서 설명된 것처럼 실시예의 품질은 암시적 품질을 의미할 수 있다. 암시적 품질은 분류기나 얼라이너의 실험적 기준에 의한 품질을 의미하며, 암시적 품질은 검출기의 경계 박스 문제, 사용자의 포즈, 눈의 형태 및 특징 점의 검증 값 오류 등에 의해 결정될 수 있다.

도 8에 도시된 것처럼, 사용자게 명확하게 관측되는 영상들도 얼라이너에 의해 특징 점을 찾기 어려운 경우 낮음 품질의 영상에 해당할 수 있다. 예컨대, 품질이 낮은 영상은 눈의 형태가 일반적이지 않은 사용자의 영상이나, 안경에 의해 눈의 형태를 확정하기 어려운 영상을 포함할 수 있다. 또한, 영상의 밝기가 어둡거나 희미한 경우에도 얼라이너에 의해 정렬이 쉽게 이루어지는 경우 높은 품질의 영상으로 분류될 수 있다. 비록 도 8에는 두 개의 품질에 대응하는 영상만이 도시되어 있으나, 앞서 설명된 것처럼 높은 품질의 영상 및 낮은 품질의 영상의 사이에 중간 품질의 영상이 존재할 수 있다. 또한, 품질은 2개 또는 4개 이상으로 구분될 수 있다. 또한, 앞서 설명된 분류기의 학습 과정에서는 도 8의 결정 경계가 학습되는 것으로 이해될 수 있다.

도 9는 일 실시예에 따른 객체 정렬 방법을 나타낸 동작 흐름도이다. 도 9를 참조하면, 단계(510)에서, 객체 정렬 장치는 입력 영상의 품질을 결정한다. 단계(520)에서, 객체 정렬 장치는 입력 영상의 품질에 대응하는 얼라이너를 이용하여 입력 영상에서 객체를 정렬한다.

도 10은 일 실시예에 따른 학습 방법을 나타낸 동작 흐름도이다. 도 10을 참조하면, 단계(610)에서, 학습 장치는 학습 샘플의 품질을 결정한다. 단계(620)에서, 학습 장치는 학습 샘플의 품질에 대응하는 얼라이너를 학습시킨다.

이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

Claims

양성 클래스로서의 제1 품질의 학습 샘플들 및 음성 클래스로써의 제2 품질의 학습 샘플들에 기초하여 입력 영상이 상기 제1 품질에 대응하는지 출력하도록 트레이닝된 제1 분류기, 및 양성 클래스로서의 상기 제2 품질의 학습 샘플들 및 음성 클래스로써의 상기 제1 품질의 학습 샘플들에 기초하여 상기 입력 영상이 상기 제2 품질에 대응하는지 출력하도록 트레이닝된 제2 분류기의 각 출력에 기초하여 상기 입력 영상의 품질을 결정하는 단계; 및
상기 입력 영상의 품질이 상기 제1 품질로 결정된 경우, 상기 제1 품질의 학습 샘플들에 기초하여 상기 제1 품질의 영상을 정렬하도록 학습된 제1 얼라이너를 이용하여 상기 제1 품질에 대응하는 제1 정렬 동작을 수행하고, 상기 입력 영상의 품질이 상기 제2 품질로 결정된 경우, 상기 제2 품질의 학습 샘플들에 기초하여 상기 제2 품질의 영상을 정렬하도록 학습된 제2 얼라이너를 이용하여 상기 제2 품질에 대응하는 제2 정렬 동작을 수행하여, 상기 입력 영상에서 객체를 정렬하는 단계
를 포함하는, 객체 정렬 방법.
제1항에 있어서,
상기 입력 영상의 품질은 상기 제1 얼라이너 및 상기 제2 얼라이너가 상기 입력 영상을 정렬하기 위한 난이도를 나타내는,
객체 정렬 방법.
제1항에 있어서,
상기 입력 영상의 품질은 정렬의 난이도가 제1 기준 값보다 낮은 높은 품질, 정렬의 난이도가 상기 제1 기준 값과 제2 기준 값의 사이인 중간 품질 및 정렬의 난이도가 상기 제2 기준 값보다 높은 낮은 품질 중 어느 하나로 결정되는, 객체 정렬 방법.
삭제
삭제
삭제
삭제
삭제
삭제
하드웨어와 결합되어 제1항 내지 제3항 중 어느 하나의 항의 방법을 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램.
양성 클래스로서의 제1 품질의 학습 샘플들 및 음성 클래스로써의 제2 품질의 학습 샘플들에 기초하여 입력 영상이 상기 제1 품질에 대응하는지 출력하도록 트레이닝된 제1 분류기, 및 양성 클래스로서의 상기 제2 품질의 학습 샘플들 및 음성 클래스로써의 상기 제1 품질의 학습 샘플들에 기초하여 상기 입력 영상이 상기 제2 품질에 대응하는지 출력하도록 트레이닝된 제2 분류기의 각 출력에 기초하여 상기 입력 영상의 품질을 결정하는 품질 결정부; 및
상기 입력 영상의 품질이 상기 제1 품질로 결정된 경우, 상기 제1 품질의 학습 샘플들에 기초하여 상기 제1 품질의 영상을 정렬하도록 학습된 제1 얼라이너를 이용하여 상기 제1 품질에 대응하는 제1 정렬 동작을 수행하고, 상기 입력 영상의 품질이 상기 제2 품질로 결정된 경우, 상기 제2 품질의 학습 샘플들에 기초하여 상기 제2 품질의 영상을 정렬하도록 학습된 제2 얼라이너를 이용하여 상기 제2 품질에 대응하는 제2 정렬 동작을 수행하여, 상기 입력 영상에서 객체를 정렬하는 얼라이너(aligner)
를 포함하는, 객체 정렬 장치.
제11항에 있어서,
상기 입력 영상의 품질은 상기 얼라이너가 상기 입력 영상을 정렬하기 위한 난이도를 나타내는, 객체 정렬 장치.
삭제
양성 클래스로서의 제1 품질의 학습 샘플들 및 음성 클래스로써의 제2 품질의 학습 샘플들에 기초하여 입력 영상이 상기 제1 품질에 대응하는지 출력하도록 트레이닝된 제1 분류기, 및 양성 클래스로서의 상기 제2 품질의 학습 샘플들 및 음성 클래스로써의 상기 제1 품질의 학습 샘플들에 기초하여 상기 입력 영상이 상기 제2 품질에 대응하는지 출력하도록 트레이닝된 제2 분류기의 각 출력에 기초하여 입력 학습 샘플의 품질을 결정하는 단계; 및
상기 입력 학습 샘플의 품질이 상기 제1 품질로 결정된 경우, 상기 제1 품질의 학습 샘플들에 기초하여 상기 제1 품질의 영상을 정렬하도록 학습된 제1 얼라이너를 이용하여 상기 제1 품질에 대응하는 제1 정렬 동작을 수행하고, 상기 입력 영상의 품질이 상기 제2 품질로 결정된 경우, 상기 제2 품질의 학습 샘플들에 기초하여 상기 제2 품질의 영상을 정렬하도록 학습된 제2 얼라이너를 이용하여 상기 제2 품질에 대응하는 제2 정렬 동작을 수행하여, 상기 입력 학습 샘플의 품질에 대응하는 얼라이너(aligner)를 학습시키는 단계
를 포함하는, 학습 방법.
제14항에 있어서,
상기 학습 샘플의 품질은 상기 얼라이너가 상기 학습 샘플을 정렬하기 위한 난이도를 나타내는,
학습 방법.
제14항에 있어서,
상기 학습 샘플의 품질을 결정하는 단계는,
미리 학습된 테스트 얼라이너로 상기 학습 샘플을 정렬할 때 발생하는 에러율에 기초하여 상기 학습 샘플의 품질을 결정하는 단계를 포함하는,
학습 방법.
제14항에 있어서,
상기 학습 샘플의 품질을 결정하는 단계는,
상기 학습 샘플의 품질을 정렬의 난이도가 제1 기준 값보다 낮은 높은 품질, 정렬의 난이도가 상기 제1 기준 값과 제2 기준 값의 사이인 중간 품질 및 정렬의 난이도가 상기 제2 기준 값보다 높은 낮은 품질 중 어느 하나로 결정하는 단계를 포함하는,
학습 방법.
삭제
삭제
삭제