KR101597362B1

KR101597362B1 - 이미지 시퀀스로부터 유사 신체 및 머리 포즈에 이미지들을 확실하게 매치시키는 방법

Info

Publication number: KR101597362B1
Application number: KR1020090105269A
Authority: KR
Inventors: 마우리스 추
Original assignee: 팔로 알토 리서치 센터 인코포레이티드
Priority date: 2008-11-05
Filing date: 2009-11-03
Publication date: 2016-02-24
Also published as: JP5544142B2; KR20100050411A; US8311339B2; JP2010113716A; US20100111426A1

Abstract

단일 카메라 앞에서 제1 의상, 쥬얼리, 또는 그외 착용 가능한 아이템을 착용한 사용자의 제1 이미지 시퀀스를 기록하는 단계; 상기 제1 이미지 시퀀스를 저장하는 단계; 단일 카메라 앞에서 제2 의상, 쥬얼리, 또는 그외 착용 가능한 아이템을 착용한 사용자의 제2 이미지 시퀀스를 기록하는 단계; 상기 제2 이미지 시퀀스를 저장하는 단계; 상기 제1 이미지 시퀀스로부터 제3 이미지 시퀀스를 생성하기 위하여, 상기 제2 이미지 시퀀스의 이미지 각각에 대하여, 매칭 알고리즘에 따라서 상기 제1 이미지 시퀀스에서 매칭 이미지들을 확인하는 단계; 사용자가 상기 제1 및 제2 의상, 쥬얼리 또는 그 외 착용가능한 아이템을 착용한 자신이 어떻게 보이는지 쉽게 비교할 수 있도록, 상기 제2 이미지 시퀀스와 상기 제3 이미지 시퀀스를 서로 시각적으로 근접하여 사용자에게 디스플레이하는 단계를 구비하는 비교 구매를 위해 영상 매칭하는 컴퓨터-구현 방법을 제공한다.

Description

이미지 시퀀스로부터 유사 신체 및 머리 포즈에 이미지들을 확실하게 매치시키는 방법{METHOD TO ROBUSTLY MATCH IMAGES WITH SIMILAR BODY AND HEAD POSE FROM IMAGE SEQUENCE}

본 발명은 이미지 시퀀스로부터 유사 신체 및 머리 포즈에 이미지들을 확실하게 매치시키는 방법에 관한 것이다.

소매 구매 비교(retail shopping comparison)는 고객이 일련의 의상 품목들(articles), 쥬얼리들(jewelry pieces), 또는 그외 착용 가능한 아이템들(예를 들어 안경, 썬글라스, 핸드백 등)을 반복적으로 착용해 보므로써, 다른 것과 비교하여 어떻게 보이는지 평가하는 것을 요구할 수 있다. 구매자(shopper)가 여러 모자들이나 귀걸이 쌍들을 비교하고자 한다면, 그/그녀는 어떻게 보이는지 평가하기 위해 거울 앞에서 다양한 방식으로 다른 아이템들을 걸쳐 보기도 한다. 본 발명의 실시 형태는 이러한 프로세스를 향상시키는 시스템 및 방법을 제공한다.

본 발명에 대한 설명은 다음과 같이 조직된다. 우선 일 실시 형태의 상위(high-level) 설명을 간략하게 기술한다. 그 다음, 이 시스템은 연관 프로세스들 및 사용자 상호 작용을 포함하여 보다 상세하게 기술한다. 그 다음, 실시 형태들에 의해 사용된 영상 매칭 알고리즘을 상세하게 논의한다. 마지막으로, 다양한 다른 실시 형태를 논의한다.

간략하게, 아래 논의에서, 용어 "아이템", "의상", "쥬얼리", 및 "착용 가능한 아이템"은 상호 교환 가능하게 사용될 것이다. 유사하게 용어 "구매자" 및 "사용자"는 상호 교환 가능하게 사용되며, 또한 단수 여성 대명사가 사용될 것이다. 본 명세서에 사용된 용어 "포즈"는 사용자가 특정 의상을 착용했을 때 특정 신체 형상(body configuration), 예를 들어 신체 위치 및 자세와 같은 것을 의미한다. 예를 들어, 포즈는 거울 또는 디스플레이에 대한 사용자의 각도 위치와 관계할 수 있다. 포즈는 또한, 다리를 들어올리거나, 팔짱을 끼거나, 앉거나, 머리를 돌리는 것과 같은 사용자의 제스쳐(gesture)와 관계할 수 있다. 본 명세서에 사용된 용어 "거의 실시간(near real-time)"은, 예를 들어 디스플레이 또는 피드백 및 제어 목적으로, 이벤트의 발생과 프로세스된 데이터의 사용 사이에, 자동 데이터 프로세싱 또는 네트워크 전송에 의해 도입된 지연을 의미한다. 일반적으로, 본 명세서에 사용된 거의 실시간은 인간의 유용성 기대와 요구 사항을 충족시키도록 1초보다 작은 길이가 될 것이다.

예를 들어, 거의 실시간 디스플레이는 현재 시간에서 프로세싱 시간을 뺀 시점에 존재했던 이벤트나 상황을 묘사한다.

거의 실시간과 실시간 사이의 구분은 변하며, 지연은 전송의 타입과 속도에 따라 달라진다.

일 실시 형태에 따라, 제1 아이템, 예를 들어 캘빈 클라인(Cavin klein) 목걸이를 착용한 구매자는 거울 앞에서 영상-기록된다. 그 다음, 구매자는 제2 아이템, 예를 들어 티파니(Tiffany) 목걸이를 착용해 보며, 이것이 기록된다. 이 시점에서, 구매자는 2개를 피팅(fitting)해 보는 동안 자신을 비교해 보는 시스템을 사용할 수 있다. 캘빈 클라인을 피팅해 보는 것을 제1 시퀀스로 간주한다. 시스템은 티파니 목걸이와 함께 기록된 제2 시퀀스에 대해 제1 시퀀스를 분석하고 유사 프레임들을 매치시킨다. 이것은 제3 시퀀스(제1 시퀀스로부터 프레임들의 "리믹스(remix)"로 이루어짐)를 생성한다. 시스템에 결합된 디스플레이 상에서, 제2 및 제3 시퀀스는 시각적으로 가깝게 근접하여 사용자에게 재생된다.

특히, 시스템은 기록된 2개의 시퀀스들을 매치시키기 때문에, 구매자가 팔을 올리거나 또는 머리를 돌리는 포즈는 잘 매치된다. 그러므로 제1 시퀀스에서 사용자가 시계를 들어 올려 목걸이와 비교하고, 제2 시퀀스에서도 유사하게 행동하였다면, 재생 동안, 2개의 매칭 포즈들은, 제1 시퀀스에서 유사한 포즈가 나타난 시점과 상관없이, 제2 시퀀스의 시간에 맞추어 동시적으로 보여진다.

시스템은 시퀀스 내에서 신속하게 위치를 점프시키는 사용자 인터페이스 디 바이스(예를 들어, 손잡이(knob), 온-스크린 터치 컨트롤(on-screen touch control) 등)를 구비할 수 있다. 일부 실시 형태는 비교 구매를 시작하기 전에2개 이상의 피팅들이 기록되게 한다. 다른 실시 형태에서, 제2 시퀀스는 사전 기록된 것이 아니라 실황 영상 시퀀스(live video sequence)이다. 제1 시퀀스로부터의 기록 이미지들은 거의 실시간으로 제2 시퀀스의 실황 영상의 현재 이미지에 매치된다. 상위 설명으로부터 전환하여, 시스템은 연관 프로세스들 및 사용자 상호 작용들의 관점에서 보다 상세하게 기술될 것이다.

본 발명에 의하면, 이미지 시퀀스로부터 유사 신체 및 머리 포즈에 이미지들을 확실하게 매치시키는 방법을 제공할 수 있다.

도 1a는 소매 의상 피팅 시스템(일괄처리 모드(batch mode))에서 사전 기록된 영상 시퀀스들을 확실하게 매칭하는 예시적 프로세스를 나타낸다. 프로세스(100A)는 제1 이미지 시퀀스를 기록하기 시작한다(단계 100); 그 다음, 이 이미지들을 저장한다(단계 120). 이러한 기본 단계들은 제2 이미지 시퀀스를 반복 기록하고(단계 130), 저장(단계 140)하여 반복된다. 제3 이미지 시퀀스는 제2 시퀀스에 가장 가깝게 매치하는 제1 시퀀스로부터의 프레임들을 리믹싱함으로써 생성된다(단계 150). 마지막으로, 제2 및 제3 시퀀스가 서로 시각적으로 가깝게 근접하여 디스플레이된다(단계 160).

기록(단계 110 및 단계 130)은 컴퓨터 프로세싱용으로 디지털 이미지 시퀀스 들을 만들어낼 수 있는 단일 영상 카메라로 실행 가능하다. 저장(단계 120 및 단계 140)은 임의의 컴퓨터 판독형 저장 매체에 실행될 수 있다.

한 단계에서 다음 단계로의 프로세스(100A) 흐름은 전형적으로, 예를 들어 사용자로부터 1개 이상의 입력 등에 의해 지시된다. 예를 들어, 프로세스(100A)를 실시하는 시스템은 1개 이상의 사용자 입력 디바이스들을 제공하여, 기록의 개시-정지 및 재생을 일으키게(trigger) 한다. 다른 실시 형태에서, 비전 알고리즘(vision algorithms)은 기록의 개시-정지 및 재생을 일으키게 하는 제스쳐나 그외 지시(cue)들을 감지할 수 있다.

도 1b는 소매 의상 피팅 시스템에 있어서 사전 기록된 영상 시퀀스들을 실황 영상 시퀀스에 확실하게 매칭시키는 다른 예시적 프로세스를 제공한다. 프로세스(100B)는 제1 이미지 시퀀스를 기록하여 시작하고(단계 110B); 그 다음, 그 이미지들을 저장한다(단계 120B). 그리고 나서, 이미지가 실황 영상 시퀀스로부터 캡쳐(capture)된다(단계 130B). 그 다음, 캡쳐된 이미지에 대해 제1 시퀀스 내 최상의 매칭 이미지를 탐색한다(단계 140B). 제1 시퀀스로부터의 매칭 이미지와 실황 영상으로부터의 캡쳐된 이미지는 서로 시각적으로 가깝게 근접하여 디스플레이된다(단계 150B). 마지막으로, 이 프로세스는 실황 영상 시퀀스로부터 새로운 이미지를 캡쳐하는 것을 반복한다(단계 130B).

일부 실시 형태에서, 프로세스(100A 및 100B)는 동시에 실시된다. 보다 구체적으로, 단계(110 ~ 120) 및 단계(110B ~ 120B)는 동일하며(단일 기록된 시퀀스), 프로세스(100B)의 단계(130B ~ 150B)는 프로세스(100A)의 단계(130 ~ 140) 중에 실 행될 수 있다.

도 2a 및 2b는 의상 비교 시스템의 2개 실시 형태를 나타낸다. 보다 구체적으로, 도 2a는 카운터-탑(counter-top)의 실시 형태를 나타낸다. 도 2b는 피팅룸(fitting-room)의 실시 형태를 나타낸다. 이 두 실시 형태들의 주요 차이점은 시스템의 여러 부분들의 구성 및 크기이다. 이들 실시 형태들 중 어느 것이나 도 1a의 일괄처리 매칭 프로세스 또는 도 1b의 거의 실시간 매칭 프로세스로 구현될 수 있다는 점을 주목한다.

각 실시 형태는 차례로 논의될 것이다. 각 실시 형태에 있어서, 도면들의 구성요소들이 설명되고 나서, 이들의 상호 연결이 논의될 것이다. 마지막으로, 프로세스(100A 및 100B)를 참조로 한 시스템의 사용이 두 실시 형태에 대해 집합적으로 논의될 것이다.

도 2a는 의상 비교를 위한 시스템의 카운터-탑 실시 형태이다. 시스템(200)은 거울(202), 디스플레이(204), 카메라(206), 입력 디바이스(208), 및 컴퓨터(210)를 구비한다. 설명을 위하여, 사용자(220)의 반영은 거울(202)에 나타낸다. 구성요소들의 상호 연결이 설명될 것이다(상호 연결은 나타내지 않음을 주의). 카메라(206), 디스플레이(204), 및 입력 디바이스(208)는 컴퓨터(210)와 통신으로 결합된다. 일 실시 형태에서, 시스템(200)의 카운터-탑 실시 형태는 소매점 내 디스플레이 캐비넷(예를 들어, 쥬얼리 상점 카운터)의 상단에 설치하도록 설계 및 치수가 결정된다. 이러한 실시 형태에서, 컴퓨터(210)를 포함한 모든 구성요소들은 단일 하우징(housing)에 구비된다. 또한, 카메라(206)의 위치는 거울(202)에 보여지 는 것을 가장 잘 캡쳐하는데 필요한 만큼 조절될 수 있다. 다른 실시 형태에서, 입력 디바이스(208)는 손잡이일 수 있고, 사용자는 이 손잡이를 돌림으로써 2개의 매칭된 이미지 시퀀스에 걸쳐 스크롤할 수 있다

도 2b는 의상 비교를 위한 시스템(240)의 피팅룸 실시 형태이다. 도 2a 및 도 2b의 유사한 구성요소는 용이한 참조를 위해 동일한 참조 부호를 부여하였으나; 다수의 경우 구성요소들이 2개의 실시 형태 사이에서 다른 치수를 가질 것이다. 시스템(240)은 거울(202), 디스플레이(204), 카메라(206), 입력 디바이스(208; 리모트 컨트롤(250) 위에 있음), 및 컴퓨터(210)를 구비한다. 다시, 설명을 위하여, 사용자(220)의 반영은 거울(202)에 나타낸다. 도 2a에 도시된 바와 같이, 구성요소들간의 상호 연결은 나타내지 않는다. 일 실시 형태에서, 디스플레이(204) 및 거울(202)은 받침대 또는 스탠드(도시하지 않음) 상에 장착된다. 리모트 컨트롤(250)은 유선이거나 무선일 수 있다. 또한, 카메라(206)의 위치는 거울(202)에 보여지는 것을 가장 잘 캡쳐하는데 필요한 만큼 조절될 수 있다.

시스템(240; 또는 시스템(200))의 일 실시 형태에서, 강제적인 리모트 컨트롤이나 또는 다른 직접적인 사용자 입력 디바이스는 없다. 사용자가 걸어 들어오면, 시스템(240)은 카메라(206)와 컴퓨터(210) 상에서 실행되고 있는 소프트웨어로 구현된 이미지 분석 알고리즘을 사용하여 그녀가 걸어 들어왔음을 감지하고, 제1 이미지 시퀀스를 기록하거나, 이미지들을 매칭하기 시작한다. 사용자가 걸어 나가면, 시스템(240)은 이를 감지하고 기록을 중지한다. 다음 회 사용자가 걸어 들어오면, 시스템은 그녀를 검출하고 재차 기록한다. 예를 들어 이미지들의 제2 또는 매 칭 시퀀스를 다시 기록한다. 이 때, 거울(202)에 시각적으로 가깝게 근접한 디스플레이(204)는, 프로세스(100B)가 사용된 경우, 그의 현재 포즈에 매칭된 제1 시퀀스로부터 이미지들을 보여주기 시작할 것이다. 이러한 실시 형태는 타임 아웃, 인간 인식 소프트웨어, 안면 인식 소프트웨어, 및/또는 다른 사용자들의 감지를 처리하기 위한 상점 직원 사용자 입력 디바이스를 구비한다. 또한, 다중 사전 피팅(multiple prior fitting)들의 디스플레이를 지원하는 무사용자-입력(user-input free) 실시 형태에서, 모든 사전 피팅 시퀀스들은 현재 피팅, 가장 최근 피팅만, 및/또는 예를 들어 컴퓨터(210)에 사전 로딩된 상점 구성 설정 및/또는 상점 직원용 입력 디바이스와 같은 별도 입력들에 따라 달라지는 다른 선택사항과 동시에 디스플레이될 수 있다.

본 설명의 나머지는 도 2a의 카운터-탑 실시 형태에서 집중적으로 이루어질 것이지만, 그 개념은 도 2b의 실시 형태와 동등한 효력으로 적용되는 것으로 이해되어야 한다. 일부 실시 형태에서, 거울(202)은 예를 들어 컴퓨터 디스플레이와 같은 디스플레이로 대체되는데, 이 디스플레이는 카메라(206)로부터 출력된 실황을 보여주며, 따라서 거울처럼 동작한다.

도 2a에 도시된 바와 같은 시스템(200)의 실시 형태를 배경으로 도 1a의 프로세스(100A)를 고려한다. 이 예에서, 구매자는 의상의 제1 품목을 입고 시스템(200) 앞에 서 있거나 앉아 있으며, 모자가 이 예에서 사용될 것이다. 예를 들어 입력 디바이스(208), 디스플레이(204) 상의 터치스크린 컨트롤 등을 누르는 등의 1개 이상의 사용자 인터페이스 요소는 컴퓨터(210) 상에서 제1 시퀀스의 기록을 일 으킬 수 있다(단계 110). 일부 실시 형태에서, 카메라(206)로부터의 이미지를 컴퓨터(210)가 처리한 것에 기초한 움직임(motion) 또는 근접성(proximity)에 의해 기록이 촉발될 수 있다. 구매자는, 예를 들어 입력 디바이스(208) 등을 누르는 것과 같이, 사용자 인터페이스 구성요소를 사용하여 기록을 정지시킬 수 있다. 이 시점에서, 제1 시퀀스가 기록된다. 기록하는 프로세스 동안, 구매자는 예를 들어 그녀의 머리를 상하 좌우로 돌리고 그녀의 손을 여러 포즈로 움직이는 것과 같이 그녀의 자세를 바꿀 수 있는데, 상이한 포즈에 대응하는 이미지들이 시스템에 의해 캡쳐된다는 점에 주목한다. 일부 실시 형태에서, 기록(단계 110) 및 저장(단계 120)은 (저장을 위해 전체 시퀀스가 기록될 때까지 대기하는 것과는 반대로) 나란히(parallel) 일어난다. 그 후, 디스플레이(204)는 도 3a에 도시된 바와 같이 보이는데, 이미지들(302)의 제1 시퀀스(일명 매칭 시퀀스)의 1 프레임이 디스플레이(204)에 보인다.

또한, 사용자 입력은 제2 이미지 시퀀스를 기록 및 저장(단계 130 및 단계 140)시킬 수 있다. 그 후, 디스플레이(204)는 프레임들의 각 시퀀스의 프레임을 나란하게 보여주는 도 3b에 도시된 바와 같이 보일 것이다. 이 예에서, 2개 시퀀스들은 구매자가 2개의 다른 모자들(뾰족한 모자와 돔형 모자)을 써 본 경우임을 주목한다. 그 다음, 프로세스(100A)는 사용자 입력에 응답하여 -또는 제2 이미지 시퀀스(304)의 기록 완료에 따라 자동으로- 매칭(단계 150)을 실행하고 2개 피팅들을 나란하게 디스플레이한다(단계 160). 단계 150 및 단계 140B에 사용된 알고리즘 및 기술은 아래에 설명될 것이다.

예를 들어, 일 실시 형태에서, 디스플레이(204)는 터치스크린을 구비하고, (i) 새로운 세션(session)을 시작하고(예를 들어, 새로운 구매자가 프로세스(100A)를 재시작하고); (ii) 시퀀스들의 기록을 개시 및 정지하고. 매칭을 시키며(단계 150); 및 (iii) 재생 자세 조정을 위한 사용자 인터페이스 입력(물리적 입력 디바이스(208)를 대체할 수 있음)을 제공한다.

일부 특성 및 일부 실시 형태이 이제 논의될 것이다.

ㆍ 2개의 이미지 시퀀스들은 현저하게 다른 횟수로 또는 심지어 다른 상점에서 기록될 수 있으며, 다른 상점에서의 기록은 양쪽 시스템들이 먼저 저장된 이미지들의 시퀀스에 대하여 액세스를 할 수 있으면 교차-상점 비교를 가능하게 한다.

ㆍ 기록 프로세스 동안, 구매자는 다양한 방식으로 포즈를 취할 있다. 매칭(단계 150)은 포즈들이 다른 2개의 시퀀스를 조정하고(accomodate), 2개 시퀀스 사이에서 카메라로부터 사용자가 다른 자세(상/하/좌/우 즉, 병진이동(translation))에 있게 한다.

ㆍ 일부 실시 형태들은 2개 이상의 시퀀스들에 걸쳐 기록 및 매칭을 지원한다. 이러한 실시 형태들은 2개 이상의 시퀀스들을 기록 가능하도록 프로세스(100A)를 변형하고, 2개 영상이 매칭/재생을 위해 선택되는 단계를 매칭(단계 150) 이전에 추가하도록 프로세스(100A)를 변형한다.

ㆍ 일부 실시 형태들은 1개 이상의 이미지 시퀀스를 기본 시퀀스에 매칭시키는 것을 지원한다. 이러한 실시 형태들은 기본 시퀀스에 모두 매치되는 다중 이미지 시퀀스들을 시각적으로 가깝게 근접하여 재생할 수 있다. 또한, 기본 시퀀스는 실황 영상으로부터 캡쳐된 이미지들일 수 있다.

ㆍ 일부 실시 형태들은 명시적인 사용자 상호 작용 없이도 프로세스(100A) 또는 프로세스(100B)를 통해 플로우를 발생시킬 수 있지만, 대신에 카메라로부터 제스쳐들 또는 그외 시각적 단서들(cues)을 감지하는 것에 의해 플로우가 발생될 수도 있다. 예를 들어, 일 실시 형태에서, 카메라의 시계(field of view) 내에서 사람의 존재는 기록의 개시를 일으키는 반면, 시계 내에서 사람의 부재는 기록의 정지를 일으킨다. 또한, 사람의 움직임은 매칭 프로세스와, 이미지들의 매칭된 시퀀스의 재생을 일으킬 수 있다.

도 4는 실시 형태에 의해 사용된 컴퓨터(210)를 보다 자세하게 나타낸다. 컴퓨터(210)는 프로세서(402), 메모리(404), 저장부(410), 디스플레이(204) 뿐만 아니라, 키보드(450) 및 포인팅 디바이스(460)의 2개의 입력 디바이스들을 구비한다. 저장부(410)는 의상 비교 시스템(440)을 구비한다. 컴퓨터(210)의 네트워크 자원 및 다른 통신 자원은 단순화를 위해 도시하지 않는다. 컴퓨터(210)는, 예를 들어 도 2a ~ 2b의 시스템(200)에 도시된 바와 같이, 이미지 시퀀스들의 기록을 실행하고 재생하는 연관 하드웨어나 의상 비교 시스템(440)을 지원하도록 적절하게 변형되거나 및/또는 프로그램된 임의의 상용 기성품(commercial off-the-shelf) 컴퓨터일 수 있다. 의상 비교 시스템(440)은 도 1a의 프로세스(100A)를 구현하고, 또한 프로세서(402)를 제어하며 컴퓨터(210)와 시스템(200)의 구성요소들을 조화(coordinate)시키는 인스트럭션(instruction)들의 시퀀스로서 임의의 컴퓨터 판독형 저장 매체 상에 저장될 수 있다. 도 2a ~ 2b에 도시된 바와 같은 입력 디바이 스들(키보드(450) 및 포인팅 디바이스(460))은 예시일뿐이며, 예를 들어 터치스크린 디스플레이, 입력 디바이스(208; 예를 들어 손잡이), 리모트 컨트롤(250), 카메라로부터의 시각적 단서의 감지 등과 같은 다른 입력 디바이스들도 가능하다.

이제 일부 실시 형태에 의해 사용된 매칭 알고리즘이 논의될 것이다.

본 발명의 실시 형태에 의해 사용된 매칭 알고리즘을 설명한다. 비교 구매를 위한 일부 기존의 이미지-매칭 접근법은 신체 일부/의상 매칭 및 의상 대 사람의 추출에 포커스가 맞춰진다. 또한, 이러한 기술은 종종 다수의 다중 카메라를 요구한다.

본 발명의 실시 형태는 신체 포즈를 결정하는 단계를 삭제하고, 대신에 2개 프레임들 사이에서의 거리 측정을 전개하여 전체적으로 이미지를 비교한다. 일 실시 형태에서, 픽셀 차의 제곱의 합인 L2 거리 측정은 이미지 프레임들을 비교하는데 사용된다. 특히, 2개 이미지들 (이미지 시퀀스로부터 각각) I ₁ 와 I ₂ 사이의 L2 거리 d 는 식 (1)에 의해 구해진다:

즉, I ₁ 에서 각 픽셀 값은 I ₂ 에서 상응하는 픽셀 값으로부터 공제되고, 그 차는 모든 픽셀들(P)에 걸쳐 제곱되어 합해진다.

일 실시 형태에서, 상기와 같은 매칭은 단계 150에서 가장 차가 적은 2개 프레임들을 선택함으로써 사용된다. 특히, 이미지들의 제1 (매칭) 시퀀스 a, b,...m와 이미 지들의 제2 (기본) 시퀀스 A, B,...Z를 고려한다. 제2 시퀀스의 처음 이미지와 나란히 도시될, 제3 시퀀스의 처음 이미지를 고려하면, A와 a...m 각각 사이의 거리 L2가 비교되고, 거리가 가장 작은 이미지가 선택될 수 있다. 동일한 사항이 제2 시퀀스 내의 모든 이미지들에 대해 실시되어, m, a, c, d, d, d,.. 로 보일 수 있고, 제2 시퀀스와 길이가 동일한 제3 시퀀스를 만들 수 있다.

L2 거리의 병진이동 불변 변형은 식 (2)로 설명된다.

여기서, △χ 및 △y는 x 및 y 방향에서의 픽셀 오프셋이다. △χ 및 △y가 분포할 수 있는 범위를 넘는 값의 세트는 다른 실시 형태에서 변할 수 있다:

- 경계 내에서 최적의 매치를 찾기 위하여, 모든 방향으로 ±50 픽셀을 체크하는 것과 같은 고정 최대 병진량의 부루트 포스(brute force) 탐색.

- 8개 모두의 인접 1 픽셀 병진이동(all eight adjacent 1 pixel translations)을 검사하고, 이들 8개 중 최적의 픽셀 주위의 8개를, 고정 최대 거리 및/또는 한정된 양의 계산 시간 내에서 체크하는 것과 같은 지향형 탐색; 또는

- 여러 가지 보다 큰 병진이동을 시험한 후 미세하게 조정된(fine tune) 병진이동을 시험하는 다양한 △χ 및 △y와 값의 구배 하향 탐색(gradient descent search).

병진이동에 대해 매치 품질이 향상되지만, 시퀀스들간에 매칭 이미지들을 발 견하는 산술 비용을 증가시킨다.

일 실시 형태에서, 병진이동 불변 핸들링을 갖는 L2 거리가 단계 150의 매칭으로서 사용된다. 이 매칭은 보다 단순한 L2 변동예에 대해 상술한 바와 같이 발생할 것이다.

이러한 두 접근법은 제3 시퀀스의 영상 재생의 원활화에 어떠한 강점도 주지않는다. 제1 시퀀스가 제2 시퀀스를 최상으로 매칭하도록 리믹스되기 때문에, 나란한 재생 전반을 비이상적으로 만즈는 대량의 지터(jitter) 또는 다른 인공물(artifact)들이 존재할 수 있다. 또는 다르게는, 예를 들어 식 (1) 또는 식 (2)에 의해 주어진 바와 같은 최상의 매칭 프레임은 제3 시퀀스 내에서 너무 많은 인터프레임(interframe) 지터로 인해 원활한 영상 재생을 제공하지 못할 수 있다. 따라서, 일부 실시 형태는 원활화를 위해 매칭을 추가적으로 정교화(refine)한다.

이러한 일 실시 형태는 매칭 원활화를 개선하기 위해 일부 실시 형태에 의해 사용된 경로-인코딩 기술(path-encoding technique)을 나타내는 도 5를 참조하여 기술될 것이다. 도 5는 이미지들 a, b, c,...m을 갖는 이미지들(500)의 제1 시퀀스(일명 매칭 시퀀스)와, 이미지들 A, B, C,...Z를 갖는 이미지들(500)의 제2 시퀀스(일명 기본 시퀀스)를 구비한다.

다른 시퀀스들의 프레임들간 거리는 d(a,A), d(a,B),...d(m,A),...d(m,Z)이다. 그리고 도 5에서 원형 노드들 상에 도시된다. 인트라(intra)-시퀀스 거리는 d(a,a), d(a,b), d(a,c) 등이다. 이들은 원형 노드들을 연결하는 경로들 상에 도시된다. 경로 거리는 이 거리들을 합함으로써 계산될 수 있다. 도 5로 돌아와서, 거 리 측정이 각각 주석이 달린 경로(520; 실선)와 경로(530; 점선)인 2개의 샘플 경로들이 부분적으로 도시된다. 최상의 경로는 총 거리가 최소인 경로이다.

사용된 거리 공식은 식 (1) 또는 (2)의 L2 거리나 변형된 L2 거리, 또는 1개 이상의 다른 거리 측정, 예를 들어 엔트로피(entropy), 상호 정보(mutual information) 및/또는 쿨백-레이블러(Kullback-Leibler) 거리일 수 있다. 일부 실시 형태에서, 다른 거리 측정이 인터-시퀀스 비교와 반대로 인트라 시퀀스 비교에 사용될 수 있다. 예를 들어, L2 거리가 인터-시퀀스 비교에 사용되고, 병진이동 불변 L2가 인터-시퀀스 비교에 사용된다. 다른 실시 형태에서, 거리들은 인트라- 및 인터-시퀀스의 효과를 변화시키기 위하여 가중치를 둘 수 있다.

M^N 가능 경로(N=제2 (기본) 시퀀스 내 이미지들 수, M=제1 (매칭) 시퀀스 내 이미지들 수) 중에서, 솔루션은 비터비(Viterbi) 알고리즘과 O(N×M ² ) 시간 내에서 확인된 최단 경로를 사용하는 시퀀스-디코딩 문제로서 재공식화될 수 있다. 그 다음, 예를 들어 경로(520)와 같은 최종 경로가 프로세스(100A)의 단계 150에서 제3 이미지 시퀀스를 구성하도록 사용된다.

프로세스(100B)의 경우에서, 단계 140B는 위에서 논의된 거리 함수를 사용하여, 제1 시퀀스 내에서 이미지들 가지고 가장 근접한 매치를 결정할 수 있다. 일부 실시 형태에서, 단계 140B에서 결정된 매치는 프로세스(100A)가 동시에 실행된다면 재사용될 수 있고, 이에 따라 단계 150에서 제3 시퀀스는 단계 140B와 함께 생성될 수 있다. 이제 본 발명의 일부 추가 실시 형태가 논의될 것이다.

시스템(200)의 실시 형태는 비교 구매 시스템 및 프로세스들을 위해 고객맞춤형으로 설계된 단일형 하우징(unitary housing) 내에서 단일 판매업체(single vendor)에 의해 공급될 수 있다. 다른 실시 형태들은 통상 사용할 수 있는 컴퓨터, 카메라, 디스플레이, 및 거울과 같은 기성품들로부터 어셈블되고, 독자적인 의상 비교 시스템(440)과 함께 사용되어 사용자 인터페이스를 제공하고 프로세스(100)를 구현한다.

거울이 전혀 없는 일부 실시 형태에서, 단일 디스플레이가 사용된다. 이러한 실시 형태에서, 프로세스(100)의 기록 단계 동안, 디스플레이는 카메라가 캡쳐하고 있는 거의 실시간 이미지를 보여준다. 그 다음, 디스플레이 단계 동안, 단일 디스플레이는 2개 시퀀스들을 재생하는데 사용된다. 이러한 실시 형태는 의상 비교 시스템(440)의 홈-버전(home-version)용, 또는 상업적 상용 기성품 컴퓨터를 사용하여 가정에서 1개 이상의 기본 시퀀스들을 사전-기록하는데에 더욱 유용할 것이다. 예를 들어, 이러한 실시 형태에서, 애플 맥북(Apple Macbook; 카메라 내장형)과 같은 가정용 랩탑 컴퓨터를 사용하여, 구매자는 이미 소유하고 있는 여러 의상을 입은 자신을 기록할 수 있다. 기록된 기본 시퀀스들은 저장 시스템에 액세스 가능한 네트워크 저장부 내, 또는 사용자가 가지고 다니는 이동식 SD 카드와 같은 컴퓨터-판독형 저장 매체 내에 저장될 수 있다. 단일 디스플레이 실시 형태의 "리버스(reverse)" 변형은, 구매자가 다수의 의상을 여러 상점에서 기록하거나(기록된 세션들을 의상 비교 시스템(440)에 액세스할 수 있는 네트워크 저장부에 재차 저장함) 또는 각 상점에 구매자가 가지고 다니는 컴퓨터-판독형 저장 매체 상에 기록하 는 경우에 유용하다. 가정용 컴퓨터(예를 들어, 맥북)는 이전에 기록된 이미지 시퀀스들을 사용하여 프로세스(100)의 나머지 단계들을 구현할 수 있다.

상술한 타입의 실시 형태들 2개 모두 다른 용도의 사례가 있다. "포워드(forward)" 변형은 사용자가 자신이 구매하려는 것이 이미 소유한 것과 얼마나 유사한지를 결정(아첨이 아니라 매우 유사하다고 판단하는 등)하는데 관심이 있는 경우 특히 유용하다. 리버스 변형은 예를 들어 5개 부티끄에서 웨딩 드레스들을 입어보는 것과 같이, 여러 상점들에 걸쳐 교차-비교하는데 유용하다.

개괄해서, 일 실시 형태의 상위 기술은 목걸이 예시를 사용하여 논의되었다. 그 다음, 1개 프로세스와 2개 시스템의 실시 형태가 사용자 상호 작용을 참조하여 보다 상세히 기술되었다. 특히, 보다 작은 의상, 쥬얼리, 액세사리에 대해 비교 구매하는데 더욱 적절한 카운터-탑 실시 형태와, 긴 외투와 같은 보다 큰 의상을 비교 구매하는데 보다 적절한 피팅룸 실시 형태가 기술되었다. 그 다음, 실시 형태에 의해 사용된 이미지-매칭 알고리즘의 상세가 논의되었다. 특히, L2 거리 측정 및 병진이동 불변 버전은 신체와 머리 포즈가 유사한 이미지들을 확실하게 매칭시키기 위해 논의되었다. 결과 시퀀스의 재생에서 원활화를 향상시키고, 지터를 회피하는 변형예가 이러한 시퀀스를 탐색하는 고속 알고리즘과 함께 논의되었다. 마지막으로, 다양한 다른 실시 형태들이 논의되었다.

도 1a는 소매 의상 피팅 시스템(일괄처리 모드(batch mode))에서 사전 기록된 영상 시퀀스들을 확실하게 매칭하는 예시적 프로세스를 나타낸 도면.

도 1b는 소매 의상 피팅 시스템에 있어서 사전 기록된 영상 시퀀스들을 실황 영상 시퀀스에 확실하게 매칭시키는 다른 예시적 프로세스를 제공한 도면.

도 2a는 의상 비교를 위한 시스템의 카운터-탑 실시 형태를 나타내고, 도 2b는 의상 비교를 위한 시스템의 피팅룸 실시 형태를 나타낸 도면.

도 3a 및 도 3b는 일 실시예에 따른 의상 비교 시스템의 사용과 인터페이스 일부를 나타내는 도면.

도 4는 일부 실시 형태에 의해 사용된 컴퓨터를 나타내는 도면.

도 5는 매칭 원활화를 개선하기 위해 일부 실시예에 의해 사용된 경로 인코딩 기법을 나타내는 도면.

Claims

단일 카메라 앞에서 제1 의상, 쥬얼리, 또는 그외 착용 가능한 아이템을 착용한 사용자의 제1 이미지 시퀀스를 기록하는 단계;

상기 제1 이미지 시퀀스를 저장하는 단계;

단일 카메라 앞에서 제2 의상, 쥬얼리, 또는 그외 착용 가능한 아이템을 착용한 사용자의 제2 이미지 시퀀스를 기록하는 단계;

상기 제2 이미지 시퀀스를 저장하는 단계;

상기 제1 이미지 시퀀스로부터 제3 이미지 시퀀스를 생성하기 위하여, 상기 제2 이미지 시퀀스의 이미지 각각에 대하여, 매칭 알고리즘에 따라서 상기 제1 이미지 시퀀스에서 매칭 이미지들을 확인하는 단계;

사용자가 상기 제1 및 제2 의상, 쥬얼리 또는 그 외 착용가능한 아이템을 착용한 자신이 어떻게 보이는지 쉽게 비교할 수 있도록, 상기 제2 이미지 시퀀스와 상기 제3 이미지 시퀀스를 서로 시각적으로 근접하여 사용자에게 디스플레이하는 단계를 구비하는 비교 구매를 위해 영상 매칭하는 컴퓨터-구현 방법.
청구항 1에 있어서,

상기 디스플레이하는 단계는 제2 및 제3 이미지 시퀀스와 위치를 조정하기 위하여, 제1 사용자 입력 디바이스에 응답하여 사용자-제어할 수 있는(user-controllable) 비교 구매를 위해 영상 매칭하는 컴퓨터-구현 방법.
청구항 1에 있어서,

상기 디스플레이하는 단계는 상기 제2 및 제3 이미지 시퀀스에 시각적으로 가깝게 근접하여 이미지들의 복수 추가적 이미지 시퀀스들을 디스플레이하는 단계를 추가로 구비하고, 상기 추가 시퀀스들은 의류나 쥬얼리를 착용한 사용자의 이미지 시퀀스들이고, 상기 제2 이미지 시퀀스에 매치되는 것인 비교 구매를 위해 영상 매칭하는 컴퓨터-구현 방법.
청구항 1에 있어서,

상기 제1 이미지 시퀀스와 제2 이미지 시퀀스의 기록은 상기 제1 및 제2 의류나 쥬얼리를 착용하는데 사용된 거울 앞에서 이루어지는 비교 구매를 위해 영상 매칭하는 컴퓨터-구현 방법.