KR101550478B1 - 확장된 피사계심도에 걸쳐 추출된 3차원 정보를 이용하는 제스처 기반 제어 시스템 및 방법 - Google Patents

확장된 피사계심도에 걸쳐 추출된 3차원 정보를 이용하는 제스처 기반 제어 시스템 및 방법 Download PDF

Info

Publication number
KR101550478B1
KR101550478B1 KR1020107024659A KR20107024659A KR101550478B1 KR 101550478 B1 KR101550478 B1 KR 101550478B1 KR 1020107024659 A KR1020107024659 A KR 1020107024659A KR 20107024659 A KR20107024659 A KR 20107024659A KR 101550478 B1 KR101550478 B1 KR 101550478B1
Authority
KR
South Korea
Prior art keywords
gesture
delete delete
wavefront
depth
present
Prior art date
Application number
KR1020107024659A
Other languages
English (en)
Other versions
KR20100136993A (ko
Inventor
피에르 세인트. 힐레어
존 에스. 언더코플러
Original Assignee
오블롱 인더스트리즈, 인크
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US12/109,263 external-priority patent/US8407725B2/en
Application filed by 오블롱 인더스트리즈, 인크 filed Critical 오블롱 인더스트리즈, 인크
Publication of KR20100136993A publication Critical patent/KR20100136993A/ko
Application granted granted Critical
Publication of KR101550478B1 publication Critical patent/KR101550478B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/0075Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00 with means for altering, e.g. increasing, the depth of field or depth of focus
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/50Optics for phase object visualisation
    • G02B27/52Phase contrast optics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/0304Detection arrangements using opto-electronic means
    • G06F3/0325Detection arrangements using opto-electronic means using a plurality of light emitters or reflectors or a plurality of detectors forming a reference frame from which to derive the orientation of the object, e.g. by triangulation or on the basis of reference deformation in the picked up image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/0346Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor with detection of the device orientation or free movement in a 3D space, e.g. 3D mice, 6-DOF [six degrees of freedom] pointers using gyroscopes, accelerometers or tilt-sensors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Optics & Photonics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Processing Or Creating Images (AREA)
  • Position Input By Displaying (AREA)
  • Studio Devices (AREA)
  • Length Measuring Devices By Optical Means (AREA)

Abstract

본원에서 기재되는 실시예들은 시스템을 포함하며, 상기 시스템은, 신체(body)를 이미징하는 복수의 광학 검출기(이 중 둘 이상의 광학 검출기가 파면 부호화형 카메라(wavefront coded camera)를 포함함)와, 상기 복수의 광학 검출기로 연결되어 있는 프로세서를 포함하며, 이때, 상기 프로세서는 신체의 제스처(gesture)를 자동으로 검출(detect)하고, 상기 제스처는 상기 신체의 순간 상태를 포함하며, 상기 검출 시, 제스처의 제스처 데이터가 순간적으로 모아지며, 상기 제스처 데이터는 이미징 시스템의 피사계심도(depth of field) 내에서 신체의 초점-분해된 데이터(focus-resolved data)를 포함하고, 상기 프로세서는 상기 제스처를 제스처 신호로 번역(translate)하고, 상기 제스처 신호를 이용하여 상기 프로세서에 연결되어 있는 구성요소를 제어한다.

Description

확장된 피사계심도에 걸쳐 추출된 3차원 정보를 이용하는 제스처 기반 제어 시스템 및 방법{GESTURE BASED CONTROL USING THREE-DIMENSIONAL INFORMATION EXTRACTED OVER AN EXTENDED DEPTH OF FILED}
관련 출원
본 출원은 2006년2월8일에 출원된 미국 특허 출원 번호 제11/350,697호의 동시계속 출원이다.
본 출원은 2008년4월2일에 출원된 미국 특허 출원 번호 제61/041,892호를 기초로 우선권 주장한다.
본 출원은 2008년4월24일에 출원된 미국 특허 출원 번호 제12/09,263호의 동시계속 출원이다.
본 출원은 2008년10월14일에 출원된 미국 특허 출원 번호 제61/105,243호를 기초로 우선권 주장한다.
본 출원은 2008년10월14일에 출원된 미국 특허 출원 번호 제61/105,253호를 기초로 우선권 주장한다.
발명의 기술분야
본 발명은 컴퓨터 시스템에 관한 것이며, 구체적으로는 확장된 피사계심도(depth of field)에 걸쳐 3차원 정보의 추출을 이용하는 제스처 기반 제어 시스템을 위한 시스템 및 방법에 관한 것이다.
이미징 시스템에서 확장된 심도에 걸쳐 3차원 정보를 추출할 때, 둘 이상의 동시에 캡처된 이미지에서 장면(scene) 내 포인트까지의 거리가 자신의 위치로부터 추정될 수 있다. 이미저(imager)들 간의 3D 관계가 알려져 있을 때, 상기 포인트의 3차원(3D) 위치가 기본 기하학적 관계로부터 연산(computing)될 수 있다. 복수의 이미지로부터 공간 위치를 연산함에 있어 문제점(종종, 스테레오 상관, 또는 스테레오 심도 연산이라고도 일컬어짐)은 하나의 이미지 내 하나의 포인트의 매핑을 또 다른 이미지에서의 매핑과, 자동으로, 그리고 정확하게 연계시킨다. 이를 이루기 위해, 가장 일반적으로, 이미지 특징부를 하나의 이미지에서 또 다른 이미지로 상관시킨다. 그러나 모든 스테레오 매칭 방법에서 기본이 되는 가정은, 이미지에서 일부 식별 가능한 로컬 콘트라스트(local contrast) 또는 특징부(feature)가 존재해서, 해당 포인트를 또 다른 이미지 내 자신의 위치로 매칭시켜야 한다는 것이다. 따라서 오-초점(misfocus)로 인해(스테레오 매칭은 초점이 맞지 않는 이미지의 영역에서는 정확한 결과를 생산하지 않음) 이미지지에 어떠한 로컬 콘트라스트 또는 특징부도 존재하지 않을 때, 문제가 발생한다.
이미지의 초점 심도(focal depth)를 확장시키기 위한 종래의 수단은 카메라 렌즈 동공(lens's pupil)의 직경을 감소시키는 것이다(조리개 좁히기). 그러나 2가지 부작용이 이 기법의 유용성을 제한한다. 첫째, 렌즈 동공의 직경 비의 제곱과 동일한 값의 인수만큼 이미징 시스템의 감도가 감소된다. 둘째, 최대 공간 주파수 응답이 상기 동공의 직경 비에 동일한 인수로 감소되고, 이는 이미지에서 분해능과 콘트라스트를 제한한다. 따라서 종래의 이미징 시스템에서는 피사계심도와, 노출 시간과, 전체 콘트라스트들이 서로 상충(tradeoff)했다. 복수의 카메라 레인징 시스템의 경우, 순 효과(net effect)는 스테레오 심도 정확도와 동작 범위 간의 타협일 것이다.
참조문헌의 인용
본원에서 언급되는 각각의 특허, 특허 출원 및/또는 공개문헌은, 각각의 개별 특허, 특허 출원 및/또는 공개문헌이 특정하고 개별적으로 지시되는 것과 동일한 범위까지, 그 내용 전체가 본원에 참조로서 포함된다.
도 1은 본 발명의 시스템의 하나의 실시예를 도시한다.
도 2는 본 발명의 태그를 마킹하는 실시예를 도시한다.
도 3은 본 발명의 하나의 실시예에 따르는 제스처 어휘 중 포즈를 도시한다.
도 4는 본 발명의 하나의 실시예에 따르는 제스처 어휘 중 배향을 도시한다.
도 5는 본 발명의 하나의 실시예에 따르는 제스처 어휘 중 두 손 조합을 도시한다.
도 6은 본 발명의 하나의 실시예에 따르는 제스처 어휘 중 배향 혼합을 도시한다.
도 7은 본 발명의 시스템의 하나의 실시예에 따르는 동작을 도시하는 순서도이다.
도 8은 본 발명의 시스템의 하나의 실시예에 따르는 명령어의 예시를 도시한다.
도 9는 본 발명의 하나의 실시예에 따르는, 확장된 피사계심도를 걸쳐 3차원 정보를 추출하기 위한 제스처 기반 제어 시스템의 블록도이다.
도 10은 본 발명의 하나의 실시예에 따르는, 제스처 기반 제어 시스템에서 사용되는 파면 부호화 이미징 시스템의 블록도이다.
도 11은 본 발명의 하나의 실시예에 따르는 2개의 파면 부호화 카메라를 갖는 파면 부호화 이미징 시스템을 이용하여, 피사계심도에 걸쳐 3차원 정보를 추출하기 위한 제스처 기반 제어 시스템의 블록도이다.
도 12는 본 발명의 하나의 실시예에 따르는 확장된 피사계심도에 걸쳐 추출된 3차원 정보를 이용하는 제스처 기반 제어를 위한 순서도이다.
도 13은 본 발명의 하나의 실시예에 따르는 제스처 기반 제어 시스템에서 사용되는 파면 부호화 설계 프로세스의 블록도이다.
지금부터 확장된 피사계심도(depth of field)에 걸쳐 추출된 3차원 정보를 이용한 제스처 기반의 제어를 위한 시스템 및 방법이 기재된다. 하나의 실시예의 시스템은 하나 이상의 프로세서로 연결되어 있는 복수의 광학 검출기를 포함한다. 상기 광학 검출기는 신체를 이미징한다. 복수의 광학 검출기 중 둘 이상의 광학 검출기가 파면 부호화 카메라(wavefront coding camera)를 포함한다. 상기 프로세서는 신체의 제스처를 자동으로 검출하며, 이때, 제스처는 신체의 순간적인 상태를 포함한다. 이러한 검출은 제스처의 제스처 데이터를 순간적으로 모으는 과정을 포함한다. 제스처 데이터는 이미징 시스템의 피사계심도 내에서 신체의 초점 분해된(focus-resolved) 데이터를 포함한다. 프로세서는 제스처를 제스처 신호(gesture signal)로 번역하고, 상기 제스처 신호를 이용하여 프로세서로 연결되어 있는 구성요소를 제어한다.
하나의 실시예의 방법은 이미징 시스템을 이용하여 신체를 이미징하는 단계를 포함하고, 이때, 상기 이미징 단계는 신체의 파면 부호화된(wavefront coded) 이미지를 발생하는 단계를 포함한다. 상기 방법은 신체의 제스처를 자동으로 검출하며, 여기서 상기 제스처는 신체의 순간적인 상태를 포함한다. 검출하는 단계는 제스처의 제스처 데이터를 순간적으로 모으는 단계를 포함한다. 상기 제스처 데이터는 이미징 시스템의 피사계심도 내에서 신체의 초점-분해된 데이터를 포함한다. 상기 방법은 제스처를 제스처 신호로 번역하는 단계와, 상기 제스처 신호에 응답하여, 컴퓨터에 연결되어 있는 구성요소를 제어하는 단계를 포함한다.
다음의 기재에서, 본원에서 기재되는 실시예들에 대한 보다 완전한 이해를 제공하기 위해, 많은 특징부들이 상세하게 기재될 것이다. 이러한 특정 세부사항 없이도 본 발명은 실시될 수 있음이 자명하다. 또한, 잘 알려져 있는 특징부들은 상세히 기재되지 않았다.
시스템
본 발명의 하나의 실시예의 블록도가 도 1에서 도시된다. 사용자는 자신의 손(101 및 102)을 카메라(104A-104D)의 어레이의 시야 영역(viewing area)에 위치시킨다. 카메라는 손가락 및 손(101 및 102)의 위치, 배향 및 움직임을 검출하고, 출력 신호를 전-프로세서(pre-processor, 105)로 발생시킨다. 전-프로세서(105)는 카메라 출력을 제스처 신호로 번역하며, 상기 제스처 신호는 시스템의 컴퓨터 프로세싱 유닛(107)으로 제공된다. 상기 컴퓨터(107)는 이러한 입력 정보를 이용하여 스크린 커서 상의 하나 이상을 제어하기 위한 명령어(command)를 발생시키며, 비디오 출력을 디스플레이(103)로 제공한다.
상기 시스템이 한 명의 사용자의 손을 입력으로 갖는 것처럼 도시되지만, 본 발명은 복수의 사용자를 이용하여 구현될 수도 있다. 또한, 손에 추가로, 또는 손을 대신하여, 시스템은 사용자 신체의 임의의 하나 이상의 부위를 추적할 수 있으며, 그 예로는 머리, 발, 다리, 팔, 팔꿈치, 무릎 등이 있다.
도시된 실시예에서, 4대의 카메라가 사용되어, 사용자의 손(101 및 102)의 위치, 배향 및 움직임을 검출할 수 있다. 본 발명의 사상과 범위 내에서, 본 발명은 더 많은, 또는 더 적은 대수의 카메라를 이용하여 구현될 수 있다. 덧붙이자면, 예시적 실시예에서, 카메라가 대칭적으로 배치될지라도, 본 발명에서 이러한 대칭성이 필수인 것은 아니다. 사용자의 손의 위치, 배향 및 움직임의 검출을 가능하게 하는 어떠한 카메라의 대수나 배치 방식도 본 발명에서 사용될 수 있다.
본 발명의 하나의 실시예에서, 사용되는 카메라는 그레이-스케일(grey-scale) 이미지를 캡처할 수 있는 모션 캡처 카메라이다. 하나의 실시예에서, 사용되는 카메라는 Vicon 사에 의해 제조된 카메라(가령, Vicon MX40 카메라)이다. 이 카메라는 온-카메라 프로세싱(on-camera processing) 기능을 포함하며, 초 당 1000 프레임으로 이미지 캡처할 수 있다. 모션 캡처 카메라는 마커(marker)를 검출하고 마커의 위치를 파악할 수 있다.
기재되는 실시예에서, 카메라는 광학 검출을 위해 사용된다. 또 다른 실시예에서, 카메라 또는 그 밖의 다른 검출기가 전자기(electromagnetic) 타입, 정자기(magnetostatic) 타입, RFID 타입 또는 그 밖의 다른 임의의 적합한 검출 타입용으로 사용될 수 있다.
전-프로세서(105)가 사용되어, 3차원 공간 포인트의 재구성 및 골격 포인트(skeletal point)의 라벨링을 발생시킨다. 상기 제스처 번역기(106)가 사용되어 3D 공간 정보와 마커 움직임 정보가 명령어 언어로 변환되며, 상기 명령어 언어는 컴퓨터 프로세서에 의해, 디스플레이 상의 커서의 위치, 형태 및 액션(action)을 업데이트할 수 있다. 본 발명의 또 다른 실시예에서, 상기 전-프로세서(105)와 제스처 번역기(106)는 하나의 단일 장치로 조합될 수 있다.
컴퓨터(107)는 임의의 범용 컴퓨터일 수 있으며, 예를 들자면, Apple, Dell 또는 그 밖의 다른 임의의 적합한 제조사의 컴퓨터일 수 있다. 상기 컴퓨터(107)는 애플리케이션을 실행하고, 디스플레이 출력을 제공한다. 다른 경우라면 마우스나 그 밖의 다른 공지된 입력 장치로부터 제공될 커서 정보가, 제스처 시스템으로부터 제공된다.
마커 태그( Marker Tag )
본 발명은, 시스템이 사용자의 손의 위치를 파악하며, 시스템이 보고 있는 것이 왼손인지 오른손인지를 식별하고, 보여지는 손가락이 어느 손가락인지를 식별하기 위해, 사용자의 하나 이상의 손가락 상에 마커 태그를 사용하는 것을 고려한다. 이로 인해서, 시스템은 사용자 손의 위치, 배향 및 움직임을 검출할 수 있다. 이 정보에 의해, 복수의 제스처가 시스템에 의해 인식될 수 있고, 사용자에 의해 명령어(command)로서 사용될 수 있다.
하나의 실시예에서 상기 마커 태그는, (본 발명의 실시예에서, 인간의 손의 다양한 위치에 부착되기에 적합한) 기판과, 상기 기판의 표면에 고유의 식별 패턴으로 배열된 개별적인 마커를 포함하는 물리적 태그이다.
상기 마커 및 이와 연계된 외부 감지 시스템은, 이들의 3차원 위치의 정확하고 정교하며 신속하고 연속적인 획득(acquisition)을 가능하게 하는 임의의 영역(광, 전자기, 정자기 등)에서 동작할 수 있다. 상기 마커 자체는, (가령, 구조된(structured) 전자기 펄스를 발산함으로써) 능동적으로, 또는 (가령, 본원에서 언급되는 바와 같이, 광학 역반사에 의해) 수동적으로 동작할 수 있다.
획득의 각각의 프레임에서, 검출 시스템은, 복원된 3차원 위치의 집성된 ‘클라우드(cloud)’를 수신하는데, 상기 집성된 클라우드는, (카메라 또는 그 밖의 다른 검출기의 가시 범위 내에서) 기기의 작업공간에 현재 존재하는 태그로부터의 모든 마커를 포함한다. 각각의 태그 상의 마커들은 충분히 많으며, 고유의 패턴으로 배열되어 있어서, 검출 시스템은, (1) 각각의 복원된 마커 위치가, 하나의 단일 태그를 형성하는 포인트들의 유일무이한 하위집합(subcollection)에 할당되는, 세분화(segmentation) 작업, (2) 각각의 세분화된 포인트 하위집합이 특정한 하나의 태그로서 식별되는, 라벨링(labelling) 작업, (3) 식별된 태그의 3차원 위치가 복원되는, 위치 파악(location) 작업, 및 (4) 식별된 태그의 3차원 배향이 복원되는 배향(orientation) 작업을 수행할 수 있다. 작업(1) 및 작업(2)은 마커 패턴의 특정 속성을 통해 가능해지며, 이는 이하에서 설명될 것이며, 도 2에서 하나의 실시예로서 도시되어 있다.
하나의 실시예에서 태그 상의 마커가 정규 격자 위치의 서브셋에 부착된다. 본 실시예에서처럼, 이러한 기저 격자(underlying grid)는 전통적인 카테시안 정렬(cartesian sort)을 이용하거나, 대신, 그 밖의 다른 임의의 정규 평면 테셀레이션(tessellation)(가령, 삼각형/육각형 붙이기 배열(triangular/hexagonal tiling arrangement))을 이용할 수 있다. 격자의 눈금(scale)과 공간(spacing)은, 마커-감지 시스템의 알려진 공간 분해능과 관련하여, 확립되어, 이웃하는 격자 위치가 혼동될 가능성이 없도록 할 수 있다. 모든 태그에 대한 마커 패턴의 선택은 다음의 제약사항을 만족시켜야 한다: 어떠한 태그의 패턴도, 그 밖의 다른 임의의 태그의 패턴의 회전(rotation), 이동(translation), 반사대칭(mirroring) 중 임의의 조합을 통한 패턴과 일체하지 않아야 한다. 일부 특정 개수의 구성 마커의 손실(또는 맞물림)은 용인되도록 마커의 다중도 및 배열이 선택될 수 있다. 임의의 변형 후, 오염된 모듈을 그 밖의 다른 임의의 모듈과 혼란할 가능성이 없어야 한다.
도 2를 참조해 보면, 복수의 태그(201A-201E)(왼손)와 태그(202A-202E)(오른손)가 나타난다. 각각의 태그는 장방형이고, 이 실시예에서, 5×7 격자 어레이로 구성된다. 장방형 형태는 태그의 배향을 결정할 때 도움이 되기 위해, 그리고 반사 중복(mirror duplicate)의 가능성을 감소시키기 위해 선택된 것이다. 도시된 실시예에서, 각각의 손의 각각의 손가락에 대한 태그가 존재한다. 일부 실시예에서, 하나의 손에 1, 2, 3 또는 4개의 태그를 이용하는 것이 적합할 수 있다. 각각의 태그는 다른 그레이-스케일이나 컬러 음영을 갖는 경계부를 갖는다. 이 실시예에서, 이러한 경계부 내에 3×5 격자 어레이가 있다. 마커(도 2에서 검은 점으로 표현됨)가 격자 어레이 내 특정 점에 배치되어, 정보를 제공할 수 있다.
각각의 패턴의 ‘공통(common)’과 ‘고유(unique)’ 서브패턴으로의 세분화를 통해, 검증 정보가 태그의 마커 패턴에 인코딩될 수 있다. 예를 들어, 본 발명의 실시예는 2가지 가능한 ‘경계부 패턴’을 특정한다(장방형 경계부 주변에 마커가 분포). 따라서 태그의 ‘군(family)’이 확립되며, 왼손에 대한 태그는 모두, 태그(201A-201E)에서 나타난 바와 같이, 서로 동일한 경계부 패턴을 이용하며, 반면에, 오른손의 손가락에 부착된 태그는, 태그(202A-202E)에서 나타난 바와 같이, 서로 다른 패턴을 할당받을 수 있다. 이러한 서브패턴은, 태그의 모든 배향에서, 왼 패턴이 오른 패턴과 구별될 수 있도록 선택된 것이다. 도시된 예에서, 왼손 패턴은 각각의 코너에 하나의 마커를 포함하고, 코너 격자 위치로부터 두 번째에 하나의 마커를 포함한다. 오른손 패턴은 단 2개의 코너에만 마커를 가지며, 코너가 아닌 격자 위치에 2개의 마커를 갖는다. 패턴을 자세히 살펴보면, 4개의 마커 중 임의의 3개가 보이는 한, 왼손 패턴은 오른손 패턴으로부터 확실하게 구별될 수 있음을 알 수 있다. 하나의 실시예에서, 경계부의 컬러 또는 음영이 어느 손인지(handedness)에 대한 지시자(indicator)로서 사용될 수도 있다.
물론 각각의 태그는 여전히 고유의 내부 패턴을 이용하는데, 이때 마커는 자신의 군(family)의 공통 경계부 내에서 분포되어 있다. 도시된 실시예에서, 내부 격자 어레이 내 2개의 마커가, 손가락의 회전이나 배향으로 인한 어떠한 중복도 없이, 10개의 손가락 각각을 고유하게 식별하기에 충분함이 밝혀졌다. 마커 중 하나가 맞물리는 경우라도, 태그의 패턴과 왼손/오른손 특성(handedness)의 조합이 고유의 식별자를 만들어낸다.
본 실시예에서, 각각의 역반사성 마커(retroreflective marker)를 자신의 의도된 위치에 부착하는 작업(수작업)을 보조하기 위해, 격자 위치가 강성(rigid) 기판 상에 시각적으로 제공된다. 이들 격자 및 의도되는 마커 위치는 컬러 잉크젯 프린터를 통해 기판 상으로 그대로 인쇄되며, 이때, 상기 기판은 연성 ‘수축 필름(shrink film)’의 시트이다. 각각의 모듈은 상기 시트로부터 절단되고, 오븐-베이킹되며, 이러한 오븐-베이킹 동안 각각의 모듈을 열처리함으로써, 정확하고 재연 가능한 수축이 수행된다. 이러한 절차에 뒤 따르는 짧은 간격 후, 가령, 손가락의 길이방향 곡선을 다소 따르도록 냉각 태그의 형태가 정해질 수 있다. 그 후, 기판이 적정하게 강성이 되고, 마커는 지시된 격자 점에 부착될 수 있다.
하나의 실시예에서, 마커 자체는 3차원이며, 예를 들면, 접착제나 그 밖의 다른 임의의 적합한 수단을 통해 기판에 부착되는 소형의 반사성 구이다. 마커의 3차원 특성은 2차원 마커에 비해 검출 및 위치 파악에 도움이 될 수 있다. 그러나 본 발명의 사상과 범위 내에서 어느 것이든 사용될 수 있다.
이제, 태그가 Velcro나 그 밖의 다른 적합한 수단을 통해, 조작자가 착용하는 장갑에 부착되거나, 대신, 약한 양면 접착 테이프를 이용해 조작자의 손가락에 직접 부착된다. 세 번째 실시예에서, 강성 기판 없이, 개별 마커를 조작자의 손가락 및 손에 직접 부착, 또는 칠(paint)하는 것이 가능하다.
제스처 어휘( Gesture Vocabulary )
본 발명은 손 포즈(hand pose), 배향, 손 조합, 배향 혼합으로 구성된 제스처 어휘를 고려한다. 또한 본 발명의 제스처 어휘에서, 포즈와 제스처를 설계하고 소통하기 위한 표기 언어(notation language)가 구현된다. 상기 제스처 어휘는, 운동 관절(kinematic linkage)의 순간적인 ‘포즈 상태’를, 압축적인 텍스트 형태로 표현하기 위한 시스템이다. 상기 관절은 생물학적(예를 들어 인간의 손, 또는 인간 몸 전체, 또는 메뚜기 다리, 또는 여우 원숭이의 척추관절)이거나, 비생물학적(가령, 로봇의 암)인 것일 수 있다. 어떠한 경우라도, 관절은 단순형(척추)이거나, 가지형(손)일 수 있다. 본 발명의 상기 제스처 어휘 시스템은 임의의 특정 관절에 대해, 일정 길이 문자열을 확립하고, 상기 문자열의 ‘문자 위치(character location)’를 차지하는 특정 ASCII 문자들의 집합이, 관절의 순간적인 상태, 즉, ‘포즈’의 고유한 기술어(description)가 된다.
손 포즈
도 3은 본 발명을 이용하는 제스처 어휘의 하나의 실시예에서의 손 포즈를 도시한다. 상기 방법은 하나의 손의 다섯 개의 손가락 각각이 사용된다고 가정한다. 이들 손가락은 소지(새끼손가락)-p, 약지-r, 중지-m, 검지-i, 엄지-t로 코딩된다. 엄지와 손가락들에 대한 복수의 포즈들이 도 3에서 정의되어 있다. 제스처 어휘의 문자열은, 관절(이 경우, 손가락)에서 각각의 표현할 수 있는 자유도(degree of freedom)에 대하여 단일 문자 위치를 확립한다. 덧붙이자면, 문자열의 상기 위치에 유한 개수의 표준 ASCII 문자들 중 하나를 할당함으로써 전체 범위의 움직임이 표현될 수 있도록, 이러한 각각의 자유도는 이산화(또는 양자화)되는 것으로 이해된다. 이러한 자유도는 신체-특정 원점 및 좌표 시스템(손 등, 메뚜기의 몸체의 중심, 로봇 암의 부착부(base) 등)에 관련하여 표현된다. 따라서 적은 개수의 추가적인 제스처 어휘 문자 위치가, 더 전역적인 좌표 시스템에서 관절의 위치와 배향을 ‘전체적으로’ 표현하도록 사용된다.
도 3을 참조하면, ASCII 문자를 이용하여 복수의 포즈가 정의되고 식별된다. 상기 포즈 중 일부는 엄지형(thumb)과 비-엄지형(non-thumb)로 나뉜다. 이 실시예에서, 본 발명은 ASCII 문자 자체가 포즈의 암시인 코딩을 사용한다. 그러나 포즈를 표현하기 위해 어떠한 문자라도, 포즈를 암시하는 것에 관계없이, 사용될 수 있다. 덧붙여, 본 발명에서 표기 문자열용으로 ASCII 문자를 이용하기 위한 어떠한 요구사항도 없다. 임의의 적합한 기호, 숫자, 또는 그 밖의 다른 표현법이 본 발명의 사상과 범위 내에서 사용될 수 있다. 예를 들어, 바람직하다면, 표기법은 손가락 당 2비트를 이용할 수 있다. 또는 요구되는 대로 그 밖의 다른 비트 수를 이용할 수도 있다.
구부러진 손가락이 문자 “^”로 표현되며, 구부러진 엄지는 “>”로 표현된다. 위를 향해 곧은 손가락 또는 엄지는 “I”로 지시되며, “\”, 또는 “/”로 각(angle)이 지시된다. "-"는 옆으로 곧은 엄지를 나타내고, “x"는 수평면을 가리키는 엄지를 나타낸다.
이러한 개별 손가락 및 엄지에 대한 기술어를 이용함으로써, 본 발명의 방식을 이용하여 수많은 개수의 손 포즈가 정의되고 써질 수 있다. 각각의 포즈가 5개의 문자에 의해 표현되며, 이때, 순서는 앞서 언급한 p-r-m-i-t이다. 도 3은 다양한 포즈를 도시하면, 이들 중 몇 개가 예시와 설명을 위해 본원에서 기재된다. 평평하게, 그리고 지면과 평행하게 유지된 손은 “11111”로 표현된다. 주먹은 “^^^^>”로 표현된다. “OK” 사인은 “111^>”로 표현된다.
암시적인 문자를 이용할 때, 문자열이 쉬운 ‘인간 가독성(human readability)’을 위한 기회를 제공한다. 각각의 자유도를 기술하는 가능한 문자의 집합은, 빠른 인식과 분명한 유추를 위해, 눈으로 선택될 수 있는 것이 일반적이다. 예를 들어, 수직 바(‘|’)는 관절 요소가 ‘곧음(straight)’을 의미하고, 엘('L')은 90도 구부린 상태를 의미하며, 곡절 악센트(‘^’)는 급격히 굽은 상태를 나타낼 수 있다. 앞서 언급한 바와 같이, 어떠한 문자나 코딩이라도 원하는 대로 사용될 수 있다.
제스처 어휘 문자열(가령, 본원에서 기재된 것)을 이용하는 임의의 시스템은, 희망 포즈 문자열과 순간적인 실제 문자열 간의 문자열 비교의 높은 계산적 효율을 이점으로 갖는다(임의의 특정 포즈에 대한 식별, 또는 검색은 말 그대로, ‘문자열 비교(string compare)’가 된다(가령, UNIX의 ‘strcmp( )’ 함수)). 덧붙이자면, ‘와일드카드 문자(wildcard character)’의 사용이 프로그래머나 시스템 설계자에게 친숙한 효율과 효능을 더 제공한다: 매치(match)와 관계없는 순간 상태를 갖는 자유도가 물음표(‘?’)로 특정될 수 있으며, 추가적인 와일드카드의 의미가 할당될 수 있다.
배향
손가락 및 엄지의 포즈에 추가로, 손의 배향은 정보를 나타낼 수 있다. 또한 전역 공간 배향(global-space orientation)을 기술하는 문자가 직관적으로 선택될 수 있다: 문자 ‘<’, ‘>’, ‘^’ 및 ‘v’는, 배향 문자 위치에서 쓰일 때, 왼쪽, 오른쪽, 위 및 아래의 개념을 나타낼 수 있다. 도 4는 손 배향 기술어를 도시하고, 포즈와 배향을 조합하는 코딩의 예를 도시한다. 본 발명의 하나의 실시예에서, 2개의 문자 위치는, 우선, 손바닥의 방향을 특정하고, 그 후, (손가락들의 실제 구부러짐 여부에 관계없이, 손가락들이 곧게 펴 있을 시의) 손가락의 방향을 특정한다. 이들 2개의 위치에 대한 가능한 문자는 배향의 ‘몸-중심(body-centric)’ 표기를 표현한다: ‘-’, ‘+’, ‘x’, ‘*’, ‘^’ 및 ‘v’가 내측(medial), 외측(lateral), 전방(anterior)(몸 앞쪽으로 멀어지는 방향), 후방(몸 뒤쪽으로 멀어지는 방향), 두측(cranial)(위 방향) 및 미측(caudal)(아래 방향)을 기술한다.
본 발명의 하나의 실시예의 표기 방식에서, 손가락 포즈를 나타내는 5개의 문자들 뒤에, 콜론(:)이 뒤 따르고, 그 뒤에, 2개의 배향 문자가 뒤 따라서 완전한 명령어 포즈를 정의할 수 있다. 하나의 실시예에서, 시작 위치는 "xyz" 포즈라고 일컬어지며, 상기 "xyz" 포즈에서, 엄지가 위를 향해 곧게 뻗어 있고, 검지가 전방을 가리키며, 중지가 상기 검지와 수직을 이루면서 좌측을 가리킨다(상기 포즈가 왼손으로 만들어졌을 때). 이 포즈는 문자열 “^^x|-:-x"로 표현된다.
‘XYZ-핸드’은, 시각적으로 제공되는 3차원 구조의 완전한 6-자유도 항법을 가능하게 하기 위해, 인간의 손의 기하학적 형태를 활용하기 위한 기법이다. 상기 기법이 조작자의 손의 직선운동과 회전운동에만 의존할지라도(원칙적으로 조작자의 손가락이 원하는 어떠한 포즈로도 유지될 수 있도록), 본 실시예는 검지가 몸으로부터 멀어지는 방향을 가리키고, 엄지가 천장을 가리키고, 중지가 왼쪽-오른쪽을 가리키는 정적인 구성을 선호한다. 따라서 상기 3개의 손가락이 3-공간 좌표계의 상호 직교하는 3개의 축들을 (대략적으로, 그러나 의도는 분명히 명료하게 나타나도록) 기술한다: 따라서 ‘XYZ-핸드’이다.
그 후, XYZ-핸드 항법이 손을 이용해 진행되며, 이때 조작자의 몸이 지정된 ‘중립 위치’가 되기 전까지 손가락들은 앞서 언급된 바와 같은 포즈를 취한다. 3-공간 물체(또는 카메라)의 3개의 직선운동 자유도와 3개의 회전운동 자유도에 접근하는 것이 다음의 자연스러운 방식으로 발효된다: (몸의 자연 좌표계에 대한) 손의 좌-우 움직임이 연산적 콘텍스트(computational context)의 x-축을 따르는 운동을 도출하고, 손의 위-아래 움직임이 연산적 콘텍스트의 y-축을 따르는 운동을 도출하며, 손의 앞-뒤 움직임(조작자의 몸 쪽 방향-조작자의 몸에서 멀어지는 방향)이 콘텍스트 내에서 z-축 움직임을 도출한다. 이와 유사하게, 검지를 중심으로 하는 조작자의 손의 회전은 연산적 콘텍스트의 배향의 ‘롤 회전(roll)’ 변화를 도출하며, 마찬가지로, ‘피치 회전(pitch)’과 ‘요 회전(yaw)' 변화는 각각, 조작자의 중지와 엄지를 중심으로 하는 회전을 통해 도출된다.
본원에서, ‘연산적 콘텍스트(computational context)’이 XYZ-핸드법에 의해 제어되는 개체를 일컫기 위해 사용되고, 가공의 3-공간 물체나 카메라를 제시하는 것처럼 보이지만, 상기 기법은 실세계의 물체의 다양한 자유도를 제어할 때도 동일하게 유용함을 이해해야 한다. 예를 들자면, 적정한 회전 엑추에이터가 구비된 비디오나 모션 픽처 카메라의 팬(pan)/틸트(tilt)/롤(roll) 제어에도 유용하다. 덧붙여, XYZ-핸드 포즈에 의해 도출된 물리적 자유도는 가상 영역에서는 다소 덜 정확하게 매핑될 수 있다. 본 실시예에서, XYZ-핸드는 대형 파노라마 디스플레이 이미지의 항법 액세스(navigational access)를 제공하기 위해 사용될 수도 있는데, 여기서 조작자 손의 좌-우 및 위-아래 움직임이 이미지에 대한 기대되는 좌-우 또는 위-아래 패닝(panning)을 야기하며, 다만, 조작자 손의 앞-뒤 움직임은 ‘줌(zooming)' 제어로 매핑된다.
모든 경우에서, 손의 움직임과 유도되는 연산적 직선/회전운동 간 결합이 직접적이거나(즉, 조작자의 손의 위치나 회전의 오프셋(offset)이, 임의의 선형(또는 비선형) 함수를 통해, 연산적 콘텍스트의 물체나 카메라의 위치 또는 회전 오프셋과 1대1로 사상됨), 간접적일 수 있다(즉, 조작자 손의 위치 또는 회전 오프셋이, 임의의 선형(또는 비선형) 함수를 통해, 1대1로, 연산적 콘텍스트의 위치/배향의 1차 도함수나 그 이상의 차수의 도함수와 사상되고, 그 후, 연속 적분(ongoing integration)이 연산적 콘텍스트의 실제 0차 위치/배향의 비-정적 변화를 도출함). 이러한 간접적 제어 수단은, 페달의 일정한 오프셋이 일정한 차량 속도를 덜, 또는 더 야기하는, 자동차의 ‘가속 페달’의 사용과 유사하다.
실세계의 XYZ-핸드의 로컬 6-자유도 좌표의 원점으로서 기능하는‘중립 위치’는, (1) (막힌 공간에 대해 상대적인) 공간에서 절대 위치 및 배향으로서, 또는 (2) 조작자의 전체 위치 및 ‘바라보는 방향(heading)’에 관계없이, 조작자 자신에 대한 고정된 위치 및 배향으로서(가령, 몸의 앞쪽으로 8인치, 턱 아래 10인치, 어깨 평면과 일직선으로 외측으로), 또는 (3) 조작자의 의도된 보조 동작을 통해 상호대화적으로(이는 예를 들어, 조작자의 ‘다른’ 손을 통해 내려진 제스처 명령어를 이용하여 이뤄질 수 있으며, 이때, 상기 명령어는 XYZ-핸드의 현재 위치와 배향이 이때부터 직선운동 및 회전운동의 원점으로 사용되어야 함을 나타냄), 확립될 수 있다.
XYZ-핸드의 중립 위치에 관한 ‘멈춤(detent)’ 영역(또는 ‘데드 존(dead zone)’)을 제공하는 것이 또한 편리하다. 이러한 공간에서의 움직임은 제어 콘텍스트에서의 움직임으로 사상되지 않는다.
그 밖의 다른 포즈로는 다음을 포함한다:
[|||||:vx]는 평평한 손으로서(엄지가 손가락들과 평행), 손바닥이 아래를 향하고, 손가락들은 전방을 향하는 손을 나타낸다.
[|||||:x^]는 평평한 손으로서, 손바닥이 위를 향하고, 손가락들이 천장을 가리키는 손을 나타낸다.
[|||||:-x]는 평평한 손으로서, 손바닥이 몸의 중심을 향하고(왼손의 경우, 오른쪽, 오른손의 경우 왼쪽), 손가락들이 전방을 가리키는 손을 나타낸다.
[^^^^-:-x]는 한 손의 엄지만 편 손(이때 엄지는 천장을 가리킴)을 나타낸다.
[^^^|-:-x]는 전방을 향하는 총 모양 손을 나타낸다.
두 손 조합
본 발명은 하나의 손 명령어와 포즈를 고려할 뿐 아니라, 2-손 명령어 및 포즈도 고려한다. 도 5는 본 발명의 하나의 실시예에 따르는 두 손 조합과 이와 관련되는 표기법의 예시를 도시한다. 첫 번째 예시의 표기를 살펴보면, “멈춤(full stop)”은 2개의 쥔 주먹을 포함함을 알 수 있다. “스냅샷(snapshot)”예시에서는 각각의 손의 엄지들과 검지들이 뻗어 있는데, 엄지들이 서로를 가리켜서 골대 모양의 프레임을 형성한다. “방향타 및 조절판 시작 위치”에서는 엄지와 나머지 손가락들이 위를 가리키고 손바닥이 스크린을 향한다.
배향 혼합( orientation blend )
도 6은 본 발명의 하나의 실시예에서 배향 혼합의 하나의 예를 도시한다. 도시된 예시에서, 혼합은, 손가락 포즈 문자열 뒤에서, 배향 표기의 쌍을 괄호 안에 묶음으로써 표현된다. 예를 들어, 첫 번째 명령어는 모두 곧게 뻗어 있는 손가락 위치를 나타낸다. 배향 명령어의 첫 번째 쌍은 손바닥이 펴서 디스플레이를 향하고, 두 번째 쌍은 손이 스크린 쪽으로 45도 피치(pitch) 회전함을 의미한다. 이 예에서, 혼합의 쌍들이 제시되었지만, 본 발명에서 임의의 개수의 혼합도 고려될 수 있다.
명령어 예시
도 8은 본 발명에서 사용될 수 있는 다양한 가능한 명령어를 도시한다. 본원의 기재 중 일부는 디스플레이 상의 커서를 제어하는 것에 관한 것이지만, 본 발명은 이러한 행동에 국한되지 않는다. 실제로, 본 발명은 스크린 상의 모든, 또는 일부 데이터(그 뿐 아니라 디스프레이 상태까지)를 조작함에 있어 더 넓은 적용범위를 갖는다. 예를 들어, 명령어가 비디오 미디어의 재생 동안 비디오 제어를 발생시키도록 사용될 수 있다. 명령어는 일시 멈춤, 빨리 감기, 되감기 등을 위해 사용될 수 있다. 덧붙여, 명령어는 이미지의 줌 인, 또는 이미지의 줌 아웃, 또는 이미지 배향의 변경, 임의의 방향으로의 팬(pan) 운동 등을 하도록 구현될 수 있다. 본 발명은 또한 메뉴 명령어(가령, 열기, 닫기, 저장 등)를 대신하여 사용될 수도 있다. 다시 말하자면, 상상될 수 있는 어떠한 명령어 또는 활동도, 손 제스처를 이용하여, 구현될 수 있다.
동작
도 7은 하나의 실시예에서의 본 발명의 동작을 도시하는 순서도이다. 단계(701)에서, 검출 시스템이 마커와 태그를 검출한다. 결정 블록(702)에서, 태그와 마커가 검출되었는지의 여부가 결정된다. 검출되지 않은 경우, 시스템은 단계(702)로 복귀한다. 단계(702)에서 태그와 마커가 검출되었다고 판단된 경우, 시스템은 단계(703)로 진행한다. 단계(703)에서, 시스템은 검출된 태그와 마커로부터 손, 손가락 및 포즈를 식별한다. 단계(704)에서 시스템은 포즈의 배향을 식별한다. 단계(705)에서 시스템은 검출된 하나 이상의 손의 3차원 공간 위치를 식별한다. (단계(703, 704 및 705) 중 하나 이상은 하나의 단일 단계로 조합될 수 있다.)
단계(706)에서 정보가 앞서 기재된 바 있는 제스처 표기(gesture notation)로 번역된다. 결정 단계(707)에서, 포즈가 유효한가의 여부가 판단된다. 이는 생성된 표기 문자열을 이용한 간단한 문자열 비교를 통해 이뤄질 수 있다. 포즈가 유효한 것이 아니라면, 시스템은 단계(701)로 복귀한다. 포즈가 유효하다면, 단계(708)에서 시스템은 표기와 위치 정보를 컴퓨터로 전송한다. 단계(709)에서 컴퓨터는 제스처에 응답하여 적정한 액션이 취해지도록 결정하고, 이에 따라서 단계(710)에서 디스플레이를 업데이트한다.
본 발명의 하나의 실시예에서, 온-카메라 프로세서(on-camera processor)에 의해, 단계(701-705)가 수행된다. 또 다른 실시예에서, 바람직한 경우, 프로세싱이 시스템 컴퓨터에 의해 이뤄질 수 있다.
파싱 및 번역
본 발명의 시스템은 기저 시스템에 의해 복원된 로우-레벨 제스처의 스트림을 “파싱(parse)”하고 “번역(translate)”할 수 있고, 이러한 파싱되고 번역된 제스처를 명령어의 스트림이나 이벤트 데이터로 변환시킬 수 있으며, 이러한 명령어의 스트림이나 이벤트 데이터는 광범위한 컴퓨터 애플리케이션 및 시스템을 제어하도록 사용될 수 있다. 이들 기법 및 알고리즘은, 이들 기법을 구현하는 엔진과 상기 엔진의 능력을 이용하는 컴퓨터 애플리케이션을 구축하기 위한 플랫폼을 모두 제공하는 컴퓨터 코드로 이루어진 시스템에서 구현될 수 있다.
하나의 실시예가 컴퓨터 인터페이스에서 인간의 손에 의한 풍분한 제스처적 사용을 가능하게 하는 것에 초점을 맞추지만, 또 다른 인체의 부분(예컨대, 팔, 몸통, 다리 및 머리, 그러나 이에 국한되지 않음)뿐 아니라, 다양한 종류의 손을 쓰지 않는 도구(정적(static) 도구와 다관절(articulating) 도구 둘 모두)(예컨대, 캘리퍼스(calipers), 콤파스, 유연성 곡선 근사화기(curve approximator) 및 다양한 형태의 위치 지시 장치, 그러나 이에 국한되지 않음)에 의해 이뤄진 제스처를 인식할 수 있다. 마커와 태그는, 조작자가 지니고 사용할 물건 및 도구에 적용될 수 있다.
본원에서 기재되는 시스템은, 인식될 있고 이에 따라 동작이 취해질 수 있는 넓은 범위의 풍부한 제스처를 포함하면서 동시에, 애플리케이션으로의 간편한 통합을 제공하는 제스처 시스템을 구축할 수 있게 해주는 많은 혁신기술을 포함한다.
하나의 실시예에 따르는 제스처 파싱 및 번역 시스템은 다음의 1) 내지 3)으로 구성된다.
1) 여러 다른 집성 레벨로 제스처를 특정하기 위한(컴퓨터 프로그램에서 사용되기 위해 인코딩하기 위한) 간결하고 효과적인 방식:
a. 한 손의 “포즈”(손의 일부분들의 서로에 대한 구성 및 배향). 3차원 공간에서의 한 손의 배향과 위치.
b. 둘 중 어느 한 손의 포즈, 또는 위치(또는 둘 모두)를 고려하기 위한 두 손 조합.
c. 복수의 사람 조합; 시스템은 셋 이상의 손을 추적할 수 있으며, 따라서 둘 이상의 사람이 협업적으로(또는 게임 애플리케이션의 경우 경쟁적으로) 표적 시스템을 제어할 수 있다.
d. 포즈가 순차적으로 조립되는 시퀀스 제스처. 이를 “애니메이팅(animating)” 제스처라고 일컫는다.
e. 조작자가 공간에서 형태를 추적하는 “그래핌(graphme)” 제스처.
2) 앞서 언급된 각각의 카테고리로부터 주어진 애플리케이션 콘텍스트와 관련있는 특정 제스처를 등록하기 위한 프로그래밍 기법.
3) 등록된 제스처가 식별되고 이들 제스처를 캡슐화하는 이벤트가 관련 애플리케이션 콘텍스트로 전달될 수 있도록 제스처 스트림을 파싱하기 위한 알고리즘.
구성요소(1a) 내지 (1f)를 갖는 특정화 시스템(specification system)(1)이 본원에서 기재되는 시스템의 제스처 파싱 및 번역 기능을 이용하기 위한 토대를 제공한다.
한 손 “포즈”는,
ⅰ) 손가락과 손등 간의 상대적 배향의 문자열로서 표현되며,
ⅱ) 적은 개수의 이산 상태로 양자화된다.
상대적 복합 배향(relative joint orientation)에 의해, 본원의 시스템은 서로 다른 손 크기와 형태와 관련된 문제를 피할 수 있다. 본 발명의 시스템에서는 어떠한 “연산자 교정(operator calibration)”도 필요하지 않다. 덧붙여, 포즈를 상대적 배향의 문자열 또는 집합으로 특정하는 것은, 추가적인 필터와 특정화(specification)를 이용하여 포즈 표현을 조합함으로써, 더 복잡한 제스처 특정화가 용이하게 생성되게 할 수 있다.
포즈 특정화를 위한 적은 개수의 개별적인 상태들을 이용함으로써, 포즈를 간결하게(compactly) 특정하고, 다양한 기저 추적 기법(가령, 카메라를 이용한 수동 광 추적, 발광 점(lighted dot)과 카메라를 이용한 능동 광 추적, 전자기장 추적 등)을 이용한 정확한 포즈 인식을 보장하는 것이 가능할 수 있다.
모든 카테고리(1a) 내지 (1f)에서 비-핵심 데이터는 무시되도록 제스처는 부분적으로(또는 최소한만) 특정될 수 있다. 예를 들어, 2개의 손가락의 위치가 결정적이고, 그 밖의 다른 손가락 위치는 중요치 않은 제스처는, 2개의 관련 손가락의 동작 위치가 주어지는 한 번의 특정화에 의해, 표현될 수 있으며, 하나의 동일한 문자열 내에서, 다른 손가락에 대해 “와일드카드(wild card)” 또는 일반적인“이것을 무시(ignore these)” 지시자가 리스팅(listing)된다.
제스처 인식에 대해 본원에서 기재된 혁신기술(가령, 멀티-레이어 특정화 기법, 상대적 배향의 사용, 데이터의 양자화, 모든 레벨에서 부분(또는 최소) 특정화만 허용)은 모두 손 제스처의 특정화를 넘어, 그 밖의 다른 신체 부위 및 “제조된” 도구와 물체를 이용한 제스처 특정화까지 일반화될 수 있다.
“제스처 등록하기”를 위한 프로그램적 기법(2)은, 엔진에 의해 실행 중인 시스템의 다른 부분에서도 이용가능해져야 할 제스처가 어느 것인지를 프로그래머가 정의할 수 있게 해주는 API(애플리케이션 프로그래밍 인터페이스) 콜의 지정된 세트로 구성된다.
이들 API 루틴은 애플리케이션 셋-업 시점에서 사용되어, 실행 중인 애플리케이션의 수명 전체 동안 사용되는 정적 인터페이스 정의를 생성할 수 있게 한다. 이들은 또한 실행 중에 사용되어, 인터페이스 특성이 그때 그때 변경되도록 할 수 있다. 이러한 인터페이스의 실시간 변경에 의해,
ⅰ) 복잡한 콘텍스트적 및 조건적 제어 상태를 구축하는 것,
ⅱ) 제어 환경에 히스테리시스(hysterisis)를 동적으로 추가하는 것,
ⅲ) 사용자가 실행 시스템 자체의 인터페이스 어휘를 변경 또는 확장시킬 수 있는 애플리케이션을 생성하는 것
이 가능해진다.
제스처 스트림을 파싱하기 위한 알고리즘(3)은 (1)에서 특정(specify)되고, (2)에서 등록된 제스처를 입력되는(incoming) 로우-레벨 제스처 데이터와 비교한다. 등록된 제스처에 대한 매치(match)가 인식되면, 매칭된 제스처를 표현하는 이벤트 데이터가 스택에서 실행 애플리케이션으로 넘겨진다.
본 발명의 시스템의 설계에서 효과적인 실시간 매칭이 바람직하며, 특정된 제스처가, 가능한 빨리 처리되는 가능성(possibility)의 하나의 트리로서 취급된다.
덧붙여, 특정된 제스처를 인식하기 위해 내부적으로 사용되는 원시 비교 연산자(primitive comparison operator)가 또한 애플리케이션 프로그래머에게 사용될 수 있도록 노출되어, 애플리케이션 콘텍스트 내로부터 추가적인 비교(예를 들어, 복잡 또는 복합적인 제스처의 유연 상태 검사)가 발생될 수 있다.
본원에서 기재된 시스템의 혁식기술에 “잠금(locking)” 시맨틱(semantic)의 인식이 있다. 이러한 시맨틱은 등록 API(2)에 의해 함축된다(그리고, 보다 적게는, 특정화 어휘(1) 내에 임베디드된다). 등록 API 콜은,
ⅰ) “엔트리(entry)” 상태 통지자(notifier) 및 “계속(continuation)” 상태 통지자, 및
ⅱ) 제스처 우선순위 특정자(specifier)
를 포함한다.
제스처가 인식되는 경우, 상기 제스처의 “계속” 상태는, 동일한 더 낮은 우선순위의 제스처의 모든 “엔트리” 상태보다 우선한다. 이러한 엔트리와 계속 상태 간의 구별이 인지 시스템(perceived system)에 상당한 유용성(usability)을 추가한다.
본원의 시스템은 실세계 데이터 에러 및 불확실성에 대해 견고한 동작(robust operation)을 위한 알고리즘을 포함한다. 로우-레벨 추적 시스템으로부터의 데이터는 불완전할 수 있다(그 이유는 다양하다. 가령, 광학 추적 중 마커의 맞물림(occlusion), 네트워크 드롭-아웃(network drop-out), 또는 프로세싱 래그(processing lag) 등 때문일 수 있다).
파싱 시스템에 의해 손실 데이터(missing data)가 마킹(mark)되고, 상기 손실 데이터의 크기와 콘텍스트에 따라서, “마지막으로 알려진(last known)” 또는 “가장 가능성 높은(most likely)” 상태로 보간(interpolate)된다.
특정 제스처 성분(가령, 특정 관절의 배향)에 관한 데이터가 손실된 경우, 그러나 특정 성분의 “마지막으로 알려진” 상태가 물리적으로 분석될 수 있는 것이 가능한 경우, 상기 시스템은 실시간 매칭에서 이러한 마지막으로 알려진 상태를 이용한다.
반대로 말하자면, 마지막으로 알려진 상태가 물리적으로 분석되는 것이 불가능한 경우, 상기 시스템은 성분의 “최선의 추측 범위(best guess range)”로 고장 대치(fall back)하며, 시스템은 실시간 매칭에서 이러한 합성 데이터를 이용한다.
본원에서 기재된 특정화 및 파싱 시스템은, 복수 손 제스처에 대하여 어느 손으든 포즈 요구사항을 만족시킬 수 있도록, “손잡이 불가지론(handedness agnosticism)”을 지원하도록 주의 깊게 설계되었다.
가상/디스플레이와 물리적 공간의 일치
본 발명의 시스템은, 하나 이상의 디스플레이 장치(“스크린”)에서 보여지는 가상 공간이 시스템의 한 명 이상의 조작자가 살고 있는 물리적 공간과 일치하도록 처리되는 환경을 제공할 수 있다. 이러한 환경의 실시예가 지금부터 기재된다. 이러한 실시예는 고정된 위치에 놓이는 3-프로젝터 구동식 스크린을 포함하며, 하나의 데스크톱 컴퓨터에 의해 구동되고, 본원에서 기재되는 제스처 어휘 및 인터페이스 시스템을 이용하여 제어된다. 그러나 임의의 개수의 스크린이 본원의 기법에 의해 지원되며, 이러한 스크린들은 (고정형이 아닌) 이동형일 수 있으며, 상기 스크린은 복수의 독립적인 컴퓨터들에 의해 동시에 구동될 수 있고, 전체 시스템은 임의의 입력 장치나 기법에 의해 제어될 수 있다.
본원에서 기재된 인터페이스 시스템은 물리적 공간에서의 스크린의 차원, 배향 및 위치를 판단하기 위한 수단을 가져야 한다. 이러한 정보를 가정하면, 상기 시스템은 이들 스크린이 위치하고 있는 (그리고 시스템의 조작자가 살고 있는) 물리적 공간을 동적으로 사상할 수 있다(시스템에서 실행 중인 컴퓨터 애플리케이션의 가상 공간으로의 투영). 이러한 자동 자상(automatic mapping)의 일부로서, 시스템은 시스템에 의해 호스팅되는 애플리케이션의 요구에 따라서, 상기 2개의 공간의 스케일(scale), 각, 심도, 크기 및 그 밖의 다른 공간적 특성을 다양한 방식으로 번역할 수 있다.
이러한 물리적 공간과 가상 공간 간의 연속적인 번역에 의해, 기존의 애플리케이션 플랫폼에서는 달성하기 어려웠던, 또는 기존 플랫폼에서 실행 중인 각각의 애플리케이션에 대해 단편적으로(piece meal) 구현되어야 했던 많은 인터페이스 기법의 일관되고(consistent) 편재적인(pervasive) 사용이 가능해진다. 이들 기법은 다음을 포함한다(그러나 이에 국한되는 것은 아니다):
1) “리터럴 포인팅(literal pointing)”의 사용--편재적이고 자연스러운 인터페이스 기법으로서 제스처 인터페이스 환경에서 손, 또는 물리적 지시 도구(또는 장치)를 이용하는 것.
2) 스크린의 움직임이나 위치 변경에 대한 자동 보상(automatic compensation).
3) 조작자의 위치에 따라 변화하는 그래픽 렌더링(가령,심도 지각(depth perception)을 강화하기 위한 시차 편이 시뮬레이팅).
4) 온-스크린 디스플레이 상에 물리적 물체를 포함시키는 것(실세계 위치, 배향, 상태 등을 고려하여). 예를 들자면, 불투명한 대형 스크린 앞에 서 있는 조작자는 애플리케이션 그래픽과, 스크린 뒤에 위치하는 (그리고 아마도 움직이거나 배향을 변경하는) 축적 모형(scale model)의 실제 위치의 표현 모두를 볼 수 있다.
리터럴 포인팅은 마우스-기반 윈도우 인터페이스 및 그 밖의 다른 대부분의 현대의 시스템에서 사용되는 추상 포인팅(abstract pointing)과 다르다는 것이 중요하다. 이들 시스템에서, 조작자는 가상 포인터와 물리적 위치 지시 장치 간의 번역(translation)을 관리하는 것을 습득할 필요가 있으며, 가상 포인터와 물리적 위치 지시 장치를 인식적으로 사상(map)할 필요가 있다.
이와 달리, 본원의 시스템에서는, 가상 공간과 물리적 공간 간에 (가상 공간이 수학적 조작을 위해 더 수정 가능하다는 사실을 제외하고는) 애플리케이션이나 사용자 관점의 어떠한 차이도 없어서, 조작자에게 어떠한 인식적 번역도 요구되지 않는다.
본 발명의 실시예에 의해 제공되는 리터럴 포인팅과 가장 유사한 것은 (가령, 많은 ATM 기계에서 발견되는 형태의) 터치-감지형 스크린이다. 터치 감지형 스크린은 스크린 상의 2차원 디스플레이 공간과 스크린 표면의 2차원 입력 공간 간에 1대1 사상을 제공한다. 이와 유사한 방식으로, 본원의 시스템은 하나 이상의 스크린 상에서 디스플레이되는 가상 공간과 조작자가 거주하는 물리적 공간 간에 (반드시 그럴 필요는 없지만 가능하다면, 1대1의) 유연한 사상이 이뤄진다. 이러한 유사성으로 인한 유용함에도 불구하고, “사상 방식”의 3차원으로의 확장, 임의의 대형 아키텍처 환경 및 복수의 스크린은 고려할 만하다.
본원에서 기재되는 구성요소에 덧붙여, 상기 시스템은, 환경의 물리적 공간과 각각의 스크린의 디스플레이 공간 간의 연속이면서 시스템-레벨의 사상을 구현하는 알고리즘을 구현할 수 있다.
연산 객체와 사상(mapping)을 취하여 가상 공간의 그래픽 표현을 출력하는 렌더링 스택.
제어 시스템으로부터 이벤트 데이터(이 실시예에서는, 시스템과 마우스 입력으로부터의 제스처 데이터와 포인팅 데이터 모두)를 취하고, 입력 이벤트로부터 가상 공간의 좌표로 공간 데이터를 사상하는 입력 이벤트 프로세싱 스택. 그 후, 번역된 이벤트가 실행 중인 애플리케이션으로 전달된다.
시스템이 로컬 영역 네트워크 상의 몇 개의 컴퓨터에 걸쳐 실행 중인 애플리케이션을 호스팅할 수 있게 해주는 “글루 레이어(glue layer)”.
확장된 피사계심도에 걸쳐 추출된 3차원 정보를 이용한 제스처-기반 제어
도 9는, 본 발명의 하나의 실시예에 따라, 확장된 피사계심도에 걸쳐 3차원 정보를 추출하는 이미징 시스템을 포함하는 제스처 기반 제어 시스템(900)의 블록도이다. 사용자는 카메라(904A-904D)의 어레이의 시야 영역(viewing area)에 자신의 손(101 및 102)을 위치시킨다. 카메라 어레이(904A-904D) 중 둘 이상의 카메라가 파면 부호화 카메라(wavefront coding camera)이며, 이들 각각은 파면 부호화 마스크(본원에서는 또한, “광학 비구면 요소” 또는 “광학 요소”라고도 일컬어짐)를 포함하는 파면 부호화 이미징 시스템을 포함하며, 이는 이하에서 상세히 설명된다. 사용자의 손 및/또는 손가락은 앞서 설명된 마커 태그를 포함할 수 있거나, 포함하지 않을 수도 있다.
카메라(904A-904D)는, 손가락 및 손(101 및 102)의 위치, 배향 및 움직임을 포함하여, 손가락과 손(101 및 102)의 이미지를 검출 또는 캡처하고 출력 신호를 전-프로세서(905)로 발생한다. 전-프로세서(905)는 이하에서 설명될 파면 부호화 디지털 신호 프로세싱 부(908)를 포함하거나, 상기(908)로 연결되어 있을 수 있다. 또는, 파면 부호화 디지털 신호 프로세싱 부는 시스템(900)의 그 밖의 다른 하나 이상의 구성요소에 포함되거나, 상기 구성요소로 연결되거나, 또는 상기 구성요소들 간에 분산되어 있을 수 있다. 파면 부호화 디지털 신호 프로세싱 부(908)는 이미징 시스템의 피사계심도를 크게 확장시키도록 구성된다.
전-프로세서(905)는 카메라 출력을 제스처 신호로 번역하고, 상기 제스처 신호는 시스템의 컴퓨터 프로세싱 유닛(907)으로 제공된다. 이를 수행하기 위해, 전-프로세서(905)는 3차원 공간 포인트 재구성 및 골격 포인트 라벨링(skeletal point labeling)을 발생시킨다. 제스처 번역기(906)가 3D 공간 정보 및 마커 모션 정보를 명령어 언어(command language)로 변환하며, 상기 명령어 언어는 컴퓨터 프로세서에 의해 해석되어 디스플레이 상의 커서의 위치, 형태 및 액션이 업데이트될 수 있다. 컴퓨터(907)는 입력 정보를 이용하여, 하나 이상의 스크린 상 커서를 제어하기 위한 명령어를 생성하고, 디스플레이(903)로 비디오 출력을 제공할 수 있다.
대안적 실시예의 전-프로세서(905), 제스처 번역기(906) 및 컴퓨터(907) 중 하나 이상은 하나의 단일 장치로 조합될 수 있다. 시스템 설정에 관계없이, 각각의 전-프로세서(905), 제스처 번역기(906) 및 컴퓨터(907)의 기능 및/또는 기능부가 도 1-8과 관련하여, 그리고 그 밖의 다른 부분에서 설명된다.
덧붙여, 이러한 예시가 사용자 손(101 및 102)의 위치, 배향 및 움직임을 검출하기 위해 사용되는 4대의 카메라를 보여주지만, 상기 실시예는 이에 국한되지 않는다. 시스템 설정은 시스템이나 워크스테이션 설정에 적합하도록 둘 이상의 카메라를 포함할 수 있다. 덧붙이자면, 이 예시적 실시예에서 카메라는 대칭적으로 배치되었지만, 이러한 대칭성이 필수인 것은 아니다. 따라서 사용자 손의 위치, 배향 및 움직임의 검출을 가능하게 하는 2대 이상의 카메라가 어떠한 배치로도 사용될 수 있다.
상기 시스템이 1명의 사용자의 손을 입력으로서 갖는 것으로 도시되었지만, 시스템은 임의의 명수의 복수의 사용자의 손도 추적할 수 있다. 손에 추가로, 또는 손을 대신하여, 시스템은 사용자 신체의 어떠한 하나 이상의 부위(가령, 머리, 발, 다리, 팔, 팔꿈치, 무릎 등)도 추적할 수 있다. 덧붙이자면, 상기 시스템은 임의의 개수의 생명체, 또는 비-생명체로 추적할 수 있으며, 신체 일부분을 추적하는 것에 국한되지 않는다.
특히, 조작자의 손에 가까이에 의도적으로, 또는 잠재적으로 광학 센서를 위치시키는(또는 이와 마찬가지로, 추적을 구현하는) 제스처 분석 시스템에 있어서, 따라서 감지되는 요소는, 상대 거리의 몇 십 배에 걸친 조작자의 자연스러운 동작 시퀀스 전체에 걸쳐, 일반적으로 거리(range)일 것이다. 이러한 거리를 횡단하는 이벤트의 지속적으로 초점-분해된(focus-resolved) 레코드를 제공하는 것은 전통적인 광학 이미징 시스템의 능력을 넘어서는 것이다. 그러나 이러한 중간-거리 지오메트리로의 근접 접근은, 거시 장치(macroscopic device)와 제품 설계의 목적으로 물체 추적 또는 조작자 추적의 맥락에서 바람직하다. 따라서 조작자 행동의 기대되는 거리에 걸쳐 로컬 콘트라스트나 두드러진 특징의 안정성을 보장하기 위한 기법을 제공하는 것이 중요하다.
본원의 시스템에서 사용되는 바와 같이 확장된 피사계심도에 걸친 3차원 정보의 추출을 설명할 때, 스크린 내 하나의 포인트까지의 거리는, 동시에 캡처된 둘 이상의 이미지에서의 위치로부터 추정될 수 있다. 이미저들 간의 3D 관계가 알려져 있다면, 상기 포인트의 3차원(3D) 위치는 기본 기하학적 관계로부터 연산될 수 있다. 복수의 이미지로부터 공간 위치를 연산함에 있어서 해결할 과제는, 종종, 스테레오 상관, 또는 스테레오 심도 연산이라고 일컬어지며, 하나의 이미지에서의 포인트의 매핑을 또 다른 이미지에서의 상기 포인트의 매핑과 자동으로, 그리고 정확하게 연계시키는 것이다. 이는 종종, 하나의 이미지에서 다른 하나의 이미지로 이미지 특징부를 상관시킴으로써 이뤄진다. 그러나 모든 스테레오 매칭 방법에서의 기본적인 가정은, 포인트를 또 다른 이미지 내 상기 포인트의 위치로 매칭시키기 위해, 임의의 식별 가능한 로컬 콘트라스트나 특징부가 이미지에 존재해야 한다는 것이다. 따라서 오-초점(misfocus)로 인해, 이미지에 어떠한 로컬 콘트라스트, 또는 특징부도 없는 경우에, 문제가 발생하게 된다(스테레오 매칭은 초점이 맞지 않는 이미지 영역에서는 정확한 결과를 생산하지 않는다).
이미지의 초점 심도를 확장하기 위한 종래의 수단은 카메라 렌즈의 동공(lens's pupil)의 직경을 감소시키는 것(“조리개 좁히기(stopping down)”)이다. 그러나 2가지 단점이 이 기법의 사용을 제한한다. 첫째, 동공 직경 비의 제곱 값과 동일한 인수(factor) 만큼 이미징 시스템의 감도가 감소된다. 둘째, 최대 공간 주파수 응답이 동공 직경 비와 동일한 인수만큼 감소되며, 이로 인해, 이미지의 해상도와 콘트라스트가 제한된다. 따라서 종래의 이미징 시스템에서는 피사계심도와, 노출 시간과, 전체 콘트라스트 간에 상충 관계(tradeoff)가 존재했다. 복수의 카메라 레인징 시스템의 경우, 순효과(net effect)는 스테레오 심도 정확성과 동작 거리 간의 타협일 것이다.
렌즈의 조리개를 좁히지 않고, 피사계심도를 증가시키기 위한 대안적 접근법에 의해, 카메라 렌즈의 동공에서 특정된 처방의 상 마스크(phase mask)가 유도될 것이다. 적정하게 선택된 상 함수를 이용하여, 센서에 의해 캡처된 이미지의 연속적인 전자 프로세싱에 의해, 확장된 피사계심도가 복원될 수 있다. 파면 부호화(wavefront coding)라고 알려져 있는 이 기법은 피사계심도와, 카메라 다이내믹 레인지(dynamic range), 신호 대 노이즈 비의 간의 상충 관계를 제공하는 것이 일반적이다. 파면 부호화에 의해, 특정 적용예에 대해 카메라 매개변수를 최적화하는 것이 가능하다. 매우 높은 다이나믹 레인지를 요구하지 않으며 조명을 사용자가 제어할 수 있는 적용예, 가령, 본원에서 기재된 것과 같은 제스처 인식의 경우는, 규정된 공간 체적에 걸쳐 높은 정확도를 얻기 위해 파면 부호화를 이용함으로써 큰 이점을 얻을 수 있다.
앞서 설명된 바와 같이, 하나의 실시예의 시스템은, 복수의 파면 부호화 카메라의 처리된 출력이 사용되어, 장면(scene) 내 선택된 물체의 거리(range)와 위치(position)를 결정하는 기법을 포함한다. 파면 부호화로부터 도출된 확장된 피사계심도가 많은 적용예(예를 들면, 제스처 인식 및 그 밖의 다른 광범위 어레이 작업 기반의 이미징 작업)에서 사용되어, 그들의 성능을 상당히 증가시킬 수 있다. 최소한 2대의 카메라가 필요하지만, 본 발명의 실시예에서 사용될 수 있는 카메라 대수에는 어떠한 상한도 없다. 장면 추출은 둘 이사의 카메라를 이용한 거리 추출(range extraction)을 위해 사용되는 복수의 처리 기법(가령, 상관) 중 임의의 것을 포함할 수 있다. 본원에서 기재된 실시예는 모두 파면 부호화 위상 함수 및 이들의 해당하는 복호화 커넬(decoing kernel)을 포함하며, 이로써, 프로세싱 후, 확장된 피사계심도가 도출된다.
파면 부호화 이미징 시스템에서 사용되는 파면 부호화는 일반화된 비구면 광소자 및 디지털 신호 프로세싱을 이용하여 이미징 시스템의 성능을 증가 및/또는 비용을 감소시킬 수 있는 일반적인 기법이다. 사용되는 비구면 광소자의 타입이, 오-초점과 관련된 수차(aberration)에 매우 둔감한 광학 이미징 특성을 야기한다. 선명하고 명확한 이미지는 광소자에거 바로 생성되는 것이 아니라, 샘플링된 이미지에 적용되는 디지털 신호 프로세싱이 선명하고 명확한 최종 이미지를 생성하며, 이러한 이미지도 역시 오-초점과 관련된 수차에 둔감하다.
파면 부호화가 사용되어, 이미징 성능을 크게 증가시키면서, 또한 이미징 시스템의 크기, 중량 및 비용을 감소시킬 수 있다. 파면 부호화는 이미징 시스템의 피사계심도를 크게 확장하는 기본 방식으로, 비-회전 대칭형 비구면 광학 요소와 디지털 신호 프로세싱을 조합한다. 파면 부호화를 이용하면, 예를 들어, 주어진 구경(aperture size), 즉 F/#에서, 이미징 시스템의 피사계심도 또는 초점 심도가, 종래의 이미징 시스템에 비교해서, 10배 이상 증가될 수 있다. 하나의 실시예의 파면 부호화 광학 요소는 상 표면(phase surface)이며, 이는 광을 흡수하지 않고, 노출이나 조명 요구치를 증가시키지 않는다. 이러한 확장된 피사계심도 성능은 종래의 이미징 기법의 경우 광학 파워(가령, 구경을 좁힐 때 요구되는 파워)의 상당한 손실 없이는 불가능하다. 증가된 피사계심도/초점 심도에 의해, 오-초점 관련 수차를 제어함으로써(종래 기술에서는 이러한 오-초점 관련 수차를, 렌즈 요소를 추가하거나 렌즈 복잡도를 증가시켜 제어), 이미징 시스템은 물리적으로 덜 비싸고, 더 작으며, 더 가벼워질 수 있다. 파면 부호화를 이용해 제어될 수 있는 오-초점 관련 수차로는 색수차, 페츠발 만곡(petzval curvature), 비점수차, 구면수차 및 온도 관련 오-초점이 있다.
파면 부호화는, 하이브리드 이미징 방식으로서, 광소자와 전자소자를 조합하여, 피사계심도를 증가시키고, 광학 요소의 개수, 제조 허용오차 및 전체 시스템 비용을 감소시킬 수 있다. 도 10은 하나의 실시예에서, 제스처 기반 제어 시스템에서 사용되는 파면 부호화 이미징 시스템(1000)의 블록도이다. 파면 부호화 이미징 시스템(1000)의 광학 섹션(1001)은 종래의 광학 시스템 또는 카메라이며, 구경 조리개 근처에 위치하는 파면 부호화 광학 요소(1002)를 포함하도록 수정된 것이다. 부호화 광학 요소의 추가로 인해, 오-초점에 둔감한 특수하게 잘 형성된 블러(blur) 또는 점 확산 함수(point spread function)를 이용한 이미지가 도출된다. 디지털 프로세싱(1003)이 샘플링된 이미지에 적용되어, 오-초점 효과에 매우 둔감한 선명하고 깨끗한 이미지(1004)가 생성된다.
도 11은 본 발명의 하나의 실시예에 따라, 2대의 파면 부호화 카메라를 포함하는 파면 부호화 이미징 시스템을 이용하는 확장된 파수계 신도에 걸쳐 3차원 정보를 추출하기 위한 제스처 기반 제어 시스템(1100)의 블록도이다. 상기 시스템(1100)은 도 10을 참조하여 앞서 언급된 바와 같이, 둘 이상의 파면 부호화 카메라(1101 및 1102)를 포함한다. 프로세서는 파면 부호화 카메라(1101 및 1102)의 출력을 수신하고, 카메라 출력물에 대해 데이터 프로세싱을 수행하도록 연결되어 있다. 상기 데이터 프로세싱은 디컨볼루션(deconvolution, 1120)과 거리 추출(range extraction, 1130) 등을 포함하며, 확장된 초점 거리 맵(1140)을 생성한다.
파면 부호화 시스템(1100)에서, 상기 시스템의 광학 부분(가령, 파면 부호화 카메라(1101 및 1102))은 도출된 이미지를 “부호화(code)"하여, 중간 이미지(1110)를 생성한다. 파면 부호화 요소(가령, 도 10의 요소(1002))가 임의의 이미지의 모든 포인트들을 의도적으로 블러(blur)화하기 때문에, 중간 이미지(1110)는 오-초점된 것처럼 보인다. 이러한 중간 이미지(1110)에서, 시야 내 거의 모든 물체가 블러화 되지만, 이들은 모두 동일하게 블러화된다. 이와 달리, 종래의 광소자는, 장면 내 각각의 물체까지의 거리에 따라 달라지는 가변 블러 기능을 갖는 이미지를 만드는 것이 일반적이다.
파면-부호화된 중간 이미지(1110)로부터 선명하고 깨끗한 이미지를 생성하기 위해, 전자소자(가령, 파면 부호화 디지털 신호 프로세싱)가 사용되어, 시스템 종속적 이미지 블러를 제거함으로써, 블러화된 중간 이미지를 처리 및 “복호화”(1120 및 1130)할 수 있다. 소프트웨어를 이용해, 또는 특수 하드웨어법을 통해, 디지털 필터링이 실시간으로 수행될 수 있다.
하나의 실시예의 시스템 광소자는, 도 10과 관련하여 앞서 설명된 바 있는 파면 부호화 기능을 수행하는 하나 이상의 추가적인 광학 요소를 포함하는 종래의 구성요소를 포함한다. 이 요소는 광 경로(optical path)에, 통상, 시스템의 구경 조리개 근처에 배치되어, 비네팅(vignetting)을 최소화할 수 있다. 검출된 이미지에서 수행되는 신호 프로세싱은 광소자, 파면 부호화 요소 및 디지털 검출기의 1차 속성에 따라 달라진다.
일반적인 파면 부호화 요소는 비회전 대칭형이고 매끄럽지만, 회절성 표면(diffractive surface)이 사용될 수 있다. 상기 요소는 개별적 구성요소이거나, 일반적인 비구면 표면을 추가함으로써 종래의 렌즈로 통합 구성될 수 있다. 축상(on-axis) 광선을 제외하고, 어떠한 광선도, 상기 전통적인 기하학적 형태의 초점 쪽으로 향하지 않도록 모든 부호화 요소가 광의 방향을 변경시킨다. 실제로, 어떠한 2개의 광선도 광학 축을 따르는 동일한 점을 향해 진행하지 않는다. 상기 시스템은 임의의 이미지 평면에서 깨끗한 이미지를 형성하지 않는다.
파면 부호화 이미징 시스템의 광소자 부분의 주요 효과는, 초점 관련 수차(가령, 탈-초점(defocus), 구면수차, 비점수차, 또는 피사계 만곡(field curvature))에 둔감한 결과 이미지를 만드는 것이다. 중간 블러화된 이미지는, 탈-초점 수차로 구성되는 물체나 이미징 시스템의 변화에 둔감, 또는 영향 받지 않는다. 시스템 분석의 관점에서, 파면-부호화형 시스템의 변조 전달 함수(MTF: modulation transfer function)와 점 확산 함수(PSF: point spread function)는 탈-초점에 대해 변하지 않는다.
파면-부호화형 시스템으로부터의 중간 이미지의 MTF가 탈-초점에 대한 변화를 거의 나타내지 않지만, 이러한 MTF는 종래의 인-포커스 시스템(in-focus system)과 비교할 때 감소된 파워를 갖는다. 아포다이제이션(apodization)이 사용되지 않기 때문에, 총 광학 파워가 보존된다. 디지털 필터링 또는 이미지 재구성 프로세스가 사용되어, 깨끗한 이미지를 형성할 수 있다. 이들 최종 MTF는 탈-초점에 매우 둔감하다. 따라서 파면-부호화형 시스템은 매우 큰 피사계심도를 갖는다. 마찬가지로, 파면-부호화형 시스템의 중간 PSF도 종래 시스템의 PSF와 상이하지만, 이들은 오-초점의 변경에 따라 거의 변하지 않는다.
도 10을 다시 참조하면, 특수 용도의 광학 비구면 요소가 종래 이미징 시스템의 구경 조리개에, 또는 그 근처에 배치되어, 파면 부호화 이미징 시스템을 형성할 수 있다. 이러한 광학 요소는, 최종 PSF와 광학 전달 함수(OTF)가 일정 거리의 오-초점, 또는 오-초점 관련 수차에 둔감하도록 하는 방식으로, 이미징 시스템을 변경한다. 그러나 PSF와 OTF는 바람직한 품질의 인-포커스 이미징 시스템(in-focus imaging system)을 이용하여 얻어진 PSF와 OTF와 동일하지 않다. 오-초점 수차에 둔감한 이미징 시스템을 제작함으로써, 특수한, 잘 형성된 블러를 갖는 이미지가 생성되며, 이러한 블러는 파면 부호화 디지털 신호 프로세싱에 의해 제거된다.
종래 기술의 이미징 시스템의 PSF는, 예를 들어, 오-초점에 따라 크게 달라지며, 파면 부호화 이미징 시스템에서의 PSF는 오-초점에 따른 눈에 띄는 변화를 거의 보여주지 않는다. 종래의 오-초점 이미징 시스템에 적용되는 오-초점 블러를 제거하기 위한 디지털 프로세싱은 이미지의 서로 다른 영역에 존재하는 오-초점의 크기에 따라 달라지는 프로세싱을 이용한다. 많은 경우에서, 오-초점의 크기는 알려져 있지 않으며 계산하기 어렵다. 덧붙여, 오-초점을 갖는 종래의 이미징 시스템의 MTF는 종종, 디지털 프로세싱의 난이도를 추가로 증가시키는 0, 또는 널(null)을 포함할 수 있다. 이와 달리, 파면 부호화 시스템으로부터의 오-초점을 갖는 PSF의 일정한 속성은 디지털 프로세싱의 오-초점 종속도를 제거하기 위해 요구되는 속성이다. CCD(charge-coupled device), 또는 CMOS(complementary metal-oxide-semiconductor)에 의해 검출된 이미지로 적용되는 디지털 프로세싱은 오-초점과 이미징 대상인 실제 장면에 독립적이다. 덧붙여, 파면 부호화 이미징 시스템의 MTF는, 인 포커스(in focus)와 아웃 오브 포커스(out of focus) 모두의 경우, 어떠한 0, 또는 널(null)도 포함하지 않으며, 이는 고품질의 최종 이미지를 가능하게 한다.
피사계심도를 확장하기 위한 파면 부호화는, 일반적으로 종래의 방법(가령, 구경을 좁히기)이 허용되지 않는 이미징 적용예에 적용될 수 있다. 조명 레벨(illumination level), 노출 시간, 또는 공간 해상도의 제약사항이 종종, 이전의 광학 방법들의 적용을 제한하는 것이다. 파면 부호화를 이용함으로써, 상기 이미징 적용예들은, 노출 시간을 희생하거나, 방대한 광량을 요구하지 않으면서, 오-초점 관련 문제를 덜 겪을 수 있다.
파면 부호화 이미징 시스템은, 앞서 설명된 바와 같이, 공지되지 않은 광학 설계와 최종 이미지의 디지털 신호 프로세싱을 포함한다. 사용되는 신호 프로세싱은 특정 광학 시스템에 따라 다르다. 파면 부호화 광소자는 사용될 신호 프로세싱의 유형과 정도에 따라 다르다. 광소자와 신호 프로세싱이 밀접하게 관련되기 때문에, 설계시에 시스템의 광학 구성요소와 디지털 구성요소가 결합적으로 최적화된 시스템으로부터 가장 바람직한 성능을 기대하는 것이 당연하다. 광학 구성요소는 오-초점 효과에 대한 광소자의 변화나 감도를 최소화하고 효과적인 신호 프로세시을 가능하게 하도록 구성된다. 디지털 구성요소는 알고리즘 복잡도, 프로세싱 시간 및 이미지 노이즈에 대한 디지털 프로세싱의 효과를 최소화하도록 설계된다.
도 12는 본 발명의 하나의 실시예에 따라, 확장된 피사계심도에 걸쳐 3차원 정보를 이용하여 제스처 기반의 제어를 수행하기 위한 순서도이다. 하나의 실시예의 제스처 기반 제어는 이미징 시스템을 이용하여 신체를 이미징하는 단계(1202)를 포함한다. 하나의 실시예의 제스처 기반 제어는 신체의 제스처를 자동으로 검출하는 단계(1204)를 포함하며, 상기 제스처는 신체의 순간적인 상태를 포함한다. 상기 검출 단계(1204)는 순간적으로 제스처의 제스처 데이터를 모으는 단계를 포함한다. 상기 제스처 데이터는 이미징 시스템의 피사계심도 내에서 신체의 초점-분해된 데이터를 포함한다. 하나의 실시예의 제스처 기반 제어는 제스처를 제스처 신호로 해석하는 단계(1206)를 포함한다. 상기 하나의 실시예의 제스처 기반 제어는 제스처 신호에 응답하여 컴퓨터로 연결되는 구성요소를 제어하는 단계(1208)를 포함한다.
하나의 실시예의 파면 부호화를 위한 기본 루틴은, 통상의 구면 및 비구면 표면뿐 아니라 일반 파면 부호화 표면 형태를 통과하는 광선을 추적하는 광선-추적 프로그램을 포함할 수 있다. 상기 광선-추적 프로그램은 사출동공(exit pupil)을 계산하고 광학 및 디지털 메리트 함수(merit function) 또는 피연산자의 주어진 세트를 최적화하도록 사용된다. 도 13은 하나의 실시예에서, 제스처 기반 제어 시스템에서 사용되는 파면 부호화 설계 프로세스(1300)의 블록도이다. 이 설계의 출력으로는, 전통적인 광학 표면, 물질, 두께 및 공간; 파면 부호화 표면의 매개변수; 및 디지털 필터 계수가 있다(그러나 이에 국한되지 않음).
일반적인 광학/디지털 설계 루프가 도 13을 참조하여 설명된다. 광선-추적 프로그램(1302)은 광학 표면을 통과하는 광선을 추적하여, 사출 동공의 광 경로 차이(OPD)(1304)를 계산하고, 광학 및 디지털 메리트 함수 또는 피연산자의 주어진 세트를 최적화할 수 있다. 광선-추적 프로그램(1302)의 입력은 광학 표면, 두께 및 동작 조건(파장, 시계, 온도 범위, 샘플 물체 이미지 등) 등을 포함한다. OTF가 계산되거나 생성되고(1306), 검출기 지오메트리와 관련된 픽셀 OTF가 추가된다(1308). 샘플링된 OTF와 PSF가 계산된다(1310). 샘플링된 PSF를 기초로 선택된 프로세싱 알고리즘에 대해 디지털 필터 계수가 발생된다(1312). 필드 앵글(field angle), 컬러, 온도 변화, 앨리어싱(aliasing) 등에 따른 초점을 통과한 샘플링된 PSF 및 MTF의 변화를 최소화하는 것을 바탕으로, 필터에 대한 성능 지수(figure of merit)(가령, 파면 부호화 피연산자); 디지털 프로세싱 매개변수(가령, 프로세싱 크기, 프로세잉의 형태, 프로세싱 관련 이미지 노이즈, 디지털 필터 노이즈 이득)를 형성함으로써, 프로세싱이 계속된다. 광학 표면을 수정하기 위한 최적화 루틴을 통해, 상기 파면 부호화 피연산자들이 종래의 광학 피연산자(Seidel 파면 수차, PMS 파면 에러 등)와 조합된다. 동작이 종래의 광선 추적법을 통해 사출 동공 광 경로 차이(OPD) 발생 단계(1302)로 복귀한다.
이론적으로 계산된 파면 부호화 표면 형태가 광학 최적화를 위한 시작점으로서 사용된다. 장방형으로 분리가능한 표면 형태의 하나의 일반적인 군(family)은, 정규 좌표에서,
S(x)=|β|sign(x)|x|α
로서 주어지며, 이때, x>0에 대하여 sign(x)=+1이고,
x≤0에 대하여 sign(x)=-1이다.
지수 매개변수 α는 오-초점의 범위에 걸쳐 MTF의 높이를 제어하고, 매개변수 β는 오-초점에 대한 감도를 제어한다. 일반적으로 매개변수β가 증가되면, MTF의 높이의 감소와 최종 PSF의 길이의 증가와 함께, 오-초점에 대한 감도가 감소된다.
중간 이미지를 재구성하고, 최종 이미지를 생성하기 위해 사용되는 필터링 프로세스가 연산 부담(computational burden)을 초래할 수 있다. 이미지 재구성을 위한 필터 커넬의 크기는, 광학 시스템과 부호화 프로세스에 의해 유도된 피사계심도의 증가에 따라, 70×70 계수만큼 클 수 있다. 일반적으로, 피사계심도의 증가값이 클수록, 필터 커넬이 커지고, 노이즈 페널티, 또는 노이즈 이득이 더 커진다. 덧붙여, 파면 부호화에 의해 하나의 이미지의 모든 픽셀이 블러화되기 때문에, 모든 픽셀이 필터링될 필요가 있으며, 따라서 이미지가 클수록, 작은 이미지보다는 더 많은 연산을 필요로 할 것이다. 이미지 크기가 수천만 픽셀에 육박하는 경우, 실용적이고 경제적인 시스템을 위해 효과적인 연산 해결책이 사용된다. 연산 구현예, 가령, 장방형으로 분리 가능한 필터 근사화가 커넬 크기를 감소시키는 데 도움이 될 수 있다. 예를 들어 사용되는 파면 부호화 요소는,
S(x,y)=α(x3+y3)
로 기술되는 장방형으로 분리 가능한 입방체 상을 가질 수 있다.
블러 부분을 제거하기 위해 블러화된 이미지를 필터링하는 것은 실질적으로, 공간 주파수의 함수로서, 증폭 및 위상 편이를 야기한다. 이러한 증폭은 최종 이미지에서 신호뿐 아니라 노이즈까지 증가시킨다. 피사계심도가 매우 많이 증가하는 경우, 예를 들어, 10배 증가하는 경우, 파면 부호화형 시스템에서 노이즈 이득은 4 또는 5배 증가될 수 있다. 더 적당한 피사계심도 증가(2 내지 4배)의 경우, 노이즈 이득은 2이하 배만큼 증가하는 것이 통상적이다.
비상관 가우시안 노이즈(대부분의 이미지에 대한 바람직한 가정)에 있어서, 노이즈 이득은 필터 계수의 RMS 값이다. 피사계심도 확장이 너무 많이 이뤄진 시스템에 있어서, 적당히 작은 노이즈-이득 값을 얻기 위해, 디지털 필터의 분해능 또는 공간 대역폭을 감소시킴으로써, 노이즈 이득이 감소될 수 있다. 또한, 최종 이미지에서의 콘트라스트를 감소시킴으로써, 증가된 노이즈의 전체 효과가 감소될 수 있다. 특수한 비선형 필터링이 파면 부호화형 이미지에서 노이즈를 제거하기 위한 가장 바람직한 해결책이다.
하나의 실시예에서, MTF 및 PSF를 형성하기 위해 사용되는 파면 부호화 광학 요소가 장방형으로 분리가능하기 때문에, 사용되는 신호 프로세싱이 또한 장방형으로 분리 가능하다. 장방형으로 분리 가능한 프로세싱은 필요한 연산 횟수를 10배 이상 감소시킬 수 있다. 공간 컨볼루션(spatial convolution)을 이용하여 디지털 필터링이 수행된다는 점 때문에, 하나의 실시예의 연산 방법은, 전체 커넬에 걸쳐, 필터 계수만큼 데이터를 스케일링(scale)하기 위한 일련의 곱셈과, 스케일링된 데이터 값들을 모두 더하기 위한 덧셈을 포함한다. 이러한 연산의 기본 단위는 곱셈-누적(multiply-accumulate) 연산이다. 피사계심도의 큰 증가를 위한 통상의 2-D 파면 부호화 필터 커넬이 30×30 계수일 수 있다. 이 필터의 장방형으로 분리 가능한 버전은 30계수 길이의 로우 필터(row filter)와 30계수 높이의 컬럼 필터(column filter), 즉 총 60계수이다. 파면 부호화 요소가 장방형으로 분리 가능하지만, 이에 국한되는 것은 아니며, 고도로 비규칙적인 시스템이 비분리가능형 필터링을 이용할 수 있다.
광학 이미징 기법을 전자 필터링 기법과 조합함으로써, 파면 부호화 기법은 다양한 이미징 시스템의 성능을 개선시킬 수 있다. 고성능 이미징 시스템에서의 성능 이득은, 광 수집(light gathering)이나 공간 분해능을 희생하지 않는, 긴 피사계심도와 관련될 수 있다. 이 보다 저렴한 이미징 시스템에서의 성능 이득은, 종래에 요구되는 것보다 더 적은 물리적 부품을 이용하는 바람직한 이미지 품질과 관련될 수 있다.
본원에서 기재되는 실시예들은 시스템을 포함하며, 상기 시스템은, 신체(body)를 이미징하는 복수의 광학 검출기(이 중 둘 이상의 광학 검출기가 파면 부호화형 카메라(wavefront coded camera)를 포함함)와, 상기 복수의 광학 검출기로 연결되어 있는 프로세서를 포함하며, 이때, 상기 프로세서는 신체의 제스처(gesture)를 자동으로 검출(detect)하고, 상기 제스처는 상기 신체의 순간 상태를 포함하며, 상기 검출 시, 제스처의 제스처 데이터가 순간적으로 모아지며, 상기 제스처 데이터는 이미징 시스템의 피사계심도(depth of field) 내에서 신체의 초점-분해된 데이터(focus-resolved data)를 포함하고, 상기 프로세서는 상기 제스처를 제스처 신호로 번역(translate)하고, 상기 제스처 신호를 이용하여 상기 프로세서에 연결되어 있는 구성요소를 제어한다.
본 발명의 하나의 실시예에 따라, 상기 파면 부호화형 카메라는 파면 부호화형 광학 요소를 포함한다.
본 발명의 하나의 실시예에 따라, 이미징 시, 신체의 파면 부호화형 이미지가 생성된다.
본 발명의 하나의 실시예에 따라, 상기 파면 부호화형 카메라는 이미징의 초점 심도를 증가시키는 상 마스크(phase mask)를 포함한다.
본 발명의 하나의 실시예에 따라, 상기 제스처 데이터는, 피사계심도 내에서 신체의 초점-분해된 거리 데이터를 포함한다.
본 발명의 하나의 실시예에 따라, 피사계심도 내 신체의 초점-분해된 거리 데이터는 파면 부호화형 카메라의 출력으로부터 얻어진다.
본 발명의 하나의 실시예에 따라, 상기 제스처 데이터는 피사계심도 내에서 신체의 초점-분해된 위치 데이터를 포함한다.
본 발명의 하나의 실시예에 따라, 상기 피사계심도 내 신체의 초점-분해된 위치 데이터는 파면 부호화형 카메라의 출력으로부터 얻어진다.
본 발명의 하나의 실시예에 따라, 본 발명의 시스템은 신체와 이미징 시스템 간의 거리에 따라 변하지 않는 변조 전달 함수(modulation transfer function)와 점 확산 함수(point spread function)를 포함한다.
본 발명의 하나의 실시예에 따라, 본 발명의 시스템은 탈-초점(defocus)에 대해 변하지 않는 변조 전달 함수와 점 확산 함수를 포함한다.
본 발명의 하나의 실시예에 따라, 상기 프로세서는 파면 부호화형 카메라에 의해 수집된 이미지를 부호화(coding)함으로써, 중간 이미지(intermediate image)를 생성한다.
본 발명의 하나의 실시예에 따라, 상기 중간 이미지는 블러(blur)처리된 것이다.
본 발명의 하나의 실시예에 따라, 상기 중간 이미지는 신체나 복수의 광학 검출기의, 탈-초점 수차(defocus aberration)를 포함하는 변화에 둔감(insensitive)하다.
본 발명의 하나의 실시예에 따라, 제스처 데이터는 제스처를 표현하는 3차원 공간 위치 데이터이다.
본 발명의 하나의 실시예에 따라, 상기 검출은, 신체의 위치의 검출과 신체의 배향(orientation)의 검출 중 한 가지 이상의 검출이며, 검출은 신체의 움직임 검출을 포함한다.
본 발명의 하나의 실시예에 따라, 상기 검출 시, 제스처가 식별되며, 상기 식별은 신체의 일부분의 포즈 및 배향을 식별하는 것을 포함한다.
본 발명의 하나의 실시예에 따라, 검출은 신체의 제 1 부속기관 집합과 제 2 부속기관 집합 중 하나 이상의 검출을 포함한다.
본 발명의 하나의 실시예에 따라, 검출은 하나 이상의 태그(tag)의 위치의 동적 검출을 포함한다.
본 발명의 하나의 실시예에 따라, 상기 검출은 신체의 일부분에 연결된 태그(tag)의 집합의 위치의 검출을 포함한다.
본 발명의 하나의 실시예에 따라, 태그 집합의 각각의 태그는 하나씩의 패턴을 가지며, 태그 집합의 각각의 태그의 각각의 패턴은 태그 집합의 나머지 태그들의 어떠한 패턴과도 상이한다.
본 발명의 하나의 실시예에 따라, 검출은 신체에서의 마커(marker)의 동적인 검출 및 위치파악을 포함한다.
본 발명의 하나의 실시예에 따라, 상기 검출은 신체의 일부분에 연결되어 있는 마커들의 집합의 위치 검출을 포함한다.
본 발명의 하나의 실시예에 따라, 마커들의 집합은 신체 상에 복수의 패턴을 형성한다.
본 발명의 하나의 실시예에 따라, 상기 검출은, 신체의 복수의 부속기관 각각으로 연결된 마커들의 집합을 이용한, 상기 부속기관의 위치 검출을 포함한다.
본 발명의 하나의 실시예에 따라, 번역(translate)은 제스처의 정보의 제스처 표기(gesture notation)로의 번역을 포함한다.
본 발명의 하나의 실시예에 따라, 상기 제스처 표기는 제스처 어휘(gesture vocabulary)를 나타내고, 상기 제스처 신호는 통신되는 제스처 어휘를 포함한다.
본 발명의 하나의 실시예에 따라, 상기 제스처 어휘는 신체의 운동 관절의 순간 포즈 상태를 텍스트(text) 형식으로 나타낸다.
본 발명의 하나의 실시예에 따라, 상기 제스처 어휘는 신체의 운동 관절의 배향을 텍스트 형식으로 나타낸다.
본 발명의 하나의 실시예에 따라, 상기 제스처 어휘는 신체의 운동 관절의 배향의 조합을 텍스트 형식으로 나타낸다.
본 발명의 하나의 실시예에 따라, 상기 제스처 어휘는 신체의 운동 관절의 상태를 표현하는 문자(character)들로 구성된 문자열(string)을 포함한다.
본 발명의 하나의 실시예에 따라, 상기 운동 관절은 신체의 하나 이상의 제 1 부속기관(appendage)이다.
본 발명의 하나의 실시예에 따라, 문자열의 각각의 위치가 제 2 부속기관에 할당되며, 상기 제 2 부속기관은 제 1 부속기관에 연결된다.
본 발명의 하나의 실시예에 따라, 제 2 부속기관의 복수의 위치 각각에, 복수의 문자 중 문자가 할당된다.
본 발명의 하나의 실시예에 따라, 상기 복수의 위치는, 좌표 원점에 대해 상대적으로, 확립된다.
본 발명의 하나의 실시예에 따라, 상기 좌표 원점은, 공간에서의 절대 위치 및 배향을 이용하여, 또는 신체의 전체 위치 및 바라보는 방향(heading)에 관계없는 신체에 대한 고정된 위치 및 배향을 이용하여, 또는 신체의 행동에 반응하여 상호대화적으로, 확립된다.
본 발명의 하나의 실시예에 따라, 제 1 부속기관의 복수의 배향 각각에, 복수의 문자 중 문자가 할당된다.
본 발명의 하나의 실시예에 따라, 검출은, 신체의 추론된 위치(extrapolated position)가 가상 공간과 교차할 때의 검출을 포함하며, 가상 공간은 컴퓨터로 연결되는 디스플레이 장치 상에서 나타나는 공간을 포함한다.
본 발명의 하나의 실시예에 따라, 구성요소의 제어는, 상기 추론된 위치가 가상 물체와 교차할 때의, 가상 물체의 제어를 포함한다.
본 발명의 하나의 실시예에 따라, 구성요소의 제어는, 가상 공간에서의 추론된 위치에 반응하여 이뤄지는, 가상 공간에서의 가상 물체의 위치 제어를 포함한다.
본 발명의 하나의 실시예에 따라, 구성요소의 제어는, 제스처에 반응하여 이뤄지는, 가상 공간에서의 가상 물체의 행동(attitude)의 제어를 포함한다.
본 발명의 하나의 실시예에 따라, 가상 공간과 물리 공간 간의 일치(coincidence)를 이루기 위해, 검출 및 제어의 스케일링(scaling)이 제어되며, 가상 공간은 프로세서로 연결되는 디스플레이 장치 상에서 나타나는 공간을 포함하며, 물리 공간은 신체가 위치하고 있는 공간을 포함한다.
본 발명의 하나의 실시예에 따라, 물리 공간 내 하나 이상의 물리적 물체의 움직임에 반응하여, 가상 공간 내 하나 이상의 가상 물체의 제어가 이뤄진다.
본 발명의 하나의 실시예에 따라, 제어는, 프로세서에 호스팅된 애플리케이션의 기능의 제어와, 상기 프로세서에서 디스플레이되는 구성요소의 제어 중 하나 이상을 포함한다.
본 발명에서 기재되는 실시예들은 방법을 포함하며, 상기 방법은, 이미징 시스템을 이용하여 신체를 이미징하는 단계(이때 상기 이미징 단계는 신체의 파면 부호화된(wavefront coded) 이미지를 생성하는 단계를 포함함)와, 신체의 제스처를 자동으로 검출하는 단계(상기 제스처는 신체의 순간 상태를 포함하며, 상기 검출 단계는 제스처의 제스처 데이터를 순간적으로 모으는 단계를 포함하며, 상기 제스처 데이터는 이미징 시스템의 피사계심도(depth of field) 내에서 초점-분해된 데이터를 포함함)와, 상기 제스처를 제스처 신호로 번역하는 단계와, 상기 제스처 신호에 반응하여, 컴퓨터에 연결된 구성요소를 제어하는 단계를 포함한다.
본 발명의 하나의 실시예에 따라, 상기 이미징 시스템은 복수의 광학 검출기를 포함하며, 이들 중 둘 이상의 광학 검출기는 파면 부호화 광학 요소를 포함하는 파면 부호화형 카메라(wavefront coded camera)이다.
본 발명의 하나의 실시예에 따라, 상기 이미징 단계는 신체의 파면 부호화된 이미지를 생성하는 단계를 포함한다.
본 발명의 하나의 실시예에 따라, 상기 이미징 시스템은 복수의 광학 검출기를 포함하며, 이들 중 둘 이상의 광학 검출기는, 이미징의 초점 심도를 증가시키는 상 마스크(phase mask)를 포함하는 파면 부호화형 카메라이다.
본 발명의 하나의 실시예에 따라, 상기 제스처 데이터는 피사계심도 내에서 신체의 초점-분해된 거리 데이터를 포함한다.
본 발명의 하나의 실시예에 따라, 피사계심도 내 신체의 초점-분해된 거리 데이터는 이미징 시스템의 출력으로부터 얻어진다.
본 발명의 하나의 실시예에 따라, 상기 제스처 데이터는 피사계심도 내에서 신체의 초점-분해된 위치 데이터를 포함한다.
본 발명의 하나의 실시예에 따라, 피사계심도 내 신체의 초점-분해된 위치 데이터는 이미징 시스템의 출력으로부터 얻어진다.
본 발명의 하나의 실시예에 따라, 신체와 이미징 시스템 간의 거리에 따라 변하지 않는 변조 전달 함수(modulation transfer function)와 점 확산 함수(point spread function)가 생성된다.
본 발명의 하나의 실시예에 따라, 탈-초점(defocus)에 대해 변하지 않는 변조 전달 함수와 점 확산 함수가 생성된다.
본 발명의 하나의 실시예에 따라, 파면 부호화형 카메라에 의해 수집된 이미지를 부호화함으로써, 중간 이미지가 생성된다.
본 발명의 하나의 실시예에 따라, 상기 중간 이미지는 블러(blur)화된다.
본 발명의 하나의 실시예에 따라, 상기 중간 이미지는, 신체 및 이미징 시스템의 복수의 광학 검출기의, 탈-초점 수차(defocus aberration)를 포함하는 변화에 둔감(insensitive)한다.
본 발명의 하나의 실시예에 따라, 상기 제스처 데이터는 제스처를 표현하는 3차원 위치 데이터이다.
본 발명의 하나의 실시예에 따라, 상기 검출하는 단계는 신체의 위치를 검출하는 단계를 포함한다.
본 발명의 하나의 실시예에 따라, 상기 검출하는 단계는 신체의 배향을 검출하는 단계를 포함한다.
본 발명의 하나의 실시예에 따라, 상기 검출하는 단계는 신체의 움직임을 검출하는 단계를 포함한다.
본 발명의 하나의 실시예에 따라, 상기 검출하는 단계는, 제스처를 식별하는 단계를 포함하며, 상기 식별하는 단계는 신체의 일부분의 포즈(pose) 및 배향을 식별하는 단계를 포함한다.
본 발명의 하나의 실시예에 따라, 상기 검출하는 단계는 신체의 제 1 부속기관 집합과 제 2 부속기관 집합 중 하나 이상을 검출하는 단계를 포함한다.
본 발명의 하나의 실시예에 따라, 상기 검출하는 단계는 하나 이상의 태그(tag)의 위치를 동적으로 검출하는 단계를 포함한다.
본 발명의 하나의 실시예에 따라, 상기 검출하는 단계는 신체의 일부분으로 연결된 태그의 집합의 위치를 검출하는 단계를 포함한다.
본 발명의 하나의 실시예에 따라, 상기 태그 집합의 각각의 태그는 하나씩의 패턴을 포함하며, 상기 태그 집합의 각각의 태그의 각각의 패턴은 태그 집합의 나머지 태그들의 어떠한 패턴과도 상이하다.
본 발명의 하나의 실시예에 따라, 상기 검출하는 단계는 신체 상의 마커(marker)를 동적으로 검출하고 상기 마커의 위치를 파악하는 단계를 포함한다.
본 발명의 하나의 실시예에 따라, 상기 검출하는 단계는 신체의 일부분으로 연결된 마커들의 집합의 위치를 검출하는 단계를 포함한다.
본 발명의 하나의 실시예에 따라, 상기 마커들의 집합이 신체 상에 복수의 패턴을 형성한다.
본 발명의 하나의 실시예에 따라, 상기 검출하는 단계는, 신체의 복수의 부속기관 각각에 연결되어 있는 마커들의 집합을 이용하여, 상기 부속기관의 위치를 검출하는 단계를 포함한다.
본 발명의 하나의 실시예에 따라, 상기 번역하는 단계는 제스처의 정보를 제스처 표기(gesture notation)로 번역하는 단계를 포함한다.
본 발명의 하나의 실시예에 따라, 상기 제스처 표기는 제스처 어휘(gesture vocabulary)를 나타내고, 상기 제스처 신호는 통신되는 제스처 어휘를 포함한다.
본 발명의 하나의 실시예에 따라, 상기 제스처 어휘는, 신체의 운동 관절의 순간적인 포즈 상태를 텍스트 형식으로 나타낸다.
본 발명의 하나의 실시예에 따라, 상기 제스처 어휘는 신체의 운동 관절의 배향을 텍스트 형식으로 나타낸다.
본 발명의 하나의 실시예에 따라, 상기 제스처 어휘는 신체의 운동 관절의 배향들의 조합을 텍스트 형식으로 나타낸다.
본 발명의 하나의 실시예에 따라, 상기 제스처 어휘는 신체의 운동 관절의 상태를 나타내는 문자(character)들로 구성된 문자열(string)을 포함한다.
본 발명의 하나의 실시예에 따라, 상기 운동 관절은 신체의 하나 이상의 제 1 부속기관이다.
본 발명의 하나의 실시예에 따라, 문자열의 각각의 위치가 제 2 부속기관에 할당되고, 상기 제 2 부속기관은 제 1 부속기관에 연결되어 있다
본 발명의 하나의 실시예에 따라, 복수의 문자들 중 문자가, 제 2 부속기관의 복수의 위치 각각에 할당된다.
본 발명의 하나의 실시예에 따라, 상기 복수의 위치는, 좌표 원점에 상대적으로, 확립된다.
본 발명의 하나의 실시예에 따라, 상기 좌표 원점은, 공간에서의 절대 위치 및 배향을 이용하여, 또는 신체의 전체 위치 및 바라보는 방향(heading)에 관계없는 신체에 대한 고정된 위치 및 배향을 이용하여, 또는 신체의 행동에 반응하여 상호대화적으로, 확립된다.
본 발명의 하나의 실시예에 따라, 복수의 문자 중 문자가, 제 1 부속기관의 복수의 배향 각각에 할당된다.
본 발명의 하나의 실시예에 따라, 상기 방법의 상기 검출하는 단계는, 신체의 추론된 위치(extrapolated position)가 가상 공간과 교차할 때를 검출하는 단계를 포함하며, 가상 공간은 컴퓨터로 연결되는 디스플레이 장치 상에서 나타나는 공간을 포함한다.
본 발명의 하나의 실시예에 따라, 상기 방법의 상기 구성요소를 제어하는 단계는, 추론된 위치가 가상 물체와 교차할 때 감상 공간의 가상 물체를 제어하는 단계를 포함한다.
본 발명의 하나의 실시예에 따라, 상기 방법의 상기 구성요소를 제어하는 단계는, 가상 공간 내 추론된 위치에 반응하여, 가상 공간 내 가상 물체의 위치를 제어하는 단계를 포함한다.
본 발명의 하나의 실시예에 따라, 상기 방법의 상기 구성요소를 제어하는 단계는, 제스처에 반응하여, 가상 공간 내 가상 물체의 행동(attitude)을 제어하는 단계를 포함한다.
본 발명의 하나의 실시예에 따라, 가상 공간과 물리 공간 간의 일치(coincidence)를 이루기 위해, 검출 및 제어의 스케일링(scaling)이 제어되며, 가상 공간은 프로세서로 연결되는 디스플레이 장치 상에서 나타나는 공간을 포함한다.
본 발명의 하나의 실시예에 따라, 가상 공간과 물리 공간 간의 스케일, 각도, 심도 및 크기가 프로세서에 연결된 하나 이상의 애플리케이션으로 적합하게 번역된다.
본 발명의 하나의 실시예에 따라, 물리 공간 내 하나 이사의 물리적 물체의 움직임에 반응하여, 가상 공간 내 하나 이상의 가상 물체가 제어된다.
본 발명의 하나의 실시예에 따라, 상기 제어 단계는 프로세서에 호스팅되는 애플리케이션의 기능을 제어하는 단계를 포함한다.
본 발명의 하나의 실시예에 따라, 상기 방법의 상기 제어 단계는 상기 프로세서에서 디스플레이되는 구성요소를 제어하는 단계를 포함한다.
본 발명의 시스템 및 방법은 프로세싱 시스템을 포함 및/또는 프로세싱 시스템의 통제 하에서 동작 및/또는 프로세싱 시스템과 연합하여 동작한다. 상기 프로세싱 시스템은 종래 기술에서 알려진, 다 함께 동작하는 프로세서 기반 장치 또는 컴퓨팅 장치의 임의의 컬렉션을 포함한다. 예를 들어, 프로세싱 시스템은 휴대용 컴퓨터, 통신 네트워크에서 동작하는 휴대용 통신 장치 및/또는 네트워크 서버 중 하나 이사을 포함할 수 있다. 상기 휴대용 컴퓨터는 개인용 컴퓨터, 셀방식 전화기, PDA(personal digital assistant), 휴대용 컴퓨팅 장치 및 휴대용 통신 장치 등 중 하나 이상의 조합일 수 있다(그러나 이에 국한되는 것은 아님). 상기 프로세싱 시스템은 대형 컴퓨터 시스템 내 구성요소를 포함할 수 있다.
하나의 실시예의 프로세싱 시스템은 하나 이상의 프로세서와 하나 이상의 메모리 장치 또는 서브 시스템을 포함한다. 상기 프로세싱 시스템은 또한 하나 이상의 데이터베이스를 포함, 또는 상기 데이터베이스로 연결될 수 있다. “프로세서”라는 용어는, 본원에서 사용될 때, 임의의 로직 프로세싱 유닛을 일컬으며, 예를 들어, 하나 이상의 CPU(central processing unit), DSP(digital signal processor), ASIC(application-specific integrated circuit) 등이 있다. 프로세서와 메모리가 하나의 칩에 모노리식(monolithic)하게 집적, 및/또는 호스트 시스템의 복수의 칩이나 구성요소들 간에 분산, 및/또는 알고리즘의 조합에 의해 제공될 수 있다. 본원에서 기재된 방법은 소프트웨어 알고리즘, 프로그램, 펌웨어, 하드웨어, 부품, 회로 중 하나 이상의 임의의 조합으로 구현될 수 있다.
본원의 시스템과 방법을 구현하는 시스템 구성요소는 다 함께, 또는 따로 따로 위치할 수 있다. 따라서 본 발명의 시스템과 방법을 구현하는 시스템 구성요소는 단일 시스템, 복수 시스템 및/또는 지리적으로 이격되어 있는 시스템의 구성요소일 수 있다. 이들 구성요소는 호스트 시스템이나 상기 호스트 시스템에 연결된 시스템의 하나 이상의 그 밖의 다른 구성요소로 연결될 수 있다.
통신 경로가 시스템 구성요소를 연결하고, 상기 구성요소들 통신이나 파일 전송을 위한 임의의 매체를 포함한다. 상기 통신 경로는 무선 연결, 유선 연결 및 하이브리드 무선/유선 연결을 포함한다. 또한 상기 통신 경로는 네트워크(가령, LAN(local area network), MAN(metropolitan area network), WAN(wide area network), 사설 네트워크, 인터오피스 또는 백엔드 네트워크, 인터넷)로의 결합이나 연결을 포함한다. 덧붙이자면, 통신 경로는 탈착식 고정 매체를 포함하며, 예를 들어, 플로피 디스크, 하드 디스크 드라이브, CD-ROM 디스크뿐 아니라, 플래쉬 RAM, USB(Universal Serial Bus) 연결, RS-232 연결, 전화 선, 버스 및 전자 메일 메시지가 있다.

Claims (90)

  1. 신체(body)를 이미징하는 복수의 광학 검출기 - 상기 복수의 광학 검출기 중 둘 이상의 광학 검출기가 파면 부호화형 카메라(wavefront coded camera)를 포함함 - , 및
    상기 복수의 광학 검출기로 연결되어 있는 프로세서 - 상기 프로세서는 신체의 제스처(gesture)를 자동으로 검출(detect)하고, 상기 제스처는 상기 신체의 순간적인 상태를 포함하며, 검출 시, 순간에서의 제스처의 제스처 데이터가 모아지며, 상기 제스처 데이터는 이미징 시스템의 피사계심도(depth of field) 내에서 신체의 초점-분해된 데이터(focus-resolved data)를 포함하고, 상기 프로세서는 상기 제스처를 제스처 신호로 번역(translate)하고, 상기 제스처 신호를 이용하여 상기 프로세서에 연결되어 있는 구성요소를 제어함 -
    를 포함하는 것을 특징으로 하는 시스템.
  2. 제 1 항에 있어서, 상기 파면 부호화형 카메라는 파면 부호화형 광학 요소를 포함하고, 이미징 시, 신체의 파면 부호화형 이미지가 생성되는 것을 특징으로 하는 시스템.
  3. 제 1 항에 있어서, 상기 파면 부호화형 카메라는 이미징의 초점 심도를 증가시키는 상 마스크(phase mask)를 포함하는 것을 특징으로 하는 시스템.
  4. 제 1 항에 있어서, 상기 제스처 데이터는, 파면 부호화형 카메라의 출력으로부터 얻어지는 피사계심도 내에서 신체의 초점-분해된 거리 데이터와, 파면 부호화형 카메라의 출력으로부터 얻어지는 피사계심도 내에서 신체의 초점-분해된 위치 데이터 중 적어도 하나를 포함하는 것을 특징으로 하는 시스템.
  5. 제 1 항에 있어서,
    신체와 이미징 시스템 간의 거리 및 탈-초점(defocus) 중 하나 이상에 따라 변하지 않는 변조 전달 함수(modulation transfer function)와 점 확산 함수(point spread function)
    를 포함하는 것을 특징으로 하는 시스템.
  6. 제 1 항에 있어서, 상기 프로세서는 파면 부호화형 카메라에 의해 수집된 이미지를 부호화(coding)함으로써, 중간 이미지(intermediate image)를 생성하며, 상기 중간 이미지는 블러(blur)처리된 것과 신체나 복수의 광학 검출기의 탈-초점 수자(defocus aberration)를 포함하는 변화에 무감응(insensitive)인 것 중 적어도 하나인 것을 특징으로 하는 시스템.
  7. 제 1 항에 있어서, 제스처 데이터는 제스처를 표현하는 3차원 공간 위치 데이터인 것을 특징으로 하는 시스템.
  8. 제 1 항에 있어서, 상기 검출은, 신체의 위치의 검출과 신체의 배향(orientation)의 검출 중 한 가지 이상의 검출이며, 검출은 신체의 움직임 검출을 포함하는 것을 특징으로 하는 시스템.
  9. 제 1 항에 있어서, 상기 검출 시, 제스처가 식별되며, 상기 식별은 신체의 일부분의 포즈 및 배향을 식별하는 것을 포함함을 특징으로 하는 시스템.
  10. 제 1 항에 있어서, 번역(translate)은 제스처의 정보의 제스처 표기(gesture notation)로의 번역을 포함하고, 상기 제스처 표기는 제스처 어휘(gesture vocabulary)를 나타내고, 상기 제스처 신호는 통신되는 제스처 어휘를 포함하는 것을 특징으로 하는 시스템.
  11. 제 10 항에 있어서, 상기 제스처 어휘는 신체의 운동 관절의 순간 포즈 상태, 신체의 운동 관절의 배향, 및 신체의 운동 관절의 배향의 조합 중 적어도 하나를 텍스트(text) 형식으로 나타내는 것을 특징으로 하는 시스템.
  12. 제 10 항에 있어서, 상기 제스처 어휘는 신체의 운동 관절의 상태를 표현하는 문자(character)들로 구성된 문자열(string)을 포함하는 것을 특징으로 하는 시스템.
  13. 제 12 항에 있어서, 검출은, 신체의 추론된 위치(extrapolated position)가 가상 공간과 교차할 때의 검출을 포함하며, 가상 공간은 컴퓨터로 연결되는 디스플레이 장치 상에서 나타나는 공간을 포함하는 것을 특징으로 하는 시스템.
  14. 제 13 항에 있어서, 구성요소의 제어는, 상기 추론된 위치가 가상 물체와 교차할 때의, 가상 물체의 제어를 포함하는 것을 특징으로 하는 시스템.
  15. 제 14 항에 있어서, 구성요소의 제어는, 가상 공간에서의 추론된 위치에 반응하여 이뤄지는 가상 공간에서의 가상 물체의 위치 제어, 및 제스처에 반응하여 이뤄지는 가상 공간에서의 가상 물체의 행동(attitude)의 제어 중 적어도 하나를 포함하는 것을 특징으로 하는 시스템.
  16. 제 1 항에 있어서, 가상 공간과 물리 공간 간의 일치(coincidence)를 이루기 위해, 검출 및 제어의 스케일링(scaling)이 제어되며, 가상 공간은 프로세서로 연결되는 디스플레이 장치 상에서 나타나는 공간을 포함하며, 물리 공간은 신체가 위치하고 있는 공간을 포함하며, 물리 공간 내 하나 이상의 물리적 물체의 움직임에 반응하여, 가상 공간 내 하나 이상의 가상 물체의 제어가 이뤄지는 것을 특징으로 하는 시스템.
  17. 제 1 항에 있어서, 제어는, 프로세서에 호스팅된 애플리케이션의 기능의 제어와, 상기 프로세서에서 디스플레이되는 구성요소의 제어 중 하나 이상을 포함하는 것을 특징으로 하는 시스템.
  18. 이미징 시스템을 이용하여 신체를 이미징하는 단계 - 상기 이미징하는 단계는 신체의 파면 부호화된(wavefront coded) 이미지를 생성하는 단계를 포함함 - ,
    신체의 제스처를 자동으로 검출하는 단계 - 상기 제스처는 신체의 순간 상태를 포함하며, 상기 검출하는 단계는 순간에서의 제스처의 제스처 데이터를 모으는 단계를 포함하고, 상기 제스처 데이터는 이미징 시스템의 피사계심도(depth of field) 내에서 초점-분해된 데이터를 포함함 - ,
    상기 제스처를 제스처 신호로 번역하는 단계, 및
    상기 제스처 신호에 반응하여, 컴퓨터에 연결된 구성요소를 제어하는 단계
    를 포함하는 것을 특징으로 하는 방법.
  19. 제 18 항에 있어서, 상기 이미징 시스템은 복수의 광학 검출기를 포함하며, 이들 중 둘 이상의 광학 검출기는 파면 부호화 광학 요소를 포함하는 파면 부호화형 카메라(wavefront coded camera)이며, 상기 이미징 단계는 신체의 파면 부호화된 이미지를 생성하는 단계를 포함하는 것을 특징으로 하는 방법.
  20. 제 18 항에 있어서, 상기 이미징 시스템은 복수의 광학 검출기를 포함하며, 이들 중 둘 이상의 광학 검출기는, 이미징의 초점 심도를 증가시키는 상 마스크(phase mask)를 포함하는 파면 부호화형 카메라인 것을 특징으로 하는 방법.
  21. 제 18 항에 있어서, 상기 제스처 데이터는 이미징 시스템의 출력으로부터 얻어지는 피사계심도 내에서 신체의 초점-분해된 거리 데이터, 및 이미징 시스템의 출력으로부터 얻어지는 피사계심도 내에서 신체의 초점-분해된 위치 데이터 중 적어도 하나를 포함하는 것을 특징으로 하는 방법.
  22. 제 18 항에 있어서, 신체와 이미징 시스템 간의 거리 및 탈-초점(defocus) 중 적어도 하나에 대해 변하지 않는 변조 전달 함수(modulation transfer function)와 점 확산 함수(point spread function)가 생성되는 것을 특징으로 하는 방법.
  23. 제 18 항에 있어서, 파면 부호화형 카메라에 의해 수집된 이미지를 부호화함으로써, 중간 이미지가 생성되며, 상기 중간 이미지는 블러(blur)화된 것, 및 신체 및 이미징 시스템의 복수의 광학 검출기의, 탈-초점 수차(defocus aberration)를 포함하는 변화에 무감응(insensitive)인 것 중 적어도 하나임을 특징으로 하는 방법.
  24. 제 18 항에 있어서, 상기 제스처 데이터는 제스처를 표현하는 3차원 위치 데이터인 것을 특징으로 하는 방법.
  25. 제 18 항에 있어서, 상기 검출하는 단계는 신체의 위치, 신체의 배향, 및 신체의 움직임 중 적어도 하나를 검출하는 단계를 포함하는 것을 특징으로 하는 방법.
  26. 제 18 항에 있어서, 상기 검출하는 단계는, 제스처를 식별하는 단계를 포함하며, 상기 식별하는 단계는 신체의 일부분의 포즈(pose) 및 배향을 식별하는 단계를 포함하는 것을 특징으로 하는 방법.
  27. 제 18 항에 있어서, 상기 번역하는 단계는 제스처의 정보를 제스처 표기(gesture notation)로 번역하는 단계를 포함하고, 상기 제스처 표기는 제스처 어휘(gesture vocabulary)를 나타내고, 상기 제스처 신호는 통신되는 제스처 어휘를 포함하는 것을 특징으로 하는 방법.
  28. 제 27 항에 있어서, 상기 제스처 어휘는, 신체의 운동 관절의 순간적인 포즈 상태, 신체의 운동 관절의 배향, 신체의 운동 관절의 배향들의 조합 중 적어도 하나를 텍스트 형식으로 나타내는 것을 특징으로 하는 방법
  29. 제 27 항에 있어서, 상기 제스처 어휘는 신체의 운동 관절의 상태를 나타내는 문자(character)들로 구성된 문자열(string)을 포함하는 것을 특징으로 하는 방법.
  30. 제 29 항에 있어서, 상기 검출하는 단계는, 신체의 추론된 위치(extrapolated position)가 가상 공간과 교차할 때를 검출하는 단계를 포함하며, 가상 공간은 컴퓨터로 연결되는 디스플레이 장치 상에서 나타나는 공간을 포함하는 것을 특징으로 하는 방법.
  31. 제 30 항에 있어서, 상기 구성요소를 제어하는 단계는, 추론된 위치가 가상 물체와 교차할 때 감상 공간의 가상 물체를 제어하는 단계를 포함하는 것을 특징으로 하는 방법.
  32. 제 31 항에 있어서, 상기 구성요소를 제어하는 단계는, 가상 공간 내 추론된 위치에 반응하는 가상 공간 내 가상 물체의 위치, 및 제스처에 반응하는 가상 공간 내 가상 물체의 행동(attitude) 중 적어도 하나를 제어하는 단계를 포함하는 것을 특징으로 하는 방법.
  33. 제 18 항에 있어서, 가상 공간과 물리 공간 간의 일치(coincidence)를 이루기 위해, 검출 및 제어의 스케일링(scaling)이 제어되며, 가상 공간은 프로세서로 연결되는 디스플레이 장치 상에서 나타나는 공간을 포함하는 것을 특징으로 하는 방법.
  34. 제 18 항에 있어서, 상기 제어 단계는 프로세서에 호스팅되는 애플리케이션의 기능 및 상기 프로세서에서 디스플레이되는 구성요소 중 적어도 하나를 제어하는 단계를 포함하는 것을 특징으로 하는 방법.
  35. 삭제
  36. 삭제
  37. 삭제
  38. 삭제
  39. 삭제
  40. 삭제
  41. 삭제
  42. 삭제
  43. 삭제
  44. 삭제
  45. 삭제
  46. 삭제
  47. 삭제
  48. 삭제
  49. 삭제
  50. 삭제
  51. 삭제
  52. 삭제
  53. 삭제
  54. 삭제
  55. 삭제
  56. 삭제
  57. 삭제
  58. 삭제
  59. 삭제
  60. 삭제
  61. 삭제
  62. 삭제
  63. 삭제
  64. 삭제
  65. 삭제
  66. 삭제
  67. 삭제
  68. 삭제
  69. 삭제
  70. 삭제
  71. 삭제
  72. 삭제
  73. 삭제
  74. 삭제
  75. 삭제
  76. 삭제
  77. 삭제
  78. 삭제
  79. 삭제
  80. 삭제
  81. 삭제
  82. 삭제
  83. 삭제
  84. 삭제
  85. 삭제
  86. 삭제
  87. 삭제
  88. 삭제
  89. 삭제
  90. 삭제
KR1020107024659A 2008-04-02 2009-04-02 확장된 피사계심도에 걸쳐 추출된 3차원 정보를 이용하는 제스처 기반 제어 시스템 및 방법 KR101550478B1 (ko)

Applications Claiming Priority (8)

Application Number Priority Date Filing Date Title
US4189208P 2008-04-02 2008-04-02
US61/041,892 2008-04-02
US12/109,263 2008-04-24
US12/109,263 US8407725B2 (en) 2007-04-24 2008-04-24 Proteins, pools, and slawx in processing environments
US10524308P 2008-10-14 2008-10-14
US10525308P 2008-10-14 2008-10-14
US61/105,243 2008-10-14
US61/105,253 2008-10-14

Publications (2)

Publication Number Publication Date
KR20100136993A KR20100136993A (ko) 2010-12-29
KR101550478B1 true KR101550478B1 (ko) 2015-09-04

Family

ID=41136111

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020107024659A KR101550478B1 (ko) 2008-04-02 2009-04-02 확장된 피사계심도에 걸쳐 추출된 3차원 정보를 이용하는 제스처 기반 제어 시스템 및 방법

Country Status (5)

Country Link
EP (1) EP2266016A4 (ko)
JP (1) JP5697590B2 (ko)
KR (1) KR101550478B1 (ko)
CN (1) CN102047203B (ko)
WO (1) WO2009124181A2 (ko)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011059404A2 (en) * 2009-11-12 2011-05-19 Nanyang Polytechnic Method and system for interactive gesture-based control
US9171200B2 (en) 2011-03-04 2015-10-27 Hewlett-Packard Development Company, L.P. Gestural interaction identification
CN103135754B (zh) * 2011-12-02 2016-05-11 深圳泰山体育科技股份有限公司 采用交互设备实现交互的方法
JP5917125B2 (ja) * 2011-12-16 2016-05-11 キヤノン株式会社 画像処理装置、画像処理方法、撮像装置および表示装置
TWI451344B (zh) * 2012-08-27 2014-09-01 Pixart Imaging Inc 手勢辨識系統及手勢辨識方法
CN104007819B (zh) * 2014-05-06 2017-05-24 清华大学 手势识别方法、装置及Leap Motion体感控制系统
EP3631533A4 (en) 2017-05-24 2021-03-24 The Trustees of Columbia University in the City of New York WIDE-BAND ACHROMATIC FLAT OPTICAL COMPONENTS BY DIELECTRIC METASURFACES MODIFIED BY DISPERSION
CN107515454B (zh) * 2017-08-29 2019-12-20 宁夏巨能机器人股份有限公司 一种3d视觉定位的焦距自动调节装置及其调节方法
SG11202001717VA (en) 2017-08-31 2020-03-30 Metalenz Inc Transmissive metasurface lens integration
JP2022542172A (ja) 2019-07-26 2022-09-29 メタレンズ,インコーポレイテッド アパーチャメタ表面およびハイブリッド屈折メタ表面イメージングシステム
CN110609039B (zh) * 2019-09-23 2021-09-28 上海御微半导体技术有限公司 一种光学检测装置及其方法
US11927769B2 (en) 2022-03-31 2024-03-12 Metalenz, Inc. Polarization sorting metasurface microlens array device

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005502084A (ja) 2001-08-31 2005-01-20 ザ・リージエンツ・オブ・ザ・ユニバーシテイ・オブ・コロラド 中心領域で位相が不変の位相マスクを使用するmtf改良型の光学システム
US20070139541A1 (en) 2001-07-06 2007-06-21 Himanshu Amin Imaging system and methodology
JP2008070319A (ja) 2006-09-15 2008-03-27 Canon Inc 物体計測装置および方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7164117B2 (en) * 1992-05-05 2007-01-16 Automotive Technologies International, Inc. Vehicular restraint system control system and method using multiple optical imagers
US7218448B1 (en) * 1997-03-17 2007-05-15 The Regents Of The University Of Colorado Extended depth of field optical systems
JP2000275582A (ja) * 1999-03-24 2000-10-06 Olympus Optical Co Ltd 被写界深度拡大システム
SE0000850D0 (sv) * 2000-03-13 2000-03-13 Pink Solution Ab Recognition arrangement
US7227526B2 (en) * 2000-07-24 2007-06-05 Gesturetek, Inc. Video-based image control system
KR100960577B1 (ko) * 2005-02-08 2010-06-03 오블롱 인더스트리즈, 인크 제스처 기반의 제어 시스템을 위한 시스템 및 방법
WO2008008084A2 (en) * 2005-09-19 2008-01-17 Cdm Optics, Inc. Task-based imaging systems

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070139541A1 (en) 2001-07-06 2007-06-21 Himanshu Amin Imaging system and methodology
JP2005502084A (ja) 2001-08-31 2005-01-20 ザ・リージエンツ・オブ・ザ・ユニバーシテイ・オブ・コロラド 中心領域で位相が不変の位相マスクを使用するmtf改良型の光学システム
JP2008070319A (ja) 2006-09-15 2008-03-27 Canon Inc 物体計測装置および方法

Also Published As

Publication number Publication date
CN102047203A (zh) 2011-05-04
JP5697590B2 (ja) 2015-04-08
KR20100136993A (ko) 2010-12-29
CN102047203B (zh) 2016-08-17
WO2009124181A2 (en) 2009-10-08
EP2266016A2 (en) 2010-12-29
EP2266016A4 (en) 2014-10-29
WO2009124181A3 (en) 2009-12-30
JP2011523112A (ja) 2011-08-04

Similar Documents

Publication Publication Date Title
KR101550478B1 (ko) 확장된 피사계심도에 걸쳐 추출된 3차원 정보를 이용하는 제스처 기반 제어 시스템 및 방법
US9778751B2 (en) Gesture based control using three-dimensional information extracted over an extended depth of field
US10061392B2 (en) Control system for navigating a principal dimension of a data space
KR101652535B1 (ko) 차량 인터페이스를 위한 제스처 기반 제어 시스템
US9471149B2 (en) Control system for navigating a principal dimension of a data space
US9910497B2 (en) Gestural control of autonomous and semi-autonomous systems
US8537112B2 (en) Control system for navigating a principal dimension of a data space
EP2338114B1 (en) Control system for navigating a principal dimension of a data space
WO2010030822A1 (en) Gestural control of autonomous and semi-autonomous systems
CN103988150A (zh) 用于初始化基于视觉的手跟踪器的快速指尖检测
JP2004157850A (ja) 運動検出装置
van Rhijn Configurable input devices for 3D interaction using optical tracking
Son Vision based natural assistive technologies with gesture recognition using Kinect
Liu et al. Stable and real-time hand gesture recognition based on rgb-d data

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
FPAY Annual fee payment

Payment date: 20180730

Year of fee payment: 4