KR20160106691A - 제스처를 사용하여 미디어의 재생을 제어하기 위한 시스템 및 방법 - Google Patents

제스처를 사용하여 미디어의 재생을 제어하기 위한 시스템 및 방법 Download PDF

Info

Publication number
KR20160106691A
KR20160106691A KR1020167021558A KR20167021558A KR20160106691A KR 20160106691 A KR20160106691 A KR 20160106691A KR 1020167021558 A KR1020167021558 A KR 1020167021558A KR 20167021558 A KR20167021558 A KR 20167021558A KR 20160106691 A KR20160106691 A KR 20160106691A
Authority
KR
South Korea
Prior art keywords
gesture
speed
playback
finger
modifier
Prior art date
Application number
KR1020167021558A
Other languages
English (en)
Inventor
샤운 코헤이 웨스트브룩
유안 엠. 노구에롤
Original Assignee
톰슨 라이센싱
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 톰슨 라이센싱 filed Critical 톰슨 라이센싱
Publication of KR20160106691A publication Critical patent/KR20160106691A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • G06K9/00355
    • G06K9/6297
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/84Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks
    • G06V10/85Markov-related models; Markov random fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/005Reproducing at a different information rate from the information rate of recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42204User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/4223Cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • H04N21/44218Detecting physical presence or behaviour of the user, e.g. using sensors to detect if the user is leaving the room or changes his face expression during a TV program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47217End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for controlling playback functions for recorded or on-demand content, e.g. using progress bars, mode or play-point indicators or bookmarks
    • H04N5/4403

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Social Psychology (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Psychiatry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

재생 디바이스에 의한 미디어의 재생은 입력 제스처들에 의해 제어된다. 각각의 사용자 제스처는 특정 재생 모드를 표시하는 베이스 제스처로 먼저 나누어질 수 있다. 제스처는 이후 베이스 커맨드로부터 결정되는 재생 모드의 속도를 결정하는 수정자 커맨드를 포함하는 제2 파트로 나누어진다. 미디어 콘텐츠는 이후 특정된 재생 모드를 사용하여 수정자 커맨드에 의해 결정되는 속도로 재생된다.

Description

제스처를 사용하여 미디어의 재생을 제어하기 위한 시스템 및 방법{SYSTEM AND METHOD FOR CONTROLLING PLAYBACK OF MEDIA USING GESTURES}
관련 출원들에 대한 참조
이 출원은 그 전체가 본원에서 참조로 포함되는 2014년 1월 7일에 출원된 미국 가출원 일련 번호 제61/924,647호 및 2014년 3월 31일에 출원된 미국 가출원 일련 번호 제61/972,954호의 이익을 우선권 주장한다.
발명의 기술분야
본 개시내용은 일반적으로 미디어의 재생의 제어에 관한 것이며, 구체적으로는 제스처들을 사용하는 미디어의 재생의 제어에 관한 것이다.
비디오 또는 오디오와 같은 미디어의 제어 시에, 사용자는 통상적으로 원격 제어(remote control) 또는 버튼들을 사용하여 이러한 미디어의 재생을 제어한다. 예를 들어, 사용자는 "재생" 버튼을 눌러서, 미디어가 컴퓨터, 수신기, MP3 플레이어, 전화기, 태블릿 등과 같은 재생 디바이스로부터 재생되도록 하여 미디어가 실시간 재생 모드에서 재생되도록 한다. 사용자가 미디어의 일부 앞으로 건너 뛰기를 원할 때, 사용자는 "고속 앞으로 가기" 버튼을 활성화시켜서 재생 디바이스가 실시간 재생 모드보다 더 빠른 재생 모드에서 미디어를 진행시키도록 할 수 있다. 마찬가지로, 사용자는 "고속 뒤로 가기 버튼"을 활성화시켜서 재생 디바이스가 실시간 재생 모드보다 더 빠른 재생 모드에서 미디어를 뒤로 가게 하도록(reverse) 할 수 있다.
원격 제어의 사용 또는 재생 디바이스 상의 버튼들의 사용으로부터 멀어지기 위해, 디바이스는 디바이스의 재생을 제어하기 위한 제스처들의 사용을 인식하도록 구현될 수 있다. 즉, 제스처들은 제스처들이 미디어 재생을 제어하도록 디바이스에 의해 해석되는 디바이스의 사용자 인터페이스 부분에 의해 광학적으로 인식될 수 있다. 이러한 모드들을 위해 사용될 수 있는 다수의 재생 모드들 및 속도들을 이용하여, 디바이스 제조자가 사용자가 미디어의 재생을 제어하기 위해 많은 제스처 커맨드들을 기억할 것을 요구할 가능성이 있다.
제스처들을 사용하여 재생 디바이스에 대한 미디어의 재생을 제어하기 위한 방법 및 시스템이 개시된다. 사용자 제스처는 특정 재생 모드를 나타내는 베이스 제스처로 먼저 나누어진다. 제스처는 이후 베이스 커맨드로부터 결정된 재생 모드를 수정하는 수정자 커맨드를 포함하는 제2 파트로 나누어진다. 재생 모드는 이후 수정자 커맨드에 의해 영향을 받는데, 예를 들어, 재생 모드의 속도가 수정자 커맨드에 의해 결정될 수 있다.
본 개시내용의 이러한 그리고 다른 양태들, 특징들 및 장점들은, 첨부도면들과 관련하여 읽혀질, 바람직한 실시예들의 후속하는 상세한 설명에 기재되거나 이로부터 명백해질 것이다.
도면들에서, 동일한 참조 번호들은 뷰들 전반에 걸쳐 유사한 엘리먼트들을 표기한다.
도 1은 본 개시내용의 양태에 따른 제스처 발견(spotting) 및 인식을 위한 시스템의 예시적인 예이다.
도 2는 본 개시내용의 양태에 따른 제스처 인식을 위한 예시적인 방법의 흐름도이다.
도 3은 본 개시내용의 양태에 따른 제스처 발견 및 인식을 위한 예시적인 방법의 흐름도이다.
도 4는 사용자에 의해 수행되는 세그먼트화된 궤적 "0"으로부터 추출되는 상태 천이점들의 예들을 예시한다.
도 5는 본 개시내용의 양태에 따라 은닉 마르코프 모델(Hidden Markov Models)(HMM) 및 기하학적 특징 분포들을 사용하여 제스처 인식 시스템을 트레이닝하기 위한 예시적인 방법의 흐름도이다.
도 6은 본 개시내용의 양태에 따라 제스처 인식 시스템을 특정 사용자에 대해 적응시키기 위한 예시적인 실시예의 흐름도이다.
도 7은 본 개시내용의 양태에 따른 예시적인 재생 디바이스의 블록도이다.
도 8은 본 개시내용의 양태에 따라 미디어의 재생을 제어하기 위해 사용되는 입력 제스처들을 결정하기 위한 예시적인 실시예의 흐름도이다.
도 9는 본 개시내용의 양태에 따라 미디어의 재생을 제어하기 위한 팔 및 손 사용자 입력 제스처의 표현을 보여주는 사용자 인터페이스의 표현이다.
도 10은 본 개시내용의 양태에 따라 미디어의 재생을 제어하기 위한 팔 및 손 사용자 입력 제스처의 표현을 보여주는 사용자 인터페이스의 표현이다.
도 11은 본 개시내용의 양태에 따라 미디어의 재생을 제어하기 위한 팔 및 손 사용자 입력 제스처를 보여주는 사용자 인터페이스의 표현이다.
도면(들)이 개시내용의 개념들을 예시하기 위한 목적이며 반드시 개시내용을 예시하기 위한 유일하게 가능한 구성이 아니라는 것이 이해되어야 한다.
도면들에 도시된 엘리먼트들이 다양한 형태들의 하드웨어, 소프트웨어, 또는 이들의 조합들로 구현될 수 있다는 것이 이해되어야 한다. 바람직하게는, 이러한 엘리먼트들은, 프로세서(들), 메모리 및 입력/출력 인터페이스들을 포함할 수 있는, 하나 이상의 적절하게 프로그래밍된 범용 디바이스들 상의 하드웨어와 소프트웨어의 조합으로 구현될 수 있다.
본 기재는 본 개시내용의 원리들을 예시한다. 따라서, 본 기술분야의 통상의 기술자가, 본원에 명시적으로 기술되거나 도시되지는 않았지만, 개시내용의 원리들을 구현하며, 개시내용의 범위 내에 포함되는, 다양한 배열들을 고안할 수 있을 것이라는 점이 이해될 것이다.
본원에 인용되는 모든 예들 및 조건적 언어는 발명자에 의해 본 기술분야의 발전(furthering)에 기여하는 개념들 및 본 개시내용의 원리들의 이해에 있어 독자를 보조할 교육의 목적으로 의도되며, 이러한 구체적으로 인용된 예들 및 조건들로 제한되지 않는 것으로서 해석되어야 한다.
또한, 개시내용의 원리들, 양태들 및 실시예들 뿐만 아니라 본원의 특정 예들을 인용하는 본원에서의 모든 언급들은 본원의 구조적 및 기능적 등가물들 모두를 포함하도록 의도된다. 추가로, 이러한 등가물들이 현재 알려진 등가물들 뿐만 아니라 차후 개발될 등가물들, 즉, 구조와는 무관하게, 동일한 기능을 수행하도록 개발되는 임의의 엘리먼트들 모두를 포함한다는 점이 의도된다.
따라서, 예를 들어, 본원에 제시되는 블록도들이 개시내용의 원리들을 구현하는 예시적인 회로의 개념도들을 표현한다는 것이 본 기술분야의 통상의 기술자에 의해 이해될 것이다. 유사하게, 임의의 플로우차트들, 흐름도들, 상태 천이도들, 의사코드 등이, 컴퓨터 판독가능 매체 내에 실질적으로 표현되며, 컴퓨터 또는 프로세서가 명시적으로 도시되든 아니든 간에, 이러한 컴퓨터 또는 프로세서에 의해 그렇게 실행될 수 있는 다양한 프로세스들을 나타낸다는 것이 이해될 것이다.
도면들에 도시된 다양한 엘리먼트들의 기능들이 전용 하드웨어 뿐만 아니라 적절한 소프트웨어와 관련하여 소프트웨어를 실행할 수 있는 하드웨어의 사용을 통해 제공될 수 있다. 프로세서에 의해 제공될 때, 기능들은 단일의 전용 프로세서에 의해, 단일의 공유 프로세서에 의해, 또는 그 중 일부가 공유될 수 있는 복수의 개별 프로세서들에 의해 제공될 수 있다. 또한, 용어 "프로세서" 또는 "제어기"의 명시적 사용은 소프트웨어를 실행할 수 있는 하드웨어를 배타적으로 지칭하도록 해석되지 않아야 하며, 제한 없이, 디지털 신호 프로세서(digital signal processor)("DSP") 하드웨어, 소프트웨어를 저장하기 위한 판독 전용 메모리(read only memory)("ROM"), 랜덤 액세스 메모리(random access memory)("RAM"), 및 비휘발성 저장소를 묵시적으로 포함할 수 있다.
본원의 청구항들에서, 특정된 기능을 수행하기 위한 수단으로서 표현된 임의의 엘리먼트는, 예를 들어, a) 그 기능을 수행하는 회로 엘리먼트들의 조합 또는 b) 따라서, 기능을 수행하기 위해 그 소프트웨어를 실행하기 위한 적절한 회로와 조합된, 펌웨어, 마이크로코드 등을 포함하는 임의의 형태의 소프트웨어를 포함하는, 그 기능을 수행하는 임의의 방식을 포함하도록 의도된다. 이러한 청구항들에 의해 정의되는 것으로서의 개시내용은, 다양한 인용된 수단에 의해 제공되는 기능성들이 조합되어 청구항들이 요청하는 방식으로 함께 온다는 사실에 존재한다. 따라서, 해당 기능성들을 제공할 수 있는 임의의 수단이 본원에 도시되는 수단과 등가라고 간주된다.
개시내용은 다양한 제스처 인식 시스템들을 구현하기 위한 예시적인 실시예를 제공하지만, 제스처들을 인식하기 위한 다른 구현예들이 사용된다. 은닉 마르코프 모델들(Hidden Markov Models)(HMM) 및 사용자의 손의 궤적의 기하학적 특징 분포들을 사용하여 적응형 제스처 인식을 달성하는 시스템들 및 방법들이 또한 제공된다.
제스처 인식은 부호 언어 인식, 다중 모드 휴먼 컴퓨터 상호작용, 가상 현실 및 로봇 제어에 있어서 그것의 잠재적 사용으로 인해 더욱 더 많은 주목을 받고 있다. 대부분의 제스처 인식 방법들은 입력 이미지들의 관측된 시퀀스들을 트레이닝 샘플들 또는 모델과 매칭시킨다. 입력 시퀀스는 최상으로 매칭되는 샘플들 또는 모델을 갖는 제스처 클래스로서 분류된다. 동적 시간 워핑(Dynamic Time Warping)(DTW), 연속적 동적 프로그래밍(Continuous Dynamic Programming)(CDP), 은닉 마르코프 모델(Hidden Markov Model)(HMM) 및 조건적 랜덤 필드(Conditional Random Field)(CRF)는 제스처 분류자들의 예들이다.
HMM 매칭은 제스처 인식을 위해 가장 널리 사용되는 기법이다. 그러나, 이러한 종류의 방법은, 제스처 인식을 위해 효과적인 것으로 증명된, 손의 궤적의 기하학적 정보를 이용할 수 없다. 손 궤적을 이용하는 이전의 방법들에서, 손 궤적은 전체로서 취해지며, x 및 y 축에서의 평균 손 위치, 관측된 손들의 x 및 y 위치들의 왜도 등과 같은, 궤적의 형상을 반영하는 일부 기하학적 특징들은 인식을 위한 베이즈 분류자(Bayesian classifier)의 입력으로서 추출된다. 그러나, 이 방법은 손 제스처를 정확하게 기술할 수 없다.
온라인 제스처 인식에 대해, 제스처 발견, 즉, 제스처의 시작점과 종료점을 결정하는 것은 매우 중요하지만 어려운 작업이다. 제스처 발견을 위한 2가지 타입의 방식들, 즉, 직접 방식 및 간접 방식이 있다. 직접 방식에서, 속도, 가속도 및 궤적 곡률과 같은 모션 파라미터들이 먼저 계산되고, 이러한 파라미터들의 급격한 변경들이 발견되어 후보 제스처 경계들을 식별한다. 그러나, 이러한 방법들은 충분히 정확하지 않다. 간접 방식들은 제스처 발견 및 제스처 인식을 조합한다. 입력 시퀀스에 대해, 간접 방식들은, 트레이닝 샘플들 및 모델들과 매칭되는 높은 인식 스코어들을 제공하고, 따라서, 제스처들의 시간적 세그먼트화 및 인식을 동시에 달성하는 구간들을 발견한다. 그러나, 이러한 방법들은 일반적으로 시간-소모적이며, 또한, 제스처들의 일부 잘못된 검출이 발생할 수 있다. 한 가지 종래의 방식은 전지작업(pruning) 전략을 사용하여 정확성 뿐만 아니라 시스템의 속도를 개선하는 것을 제안한다. 그러나, 방법은 단순히 손 궤적의 단일점과 단일 모델 상태 사이의 호환성에 기초하여 잘라낸다(prune). 현재 관측의 우도비가 임계 미만인 경우, 매칭 가설이 잘릴 것이다. 이러한 단순한 전략에 기초하는 전지작업 분류자는 트레이닝 데이터를 쉽게 과대 적합시킬 수 있다(over fit).
또한, 상이한 사용자들이 제스처들은 일반적으로 속도, 시작점과 종료점, 전환점들의 각들 등에서 상이하다. 따라서, 분류자들을 조정하여 인식 시스템이 특정 사용자들에게 적응하도록 하는 방법을 연구하는 것은 매우 의미있다.
이전에, 단지 몇몇 연구원들만이 적응형 제스처 인식을 연구하였다. 한 가지 기법은 새로운 샘플들을 이용한 HMM 모델들의 리트레이닝을 통해 제스처 시스템의 적응을 달성한다. 그러나, 이러한 방법은 이전 샘플들의 정보를 유실하며, 잡음 데이터에 민감하다. 또다른 기법은 바움-웰치(Baum-Welch) 방법의 온라인 버전을 사용하여 제스처 분류자들의 온라인 학습 및 업데이트를 실현하고, 단순한 제스처를 온라인으로 학습할 수 있는 시스템을 개발한다. 그러나, 이러한 방법의 업데이트 속도는 매우 느리다.
적응형 제스처 인식에 대해 단지 소수의 연구들만이 존재하지만, 적응형 스피치 인식을 위한 많은 방법들이 공표되었다. 한 가지 이러한 연구는 최대 귀납적(MAP) 파라미터 추정을 통해 HMM 모델을 업데이트한다. 파라미터들의 이전 분포들의 사용을 통해, 강건한 파라미터 추정 및 업데이트를 획득하기 위해 더 적은 새로운 데이터가 요구된다. 이 방법의 결함은, 새로운 샘플들이 그것의 대응하는 클래스의 HMM 모델만을 업데이트시키며, 따라서 업데이트 속도를 감소시킨다는 것이다. 최대 우도비 선형 회귀법(maximum likelihood linear regression)(MLLR)은 적응형 스피치 인식을 위해 널리 사용된다. 그것은 새로운 샘플들을 사용하여 모델 파라미터들의 선형 변환들의 세트를 추정하고, 따라서, 모델은 변환 이후 새로운 샘플들을 더욱 양호하게 매칭시킬 수 있다. 모든 모델 파라미터들은 글로벌 선형 변환을 공유하거나, 또는 상이한 그룹들로 클러스터화할 수 있고, 여기서 파라미터들의 각각의 그룹은 동일한 선형 변환을 공유한다. MLLR은 MAP의 결함을 극복하고, 모델 업데이트 속도를 개선할 수 있다.
입력 시퀀스에 대해, 관심 대상인 검출된 포인트들은 HMM 모델과 매칭되며, 포인트들은 HMM 모델의 상태들이 비터비(Viterbi) 알고리즘 또는 함수를 통해 변경되는 곳에서 발견된다. 이러한 포인트들은 상태 천이점들이라 명명된다. 기하학적 특징들은 상태 천이점들의 상대적 위치들 및 제스처의 시작점에 기초하여 제스처 모델로부터 추출된다. 이러한 기하학적 특징들은 손 제스처를 종래의 방법들보다 더 정확하게 기술한다. 상태 천이점들은 일반적으로 궤적이 변하기 시작하는 포인트들에 대응하고, 이러한 포인트들 및 시작점의 상대적 위치들에 기초하여 특징들을 추출하는 것은, 손 궤적을 전체로서 취하고 손 궤적의 통계적 특징에 기초하여 기하학적 특징을 추출하는 종래의 방법들에 비해, 제스처의 형상의 특성을 매우 잘 반영할 수 있다.
더욱이, 기하학적 특징들의 추출이 HMM 모델들의 매칭에 포함됨에 따라, 전지를 위해 추출된 기하학적 특징들을 이용하는 것 뿐만 아니라, 제스처의 타입을 인식하는 것을 돕는 것이 용이하다. 예를 들어, 상태 천이점에서 추출되는 기하학적 특징들의 우도비가 임계 미만인 경우, 이러한 매칭 가설은 잘려나갈 것이다. 즉, 일부 프레임에서, 프레임을 HMM 모델의 임의의 상태에 매칭시키는 비용이 너무 높다고 결정되는 경우, 본 개시내용의 시스템 및 방법은, 주어진 모델이 입력 시퀀스에 잘 매칭되지 않는다고 결론지으며, 이후, 그것은 후속하는 프레임들을 상태들에 매칭시키는 것을 중단할 것이다.
전지작업을 위한 기하학적 특징들의 포함은 오직 단일 관측을 사용하는 것보다 더 정확하고 강건하다. HMM 모델 및 손 궤적과 제스처 클래스 사이의 기하학적 특징 분포들의 조합에 기초하여 계산되는 모델 매칭 스코어가 임계보다 더 클 때, 제스처가 세그먼트화되고 인식된다. 모션 파라미터들의 급격한 변경들의 검출, HMM 모델 매칭 및 궤적 기하학적 특징 추출의 이러한 조합은 기존의 제스처 발견 방법들을 능가한다.
이제 도면들을 참조하면, 본 개시내용의 실시예에 따른 예시적인 시스템 컴포넌트들(100)이 도 1에 도시된다. 이미지 캡처 디바이스(102)는 제스처를 수행하는 사용자의 이미지들을 캡처하기 위해 제공된다. 이미지 캡처 디바이스가 임의의 공지된 이미지 캡처 디바이스일 수 있으며, 디지털 스틸 카메라, 디지털 비디오 레코더, 웹캠 등을 포함할 수 있다는 것이 이해될 것이다. 캡처된 이미지들은 프로세싱 디바이스(104), 예를 들어, 컴퓨터에 입력된다. 컴퓨터는 하나 이상의 중앙 처리 장치(CPU)와 같은 하드웨어, 랜덤 액세스 메모리(RAM) 및/또는 판독 전용 메모리(ROM)과 같은 메모리(106), 및 키보드, 커서 제어 디바이스(예를 들어, 마우스 또는 조이스틱) 및 디스플레이 디바이스와 같은 입력/출력(I/O) 사용자 인터페이스(들)(108)를 가지는 다양한 공지된 컴퓨터 플랫폼들 중 임의의 것 상에서 구현된다. 컴퓨터 플랫폼은 운영 체제 및 마이크로 명령 코드를 또한 포함한다. 본원에 기술되는 다양한 프로세스들 및 기능들은 마이크로 명령 코드의 일부 또는 운영 체제를 통해 실행되는 소프트웨어 응용 프로그램(또는 이들의 조합)의 일부일 수 있다. 일 실시예에서, 소프트웨어 응용 프로그램은 프로그램 저장 디바이스 상에 유형적으로 내장되며, 이는 프로세싱 디바이스(104)와 같은 임의의 적절한 머신에 업로드되고 이에 의해 실행될 수 있다. 추가로, 다양한 다른 주변 디바이스들은, 병렬 포트, 직렬 포트 또는 유니버설 직렬 버스(USB)와 같은 다양한 인터페이스들 및 버스 구조체들에 의해 컴퓨터 플랫폼에 접속될 수 있다. 다른 주변 디바이스들은 추가적인 저장 디바이스들(110) 및 프린터(미도시됨)를 포함할 수 있다.
소프트웨어 프로그램은 이미지들의 캡처된 시퀀스 내에서 사용자에 의해 수행되는 제스처들을 인식하기 위해 메모리(106)에 저장된, 또한 제스처 인식기로서 알려진 제스처 인식 모듈(112)을 포함한다. 제스처 인식 모듈(112)은 관심 있는 객체, 예를 들어, 사용자의 손을 검출하고, 캡처된 이미지들의 시퀀스를 통해 관심 있는 객체를 추적하는 객체 검출기 및 추적기(114)를 포함한다. 모델 매칭기(116)는 검출되고 추적되는 객체를 HMM 모델들(118)의 데이터베이스에 저장된 적어도 하나의 HMM 모델에 매칭시키도록 제공된다. 각각의 제스처 타입은 그것에 연관된 HMM 모델을 가진다. 입력 시퀀스는 어느 제스처 타입이 입력 시퀀스에 가장 잘 매칭되는지를 찾기 위해 상이한 제스처 타입들에 대응하는 모든 HMM 모델들과 매칭된다. 예를 들어, 캡처된 비디오의 각각의 프레임으로부터의 특징들의 시퀀스인 입력 시퀀스 및 상태들의 시퀀스인 제스처 모델이 주어지면, 모델 매칭기(116)는 각각의 프레임과 각각의 상태 사이의 대응하는 관계를 발견한다. 모델 매칭기(116)는 비터비(Viterbi) 알고리즘 또는 함수, 포워드 알고리즘 또는 함수, 포워드-백워드 알고리즘 또는 함수 등을 사용하여 매칭을 실현할 수 있다.
제스처 인식 모듈(112)(또한 도 7에서 722로서 참조됨)은 HMM 모델의 상태들이 변경하는 포인트들을 검출하기 위한 천이 검출기(120)를 더 포함한다. 이러한 포인트들은 상태 천이점들이라 명명되며, 특히 천이 검출기(120)에 의해 사용되는 비터비 알고리즘 또는 함수를 통해 발견되거나 검출된다. 기하학적 특징들은 특징 추출기(122)에 의해 상태 천이점들 및 제스처의 시작점의 상대적 위치들에 기초하여 추출된다.
제스처 인식 모듈(112)은, 또한 전지작업으로서 공지되며, 매칭하는 HMM 모델을 발견하기 위해 수행되는 계산들의 수를 감소시키고, 이에 의해 제스처 발견 및 검출 프로세스를 가속화시키는, 전지작업 알고리즘 또는 함수(124)를 더 포함한다. 예를 들어, 캡처된 비디오의 각각의 프레임들로부터의 특징들의 시퀀스인 입력 시퀀스 및 상태들의 시퀀스인 제스처 모델이 주어지면, 각각의 프레임과 각각의 상태 사이의 대응하는 관계가 발견되어야 한다. 그러나, 일부 프레임에서, 전지작업 알고리즘 또는 함수(124)가 프레임을 임의의 상태로 매칭시키는 비용이 너무 높음을 발견하는 경우, 전지작업 알고리즘 또는 함수(124)는 후속하는 프레임들을 상태들에 매칭시키는 것을 중단하며, 주어진 모델이 입력 시퀀스와 잘 매칭되지 않는다고 결론지을 것이다.
추가로, 제스처 인식 모듈(112)은 HMM 모델들을 적응시키고 각각의 제스처 클래스에 대한 특정 사용자의 기하학적 특징 분포들을 증분적으로 학습하기 위해 사용되는 최대 우도비 선형 회귀(maximum likelihood linear regression)(MLLR) 함수를 포함한다. HMM 모델들 및 기하학적 특징 분포들의 동시적 업데이트를 통해, 제스처 인식 시스템은 사용자에 대해 신속하게 적응할 수 있다.
도 2는 본 개시내용의 양태에 따른 제스처 인식을 위한 예시적인 방법의 흐름도이다. 초기에, 단계(202)에서, 프로세싱 디바이스(104)는 이미지 캡처 디바이스(102)에 의해 캡처되는 입력 이미지들의 시퀀스를 취득한다. 제스처 인식 모듈(112)은 단계(204)에서, 이후 HMM 모델들 및 기하학적 특징들을 사용하여 제스처 인식을 수행한다. 단계(204)는 도 3-4와 관련하여 하기에 추가로 기술될 것이다. 단계(206)에서, 제스처 인식 모듈(112)은 특정 사용자에 대한 각각의 제스처 클래스에 대한 HMM 모델들과 기하학적 특징 분포들을 조정할 것이다. 단계(206)는 도 5-6과 관련하여 하기에 추가로 기술될 것이다.
도 3은 본 개시내용의 양태에 따른 제스처 발견 및 인식을 위한 예시적인 방법의 흐름도이다.
후보 시작점 검출
초기에, 단계(302)에서, 이미지들의 입력 시퀀스는 이미지 캡처 디바이스(102)에 의해 캡처된다. 단계(304)에서, 객체 검출기 및 추적기(114)는 입력 시퀀스에서 후보 시작점들을 검출하고 시퀀스 전반에 걸쳐 후보 시작점들을 추적한다. 손 위치 및 속력과 같은 특징들은 입력 시퀀스의 각각의 프레임에서 검출되는 손들을 표현하기 위해 사용된다. 이러한 특징들은 사용자의 얼굴의 위치 및 폭에 의해 정규화된다.
직접 제스처 발견 방식과 마찬가지로, 후보 시작점들은 입력 시퀀스에서 모션 파라미터들의 급격한 변경들로서 검출된다. 비정상 속력들 또는 엄격한 궤적 곡률들을 가지는 포인트들은 후보 시작점들로서 검출된다. 일반적으로 이 방법을 사용하는 많은 잘못된 긍정적 검출들이 존재한다. 이러한 포인트들을 제스처 경계들로서 사용하는 직접 제스처 발견 방법들은 매우 정확하고 강건하지는 않다. 본 개시내용의 방법은 상이한 전략을 사용한다. 손 궤적은 이러한 후보 시작점들로부터 각각의 제스처 클래스의 HMM 모델에 매칭되고, 따라서 방법은 직접 제스처 발견 방법과 간접 제스처 발견 방법의 장점들을 조합할 수 있다.
HMM 모델 매칭
하기에 논의될 바와 같이, 단계(306)에서, 입력 이미지들의 시퀀스는 모델 매칭기(116)를 통해 HMM 모델(118)에 매칭된다.
Q = {Q1, Q2, …}를 특징 벡터들의 연속 시퀀스라고 하고, 여기서 Qj는 입력 이미지들의 입력 프레임 j로부터 추출되는 특징 벡터라고 하자. 손 위치 및 속력과 같은 특징들이 각각의 프레임에서 검출되는 손들을 나타내기 위해 사용된다. 이러한 특징들은 제스처를 수행하는 사용자의 얼굴의 위치 및 폭에 의해 정규화된다.
Figure pct00001
를 제스처 g에 대한 m+1 상태들을 가지는 좌-우 HMM 모델이라고 하자. 각각의 상태
Figure pct00002
는 각각의 관측 벡터 Qj의 우도비를 제공하는 가우시안(Gaussian) 관측 밀도와 연관된다. 바움-웰치(Baum-Welch) 알고리즘 또는 함수가 HMM 모델을 트레이닝하기 위해 사용될 것이다. 각각의 모델에 대한 상태들의 개수는, 바움-웰치(Baum-Welch) 알고리즘 또는 함수를 이용하여 통상적으로 수행되는 바와 같이, 궤적 길이에 따라 특정된다. 천이 확률들은 학습 작업을 간략화하기 위해, 즉, 모든 천이에서 고정되며, 모델은 동일한 가능성으로 다음 상태로 이동하거나 동일한 상태에 유지할 수 있다.
ak,i를 상태 k로부터 상태 i로 천이하는 천이 확률로서, 그리고
Figure pct00003
를 모델 상태
Figure pct00004
와 매칭시킬 때 특징 벡터 Qj의 우도비로서 표기한다. C를 섹션 1.1에서 기술되는 방법을 사용하여 검출되는 후보 시작점 세트라고 하자.
Figure pct00005
는 특정 상태이며, 여기서,
Figure pct00006
이다.
따라서, HMM 모델 매칭은 이러한 후보 시작점들에서만 시작한다.
Figure pct00007
를 제1 j개의 입력 특징 벡터들
Figure pct00008
을 제1
Figure pct00009
개의 모델 상태들
Figure pct00010
과 매칭시킬 때의 최대 확률로서 표기한다. 그러면, 아래와 같이 된다.
Figure pct00011
Figure pct00012
Figure pct00013
사이의 최대 매칭 스코어인
Figure pct00014
Figure pct00015
의 로그값(logarithm)이라고 하자:
Figure pct00016
수학식 2의 정리에 기초하여, 동적 프로그래밍(Dynamic Programming)(DP)이 사용되어 최대 매칭 스코어를 효율적으로 계산한다. DP는 (i,j)에 의해 인덱스화된 표를 사용하여 구현된다. 새로운 특징 벡터
Figure pct00017
가 입력 프레임으로부터 추출될 때, 프레임 n에 대응하는 표의 슬라이스가 계산되고, 2가지 정보가 셀
Figure pct00018
에 저장된다: 1) i = 0,…,m에 대한
Figure pct00019
의 값, 및 2) 수학식 2를 최소화시키기 위해 사용되는 전구체
Figure pct00020
, 여기서
Figure pct00021
는 프레임 i에서 끝나는 입력 시퀀스와 모델 사이의 최적의 매칭의 스코어이고, k는 이전 프레임이 최적의 매칭에서 대응하는 상태이다. SH(m,n)는 프레임 n에서 끝나는 입력 시퀀스와 모델 사이의 최적의 정렬에 대응한다. 최적의 동적 프로그래밍(DP) 경로, 즉, HMM 모델의 최적의 상태 시퀀스는 역추적을 사용하여 획득될 수 있다. 기존의 간접 방법들은 제스처 발견을 달성하기 위해 일반적으로 SH(m,n)를 사용하는데, 즉, SH(m,n)이 임계보다 더 큰 경우, 제스처 종단점은 프레임 n으로서 검출되고, 제스처 시작점은 최적 DP 경로를 역추적함으로써 발견될 수 있다.
시스템의 속도 및 정확도를 개선하기 위해, 종래의 시스템들은 전지작업 전략을 사용하며, 여기서 이들은 현재 관측의 우도비에 기초하여 자른다:
Figure pct00022
이고,
Figure pct00023
가 모델 상태
Figure pct00024
에 대한 임계이고 트레이닝 데이터로부터 학습되는 경우, 셀
Figure pct00025
은 잘려나갈 것이며, 그것을 통과하는 모든 경로가 거절될 것이다. 그러나, 이러한 간단한 전지 전략은 충분히 정확하지 않다.
기하학적 특징 추출
본 개시내용의 방법에서, 기하학적 특징들의 추출은 HMM 모델 매칭 절차 내에 포함된다. 입력 시퀀스에 대해, HMM 모델의 상태 시퀀스는 단계(308)에서, 천이 검출기(120)를 통해 결정된다. HMM의 상태들이 변경되는 포인트들이 검출된다. 도 4는 세그먼트화된 궤적 "0"으로부터 추출되는 예시적인 상태 천이점들의 일부 예들을 제공하고, 궤적은 사용자에 의해 수행되며 이미지 캡처 디바이스(102)에 의해 캡처된다. 블랙 포인트들은 상태 천이점들이다. 상태 천이점들의 위치들이 모든 궤적들에 대해 유사하며, 따라서, 하기에 기술될 바와 같이 단계(310)에서 특징 추출기(122)를 통해, 기하학적 특징들이 상태 천이점들 및 제스처의 시작점들의 상대적 위치들에 기초하여 추출된다는 것을 알 수 있다.
제스처의 시작점을
Figure pct00026
로서 표기하고, 천이점
Figure pct00027
에서 추출되는 기하학적 특징들은
Figure pct00028
,
Figure pct00029
Figure pct00030
를 포함한다. 이러한 간단한 특징들은 손 궤적들의 기하학적 정보를 적절히 기술할 수 있다.
각각의 제스처 클래스에 대해, 그것과 연관된 HMM 모델은 그것의 트레이닝 샘플들의 기하학적 특징들을 추출하기 위해 사용된다. 기하학적 특징들은 가우시안(Gaussian) 분포를 위배하는 것으로 가정된다. 기하학적 특징들의 분포들은 트레이닝 샘플들로부터 학습된다. 이후, 각각의 제스처 클래스는 HMM 모델 및 그것의 기하학적 특징 분포와 연관된다. 제스처 g의 기하학적 특징 분포들을
Figure pct00031
로서 표기하고, 여기서, m은
Figure pct00032
의 상태 수에 관련되고,
Figure pct00033
는 HMM 모델의 상태가 i-1에서 i로 변경하는 포인트에서 추출되는 기하학적 특징들의 분포이다. 기하학적 특징들의 추출이 HMM 모델 매칭 절차 내에 포함됨에 따라, 전지작업을 위한 기하학적 특징들을 이용하는 것이 용이하다. 예를 들어, 프레임 F가 상태 천이 프레임인 경우, 기하학적 특징들은 프레임 F에 기초하여 추출된다. 추출된 기하학적 특징의 확률이 임계보다 더 낮은 경우, 이 매칭은 잘려나갈 것인데, 즉, 후속하는 프레임들을 모델의 상태들에 매칭시키는 것은 모델 매칭기(116)에 의해 중단될 것이며, 매칭시킬 적어도 하나의 제2 제스처 모델이 선택될 것이다. 전지작업 절차가 이제 하기의 수학식 (4)에 관련하여 기술될 것이다.
단계(312)에서, 전지 함수 또는 프루너(pruner)(124)는, 후속하는 조건이 만족되는 경우 셀
Figure pct00034
을 잘라낼 것이다:
Figure pct00035
여기서,
Figure pct00036
는 HMM 모델 매칭 동안 상태 i의 전구체이고,
Figure pct00037
는 포인트 j에서 추출된 기하학적 특징들이고,
Figure pct00038
는 트레이닝 샘플들로부터 학습하는 임계이고,
Figure pct00039
Figure pct00040
는 섹션 1.2에서와 같이 정의된다.
단계(314)에서,
Figure pct00041
Figure pct00042
사이의 전체 매칭 스코어는 제스처 인식 모듈(112)에 의해 다음과 같이 계산된다:
Figure pct00043
여기서,
Figure pct00044
는 계수이고,
Figure pct00045
는 HMM 매칭 스코어이고,
Figure pct00046
는 HMM 상태가 i-1에서 i로 변경하는 포인트에서 추출되는 기하학적 특징들이다. 제스처의 시간적 세그먼트화는 간접 방법들과 같이 달성되는데, 즉,
Figure pct00047
이 임계보다 더 큰 경우, 제스처 종단점은 단계(216)에서와 같이 프레임 n으로서 검출되며, 제스처 시작점은 단계(218)에서와 같이 최적의 DP 경로를 역추적함으로써 발견될 수 있다. 표현 4 및 수학식 5을 사용함으로써 방법은 제스처 발견 및 인식을 위해 HMM 및 손 궤적의 기하학적 특징들을 조합하고, 따라서 시스템의 정확성을 개선할 수 있다.
또다른 실시예에서, 은닉 마르코프 모델(Hidden Markov Models)(HMM) 및 기하학적 특징 분포를 사용하여 적응형 제스처 인식을 달성하는 제스처 인식을 위한 시스템 및 방법이 제공된다. 본 개시내용의 시스템 및 방법은 제스처 인식을 위한 사용자의 손 궤적의 기하학적 특징들 및 HMM 모델을 조합한다. 입력 시퀀스에 대해, 관심 있는 검출된 객체, 예를 들어, 손이 추적되고 HMM 모델과 매칭된다. HMM 모델의 상태들이 변경하는 포인트들은 비터비(Viterbi) 알고리즘 또는 함수, 포워드 알고리즘 또는 함수, 포워드-백워드 알고리즘 또는 함수 등을 통해 발견된다. 이러한 포인트들은 상태 천이점들이라 명명된다. 기하학적 특징들은 상태 천이점들 및 제스처의 시작점들의 상대적 위치들에 기초하여 추출된다. 적응 데이터, 즉, 특정 사용자가 수행한 제스처들이 주어지면, 최대 우도비 선형 회귀(MLLR) 방법은 HMM 모델들을 적응시키고, 특정 사용자에 대해 각각의 제스처 클래스에 대한 기하학적 특징 분포들을 증분적으로 학습하기 위해 사용된다. HMM 모델들과 기하학적 특징 분포들의 동시적 업데이트를 통해, 제스처 인식 시스템은 특정 사용자에 대해 신속하게 적응할 수 있다.
HMM 및 궤적 기하학적 특징들을 조합시키는 제스처 인식
도 5를 참조하면, 본 개시내용의 양태에 따라 은닉 마르코프 모델(Hidden Markov Models)(HMM) 및 기하학적 특징 분포들을 사용하여 제스처 인식 시스템을 트레이닝하기 위한 예시적인 방법의 흐름도가 예시된다.
초기에, 단계(502)에서, 이미지들의 입력 시퀀스가 이미지 캡처 디바이스(102)에 의해 취득되거나 캡처된다. 단계(504)에서, 객체 검출기 및 추적기(114)는 입력 시퀀스에서 관심 있는 객체, 예를 들어, 사용자의 손을 검출하고, 시퀀스 전반에 걸쳐 객체를 추적한다. 손 위치 및 속력과 같은 특징들은 입력 시퀀스의 각각의 프레임에서 검출되는 손들을 표현하기 위해 사용된다. 이러한 특징들은 사용자의 얼굴의 위치와 폭에 의해 정규화된다. 얼굴 중심 위치(xf,yf), 얼굴의 폭(w), 및 이미지의 프레임 상의 손 위치(xh,yh)가 주어지면, 정규화된 손 위치는 xhn=(xh-xf)/w,yhn=(yh-yf)/w인데, 즉, 절대 좌표들은 얼굴 중심에 대해 상대적 좌표들로 변경된다.
단계(506)에서, 가우시안(Gaussian) 관측 밀도들을 가지는 좌-우 HMM 모델은 검출된 손들을 제스처 모델에 매칭시켜서 제스처 클래스를 결정하기 위해 사용된다. 예를 들어, 캡처된 비디오의 각각의 프레임으로부터의 특징들의 시퀀스인 입력 시퀀스 및 상태들의 시퀀스인 제스처 모델이 주어지면, 모델 매칭기(116)는 예를 들어, 비터비(Viterbi) 알고리즘 또는 함수, 포워드 알고리즘 또는 함수, 또는 포워드-백워드 알고리즘 또는 함수를 통해 각각의 프레임과 각각의 상태 사이의 대응하는 관계를 찾는다.
다음으로, 단계(508)에서, 입력 시퀀스에 대해, 매칭되는 HMM 모델의 상태 시퀀스는 비터비(Viterbi) 알고리즘 또는 함수를 사용하여 천이 검출기(120)에 의해 검출된다. HMM 모델의 상태들이 변경하는 포인트들이 검출된다. 단계(510)에서, 기하학적 특징들은 특징 추출기(122)를 통해 특징 추출기(122)를 통해 상태 천이점들과 제스처의 시작점의 상대적 위치들에 기초하여 추출된다. 제스처의 시작점을
Figure pct00048
로서 표기하면, 천이점
Figure pct00049
에서 추출되는 기하학적 특징들은 xt-x0, yt-y0, 및
Figure pct00050
를 포함한다. 입력 시퀀스가 주어지면, 모든 상태 천이점들에서 추출되는 특징들은 입력 시퀀스의 기하학적 특징들을 형성한다. 이러한 간단한 특징들은 손 궤적들의 기하학적 정보를 적절하게 기술할 수 있다.
각각의 제스처 클래스에 대해, 좌-우 HMM 모델이 트레이닝되고, 이러한 HMM 모델은 그것의 트레이닝 샘플들의 기하학적 특징들을 추출하기 위해 사용된다. 기하학적 특징들은 가우시안 분포에 위배되는 것으로 가정된다. 기하학적 특징들의 분포는 트레이닝 샘플들로부터 학습된다. 이후, 단계(512)에서, 각각의 제스처 클래스는 HMM 모델과 연관되고, 단계(514)에서, 연관된 HMM 모델 및 기하학적 특징 분포가 저장된다.
제i 제스처 클래스와 연관된 HMM 모델 및 기하학적 특징 분포는 각자
Figure pct00051
Figure pct00052
로 표기한다. 세그먼트화된 손 궤적
Figure pct00053
(즉, 검출되고 추적된 객체)를 제i 제스처 클래스와 매칭시키기 위해, 기하학적 특징들
Figure pct00054
Figure pct00055
를 사용하여 추출된다. 매칭 스코어는 제스처 인식 모듈(112)에 의해 다음과 같이 계산된다:
Figure pct00056
여기서,
Figure pct00057
는 계수이고,
Figure pct00058
는 HMM 모델
Figure pct00059
이 주어진 손 궤적 O의 확률이다.
Figure pct00060
는 포워드-백워드(Forward-Backward) 알고리즘 또는 함수를 사용하여 계산된다. 입력 손 궤적은 그것의 매칭 스코어가 가장 높은 제스처 클래스로서 분류될 것이다. 따라서, 수학식 6을 사용하여, 본 개시내용의 시스템 및 방법은 제스처 인식을 위한 사용자의 손 궤적(즉, 검출되고 추적되는 객체)의 기하학적 특징들 및 HMM 모델들을 조합할 수 있다.
제스처 인식의 적응
도 6은 본 개시내용의 양태에 따라 제스처 인식 시스템을 특정 사용자에 대해 적응시키기 위한 예시적인 방법의 흐름도이다. 적응 데이터(즉, 특정 사용자가 수행한 제스처들)가 주어지면, 본 개시내용의 시스템 및 방법은 최대 우도비 선형 회귀(MLLR) 함수를 사용하여 HMM 모델들을 적응시키고 각각의 제스처 클래스에 대한 기하학적 특징 분포들을 증분적으로 학습한다.
초기에, 단계(602)에서, 이미지들의 입력 시퀀스가 이미지 캡처 디바이스(102)에 의해 캡처된다. 단계(604)에서, 객체 검출기 및 추적기(114)는 입력 시퀀스에서 관심 있는 객체를 검출하고, 시퀀스 전반에 걸쳐 객체를 추적한다. 단계(606)에서, 가우시안 관측 밀도를 가지는 좌-우 HMM 모델이 제스처 클래스를 모델링하기 위해 사용된다. 단계(608)에서, 결정된 제스처 클래스에 연관된 기하학적 특징 분포들이 검색된다.
다음으로, 단계(610)에서, HMM 모델은 최대 우도비 선형 회귀(MLLR) 함수를 사용하여 특정 사용자에 대해 적응된다. 최대 우도비 선형 회귀(MLLR)는 적응형 스피치 인식을 위해 널리 사용된다. 그것은 새로운 샘플들을 사용하여 모델 파라미터들의 선형 변환들의 세트를 추정하고, 따라서, 모델은 변환 이후 새로운 샘플들을 더 양호하게 매칭시킬 수 있다. 표준 MLLR 방식에서, 가우시안 밀도의 평균 벡터들은
Figure pct00061
에 따라 업데이트되고, W는
Figure pct00062
행렬이고(n은 관측 특징 벡터의 디멘젼이고)
Figure pct00063
는 확장된 평균 벡터, 즉
Figure pct00064
이다. 적응 데이터 O가 T개 관측들의 수열, 즉,
Figure pct00065
이라고 가정한다. 수학식 7에서 W를 계산하기 위해, 최대화될 목적 함수는 적응 데이터를 생성하는 우도비이다
Figure pct00066
여기서, θ는 O를 생성하는 가능한 상태 시퀀스이고, λ는 모델 파라미터들의 세트이다.
Figure pct00067
가 모델 파라미터들의 현재 세트이고,
Figure pct00068
가 모델 파라미터들의 재-추정된 세트인, 보조 함수
Figure pct00069
를 최대화함으로써, 수학식 8의 목적 함수 역시 최대화된다. W에 대해 수학식 9를 최대화하는 것은 기대-최대화(Expectation-Maximization)(EM) 알고리즘 또는 함수를 이용하여 구해질 수 있다.
이후, 단계(612)에서, 시스템은 미리 결정된 개수의 적응 샘플들에 대한 기하학적 특징 분포의 평균 및 공분산 행렬에 의해 사용자에 대한 기하학적 특징 분포들을 증분적으로 학습한다. 제스처 g의 현재 기하학적 특징 분포들을
Figure pct00070
로서 표기하고, 여기서,
Figure pct00071
는 HMM 모델의 상태가 i-1로부터 i로 변경하는 포인트에서 추출되는 기하학적 특징들의 분포이다.
Figure pct00072
의 평균 및 공분산 행렬을 각자
Figure pct00073
Figure pct00074
라고 가정한다. 제스처 g의 적응 데이터가 주어지면, 기하학적 특징들이 데이터로부터 추출되고, 상태가 i-1에서 i로 변경하는 조정 데이터의 포인트들에서 추출되는 기하학적 특징들이 집합
Figure pct00075
를 형성한다고 하고,
Figure pct00076
는 제스처 g의 제i 적응 샘플로부터 추출되는 특징들이고, k는 제스처 g에 대한 적응 샘플들의 개수이다. 이후, 기하학적 특징 분포는 다음과 같이 업데이트된다:
Figure pct00077
여기서,
Figure pct00078
Figure pct00079
는 각자
Figure pct00080
의 재-추정된 평균 및 공분산 행렬이다.
HMM 모델들 및 기하학적 특징 분포들의 동시적 업데이트를 통해, 제스처 인식 시스템은 사용자들에 대해 신속하게 적응할 수 있다. 단계(614)에서 적응된 HMM 모델 및 학습된 기하학적 특징 분포들이 이후 저장 디바이스(110)에 특정 사용자에 대해 저장된다.
제스처 인식을 위한 시스템 및 방법이 기술된다. 제스처 모델들(예를 들어, HMM 모델들) 및 기하학적 특징 분포들이 제스처 인식을 수행하기 위해 사용된다. 적응 데이터(즉, 특정 사용자가 수행한 제스처들)에 기초하여, HMM 모델들 및 기하학적 특징 분포들 모두가 업데이트된다. 이러한 방식으로, 시스템은 특정 사용자에 대해 적응할 수 있다.
도 7에 도시된 재생 디바이스(700)에서, 항목들을 구매하기 위해 사용되는 이미지 정보 및 대응하는 정보가 입력 신호 수신기(702)를 통해 수신된다. 입력 신호 수신기(702)는 에어, 케이블, 위성, 이더넷, 섬유 및 전화선 네트워크들을 포함하는 몇몇 가능한 네트워크들 중 하나를 통해 제공되는 신호들을 수신하고, 복조하고, 디코딩하기 위해 사용되는 몇몇 공지된 수신기 회로들 중 하나일 수 있다. 원하는 입력 신호는 제어 인터페이스(미도시됨)를 통해 제공되는 사용자 입력에 기초하여 입력 신호 수신기(702)에서 선택되고 검색될 수 있다. 디코딩된 출력 신호가 입력 스트림 프로세서(704)에 제공된다. 입력 스트림 프로세서(704)는 최종 신호 선택 및 프로세싱을 수행하고, 콘텐츠 스트림을 위해 오디오 콘텐츠로부터의 비디오 콘텐츠의 분리를 포함한다. 오디오 콘텐츠는 압축된 디지털 신호와 같은 수신된 포맷으로부터 아날로그 파형 신호로의 전환을 위해 오디오 프로세서(706)에 제공된다. 아날로그 파형 신호는 오디오 인터페이스(708)에, 그리고 추가로 디스플레이 디바이스 또는 오디오 증폭기(미도시됨)에 제공된다. 대안적으로, 오디오 인터페이스(708)는 예컨대, 소니/필립스 디지털 상호접속 포맷(Sony/Philips Digital Interconnect Format)(SPDIF)을 통해 고해상도 멀티미디어 인터페이스(High-Definition Multimedia Interface)(HDMI) 케이블 또는 교번 오디오 인터페이스를 사용하여 오디오 출력 디바이스 또는 디스플레이 디바이스에 디지털 신호를 제공할 수 있다. 오디오 프로세서(706)는 오디오 신호들의 저장을 위한 임의의 필수 전환을 또한 수행한다.
입력 스트림 프로세서(704)로부터의 비디오 출력은 비디오 프로세서(710)에 제공된다. 비디오 신호는 몇몇 포맷들 중 하나일 수 있다. 비디오 프로세서(710)는, 필요한 경우 비디오 콘텐츠의 전환을, 입력 신호 포맷에 기초하여 제공한다. 비디오 프로세서(710)는 비디오 신호들의 저장을 위한 임의의 필수 전환을 또한 수행한다.
저장 디바이스(712)는 입력에서 수신되는 오디오 및 비디오 콘텐츠를 저장한다. 저장 디바이스(712)는 제어기(714)의 제어 하에서 그리고 또한, 사용자 인터페이스(716)로부터 수신된 커맨드들, 예를 들어, 다음 항목, 다음 페이지, 줌, 빨리 감기(FF) 재생 모드 및 되감기(Rew) 재생 모드와 같은 탐색 명령들에 기초하여 콘텐츠의 추후 검색 및 재생을 허용한다. 저장 디바이스(712)는 하드 디스크 드라이브, 정적 랜덤 액세스 메모리 또는 동적 랜덤 액세스 메모리와 같은 하나 이상의 대용량 집적 전자 메모리들일 수 있거나, 또는 컴팩트 디스크 드라이브 또는 디지털 비디오 디스크 드라이브와 같은 교환가능한 광학 디스크 저장 시스템일 수 있다. 일 실시예에서, 저장 디바이스(712)는 외부에 있을 수 있거나, 시스템 내에 존재하지 않을 수 있다.
입력으로부터 또는 저장 디바이스(712)로부터 기인한, 비디오 프로세서(710)로부터의 전환된 비디오 신호는 디스플레이 인터페이스(718)에 제공된다. 디스플레이 인터페이스(718)는 전술된 타입의 디스플레이 디바이스에 디스플레이 신호를 추가로 제공한다. 디스플레이 인터페이스(718)는 적-녹-청(RGB)과 같은 아날로그 신호 인터페이스일 수 있거나, 또는 고해상도 멀티미디어 인터페이스(HDMI)와 같은 디지털 인터페이스일 수 있다.
프로세서일 수 있는 제어기(714)는, 입력 스트림 프로세서(702), 오디오 프로세서(706), 비디오 프로세서(710), 저장 디바이스(712), 사용자 인터페이스(716) 및 제스처 모듈(722)을 포함하는, 디바이스(700)의 컴포넌트들 중 몇몇에 버스를 통해 상호접속된다. 제어기(714)는 입력 스트림 신호를 저장 디바이스 상에의 저장을 위한 또는 디스플레이를 위한 신호로 전환시키기 위한 전환 프로세스를 관리한다. 제어기(714)는 저장된 콘텐츠의 재생을 위해 사용되는 검색 및 재생 모드들을 또한 관리한다. 또한, 하기에 기술될 바와 같이, 제어기(714)는 전술된 전달 네트워크들을 통해 저장된 또는 전달될 콘텐츠의 탐색을 수행한다. 제어기(714)는 제어기(714)에 대한 정보 및 명령 코드를 저장하기 위한 메모리(720)(예를 들어, 랜덤 액세스 메모리, 정적 RAM, 동적 RAM, 판독 전용 메모리, 프로그래밍가능한 ROM, 플래시 메모리, EPROM, EEPROM 등을 포함하는 휘발성 또는 비휘발성 메모리)를 제어하도록 추가로 커플링된다. 또한, 메모리의 구현예는, 단일 메모리 디바이스, 또는 대안적으로 함께 접속되어 공유형 또는 공통 메모리를 형성하는 하나 초과의 메모리 회로와 같은, 몇몇 가능한 실시예들을 포함할 수 있다. 추가로, 메모리는, 더 큰 회로에, 버스 통신 회로의 일부분들과 같은, 다른 회로와 함께 포함될 수 있다.
본 개시내용의 사용자 인터페이스(716)는 디스플레이 주위에서 커서를 이동시키는 입력 디바이스를 사용할 수 있고, 이는 차례로, 커서가 그 위를 지나감에 따라 콘텐츠가 확대되도록 한다. 일 실시예에서, 입력 디바이스는, 사용자가 스크린 또는 디스플레이 주위에서 자유롭게 커서를 움직이게 하는, 자이로스코프 또는 가속계와 같은, 모션 검출의 형태를 가지는, 원격 제어기이다. 또다른 실시예에서, 입력 디바이스는 스크린 상에서, 패드 상의 사용자의 움직임을 추적할 터치 패드 또는 터치 감지 디바이스의 형태인 제어기들이다. 또다른 실시예에서, 입력 디바이스는 방향 버튼들을 가지는 전통적인 원격 제어일 수 있다. 사용자 인터페이스(716)는 또한 명세서에 기술된 예시적인 원리들에 따라 카메라, 시각적 커서 등을 사용하여 사용자 제스처들을 광학적으로 인식하도록 구성될 수 있다.
제스처 모듈(722)은, 도 1로부터의 예시적인 실시예로서, 사용자 인터페이스(716)로부터의 제스처 기반 입력을 해석하고, 위의 예시적인 원리들에 따라 사용자가 어느 제스처들을 만드는지를 결정한다. 결정된 제스처는 이후 재생 및 재생을 위한 속도를 설명하기 위해 사용될 수 있다. 구체적으로, 제스처는 고속 앞으로 가기 동작 및 고속 뒤로 가기 동작과 같은, 미디어의 실시간 재생보다 더 빠른 미디어의 재생을 표시하기 위해 사용될 수 있다. 마찬가지로, 제스처는 슬로우 모션 앞으로 가기 동작 및 슬로우 모션 뒤로 가기 동작과 같은 미디어의 실시간 재생보다 더 느린 재생을 표시할 수 있다. 어느 제스처들이 미디어의 재생 속도를 제어하고, 이러한 제스처들이 미디어의 재생 속도를 어떻게 제어하는지에 대한 이러한 결정이 다양한 예시적인 실시예에서 기술된다.
제스처들은 베이스 제스처 및 제스처 수정자로서 알려진 적어도 2개의 부분들로 나누어질 수 있다. 베이스 제스처는 팔 또는 다리의 움직임일 수 있는 움직임의 양태를 포함하는 "총(gross)" 제스처이다. 제스처의 수정자는 사람이 팔을 움직이는 동안 제시되는 손가락의 개수, 사람이 팔을 움직일 때 손에서의 제시된 손가락의 위치, 사람이 자신의 다리를 움직일 때의 발의 움직임, 사람이 팔을 움직이는 동안의 손 흔들기 등일 수 있다. 베이스 제스처는 고속 앞으로 가기, 고속 뒤로 가기, 슬로우 모션 앞으로 가기, 슬로우 모션 뒤로 가기, 정상 재생, 일시정지 등과 같은 재생 모드에서 재생 디바이스(700)를 동작시키는 것으로서 제스처 모듈(722)에 의해 결정될 수 있다. 제스처의 수정자는 이후 정상 재생 모드와 연관된 미디어의 실시간 재생보다 더 빠르거나 더 느릴 수 있는 재생 속도를 설정하는 것으로서 제스처 모듈(720)에 의해 결정된다. 예시적인 실시예에서, 특정 제스처와 연관된 재생은 그 제스처가 사용자에 의해 유지되는(held) 한 계속될 것이다.
도 8은 예시적인 실시예에 따라 입력 제스처들이 미디어의 재생을 제어하기 위해 사용되는 흐름도(800)를 예시한다. 단계(802)는 사용자 제스처를 수신하는 사용자 인터페이스(710)를 가진다. 전술된 바와 같이, 사용자 제스처는 시각적 기법을 사용하여 사용자 인터페이스(710)에 의해 인식될 수 있다. 단계(804)에서, 제스처 모듈(722)은 입력 제스처를, 예시적으로, 좌측 방향으로 팔 움직이기, 우측 방향으로 팔 움직이기, 상향으로 팔 움직이기, 하향으로 팔 움직이기 등일 수 있는, 베이스 제스처로 나눈다. 결정된 베이스 제스처는 이후, 정상 재생 모드, 고속 앞으로 가기, 고속 뒤로 가기, 슬로우 앞으로 가기 모션, 슬로우 뒤로 가기 모션, 일시정지 모드 등과 같은 예시적인 재생 모드들을 사용하여 재생 모드를 선택하기 위해 사용되는 제어 커맨드와 연관된다. 재생 모드는 실시간 재생 동작인 실시간 재생 모드일 수 있다. 재생 모드는, 고속 앞으로 가기, 고속 뒤로 가기, 슬로우 모션 앞으로 가기, 슬로우 모션 뒤로 가기 등과 같은 재생 모드를 사용하는 비-실시간 재생 모드일 수 있다. 예시적인 실시예에서, 우측 방향으로 팔 움직이기는 앞으로 가기 재생 동작을 나타내는 반면, 좌측 방향으로 팔 움직이기는 뒤로 가기 재생 동작을 나타낸다.
단계(806)에서, 제스처 모듈(722)은 예시적인 수정자들이 손에 제시된 손가락들의 개수, 손 위의 손가락의 위치, 손 흔드는 횟수, 손의 손가락의 움직임 등을 포함하는 베이스 제스처의 수정자를 결정한다. 예시적인 예에서, 제1 손가락은 제1 재생 속도를 나타낼 수 있고, 제2 손가락은 제2 재생 속도를 나타낼 수 있고, 제3 손가락은 제3 재생 속도를 나타낼 수 있는 등의 식이다. 이상적으로, 수정자는 비-실시간보다 더 빠르거나 더 느린 재생 속도에 대응한다.
또다른 예시적인 예에서, 검지의 위치는 실시간 재생 속도보다 2배 더 빠름을 나타낼 수 있고, 중지의 위치는 실시간 재생 속도보다 4배 더 빠름을 나타낼 수 있고, 약지의 위치는 실시간 재생 속도보다 8배 더 빠름을 나타낼 수 있는 등의 식이다.
상이한 수정자들에 대응하는 속도는 실시간 속도보다 더 빠른 속도 및 더 느린 속도의 혼합일 수 있다. 추가적인 예시적인 예에서, 검지의 위치는 실시간 재생 속도보다 2배 더 빠름을 나타낼 수 있는 반면, 중지의 위치는 실시간 재생 속도이 1/2배임을 나타낼 수 있다. 속도들의 다른 혼합들은 예시적인 원리들에 따라 사용될 수 있다.
단계(808)에서, 제스처 모듈(722)에 의해 결정되는 수정자는 단계(806)로부터 재생 모드의 속도를 결정하는 제어 커맨드와 연관된다. 단계(810)에서, 제어기(714)는 수정자에 의해 결정된 속도로 결정된 재생 모드에서 미디어의 재생을 개시하기 위한 제어 커맨드를 사용한다. 미디어는 선택된 재생 모드에 따라 오디오 프로세서(706) 및 비디오 프로세서(710)를 통해 결정된 재생 모드에서 출력될 수 있다.
선택적 실시예에서, 고속 동작으로부터 저속 모션 모드로의 변경은 하향으로 팔을 움직임으로써 실현될 수 있다. 즉, 고속 앞으로 가기 동작을 야기하기 위해 사용되는 베이스 제스처는 이제 슬로우 앞으로 가기 모션 동작을 초래할 것인 반면, 고속 뒤로 가기 동작을 초래한 베이스 제스처는 이제 슬로우 모션 뒤로 가기 동작을 초래할 것이다. 추가적인 선택적 실시예에서, 베이스 제스처에 대한 저속 동작으로부터 고속 동작으로의 변경은 예시적인 원리들에 따라 상향으로 팔을 움직이는 제스처에 응답하여 수행된다.
도 9는 미디어의 재생을 제어하기 위해 사용되는 팔과 손 제스처의 표현을 도시하는 사용자 인터페이스(900)의 예시적인 실시예를 제시한다. 사용자 인터페이스(900)에서의 특정 제스처는 하나의 손가락을 사용하여 우측으로 향하는 팔을 도시한다. 우측으로의 팔 움직임의 베이스 제스처는, 수정자가 미디어가 제1 속도로 재생되어야 하는 것을 나타내는 미디어의 고속 앞으로 가기 또는 슬로우 모션 앞으로 가기 재생을 나타낼 것이다. 도 10은 우측으로 움직이는 팔과 손 제스처를 도시하는 사용자 인터페이스(1000)의 예시적인 실시예를 제시하며, 여기서, 미디어의 재생은 수정자로서 3개의 손가락의 디스플레이에 상관시키는 제3 속도에 있을 것이다.
도 11은 팔과 손 제스처가 미디어의 재생을 제어하기 위해 사용되는 것을 예시하는 사용자 인터페이스(1100)의 예시적인 실시예를 제시한다. 구체적으로, 사용자 인터페이스(1100)에서의 제스처는 고속 뒤로 가기 또는 슬로우 모션 리뷰인 뒤로 가기 기반 모드에서 미디어의 재생을 상관시키는 좌측으로 움직이는 베이스 제스처이다. 예시적인 원리들에 따르면, 뒤로 가기 기반 모드의 속도는 복수의 속도들로부터의 제2 속도이다. 하기의 표 1은 개시된 원리들에 따른 연관된 수정자들을 가지는 예시적인 베이스 제스처들을 도시한다.
Figure pct00081
본 개시내용의 교시들을 포함하는 실시예들이 본원에 도시되고 상세하게 기술되었지만, 본 기술분야의 통상의 기술자는 이러한 교시들을 여전히 포함하는 많은 다른 변경된 실시예들을 용이하게 고안할 수 있다. 제스처 인식을 위한 시스템 및 방법에 대한 바람직한 실시예들을 기술하였지만(이들은 제한적인 것이 아니라 예시적인 것으로 의도됨), 수정들 및 변경들이 위의 교시들의 견지에서 본 기술분야의 통상의 기술자에 의해 이루어질 수 있다는 점에 유의한다. 따라서, 첨부된 청구항들에 의해 개요화된 바와 같이 개시내용의 범위 내에 있는 개시된 개시내용의 특정 실시예들에서 변경들이 이루어질 수 있다는 것이 이해될 것이다.

Claims (28)

  1. 미디어 재생을 제어하기 위한 방법으로서,
    사용자 제스처에 대응하는 입력을 수신하는 단계(802);
    상기 입력의 베이스 제스처를 재생 모드에 대응하는 제어 커맨드와 연관시키는 단계(804);
    상기 베이스 제스처의 수정자를 수신하는 단계(806);
    상기 수정자를 상기 제어 커맨드와 연관시키는 단계(808); 및
    상기 제어 커맨드에 응답하여 상기 연관된 재생 모드 및 수정자에 따라 미디어를 재생하는 단계(810)
    를 포함하는 방법.
  2. 제1항에 있어서,
    복수의 상이한 수정자들 중 하나의 수정자를 상기 제어 커맨드와 선택적으로 연관시키는 단계; 및
    상기 복수의 상기 수정자들 중 선택되는 하나의 수정자에 응답하여 상기 재생 모드를 수정하는 단계
    를 더 포함하는 방법.
  3. 제2항에 있어서, 상기 재생 모드의 방향 및 속도를 제어하기 위해 상기 복수의 상기 수정자들 중 상이한 수정자들을 선택하는 단계를 더 포함하는 방법.
  4. 제1항에 있어서, 상기 재생 모드는 고속 앞으로 가기 동작(fast forward operation), 고속 뒤로 가기 동작(fast reverse operation), 슬로우 모션 앞으로 가기 동작(slow motion forward operation), 및 슬로우 모션 뒤로 가기 동작(slow motion reverse operation)으로 구성된 그룹으로부터 선택되는 적어도 하나의 모드인 방법.
  5. 제1항에 있어서, 상기 베이스 제스처는 좌측 방향으로 팔 움직이기, 우측 방향으로 팔 움직이기, 상향으로 팔 움직이기, 및 하향으로 팔 움직이기로 구성된 그룹으로부터 선택되는 적어도 하나의 제스처인 방법.
  6. 제5항에 있어서, 상기 베이스 제스처의 수정자는 적어도 하나의 손가락을 제시하는 것, 적어도 하나의 제시된 손가락의 위치, 적어도 한 손 흔들기, 및 적어도 하나의 손가락의 적어도 하나의 움직임을 포함하는 그룹으로부터 선택되는 적어도 하나의 엘리먼트인 방법.
  7. 제6항에 있어서, 상기 적어도 하나의 손가락을 제시하는 것은:
    하나의 손가락을 제시하는 것이 재생 속도에 대한 제1 속도를 나타내는 것;
    2개의 손가락을 제시하는 것이 재생 속도에 대한 제2 속도를 나타내는 것; 및
    3개의 손가락을 제시하는 것이 재생 속도에 대한 제3 속도를 나타내는 것
    을 더 포함하는 방법.
  8. 제6항에 있어서, 상기 적어도 하나의 손가락을 제시하는 것은:
    제1 위치에서 상기 손가락을 표시하는 것이 제1 재생 속도에 있는 속도를 나타내는 것;
    제2 위치에서 상기 손가락을 표시하는 것이 제2 재생 속도에 있는 속도를 나타내는 것; 및
    제3 위치에서 상기 손가락을 표시하는 것이 제3 재생 속도에 있는 속도를 나타내는 것
    을 더 포함하는 방법.
  9. 제5항에 있어서, 하향으로의 팔의 움직임은 고속 동작에서 슬로우 모션 동작으로 재생 속도를 변경시키는 방법.
  10. 제5항에 있어서, 상향으로의 팔의 움직임은 슬로우 모션 동작에서 고속 동작으로 재생 속도를 변경시키는 방법.
  11. 제1항에 있어서, 상기 베이스 제스처는 상기 재생 모드가 고속 앞으로 가기 동작임을 나타내는 우측으로의 팔 움직임이고, 상기 베이스 제스처의 상기 수정자는 디스플레이되는 손가락들의 개수가 상기 고속 앞으로 가기 동작의 속도를 결정하기 위해 사용되는 적어도 하나의 손가락의 디스플레이인 방법.
  12. 제1항에 있어서, 상기 베이스 제스처는 상기 재생 모드가 고속 뒤로 가기 동작임을 나타내는 좌측으로의 팔 움직임이고, 상기 베이스 제스처의 상기 수정자는 디스플레이되는 손가락들의 개수가 상기 고속 뒤로 가기 동작의 속도를 결정하기 위해 사용되는 적어도 하나의 손가락의 디스플레이인 방법.
  13. 제1항에 있어서, 상기 베이스 제스처는 상기 재생 모드가 슬로우 앞으로 가기 동작임을 나타내는 우측으로의 팔 움직임이고, 상기 베이스 제스처의 상기 수정자는 디스플레이되는 손가락들의 개수가 상기 슬로우 앞으로 가기 동작의 속도를 결정하기 위해 사용되는 적어도 하나의 손가락의 디스플레이인 방법.
  14. 제1항에 있어서, 상기 베이스 제스처는 상기 재생 모드가 슬로우 뒤로 가기 동작임을 나타내는 좌측으로의 팔 움직임이고, 상기 베이스 제스처의 상기 수정자는 디스플레이되는 손가락들의 개수가 상기 슬로우 뒤로 가기 동작의 속도를 결정하기 위해 사용되는 적어도 하나의 손가락의 디스플레이인 방법.
  15. 미디어 재생을 제어하기 위한 장치로서,
    프로세서; 및
    상기 프로세서에 커플링되는 메모리
    를 포함하고, 상기 메모리는, 상기 프로세서에 의해 실행될 때:
    사용자 제스처에 대응하는 입력을 수신하는 동작(802);
    상기 입력의 베이스 제스처를 재생 모드에 대응하는 제어 커맨드와 연관시키는 동작(804);
    상기 베이스 제스처의 수정자를 수신하는 동작(806);
    상기 수정자를 상기 제어 커맨드와 연관시키는 동작(808); 및
    상기 제어 커맨드에 응답하여 상기 연관된 재생 모드 및 수정자에 따라 미디어를 재생하는 동작(810)
    을 수행하는 명령들을 저장하기 위한 장치.
  16. 제15항에 있어서, 상기 프로세서가:
    복수의 상이한 수정자들 중 하나의 수정자를 상기 제어 커맨드와 선택적으로 연관시키는 동작; 및
    상기 복수의 상기 수정자들 중 선택되는 하나의 수정자에 응답하여 상기 재생 모드를 수정하는 동작
    을 수행하게 하는 명령들을 포함하는 장치.
  17. 제16항에 있어서, 상기 프로세서가 상기 재생 모드의 방향 및 속도를 제어하기 위해 상기 복수의 상기 수정자들 중 상이한 수정자들을 선택하는 동작을 수행하게 하는 명령을 더 포함하는 장치.
  18. 제15항에 있어서, 상기 재생 모드는 고속 앞으로 가기 동작, 고속 뒤로 가기 동작, 슬로우 모션 앞으로 가기 동작, 및 슬로우 모션 뒤로 가기 동작으로 구성된 그룹으로부터 선택되는 적어도 하나의 모드인 장치.
  19. 제15항에 있어서, 상기 베이스 제스처는 좌측 방향으로 팔 움직이기, 우측 방향으로 팔 움직이기, 상향으로 팔 움직이기, 및 하향으로 팔 움직이기로 구성된 그룹으로부터 선택되는 적어도 하나의 제스처인 장치.
  20. 제19항에 있어서, 상기 베이스 제스처의 수정자는 적어도 하나의 손가락을 제시하는 것, 적어도 하나의 제시된 손가락의 위치, 적어도 한 손 흔들기, 및 적어도 하나의 손가락의 적어도 하나의 움직임을 포함하는 그룹으로부터 선택되는 적어도 하나의 엘리먼트인 장치.
  21. 제20항에 있어서, 상기 적어도 하나의 손가락을 제시하는 것은:
    하나의 손가락을 제시하는 것이 재생 속도에 대한 제1 속도를 나타내는 것;
    2개의 손가락을 제시하는 것이 재생 속도에 대한 제2 속도를 나타내는 것; 및
    3개의 손가락을 제시하는 것이 재생 속도에 대한 제3 속도를 나타내는 것
    을 더 포함하는 장치.
  22. 제20항에 있어서, 상기 적어도 하나의 손가락을 제시하는 것은:
    제1 위치에서 상기 손가락을 표시하는 것이 제1 재생 속도에 있는 속도를 나타내는 것;
    제2 위치에서 상기 손가락을 표시하는 것이 제2 재생 속도에 있는 속도를 나타내는 것; 및
    제3 위치에서 상기 손가락을 표시하는 것이 제3 재생 속도에 있는 속도를 나타내는 것
    을 더 포함하는 장치.
  23. 제19항에 있어서, 하향으로의 팔의 움직임은 고속 동작에서 슬로우 모션 동작으로 재생 속도를 변경시키는 장치.
  24. 제19항에 있어서, 상향으로의 팔의 움직임은 슬로우 모션 동작에서 고속 동작으로 재생 속도를 변경시키는 장치.
  25. 제15항에 있어서, 상기 베이스 제스처는 상기 재생 모드가 고속 앞으로 가기 동작임을 나타내는 우측으로의 팔 움직임이고, 상기 베이스 제스처의 상기 수정자는 디스플레이되는 손가락들의 개수가 상기 고속 앞으로 가기 동작의 속도를 결정하기 위해 사용되는 적어도 하나의 손가락의 디스플레이인 장치.
  26. 제15항에 있어서, 상기 베이스 제스처는 상기 재생 모드가 고속 뒤로 가기 동작임을 나타내는 좌측으로의 팔 움직임이고, 상기 베이스 제스처의 상기 수정자는 디스플레이되는 손가락들의 개수가 상기 고속 뒤로 가기 동작의 속도를 결정하기 위해 사용되는 적어도 하나의 손가락의 디스플레이인 장치.
  27. 제15항에 있어서, 상기 베이스 제스처는 상기 재생 모드가 슬로우 앞으로 가기 동작임을 나타내는 우측으로의 팔 움직임이고, 상기 베이스 제스처의 상기 수정자는 디스플레이되는 손가락들의 개수가 상기 슬로우 앞으로 가기 동작의 속도를 결정하기 위해 사용되는 적어도 하나의 손가락의 디스플레이인 장치.
  28. 제15항에 있어서, 상기 베이스 제스처는 상기 재생 모드가 슬로우 뒤로 가기 동작임을 나타내는 좌측으로의 팔 움직임이고, 상기 베이스 제스처의 상기 수정자는 디스플레이되는 손가락들의 개수가 상기 슬로우 뒤로 가기 동작의 속도를 결정하기 위해 사용되는 적어도 하나의 손가락의 디스플레이인 장치.
KR1020167021558A 2014-01-07 2015-01-07 제스처를 사용하여 미디어의 재생을 제어하기 위한 시스템 및 방법 KR20160106691A (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201461924647P 2014-01-07 2014-01-07
US61/924,647 2014-01-07
US201461972954P 2014-03-31 2014-03-31
US61/972,954 2014-03-31
PCT/US2015/010492 WO2015105884A1 (en) 2014-01-07 2015-01-07 System and method for controlling playback of media using gestures

Publications (1)

Publication Number Publication Date
KR20160106691A true KR20160106691A (ko) 2016-09-12

Family

ID=52432945

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020167021558A KR20160106691A (ko) 2014-01-07 2015-01-07 제스처를 사용하여 미디어의 재생을 제어하기 위한 시스템 및 방법

Country Status (7)

Country Link
US (1) US20170220120A1 (ko)
EP (1) EP3092547A1 (ko)
JP (1) JP2017504118A (ko)
KR (1) KR20160106691A (ko)
CN (1) CN105980963A (ko)
TW (1) TW201543268A (ko)
WO (1) WO2015105884A1 (ko)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10489106B2 (en) * 2016-12-31 2019-11-26 Spotify Ab Media content playback during travel
US10747423B2 (en) 2016-12-31 2020-08-18 Spotify Ab User interface for media content playback
US11514098B2 (en) 2016-12-31 2022-11-29 Spotify Ab Playlist trailers for media content playback during travel
EP3707693A1 (en) * 2017-11-08 2020-09-16 Signall Technologies Zrt Computer vision based sign language interpreter
US10701431B2 (en) * 2017-11-16 2020-06-30 Adobe Inc. Handheld controller gestures for virtual reality video playback
WO2019127419A1 (zh) * 2017-12-29 2019-07-04 李庆远 多级快进快退手势方法和设备
CN108181989B (zh) * 2017-12-29 2020-11-20 北京奇虎科技有限公司 基于视频数据的手势控制方法及装置、计算设备
WO2019127566A1 (zh) * 2017-12-30 2019-07-04 李庆远 多级手势跳台方法和设备
CN109327760B (zh) * 2018-08-13 2019-12-31 北京中科睿芯科技有限公司 一种智能音响及其播放控制方法
US11307667B2 (en) * 2019-06-03 2022-04-19 Arizona Board Of Regents On Behalf Of Arizona State University Systems and methods for facilitating accessible virtual education
JP2023138873A (ja) * 2020-08-21 2023-10-03 ソニーグループ株式会社 情報処理装置、情報処理システム、情報処理方法及びプログラム
CN114639158A (zh) * 2020-11-30 2022-06-17 伊姆西Ip控股有限责任公司 计算机交互方法、设备和程序产品

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4666053B2 (ja) * 2008-10-28 2011-04-06 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
CN101770795B (zh) * 2009-01-05 2013-09-04 联想(北京)有限公司 一种计算设备及视频播放控制方法
US8428368B2 (en) * 2009-07-31 2013-04-23 Echostar Technologies L.L.C. Systems and methods for hand gesture control of an electronic device
US9009594B2 (en) * 2010-06-10 2015-04-14 Microsoft Technology Licensing, Llc Content gestures
US20120069055A1 (en) * 2010-09-22 2012-03-22 Nikon Corporation Image display apparatus
CN102081918B (zh) * 2010-09-28 2013-02-20 北京大学深圳研究生院 一种视频图像显示控制方法及视频图像显示器
US8610831B2 (en) * 2010-10-12 2013-12-17 Nokia Corporation Method and apparatus for determining motion
EP2659335A4 (en) * 2010-12-29 2016-05-18 Thomson Licensing SYSTEM AND METHOD FOR RECOGNIZING GESTURES
JP6115728B2 (ja) * 2011-01-06 2017-04-19 ティヴォ ソリューションズ インコーポレイテッド ジェスチャに基づく制御方法および装置
US20120206348A1 (en) * 2011-02-10 2012-08-16 Kim Sangki Display device and method of controlling the same
US9619035B2 (en) * 2011-03-04 2017-04-11 Microsoft Technology Licensing, Llc Gesture detection and recognition
CN103092332A (zh) * 2011-11-08 2013-05-08 苏州中茵泰格科技有限公司 电视数字图像交互方法及系统
US9389690B2 (en) * 2012-03-01 2016-07-12 Qualcomm Incorporated Gesture detection based on information from multiple types of sensors
TWI454966B (zh) * 2012-04-24 2014-10-01 Wistron Corp 手勢控制方法及手勢控制裝置

Also Published As

Publication number Publication date
TW201543268A (zh) 2015-11-16
EP3092547A1 (en) 2016-11-16
US20170220120A1 (en) 2017-08-03
JP2017504118A (ja) 2017-02-02
WO2015105884A1 (en) 2015-07-16
CN105980963A (zh) 2016-09-28

Similar Documents

Publication Publication Date Title
KR20160106691A (ko) 제스처를 사용하여 미디어의 재생을 제어하기 위한 시스템 및 방법
EP2877254B1 (en) Method and apparatus for controlling augmented reality
US8606735B2 (en) Apparatus and method for predicting user's intention based on multimodal information
US7000200B1 (en) Gesture recognition system recognizing gestures within a specified timing
JP6030430B2 (ja) 制御装置、車両及び携帯端末
US9229533B2 (en) Information processing apparatus, method, and program for gesture recognition and control
US9323337B2 (en) System and method for gesture recognition
US20160247520A1 (en) Electronic apparatus, method, and program
KR101795574B1 (ko) 모션에 의해 제어되는 전자기기 및 그 제어 방법
US10089061B2 (en) Electronic device and method
US20110254765A1 (en) Remote text input using handwriting
US8793134B2 (en) System and method for integrating gesture and sound for controlling device
CN106105247B (zh) 显示装置及其控制方法
US10564712B2 (en) Information processing device, information processing method, and program
KR20210124313A (ko) 인터랙티브 대상의 구동 방법, 장치, 디바이스 및 기록 매체
CN112383805A (zh) 一种基于人手关键点实现电视端人机交互的方法
WO2019153382A1 (zh) 智能音箱及播放控制方法
JP2008145693A (ja) 情報処理装置及び情報処理方法
KR101652705B1 (ko) 멀티 모달 정보를 이용하는 사용자 의도 추론 장치 및 방법
CN112788390B (zh) 一种基于人机交互的控制方法、装置、设备及存储介质
KR20230131015A (ko) 전자 장치 및 그 제어 방법
KR20140096250A (ko) 모션에 의해 제어되는 전자기기 및 그 제어 방법

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid