KR20210009066A - 사용자의 의도를 추정하는 방법 및 장치 - Google Patents

사용자의 의도를 추정하는 방법 및 장치 Download PDF

Info

Publication number
KR20210009066A
KR20210009066A KR1020190085606A KR20190085606A KR20210009066A KR 20210009066 A KR20210009066 A KR 20210009066A KR 1020190085606 A KR1020190085606 A KR 1020190085606A KR 20190085606 A KR20190085606 A KR 20190085606A KR 20210009066 A KR20210009066 A KR 20210009066A
Authority
KR
South Korea
Prior art keywords
gaze
intention
sequence
estimating
input image
Prior art date
Application number
KR1020190085606A
Other languages
English (en)
Inventor
박승인
이형욱
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020190085606A priority Critical patent/KR20210009066A/ko
Priority to US16/699,937 priority patent/US11231776B2/en
Publication of KR20210009066A publication Critical patent/KR20210009066A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/04812Interaction techniques based on cursor appearance or behaviour, e.g. being affected by the presence of displayed objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/19Sensors therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Ophthalmology & Optometry (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

일 실시예에 따른 의도를 추정하는 방법 및 장치는 사용자의 시선 시퀀스를 획득하고, 시선 시퀀스에 대응하는 입력 영상을 획득하고, 시선 시퀀스에 내재된 시간적 정보를 시각적으로 인코딩하여 코드화된 영상를 생성하며, 입력 영상 및 코드화된 영상에 기초하여, 시선 시퀀스에 대응하는 사용자의 의도를 추정한다.

Description

사용자의 의도를 추정하는 방법 및 장치{METHOD AND APPARATUS OF ESTIMATING INTENTION OF USER}
아래의 실시예들은 사용자의 의도를 추정하는 방법 및 장치에 관한 것이다.
증강 현실 응용 영상에 사용자가 필요로 하는 정보 및/또는 영상을 정합하여 보여줄 수 있다면, 사용자의 정확한 상황 판단과 행동 능력 향상에 도움이 될 수 있다. 사용자가 필요로 하는 정보에 따라 이를 취득하기 위해 사용자가 수행하는 인지 작업(cognitive task)이 달라질 수 있다. 또한, 서로 다른 인지 작업에 따라 사용자가 보이는 집중(attention) 패턴 또한 상이하다. 예를 들어, 시선 정보(gaze information)는 집중과 밀접하게 연관된 가장 빠른 감각적 단서(sensory cue) 중 하나이다. 사용자의 시선 정보를 파악함으로써 사용자의 의도 및/또는 사용자가 필요로 하는 정보를 구분할 수 있다.
일 실시예에 따르면, 의도를 추정하는 방법은 사용자의 시선 시퀀스(gaze sequence)를 획득하는 단계; 상기 시선 시퀀스에 대응하는 입력 영상을 획득하는 단계; 상기 시선 시퀀스에 내재된 시간적 정보(temporal information)를 시각적으로 인코딩하여 코드화된 영상(coded image)를 생성하는 단계; 및 상기 입력 영상 및 상기 코드화된 영상에 기초하여, 상기 시선 시퀀스에 대응하는 상기 사용자의 의도를 추정하는 단계를 포함한다.
상기 시간적 정보는 상기 시선 시퀀스에 따른 시선의 이동 경로, 상기 시선의 이동 속도, 상기 시선이 상기 입력 영상의 부분 영역에 머무는 시간, 상기 시선이 상기 부분 영역에 반복적으로 맵핑되는지 여부, 상기 시선이 상기 부분 영역에 반복적으로 맵핑되는 횟수, 상기 시선이 상기 부분 영역에 반복적으로 맵핑되는 간격, 상기 시선 시퀀스에 의해 커버되는 영상의 범위 중 적어도 하나를 더 포함할 수 있다.
상기 코드화된 영상을 생성하는 단계는 상기 시간적 정보를, 상기 입력 영상에서 상기 시선 시퀀스에 따른 각 시선이 맵핑되는 부분 영역들에 컬러 채널(color channel) 별로 인코딩함으로써 상기 코드화된 부분 영상들을 생성하는 단계; 및 상기 코드화된 부분 영상들을 조합하여 상기 코드화된 영상을 생성하는 단계를 포함할 수 있다.
기 코드화된 부분 영상들을 생성하는 단계는 상기 입력 영상에서 상기 시선 시퀀스에 따른 각 시선이 맵핑되는 부분 영역들에 상기 시간적 정보에 대응하는 원(circle)을 생성하는 단계를 포함할 수 있다.
상기 사용자의 의도를 추정하는 단계는 상기 입력 영상 및 상기 코드화된 영상에 기초하여, 상기 시선 시퀀스에 대응하는 특징 벡터들을 획득하는 단계; 및 상기 특징 벡터들에 기초하여, 상기 사용자의 의도를 추정하는 단계를 포함할 수 있다.
상기 특징 벡터들을 획득하는 단계는 상기 입력 영상에서 상기 시선 시퀀스에 따른 각 시선이 맵핑되는 부분 영역들로부터 제1 특징 벡터들을 추출하는 단계; 상기 코드화된 영상을 기초로 제2 특징 벡터들을 추출 하는 단계; 및 상기 제1 특징 벡터들 및 상기 제2 특징 벡터들을 연관(concatenate) 시킴으로써 상기 시선 시퀀스에 대응하는 특징 벡터들을 획득하는 단계를 포함할 수 있다.
상기 입력 영상은 제1 샘플링 주파수에 따라 획득되고, 상기 시선 시퀀스는 상기 제1 샘플링 주파수보다 느린 제2 샘플링 주파수에 따라 획득될 수 있다.
상기 코드화된 영상을 생성하는 단계는 제1 샘플링 주파수에 기초하여, 제2 샘플링 주파수에 따라 샘플링된 복수의 시선들을 누적하는 단계; 및 상기 누적된 복수의 시선들의 시퀀스에 기초하여, 상기 제1 샘플링 주파수에 동기화되는 코드화된 영상을 생성하는 단계를 포함할 수 있다.
상기 사용자의 의도는 검색(search), 카운팅(counting), 객체 식별, 프리뷰(freeview) 중 적어도 하나를 포함할 수 있다.
상기 의도를 추정하는 방법은 상기 추정된 의도, 상기 시선 시퀀스 및 상기 입력 영상 중 적어도 하나에 기초하여, 상기 추정된 의도에 부합하는 정보를 제공하는 단계를 더 포함할 수 있다.
일 실시예에 따르면, 의도를 추정하는 장치는 사용자의 시선 시퀀스 및 상기 시선 시퀀스에 대응하는 입력 영상을 획득하는 통신 인터페이스; 및 상기 시선 시퀀스에 내재된 시간적 정보를 시각적으로 인코딩하여 코드화된 영상을 생성하고, 상기 입력 영상 및 상기 코드화된 영상에 기초하여, 상기 시선 시퀀스에 대응하는 상기 사용자의 의도를 추정하는 프로세서를 포함한다.
상기 시간적 정보는 상기 시선 시퀀스에 따른 시선의 이동 경로, 상기 시선의 이동 속도, 상기 시선이 상기 입력 영상의 부분 영역에 머무는 시간, 상기 시선이 상기 부분 영역에 반복적으로 맵핑되는지 여부, 상기 시선이 상기 부분 영역에 반복적으로 맵핑되는 횟수, 상기 시선이 상기 부분 영역에 반복적으로 맵핑되는 간격, 상기 시선 시퀀스에 의해 커버되는 영상의 범위 중 적어도 하나를 더 포함할 수 있다.
상기 프로세서는 상기 시간적 정보를, 상기 입력 영상에서 상기 시선 시퀀스에 따른 각 시선이 맵핑되는 부분 영역들에 컬러 채널 별로 인코딩함으로써 상기 코드화된 부분 영상들을 생성하고, 상기 코드화된 부분 영상들을 조합하여 상기 코드화된 영상을 생성할 수 있다.
상기 프로세서는 상기 입력 영상에서 상기 시선 시퀀스에 따른 각 시선이 맵핑되는 부분 영역들에 상기 시간적 정보에 대응하는 원을 생성할 수 있다.
상기 프로세서는 상기 입력 영상 및 상기 코드화된 영상에 기초하여, 상기 시선 시퀀스에 대응하는 특징 벡터들을 획득하고, 상기 특징 벡터들에 기초하여, 상기 사용자의 의도를 추정할 수 있다.
상기 프로세서는 상기 입력 영상에서 상기 시선 시퀀스에 따른 각 시선이 맵핑되는 부분 영역들로부터 제1 특징 벡터들을 추출하고, 상기 코드화된 영상을 기초로 제2 특징 벡터들을 추출하며, 상기 제1 특징 벡터들 및 상기 제2 특징 벡터들을 연관시킴으로써 상기 시선 시퀀스에 대응하는 특징 벡터들을 획득할 수 있다.
상기 입력 영상은 제1 샘플링 주파수에 따라 획득되고, 상기 시선 시퀀스는 상기 제1 샘플링 주파수보다 느린 제2 샘플링 주파수에 따라 획득될 수 있다.
상기 프로세서는 제1 샘플링 주파수에 기초하여, 제2 샘플링 주파수에 따라 샘플링된 복수의 시선들을 누적하고, 상기 누적된 복수의 시선들의 시퀀스에 기초하여, 상기 제1 샘플링 주파수에 동기화되는 코드화된 영상을 생성할 수 있다.
상기 프로세서는 상기 추정된 의도, 상기 시선 시퀀스 및 상기 입력 영상 중 적어도 하나에 기초하여, 상기 추정된 의도에 부합하는 정보를 제공할 수 있다.
도 1은 일 실시예에 따라 입력 영상 및 시선 시퀀스로부터 사용자의 의도를 추정하는 과정을 설명하기 위한 도면.
도 2는 일 실시예에 따른 의도를 추정하는 방법을 나타낸 흐름도.
도 3은 일 실시예에 따른 코드화된 영상을 생성하는 방법을 설명하기 위한 도면.
도 4는 일 실시예에 따른 입력 영상과 시선 시퀀스를 동기화 하는 방법을 설명하기 위한 도면.
도 5 및 도 6은 실시예들에 따른 의도를 추정하는 장치의 구조를 도시한 도면.
도 7은 일 실시예에 따른 의도를 추정하는 장치의 블록도.
이하에서, 첨부된 도면을 참조하여 실시예들을 상세하게 설명한다. 그러나, 특허출원의 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
아래 설명하는 실시예들에는 다양한 변경이 가해질 수 있다. 아래 설명하는 실시예들은 실시 형태에 대해 한정하려는 것이 아니며, 이들에 대한 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
실시예에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 실시예를 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
도 1은 일 실시예에 따라 입력 영상 및 시선 시퀀스로부터 사용자의 의도를 추정하는 과정을 설명하기 위한 도면이다. 도 1을 참조하면, 일 실시예에 따른 의도를 추정하는 장치(이하, '추정 장치')가 입력 영상(101) 및 시선 시퀀스(gaze sequence)(103)로부터 사용자의 의도를 분류하는 과정이 도시된다.
입력 영상(101)은 예를 들어, 사용자의 가시 영역에 대한 카메라 영상으로서 영상 정보에 해당할 수 있다. 입력 영상(101)은 입력 영상(101)이 획득된 샘플링 주파수(예를 들어, 제1 샘플링 주파수)에 대한 정보를 포함할 수 있다.
시선 시퀀스(103)는 입력 영상(101)에 맵핑된 사용자의 시선 정보에 해당할 수 있다. 추정 장치는 사용자의 시선 정보(예를 들어, 입력 영상(101)에서 시선이 맺힌 좌표 정보)를 분석하여 시간적 정보를 획득할 수 있다.
시선 시퀀스(103)는 시간의 흐름에 따라 누적된 사용자의 시선의 움직임들에 대한 정보를 포함할 수 있다. 시선 시퀀스(103)는 예를 들어, 시선 시퀀스에 따른 시선의 이동 경로(gaze trajectory), 시선의 이동 속도(velocity), 시선이 놓인 부분 영역의 정보, 시선이 입력 영상의 부분 영역에 머무는 시간(duration), 시선이 부분 영역에 반복적으로 맵핑되는지(revisit) 여부, 시선이 부분 영역에 반복적으로 맵핑되는 횟수, 시선이 부분 영역에 반복적으로 맵핑되는 간격, 시선 시퀀스에 의해 커버되는 영상의 범위(coverage) 등과 같은 다양한 시간적 정보를 포함할 수 있다. 시선의 이동 경로는 시선의 '스캔 경로(scan path)'라고도 부를 수 있다.
시선 시퀀스(103)는 시선 시퀀스(103)가 획득된 샘플링 주파수(예를 들어, 제2 샘플링 주파수)에 대한 정보를 포함할 수 있다. 제1 샘플링 주파수와 제2 샘플링 주파수는 서로 동일할 수도 있고, 서로 상이할 수도 있다.
추정 장치의 두 입력(입력 영상(101), 시선 시퀀스(103))은 상이한 도메인(domain)과 상이한 주파수(frequency)의 정보를 포함하므로 입력 영상(101)에 의한 영상 정보와 시선 시퀀스(103)에 의한 시선 정보의 두 가지 정보를 효율적으로 임베딩(embedding)할 수 있는 방법이 요구된다.
입력 영상(101)이 주어지면, 추정 장치는 예를 들어, 특징 추출기(feature extractor)를 통해 입력 영상(101)으로부터 제1 특징을 추출할 수 있다(110). 입력 영상(101)으로부터 추출한 특징을 '제1 특징'이라고 부르기로 한다. 제1 특징은 특징 벡터의 형태를 가질 수 있다.
시선 시퀀스(103)가 주어지면, 추정 장치는 시선 시퀀스(103)를 시각적으로 인코딩하여 이미지화 할 수 있다. 추정 장치는 시선 시퀀스(103)를 예를 들어, 컬러 채널(color channel) 별로 및/또는 강도(intensity) 별로 인코딩할 수 있다. 추정 장치는 시선 시퀀스에 내재된 시간적 정보(temporal information)를 시각적으로 인코딩하여 코드화된 영상(coded image)을 생성할 수 있다(120). 추정 장치는 코드화된 영상을 특징 추출기에 전달하여 제2 특징을 추출할 수 있다(130). 이하, 코드화된 영상으로부터 추출된 특징을 '제2 특징'이라 부르기로 한다. 제2 특징은 특징 벡터의 형태를 가질 수 있다. 이때, 특징 추출기는 각 컬러 채널 별 영상에서 개별적으로 특징을 추출할 수도 있고, 채널의 개수가 허락하는 한도 내에서 컬러 인코딩된 부분 영상들을 하나로 통합하여 특징을 추출할 수도 있다.
일 실시예에서는 시선 시퀀스(103)를 시각적으로 인코딩하여 입력 영상(101)과 같은 유형의 영상 정보로 변환함으로써 입력 영상(101)과 시선 시퀀스(103)의 정보가 동일한 인코더(encoder)를 통해 벡터(vector)의 형태로 전환되도록 할 수 있다. 추정 장치는 벡터 형태로 전환된 제1 특징과 제2 특징을 연관(concatenation) 시킬 수 있다(140). 여기서, 연관은 조합 또는 결합과 같은 의미로 이해될 수 있다.
추정 장치는 단계(140)에서의 특징 연관 결과를 분류기(classifier)의 입력으로 인가하여 사용자의 의도를 분류할 수 있다(150). 사용자의 의도는 예를 들어, 검색(search), 카운팅(counting), 객체 식별, 프리뷰(freeview) 등을 포함할 수 있다. 이때, 분류기는 특징 벡터로부터 사용자의 의도를 분류하도록 미리 학습될 수 있다. 분류기는 예를 들어, 심층 신경망(Deep Neural Network; DNN), 또는 서포트 벡터 머신(Support Vector Machine; SVM)으로 구성될 수 있다.
일 실시예에서는 시선 시퀀스에 내재된 시간적 정보를 코드화된 영상으로 이미지화하고, 심층 신경망(DNN)과 같은 특징 추출기를 통해 코드화된 영상으로부터 제2 특징을 추출하도록 학습시킬 수 있다. 추정 장치는 전술한 과정을 통해 데이터 분석을 위한 차원(dimension)을 명시적으로 지정하지 않아도 이종 정보로부터 사용자의 의도를 추정하는 데에 중요한 정보를 학습을 통해 획득할 수 있다. 이는 결과적으로 사용자의 의도를 분류하는 분류기의 성능 향상을 가져올 수 있다.
일 실시예에 따른 추정 장치는 예를 들어, 사용자의 시선에 기반한 자연스러운 사용자 인터페이스(natural user interface)를 구축하거나, 또는 시각 인식 증강 시스템(visual perception augmentation system)과 같이 시선 시퀀스의 처리를 수반하는 증강 현실 용용 분야에서 활용될 수 있다.
도 2는 일 실시예에 따른 의도를 추정하는 방법을 나타낸 흐름도이다. 도 2를 참조하면, 일 실시예에 따른 의도를 추정하는 장치(이하, '추정 장치')는 사용자의 시선 시퀀스를 획득한다(210).
추정 장치는 시선 시퀀스에 대응하는 입력 영상을 획득한다(220). 예를 들어, 시선 시퀀스가 시선의 복수의 움직임들을 포함하는 경우, 입력 영상은 시선 시퀀스에 대응하는 부분 입력 영상들을 포함할 수 있다. 단계(210) 및 단계(220)는 서로 동시에 수행될 수 있으나, 반드시 이에 한정되는 것은 아니다. 단계(210) 및 단계(220)는 사용자가 인지하지 못할 정도의 짧은 시간 간격을 가지고 수행될 수도 있다.
추정 장치는 시선 시퀀스에 내재된 시간적 정보를 시각적으로 인코딩하여 코드화된 영상을 생성한다(230). 추정 장치는 예를 들어, 시간적 정보를, 입력 영상에서 시선 시퀀스에 따른 각 시선이 맵핑되는 부분 영역들에 컬러 채널 별로 인코딩함으로써 코드화된 부분 영상들을 생성할 수 있다. 추정 장치는 코드화된 부분 영상들을 조합하여 하나의 코드화된 영상을 생성할 수 있다. 추정 장치가 코드화된 영상을 생성하는 방법은 아래의 도 3을 참조하여 구체적으로 설명한다.
추정 장치는 입력 영상 및 코드화된 영상에 기초하여, 시선 시퀀스에 대응하는 사용자의 의도를 추정한다(240). 추정 장치는 입력 영상 및 코드화된 영상에 기초하여, 시선 시퀀스에 대응하는 특징 벡터들을 획득할 수 있다. 추정 장치는 예를 들어, 입력 영상에서 시선 시퀀스에 따른 각 시선이 맵핑되는 부분 영역들로부터 제1 특징 벡터들을 추출할 수 있다. 추정 장치는 예를 들어, 심층 신경망(DNN)을 이용하여 입력 영상에서 시선 시퀀스에 따른 각 시선이 맵핑되는 부분 영역들로부터 제1 특징 벡터들을 추출할 수 있다. 추정 장치는 코드화된 영상을 기초로 제2 특징 벡터들을 추출할 수 있다. 추정 장치는 예를 들어, 코드화된 영상에 대해 일반적인 시각적 특징 추출기를 이용하여 제2 특징 벡터를 추출하거나, 또는 시선 시퀀스에 대한 정답 데이터(ground truth)를 이용하여 학습한 특징 추출기를 이용하여 제2 특징 벡터를 추출할 수 있다. 추정 장치는 제1 특징 벡터들 및 제2 특징 벡터들을 연관(concatenate)시킴으로써 시선 시퀀스에 대응하는 특징 벡터들을 획득할 수 있다. 추정 장치는 특징 벡터들에 기초하여, 사용자의 의도를 추정할 수 있다.
추정 장치에 의해 추정되는 사용자의 의도는 예를 들어, 검색(search), 카운팅(counting), 객체 식별, 프리뷰(freeview) 등을 포함할 수 있으며, 반드시 이에 한정되는 것은 아니다.
실시예에 따라서, 추정 장치는 추정된 의도, 시선 시퀀스 및 입력 영상 중 적어도 하나에 기초하여, 추정된 의도에 부합하는 정보를 제공할 수 있다.
도 3은 일 실시예에 따른 코드화된 영상을 생성하는 방법을 설명하기 위한 도면이다. 도 3을 참조하면, 시선 시퀀스(310), 시선 시퀀스(310)로부터 생성된 코드화된 부분 영상들(320, 330, 340), 및 코드화된 부분 영상들(320, 330, 340)을 조합하여 생성한 하나의 코드화된 영상(350)이 도시된다.
추정 장치는 시간적 정보를, 입력 영상에서 시선 시퀀스(310)에 따른 각 시선이 맵핑되는 부분 영역들에 예를 들어, 컬러 채널(color channel) 별로 및/또는 강도(intensity) 별로 인코딩함으로써 코드화된 부분 영상들(320, 330, 340)을 생성할 수 있다.
추정 장치는 입력 영상에서 시선 시퀀스(310)에 따른 각 시선이 맵핑되는 부분 영역들에 시간적 정보에 대응하는 원(circle)을 생성함으로써 코드화된 부분 영상들(320, 330, 340)을 생성할 수 있다. 추정 장치는 시간적 정보에 따라 예를 들어, 각 원의 지름, 컬러, 강도 등을 달리 생성할 수 있다.
예를 들어, 타임 스텝(time step) t의 시선을 p, 현재의 타임 스텝을 t c , 현재의 타임 스텝으로부터 Δx 이전 타임 스텝을 t p 라고 하자. 이 경우, t p ~ t c 구간에 대한 시선 정보를 하나의 코드화된 영상으로 생성하는 방법은 다음과 같다.
추정 장치는 예를 들어, 시간적 정보 중 하나인 시선의 이동 경로(gaze trajectory)를 코드화된 부분 영상들(320)과 같이 1개의 컬러 채널에 인코딩할 수 있다. 시선의 이동 경로는 예를 들어, R(Red) 채널에 인코딩될 수 있다. 추정 장치는 입력 영사에서 각 시선 p가 매핑되는 부분 영역마다 반경(radius) r을 갖는 원 C를 생성할 수 있다. 추정 장치는 각 원 C의 컬러 강도 값을 시간 정보 t에 따라 달리 표현할 수 있다. 예를 들어, 정보의 중요도는 시간의 흐름에 따라 쇠퇴(decay)한다고 가정하자. 이 경우, 현재의 타임 스텝 t c 에서의 시선 pc에 의한 원 Cc의 강도가 가장 큰 값으로 설정되고, 이전 타임 스텝 t p 에서의 시선 pp에 의한 원 Cp의 강도가 가장 작은 값으로 설정될 수 있다.
예를 들어, RGB 이미지에서 각 채널 당 8 비트(bit)가 주어진다고 하면, 각 채널은 0~255의 정수값 범위를 가질 수 있다. 추정 장치는 원 Cc의 강도값을 255으로 설정하고, 원 Cp의 강도값을 0으로 설정할 수 있다. 추정 장치는 현재의 타임 스텝 t c 와 이전 타임 스텝 t p 간의 Δx 구간과 현재 타임 스텝에서의 원 Cc의 강도값을 고려하여 t p ~ t c 구간 사이의 시선 p를 표현하는 원의 강도값을 표현할 수 있다.
추정 장치는 응용 분야에 따라 시간의 흐름에 따른 정보의 쇠퇴를 고려하지 않고, 전 구간의 타임 스텝에서의 시선들에 의한 원들의 강도값들을 모두 동일하게 설정할 수도 있다.
또는, 추정 장치는 예를 들어, 시간적 정보 중 시선이 입력 영상의 부분 영역에 머무는 시간(duration) 및 시선의 이동 속도(velocity)를 코드화된 부분 영상(330)과 같이 1개의 컬러 채널에 인코딩할 수 있다. 시선이 입력 영상의 부분 영역에 머무는 시간은 예를 들어, B(Blue) 채널에 인코딩될 수 있다. 이때, 추정 장치가 각 시선 p의 위치마다 같은 강도값을 갖는 원을 생성하면, 시선이 부분 영역에 반복적으로 맵핑(gaze revisit)된다. 또한, 시선이 입력 영상의 부분 영역에 머무는 시간(duration)이 길어지면 추정 장치는 해당 부분 영역에 원을 중첩하여 생성하므로 원의 강도 값이 축적되어 커질 수 있다. 추정 장치는 예를 들어, 시선의 이동 속도(velocity)에 따라 이동 속도가 빠르면 원의 반경을 작게 설정하고, 시선의 이동 속도가 느리면 원의 반경을 크게 설정함으로써 사용자의 집중의 경중을 코드화된 부분 영상(330)에 반영할 수 있다.
또는, 추정 장치는 예를 들어, 시간적 정보 중 하나인 시선 시퀀스에 의해 커버되는 영상의 범위(coverage)를 코드화된 부분 영상(340)과 같이 1개의 컬러 채널에 인코딩할 수 있다. 시선 시퀀스에 의해 커버되는 영상의 범위는 예를 들어, G(Green) 채널에 인코딩될 수 있다. 추정 장치는 예를 들어, Δx 구간 내에 존재하는 시선 p들의 평균 거리 또는 최대 거리를 이용하여 시선 시퀀스에 의해 커버되는 영상의 범위를 컬러 채널에 인코딩할 수 있다. 추정 장치는 예를 들어, 타임 스텝 별 시선 p들의 평균 거리 또는 최대 거리가 일정 기준보다 작을수록 강도값과 반경이 큰 원을 생성할 수 있다. 추정 장치는 타임 스텝 별 시선 p들의 평균 거리 또는 최대 거리가 일정 기준보다 클수록 강도값과 반경이 작은 원을 생성할 수 있다.
실시예에 따라서, 추정 장치는 Δx 구간에 대응하여 생성된 원들에 대해, 원들의 중첩이 발생하는 부분을 발췌하여 1개의 컬러 채널에 인코딩할 수도 있다. 추정 장치는 시간의 흐름에 따른 정보의 쇠퇴를 고려하여 현재의 타임 스텝 t c 에 가까운 시점에 발생한 중첩 부분일수록 강도값을 높게 설정하고, 현재의 타임 스텝에서 먼 시점에 발생한 중첩 부분일수록 강도값을 낮게 설정할 수 있다.
추정 장치는 코드화된 부분 영상들(320, 330, 340)을 조합하여 하나의 코드화된 영상(350)을 생성할 수 있다. 코드화된 영상(350)은 예를 들어, RGB 영상일 수 있다.
추정 장치는 예를 들어, VGG(Volgograd Oblast Van de Graaff generator), ResNet(Residential network), MobileNet 등과 같은 특징 추출기를 이용하여 컬러 인코딩된 코드화된 영상(350)으로부터 제2 특징을 추출할 수 있다.
최종 분류 목적이 다르므로, 추정 장치는 특징 추출기에서 상위 레이어는 제거하고, 하위 레벨의 특징들을 추출하도록 하위 레이어들만을 이용하도록 특징 추출기의 네트워크의 구성을 조절할 수 있다.
예를 들어, 학습 데이터베이스가 존재하는 경우, 특징 추출기의 학습 또는 미세 조정(fine-tuning)이 가능하겠지만, 해당 과정이 생략되더라도 추정 장치는 각 시선 시퀀스 별로 분리하여 구분 가능한 특징 세트를 획득할 수 있다.
일 실시예에서는 설명의 편의를 위하여, 코드화된 부분 영상들(320, 330, 340)을 하나의 코드화된 영상(350)으로 생성하는 방법을 기술하였지만, 반드시 이에 한정되는 것은 아니다. 코드화된 영상(350)은 여러 장의 이미지로 추상화될 수도 있고, 또는 데이터의 한 차원에 대해 여러 채널을 사용하는 등 다양한 방법으로 생성될 수 있다. 또한, 전술한 예시 이외의 시선 시퀀스의 다른 특성들을 이미지화하는 것 또한 가능하다.
도 4는 일 실시예에 따른 입력 영상과 시선 시퀀스를 동기화 하는 방법을 설명하기 위한 도면이다. 일반적으로 사람의 안구의 움직임 속도는 500°/s 이상으로 알려져 있다. 따라서 시선 시퀀스를 정확하게 추적하기 위해 요구되는 샘플링 주파수(예를 들어, 제2 샘플링 주파수)는 500hz 이상이 될 수 있다. 이는 카메라를 통해 입력 영상을 획득하는 샘플링 주파수(예를 들어, 제1 샘플링 주파수)의 통상적 범위인 30~120hz를 훨씬 상회한다.
따라서, 영상 정보인 입력 영상과 시선 시퀀스의 두 정보를 취득하기 위한 캡쳐링 장치(capturing device)의 샘플링 주파수가 동기화 되어 있지 않은 경우에도, 두 정보를 적절히 임베딩(embedding)하여 사용할 수 있는 방안이 마련되어야 한다.
추정 장치는 샘플링 타임 라인(또는 샘플링 타임 스텝)의 구간 별로 시선의 움직임을 단일 이미지에 누적하여 시선 시퀀스(420) 및 시선 시퀀스(425)와 같이 표현할 수 있다. 이때, 시선의 움직임을 누적하는 구간의 길이는 특징을 연관하여 사용할 정보(예를 들어, 영상)의 샘플링 주파수를 고려하여 결정할 수 있다.
예를 들어, 입력 영상(410)이 획득된 제1 샘플링 주파수와 시선 시퀀스(420)가 획득된 제2 샘플링 주파수가 일치하는 경우, 추정 장치는 제2 샘플링 주파수에 따라 샘플링된 시선 시퀀스(420)에 기초하여 코드화된 영상을 생성할 수 있다.
또는 입력 영상(415)이 획득된 제1 샘플링 주파수와 시선 시퀀스(425)가 획득된 제2 샘플링 주파수가 일치하지 않는 경우, 추정 장치는 제1 샘플링 주파수에 기초하여, 제2 샘플링 주파수에 따라 샘플링된 복수의 시선들을 누적할 수 있다. 예를 들어, 제1 샘플링 주파수와 제2 샘플링 주파수가 상이한 경우, 추정 장치는 제2 샘플링 주파수가 제1 샘플링 주파수가 일치되는 시간 간격(예를 들어, X~Y 구간)동안 복수의 시선들을 누적할 수 있다. 추정 장치는 X~Y 구간 동안 누적된 복수의 시선들을 포함하는 시선 시퀀스(425)에 기초하여 입력 영상(415)가 획득된 제1 샘플링 주파수에 동기화되는 코드화된 영상(430)을 생성할 수 있다. 추정 장치는 특징 인코더(440)를 통해 입력 영상(415)과 코드화된 영상(430)으로부터 특징을 추출하여 특징점으로 변환할 수 있다. 특징 인코더(440)는 전술한 특징 추출기와 동일하게 동작할 수 있다.
일 실시예에 따른 추정 장치는 전술한 과정을 통해 고속으로 입력되는 시선 정보(예를 들어, 시선 시퀀스)를 Δx 동안 축적하여 이미지화하고, 이를 저속으로 입력되는 영상 정보(예를 들어, 입력 영상)와 함께 이용할 수 있다.
도 5는 일 실시예에 따른 의도를 추정하는 장치의 구조를 도시한 도면이다. 도 5를 참조하면, 전술한 특징 인코딩 과정을 이용하여 사용자의 의도를 분류 및 추정하는 추정 장치의 구조가 도시된다.
추정 장치는 카메라에 의한 입력 영상과 입력 영상에 대응하는 사용자의 시선 시퀀스를 입력받을 수 있다(510).
추정 장치는 입력 영상에서 사용자의 시선이 매핑되는 부분 영역을 추출하여 영상 시퀀스를 생성할 수 있다(520). 실시예에 따라서, 추정 장치는 부분 영역의 추출없이 입력 영상 전체를 이용할 수도 있다. 이와 함께, 추정 장치는 시선 시퀀스에 내재된 시간적 정보를 시각적으로 인코딩하여 코드화된 영상을 생성할 수 있다(530). 전술한 단계(520) 및 단계(530)은 영상의 전처리(pre-processing) 과정에 해당할 수 있다.
추정 장치는 전처리된 영상들을 특징 인코더 또는 특징 추출기의 입력으로 인가하여 특징을 획득할 수 있다(540). 이때, 특징은 벡터 형태를 가질 수 있다. 추정 장치는 영상의 종류에 관계없이 전술한 특징 추출기를 사용하여 전처리된 영상들에 대응하는 특징 표현을 획득할 수 있다.
추정 장치는 특징 표현을 분류기에 인가하여 사용자의 의도를 분류할 수 있다(550). 추정 장치는 필요에 따라 예를 들어, 심층 신경망(DNN), 서포트 벡터 머신(SVM) 등과 같은 적절한 분류기 구조를 선택할 수 있다.
도 6은 다른 실시예에 따른 의도를 추정하는 장치의 구조를 도시한 도면이다. 도 6의 단계(610) 내지 단계(630)는 도 5의 단계(510) 내지 단계(530)와 동일하므로 해당 부분의 설명을 참조하기로 한다. 이하에서는 도 5와 상이한 부분에 대하여 설명한다.
실시예에 따라서, 추정 장치는 도 5와 달리 전처리된 영상들 각각을 별도의 특징 인코더의 입력으로 인가할 수 있다.
추정 장치는 단계(620)에서 생성한 영상 시퀀스를 제1 특징 인코더에 인가하여 제1 특징을 획득할 수 있다(640). 제1 특징 인코더는 영상 시퀀스로부터 제1 특징을 추출하도록 미리 학습될 수 있다.
아울러, 추정 장치는 단계(630)에서 획득한 시선 시퀀스를 제2 특징 인코더에 인가하여 제2 특징을 획득할 수 있다(650). 제2 특징 인코더는 시선 시퀀스로부터 제2 특징을 추출하도록 미리 학습될 수 있다. 레이블링된 시선 시퀀스의 정답 데이터(ground-truth data)가 있는 경우, 추정 장치는 미세 조정 등을 통해 제2 특징 인코더를 트레이닝 시킴으로써 제2 특징의 정확도를 향상시킬 수 있다.
추정 장치는 제1 특징 및 제2 특징을 이용하여 사용자의 의도를 분류할 수 있다(660).
도 7은 일 실시예에 따른 의도를 추정하는 장치의 블록도이다. 도 7을 참조하면, 일 실시예에 따른 의도를 추정하는 장치('추정 장치')(700)는 프로세서(710) 및 통신 인터페이스(730)를 포함한다. 추정 장치(700)는 메모리(750)를 더 포함할 수 있다. 프로세서(710), 통신 인터페이스(730), 및 메모리(750)는 통신 버스(705)를 통해 서로 통신할 수 있다.
프로세서(710)는 시선 시퀀스에 내재된 시간적 정보를 시각적으로 인코딩하여 코드화된 영상을 생성한다. 프로세서(710)는 입력 영상 및 코드화된 영상에 기초하여, 시선 시퀀스에 대응하는 사용자의 의도를 추정한다.
통신 인터페이스(730)는 사용자의 시선 시퀀스 및 시선 시퀀스에 대응하는 입력 영상을 획득한다.
메모리(750)는 사용자의 시선 시퀀스 및 시선 시퀀스에 대응하는 입력 영상을 저장할 수 있다. 메모리(750)는 프로세서(710)에 의해 생성된 코드화된 영상 및/또는 프로세서(710)에 의해 추정된 사용자의 의도를 저장할 수 있다. 이때, 메모리(750)는 사용자의 의도를 사용자의 시선 시퀀스에 매칭시켜 저장할 수 있다.
또한, 프로세서(710)는 도 1 내지 도 6을 통해 전술한 적어도 하나의 방법 또는 적어도 하나의 방법에 대응되는 알고리즘을 수행할 수 있다. 프로세서(710)는 목적하는 동작들(desired operations)을 실행시키기 위한 물리적인 구조를 갖는 회로를 가지는 하드웨어로 구현된 데이터 처리 장치일 수 있다. 예를 들어, 목적하는 동작들은 프로그램에 포함된 코드(code) 또는 인스트럭션들(instructions)을 포함할 수 있다. 예를 들어, 하드웨어로 구현된 데이터 처리 장치는 마이크로프로세서(microprocessor), 중앙 처리 장치(central processing unit), 프로세서 코어(processor core), 멀티-코어 프로세서(multi-core processor), 멀티프로세서(multiprocessor), ASIC(Application-Specific Integrated Circuit), FPGA(Field Programmable Gate Array)를 포함할 수 있다.
프로세서(710)는 프로그램을 실행하고, 추정 장치(700)를 제어할 수 있다. 프로세서(710)에 의하여 실행되는 프로그램 코드는 메모리(750)에 저장될 수 있다.
메모리(750)는 상술한 프로세서(710)에서의 처리 과정에서 생성되는 다양한 정보들을 저장할 수 있다. 이 밖에도, 메모리(750)는 각종 데이터와 프로그램 등을 저장할 수 있다. 메모리(750)는 휘발성 메모리 또는 비휘발성 메모리를 포함할 수 있다. 메모리(750)는 하드 디스크 등과 같은 대용량 저장 매체를 구비하여 각종 데이터를 저장할 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다. 그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 청구범위의 범위에 속한다.

Claims (20)

  1. 사용자의 시선 시퀀스(gaze sequence)를 획득하는 단계;
    상기 시선 시퀀스에 대응하는 입력 영상을 획득하는 단계;
    상기 시선 시퀀스에 내재된 시간적 정보(temporal information)를 시각적으로 인코딩하여 코드화된 영상(coded image)를 생성하는 단계; 및
    상기 입력 영상 및 상기 코드화된 영상에 기초하여, 상기 시선 시퀀스에 대응하는 상기 사용자의 의도를 추정하는 단계
    를 포함하는, 의도를 추정하는 방법.
  2. 제1항에 있어서,
    상기 시간적 정보는
    상기 입력 영상에서의 상기 시선 시퀀스에 따른 시선의 이동 경로, 상기 시선의 이동 속도, 상기 시선이 상기 입력 영상의 부분 영역에 머무는 시간, 상기 시선이 상기 부분 영역에 반복적으로 맵핑되는지 여부, 상기 시선이 상기 부분 영역에 반복적으로 맵핑되는 횟수, 상기 시선이 상기 부분 영역에 반복적으로 맵핑되는 간격, 상기 시선 시퀀스에 의해 커버되는 영상의 범위 중 적어도 하나를 더 포함하는, 의도를 추정하는 방법.
  3. 제1항에 있어서,
    상기 코드화된 영상을 생성하는 단계는
    상기 시간적 정보를, 상기 입력 영상에서 상기 시선 시퀀스에 따른 각 시선이 맵핑되는 부분 영역들에 컬러 채널(color channel) 별로 인코딩함으로써 상기 코드화된 부분 영상들을 생성하는 단계; 및
    상기 코드화된 부분 영상들을 조합하여 상기 코드화된 영상을 생성하는 단계
    를 포함하는, 의도를 추정하는 방법.
  4. 제3항에 있어서,
    상기 코드화된 부분 영상들을 생성하는 단계는
    상기 입력 영상에서 상기 시선 시퀀스에 따른 각 시선이 맵핑되는 부분 영역들에 상기 시간적 정보에 대응하는 원(circle)을 생성하는 단계
    를 포함하는, 의도를 추정하는 방법.
  5. 제1항에 있어서,
    상기 사용자의 의도를 추정하는 단계는
    상기 입력 영상 및 상기 코드화된 영상에 기초하여, 상기 시선 시퀀스에 대응하는 특징 벡터들을 획득하는 단계; 및
    상기 특징 벡터들에 기초하여, 상기 사용자의 의도를 추정하는 단계
    를 포함하는, 의도를 추정하는 방법.
  6. 제5항에 있어서,
    상기 특징 벡터들을 획득하는 단계는
    상기 입력 영상에서 상기 시선 시퀀스에 따른 각 시선이 맵핑되는 부분 영역들로부터 제1 특징 벡터들을 추출하는 단계;
    상기 코드화된 영상을 기초로 제2 특징 벡터들을 추출하는 단계; 및
    상기 제1 특징 벡터들 및 상기 제2 특징 벡터들을 연관(concatenate)시킴으로써 상기 시선 시퀀스에 대응하는 특징 벡터들을 획득하는 단계
    를 포함하는, 의도를 추정하는 방법.
  7. 제1항에 있어서,
    상기 입력 영상은 제1 샘플링 주파수에 따라 획득되고,
    상기 시선 시퀀스는 상기 제1 샘플링 주파수보다 느린 제2 샘플링 주파수에 따라 획득되는, 의도를 추정하는 방법.
  8. 제1항에 있어서,
    상기 코드화된 영상을 생성하는 단계는
    제1 샘플링 주파수에 기초하여, 제2 샘플링 주파수에 따라 샘플링된 복수의 시선들을 누적하는 단계; 및
    상기 누적된 복수의 시선들의 시퀀스에 기초하여, 상기 제1 샘플링 주파수에 동기화되는 코드화된 영상을 생성하는 단계
    를 포함하는, 의도를 추정하는 방법.
  9. 제1항에 있어서,
    상기 사용자의 의도는
    검색(search), 카운팅(counting), 객체 식별, 프리뷰(freeview) 중 적어도 하나를 포함하는, 의도를 추정하는 방법.
  10. 제1항에 있어서,
    상기 추정된 의도, 상기 시선 시퀀스 및 상기 입력 영상 중 적어도 하나에 기초하여, 상기 추정된 의도에 부합하는 정보를 제공하는 단계
    를 더 포함하는, 의도를 추정하는 방법.
  11. 하드웨어와 결합되어 제1항 내지 제10항 중 어느 하나의 항의 방법을 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램.
  12. 사용자의 시선 시퀀스 및 상기 시선 시퀀스에 대응하는 입력 영상을 획득하는 통신 인터페이스; 및
    상기 시선 시퀀스에 내재된 시간적 정보를 시각적으로 인코딩하여 코드화된 영상를 생성하고, 상기 입력 영상 및 상기 코드화된 영상에 기초하여, 상기 시선 시퀀스에 대응하는 상기 사용자의 의도를 추정하는 프로세서
    를 포함하는, 의도를 추정하는 장치.
  13. 제12항에 있어서,
    상기 시간적 정보는
    상기 입력 영상에서의 상기 시선 시퀀스에 따른 시선의 이동 경로, 상기 시선의 이동 속도, 상기 시선이 상기 입력 영상의 부분 영역에 머무는 시간, 상기 시선이 상기 부분 영역에 반복적으로 맵핑되는지 여부, 상기 시선이 상기 부분 영역에 반복적으로 맵핑되는 횟수, 상기 시선이 상기 부분 영역에 반복적으로 맵핑되는 간격, 상기 시선 시퀀스에 의해 커버되는 영상의 범위 중 적어도 하나를 더 포함하는, 의도를 추정하는 장치.
  14. 제12항에 있어서,
    상기 프로세서는
    상기 시간적 정보를, 상기 입력 영상에서 상기 시선 시퀀스에 따른 각 시선이 맵핑되는 부분 영역들에 컬러 채널 별로 인코딩함으로써 상기 코드화된 부분 영상들을 생성하고, 상기 코드화된 부분 영상들을 조합하여 상기 코드화된 영상을 생성하는, 의도를 추정하는 장치.
  15. 제14항에 있어서,
    상기 프로세서는
    상기 입력 영상에서 상기 시선 시퀀스에 따른 각 시선이 맵핑되는 부분 영역들에 상기 시간적 정보에 대응하는 원을 생성하는, 의도를 추정하는 장치.
  16. 제12항에 있어서,
    상기 프로세서는
    상기 입력 영상 및 상기 코드화된 영상에 기초하여, 상기 시선 시퀀스에 대응하는 특징 벡터들을 획득하고, 상기 특징 벡터들에 기초하여, 상기 사용자의 의도를 추정하는, 의도를 추정하는 장치.
  17. 제16항에 있어서,
    상기 프로세서는
    상기 입력 영상에서 상기 시선 시퀀스에 따른 각 시선이 맵핑되는 부분 영역들로부터 제1 특징 벡터들을 추출하고, 상기 코드화된 영상을 기초로 제2 특징 벡터들을 추출하며, 상기 제1 특징 벡터들 및 상기 제2 특징 벡터들을 연관시킴으로써 상기 시선 시퀀스에 대응하는 특징 벡터들을 획득하는, 의도를 추정하는 장치.
  18. 제12항에 있어서,
    상기 입력 영상은 제1 샘플링 주파수에 따라 획득되고,
    상기 시선 시퀀스는 상기 제1 샘플링 주파수보다 느린 제2 샘플링 주파수에 따라 획득되는, 의도를 추정하는 장치.
  19. 제12항에 있어서,
    상기 프로세서는
    제1 샘플링 주파수에 기초하여, 제2 샘플링 주파수에 따라 샘플링된 복수의 시선들을 누적하고, 상기 누적된 복수의 시선들의 시퀀스에 기초하여, 상기 제1 샘플링 주파수에 동기화되는 코드화된 영상을 생성하는, 의도를 추정하는 장치.
  20. 제12항에 있어서,
    상기 프로세서는
    상기 추정된 의도, 상기 시선 시퀀스 및 상기 입력 영상 중 적어도 하나에 기초하여, 상기 추정된 의도에 부합하는 정보를 제공하는, 의도를 추정하는 장치.
KR1020190085606A 2019-07-16 2019-07-16 사용자의 의도를 추정하는 방법 및 장치 KR20210009066A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020190085606A KR20210009066A (ko) 2019-07-16 2019-07-16 사용자의 의도를 추정하는 방법 및 장치
US16/699,937 US11231776B2 (en) 2019-07-16 2019-12-02 Method and apparatus for predicting intention of user

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190085606A KR20210009066A (ko) 2019-07-16 2019-07-16 사용자의 의도를 추정하는 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20210009066A true KR20210009066A (ko) 2021-01-26

Family

ID=74310407

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190085606A KR20210009066A (ko) 2019-07-16 2019-07-16 사용자의 의도를 추정하는 방법 및 장치

Country Status (2)

Country Link
US (1) US11231776B2 (ko)
KR (1) KR20210009066A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11340700B2 (en) 2019-08-26 2022-05-24 Samsung Electronics Co., Ltd. Method and apparatus with image augmentation

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113391699B (zh) * 2021-06-10 2022-06-21 昆明理工大学 一种基于动态眼动指标的眼势交互模型方法
CN116628177B (zh) * 2023-05-22 2023-11-14 福建省网络与信息安全测评中心 针对网络安全平台的交互数据处理方法及系统

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8542928B2 (en) 2005-09-26 2013-09-24 Canon Kabushiki Kaisha Information processing apparatus and control method therefor
RU2475853C2 (ru) 2007-02-08 2013-02-20 Бихейвиэрл Рикогнишн Системз, Инк. Система распознавания поведения
CN101965576B (zh) 2008-03-03 2013-03-06 视频监控公司 用于追踪、索引及搜寻的物件匹配
US10013641B2 (en) * 2009-09-28 2018-07-03 Oracle International Corporation Interactive dendrogram controls
KR101121712B1 (ko) 2010-03-31 2012-03-09 경북대학교 산학협력단 시선 경로 제공장치
KR101939772B1 (ko) 2012-08-14 2019-01-17 삼성전자주식회사 얼굴 감정 추론 방법 및 장치, 얼굴 감정 추론 시스템 및 컴퓨터 프로그램 기록 매체
KR102213865B1 (ko) 2014-03-18 2021-02-08 에스케이플래닛 주식회사 주시 영역 기반 객체 식별 장치 및 방법, 컴퓨터 프로그램이 기록된 기록매체
WO2015183208A1 (en) 2014-05-30 2015-12-03 Koç Üniversitesi Gaze based prediction device and method
KR101847446B1 (ko) 2016-12-27 2018-04-10 세종대학교산학협력단 인지 데이터 네트워크 기반 시선 추적 서버 및 방법
KR102651253B1 (ko) 2017-03-31 2024-03-27 삼성전자주식회사 사용자 감정 판단을 위한 전자 장치 및 이의 제어 방법
US10056018B1 (en) * 2017-08-14 2018-08-21 Osram Sylvania Inc. Dynamic color rendering methods and systems providing just-noticeable color accentuation and quasi-animation effects
KR102092931B1 (ko) 2017-09-13 2020-03-24 주식회사 비주얼캠프 시선 추적 방법 및 이를 수행하기 위한 사용자 단말
US10474916B2 (en) * 2017-11-20 2019-11-12 Ashok Krishnan Training of vehicles to improve autonomous capabilities
US11281936B2 (en) * 2018-12-31 2022-03-22 Kofax, Inc. Systems and methods for identifying processes for robotic automation and building models therefor

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11340700B2 (en) 2019-08-26 2022-05-24 Samsung Electronics Co., Ltd. Method and apparatus with image augmentation
US11762454B2 (en) 2019-08-26 2023-09-19 Samsung Electronics Co., Ltd. Method and apparatus with image augmentation

Also Published As

Publication number Publication date
US20210018978A1 (en) 2021-01-21
US11231776B2 (en) 2022-01-25

Similar Documents

Publication Publication Date Title
KR20210009066A (ko) 사용자의 의도를 추정하는 방법 및 장치
Sawant et al. Real time sign language recognition using pca
Sarı et al. A multi-view approach to audio-visual speaker verification
KR20180043937A (ko) 표정 인식 방법 및 장치
KR102641117B1 (ko) 영상을 증강하는 방법 및 장치
KR101994319B1 (ko) 깊이 영상을 이용하는 객체 인식 장치 및 그 장치를 이용한 방법
Sawant Sign language recognition system to aid deaf-dumb people using PCA
KR102111858B1 (ko) 기계학습을 이용한 획 기반 수기 서명 인증 방법 및 시스템
Vo et al. Abn: Agent-aware boundary networks for temporal action proposal generation
KR20210091966A (ko) 얼굴 및 스트레스 인식 장치 및 방법
US11715330B2 (en) Liveness detection in an interactive video session
KR20210061072A (ko) 비디오 세그먼테이션 방법 및 장치
CN110175578A (zh) 应用于刑侦的基于深度森林的微表情识别方法
Töngi Application of transfer learning to sign language recognition using an inflated 3D deep convolutional neural network
Wang et al. An audio-visual attention based multimodal network for fake talking face videos detection
KR101070442B1 (ko) 다중 레벨 얼굴 인식을 이용한 얼굴 인증 시스템 및 인증 방법
KR20190110223A (ko) 얼굴 표정 인식을 위한 얼굴 표정 등록 방법 및 이를 이용하는 얼굴 표정 인식 방법
Tariq et al. Sign language localization: Learning to eliminate language dialects
Fauzan et al. Feature extraction from smartphone images by using elliptical fourier descriptor, centroid and area for recognizing Indonesian Sign Language SIBI (sistem isyarat bahasa Indonesia)
CN111860212B (zh) 人脸图像的超分方法、装置、设备及存储介质
JP7314959B2 (ja) 人物認証装置、制御方法、及びプログラム
Gaziv et al. More Than Meets the Eye: Self-Supervised Depth Reconstruction From Brain Activity
Kawaguchi et al. Basic investigation of sign language motion classification by feature extraction using pre-trained network models
Sharma et al. Micro expression classification accuracy assessment
Lima et al. Using convolutional neural networks for fingerspelling sign recognition in brazilian sign language

Legal Events

Date Code Title Description
A201 Request for examination