KR20210024854A - 영상을 증강하는 방법 및 장치 - Google Patents

영상을 증강하는 방법 및 장치 Download PDF

Info

Publication number
KR20210024854A
KR20210024854A KR1020190104564A KR20190104564A KR20210024854A KR 20210024854 A KR20210024854 A KR 20210024854A KR 1020190104564 A KR1020190104564 A KR 1020190104564A KR 20190104564 A KR20190104564 A KR 20190104564A KR 20210024854 A KR20210024854 A KR 20210024854A
Authority
KR
South Korea
Prior art keywords
image
user
interest
input image
augmenting
Prior art date
Application number
KR1020190104564A
Other languages
English (en)
Other versions
KR102641117B1 (ko
Inventor
박승인
이형욱
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020190104564A priority Critical patent/KR102641117B1/ko
Priority to US16/790,850 priority patent/US11340700B2/en
Publication of KR20210024854A publication Critical patent/KR20210024854A/ko
Priority to US17/749,290 priority patent/US11762454B2/en
Application granted granted Critical
Publication of KR102641117B1 publication Critical patent/KR102641117B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/19Sensors therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/366Image reproducers using viewer tracking
    • H04N13/383Image reproducers using viewer tracking for tracking with gaze detection, i.e. detecting the lines of sight of the viewer's eyes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • G06T2207/10021Stereoscopic video; Stereoscopic image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/16Image acquisition using multiple overlapping images; Image stitching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • Ophthalmology & Optometry (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Signal Processing (AREA)
  • Architecture (AREA)
  • Image Analysis (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

일 실시예에 따른 영상을 증강하는 방법 및 장치는 입력 영상에 대응하는 사용자의 시선에 기초하여 입력 영상의 일부 영역들로부터 사용자의 관심 객체, 관심 객체의 상황, 및 사용자의 태스크 중 적어도 하나를 인식하고, 사용자의 관심 객체, 관심 객체의 상황, 및 사용자의 태스크 중 적어도 둘을 기초로 사용자에게 요구되는 필요 정보를 결정하며, 필요 정보를 기초로 입력 영상을 시각적으로 증강하여 디스플레이 한다.

Description

영상을 증강하는 방법 및 장치{METHOD AND APPARATUS OF AUGMENTING IMAGE}
아래의 실시예들은 영상을 증강하는 방법 및 장치에 관한 것이다.
증강 현실(Augmented Reality; AR)을 위한 응용 영상에 사용자가 필요로 하는 정보와 영상을 정합하여 보여줄 수 있다면, 사용자의 정확한 상황 판단과 행동 능력 향상에 도움이 될 수 있다. 사용자가 수행하는 인지 작업(cognitive task)은 사용자가 필요로 하는 정보에 따라 달라질 수 있다. 또한, 서로 다른 인지 작업에 따라 사용자가 보이는 집중(attention) 패턴 또한 상이하다. 예를 들어, 시선(gaze)은 집중과 밀접하게 연관된 가장 빠른 감각적 단서(sensory cue) 중 하나이다. 사용자의 시선을 파악함으로써 사용자의 의도 및/또는 사용자가 필요로 하는 정보를 구분할 수 있다.
일 실시예에 따르면, 영상을 증강하는 방법은 입력 영상에 대응하는 사용자의 시선(gaze)에 기초하여 상기 입력 영상의 일부 영역들로부터 상기 사용자의 관심 객체, 상기 관심 객체의 상황, 및 상기 사용자의 태스크(task) 중 적어도 하나를 인식하는 단계; 상기 사용자의 관심 객체, 상기 관심 객체의 상황, 및 상기 사용자의 태스크 중 적어도 둘을 기초로, 상기 사용자에게 요구되는 필요 정보를 결정하는 단계; 상기 필요 정보를 기초로, 상기 입력 영상을 시각적으로 증강하는 단계; 및 상기 시각적으로 증강된 영상을 출력하는 단계를 포함한다.
상기 적어도 하나를 인식하는 단계는 상기 사용자의 시선에 기초하여 상기 입력 영상의 일부 영역들을 포함하는 영상 시퀀스를 생성하는 단계; 및 상기 영상 시퀀스에 기초하여 상기 사용자의 관심 객체, 상기 관심 객체의 상황, 및 상기 사용자의 태스크 중 적어도 하나를 인식하는 단계를 포함할 수 있다.
상기 영상 시퀀스를 생성하는 단계는 상기 입력 영상에서 상기 사용자의 시선에 맵핑되는 상기 부분 영상들을 추출하는 단계; 및 상기 부분 영상들을 순차적으로 결합하여 상기 영상 시퀀스를 생성하는 단계를 포함할 수 있다.
상기 부분 영상들을 추출하는 단계는 각 타임 스텝마다 입력되는 상기 입력 영상에서 상기 사용자의 시선이 맺히는 시선 정보 를 기초로, 상기 부분 영상들을 추출하는 단계를 포함할 수 있다.
상기 적어도 하나를 인식하는 단계는 상기 영상 시퀀스를 객체 인식을 위한 제1 신경망에 인가함으로써 상기 영상 시퀀스에 포함된 상기 관심 객체, 및 상기 관심 객체의 상황 중 적어도 하나를 인식하는 단계; 및 상기 영상 시퀀스를 태스크 인식을 위한 제2 신경망에 인가함으로써 상기 사용자가 수행 중인 태스크를 인식하는 단계를 포함할 수 있다.
상기 태스크를 인식하는 단계는 상기 영상 시퀀스에 따른 각 시선에 내재된 시간 정보(temporal information)를 시각적으로 인코딩하여 코드화된 영상(coded image)을 생성하는 단계; 및 상기 영상 시퀀스 및 상기 코드화된 영상에 기초하여, 상기 사용자가 수행 중인 태스크를 추정하는 단계를 포함할 수 있다.
상기 시간 정보는 상기 시선의 이동 경로, 상기 시선의 이동 속도, 상기 시선이 상기 일부 영역에 머무는 시간, 상기 시선이 상기 일부 영역에 반복적으로 맵핑되는지 여부, 상기 시선이 상기 일부 영역에 반복적으로 맵핑되는 횟수, 상기 시선이 상기 일부 영역에 반복적으로 맵핑되는 간격, 및 상기 입력 영상에서 영상 시퀀스에 의해 커버되는 범위 중 적어도 하나를 포함할 수 있다.
상기 코드화된 영상을 생성하는 단계는 상기 시간 정보를, 상기 입력 영상에서 상기 영상 시퀀스에 따른 각 시선이 맵핑되는 일부 영역들에 컬러 채널(color channel) 별로 인코딩함으로써 상기 코드화된 부분 영상들을 생성하는 단계; 및 상기 코드화된 부분 영상들을 조합하여 상기 코드화된 영상을 생성하는 단계를 포함할 수 있다.
상기 태스크를 추정하는 단계는 상기 영상 시퀀스 및 상기 코드화된 영상에 기초하여, 상기 영상 시퀀스에 대응하는 특징 벡터들을 획득하는 단계; 및 상기 특징 벡터들에 기초하여, 상기 태스크를 분류하는 단계를 포함할 수 있다.
상기 특징 벡터들을 획득하는 단계는 상기 영상 시퀀스에 따른 각 시선이 맵핑되는 일부 영역들로부터 제1 특징 벡터들을 추출하는 단계; 상기 코드화된 영상을 기초로 제2 특징 벡터들을 추출하는 단계; 및 상기 제1 특징 벡터들 및 상기 제2 특징 벡터들을 연관(concatenate) 시킴으로써 상기 영상 시퀀스에 대응하는 특징 벡터들을 획득하는 단계를 포함할 수 있다.
상기 관심 객체의 상황은 상기 영상 시퀀스에서 상기 관심 객체에 가려짐(occlusion), 블러(blur), 우천에 의한 왜곡, 저조도, 및 빛 반사 중 적어도 하나가 발생한 상황을 포함할 수 있다.
상기 사용자의 태스크는 검색(search), 객체 식별(identification), 매칭(matching), 카운팅(counting), 측정(measurement) 및 프리뷰(freeview) 중 적어도 하나를 포함할 수 있다.
상기 적어도 하나를 인식하는 단계는 상기 입력 영상에서 서로 다른 크기의 일부 영역에 대응하는 제1 윈도우 영역 및 제2 윈도우 영역을 설정하는 단계-상기 제2 윈도우 영역은 상기 제1 윈도우 영역보다 큼-; 상기 제2 윈도우 영역을 다운 샘플링(down sampling)하여 상기 제2 윈도우 영역의 크기를 조절(resize)하는 단계; 상기 제1 윈도우 영역으로부터 제1 객체 후보를 검출하고, 상기 크기가 조절된 제2 윈도우 영역으로부터 제2 객체 후보를 검출하는 단계; 및 상기 제1 객체 후보 및 상기 제2 객체 후보 중 적어도 하나에 기초하여, 상기 입력 영상에 포함된 관심 객체를 인식하는 단계를 포함할 수 있다.
상기 사용자에게 요구되는 필요 정보를 결정하는 단계는 상기 사용자의 관심 객체, 및 상기 관심 객체의 상황에 대응하는 기술자를 결정하는 단계; 및 상기 관심 객체와 상기 사용자의 태스크 간의 관계에 기초한 테이블에서, 상기 기술자와 상기 사용자의 태스크를 조합한 결과를 검색함으로써 상기 필요 정보를 결정하는 단계를 포함할 수 있다.
상기 입력 영상을 시각적으로 증강하는 단계는 상기 필요 정보를 상기 입력 영상에 정합 함으로써 상기 입력 영상을 시각적으로 증강하는 단계; 및 상기 필요 정보를 기초로, 상기 입력 영상을 보정함으로써 상기 입력 영상을 시각적으로 증강하는 단계 중 적어도 하나를 포함할 수 있다.
상기 입력 영상을 시각적으로 증강하는 단계는 상기 필요 정보에 따른 상황 별 추가 정보를 선택적으로 제공함으로써 상기 입력 영상을 시각적으로 증강하는 단계를 포함할 수 있다.
상기 영상을 증강하는 방법은 상기 입력 영상 및 상기 입력 영상에 대응하는 사용자의 시선을 포함하는 시선 정보를 획득하는 단계를 더 포함할 수 있다.
일 실시예에 따르면, 영상을 증강하는 장치는 입력 영상 및 상기 입력 영상에 대응하는 사용자의 시선을 포함하는 시선 정보를 획득하는 통신 인터페이스; 상기 입력 영상에 대응하는 사용자의 시선에 기초하여 상기 입력 영상의 일부 영역들로부터 상기 사용자의 관심 객체, 상기 관심 객체의 상황, 및 상기 사용자의 태스크 중 적어도 하나를 인식하고, 상기 사용자의 관심 객체, 상기 관심 객체의 상황, 및 상기 사용자의 태스크 중 적어도 둘을 기초로, 상기 사용자에게 요구되는 필요 정보를 결정하며, 상기 필요 정보를 기초로, 상기 입력 영상을 시각적으로 증강하는 프로세서; 및 상기 시각적으로 증강된 영상을 표시하는 디스플레이를 포함한다.
도 1은 일 실시예에 따른 영상을 증강하는 방법을 나타낸 흐름도.
도 2는 다른 실시예에 따른 영상을 증강하는 방법을 나타낸 흐름도.
도 3은 일 실시예에 따라 영상 시퀀스를 생성하는 방법을 설명하기 위한 도면.
도 4는 일 실시예에 따라 사용자의 관심 객체, 및 관심 객체의 상황을 인식하는 방법을 설명하기 위한 도면.
도 5는 일 실시예에 따라 태스크를 인식하는 방법을 나타낸 흐름도.
도 6은 일 실시예에 따라 코드화된 영상을 생성하는 방법을 설명하기 위한 도면.
도 7은 일 실시예에 따라 태스크를 추정하는 방법을 설명하기 위한 도면.
도 8은 일 실시예에 따라 필요 정보를 결정하는 방법을 설명하기 위한 도면.
도 9는 다른 실시예에 따른 영상을 증강하는 방법을 나타낸 흐름도.
도 10은 일 실시예에 따른 입력 영상 및 입력 영상을 시각적으로 증강한 출력 영상을 도시한 도면.
도 11은 일 실시예에 따른 영상을 증강하는 장치의 블록도.
이하에서, 첨부된 도면을 참조하여 실시예들을 상세하게 설명한다. 그러나, 특허출원의 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
아래 설명하는 실시예들에는 다양한 변경이 가해질 수 있다. 아래 설명하는 실시예들은 실시 형태에 대해 한정하려는 것이 아니며, 이들에 대한 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
실시예에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 실시예를 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
도 1은 일 실시예에 따른 영상을 증강하는 방법을 나타낸 흐름도이다. 도 1을 참조하면, 일 실시예에 따른 영상을 증강하는 장치(이하, '증강 장치')는 입력 영상에 대응하는 사용자의 시선(gaze)에 기초하여 입력 영상의 일부 영역들로부터 사용자의 관심 객체, 관심 객체의 상황, 및 사용자의 태스크(task) 중 적어도 하나를 인식한다(110). 입력 영상은 예를 들어, 사용자의 가시 영역에 대한 카메라 영상일 수 있다. 사용자의 시선은 입력 영상에 맵핑된 사용자의 시선 정보에 해당하며 복수 개의 시선들을 포함할 수 있다. 사용자의 시선은 예를 들어, 시선 추적기(eye tracker) 또는 홍채 센서 등에 의해 감지될 수 있다.
여기서, '관심 객체'는 입력 영상에서 사용자의 시선이 머무는 영역 또는 좌표에 해당하는 객체로서, 예를 들어, 차량, 표지판, 도로, 보행자 등이 해당할 수 있으며, 반드시 이에 한정되지는 않는다. '관심 객체의 상황'은 관심 객체가 처한 상황, 관심 객체의 주변 상황뿐만 아니라 영상 시퀀스에 포함된 관심 객체에 대응하는 영상 상태를 모두 포괄하는 의미로 사용될 수 있다. 관심 객체의 상황은 예를 들어, 도로 주행 상황, 내비게이션의 상태, 에어컨의 상태, 최적 경로 확인 상황, 경로 정보 획득 상황 등을 포함할 수 있다. 또한, 관심 객체의 상황은 예를 들어, 영상 시퀀스에서 관심 객체에 가려짐(occlusion), 블러(blur), 우천에 의한 왜곡, 저조도, 및 빛 반사가 발생한 상황 등을 포함할 수 있다. 빛 반사는 태양광 및/또는 조명광에 의한 반사를 모두 포함할 수 있다. 빛 반사가 발생한 상태는 단순히 영상에 빛 반사가 발생한 상태뿐만 아니라, 예를 들어, 관심 객체에 대한 조도 변화가 발생한 상태를 모두 포함할 수 있다.
'사용자의 태스크'는 사용자의 시선이 입력 영상에 머무르며 수행하는 작업, 또는 사용자의 시선이 입력 영상에 머무는 의도에 해당할 수 있다. 사용자의 태스크는 '사용자의 의도(intention)'라고도 불릴 수도 있다. 사용자의 태스크는 예를 들어, 검색(search), 객체 식별(identification), 매칭(matching), 카운팅(counting), 측정(measurement) 및 프리뷰(free view) 등을 포함할 수 있으며, 반드시 이에 한정되지 않는다.
단계(110)에서, 증강 장치는 사용자의 시선에 기초하여 입력 영상의 일부 영역들을 포함하는 영상 시퀀스를 생성할 수 있다. 증강 장치가 영상 시퀀스를 생성하는 방법은 아래의 도 3을 참조하여 구체적으로 설명한다. 증강 장치는 영상 시퀀스에 기초하여 사용자의 관심 객체, 관심 객체의 상황, 및 사용자의 태스크 중 적어도 하나를 인식할 수 있다. 증강 장치는 예를 들어, 영상 시퀀스를 객체 인식을 위한 제1 신경망에 인가함으로써 영상 시퀀스에 포함된 관심 객체, 및 관심 객체의 상황 중 적어도 하나를 인식할 수 있다. 또한, 증강 장치는 영상 시퀀스를 태스크 인식을 위한 제2 신경망에 인가함으로써 사용자가 수행 중인 태스크를 인식할 수 있다. 태스크 인식을 위한 제2 신경망은 예를 들어, 영상 시퀀스의 시퀀스 데이터 처리를 위한 분류기(classifier)를 포함할 수 있다. 분류기는 예를 들어, RNN(Recurrent Neural Network), LSTM(Long Short Term Memory), DNC(Differential Neural Network) 등의 DNN(Deep Neural Network) 또는 서포트 벡터 머신(Support Vector Machine; SVM)으로 구성될 수 있다. 증강 장치가 사용자의 관심 객체, 관심 객체의 상황, 및 사용자의 태스크 중 적어도 하나를 인식하는 방법은 아래의 도 4 내지 도 7을 참조하여 구체적으로 설명한다.
증강 장치는 사용자의 관심 객체, 관심 객체의 상황, 및 사용자의 태스크 중 적어도 둘을 기초로, 사용자에게 요구되는 필요 정보를 결정한다(120). 일 실시예에 따른 증강 장치는 사용자의 시선에 기반하여 현재 수행중인 사용자의 태스크를 파악하고, 사용자의 태스크를 사용자의 관심 객체 및/또는 관심 객체의 상황과 조합함으로써 사용자의 명시적인 입력이 없어도 필요 정보를 결정할 수 있다. 증강 장치가 필요 정보를 결정하는 방법은 아래의 도 8을 참조하여 구체적으로 설명한다.
증강 장치는 필요 정보를 기초로, 입력 영상을 시각적으로 증강한다(130). 증강 장치는 예를 들어, 필요 정보를 입력 영상에 정합함으로써 입력 영상을 시각적으로 증강할 수 있다. 여기서, '필요 정보를 입력 영상에 정합한다'는 의미는 필요 정보를 입력 영상에 추가, 매칭 및/또는 오버레이(overlay)하는 것으로 이해될 수 있다. 또한, 증강 장치는 필요 정보를 기초로, 입력 영상을 보정함으로써 입력 영상을 시각적으로 증강할 수 있다.
실시예에 따라서, 증강 장치는 필요 정보에 따른 상황 별 추가 정보를 선택적으로 제공함으로써 입력 영상을 시각적으로 증강할 수도 있다. 예를 들어, 필요 정보가 현재 운전자가 주행 중인 도로의 지도 정보를 연계하여 획득되는 차선의 정보라고 하자. 이 경우, 추가 정보는 입력 영상에 나타난 차선에 강조된 차선을 정확히 오버레이(overlay) 하기 위해 요구되는 도로면의 표면 모델(surface model)일 수 있다.
증강 장치는 시각적으로 증강된 영상을 디스플레이 한다(140). 일 실시예에서 '시각적으로 증강된 영상'은 저조도에서 고저도로 복원된 영상, 원거리에서 근거리로 확대된 영상, 입력 영상에 대응하는 지도 정보가 입력 영상과 연계하여 함께 보여지는 영상, 지도 정보와 연계된 추가 정보가 입력 영상과 함께 제공되는 영상, 입력 영상에서 가려진 관심 객체의 영상 및/또는 정보가 입력 영상에 오버레이되어 보여지는 영상, 또는 가려진 관심 객체의 영상 및/또는 정보에 의해 보정된 입력 영상 등을 예시로 들 수 있으며, 반드시 이에 한정되는 것은 아니다. 증강 장치는 예를 들어, 필요 정보를 선택적으로 증강하여 보여줌으로써 사용자의 정확한 상황 판단 및/또는 사용자의 행동을 지원할 수 있다. 증강 장치에 의해 시각적으로 증강된 영상의 예시는 아래의 도 10을 참조하여 구체적으로 설명한다.
일 실시예에 따른 증강 장치는 예를 들어, 사용자의 시선에 기반한 자연스러운 사용자 인터페이스(natural user interface)를 구축하거나, 또는 시각 인식 증강 시스템(visual perception augmentation system)과 같이 영상 시퀀스의 처리를 수반하는 증강 현실 용용 분야에서 활용될 수 있다.
도 2는 다른 실시예에 따른 영상을 증강하는 방법을 나타낸 흐름도이다. 도 2를 참조하면, 일 실시예에 따른 증강 장치에 사용자의 가시 영역에 대한 입력 영상(201)과 입력 영상(201) 내에서 사용자의 시선이 맺히는 응시 지점(gaze point)을 포함하는 시선 정보(203)가 입력될 수 있다. 입력 영상(201) 및 시선 정보(203)가 주어지면, 증강 장치는 입력 영상(201) 중 응시 지점을 중심으로 하는 일부 영역을 추출하여 영상 시퀀스를 생성할 수 있다(210). 영상 시퀀스는 예를 들어, 입력 영상의 일부 영역들에 대응하는 부분 영상들이 순차적으로 결합된 것일 수 있다.
증강 장치는 영상 시퀀스를 객체 인식을 위한 심층 신경망(DNN)에 입력하여 영상 내 존재하는 관심 객체의 종류 및/또는 관심 객체의 상황을 인식할 수 있다(220). 증강 장치는 예를 들어, 도로 주행 환경에서 운전자가 주목하는 관심 객체가 도로 표지판임을 인식하고, 관심 객체의 상황이 가로수 등에 의해 해당 도로 표지판이 가려진 상태임을 인식할 수 있다.
이와 함께, 증강 장치는 영상 시퀀스를 기초로 사용자가 수행 중인 태스크, 다시 말해 사용자의 태스크를 인식할 수 있다(230). 증강 장치는 예를 들어, 태스크를 분류하도록 학습된 분류기에 영상 시퀀스를 입력함으로써 운전자가 관심 객체를 식별하려는 객체 식별 태스크를 수행중임을 파악할 수 있다. 단계(220) 및 단계(230)은 동시에 수행될 수도 있고, 시간 차를 가지고 수행될 수도 있다.
증강 장치는 단계(220)에서 인식된 관심 객체의 종류 및/또는 관심 객체의 상황과 단계(230)에서 인식된 사용자의 태스크를 종합하여 사용자에게 요구되는 필요 정보를 결정할 수 있다(240). 예를 들어, 관심 객체의 종류가 도로 표지판이고, 관심 객체의 상황이 해당 도로 표지판에 가려짐이 발생한 상태이며, 사용자의 태스크가 객체 식별이라고 하자. 이 경우, 증강 장치는 관심 객체의 종류 및/또는 관심 객체의 상황과 사용자의 태스크를 종합하여 사용자가 도로 표지판의 가려진 부분에 대한 정보를 필요로 함을 파악할 수 있다. 증강 장치는 도로 표지판의 가려진 부분에 대한 정보를 필요 정보로 결정할 수 있다. 이때, 도로 표지판의 가려진 부분에 대한 정보는 해당 도로 표지판의 가려진 부분에 대한 영상 정보뿐만 아니라, 해당 도로 표지판의 위치, 해당 도로 표지판의 유형, 해당 도로 표지판에 기재된 내용, 및 그 밖의 다양한 정보를 포함할 수 있다.
증강 장치는 필요 정보를 획득할 수 있다(250). 증강 장치는 예를 들어, 현재 사용자, 다시 말해 운전자가 주행 중인 도로의 지도 정보를 영상 시퀀스와 연계하여 관심 객체의 도로 표지판의 가려진 부분에 대한 영상 및/또는 해당 도로 표지판에 대한 정보를 획득할 수 있다. 이때, 증강 장치는 단계(240)에서 결정된 필요 정보 이외에도 필요 정보에 따른 상황 별 추가 정보를 함께 획득할 수 있다.
증강 장치는 단계(250)에서 획득한 필요 정보를 기초로 입력 영상에 대한 시각적 증강을 수행할 수 있다(260). 증강 장치는 단계(250)에서 획득한 필요 정보를 입력 영상에 정합하여 디스플레이에 표시할 수 있다. 증강 장치는 예를 들어, 도로 표지판의 가려진 부분의 영상을 복원하여 입력 영상에 오버레이 함으로써 입력 영상에 대한 시각적 증강을 수행할 수 있다.
도 3은 일 실시예에 따라 영상 시퀀스를 생성하는 방법을 설명하기 위한 도면이다. 도 3을 참조하면, 일 실시예에 따라 매 타입 스텝(time step) t마다 입력되는 입력 영상(310), 입력 영상(310) 내 시선이 맺히는 위치를 포함하는 시선 정보(330), 부분 영상들(350), 및 영상 시퀀스(370)가 도시된다. 이때, 시선 정보(330)는 입력 영상(310) 내에서 시선이 맺히는 응시 지점(gaze point)의 좌표를 포함할 수 있다.
증강 장치는 매 타입 스텝 t마다 입력되는 입력 영상(310)에서 사용자의 시선이 맺히는 응시 지점의 좌표를 중심으로 일정 크기의 이미지 영역을 추출하여 부분 영상들(350)을 생성할 수 있다. 여기서, 일정 크기의 이미지 영역은 입력 영상(310) 중 일부 영역에 해당할 수 있다. 증강 장치는 각 타임 스텝에 대응하는 부분 영상들(350)을 입력 순서대로 순차적으로 결합하여 하나의 영상 시퀀스(370)를 생성할 수 있다.
일 실시예에 따르면, 부분 영상들(350)에 의해 생성된 하나의 영상 시퀀스(370)에서 시선에 내재하는 시간 정보를 연속 정보의 형태로 다룸으로써 시선 추적기의 정확도(accuracy), 지연(latency) 및/또는 동기화(synchronization)로 인해 발생하는 시선 위치의 오차를 최소화할 수 있다.
도 4는 일 실시예에 따라 사용자의 관심 객체, 및 관심 객체의 상황을 인식하는 방법을 설명하기 위한 도면이다. 도 4를 참조하면, 입력 영상(410), 입력 영상(410)에 대한 사용자의 응시 지점(403), 제1 윈도우 영역(405), 제2 윈도우 영역(407), F(Foveated)-영상(410), 및 P(Peripheral)-영상(450)이 도시된다. F-영상(430)은 '제1 영상'이라고 불릴 수도 있다. 또한, P-영상(450)은 '제2 영상'이라고 불릴 수도 있다. 입력 영상(410)은 예를 들어, 전술한 영상 시퀀스 또는 영상 시퀀스에 포함된 부분 영상일 수 있다.
일 실시예에 따른 증강 장치는 입력 영상(410)을 객체 인식을 위한 제1 신경망에 인가함으로써 입력 영상(410)에 포함된 관심 객체, 및 관심 객체의 상황 중 적어도 하나를 인식할 수 있다. 이때, 제1 신경망으로는 예를 들어, CNN(Convolution Neural Network), 및 RNN(Recurrent Neural Network) 등과 같은 딥 러닝 기반의 객체 검출 방법이 사용될 수 있으며, 이 외에도 객체 인식을 위한 다양한 알고리즘 및/또는 구조가 사용될 수 있다. CNN 은 예를 들어, SSD(Single Shot Detector), YOLO(You only look once) 등을 포함할 수 있다. 제1 신경망은 입력 영상(410)에 포함된 부분 영상들로부터 관심 객체를 검출할 수 있다. 또한, 제1 신경망은 부분 영상들로부터 관심 객체를 검출해 내는 것뿐 아니라 관심 객체의 가려짐이 발생한 상황, 블러, 우천에 의한 왜곡, 저조도, 및 관심 객체에 대한 빛 반사 등과 같은 관심 객체의 상황 또한 함께 검출할 수 있다.
보다 구체적으로, 일 실시예에 따른 증강 장치는 입력 영상(410)과 입력 영상(410)에 상응하는 사용자의 응시 지점(403)에 대한 정보가 주어지면, 사용자의 응시 지점(403)을 기초로 제1 윈도우 영역(405) 및 제2 윈도우 영역(407)과 같은 서로 다른 크기의 두 개의 윈도우 영역들을 설정할 수 있다. 증강 장치는 예를 들어, 입력 영상(410)에 대한 사용자의 응시 지점(403)을 중심으로 하는 서로 다른 크기의 제1 윈도우 영역(405) 및 제2 윈도우 영역(407)을 설정할 수 있다. 이때, 제2 윈도우 영역(407)은 제1 윈도우 영역(405)의 크기보다 클 수 있다.
제1 윈도우 영역(405)은 설정된 크기보다 작은 크기를 갖는 객체를 인식하기 위한 영역으로서 시야 중심(Foveated) 영역에 대응할 수 있다. 설정된 크기는 인식 및/또는 검출하고자 하는 객체 유형의 일반적인 크기에 따라 변화될 수 있다. 제1 윈도우 영역(405)으로부터 F-영상(430)이 추출될 수 있다. F-영상(430)의 크기는 예를 들어, 50 X 50 픽셀일 수 있다. 제1 윈도우 영역(405)에서 추출된 F-영상(430)은 입력 영상(410)과 동일한 해상도를 가질 수 있다. 이와 같이 작은 크기를 갖는 객체를 인식하기 위한 F-영상(430)은 입력 영상(410)의 해상도를 유지하므로 전체 입력 영상(410)의 다운 샘플링으로 인한 데이터 손실이 없어 검출 정확도를 향상시킬 수 있다.
제2 윈도우 영역(407)은 설정된 크기보다 큰 크기를 갖는 객체를 인식하기 위한 영역으로서 주변(Peripheral) 영역에 대응할 수 있다. 제2 윈도우 영역은 제 1 윈도우 영역으로 커버가 되지 않는 크기의 객체에 대해 보다 넓은 범위로 영역을 설정함으로써 상대적으로 큰 크기의 객체를 검출하기 위한 영역에 해당할 수 있다. 여기서, '미리 설정된 크기'는 제 1 윈도우 영역에서 커버되는 크기의 객체와 제1 윈도우 영역에서 커버되지 않는 크기의 객체를 구분하기 위한 크기로서, 예를 들어, 50 X 50 픽셀 크기일 수 있다.
제2 윈도우 영역(407)으로부터 P-영상(450)이 추출될 수 있다. 제2 윈도우 영역(407)에서 추출된 P-영상(450)은 입력 영상(410)보다 낮은 해상도를 가질 수 있다. P-영상(450)의 크기는 예를 들어, 350 X 350 픽셀일 수 있다.
증강 장치는 제2 윈도우 영역을 다운 샘플링(down sampling)하여 제2 윈도우 영역의 크기를 조절(resize)할 수 있다. 일 실시예에서는 제2 윈도우 영역(407)을 제1 윈도우 영역(405)보다 큰 크기로 설정하고, 제2 윈도우 영역(407)에 대응하는 영상을 신경망 입력 전에 F-영상(430)과 같은 크기로 다운 샘플링함으로서 P-영상(450)이 F-영상(430)과 객체 검출을 위한 베이스 네트워크(base network)을 공유하도록 할 수 있다. 이때, P-영상(450)은 큰 객체가 포함된 영상의 크기를 작게 리사이징 한 영상에 해당하므로 신경망의 계산 부하를 줄일 수 있다. 다만, 실시예에 따라서, P-영상(450)의 크기가 반드시 F-영상(430)의 크기와 일치해야 하는 것은 아니며, 필요에 따라 P-영상(450)의 크기와 F-영상(430)의 크기가 다양하게 조정될 수도 있다.
일 실시예에서 윈도우 영역들의 크기는 예를 들어, 응용 분야에 따라 입력 영상으로부터 검출하고자 하는 객체의 종류, 시야각(Field of View; FoV), 입력 영상에 대응하는 카메라 거리 정보 등에 기초하여 결정될 수 있다.
예를 들어, 증강 현실 헤드업 디스플레이(Head Up Display; HUD) 또는 증강 현실 글래스(AR Glasses)에서 도로 환경 상의 자동차를 인식한다고 가정하자. 이 경우, 평균적으로 20m 거리에서 50x50 픽셀 크기의 윈도우 영역 내에 자동차 객체가 포함될 수 있다. 이에 따라 제1 윈도우 영역(405)의 크기는 50x50 픽셀로 설정할 수 있다. 또한, 가독 시야각(readable FoV)은 20°이고, 양안의 시야각(Binocular FoV)은 120°로서 1:6의 비율임을 감안하여 P-영상(450)를 350x350 픽셀 크기로 추출한 후 50x50 픽셀로 크기를 조절(resize)하여 사용할 수 있다. 이후 F-영상(430)과 P-영상(450)은 베이스 네트워크(base network)의 입력으로 인가되어 객체 인식 및 객체 검출을 위한 추론(inference)에 이용될 수 있다.
증강 장치는 예를 들어, 제1 윈도우 영역(405)으로부터 제1 객체 후보를 검출하고, 크기가 조절된 제2 윈도우 영역(407)으로부터 제2 객체 후보를 검출한 후, 제1 객체 후보 및 제2 객체 후보 중 적어도 하나에 기초하여, 입력 영상에 포함된 관심 객체를 인식할 수 있다.
도 5는 일 실시예에 따라 태스크를 인식하는 방법을 나타낸 흐름도이다. 도 5를 참조하면, 일 실시예에 따른 증강 장치는 영상 시퀀스에 따른 각 시선에 내재된 시간 정보(temporal information)를 시각적으로 인코딩하여 코드화된 영상(coded image)을 생성할 수 있다(510). 여기서, '시간 정보'는 예를 들어, 시선의 이동 경로, 시선의 이동 속도, 시선이 일부 영역에 머무는 시간, 시선이 일부 영역에 반복적으로 맵핑되는지 여부, 시선이 일부 영역에 반복적으로 맵핑되는 횟수, 시선이 일부 영역에 반복적으로 맵핑되는 간격, 및 입력 영상에서 영상 시퀀스에 의해 커버되는 범위 등을 포함할 수 있다. 증강 장치는 예를 들어, 시간 정보를, 입력 영상에서 영상 시퀀스에 따른 각 시선이 맵핑되는 일부 영역들에 컬러 채널(color channel) 별 로 인코딩함으로써 코드화된 부분 영상들을 생성할 수 있다. 증강 장치는 영상 시퀀스에서 시선이 맵핑되는 일부 영역들에 시간 정보에 대응하는 원(circle)을 생성함으로써 코드화된 부분 영상들을 생성할 수 있다. 증강 장치는 예를 들어, 시간 정보에 따라 각 원의 지름, 색상, 강도 등은 달리 생성할 수 있다. 증강 장치는 코드화된 부분 영상들을 조합하여 코드화된 영상을 생성할 수 있다. 증강 장치가 코드화된 영상을 생성하는 방법은 아래의 도 6을 참조하여 구체적으로 설명한다.
증강 장치는 영상 시퀀스 및 코드화된 영상에 기초하여, 사용자가 수행 중인 태스크를 추정할 수 있다(520). 증강 장치는 영상 시퀀스 및 코드화된 영상에 기초하여, 영상 시퀀스에 대응하는 특징 벡터들을 획득할 수 있다. 증강 장치는 예를 들어, 심층 신경망(DNN)을 이용하여 영상 시퀀스에 따른 각 시선이 맵핑되는 일부 영역들로부터 제1 특징 벡터들을 추출할 수 있다. 증강 장치는 코드화된 영상을 기초로 제2 특징 벡터들을 추출할 수 있다. 증강 장치는 예를 들어, 코드화된 영상에 대해 일반적인 시각적 특징 추출기를 이용하여 제2 특징 벡터를 추출할 수 있다. 또는 증강 장치는 영상 시퀀스에 대한 정답 데이터(ground truth)를 이용하여 학습한 특징 추출기를 이용하여 제2 특징 벡터를 추출할 수 있다. 증강 장치는 제1 특징 벡터들 및 제2 특징 벡터들을 연관(concatenate) 시킴으로써 영상 시퀀스에 대응하는 특징 벡터들을 획득할 수 있다. 증강 장치는 특징 벡터들에 기초하여, 사용자의 태스크를 분류할 수 있다.
도 6은 일 실시예에 따라 코드화된 영상을 생성하는 방법을 설명하기 위한 도면이다. 도 6을 참조하면, 영상 시퀀스(610), 영상 시퀀스(610)로부터 생성된 코드화된 부분 영상들(620, 630, 640), 및 코드화된 부분 영상들(620, 630, 640)을 조합하여 생성한 하나의 코드화된 영상(650)이 도시된다.
증강 장치는 시간 정보를, 영상 시퀀스(610)에 따른 각 시선이 맵핑되는 부분 영역들에 예를 들어, 컬러 채널(color channel) 별로 및/또는 강도(intensity) 별로 인코딩함으로써 코드화된 부분 영상들(620, 630, 640)을 생성할 수 있다.
증강 장치는 영상 시퀀스(610)에서 각 시선이 맵핑되는 부분 영역들에 시간 정보에 대응하는 원을 생성함으로써 코드화된 부분 영상들(620, 630, 640)을 생성할 수 있다. 증강 장치는 시간 정보에 따라 예를 들어, 각 원의 지름, 컬러, 강도 등을 달리 생성할 수 있다.
예를 들어, 타임 스텝 t의 시선을 p, 현재의 타임 스텝을 tc, 현재의 타임 스텝으로부터 Δx 이전 타임 스텝을 tp 라고 하자. 이 경우, tp ~ tc 구간에 대한 시선 정보를 하나의 코드화된 영상으로 생성하는 방법은 다음과 같다.
증강 장치는 예를 들어, 시간 정보 중 하나인 시선의 이동 경로(gaze trajectory)를 코드화된 부분 영상(620)과 같이 1개의 컬러 채널에 인코딩할 수 있다. 시선의 이동 경로는 예를 들어, R(Red) 채널에 인코딩될 수 있다. 증강 장치는 입력 영상에서 각 시선 p가 매핑되는 부분 영역마다 반경(radius) r을 갖는 원 C를 생성할 수 있다. 증강 장치는 각 원 C의 컬러 강도 값을 시간 t에 따라 달리 표현할 수 있다. 예를 들어, 정보의 중요도는 시간의 흐름에 따라 쇠퇴(decay)한다고 가정하자. 이 경우, 현재의 타임 스텝 tc에서의 시선 pc에 의한 원 Cc의 강도가 가장 큰 값으로 설정되고, 이전 타임 스텝 tp 에서의 시선 pp에 의한 원 Cp의 강도가 가장 작은 값으로 설정될 수 있다.
예를 들어, RGB 이미지에서 각 채널 당 8 비트(bit)가 주어진다고 하면, 각 채널은 0 ~ 255의 정수값 범위를 가질 수 있다. 증강 장치는 원 Cc의 강도값을 255으로 설정하고, 원 Cp의 강도값을 0으로 설정할 수 있다. 증강 장치는 현재의 타임 스텝 tc 와 이전 타임 스텝 tp 간의 Δx 구간과 현재 타임 스텝에서의 원 Cc의 강도값을 고려하여 tp ~ tc 구간 사이의 시선 p를 표현하는 원의 강도값을 표현할 수 있다.
증강 장치는 응용 분야에 따라 시간의 흐름에 따른 정보의 쇠퇴를 고려하지 않고, 전 구간의 타임 스텝에서의 시선들에 의한 원들의 강도값들을 모두 동일하게 설정할 수도 있다.
또는, 증강 장치는 예를 들어, 시간 정보 중 시선이 입력 영상의 부분 영역에 머무는 시간(duration) 및 시선의 이동 속도(velocity)를 코드화된 부분 영상(630)과 같이 1개의 컬러 채널에 인코딩할 수 있다. 시선이 입력 영상의 부분 영역에 머무는 시간은 예를 들어, B(Blue) 채널에 인코딩될 수 있다. 이때, 증강 장치가 각 시선 p의 위치마다 같은 강도값을 갖는 원을 생성하면, 시선이 부분 영역에 반복적으로 맵핑된다. 또한, 시선이 입력 영상의 부분 영역에 머무는 시간이 길어지면 증강 장치는 해당 부분 영역에 원을 중첩하여 생성하므로 원의 강도 값이 축적되어 커질 수 있다. 증강 장치는 예를 들어, 시선의 이동 속도에 따라 이동 속도가 빠르면 원의 반경을 작게 설정하고, 시선의 이동 속도가 느리면 원의 반경을 크게 설정함으로써 사용자의 집중의 경중을 코드화된 부분 영상(630)에 반영할 수 있다.
또는, 증강 장치는 예를 들어, 시간 정보 중 하나인 영상 시퀀스에 의해 커버되는 영상의 범위(coverage)를 코드화된 부분 영상(640)과 같이 1개의 컬러 채널에 인코딩할 수 있다. 영상 시퀀스에 의해 커버되는 영상의 범위는 예를 들어, G(Green) 채널에 인코딩될 수 있다. 증강 장치는 예를 들어, Δx 구간 내에 존재하는 시선 p들의 평균 거리 또는 최대 거리를 이용하여 영상 시퀀스에 의해 커버되는 영상의 범위를 컬러 채널에 인코딩할 수 있다. 증강 장치는 예를 들어, 타임 스텝 별 시선 p들의 평균 거리 또는 최대 거리가 일정 기준보다 작을수록 강도값과 반경이 큰 원을 생성할 수 있다. 증강 장치는 타임 스텝 별 시선 p들의 평균 거리 또는 최대 거리가 일정 기준보다 클수록 강도값과 반경이 작은 원을 생성할 수 있다.
실시예에 따라서, 증강 장치는 Δx 구간에 대응하여 생성된 원들에 대해, 원들의 중첩이 발생하는 부분을 발췌하여 1개의 컬러 채널에 인코딩할 수도 있다. 증강 장치는 시간의 흐름에 따른 정보의 쇠퇴를 고려하여 현재의 타임 스텝 tc에 가까운 시점에 발생한 중첩 부분일수록 강도값을 높게 설정하고, 현재의 타임 스텝에서 먼 시점에 발생한 중첩 부분일수록 강도값을 낮게 설정할 수 있다.
증강 장치는 코드화된 부분 영상들(620,630,640)을 조합하여 하나의 코드화된 영상(650)을 생성할 수 있다. 코드화된 영상(650)은 예를 들어, RGB 영상일 수 있다.
증강 장치는 예를 들어, VGG(Volgograd Oblast Van de Graaff generator), ResNet(Residential network), MobileNet 등과 같은 특징 추출기를 이용하여 컬러 인코딩된 코드화된 영상(650)으로부터 제2 특징을 추출할 수 있다.
최종 분류 목적이 다르므로, 증강 장치는 특징 추출기에서 상위 레이어는 제거하고, 하위 레벨의 특징들을 추출하도록 하위 레이어들만을 이용하도록 특징 추출기의 네트워크의 구성을 조절할 수 있다. 예를 들어, 학습 데이터베이스가 존재하는 경우, 특징 추출기의 학습 또는 미세 조정(fine-tuning)이 가능하겠지만, 해당 과정이 생략되더라도 증강 장치는 각 영상 시퀀스 별로 분리하여 구분 가능한 특징 세트를 획득할 수 있다.
일 실시예에서는 설명의 편의를 위하여, 코드화된 부분 영상들(620,630,640)을 하나의 코드화된 영상(650)으로 생성하는 방법을 기술하였지만, 반드시 이에 한정되는 것은 아니다. 코드화된 영상(650)은 여러 장의 이미지로 추상화될 수도 있고, 또는 데이터의 한 차원에 대해 여러 채널을 사용하는 등 다양한 방법으로 생성될 수 있다. 또한, 전술한 예시 이외의 영상 시퀀스의 다른 특성들을 이미지화하는 것 또한 가능하다.
도 7은 일 실시예에 따라 태스크를 추정하는 방법을 설명하기 위한 도면이다. 도 7을 참조하면, 일 실시예에 따른 증강 장치가 영상 시퀀스로부터 사용자의 태스크를 추정하는 과정이 도시된다.
카메라에 의한 입력 영상과 입력 영상에 대응하는 사용자의 영상 시퀀스가 입력되면(710), 증강 장치는 입력 영상에서 사용자의 시선이 매핑되는 응시 시점에 의해 부분 영상들(725)을 추출하여 영상 시퀀스를 생성할 수 있다(720). 영상 시퀀스(720)에 포함된 부분 영상들(725)은 응시 시점에 의해 추출될 수 있으므로 시선 정보(fixation)과 연관된 영상의 공간 정보(spatial information)를 포함할 수 있다. 따라서, 영상 시퀀스(720)에 포함된 부분 영상들(725)로부터 사용자의 태스크를 파악하는 것이 가능하다. 공간 정보는 예를 들어, 스캔 경로(scan path), 시선 고정에 의해 커버되는 영상의 부분, 시선이 반복적으로 고정되는 부분 영역 등을 포함할 수 있다. 실시예에 따라서, 증강 장치는 부분 영상들의 추출없이 입력 영상 전체를 이용하여 영상 시퀀스를 생성할 수도 있다.
증강 장치는 영상 시퀀스에 따른 각 시선에 내재된 시간 정보를 시각적으로 인코딩하여 코드화된 영상을 생성할 수 있다(730). 일 실시예에서는 영상 시퀀스에 따른 각 시선에 내재된 시간 정보를 추가적으로 인코딩(encoding)하여 코드화된 영상(730)을 생성함으로써 태스크 추정의 정확도를 향상시킬 수 있다. 전술한 단계(720) 및 단계(730)은 영상의 전처리(pre-processing) 과정에 해당할 수 있다.
증강 장치는 영상 시퀀스 및 코드화된 영상을 특징 인코더(feature encoder) 또는 특징 추출기(feature extractor)의 입력으로 인가하여 특징을 획득할 수 있다(740). 이때, 특징은 벡터 형태를 가질 수 있다. 증강 장치는 영상의 종류에 관계없이 전술한 특징 추출기를 사용하여 전처리된 영상들에 대응하는 특징 표현을 획득할 수 있다.
증강 장치는 특징을 분류기(classifier)에 인가하여 사용자의 태스크를 분류할 수 있다(750). 이때, 영상 시퀀스에 포함된 순차적 데이터들의 처리를 위한 분류기로는 예를 들어, RNN, LSTM, DNC 등과 같은 심층 신경망, 또는 서포트 벡터 머신 등이 이용될 수 있다.
도 8은 일 실시예에 따라 필요 정보를 결정하는 방법을 설명하기 위한 도면이다. 도 8을 참조하면, 일 실시예에 따른 관심 객체 및 관심 객체의 상황에 기반한 기술자(Descriptor) 별로 사용자의 태스크가 맵핑된 도면(810) 및 관심 객체와 사용자의 태스크 간의 관계에 기초한 테이블(830)이 도시된다.
일 실시예에 따른 증강 장치는 사용자의 태스크의 종류와 관심 객체 및/또는 관심 객체의 상황을 조합하여 사용자에게 요구되는 필요 정보를 결정할 수 있다.
관심 객체를 도면(810)에 도시된 것과 같이 운전자, 차량, 환경, 및 경로라고 하자. 여기서, 환경은 예를 들어, 주행 환경에 해당할 수 있다. 관심 객체가 운전자인 경우, 관심 객체의 상황으로는 예를 들어, 졸음 인지, 인지 상황(명순응, 암순응) 등이 포함될 수 있다. 관심 객체가 차량인 경우, 관심 객체의 상황으로는 예를 들어, 속도, 조작 방법, 네비게이션의 상태, 및 에어컨의 상태 등이 포함될 수 있다. 관심 객체가 환경인 경우, 관심 객체의 상황으로는 예를 들어, 랜드마크 인식, 트래픽(Traffic) 확인, 신호 확인, 도로 상태 등이 포함될 수 있다. 또한, 관심 객체가 경로인 경우, 관심 객체의 상황으로는 예를 들어, 최적 경로 확인 상황, 경로 정보 획득 여부 등이 포함될 수 있다.
증강 장치는 사용자의 관심 객체, 및 관심 객체의 상황에 기초하여 사용자가 수행중인 서브 태스크(sub task)를 한정하여 필요 정보를 선별할 수 있다. '서브 태스크'는 사용자의 태스크의 하위 개념으로서, 필요 정보를 얻기 위해 사용자가 수행하는 태스크에 해당할 수 있다. 예를 들어, 서브 태스크를 '원거리 표지판 식별'이라고 하면, 이때, 필요 정보는 원거리 표지판 정보가 될 수 있다.
증강 장치는 전술한 분류기 및/또는 신경망에 의해 영상 시퀀스에 포함된 부분 영상 내 관심 객체의 종류, 관심 객체의 상태 및 영상 상태를 포함하는 관심 객체의 상황을 인식할 수 있다. 아울러, 증강 장치는 영상 시퀀스에 포함된 부분 영상으로부터 현재 사용자가 처한 환경, 및 상호 작용 관계 또한, 인식할 수 있다. 현재 사용자가 처한 환경으로는 예를 들어, 졸음 인지, 위험 인지 등을 포함할 수 있다. 또한, 상호 작용 관계로는 예를 들어, 경로 안내 매칭, 및 경로 대비 현위치 등을 포함할 수 있다.
예를 들어, 사용자의 태스크가 '객체 식별'이고, 사용자의 관심 객체가 '원거리 표지판'이며, 관심 객체의 상황이 '도로 주행 상황'이라고 하자.
증강 장치는 사용자의 관심 객체('원거리 표지판'), 및 관심 객체의 상황('도로 주행 상황')에 대응하는 기술자('환경')를 결정할 수 있다. 기술자는 예를 들어, 타겟팅(targeting)하는 응용 분야에 대한 정성 분석, 및/또는 사용자 행동 모델 등에 기반하여 정의될 수 있다. 예를 들어, 주행 환경에서의 기술자 정의를 위해 COCOM(COntextual COntrol Model) 및/또는 ECOM(Extended COntrol Model) 모델에서 가정하는 운전자 - 차량 - 주변 환경의 공동 인지 시스템(Joint Cognitive System)을 토대로 기본 기술자 구성을 정의할 수 있다. 이 후, 현대 운전 상황에 맞게 추가 요소 및 상황 맵핑을 발굴하는 방식으로 기술자가 정의될 수 있다. 증강 장치는 관심 객체와 사용자의 태스크 간의 관계에 기초한 테이블(830)에서, 기술자('환경')와 사용자의 태스크('객체 식별')를 조합한 결과를 검색함으로써 필요 정보를 결정할 수 있다. 이 경우, 테이블(830)에서 기술자('환경') 및 사용자의 태스크('객체 식별')의 조합 결과는 원거리 표지판 식별 및/또는 랜드마크 인식에 해당할 수 있다. 증강 장치는 테이블(830)에서 기술자와 사용자의 태스크의 조합 결과를 검색함으로써 필요 정보가 "원거리 표지판 정보의 확대" 및/또는 "랜드 마크의 확대"임을 결정할 수 있다.
또는, 예를 들어, 사용자의 태스크가 '측정'이고, 사용자의 관심 객체가 '근거리 차로'이며, 관심 객체의 상황이 '도로 주행 상황'이라고 하자.
증강 장치는 사용자의 관심 객체('근거리 차로'), 및 관심 객체의 상황('도로 주행 상황')에 대응하는 기술자('환경-차량')를 결정할 수 있다. 증강 장치는 테이블(830)에서, 기술자('환경-차량')와 사용자의 태스크('측정')를 조합한 결과를 검색함으로써 필요 정보를 결정할 수 있다. 이 경우, 테이블(830)에서 기술자('환경-차량') 및 사용자의 태스크('측정')의 조합 결과는 "협로 통과 여부 판단"에 해당할 수 있다. 증강 장치는 테이블(830)에서 기술자와 사용자의 태스크의 조합 결과를 검색함으로써 필요 정보가 협로 통과 여부 판단을 위한 정보임을 결정할 수 있다.
도 9는 다른 실시예에 따른 영상을 증강하는 방법을 나타낸 흐름도이다. 도 9의 단계(910) 내지 단계(950), 및 단계(970)의 과정은 도 2의 단계(210) 내지 단계(260)의 과정과 동일하므로 이하에서는 도 2와 상이한 동작에 대하여 설명한다.
일 실시예에 따른 증강 장치는 단계(950)을 통해 필요 정보가 획득되면, 필요 정보에 따른 상황 별 추가 정보를 생성할 수 있다(960).
증강 장치는 상황 별 추가 정보를 이용하여 입력 영상을 시각적으로 증강할 수 있다(970). 증강 장치는 필요 정보에 따른 상황 별 추가 정보를 선택적으로 제공함으로써 입력 영상을 시각적으로 증강할 수 있다. 예를 들어, 필요 정보가 현재 운전자가 주행 중인 도로의 지도 정보를 연계하여 획득되는 차선의 정보라고 하자. 이 경우, 추가 정보는 입력 영상에 나타난 차선에 강조된 차선을 정확히 오버레이 하기 위해 요구되는 도로의 표면 모델일 수 있다. 증강 장치는 도로의 표면 모델의 3차원 표면에 맞춰 강조된 차선을 입력 영상에 오버레이 함으로써 입력 영상을 시각적으로 증강할 수 있다.
도 10은 일 실시예에 따른 입력 영상 및 입력 영상을 시각적으로 증강한 출력 영상을 도시한 도면이다. 도 10을 참조하면, 일 실시예에 따른 입력 영상들(1010, 1030, 1050) 및 입력 영상들(1010, 1030, 1050)을 시각적으로 증강한 출력 영상들(1020, 1040, 1060)이 도시된다.
일 실시예에 따른 증강 장치는 전술한 과정을 통해 관심 객체 및 관심 객체의 상황, 및 사용자의 태스크를 분류 후 얻어진 정보를 종합하여 사용자의 필요 정보를 파악할 수 있다. 증강 장치는 입력 영상 또는 증강 현실(AR) 응용 영상에 필요 정보 및/또는 필요 정보에 따른 상황 별 추가 정보를 정합하여 입력 영상 또는 증강 현실(AR) 응용 영상을 시각적으로 증강할 수 있다.
예를 들어, 입력 영상(1010)과 같은 도로 주행 환경에서, 사용자(예를 들어, 운전자)의 관심 객체가 특정 도로 표지판이라고 하자. 증강 장치는 사용자의 시선에 기초하여 관심 객체가 특정 도로 표지판 임을 인식하고, 운전자가 해당 도로 표지판을 잘 식별하려는 식별 태스크를 수행 중임을 인식할 수 있다. 증강 장치는 현재 운전자가 주행 중인 도로의 지도 정보를 연계하여 해당 도로 표지판의 정보를 필요 정보로서 획득할 수 있다. 증강 장치는 해당 도로 표지판의 정보를 확대하여 시각적으로 증강한 출력 영상(1020)을 출력할 수 있다. 증강 장치는 출력 영상(1020)을 예를 들어, 디스플레이, 헤드 업 디스플레이(HUD) 또는 차량의 윈드 실드(windshield)에 출력할 수 있다. 또는 입력 영상(1010)과 같은 도로 주행 환경에서 운전자가 주목하는 관심 객체가 도로 표지판이고, 해당 도로 표지판이 가려진 상태임을 증강 장치가 인식했다고 하자. 또한, 증강 장치가 운전자가 해당 도로 표지판을 잘 식별하려는 식별 태스크를 수행 중임을 인식했다고 하자. 이 경우, 증강 장치는 관심 객체인 해당 도로 표지판과 관련된 지도 정보를 연계하여 가려진 도로 표지판의 영상 및/또는 정보를 필요 정보에 따른 상황 별 추가 정보로 획득할 수 있다. 증강 장치는 가려진 도로 표지판의 영상 및/또는 정보를 도로 표지판에 오버레이하여 출력할 수 있다.
또는, 예를 들어, 입력 영상(1030)과 같은 우천 시의 도로 주행 환경에서, 사용자(예를 들어, 운전자)의 관심 객체가 도로 상의 차선이라고 하자. 증강 장치는 사용자의 시선에 기초하여 관심 객체가 차선임을 인식하고, 운전자가 해당 도로의 차선을 잘 식별하려는 식별 태스크를 수행 중임을 인식할 수 있다.
증강 장치는 입력 영상(1030) 내에 우천에 의한 왜곡이 존재함을 인식하여 왜곡된 차선 및/또는 객체의 실루엣을 강조한 영상을 필요 정보로 결정할 수 있다. 증강 장치는 필요 정보, 다시 말해 왜곡된 차선 및/또는 객체의 실루엣을 강조한 영상을 입력 영상(1030)에 혼합 렌더링함으로 입력 영상(1030)을 복원한 출력 영상(1040)을 출력할 수 있다.
또는, 예를 들어, 입력 영상(1050)과 같이 터널 출입 시의 조명 변화에 의해 명순응이 발생하는 도로 주행 환경에서, 사용자(예를 들어, 운전자)의 관심 객체가 도로 상의 차선이라고 하자. 증강 장치는 사용자의 시선에 기초하여 관심 객체가 차선임을 인식하고, 운전자가 해당 도로의 차선을 잘 식별하려는 식별 태스크를 수행 중임을 인식할 수 있다.
증강 장치는 입력 영상(1050) 내에 조명 변화에 의한 반사가 존재함을 인식하여 왜곡된 차선 및/또는 객체의 실루엣을 강조한 영상을 필요 정보로 결정할 수 있다. 증강 장치는 필요 정보, 다시 말해 왜곡된 차선 및/또는 객체의 실루엣에 대한 사전 밝기 강화를 통해 강제 명순응을 유도해 입력 영상(1050)을 보정할 수 있다. 이때, 증강 장치는 필요에 따라 추가적으로 카메라 감도를 조절할 수도 있다. 실시예에 따라서, 증강 장치는 입력 영상(1050)에 대한 강제 명순응을 유도해 보정한 결과를 확대하여 출력 영상(1060)과 같이 시각적으로 증강할 수도 있다.
도 11은 일 실시예에 따른 영상을 증강하는 장치의 블록도이다. 도 11을 참조하면, 일 실시예에 따른 증강 장치(1100)는 프로세서(1110), 통신 인터페이스(1130), 디스플레이(1150), 및 메모리(1170)를 포함한다. 프로세서(1110), 통신 인터페이스(1130), 디스플레이(1150), 및 메모리(1170)는 통신 버스(1105)를 통해 서로 통신할 수 있다.
프로세서(1110)는 입력 영상에 대응하는 사용자의 시선에 기초하여 입력 영상의 일부 영역들로부터 사용자의 관심 객체, 관심 객체의 상황, 및 사용자의 태스크 중 적어도 하나를 인식한다. 프로세서(1110)는 사용자의 관심 객체, 관심 객체의 상황, 및 사용자의 태스크 중 적어도 둘을 기초로, 사용자에게 요구되는 필요 정보를 결정한다. 프로세서(1110)는 필요 정보를 기초로, 입력 영상을 시각적으로 증강한다.
통신 인터페이스(1130)는 입력 영상 및 입력 영상에 대응하는 사용자의 시선을 포함하는 시선 정보를 획득한다.
디스플레이(1150)는 시각적으로 증강된 영상을 표시한다.
메모리(1170)는 통신 인터페이스(1130)를 통해 획득한 입력 영상 및 시선 정보를 저장할 수 있다. 프로세서(1110)가 시각적으로 증강한 영상을 저장할 수 있다.
또한, 프로세서(1110)는 도 1 내지 도 10을 통해 전술한 적어도 하나의 방법 또는 적어도 하나의 방법에 대응되는 알고리즘을 수행할 수 있다. 프로세서(1110)는 목적하는 동작들(desired operations)을 실행시키기 위한 물리적인 구조를 갖는 회로를 가지는 하드웨어로 구현된 데이터 처리 장치일 수 있다. 예를 들어, 목적하는 동작들은 프로그램에 포함된 코드(code) 또는 인스트럭션들(instructions)을 포함할 수 있다. 예를 들어, 하드웨어로 구현된 데이터 처리 장치는 마이크로프로세서(microprocessor), 중앙 처리 장치(central processing unit), 프로세서 코어(processor core), 멀티-코어 프로세서(multi-core processor), 멀티프로세서(multiprocessor), ASIC(Application-Specific Integrated Circuit), FPGA(Field Programmable Gate Array)를 포함할 수 있다.
프로세서(1110)는 프로그램을 실행하고, 증강 장치(1100)를 제어할 수 있다. 프로세서(1110)에 의하여 실행되는 프로그램 코드는 메모리(1170)에 저장될 수 있다.
메모리(1170)는 상술한 프로세서(1110)에서의 처리 과정에서 생성되는 다양한 정보들을 저장할 수 있다. 이 밖에도, 메모리(1170)는 각종 데이터와 프로그램 등을 저장할 수 있다. 메모리(1170)는 휘발성 메모리 또는 비휘발성 메모리를 포함할 수 있다. 메모리(1170)는 하드 디스크 등과 같은 대용량 저장 매체를 구비하여 각종 데이터를 저장할 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다. 그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 청구범위의 범위에 속한다.

Claims (19)

  1. 입력 영상에 대응하는 사용자의 시선(gaze)에 기초하여 상기 입력 영상의 일부 영역들로부터 상기 사용자의 관심 객체, 상기 관심 객체의 상황, 및 상기 사용자의 태스크(task) 중 적어도 하나를 인식하는 단계;
    상기 사용자의 관심 객체, 상기 관심 객체의 상황, 및 상기 사용자의 태스크 중 적어도 둘을 기초로, 상기 사용자에게 요구되는 필요 정보를 결정하는 단계;
    상기 필요 정보를 기초로, 상기 입력 영상을 시각적으로 증강하는 단계; 및
    상기 시각적으로 증강된 영상을 출력하는 단계
    를 포함하는, 영상을 증강하는 방법.
  2. 제1항에 있어서,
    상기 적어도 하나를 인식하는 단계는
    상기 사용자의 시선에 기초하여 상기 입력 영상의 일부 영역들을 포함하는 영상 시퀀스를 생성하는 단계; 및
    상기 영상 시퀀스에 기초하여 상기 사용자의 관심 객체, 상기 관심 객체의 상황, 및 상기 사용자의 태스크 중 적어도 하나를 인식하는 단계
    를 포함하는, 영상을 증강하는 방법.
  3. 제2항에 있어서,
    상기 영상 시퀀스를 생성하는 단계는
    상기 입력 영상에서 상기 사용자의 시선에 맵핑되는 상기 부분 영상들을 추출하는 단계; 및
    상기 부분 영상들을 순차적으로 결합하여 상기 영상 시퀀스를 생성하는 단계
    를 포함하는, 영상을 증강하는 방법.
  4. 제3항에 있어서,
    상기 부분 영상들을 추출하는 단계는
    각 타임 스텝마다 입력되는 상기 입력 영상에서 상기 사용자의 시선이 맺히는 시선 정보를 기초로, 상기 부분 영상들을 추출하는 단계
    를 포함하는, 영상을 증강하는 방법.
  5. 제2항에 있어서,
    상기 적어도 하나를 인식하는 단계는
    상기 영상 시퀀스를 객체 인식을 위한 제1 신경망에 인가함으로써 상기 영상 시퀀스에 포함된 상기 관심 객체, 및 상기 관심 객체의 상황 중 적어도 하나를 인식하는 단계; 및
    상기 영상 시퀀스를 태스크 인식을 위한 제2 신경망에 인가함으로써 상기 사용자가 수행 중인 태스크를 인식하는 단계
    를 포함하는, 영상을 증강하는 방법.
  6. 제5항에 있어서,
    상기 태스크를 인식하는 단계는
    상기 영상 시퀀스에 따른 각 시선에 내재된 시간 정보(temporal information)를 시각적으로 인코딩하여 코드화된 영상(coded image)을 생성하는 단계; 및
    상기 영상 시퀀스 및 상기 코드화된 영상에 기초하여, 상기 사용자가 수행 중인 태스크를 추정하는 단계
    를 포함하는, 영상을 증강하는 방법.
  7. 제6항에 있어서,
    상기 시간 정보는
    상기 시선의 이동 경로, 상기 시선의 이동 속도, 상기 시선이 상기 일부 영역에 머무는 시간, 상기 시선이 상기 일부 영역에 반복적으로 맵핑되는지 여부, 상기 시선이 상기 일부 영역에 반복적으로 맵핑되는 횟수, 상기 시선이 상기 일부 영역에 반복적으로 맵핑되는 간격, 상기 입력 영상에서 영상 시퀀스에 의해 커버되는 범위 중 적어도 하나를 포함하는, 영상을 증강하는 방법.
  8. 제6항에 있어서,
    상기 코드화된 영상을 생성하는 단계는
    상기 시간 정보를, 상기 입력 영상에서 상기 영상 시퀀스에 따른 각 시선이 맵핑되는 일부 영역들에 컬러 채널(color channel) 별로 인코딩함으로써 상기 코드화된 부분 영상들을 생성하는 단계; 및
    상기 코드화된 부분 영상들을 조합하여 상기 코드화된 영상을 생성하는 단계
    를 포함하는, 영상을 증강하는 방법.
  9. 제6항에 있어서,
    상기 태스크를 추정하는 단계는
    상기 영상 시퀀스 및 상기 코드화된 영상에 기초하여, 상기 영상 시퀀스에 대응하는 특징 벡터들을 획득하는 단계; 및
    상기 특징 벡터들에 기초하여, 상기 태스크를 분류하는 단계
    를 포함하는, 영상을 증강하는 방법.
  10. 제9항에 있어서,
    상기 특징 벡터들을 획득하는 단계는
    상기 영상 시퀀스에 따른 각 시선이 맵핑되는 일부 영역들로부터 제1 특징 벡터들을 추출하는 단계;
    상기 코드화된 영상을 기초로 제2 특징 벡터들을 추출하는 단계; 및
    상기 제1 특징 벡터들 및 상기 제2 특징 벡터들을 연관(concatenate)시킴으로써 상기 영상 시퀀스에 대응하는 특징 벡터들을 획득하는 단계
    를 포함하는, 영상을 증강하는 방법.
  11. 제1항에 있어서,
    상기 관심 객체의 상황은
    상기 영상 시퀀스에서 상기 관심 객체에 가려짐(occlusion), 블러(blur), 우천에 의한 왜곡, 저조도, 및 빛 반사 중 적어도 하나가 발생한 상황을 포함하는, 영상을 증강하는 방법.
  12. 제1항에 있어서,
    상기 사용자의 태스크는
    검색(search), 객체 식별(identification), 매칭(matching), 카운팅(counting), 측정(measurement) 및 프리뷰(freeview) 중 적어도 하나를 포함하는, 영상을 증강하는 방법.
  13. 제1항에 있어서,
    상기 적어도 하나를 인식하는 단계는
    상기 입력 영상에서 서로 다른 크기의 일부 영역에 대응하는 제1 윈도우 영역 및 제2 윈도우 영역을 설정하는 단계-상기 제2 윈도우 영역은 상기 제1 윈도우 영역보다 큼-;
    상기 제2 윈도우 영역을 다운 샘플링(down sampling)하여 상기 제2 윈도우 영역의 크기를 조절(resize)하는 단계;
    상기 제1 윈도우 영역으로부터 제1 객체 후보를 검출하고, 상기 크기가 조절된 제2 윈도우 영역으로부터 제2 객체 후보를 검출하는 단계; 및
    상기 제1 객체 후보 및 상기 제2 객체 후보 중 적어도 하나에 기초하여, 상기 입력 영상에 포함된 관심 객체를 인식하는 단계
    를 포함하는, 영상을 증강하는 방법.
  14. 제1항에 있어서,
    상기 사용자에게 요구되는 필요 정보를 결정하는 단계는
    상기 사용자의 관심 객체, 및 상기 관심 객체의 상황에 대응하는 기술자를 결정하는 단계; 및
    상기 관심 객체와 상기 사용자의 태스크 간의 관계에 기초한 테이블에서, 상기 기술자와 상기 사용자의 태스크를 조합한 결과를 검색함으로써 상기 필요 정보를 결정하는 단계
    를 포함하는, 영상을 증강하는 방법.
  15. 제1항에 있어서,
    상기 입력 영상을 시각적으로 증강하는 단계는
    상기 필요 정보를 상기 입력 영상에 정합 함으로써 상기 입력 영상을 시각적으로 증강하는 단계; 및
    상기 필요 정보를 기초로, 상기 입력 영상을 보정함으로써 상기 입력 영상을 시각적으로 증강하는 단계
    중 적어도 하나를 포함하는, 영상을 증강하는 방법.
  16. 제1항에 있어서,
    상기 입력 영상을 시각적으로 증강하는 단계는
    상기 필요 정보에 따른 상황 별 추가 정보를 선택적으로 제공함으로써 상기 입력 영상을 시각적으로 증강하는 단계
    를 포함하는, 영상을 증강하는 방법.
  17. 제1항에 있어서,
    상기 입력 영상 및 상기 입력 영상에 대응하는 사용자의 시선을 포함하는 시선 정보를 획득하는 단계
    를 더 포함하는, 영상을 증강하는 방법.
  18. 하드웨어와 결합되어 제1항 내지 제17항 중 어느 하나의 항의 방법을 실행시키기 위하여 컴퓨터 판독 가능한 기록 매체에 저장된 컴퓨터 프로그램.
  19. 입력 영상 및 상기 입력 영상에 대응하는 사용자의 시선을 포함하는 시선 정보를 획득하는 통신 인터페이스;
    상기 입력 영상에 대응하는 사용자의 시선에 기초하여 상기 입력 영상의 일부 영역들로부터 상기 사용자의 관심 객체, 상기 관심 객체의 상황, 및 상기 사용자의 태스크 중 적어도 하나를 인식하고, 상기 사용자의 관심 객체, 상기 관심 객체의 상황, 및 상기 사용자의 태스크 중 적어도 둘을 기초로, 상기 사용자에게 요구되는 필요 정보를 결정하며, 상기 필요 정보를 기초로, 상기 입력 영상을 시각적으로 증강하는 프로세서; 및
    상기 시각적으로 증강된 영상을 표시하는 디스플레이
    를 포함하는, 영상을 증강하는 장치.
KR1020190104564A 2019-08-26 2019-08-26 영상을 증강하는 방법 및 장치 KR102641117B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020190104564A KR102641117B1 (ko) 2019-08-26 2019-08-26 영상을 증강하는 방법 및 장치
US16/790,850 US11340700B2 (en) 2019-08-26 2020-02-14 Method and apparatus with image augmentation
US17/749,290 US11762454B2 (en) 2019-08-26 2022-05-20 Method and apparatus with image augmentation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190104564A KR102641117B1 (ko) 2019-08-26 2019-08-26 영상을 증강하는 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20210024854A true KR20210024854A (ko) 2021-03-08
KR102641117B1 KR102641117B1 (ko) 2024-02-27

Family

ID=74679767

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190104564A KR102641117B1 (ko) 2019-08-26 2019-08-26 영상을 증강하는 방법 및 장치

Country Status (2)

Country Link
US (2) US11340700B2 (ko)
KR (1) KR102641117B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023132459A1 (ko) * 2022-01-10 2023-07-13 삼성전자 주식회사 Ar 객체를 표시하는 전자 장치 및 그 방법

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021039211A1 (ja) * 2019-08-30 2021-03-04 キヤノン株式会社 機械学習装置、機械学習方法及びプログラム
CN114037930B (zh) * 2021-10-18 2022-07-12 苏州大学 基于时空增强网络的视频动作识别方法
WO2023089637A1 (en) * 2021-11-19 2023-05-25 Flying Flamingos India Pvt. Ltd. Hyper-personalized augmented objects
CN115660789B (zh) * 2022-11-23 2023-08-04 广州锐竞信息科技有限责任公司 基于智慧电商平台的产品图像管理系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150137307A (ko) * 2014-05-29 2015-12-09 경북대학교 산학협력단 사용자 맞춤형 정보를 제공하는 방법 및 시스템, 이를 수행하기 위한 기록매체
KR20180066276A (ko) * 2013-10-11 2018-06-18 인터디지탈 패튼 홀딩스, 인크 시선 구동 증강 현실

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR980004114A (ko) 1997-12-11 1998-03-30 양승택 증강 현실 기반의 골프 지원 시스템 및 그 운용 방법
JP5915981B2 (ja) 2010-08-09 2016-05-11 国立大学法人静岡大学 注視点検出方法及び注視点検出装置
US10430018B2 (en) 2013-06-07 2019-10-01 Sony Interactive Entertainment Inc. Systems and methods for providing user tagging of content within a virtual scene
US10019057B2 (en) 2013-06-07 2018-07-10 Sony Interactive Entertainment Inc. Switching mode of operation in a head mounted display
KR20170121930A (ko) 2016-04-26 2017-11-03 현대자동차주식회사 웨어러블 기기 및 이를 포함하는 차량 진단 장치
US10360494B2 (en) * 2016-11-30 2019-07-23 Altumview Systems Inc. Convolutional neural network (CNN) system based on resolution-limited small-scale CNN modules
KR20180074180A (ko) * 2016-12-23 2018-07-03 삼성전자주식회사 가상현실 영상에 대한 정보를 제공하는 장치 및 방법
KR102463806B1 (ko) * 2017-11-09 2022-11-07 삼성전자주식회사 이동이 가능한 전자 장치 및 그 동작 방법
US20200409451A1 (en) * 2019-06-26 2020-12-31 International Business Machines Corporation Personalized content for augemented reality based on past user experience
KR20210009066A (ko) 2019-07-16 2021-01-26 삼성전자주식회사 사용자의 의도를 추정하는 방법 및 장치
KR20210009458A (ko) 2019-07-16 2021-01-27 삼성전자주식회사 객체 검출 방법 및 객체 검출 장치

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180066276A (ko) * 2013-10-11 2018-06-18 인터디지탈 패튼 홀딩스, 인크 시선 구동 증강 현실
KR20150137307A (ko) * 2014-05-29 2015-12-09 경북대학교 산학협력단 사용자 맞춤형 정보를 제공하는 방법 및 시스템, 이를 수행하기 위한 기록매체

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023132459A1 (ko) * 2022-01-10 2023-07-13 삼성전자 주식회사 Ar 객체를 표시하는 전자 장치 및 그 방법

Also Published As

Publication number Publication date
US11340700B2 (en) 2022-05-24
US20210064127A1 (en) 2021-03-04
US20220276706A1 (en) 2022-09-01
KR102641117B1 (ko) 2024-02-27
US11762454B2 (en) 2023-09-19

Similar Documents

Publication Publication Date Title
KR102641117B1 (ko) 영상을 증강하는 방법 및 장치
US11042762B2 (en) Sensor calibration method and device, computer device, medium, and vehicle
KR102447352B1 (ko) 교통 신호등 검출 및 지능형 주행을 위한 방법 및 디바이스, 차량, 및 전자 디바이스
KR102379287B1 (ko) 차도선을 검출하기 위한 방법, 장치 및 매체
KR102565279B1 (ko) 객체 검출 방법, 객체 검출을 위한 학습 방법 및 그 장치들
CN109345510A (zh) 物体检测方法、装置、设备、存储介质及车辆
CN109492507A (zh) 红绿灯状态的识别方法及装置、计算机设备及可读介质
CN107710280B (zh) 对象可视化方法
KR20170070715A (ko) 딥러닝 기반 영상 처리 장치 및 방법, 학습 장치
KR20170124299A (ko) 가상 주차선 생성에 의한 주차 지원 장치 및 그 방법
CN111178286B (zh) 姿态轨迹预测方法、装置及电子设备
WO2023231991A1 (zh) 交通信号灯感知方法、装置、设备及存储介质
KR20200058272A (ko) 도로 주행 영상의 전처리를 통한 도로 주행 상황 제공 방법 및 시스템
Rasib et al. Pixel level segmentation based drivable road region detection and steering angle estimation method for autonomous driving on unstructured roads
CN114565908A (zh) 车道线的检测方法、装置、电子设备及存储介质
US20190303698A1 (en) Dynamic image region selection for visual inference
CN114359865A (zh) 一种障碍物的检测方法及相关装置
US20210357763A1 (en) Method and device for performing behavior prediction by using explainable self-focused attention
CN113971795A (zh) 基于自驾车视觉感测的违规巡检系统及其方法
CN111339919B (zh) 一种基于多任务协作的镜子检测方法
KR101391667B1 (ko) 크기 변화에 강건한 범주 물체 인식을 위한 모델 학습 및 인식 방법
CN109977729A (zh) 一种文本检测方法及装置
CN115100469A (zh) 一种基于分割算法的目标属性识别方法、训练方法和装置
KR101965875B1 (ko) 영상 분석을 기반으로 한 길 안내 방법 및 장치
Kishore et al. DSLR-Net a depth based sign language recognition using two stream convents

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant