KR102543306B1 - Apparatus for detecting objects of interest based on 3d gaze point information and providing metadata reflecting user's perspective and perception - Google Patents

Apparatus for detecting objects of interest based on 3d gaze point information and providing metadata reflecting user's perspective and perception Download PDF

Info

Publication number
KR102543306B1
KR102543306B1 KR1020200145813A KR20200145813A KR102543306B1 KR 102543306 B1 KR102543306 B1 KR 102543306B1 KR 1020200145813 A KR1020200145813 A KR 1020200145813A KR 20200145813 A KR20200145813 A KR 20200145813A KR 102543306 B1 KR102543306 B1 KR 102543306B1
Authority
KR
South Korea
Prior art keywords
interest
user
information
gaze point
metadata
Prior art date
Application number
KR1020200145813A
Other languages
Korean (ko)
Other versions
KR20220060163A (en
Inventor
강민구
조대용
임화섭
김익재
Original Assignee
한국과학기술연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술연구원 filed Critical 한국과학기술연구원
Priority to KR1020200145813A priority Critical patent/KR102543306B1/en
Publication of KR20220060163A publication Critical patent/KR20220060163A/en
Application granted granted Critical
Publication of KR102543306B1 publication Critical patent/KR102543306B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/001Texturing; Colouring; Generation of texture or colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Ophthalmology & Optometry (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

본 발명은 3차원 응시점 정보 기반 관심객체 검출 및 사용자 시지각 메타데이터 제공장치 및 그 방법에 관한 것이다. 상기 장치는, 카메라로부터 사용자의 시선 방향으로 복수개의 객체가 포함된 외부 환경에 대한 영상 및 사용자의 동공의 위치에 대한 정보를 수신하여 처리하는 것으로서, 상기 외부 환경에 대한 영상 및 사용자의 양안 동공에 대한 영상 정보를 통해 외부 환경과 사용자의 시선에 따른 응시점 정보를 추정하는 응시점 정보 추정부; 상기 외부 환경에 대한 영상 중, 상기 사용자의 응시점 정보 및 사전에 정해진 기준에 따라 사용자 응시점에 대응하는 관심영역을 생성하고, 사용자의 응시점에 대응되는 객체의 크기에 맞게 상기 관심영역의 크기를 조절하는 관심영역 생성부; 상기 관심영역과 상기 관심영역에 대응하는 상기 외부 환경에 대한 영상의 특징에 따라 선택되는 복수의 특징맵 레이어 구조를 갖는 객체 검출 딥러닝 모델을 이용하여 상기 관심영역 내의 관심객체 정보를 검출하는 객체 정보 검출부; 및 상기 사용자 응시점 정보와 상기 관심객체 정보를 기초로 사용자의 시·지각 반응 정보를 포함하는 메타데이터를 생성하는 메타데이터 생성부; 및 상기 메타데이터를 기초로 사용자가 위치한 주변 환경의 상기 관심객체 정보와 상기 사용자의 시·지각 반응 정보를 동시에 사용자에게 제공하는 메타데이터 제공부를 포함할 수 있다.The present invention relates to an apparatus and method for detecting an object of interest based on 3D gaze point information and providing user visual perception metadata. The apparatus receives and processes an image of an external environment including a plurality of objects in the direction of the user's line of sight and information on the location of the user's pupil from a camera, and processes the image of the external environment and the pupils of both eyes of the user. a gaze point information estimator for estimating gaze point information according to an external environment and a gaze of a user through image information on the subject; Among the images of the external environment, a region of interest corresponding to the user's gaze point is created according to the user's gaze point information and a predetermined criterion, and the size of the region of interest matches the size of the object corresponding to the user's gaze point. a region of interest generating unit for adjusting the; Object information for detecting object information in the ROI using an object detection deep learning model having a structure of a plurality of feature map layers selected according to the ROI and the characteristics of the image of the external environment corresponding to the ROI. detection unit; and a metadata generator configured to generate metadata including visual/perceptual response information of the user based on the user gaze point information and the object of interest information. and a metadata providing unit that simultaneously provides the object of interest information of a surrounding environment where the user is located and visual/perceptual response information of the user to the user based on the metadata.

Description

3차원 응시점 정보 기반 관심객체 검출 및 사용자 시·지각 메타데이터 제공장치 및 그 방법{APPARATUS FOR DETECTING OBJECTS OF INTEREST BASED ON 3D GAZE POINT INFORMATION AND PROVIDING METADATA REFLECTING USER'S PERSPECTIVE AND PERCEPTION}Apparatus and method for detecting objects of interest based on 3D gaze point information and providing user's visual/perceptual metadata

본 발명은 웨어러블 디바이스를 이용한 3차원 응시점 정보 기반 관심객체 검출 및 사용자 시지각 메타데이터 제공장치 및 그 방법에 관한 것이다.The present invention relates to an apparatus and method for detecting an object of interest based on 3D gaze point information using a wearable device and providing user visual perception metadata.

최근 IT 기술의 발달로 다양한 웨어러블 디바이스가 다양한 어플리케이션과 연계해서, 일상 생활에서 다양한 기능을 수행하는 도구로서 활용되고 있다.Recently, with the development of IT technology, various wearable devices are being used as tools to perform various functions in daily life in connection with various applications.

상용화되어 있는 웨어러블 디바이스는 사용자의 입력을 통해 사용자 또는 객체 등의 정보를 저장할 수 있으며, 사용자가 필요로 할 때 원하는 정보를 로드할 수 있다.A commercially available wearable device can store information such as a user or an object through a user's input, and can load desired information when the user needs it.

이와 같은 웨어러블 디바이스의 일 예로서, 한국 공개특허공보 제10-2016-0126309호에 사용자의 입력을 수신하여 관심객체가 구별되어 표시되도록 하는 웨어러블 전자 장치가 개시되어 있다.As an example of such a wearable device, Korean Patent Laid-Open Publication No. 10-2016-0126309 discloses a wearable electronic device that receives a user's input and displays an object of interest separately.

상기 종래문헌의 웨어러블 전자 장치는 복수의 객체를 포함하는 이미지의 특정 부분을 제1 영역 및 제2 영역 상에 표시하고, 복수의 객체 중 특정 객체를 제1 영역에서 제2 영역으로 이동시키는 입력을 수신하는 터치 스크린, 및 상기 수신된 입력에 대응하여 제1 영역 상에 표시되는 제1 객체와 제2 영역 상에 표시되는 제2 객체가 구별되어 표시되도록 터치 스크린을 제어하는 프로세서를 포함한다.The wearable electronic device of the prior art displays a specific part of an image including a plurality of objects on the first area and the second area, and inputs moving a specific object among the plurality of objects from the first area to the second area. It includes a touch screen that receives and a processor that controls the touch screen so that a first object displayed on the first area and a second object displayed on the second area are distinguished and displayed in response to the received input.

그러나, 이와 같은 종래의 웨어러블 디바이스는 사용자가 직접 터치스크린을 터치함으로써 관심객체 영역을 이동시켜야 하며, 사용자의 위치 정보나 사용자에 의해 기 설정된 관심 지점 정보를 통해 객체에 대한 요약 정보를 제공할 뿐, 사용자의 행동 및 의도를 분석하여 사용자가 어떠한 객체에 관심을 가지는가를 사용자의 개입 없이 선제적으로 사용자에게 제공하기는 어렵다.However, such a conventional wearable device requires the user to directly touch the touch screen to move the area of the object of interest, and provides summary information about the object through the user's location information or POI information previously set by the user. It is difficult to analyze the user's behavior and intention and preemptively provide the user with an object that the user is interested in without the user's intervention.

근래에는 사용자와 디바이스, 사물 매체 간의 상호작용을 위해 생활환경지능을 고려한 전자 기기가 점차 증가하고 있는 추세이다. 생활환경지능이란 사용자의 행동 및 의도를 분석하고 주변 환경 정보를 인지 및 인식하여, 사용자의 니즈에 대해 사용자의 개입 없이 능동적이고 선제적으로 대응할 수 있는 인공지능을 의미한다. 주어진 특정 업무에만 특화된 인공지능과는 달리, 생활환경지능은 사용자와의 상호작용을 통해 각 사용자에게 최적화된 편리 기능을 제공할 수 있다는 점에서 고차원적인 인공지능으로 분류될 수 있다.In recent years, electronic devices considering living environment intelligence for interaction between users, devices, and object media are gradually increasing. Living environment intelligence refers to artificial intelligence that can proactively and preemptively respond to user needs without user intervention by analyzing the user's behavior and intentions and recognizing and recognizing surrounding environment information. Unlike artificial intelligence that is specialized for a given specific task, living environment intelligence can be classified as high-level artificial intelligence in that it can provide convenient functions optimized for each user through interaction with the user.

종래의 웨어러블 디바이스와 같이 단순히 사용자의 개입을 통해 객체에 대한 단순 정보만을 제공하기보다는, 사용자의 행동 및 의도를 분석하여 사용자가 어떤 객체의 관심을 가지는가를 파악하고, 이를 데이터화하여 사용자가 원하는 정보를 사용자의 개입 없이 선제적으로 제공할 수 있는 장치가 요구되고 있는 실정이다.Unlike conventional wearable devices, which simply provide simple information about an object through user intervention, the user's behavior and intention are analyzed to determine which object the user is interested in, and data the user wants. There is a demand for a device capable of preemptively providing information without user intervention.

한국 공개특허공보 제10-2016-0126309호Korean Patent Publication No. 10-2016-0126309

본 발명의 목적은 사용자 중심의 관심객체를 검출하고 이를 통해 생활환경지능을 위한 메타데이터를 제공하는 3차원 응시점 정보 기반 관심객체 검출 및 사용자 시지각 메타데이터 제공장치 및 그 방법을 제공함에 있다.An object of the present invention is to provide an apparatus and method for detecting an object of interest based on 3D gazing point information and providing metadata for a user's visual perception by detecting a user-centered object of interest and providing metadata for living environment intelligence therethrough.

본 발명의 다른 목적은 객체 검출 성능 및 동작 속도를 최적화하는 동시에 객체 정보에 사용자의 생활환경지능을 반영한 메타데이터를 이용하여 사용자의 상황에 맞는 객체 정보를 선별적으로 제공함에 있다.Another object of the present invention is to optimize object detection performance and operation speed and selectively provide object information suitable for a user's situation by using metadata reflecting the user's living environment intelligence in the object information.

위와 같은 과제를 해결하기 위한 본 발명의 제1 측면은 카메라로부터 사용자의 시선 방향으로 복수개의 객체가 포함된 외부 환경에 대한 영상 및 사용자의 동공의 위치에 대한 정보를 수신하여 처리하는 3차원 응시점 정보 기반 관심객체 검출 및 사용자 시지각 메타데이터 제공장치에 관한 것이다. 상기 장치는, 상기 외부 환경에 대한 영상 및 사용자의 양안 동공에 대한 영상 정보를 통해 외부 환경과 사용자의 시선에 따른 응시점 정보를 추정하는 응시점 정보 추정부; 상기 외부 환경에 대한 영상 중, 상기 사용자의 응시점 정보 및 사전에 정해진 기준에 따라 사용자 응시점에 대응하는 관심영역을 생성하고, 사용자의 응시점에 대응되는 객체의 크기에 맞게 상기 관심영역의 크기를 조절하는 관심영역 생성부; 상기 관심영역과 상기 관심영역에 대응하는 상기 외부 환경에 대한 영상의 특징에 따라 선택되는 복수의 특징맵 레이어 구조를 갖는 객체 검출 딥러닝 모델을 이용하여 상기 관심영역 내의 관심객체 정보를 검출하는 객체 정보 검출부; 및 상기 사용자 응시점 정보와 상기 관심객체 정보를 기초로 사용자의 시·지각 반응 정보를 포함하는 메타데이터를 생성하는 메타데이터 생성부; 및 상기 메타데이터를 기초로 사용자가 위치한 주변 환경의 상기 관심객체 정보와 상기 사용자의 시·지각 반응 정보를 동시에 사용자에게 제공하는 메타데이터 제공부를 포함할 수 있다.A first aspect of the present invention for solving the above problems is a 3D gaze point that receives and processes an image of an external environment including a plurality of objects in the direction of the user's gaze from a camera and information about the position of the user's pupil. An apparatus for detecting an object of interest based on information and providing user visual perception metadata. The apparatus may include: a gaze point information estimator for estimating gaze point information according to the gaze of the user and the external environment through the image of the external environment and image information of the pupils of both eyes of the user; Among the images of the external environment, a region of interest corresponding to the user's gaze point is created according to the user's gaze point information and a predetermined criterion, and the size of the region of interest matches the size of the object corresponding to the user's gaze point. a region of interest generating unit for adjusting the; Object information for detecting object information in the ROI using an object detection deep learning model having a structure of a plurality of feature map layers selected according to the ROI and the characteristics of the image of the external environment corresponding to the ROI. detection unit; and a metadata generator configured to generate metadata including visual/perceptual response information of the user based on the user gaze point information and the object of interest information. and a metadata providing unit that simultaneously provides the object of interest information of a surrounding environment where the user is located and visual/perceptual response information of the user to the user based on the metadata.

본 발명의 실시예에 따르면, 상기 사용자의 응시점 정보는 사용자가 위치한 공간 상의 응시점 위치, 및 사용자로부터의 응시 대상에 대한 응시 거리를 포함할 수 있다.According to an embodiment of the present invention, the user's gaze point information may include a location of the gaze point in the space where the user is located and a gaze distance from the user to the gaze target.

본 발명의 실시예에 따르면, 상기 관심영역 생성부는 상기 응시점 위치를 매개변수로 하여 관심영역의 기준 위치를 정의하고, 상기 응시 거리와 상기 응시점에 대응되는 객체의 폭 길이, 상기 외부 환경에 대한 영상의 너비, 및 외부 환경을 촬영하는 카메라 수평 화각을 매개변수로 하여 관심영역의 크기를 정의할 수 있다.According to an embodiment of the present invention, the ROI generating unit defines a reference location of the ROI using the location of the gaze point as a parameter, and determines the gaze distance, the width and length of the object corresponding to the gaze point, and the external environment. The size of the region of interest can be defined using the width of the image and the horizontal angle of view of a camera that captures the external environment as parameters.

본 발명의 실시예에 따르면, 상기 관심영역 생성부는 상기 외부 환경에 대한 영상의 색상, 영상의 엣지, 및 영상의 깊이맵 정보를 매개변수로 포함하여 상기 관심영역의 폭을 조절할 수 있다.According to an embodiment of the present invention, the ROI generating unit may adjust the width of the ROI by including a color of the image of the external environment, an edge of the image, and depth map information of the image as parameters.

본 발명의 실시예에 따르면, 상기 객체 정보 검출부는 상기 관심영역 생성부가 생성한 상기 관심영역과 상기 외부 환경에 대한 영상 간의 비교 특징을 입력 정보로 설정하고, 상기 비교 특징을 학습하여 상기 복수의 특징맵 레이어들을 선택적으로 조합하는 가변적 신경망을 구성하여 관심객체를 추출할 수 있다.According to an embodiment of the present invention, the object information detector sets a comparison feature between the region of interest generated by the region of interest generator and the image of the external environment as input information, learns the comparison feature, and then learns the plurality of features. An object of interest may be extracted by constructing a variable neural network that selectively combines map layers.

본 발명의 실시예에 따르면, 상기 비교 특징은 상기 관심영역의 넓이와 상기 외부 환경에 대한 영상 넓이의 비율, 상기 관심영역에 대응되는 상기 외부 환경에 대한 영상의 복잡도, 또는 상기 관심영역에 대응되는 상기 외부 환경에 대한 영상의 색상 대비를 포함할 수 있다.According to an embodiment of the present invention, the comparison feature may include the ratio of the area of the ROI to the width of the image of the external environment, the complexity of the image of the external environment corresponding to the ROI, or the image area corresponding to the ROI. Color contrast of the image with respect to the external environment may be included.

본 발명의 실시예에 따르면, 상기 객체 정보 검출부의 관심객체 추출은, 상기 복수의 특징맵 레이어 중 상기 입력 정보에 대해 정해진 적어도 하나의 객체 후보 추정 레이어를 활성화시키고, 상기 활성화된 객체 후보 레이어를 통해 상기 관심객체의 유형과 위치 정보를 추정할 수 있다.According to an embodiment of the present invention, the object information detection unit extracts the object of interest by activating at least one object candidate estimation layer determined for the input information among the plurality of feature map layers, and through the activated object candidate layer. The type and location information of the object of interest may be estimated.

본 발명의 실시예에 따르면, 상기 사용자의 응시점 정보 추정부는 상기 관심객체에 대한 응시 빈도 및 응시점 형성 시간 정보를 획득하고, 상기 메타데이터 생성부는 상기 관심객체를 객체 유형별로 분류하고, 상기 관심객체에 대한 응시 빈도 및 응시점 형성 시간 정보를 객체 유형별로 분류된 상기 관심객체별로 기록할 수 있다.According to an embodiment of the present invention, the user's gaze point information estimation unit acquires gaze frequency and gaze point formation time information for the object of interest, the metadata generator classifies the interest object by object type, and the interest Gaze frequency and gaze point formation time information on an object may be recorded for each object of interest classified by object type.

본 발명의 실시예에 따르면, 상기 메타데이터 제공부는 사용자가 위치한 공간상에서 상기 관심객체별 크기 및 위치를 경계상자의 형태로 나타내고, 시간에 따른 상기 관심객체에 대한 응시 빈도에 따른 우선순위를 반영한 관심객체 지도를 생성하여 사용자가 위치한 주변 환경의 상기 관심객체 정보를 제공할 수 있다.According to an embodiment of the present invention, the metadata providing unit represents the size and location of each object of interest in the space where the user is located in the form of a bounding box, and reflects the priority according to the frequency of staring at the object of interest over time. An object map may be created to provide the object of interest information of the surrounding environment where the user is located.

본 발명의 실시예에 따르면, 상기 메타데이터 제공부는 시간에 따른 사용자의 상기 관심객체 변화와 상기 메타데이터 생성부로부터 갱신되는 상기 관심객체별 응시 빈도 정보를 수신하여 사용자의 관심도가 높은 순으로 관심객체를 분류하여 제공할 수 있다.According to an embodiment of the present invention, the metadata providing unit receives the change in the object of interest of the user over time and the gaze frequency information for each object of interest updated by the metadata generating unit, and the objects of interest are selected in order of the user's interest. can be classified and provided.

본 발명의 실시예에 따르면, 상기 메타데이터 제공부는 사용자의 현재 응시점 위치와 응시점에 대응하는 관심객체, 및 시간에 따른 관심객체의 변화에 대한 응시점의 변화를 상기 각 관심객체에 대응하는 경계상자 및 상기 각 관심객체의 변화를 나타내는 이동 경로 표시의 형태로 제공할 수 있다.According to an embodiment of the present invention, the metadata providing unit displays the location of the user's current gaze point, the object of interest corresponding to the gaze point, and the change of the gaze point for the change of the object of interest over time to correspond to each object of interest. It may be provided in the form of a bounding box and a movement path indicating changes in each of the objects of interest.

본 발명의 실시예에 따르면, 상기 이동 경로 표시는 시간에 따른 관심객체의 변화에 대한 응시점의 변화를, n-1번째 관심객체에 대한 사용자의 응시점으로부터 n번째 관심객체 지각시 대응되는 사용자의 응시점으로의 응시점 위치 변화를 나타내도록 제공될 수 있다.According to an embodiment of the present invention, the display of the moving path is a change in a gaze point for a change in an object of interest over time, and a corresponding user when the user perceives the nth object of interest from the user's gaze point for the n-1th object of interest. It can be provided to indicate the change in gaze point location to the gaze point of .

본 발명의 제2 측면은 카메라로부터 사용자의 시선 방향으로 복수개의 객체가 포함된 외부 환경에 대한 영상 및 사용자의 동공의 위치에 대한 정보를 수신하여 처리하는 3차원 응시점 정보 기반 관심객체 검출 및 사용자 시지각 메타데이터 제공방법에 관한 것이다. 상기 방법은, (a) 상기 외부 환경에 대한 영상 및 사용자의 양안 동공에 대한 영상 정보를 통해 외부 환경과 사용자의 시선에 따른 응시점 정보를 추정하는 단계; (b) 상기 외부 환경에 대한 영상 중, 상기 사용자의 응시점 정보 및 사전에 정해진 기준에 따라 사용자 응시점에 대응하는 관심영역을 생성하고, 사용자의 응시점에 대응되는 객체의 크기에 맞게 상기 관심영역의 크기를 조절하는 단계; (c) 상기 관심영역과 상기 관심영역에 대응하는 상기 외부 환경에 대한 영상의 특징에 따라 선택되는 복수의 특징맵 레이어 구조를 갖는 객체 검출 딥러닝 모델을 이용하여 상기 관심영역 내의 객체 정보를 검출하는 단계; (d) 상기 사용자 응시점 정보와 상기 관심객체 정보를 기초로 사용자의 시·지각 반응 정보를 포함하는 메타데이터를 생성하는 단계; 및 (e) 상기 메타데이터를 기초로 사용자가 위치한 주변 환경의 상기 관심객체 정보와 상기 사용자의 시·지각 반응 정보를 동시에 사용자에게 제공하는 단계를 포함할 수 있다.A second aspect of the present invention is to detect an object of interest based on 3D gaze point information by receiving and processing an image of an external environment including a plurality of objects in the direction of a user's gaze from a camera and information on the location of a user's pupil, and user It relates to a method for providing visual perception metadata. The method may include: (a) estimating gaze point information according to the external environment and the gaze of the user through the image of the external environment and image information of the pupils of both eyes of the user; (b) Among the images of the external environment, a region of interest corresponding to the user's gaze point is generated according to the user's gaze point information and a predetermined criterion, and the interest is matched to the size of the object corresponding to the user's gaze point. resizing the area; (c) detecting object information in the region of interest using an object detection deep learning model having a structure of a plurality of feature map layers selected according to the region of interest and characteristics of the image of the external environment corresponding to the region of interest step; (d) generating metadata including visual/perceptual response information of the user based on the user gaze point information and the object of interest information; and (e) simultaneously providing the object of interest information of the surrounding environment where the user is located and visual/perceptual response information of the user to the user based on the metadata.

본 발명에 따르면 사용자가 웨어러블 디바이스 등을 통해 별도의 조작 지시를 하지 않더라도, 사용자의 시지각 패턴을 분석하여 유의하게 인지한 객체 혹은 장면(이벤트 등) 정보들을 스스로 판단하여 기록하고, 사용자가 위치한 공간 내에서 사용자의 3차원 응시점 정보를 이용하여 사용자 중심의 관심객체를 검출하고, 이를 활용하여 생활환경지능을 위한 메타 데이터를 생성 및 활용하는 동시에 이를 적시적소에 사용자에게 다시 능동적으로 제공함으로써 사용자가 편리하게 필요한 정보만을 기억해낼 수 있도록 한다.According to the present invention, even if the user does not give a separate operation instruction through a wearable device, etc., the user's visual perception pattern is analyzed to determine and record significantly recognized object or scene (event, etc.) information, and the space where the user is located Detects a user-centered object of interest by using the user's 3D gaze point information, generates and utilizes meta data for living environment intelligence by using it, and actively provides it to the user at the right time at the right time. Make it convenient for you to remember only the information you need.

또한, 사용자의 관심영역 내의 객체들을 선별적으로 검출하고 이를 저장함으로써, 사용자에게 필요한 정보만을 추출하여 제공할 수 있을 뿐만 아니라 데이터의 처리 및 저장에 있어서의 효율성을 극대화할 수 있다.In addition, by selectively detecting objects within the user's region of interest and storing them, it is possible to extract and provide only necessary information to the user and maximize efficiency in data processing and storage.

도 1은 본 발명의 실시예에 따른 3차원 응시점 정보 기반 관심객체 검출 및 사용자 시지각 메타데이터 제공장치의 각 구성을 개략적으로 나타낸 도면이다.
도 2는 도 1의 장치에 적용되는 예시적인 웨어러블 디바이스를 개략적으로 나타낸 도면이다.
도 3은 도 1의 장치에 의해 수행되는 3차원 응시점 정보 기반 관심객체 검출 및 사용자 시지각 메타데이터 제공방법을 개략적으로 나타낸 순서도이다.
도 4는 도 1의 응시점 정보 추정부에서 응시점 정보를 추정하는 과정을 개략적으로 나타낸 순서도이다.
도 5는 도 1의 관심영역 생성부가 사용자의 응시점 정보에 따라 관심영역을 생성하는 것을 예시적으로 나타낸 도면이다.
도 6은 도 1의 관심영역 생성부가 사전에 정해진 기준에 따라 초기 관심영역을 정의하기 위한 실제 객체와 관심영역과의 관계를 예시적으로 나타낸 도면이다.
도 7의 (a), (b)는 도 1의 관심영역 생성부가 객체 정보를 반영하여 각 관심영역을 보정하는 과정을 개략적으로 나타낸 도면이다.
도 8는 도 1의 객체 정보 검출부가 객체에 따른 3차원 관심영역의 특징에 따라 서로 다른 객체 추론 특징맵을 선택하는 과정을 개략적으로 나타낸 도면이다.
도 9는 도 8의 복수의 레이어 중 일부를 조합하여 객체 검출 성능을 향상시킨 결과를 표로 나타낸 도면이다.
도 10은 도 8의 선택적 활성화 계층의 특징들을 나타낸 도면이다.
도 11은 도 8의 객체 정보 추정 단계에 있어서, 객체 후보 추정 레이어 선택 단계 및 영상 특징 분석 및 객체 정보 추정 단계를 설명하기 위한 도면이다.
도 12는 도 1의 메타데이터 생성부에 의해 생성된 객체 정보가 시간별로 분류된 메타데이터의 예시를 나타낸 도면이다.
도 13은 도 12의 메타데이터가 시간별 관심객체 정보 로그를 통해 분류된 예시를 나타낸 도면이다.
도 14 및 도 15는 도 1의 메타데이터 제공부에 의한 메타데이터의 활용 예시를 나타낸 도면이다.
1 is a diagram schematically showing each configuration of an apparatus for detecting an object of interest based on 3D gaze point information and providing user visual perception metadata according to an embodiment of the present invention.
FIG. 2 is a schematic diagram of an exemplary wearable device applied to the apparatus of FIG. 1 .
FIG. 3 is a flowchart schematically illustrating a method of detecting an object of interest based on 3D gazing point information and providing user visual perception metadata performed by the apparatus of FIG. 1 .
4 is a flowchart schematically illustrating a process of estimating gaze point information in the gaze point information estimation unit of FIG. 1 .
FIG. 5 is a diagram illustrating an example of generating a region of interest according to information on a user's gaze point by the region of interest generator of FIG. 1 .
FIG. 6 is a diagram illustrating a relationship between a real object and a region of interest for defining an initial region of interest according to a predetermined criterion by the region of interest generator of FIG. 1 by way of example.
7(a) and (b) are diagrams schematically illustrating a process of correcting each region of interest by reflecting object information in the region of interest generator of FIG. 1 .
FIG. 8 is a diagram schematically illustrating a process of selecting different object inference feature maps according to characteristics of a 3D region of interest according to an object by the object information detector of FIG. 1 .
FIG. 9 is a table showing results of improving object detection performance by combining some of the plurality of layers of FIG. 8 .
FIG. 10 is a diagram illustrating features of the selective activation layer of FIG. 8 .
FIG. 11 is a diagram for explaining the object candidate estimation layer selection step and the image feature analysis and object information estimation steps in the object information estimation step of FIG. 8 .
12 is a diagram illustrating an example of metadata in which object information generated by the metadata generator of FIG. 1 is classified by time.
FIG. 13 is a diagram showing an example in which the metadata of FIG. 12 is classified through an object-of-interest information log by time.
14 and 15 are diagrams illustrating examples of using metadata by the metadata providing unit of FIG. 1 .

이하, 첨부된 도면을 참조하여 본 발명의 실시를 위한 구체적인 내용을 설명한다. 그리고 본 발명을 설명함에 있어서 관련된 공지기능에 대하여 이 분야의 기술자에게 자명한 사항으로서 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.Hereinafter, specific details for the practice of the present invention will be described with reference to the accompanying drawings. And, in the description of the present invention, if it is determined that the related known function may unnecessarily obscure the subject matter of the present invention as an obvious matter to those skilled in the art, the detailed description thereof will be omitted.

본 명세서에서 웨어러블 디바이스라 함은, 예를 들어 사용자가 장착할 수 있는 안경 형태의 임의의 디바이스를 포함하지만, 이에 제한되지 않고 사용자가 착용할 수 있는 임의의 디바이스를 모두 포함하는 의미로 사용된다. 또한, 이는 사용자가 직접적으로 착용하는 경우뿐만 아니라, 간접적으로 착용하는 경우를 포함할 수 있으며, 임의의 다른 구성을 매개하면서 착용하는 경우도 포함할 수 있다.In this specification, a wearable device includes, for example, any device in the form of glasses that can be worn by a user, but is not limited thereto and is used to mean any device that can be worn by a user. In addition, this may include not only a case where the user wears it directly, but also a case where the user indirectly wears it, and may also include a case where the user wears it while intervening with any other configuration.

또한, 본 발명의 실시예에 따른 3차원 응시점 정보 기반 관심객체 검출 및 사용자 시지각 메타데이터 제공 장치는 웨어러블 디바이스와 별도로 구성된 서버와 같은 장치를 포함할 수 있지만, 이에 제한되지 않고, 웨어러블 디바이스에 부착되거나 일체로 구성될 수 있고, 또는 웨어러블 디바이스 내의 처리 장치일 수도 있다.In addition, an apparatus for detecting an object of interest based on 3D gaze point information and providing user visual perception metadata according to an embodiment of the present invention may include a device such as a server configured separately from a wearable device, but is not limited thereto, and the wearable device It may be attached or integrally constructed, or it may be a processing device within a wearable device.

또한, 본 명세서에서 사용자와 객체와의 관계는 1:1, 1:n, n:n의 관계가 모두 가능하며, 사용자 또는 객체라는 용어가 사용될 때에는 상기 의미를 내포하는 것으로 해석되어야 한다.In addition, in this specification, a relationship between a user and an object may be 1:1, 1:n, or n:n, and when the term user or object is used, it should be interpreted as implying the above meaning.

도 1은 본 발명의 실시예에 따른 3차원 응시점 정보 기반 관심객체 검출 및 사용자 시지각 메타데이터 제공장치의 각 구성을 개략적으로 나타낸 도면이다. 도 2는 도 1의 장치에 적용되는 예시적인 웨어러블 디바이스를 개략적으로 나타낸 도면이다. 도 3은 도 1의 장치에 의해 수행되는 3차원 응시점 정보 기반 관심객체 검출 및 사용자 시지각 메타데이터 제공방법을 개략적으로 나타낸 순서도이다.1 is a diagram schematically showing each configuration of an apparatus for detecting an object of interest based on 3D gaze point information and providing user visual perception metadata according to an embodiment of the present invention. FIG. 2 is a schematic diagram of an exemplary wearable device applied to the apparatus of FIG. 1 . FIG. 3 is a flowchart schematically illustrating a method of detecting an object of interest based on 3D gazing point information and providing user visual perception metadata performed by the apparatus of FIG. 1 .

도 1 및 도 3을 참조하면, 본 발명의 3차원 응시점 정보 기반 관심객체 검출 및 사용자 시지각 메타데이터 제공장치는 카메라로부터 사용자의 시선 방향으로 복수개의 객체가 포함된 외부 환경에 대한 영상 및 사용자의 동공의 위치에 대한 정보를 수신하여 처리할 수 있다.1 and 3, an apparatus for detecting an object of interest based on 3D gaze point information and providing user visual perception metadata according to the present invention provides an image of an external environment including a plurality of objects in the direction of a user's gaze from a camera and a user It is possible to receive and process information about the pupil's position.

상기 장치는 응시점 정보 추정부(10), 관심영역 생성부(20), 객체 정보 검출부(30), 메타데이터 생성부(40), 및 메타데이터 제공부(50)를 포함한다.The apparatus includes a gaze point information estimating unit 10, a region of interest generating unit 20, an object information detecting unit 30, a metadata generating unit 40, and a metadata providing unit 50.

응시점 정보 추정부(10)는 외부 환경에 대한 영상 및 사용자의 양안 동공에 대한 영상 정보를 통해 외부 환경과 사용자의 시선에 따른 응시점 정보를 추정한다(s10).The gaze point information estimator 10 estimates gaze point information according to the external environment and the gaze of the user through the image of the external environment and the image information of the pupils of both eyes of the user (s10).

관심영역 생성부(20)는 외부 환경에 대한 영상 중, 사용자의 응시점 정보 및 사전에 정해진 기준에 따라 사용자 응시점에 대응되는 관심영역을 생성하고, 사용자의 응시점에 대응되는 객체의 크기에 맞게 관심영역의 크기를 조절한다(s20).The region of interest generation unit 20 generates a region of interest corresponding to the user's gaze point according to the user's gaze point information and a predetermined criterion in the image of the external environment, and determines the size of the object corresponding to the user's gaze point. Adjust the size of the region of interest accordingly (s20).

객체 정보 검출부(30)는 관심영역과 관심영역에 대응하는 외부 환경에 대한 영상의 특징에 따라 선택되는 복수의 특징맵 레이어 구조를 갖는 객체 검출 딥러닝 모델을 이용하여 관심영역 내의 관심객체 정보를 검출한다(s30).The object information detector 30 detects object information in the region of interest by using an object detection deep learning model having a layer structure of a plurality of feature maps selected according to the region of interest and the characteristics of the image of the external environment corresponding to the region of interest. Do (s30).

메타데이터 생성부(40)는 사용자 응시점 정보와 관심객체 정보를 기초로 사용자의 시·지각 반응 정보를 포함하는 메타데이터를 생성한다(s40).The metadata generation unit 40 generates metadata including user's visual/perceptual response information based on the user's gaze point information and the object of interest information (S40).

메타데이터 제공부(50)는 메타데이터를 기초로 사용자가 위치한 주변 환경의 관심객체 정보와 사용자의 시·지각 반응 정보를 동시에 사용자에게 제공한다(s50).The metadata providing unit 50 simultaneously provides object-of-interest information of the surrounding environment where the user is located and visual/perceptual response information of the user to the user based on the metadata (S50).

상기 각 구성에 대한 상세한 설명은 후술한다.A detailed description of each of the above components will be described later.

본 발명의 실시예에 따른 관심객체 검출 및 사용자 시지각 메타데이터 제공장치의 상기 각 부는 도 2에 예시적으로 도시된 웨어러블 디바이스에 의하여 외부 환경에 대한 영상 및 사용자의 동공의 위치에 대한 정보를 수신받을 수 있다. 다만, 도 2에 도시된 웨어러블 디바이스는 단지 예시적으로 도시된 것일 뿐, 이에 한정되지 않으며 공지의 다양한 웨어러블 디바이스의 형태가 적용될 수 있다.Each unit of the apparatus for detecting an object of interest and providing user visual perception metadata according to an embodiment of the present invention receives an image of an external environment and information about the location of a user's pupil by means of the wearable device exemplarily shown in FIG. 2 can receive However, the wearable device shown in FIG. 2 is only shown as an example, and is not limited thereto, and various types of known wearable devices may be applied.

도 2의 (a)를 참조하면, 본 발명에 사용되는 웨어러블 디바이스는 예를 들어 증강현실 기능을 갖춘 안경 형태의 디바이스 등으로 구성될 수 있다. 또한, 상기 웨어러블 디바이스는 사용자의 시야의 적어도 일부를 포함하는 이미지를 포착하도록 구성된 전방 카메라(1)를 포함할 수 있다. 전방 카메라(1)는 사용자의 시선이 향하는 방향으로 프레임 상에 직간접적으로 장착될 수 있다.Referring to (a) of FIG. 2 , the wearable device used in the present invention may be configured as, for example, a glasses-type device having an augmented reality function. In addition, the wearable device may include a front camera 1 configured to capture an image that includes at least a part of the user's field of view. The front camera 1 may be directly or indirectly mounted on the frame in a direction in which the user's gaze is directed.

도 2의 (b)를 참조하면, 본 발명에 사용되는 웨어러블 디바이스는 좌측 및 우측 동공 카메라(2, 3)를 포함할 수 있다. 좌측 및 우측 동공 카메라(2, 3)는 사용자에 의해 착용될 때 동공의 이미지를 검출하여 동공 이미지 신호를 생성할 수 있다. 좌측 및 우측 동공 카메라(2, 3)는 사용자의 동공을 향하는 방향으로 프레임 상에 직간접적으로 장착될 수 있다.Referring to (b) of FIG. 2 , the wearable device used in the present invention may include left and right pupil cameras 2 and 3 . The left and right pupil cameras 2 and 3 can detect an image of the pupil when worn by a user and generate a pupil image signal. The left and right pupil cameras 2 and 3 may be directly or indirectly mounted on the frame in a direction toward the user's pupil.

또한, 상기 웨어러블 디바이스는 사용자에게 필요한 정보를 디스플레이하는 투명 또는 반투명 디스플레이(4)를 포함할 수 있다. 나아가, 사용자의 음성을 검출하여 음향 신호를 생성하도록 구성된 마이크로폰(미도시)을 더 포함할 수도 있다.In addition, the wearable device may include a transparent or translucent display 4 displaying information necessary for a user. Furthermore, it may further include a microphone (not shown) configured to detect a user's voice and generate a sound signal.

상기 웨어러블 디바이스는 전방 카메라(1), 좌측 및 우측 동공 카메라(2, 3), 또는 마이크로폰 등으로부터 사용자의 행동 및 상태에 관한 정보를 취득할 수 있으며, 상기 정보를 본 발명의 3차원 응시점 정보 기반 관심객체 검출 및 사용자 시지각 메타데이터 제공장치에 전송할 수 있다.The wearable device can obtain information about the user's behavior and state from the front camera 1, the left and right pupil cameras 2 and 3, or a microphone, and converts the information into the 3D gaze point information of the present invention. Based object of interest detection and user visual perception metadata can be transmitted to the providing device.

예를 들어, 본 발명의 장치는 상기 웨어러블 디바이스의 전방 카메라(1)로부터 얻은 사용자의 시선 방향으로의 복수개의 객체가 포함된 외부 환경에 대한 영상에 대한 정보와, 좌측 및 우측 동공 카메라(2, 3)로부터 얻은 사용자의 동공의 위치에 대한 정보를 수신할 수 있다.For example, the apparatus of the present invention includes information on an image of an external environment including a plurality of objects in the direction of the user's gaze obtained from the front camera 1 of the wearable device, and left and right pupil cameras 2, Information on the location of the pupil of the user obtained from 3) may be received.

이하에서는, 본 발명에 따른 관심객체 검출 및 사용자 시지각 메타데이터 제공장치가 웨어러블 디바이스로부터 제공받은 정보를 처리하기 위한 구성을 차례로 설명한다.Hereinafter, a configuration for processing information provided from a wearable device by the apparatus for detecting an object of interest and providing user visual perception metadata according to the present invention will be described in turn.

도 4는 도 1의 응시점 정보 추정부에서 응시점 정보를 추정하는 과정을 개략적으로 나타낸 순서도이다.4 is a flowchart schematically illustrating a process of estimating gaze point information in the gaze point information estimation unit of FIG. 1 .

응시점 정보 추정부(10)는 전방 카메라(1)로부터 획득한 외부 환경에 대한 영상 및 좌측 및 우측 동공 카메라(2, 3)로부터 획득한 사용자의 양안 동공에 대한 영상 정보를 통해 외부 환경과 사용자의 시선에 따른 응시점 정보를 추정한다(s10). 응시점 정보 추정부(10)는 3차원 공간 상에 형성되는 사용자의 3차원 응시점 정보를 추정한다. The gaze point information estimator 10 uses the image of the external environment acquired from the front camera 1 and the image information of the pupils of both eyes of the user obtained from the left and right pupil cameras 2 and 3 to determine the external environment and the user. Gaze point information according to the line of sight is estimated (s10). The gaze point information estimator 10 estimates the user's 3D gaze point information formed on the 3D space.

사용자의 응시점 정보는 사용자가 위치한 공간 상의 응시점 위치, 및 사용자로부터의 응시 대상에 대한 응시 거리를 포함한다. 사용자의 응시점 정보는 동공의 위치에 대한 정보뿐만 아니라 푸르킨예 상(purkinje images), 시선 수렴 정보 등을 이용하여 획득될 수 있다. 사용자의 응시점 정보는 응시점 위치, 및 응시 거리뿐만 아니라, 사용자의 응시 빈도, 동공의 단속 운동 여부, 시선 고정 여부, 시선 고정 시간, 및 시선 추적 여부에 관한 정보를 포함할 수 있다.The user's gaze point information includes the location of the gaze point in the space where the user is located and the gaze distance from the user to the gaze target. The user's gazing point information may be obtained using not only pupil position information but also Purkinje images and gaze convergence information. The information on the user's gaze point may include not only the location of the gaze point and the gaze distance, but also information about the user's gaze frequency, pupil saccade, gaze fixation, gaze fixation time, and gaze tracking.

도 4를 참조하면, 사용자의 응시점 정보는 다음과 같은 과정을 통해 추정될 수 있다.Referring to FIG. 4 , gaze point information of a user may be estimated through the following process.

먼저, 응시점 정보 추정부(10)는 좌측 또는 우측 동공 카메라(2, 3)로부터 취득된(s2, s3) 동공 촬영 영상으로부터 푸르킨예 상과 동공을 검출할 수 있다(s11). 또한 상기 동공 촬영 영상과 전방 카메라 간 영상 캘리브레이션을 수행하고(s12), 상기 검출된 동공에 관한 정보와 상기 캘리브레이션 된 전방 카메라의 시선 영상을 이용하여 수렴 지점을 추정할 수 있다(s13).First, the gaze point information estimator 10 may detect the Purkinje image and the pupil from the pupil capture images acquired from the left or right pupil cameras 2 and 3 (s2 and s3) (s11). In addition, image calibration may be performed between the pupil capture image and the front camera (s12), and a convergence point may be estimated using the detected pupil information and the calibrated gaze image of the front camera (s13).

그 다음, 상기 검출된 푸르킨예 상, 동공 정보, 시선 수렴 정보를 이용하여 단안 외란 기반의 응시정보를 추정할 수 있다(s14). 이 때, 활용되는 정보는 상기 제시된 정보로 국한하지 않는다.Next, gaze information based on monocular disturbance may be estimated using the detected Purkinje image, pupil information, and gaze convergence information (s14). At this time, the information utilized is not limited to the information presented above.

또는, 응시점 정보 추정부(10)는 좌측 동공 카메라(2)로부터 취득된 동공 촬영 영상, 우측 동공 카메라(3)로부터 취득된 동공 촬영 영상, 및 전방 카메라에서 촬영된(s1) 시선 영상 간 캘리브레이션을 수행하고(s12), 상기 좌측 및 우측 동공 카메라로부터 취득된 시선 영상을 이용하여 양안 수렴 지점을 추정할 수도 있다(s13).Alternatively, the gaze point information estimation unit 10 performs calibration between the pupil capture image acquired from the left pupil camera 2, the pupil capture image acquired from the right pupil camera 3, and the gaze image captured from the front camera (s1) is performed (s12), and a binocular convergence point may be estimated using the gaze images obtained from the left and right pupil cameras (s13).

그 다음, 상기 검출된 공동 정보, 시선 수렴 정보 등을 이용하여 응시정보를 추정할 수도 있다(s14).Next, gaze information may be estimated using the detected joint information, gaze convergence information, and the like (s14).

상기 응시정보는 2차원 응시 위치, 응시 거리, 시선 고정 여부에 관한 정보, 추적 응시점 정보, 및 단속 운동 여부에 관한 정보를 포함할 수 있다.The gaze information may include a 2D gaze position, a gaze distance, information on whether gaze is fixed, information on a tracking gaze point, and information about whether or not a saccade is performed.

도 5는 도 1의 관심영역 생성부가 사용자의 응시점 정보에 따라 관심영역을 생성하는 것을 예시적으로 나타낸 도면이다.FIG. 5 is a diagram illustrating an example of generating a region of interest according to information on a user's gaze point by the region of interest generator of FIG. 1 .

도 5를 참조하면, 관심영역 생성부(20)는 전방 카메라(1)로부터 얻어진 상기 외부 환경에 대한 영상 중, 사용자의 응시점 정보 및 사전에 정해진 기준에 따라 사용자 응시점에 대응하는 관심영역을 생성한다(s20). 관심영역 생성부(20)는 응시점 정보 추정부(10)로부터 사용자의 3차원 응시점 정보를 제공받는다. 또한, 전방 카메라(1)로부터 사용자 시선 영상을 제공받는다. 관심영역은 일정 면적으로 갖는 직사각형 등으로 정의되거나, 또는 객체의 경계를 따라 정의될 수 있다. 관심영역은 사용자가 응시함으로써 사용자가 관심을 보이는 객체가 포함된 영역이다.Referring to FIG. 5 , the region of interest generation unit 20 generates a region of interest corresponding to the user's gaze point according to information about the user's gaze point and a predetermined criterion among the images of the external environment obtained from the front camera 1. Create (s20). The ROI generating unit 20 receives the user's 3D gaze point information from the gaze point information estimation unit 10 . In addition, a user gaze image is provided from the front camera 1 . The region of interest may be defined as a rectangle having a certain area or may be defined along the boundary of an object. The region of interest is a region including an object in which the user shows interest by gazing at the user.

관심영역 생성부(20)는 사용자의 3차원 응시점 정보 및 응시 객체 정보 등을 참조하여 적응적 3차원 관심영역을 생성할 수 있다. 적응적 3차원 관심영역이란, 사용자의 3차원 응시점 정보를 참조하여, 대상 객체의 구조적 특성(위치 및 크기 등)에 대응하도록 생성된 관심영역을 의미한다.The ROI generating unit 20 may create an adaptive 3D ROI by referring to the user's 3D gaze point information and gaze object information. The adaptive 3D region of interest refers to a region of interest generated to correspond to the structural characteristics (position, size, etc.) of the target object by referring to the user's 3D gaze point information.

관심영역 생성부(20)는 전방 카메라(1)로부터 획득된 사용자 시선 영상을 제공받는다. 또한, 관심영역 생성부(20)는 응시점 정보 추정부(10)로부터 사용자의 3차원 응시점 정보를 제공받는다. 관심영역 생성부(20)는 사용자 시선 영상과 사용자의 응시점 정보를 기초로 관심영역을 생성한다. 이와 같이 설정된 관심영역은 사용자와 객체 사이의 거리가 반영된 3차원 관심영역일 수 있다.The ROI generating unit 20 receives the user gaze image obtained from the front camera 1 . In addition, the ROI generator 20 receives the user's 3D gaze point information from the gaze point information estimation unit 10 . The region of interest generator 20 creates a region of interest based on the user gaze image and information on the gaze point of the user. The set region of interest may be a 3D region of interest in which the distance between the user and the object is reflected.

도 5의 (a)를 참조하면, 관심영역 생성부(20)는 응시점 위치를 매개변수로 하여 관심영역의 기준 위치를 정의하고, 응시 거리와 응시점에 대응되는 객체의 폭 길이, 외부 환경에 대한 영상의 너비, 및 외부 환경을 촬영하는 카메라 수평 화각을 매개변수로 하여 관심영역의 크기를 정의할 수 있다.Referring to (a) of FIG. 5, the region of interest generator 20 defines the reference position of the region of interest using the position of the gaze point as a parameter, and determines the gaze distance, the width and length of the object corresponding to the gaze point, and the external environment. The size of the region of interest can be defined by using the width of the image and the horizontal angle of view of a camera that captures the external environment as parameters.

관심영역 생성부(20)는 사용자의 응시 거리에 따라 관심영역의 크기를 조절한다. 사용자의 응시 거리가 상대적으로 먼 경우, 관심영역 생성부(20)는 해당 객체에 대하여 사용자의 초점을 맞추기 위하여 관심영역의 크기를 작게 설정한다. 응시 거리가 멀면 사용자가 해당 객체를 유의깊게 살펴본 것이 되기 때문이다. 반면, 사용자의 응시 거리가 상대적으로 가까운 경우, 관심영역 생성부(20)는 해당 객체에 대하여 사용자의 초점을 맞추기 위하여 관심영역의 크기를 크게 설정한다. 즉, 사용자의 응시 거리가 해당 객체의 관심영역을 정의하는 매개변수가 될 수 있다.The region of interest generator 20 adjusts the size of the region of interest according to the gaze distance of the user. When the user's gazing distance is relatively long, the ROI generating unit 20 sets the size of the ROI to be small in order to focus the user on the corresponding object. This is because if the gaze distance is long, the user is looking at the object carefully. On the other hand, when the user's gazing distance is relatively short, the ROI generating unit 20 sets the size of the ROI large in order to focus the user on the corresponding object. That is, the gaze distance of the user may be a parameter defining the region of interest of the corresponding object.

응시 거리에 따라 해당 객체의 관심영역이 상대적으로 달라지므로, 응시 거리가 먼 관심영역의 폭은 상대적으로 작게 설정하고, 응시 거리가 가까운 관심영역의 폭은 상대적으로 크게 설정하여, 응시 거리를 관심영역의 폭에 반영할 수 있다.Since the area of interest of the object is relatively different depending on the gazing distance, set the width of the area of interest with a long gazing distance to be relatively small and the width of the area of interest with a short gazing distance to be relatively large. can be reflected in the width of

도 6은 도 1의 관심영역 생성부가 사전에 정해진 기준에 따라 초기 관심영역을 정의하기 위한 실제 객체와 관심영역과의 관계를 예시적으로 나타낸 도면이다.FIG. 6 is a diagram illustrating a relationship between a real object and a region of interest for defining an initial region of interest according to a predetermined criterion by the region of interest generator of FIG. 1 by way of example.

도 6을 참조하면, 관심영역 생성부(20)는 사용자의 3차원 응시점 정보, 객체의 기하학 정보(크기, 위치 등), 및 카메라 화각 및 영상 정보 등을 종합적으로 활용하여 초기 관심영역의 크기, 위치, 및 비율을 정의할 수 있다. 관심영역은 3차원으로 형성될 수 있다. 초기 관심영역이란, 후술하는 바와 같이 관심영역 생성부(20)가 관심영역의 크기를 조절하기 이전에 생성되는 관심영역을 의미한다.Referring to FIG. 6 , the ROI generating unit 20 comprehensively utilizes the user's 3D gazing point information, object geometry information (size, location, etc.), and camera view angle and image information to determine the size of the initial ROI. , position, and ratio can be defined. The region of interest may be formed in three dimensions. The initial ROI refers to an ROI generated before the ROI generator 20 adjusts the size of the ROI, as will be described later.

초기 관심영역은 영상 특성 분석에 필요한 기준점을 제시할 뿐만 아니라 탐색 범위를 제한하며, 추후 조절될 관심영역의 보정 방향성(확장/축소)를 결정하는데 기여한다.The initial region of interest not only presents a reference point necessary for image characteristic analysis, but also limits the search range, and contributes to determining the correction direction (expansion/reduction) of the region of interest to be adjusted later.

예를 들어, 사용자의 응시 위치 및 응시 거리와 같은 응시점 정보를 기초로 하여 초기 관심영역이 다음과 같이 정의될 수 있다.For example, the initial region of interest may be defined as follows based on gaze point information such as the user's gaze position and gaze distance.

Figure 112020117584664-pat00001
Figure 112020117584664-pat00001

이는, 다음과 같은 과정으로부터 도출된다.This is derived from the following process.

Figure 112020117584664-pat00002
Figure 112020117584664-pat00002

여기에서, 'ROIw(d)'는 사용자의 응시 거리를 통해 사용자가 거리 'd'를 바라볼 때의 초기 관심영역 폭(pix)을 의미한다. 또한, 'Ow'는 해당 객체의 최대 폭 길이(m)를 의미한다. 또한, 'Rwcam'은 외부 환경에 대한 영상의 너비(pix)를 의미한다. 또한, 'HFOV'는 전방 카메라(1)의 수평 화각(H-FOV)을 의미한다. 또한, 'd'는 사용자의 응시 거리를 의미한다. 상기 매개변수들을 통해 도출된 'ROIw(d)'는 거리 'd'를 바라볼 때의 초기 관심영역의 폭(pix)을 의미한다.Here, 'ROIw(d)' means the initial region-of-interest width (pix) when the user looks at the distance 'd' through the user's gazing distance. Also, 'Ow' means the maximum width length (m) of the object. Also, 'R w cam' means the width (pix) of the image of the external environment. Also, 'HFOV' means the horizontal field of view (H-FOV) of the front camera 1. Also, 'd' means the gaze distance of the user. 'ROIw(d)' derived through the above parameters means the width (pix) of the initial region of interest when looking at the distance 'd'.

이에 따르면, 거리 'd'를 바라볼 때의 관심영역의 폭 'ROIw(d)'는 해당 객체의 최대 폭 길이 'Ow', 영상 너비 'Rwcam', 및 전방 카메라(1)의 수평 화각 'HFOV'에 비례하며, 사용자의 응시 거리 'd'에 반비례한다.According to this, the width 'ROIw(d)' of the region of interest when looking at the distance 'd' is the maximum width length 'Ow' of the object, the image width 'R w cam', and the horizontal angle of view of the front camera 1 It is proportional to 'HFOV' and inversely proportional to the user's gaze distance 'd'.

예를 들어, 상대적으로 폭이 큰 객체에는 상대적으로 큰 초기 관심영역이 설정되며, 상대적으로 폭이 작은 객체에는 상대적으로 작은 초기 관심영역이 설정될 수 있다. 이때, 사용자의 응시 거리가 상대적으로 먼 객체에는 상대적으로 작은 초기 관심영역이 설정되며, 사용자의 응시 거리가 상대적으로 가까운 객체에는 상대적으로 큰 초기 관심영역이 설정될 수 있다.For example, a relatively large initial ROI may be set for a relatively wide object, and a relatively small initial ROI may be set for a relatively small width object. In this case, a relatively small initial region of interest may be set for an object at which the user's gaze distance is relatively long, and a relatively large initial region of interest may be set for an object at which the user's gaze distance is relatively short.

도 5의 (b)를 참조하면, 관심영역 생성부(20)는 관심영역에 속하지 않은 객체를 검출 대상에서 제외할 수 있도록 관심영역을 생성할 수 있다. 즉, 상기 구성에 따라 응시 거리가 먼 관심영역의 폭은 상대적으로 작게 설정되어, 그 이외의 비관심영역을 상대적으로 넓게 제외할 수 있다. 반면에, 응시 거리가 상대적으로 가까운 영역의 폭은 상대적으로 크게 설정되어, 그 이외의 비관심영역을 상대적으로 작게 제외할 수 있다. 이에 따라, 사용자가 응시 거리가 먼 관심영역을 보다 선별적으로 관찰할 수 있도록 한다.Referring to (b) of FIG. 5 , the ROI generator 20 may create a ROI to exclude an object not belonging to the ROI from a detection target. That is, according to the configuration, the width of the region of interest having a long gazing distance is set to be relatively small, and other non-interest regions can be excluded relatively wide. On the other hand, the width of an area with a relatively short gaze distance is set to be relatively large, so that other non-interest areas can be excluded as relatively small. Accordingly, it is possible for the user to more selectively observe a region of interest with a long gazing distance.

종래에는 대상 객체를 포함하는 영상 전체를 네트워크의 입력 크기로 줄여 입력 데이터로 사용하여 대상 객체를 표현하는 데이터의 손실이 크다는 문제점이 있었다. 본 발명에서는 영상 전체에서 관심 영역만을 네트워크 입력 영상 크기로 조정한 영상을 네트워크 입력 데이터로 사용하므로 데이터 손실이 최소화될 수 있다. 즉, 본 발명에 따르면 관심객체 주변의 고품질의 영상 정보를 사용자에게 제공함으로써 객체 검출 성능 향상에 기여할 수 있다. 또한, 사용자의 관심 영역과 비관심 영역을 구분하여 불필요한 후보 객체를 사전에 배제할 수 있으며, 객체 검출 및 인식 단계에서 불필요한 탐색 영역을 축소하고 프로세서의 연산량을 저감시킬 수 있다.Conventionally, there is a problem in that the loss of data representing the target object is large because the entire image including the target object is reduced to the input size of the network and used as input data. In the present invention, data loss can be minimized because an image obtained by adjusting only the region of interest in the entire image to the size of the network input image is used as network input data. That is, according to the present invention, object detection performance can be improved by providing high-quality image information around the object of interest to the user. In addition, unnecessary candidate objects may be excluded in advance by dividing the user's region of interest and region of non-interest, and an unnecessary search region may be reduced and the amount of computation of a processor may be reduced in an object detection and recognition step.

도 7의 (a), (b)는 도 1의 관심영역 생성부가 객체 정보를 반영하여 각 관심영역을 보정하는 과정을 개략적으로 나타낸 도면이다.7(a) and (b) are diagrams schematically illustrating a process of correcting each region of interest by reflecting object information in the region of interest generator of FIG. 1 .

도 7의 (a), (b)를 참조하면, 관심영역 생성부(20)는 사용자의 응시점에 대응되는 객체의 크기에 맞게 초기 관심영역의 크기를 조절할 수 있다(s20). 관심영역 생성부(20)는 외부 환경에 대한 영상의 색상, 영상의 엣지, 및 영상의 깊이맵 정보를 매개변수로 포함하여 관심영역의 폭을 조절할 수 있다. 객체의 엣지 정보는 예를 들어 웨어러블 디바이스에 장착된 전방 카메라(1)를 통해 사용자 전방 영상을 촬영한 후, 공지의 영상 처리 및 검출 기술을 이용하여 상기 영상의 각 부분의 깊이 정보를 분석하여 획득할 수 있다.Referring to (a) and (b) of FIG. 7 , the ROI generator 20 may adjust the size of the initial ROI according to the size of the object corresponding to the user's gazing point (S20). The region of interest generator 20 may adjust the width of the region of interest by including the color of the image of the external environment, the edge of the image, and the depth map information of the image as parameters. The edge information of the object is obtained by, for example, capturing an image in front of the user through a front camera 1 mounted on a wearable device, and then analyzing depth information of each part of the image using a known image processing and detection technology can do.

사용자의 응시점에 대응되는 관심객체에 대해 초기 관심영역이 설정되더라도 사용자의 응시 거리에 관계없이 객체마다 다른 형태와 크기를 가질 수 있다. 예를 들어, 사용자가 다리가 짧은 의자와 다리가 긴 의자를 볼 경우, 초기 관심영역은 동일하게 설정될 수 있지만, 실제로 양자의 형태는 다르며 이를 관심영역에 반영할 필요성이 있다.Even if the initial region of interest is set for the object of interest corresponding to the user's gaze point, each object may have a different shape and size regardless of the user's gaze distance. For example, when a user sees a chair with short legs and a chair with long legs, the initial regions of interest may be set to be the same, but the shapes of the two are actually different and need to be reflected in the regions of interest.

이를 고려하여, 관심영역 생성부(20)는 영상 특성(객체의 색상, 엣지 등)을 참조하여, 초기 생성된 관심영역을 응시점에 대응하는 관심객체의 형태와 크기에 맞도록 정밀하게 보정하는 후처리 작업을 수행한다.상세하게는, 객체의 엣지, 색상, 밝기 등의 영상 정보가 그룹핑(grouping)되어 객체의 전체 형상을 구성하는데, 객체의 엣지는 객체의 형상을 표현할 수 있는 우선 요소로 고려되며, 객체의 색상, 밝기 정보 등도 추가적으로 활용될 수 있다.In consideration of this, the ROI generating unit 20 refers to the image characteristics (color, edge, etc. of the object) and precisely corrects the initially generated ROI to match the shape and size of the object of interest corresponding to the gaze point. Post-processing is performed. In detail, image information such as the edge of an object, color, brightness, etc. is grouped to form the overall shape of the object, and the edge of the object is the preferred element that can express the shape of the object. It is considered, and the color and brightness information of the object can be additionally utilized.

도 7의 (a)를 참조하면, 관심영역 생성부(20)는 객체의 형태를 검출하여, 객체가 관심영역 생성부(20)에 의해 초기에 정해진 관심영역보다 작은 경우, 관심영역을 객체의 엣지까지 수축시킬 수 있다.Referring to (a) of FIG. 7 , the region of interest generator 20 detects the shape of the object, and if the object is smaller than the region of interest initially determined by the region of interest generator 20, the region of interest is set as the object's shape. It can be shrunk to the edge.

상세하게는, 먼저 관심영역 생성부(20)는 사용자의 응시점 정보 및 사전에 정해진 기준에 따라 초기 관심영역을 생성한다. 그 다음, 카메라 등을 통해 취득한 영상의 각 부분의 깊이 정보를 분석하여 객체의 엣지를 검출한다. 관심영역 생성부(20)는 생성된 초기 관심영역으로부터 가장 가까운 객체의 엣지 경계를 검색한 후, 가장 가까운 객체의 엣지가 관심영역의 내측에 위치한 경우 초기 관심영역을 가장 가까운 엣지 경계까지 수축시켜 업데이트된 관심영역을 생성할 수 있다.In detail, first, the ROI generating unit 20 generates an initial ROI according to the user's gazing point information and a predetermined criterion. Next, the edge of the object is detected by analyzing the depth information of each part of the image acquired through the camera or the like. The ROI generator 20 searches for the edge boundary of the object closest to the generated initial ROI, and if the edge of the nearest object is located inside the ROI, the initial ROI is contracted to the nearest edge boundary and updated. A region of interest can be created.

반면, 도 7의 (b)를 참조하면, 관심영역 생성부(20)는 객체의 기하학적 정보를 검출하여, 객체가 초기에 생성된 관심영역보다 큰 경우, 관심영역을 객체의 엣지까지 확장시킬 수 있다.On the other hand, referring to (b) of FIG. 7 , the ROI generating unit 20 detects the geometric information of the object and, if the object is larger than the initially generated ROI, may extend the ROI to the edge of the object. there is.

상세하게는, 먼저 관심영역 생성부(20)는 사용자의 응시점 정보 및 사전에 정해진 기준에 따라 초기 관심영역을 생성한다. 그 다음, 카메라 등을 통해 취득한 영상의 각 부분의 깊이 정보를 분석하여 객체의 엣지를 검출한다. 관심영역 생성부(20)는 생성된 초기 관심영역으로부터 가장 가까운 객체의 엣지 경계를 검색한 후, 가장 가까운 객체의 엣지가 관심영역의 외측에 위치한 경우 초기 관심영역을 가장 가까운 엣지 경계까지 확장시켜 업데이트된 관심영역을 생성할 수 있다.In detail, first, the ROI generating unit 20 generates an initial ROI according to the user's gazing point information and a predetermined criterion. Next, the edge of the object is detected by analyzing the depth information of each part of the image acquired through the camera or the like. The ROI generator 20 searches for the edge boundary of the object closest to the generated initial ROI, and if the edge of the nearest object is located outside the ROI, extends the initial ROI to the nearest edge boundary and updates the update. A region of interest can be created.

도 8는 도 1의 객체 정보 검출부가 객체에 따른 3차원 관심영역의 특징에 따라 서로 다른 객체 추론 특징맵을 선택하는정을 개략적으로 나타낸 도면이다. 도 9는 도 8의 복수의 레이어 중 일부를 조합하여 객체 검출 성능을 향상시킨 결과를 표로 나타낸 도면이다. 도 10은 도 8의 선택적 활성화 계층의 특징들을 나타낸 도면이다.FIG. 8 is a diagram schematically illustrating how the object information detector of FIG. 1 selects different object inference feature maps according to characteristics of a 3D region of interest according to an object. FIG. 9 is a table showing results of improving object detection performance by combining some of the plurality of layers of FIG. 8 . FIG. 10 is a diagram illustrating features of the selective activation layer of FIG. 8 .

도 8을 참조하면, 객체 정보 검출부(30)는 관심영역과 관심영역에 대응하는 외부 환경에 대한 영상의 특징에 따라 선택되는 복수의 특징맵(feature-map) 레이어 구조를 갖는 객체 검출 딥러닝 모델을 이용하여 관심영역 내의 객체 정보를 검출할 수 있다(s30). 객체 정보 검출부(30)는 관심영역 생성부(20)로부터 생성된 적응적 3차원 관심영역 정보를 제공받는다. 또한, 전방 카메라(1)로부터 사용자 시선 영상을 제공받는다.Referring to FIG. 8 , the object information detector 30 is an object detection deep learning model having a structure of a plurality of feature-map layers selected according to a region of interest and characteristics of an image of an external environment corresponding to the region of interest. Object information within the region of interest may be detected using (s30). The object information detector 30 receives the adaptive 3D ROI information generated by the ROI generator 20 . In addition, a user gaze image is provided from the front camera 1 .

객체 검출 딥러닝 모델은 관심영역과 외부 환경에 대한 영상 간의 비교 특징을 학습하여 복수의 특징맵 레이어들을 선택적으로 조합하는 가변적 신경망을 구성하여 관심객체를 검출할 수 있다.The object detection deep learning model can detect an object of interest by constructing a variable neural network that selectively combines a plurality of feature map layers by learning comparison features between an ROI and images of an external environment.

객체 검출 단계(s30)는 입력 단계(s31), 객체 정보 추정 단계(s32), 및 출력 단계(s33)를 포함한다. 상기 각 단계는 객체 정보 검출부(30)에 의해 수행된다.The object detection step (s30) includes an input step (s31), an object information estimation step (s32), and an output step (s33). Each of the above steps is performed by the object information detection unit 30 .

입력 단계(s31)는 객체 검출을 위한 영상 및 기타 영상 특징들(selective-activator features)이 입력되는 단계이다. 입력 단계(s31)에서는 관심영역 생성부(20)가 생성한 관심영역과 외부 환경에 대한 영상 간의 비교 특징을 입력 정보로 설정한다.The input step (s31) is a step of inputting an image for object detection and other image features (selective-activator features). In the input step (s31), comparison characteristics between the region of interest generated by the region of interest generator 20 and the image of the external environment are set as input information.

객체 정보 추정 단계(s32)는 입력 단계(s31)의 영상 및 기타 영상 특징을 분석하여, 객체 추론에 사용할 레이어를 적응적으로 선택하고 객체의 유형과 위치 정보를 추정하는 단계이다. 객체 정보 추정 단계(s32)에서는 상기 비교 특징을 학습하여 복수의 특징맵 레이어들을 선택적으로 조합하는 가변적 신경망을 구성하여 관심객체를 추출한다.The object information estimation step (s32) is a step of analyzing the image and other image characteristics of the input step (s31), adaptively selecting a layer to be used for object inference, and estimating object type and location information. In the object information estimation step (s32), an object of interest is extracted by constructing a variable neural network that selectively combines a plurality of feature map layers by learning the comparison features.

출력 단계(s33)는 객체 정보 추정 단계(s32)에서 추출된 객체 중 신뢰도가 높은 객체를 선별하여 출력하는 단계이다. 출력 단계(s33)에서는 객체 정보 추정 단계(s32)에서 추정된 관심객체 중 신뢰도가 높은 객체를 출력한다.The output step (s33) is a step of selecting and outputting an object having high reliability among the objects extracted in the object information estimation step (s32). In the output step s33, an object with high reliability among the objects of interest estimated in the object information estimation step s32 is output.

검출된 객체의 신뢰도(confidence)란, 객체 정보 검출부(30)가 객체를 해당 부류(유형, 카테고리)로 정확하게 판별할 확률을 의미한다. 예를 들어, “의자”를 검출할 때, 객체 정보 검출부(30)가 해당 객체가 “의자”일 확률을 90%, “테이블”일 확률을 35%로 추론했을 경우, 최종적으로 해당 객체를 “의자”로 판별하여 출력하는 것을 의미한다. 여기에서, 객체 정보 검출부(30)는 상기 객체 검출 딥러닝 모델을 이용하여 검출된 객체의 부류를 학습함으로써, 검출되는 객체 정보가 누적됨에 따라 검출된 객체의 신뢰도를 점차 높일 수 있다.The confidence of the detected object means the probability that the object information detection unit 30 will accurately determine the object as a corresponding class (type, category). For example, when detecting a “chair”, if the object information detection unit 30 infers a 90% probability that the corresponding object is a “chair” and a 35% probability that it is a “table”, the object is finally identified as “a chair”. This means that it is identified as “a chair” and outputted. Here, the object information detection unit 30 may gradually increase the reliability of the detected object as the detected object information accumulates by learning the detected object class using the object detection deep learning model.

관심영역 생성부(20)에서 생성되고 크기가 조절된 각 관심영역은 객체의 크기에 따라 크기가 서로 다르므로, 복수의 특징맵 또한 각 관심영역의 크기에 따라 정해진다. 객체 정보 검출부(30)는 객체 정보를 검출하기 위해 크기가 다른 복수의 특징맵 레이어 구조를 이용하는데, 복수의 특징맵 중 어떠한 특징맵들을 선택적으로 사용하느냐에 따라 객체 검출 성능 및 동작 속도가 달라지게 된다. 객체 정보 검출부(30)는 크기가 조절된 관심영역의 유형을 학습하여 복수의 특징맵 중 일부를 제외할 수 있다.Since each region of interest generated and resized by the region of interest generator 20 has a different size according to the size of an object, a plurality of feature maps are also determined according to the size of each region of interest. The object information detection unit 30 uses a plurality of feature map layer structures having different sizes to detect object information. Depending on which feature maps are selectively used among the plurality of feature maps, object detection performance and operation speed vary. . The object information detection unit 30 may exclude some of the plurality of feature maps by learning the type of the resized region of interest.

객체 정보 검출부(30)는 주어진 기준 신경망의 특징맵 레이어들의 구성을 달리하여 다양한 파생 신경망 조합을 구성하고, 관심영역 생성부(20)로부터 제공받은 입력 영상의 특성을 분석하여 이 중 최적의 파생 신경망을 시험(trial) 단위로 선택하여 객체 인식을 수행할 수 있다.The object information detector 30 constructs various derived neural network combinations by changing the configuration of the feature map layers of the given reference neural network, and analyzes the characteristics of the input image provided from the region of interest generator 20 to determine the optimal derived neural network among them. Object recognition can be performed by selecting as a trial unit.

종래에는 입력 영상에 대해 사전에 정의된 단일 객체 검출 네트워크를 사용하여 객체 인식을 수행하며, 이는 대상 객체의 크기 및 특성과 무관한 범용 네트워크에 해당한다. 반면, 본 발명에 따르면, 주어진 단일 신경망으로부터 대상 객체 속성에 따라 성능 특성이 다를 수 있는, 즉 네트워크 복잡도가 다른 복수의 파생 신경망을 생성할 수 있고, 파생 신경망을 적응적으로 선택하여 사용함으로써 최적의 성능을 나타낼 수 있다.Conventionally, object recognition is performed using a predefined single object detection network for an input image, which corresponds to a general-purpose network independent of the size and characteristics of a target object. On the other hand, according to the present invention, a plurality of derived neural networks having different performance characteristics, that is, different network complexity, can be generated from a given single neural network according to target object properties, and by adaptively selecting and using the derived neural networks, optimal performance can be shown.

이때, 객체 정보 검출부(30)는 3차원 관심영역 내 객체의 색상, 재질, 크기 등의 정보를 활용하여 검출된 객체에 따른 관심영역에 특징에 따라 서로 다른 객체 추론 특징맵을 선택하는 선택적 활성화 계층(Selective-Activator Layer)를 정의하고 이를 적용하여 응시점 정보 기반 객체 검출에 최적화된 인공신경망을 구성할 수 있다.At this time, the object information detection unit 30 is an optional activation layer that selects different object inference feature maps according to the characteristics of the region of interest according to the detected object using information such as color, material, size, etc. of the object in the 3D region of interest. (Selective-Activator Layer) can be defined and applied to construct an artificial neural network optimized for object detection based on gaze point information.

선택적 활성화 계층은 적응적 3차원 관심영역의 영상 특성을 분석하여 최적화된 인공신경망 조합을 구성하도록 각 특징맵 레이어들을 활성화 또는 비활성화하도록 설계된다. 이에 따라, 불필요한 특징맵 레이어들을 배제하기 때문에 연산의 정확도 및 속도가 향상되는 이점이 있다. 한편, 선택적 활성화 계층은 입력 영상에 따른 선택적 활성화 계층 특징 벡터(Selective-Activator Feature Vector)와 교차하는 방식으로 연결된다.The selective activation layer is designed to activate or deactivate each feature map layer to construct an optimized artificial neural network combination by analyzing the image characteristics of the adaptive 3D region of interest. Accordingly, since unnecessary feature map layers are excluded, there is an advantage in that accuracy and speed of calculation are improved. On the other hand, the selective activation layer is connected in a way of crossing the selective activation layer feature vector (Selective-Activator Feature Vector) according to the input image.

도 9를 참조하면, 객체 정보 검출부(30)은 다양한 특징맵 레이어 구성을 가지는 복수의 파생 신경망을 적용하여 객체 검출 성능을 최적화할 수 있다. 즉, 임의의 대상 환경에서 객체 추론에 필요한 가장 효율적인 특징맵 레이어들의 조합을 자동으로 설계하고 선택할 수 있으며, 이와 같은 객체 추론 레이어의 맞춤 선택을 통해 장치의 객체 검출 성능 및 동작 속도를 개선할 수 있다.Referring to FIG. 9 , the object information detection unit 30 may optimize object detection performance by applying a plurality of derived neural networks having various feature map layer configurations. That is, it is possible to automatically design and select the most efficient combination of feature map layers required for object inference in any target environment, and the object detection performance and operation speed of the device can be improved through such customized selection of the object inference layer. .

검출 정확도와 속도 사이에는 트레이드오프(trade-off) 관계가 있으며, 대상 객체의 크기에 따라 파생 신경망들의 성능 변화가 크게 나타난다. 각 시험(trial) 단위로 파생 신경망을 선택하여 적용함으로써, 높은 검출 정확도와 빠른 검출 속도를 모두 만족시킬 수 있다. 실시예에 따르면, 정확도와 속도를 모두 고려하였을 때, 도 9의 'T2' 모델은 큰 객체 검출에 유리하고, 'T4'는 작은 객체 검출에 유리하다.There is a trade-off relationship between detection accuracy and speed, and the performance of derived neural networks varies greatly depending on the size of a target object. By selecting and applying a derived neural network for each trial unit, both high detection accuracy and fast detection speed can be satisfied. According to the embodiment, when both accuracy and speed are considered, the 'T2' model of FIG. 9 is advantageous for detecting large objects, and the 'T4' model is advantageous for detecting small objects.

도 9를 상세히 설명하면, 'SSD(Single-Shot Multi-Box Detector)' 모델은 비교 대상이 되는 알고리즘인 베이스라인으로서 선행 연구에 해당한다. SSD 모델에서는 도 8의 'Conv7', 'Conv8', 'Ext-1', 'Ext-2', 'Ext-3', 및 'Ext-4'가 모두 선택된다. 이는 학습된 영상 특징 분석 필터의 예시를 나타낸다. 'Ada-3D-RoI + SSD' 모델은 본 발명의 '적응적 3차원 관심영역'을 적용하여, 네트워크 구조 변경 없이 베이스라인을 적용하였을 때의 객체 검출 모델에 해당한다. 'Ada-3D-RoI + SSD' 모델에서는 도 8의 'Conv7', 'Conv8', 'Ext-1', 'Ext-2', 'Ext-3', 및 'Ext-4'가 모두 선택된다. 'Ada-3D-RoI + Mod-SSD(Modified SSD)' 모델은 본 발명의 '적응적 3차원 관심영역'을 적용하되, 베이스라인의 네트워크 구조를 변경('Bounding Box Prediction Layer' 열에 O/X로 해당 레이어의 선택 또는 제외 여부가 표시됨)한 모델에 해당한다.Referring to FIG. 9 in detail, the 'SSD (Single-Shot Multi-Box Detector)' model corresponds to a previous study as a baseline, which is an algorithm to be compared. In the SSD model, 'Conv7', 'Conv8', 'Ext-1', 'Ext-2', 'Ext-3', and 'Ext-4' of FIG. 8 are all selected. This represents an example of a learned image feature analysis filter. The 'Ada-3D-RoI + SSD' model corresponds to an object detection model when the baseline is applied without changing the network structure by applying the 'adaptive 3D region of interest' of the present invention. In the 'Ada-3D-RoI + SSD' model, 'Conv7', 'Conv8', 'Ext-1', 'Ext-2', 'Ext-3', and 'Ext-4' in FIG. 8 are all selected. . The 'Ada-3D-RoI + Mod-SSD (Modified SSD)' model applies the 'adaptive 3D region of interest' of the present invention, but changes the network structure of the baseline (O/X in the 'Bounding Box Prediction Layer' column) indicates whether the corresponding layer is selected or excluded) and corresponds to one model.

도 9의 'Object Size' 열은 객체 크기에 따른 객체 검출 성능, FPS는 초당 프레임수로의 동작 속도를 의미한다. 'Avg. Gain(%)'는 'SSD'의 기존 성능 대비 각 검출 모델이 몇 퍼센트의 성능 개선이 있었는지를 평균치로 나타낸 것이다. 예를 들어, 'Ada-3D-RoI + SSD' 모델의 경우 'SSD' 모델에 비해 각 객체의 크기('small', 'medium', 'large')에 따라 약 '23%', '13%', '7%' 의 검출률 향상을 나타내며, 이를 평균한 값이 'Avg. Gain(%)', '14.1%' 으로 표시된다.The 'Object Size' column in FIG. 9 means object detection performance according to the size of the object, and FPS means the operating speed in terms of frames per second. 'Avg. 'Gain(%)' represents the average value of how many percent of each detection model's performance improved compared to the existing performance of 'SSD'. For example, in the case of the 'Ada-3D-RoI + SSD' model, it is about '23%' and '13%' depending on the size of each object ('small', 'medium', 'large') compared to the 'SSD' model. ', '7%' indicates an improvement in the detection rate, and the average value is 'Avg. It is displayed as 'Gain(%)' and '14.1%'.

본 발명에 따르면, '적응적 3차원 관심영역(Ada-3D-RoI)'을 이용하면 베이스라인('SSD')보다 적은 레이어 개수('Bounding Box Prediction Layer' 열 참조)로 보다 높은 성능('Avg. Gain(%)')을 발휘할 수 있다. 또한, ‘Bounding Box Prediction Layer'에서 선택된 레이어의 개수를 비교해보면, T3의 경우 총 4개의 레이어를 사용하는 반면, T4의 경우 총 3개의 레이어를 사용하여 T1 ~ T4 중 가장 적은 레이어를 사용하기 때문에 동작속도가 더 빠르게 나타난다.According to the present invention, when 'adaptive 3D region of interest (Ada-3D-RoI)' is used, higher performance (' Avg. Gain (%)'). In addition, comparing the number of layers selected in 'Bounding Box Prediction Layer', T3 uses a total of 4 layers, while T4 uses a total of 3 layers, which is the smallest among T1 to T4. The action speed appears faster.

상기 선택된 가장 효율적인 레이어들의 조합 데이터는 하드디스크 또는 서버와 같은 일반적인 저장 장치에 저장될 수 있으며, 이는 웨어러블 디바이스 및/또는 외부 연산 장치에 선택적으로 구비될 수 있다.Combination data of the selected most efficient layers may be stored in a general storage device such as a hard disk or a server, and may be selectively included in a wearable device and/or an external computing device.

도 10을 참조하면, 객체 검출 딥러닝 모델이 학습하는 관심영역과 외부 환경에 대한 영상 간의 비교 특징은 관심영역의 넓이와 외부 환경에 대한 영상 넓이의 비율, 관심영역에 대응되는 외부 환경에 대한 영상의 복잡도, 또는 관심영역에 대응되는 외부 환경에 대한 영상의 색상 대비를 포함할 수 있다.Referring to FIG. 10, the comparison characteristics between the region of interest and the image of the external environment, which is learned by the object detection deep learning model, are the ratio of the width of the region of interest to the image width of the external environment, and the image of the external environment corresponding to the region of interest. It may include the complexity of , or the color contrast of the image with respect to the external environment corresponding to the region of interest.

영상 스케일 정보는 원본 영상과 관심영역 생성부에 의해 생성된 관심영역을 이용하여 원본 영상 대비 입력 영상 크기 비율로 다음과 같은 식에 의해 획득된다. 영상 스케일 정보는 1차원 벡터로 표현되며, 관심객체의 크기가 전체 입력 영상 대비 어느 정도인지를 표현하는 기하학적 특징에 해당한다.The image scale information is obtained using the original image and the region of interest generated by the region of interest generation unit as a size ratio of the original image to the input image by the following equation. The image scale information is expressed as a one-dimensional vector and corresponds to a geometric feature representing how much the size of the object of interest is relative to the entire input image.

영상 스케일 비=Image scale ratio =

Figure 112020117584664-pat00003
(
Figure 112020117584664-pat00004
Figure 112020117584664-pat00003
(
Figure 112020117584664-pat00004

입력 영상의 복잡도는 주파수 대역을 활용하여 획득할 수 있다. 주파수 대역으로 환원할 경우, 영상 내 존재하는 잡음, 엣지 등의 정보를 단순화하여 표현하는 것이 가능하다(엔코딩(Encoding) 역할). 이는 총 275차원 벡터로 표현되며, 전체 300차원 벡터 중, 영상 스케일 정보와, 영상 대비 정보를 표현하는 25차원을 제외한 나머지 275차원을 입력 영상 복잡도를 표현하는 벡터로 활용한다.The complexity of the input image can be obtained using a frequency band. When reduced to a frequency band, it is possible to simplify and express information such as noise and edges existing in an image (encoding role). This is expressed as a total of 275-dimensional vectors, and out of the total 300-dimensional vectors, the remaining 275 dimensions, excluding the 25 dimensions representing image scale information and image contrast information, are used as vectors representing the input image complexity.

영상의 색상 대비 정보는 영상의 색상 채널별 대비 정보를 통해 획득할 수 있다. 영상의 색상 대비 정보는 입력 영상의 색상 채널별(R, G, B) 밝기 정보를 히스토그램으로 생성하고, 각 히스토그램을 8개의 셀로 나누어 총 24차원 벡터로 표현될 수 있다.The color contrast information of the image may be obtained through contrast information for each color channel of the image. The color contrast information of the image can be expressed as a total of 24-dimensional vectors by generating a histogram of brightness information for each color channel (R, G, B) of the input image and dividing each histogram into 8 cells.

객체 검출 단계(s30) 중, 입력 단계(s31)에서는 적응적 3차원 관심영역을 통해 정의된 입력 영상과, 관심 영역의 영상 특징을 입력 정보로 활용한다. 영상 특징으로는 영상 스케일 정보, 입력 영상 복잡도, 및 영상 대비 정보를 활용하며, 엔드 투 엔드(End-to-End) 네트워크 구성을 위해 각각 1차원, 275차원, 24차원 형태의 벡터로 인코딩하여 입력 영상과 함께 결합된 형태로 네트워크에 입력된다.도 11은 도 8의 객체 정보 추정 단계에 있어서, 객체 후보 추정 레이어 선택 단계 및 영상 특징 분석 및 객체 정보 추정 단계를 설명하기 위한 도면이다.In the object detection step (s30), in the input step (s31), the input image defined through the adaptive 3D region of interest and the image characteristics of the region of interest are used as input information. For image characteristics, image scale information, input image complexity, and image contrast information are used, and encoded and input as vectors in 1-dimensional, 275-dimensional, and 24-dimensional forms, respectively, to construct an end-to-end network. It is input to the network in a form combined with the image. FIG. 11 is a diagram for explaining the object candidate estimation layer selection step, image feature analysis, and object information estimation step in the object information estimation step of FIG. 8 .

도 11을 참조하면, 객체 정보 추정 단계(s32)는 객체 후보 추정 레이어 선택 단계(s32-1) 및 영상 특징 분석 및 객체 정보 추정 단계(s32-2)를 포함한다. 상기 각 단계는 객체 정보 검출부(30)에 의해 수행된다. 객체 후보 추정 레이어 선택 단계(s32-1)에서는 해당 입력 영상에 적합한 객체 후보 추정 레이어('Conv8', 'Ext-1', 'Ext-2', 'Ext-3', 및 'Ext-4' 중 다중 선택)를 활성화시킨다. 영상 특징 분석 및 객체 정보 추정 단계(s32-2)는 해당 영상 특징을 분석하고, 사전에 선택된 객체 후보 추정 레이어를 활용하여 객체의 유형과 위치 정보를 추정한다.Referring to FIG. 11 , the object information estimation step (s32) includes an object candidate estimation layer selection step (s32-1) and image feature analysis and object information estimation step (s32-2). Each of the above steps is performed by the object information detection unit 30 . In the object candidate estimation layer selection step (s32-1), the object candidate estimation layers ('Conv8', 'Ext-1', 'Ext-2', 'Ext-3', and 'Ext-4') suitable for the input image multiple selection) is activated. The image feature analysis and object information estimation step (s32-2) analyzes the corresponding image feature and estimates the type and location information of the object by utilizing a previously selected object candidate estimation layer.

도 8의 'Selective-Activator Feature Vector' 단과 'Selective-Activator' 단을 연결시킬 때, 이를 모두 연결시킬 수 있다. 'Selective-Activator' 단의 경우, 활성화 또는 비활성화시키고자 하는 대상 레이어의 개수에 맞게 뉴런(파란색 원으로 표시됨)을 설정하게 된다. 'Selective-Activator Feature Vector' 단의 모든 벡터 요소들과 'Selective-Activator' 단의 뉴런을 모두 연결시켜 학습하게 되면, 해당 입력 영상의 특징에 따라 도 9의 'Bounding Box Prediction Layer' 열에서 어떤 레이어를 활성화시킬지 또는 비활성화시킬지를 학습된 'Selective-Activator' 단의 뉴런들이 결정하게 된다.When connecting the 'Selective-Activator Feature Vector' stage and the 'Selective-Activator' stage of FIG. 8, they can all be connected. In the case of the 'Selective-Activator' stage, neurons (marked with blue circles) are set according to the number of target layers to be activated or deactivated. When all vector elements of the 'Selective-Activator Feature Vector' stage and neurons of the 'Selective-Activator' stage are connected and learned, which layer is selected from the 'Bounding Box Prediction Layer' column in FIG. 9 according to the characteristics of the input image Neurons in the learned 'Selective-Activator' stage decide whether to activate or inactivate.

출력 단계(s33)에서는 객체 정보 검출부(30)가 객체 정보 추정 단계(s32)에서 추출된 다수의 객체 후보군들에 대해 카테고리별 신뢰도, 위치 신뢰도, 및 중복 검사(Non-Maxima Suppression, NMS) 등을 통해 유의미한 객체들을 선별하여 사용자에게 제공한다.In the output step (s33), the object information detection unit 30 calculates reliability by category, location reliability, and non-maxima suppression (NMS) for the plurality of object candidates extracted in the object information estimation step (s32). Through this, meaningful objects are selected and provided to the user.

도 12는 도 1의 메타데이터 생성부에 의해 생성된 객체 정보가 시간별로 분류된 메타데이터의 예시를 나타낸 도면이다. 도 13은 도 12의 메타데이터가 시간별 관심객체 정보 로그를 통해 분류된 예시를 나타낸 도면이다.12 is a diagram illustrating an example of metadata in which object information generated by the metadata generator of FIG. 1 is classified by time. FIG. 13 is a diagram showing an example in which the metadata of FIG. 12 is classified through an object-of-interest information log by time.

도 12 및 도 13을 참조하면, 메타데이터 생성부(40)는 사용자 응시점 정보와 관심객체 정보를 기초로 사용자의 시·지각 반응 정보를 포함하는 메타데이터를 생성할 수 있다(s40). 생성된 메타데이터는 메모리와 같은 저장 장치에 저장될 수 있으며, 저장된 정보는 메타데이터 제공부(50)로 로딩될 수 있다. 메타데이터 생성부(40) 및 메타데이터 제공부(50)는 응시점 정보 추정부(10)로부터 사용자 3차원 응시점 정보를 제공받으며, 객체 정보 검출부(30)로부터 사용자 관심 객체 정보를 제공받는다. 또한, 메타데이터 생성부(40) 및 메타데이터 제공부(50)는 전방 카메라(1)로부터 사용자 시선 영상을 제공받으며, 좌측 및 우측 동공 카메라(2, 3)로부터 사용자 안구 영상을 제공받는다.Referring to FIGS. 12 and 13 , the metadata generation unit 40 may generate metadata including visual/perceptual response information of the user based on the user gaze point information and the object of interest information (S40). The generated metadata may be stored in a storage device such as a memory, and the stored information may be loaded into the metadata provider 50 . The metadata generating unit 40 and the metadata providing unit 50 receive user 3D gaze point information from the gaze point information estimation unit 10 and user interest object information from the object information detection unit 30 . In addition, the metadata generating unit 40 and the metadata providing unit 50 receive user gaze images from the front camera 1 and user eye images from the left and right pupil cameras 2 and 3 .

응시점 정보 추정부(10)가 추정하는 응시점 정보에는 사용자의 응시점 위치 및 응시 시간이 포함된다. 응시점 정보 추정부(10)는 관심객체에 대한 응시 빈도 및 응시점 형성 시간 정보 또한 획득할 수 있다. 객체 정보 검출부(30)가 검출하는 객체 정보에는 각 각 객체에 부여되는 ID 및 각 객체의 위치, 크기가 포함된다. 응시점 정보 추정부(10) 및 객체 정보 검출부(30)가 획득하는 상기 각 정보들은 메타데이터 생성부(40)에 제공된다.The gaze point information estimated by the gaze point information estimation unit 10 includes the user's gaze point location and gaze time. The gaze point information estimator 10 may also obtain gaze frequency and gaze point formation time information for the object of interest. The object information detected by the object information detection unit 30 includes an ID assigned to each object and the location and size of each object. Each of the pieces of information acquired by the gaze point information estimation unit 10 and the object information detection unit 30 are provided to the metadata generation unit 40 .

메타데이터 생성부(40)는 관심객체를 객체 유형별로 분류하고, 관심객체에 대한 응시 빈도 및 응시점 형성 시간 정보를 객체 유형별로 분류된 관심객체별로 기록할 수 있다. 이를 통해, 메타데이터 생성부(40)는 생활환경지능을 위한 메타데이터를 생성할 수 있다.The metadata generating unit 40 may classify objects of interest by object type, and may record gaze frequency and gaze point formation time information for each object of interest classified by object type. Through this, the metadata generation unit 40 may generate metadata for living environment intelligence.

메타데이터 생성부(40)는 응시점 정보 추정부(10)로부터 사용자의 응시점 정보를 제공받아 시간별 관심객체 정보 로그의 형태로 사용자가 각 객체를 응시하는 시각 정보 및 각 객체의 위치 정보를 포함하는 메타데이터를 생성한다. 생성된 메타데이터는 상기 저장 장치에 저장될 수 있다. 객체의 위치 정보는 공지된 GPS와 같은 위치 추적 장치를 사용하여 획득할 수 있다.The metadata generation unit 40 receives information on the user's gaze point from the gaze point information estimation unit 10 and includes time information when the user gazes at each object and location information of each object in the form of an object of interest information log by time. generate metadata that The generated metadata may be stored in the storage device. The location information of the object may be obtained using a known location tracking device such as GPS.

예를 들어, 사용자가 t1, t2 시각에서 램프의 위치(x1, y1, z1), t3 시각에서 테이블의 위치(x3, y3, z3), t4 시각에서 제1 의자의 위치(x4, y4, z4), t5 시각에서 제2 의자의 위치(x5, y5, z5), t6, t7 시각에서 거울의 위치(x6, y6, z6), t8 시각에서 테이블의 위치(x3, y3, z3)를 응시하는 경우, 메타데이터 생성부(40)는 상기 객체 정보를 시간별로 분류하여 시간별 관심객체 정보 로그를 생성할 수 있다.For example, the user determines the position of the lamp at times t1 and t2 (x1, y1, z1), the position of the table at time t3 (x3, y3, z3), and the position of the first chair at time t4 (x4, y4, z4 ), the position of the second chair at time t5 (x5, y5, z5), the position of the mirror at time t6 and t7 (x6, y6, z6), and the position of the table at time t8 (x3, y3, z3) In this case, the metadata generation unit 40 may classify the object information by time and generate an object of interest information log by time.

도 14 및 도 15는 도 1의 메타데이터 제공부에 의한 메타데이터의 활용 예시를 나타낸 도면이다. 도 14는 환경/객체 인지 및 분석의 활용 예시를 나타내며, 도 14는 사용자 행동/의도 인지 및 분석 활용 예시를 나타낸다.14 and 15 are diagrams illustrating examples of using metadata by the metadata providing unit of FIG. 1 . 14 shows an example of using environment/object recognition and analysis, and FIG. 14 shows an example of user behavior/intention recognition and analysis.

도 14 및 도 15를 참조하면, 메타데이터 제공부(50)는 메타데이터 생성부(40)가 생성한 메타데이터를 기초로 사용자가 위치한 주변 환경의 관심객체 정보와 사용자의 시·지각 반응 정보를 동시에 사용자에게 제공한다. 주변 환경의 관심객체 정보는 주변 환경에 속하는 관심객체의 구성, 배치, 및 각 객체별 관심도 정보를 포함한다.Referring to FIGS. 14 and 15 , the metadata providing unit 50 provides object of interest information of the surrounding environment where the user is located and visual/perceptual response information of the user based on the metadata generated by the metadata generating unit 40. at the same time to the user. The object-of-interest information of the surrounding environment includes the configuration and arrangement of the objects of interest belonging to the surrounding environment, and interest level information for each object.

메타데이터 제공부(50)는 사용자가 위치한 공간상에서 관심객체별 크기 및 위치를 경계상자의 형태로 나타내고, 시간에 따른 관심객체에 대한 응시 빈도에 따른 우선순위를 반영한 관심객체 지도를 생성하여 사용자가 위치한 주변 환경의 관심객체 정보를 제공할 수 있다.The metadata providing unit 50 represents the size and position of each object of interest in the form of a bounding box in the space where the user is located, and creates an object of interest map reflecting priority according to the frequency of staring at the object of interest over time, so that the user can Information on the object of interest in the surrounding environment may be provided.

메타데이터 제공부(50)는 시간에 따른 사용자의 관심객체 변화와 메타데이터 생성부로부터 갱신되는 관심객체별 응시 빈도 정보를 수신하여 사용자의 관심도가 높은 순으로 관심객체를 분류하여 제공할 수 있다.The metadata providing unit 50 may receive a change in the user's object of interest over time and gaze frequency information for each object of interest updated from the metadata generator, and classify the objects of interest in order of the user's level of interest and provide the objects of interest.

메타데이터 제공부(50)는 사용자의 현재 응시점 위치와 응시점에 대응하는 관심객체, 및 시간에 따른 관심객체의 변화에 대한 응시점의 변화를 각 관심객체에 대응하는 경계상자 및 각 관심객체의 변화를 나타내는 이동 경로 표시의 형태로 제공할 수 있다.The metadata providing unit 50 stores the location of the current gaze point of the user, the object of interest corresponding to the gaze point, and the change of the gaze point for the change of the object of interest over time as a bounding box corresponding to each object of interest and each object of interest. It can be provided in the form of a movement path display indicating a change in .

예를 들어, 사용자가 t1, t2 시각에서 램프의 위치(x1, y1, z1), t3 시각에서 테이블의 위치(x3, y3, z3), t4 시각에서 제1 의자의 위치(x4, y4, z4), t5 시각에서 제2 의자의 위치(x5, y5, z5), t6, t7 시각에서 거울의 위치(x6, y6, z6), t8 시각에서 테이블의 위치(x3, y3, z3)를 응시하는 경우 메타데이터 제공부(50)의 메타데이터 활용 예시는 다음과 같다.For example, the user determines the position of the lamp at times t1 and t2 (x1, y1, z1), the position of the table at time t3 (x3, y3, z3), and the position of the first chair at time t4 (x4, y4, z4 ), the position of the second chair at time t5 (x5, y5, z5), the position of the mirror at time t6 and t7 (x6, y6, z6), and the position of the table at time t8 (x3, y3, z3) In this case, an example of using the metadata of the metadata providing unit 50 is as follows.

메타데이터 제공부(50)는 t1 시각의 객체 관심 지도에는 램프의 위치가, t3 시각의 객체 관심 지도에는 테이블의 위치가, t4 시각의 객체 관심 지도에는 제1 의자의 위치가, t7 시각의 객체 관심 지도에는 거울의 위치가 객체 관심 지도상에 특정되도록 하는 방식으로 사용자에게 관심객체 정보를 제공할 수 있다.The metadata provider 50 displays the position of the lamp in the object interest map at time t1, the position of the table in the object interest map at time t3, the position of the first chair in the object interest map at time t4, and the object at time t7 In the interest map, object-of-interest information may be provided to the user in such a way that the position of the mirror is specified on the object interest map.

메타데이터 제공부(50)는 각 관심객체의 변화를 나타내는 이동 경로 표시의 형태로 사용자의 응시점의 변화를 제공할 수 있다. 상기 이동 경로 표시는 시간에 따른 관심객체의 변화에 대한 응시점의 변화를, n-1번째 관심객체에 대한 사용자의 응시점으로부터 n번째 관심객체 지각시 대응되는 사용자의 응시점으로의 응시점 위치 변화를 나타내도록 제공될 수 있다.The metadata providing unit 50 may provide a change in a user's gaze point in the form of a movement path indicating a change in each object of interest. The movement route display shows the change in the gaze point for the change of the object of interest over time, and the location of the gaze point from the user's gaze point for the n-1th object of interest to the user's gaze point corresponding to the n-th object of interest. may be provided to indicate a change.

예를 들어, 메타데이터 제공부(50)는 t2 시각에서 램프의 위치(x1, y1, z1)에서 t3 시각에서 테이블의 위치(x3, y3, z3)로, 또한, t5 시각에서 제2 의자의 위치(x5, y5, z5)에서 t6 시각에서 거울의 위치(x6, y6, z6)로 관심영역을 변화시키는 방식으로 사용자의 응시점의 변화를 제공할 수 있다.For example, the metadata providing unit 50 moves from the position of the lamp (x1, y1, z1) at time t2 to the position (x3, y3, z3) of the table at time t3, and also of the second chair at time t5. A change in the user's gaze point may be provided by changing the region of interest from the position (x5, y5, z5) to the position (x6, y6, z6) of the mirror at time t6.

상세하게는, 메타데이터 제공부(50)는 t3 시각의 정보를 로드하는 경우, 이전 관심객체인 램프의 위치(x1, y1, z1)에 대한 이전 응시점 위치 정보를 사용자에게 제공하고, 동시에 현재 관심객체인 테이블의 위치(x3, y3, z3)에 대한 현재 응시점 위치 정보를 이전 응시점 위치 정보로부터의 응시점 위치 변화 표시(노란색 화살표로 표시됨)화 함께 사용자에게 제공할 수 있다.In detail, when the information at time t3 is loaded, the metadata providing unit 50 provides the user with previous gaze point location information about the location (x1, y1, z1) of the lamp, which is the previous object of interest, to the user, and at the same time Current gazing point position information about the table position (x3, y3, z3) as an object of interest may be provided to the user together with a gaze point position change indication (indicated by a yellow arrow) from previous gazing point position information.

이 분야의 보호범위가 이상에서 명시적으로 설명한 실시예의 기재와 표현에 제한되는 것은 아니다. 또한, 본 발명이 속하는 기술분야에서 자명한 변경이나 치환으로 말미암아 본 발명의 보호범위가 제한될 수도 없음을 다시 한 번 첨언한다.The scope of protection in this field is not limited to the descriptions and expressions of the embodiments explicitly described above. In addition, it is added once again that the protection scope of the present invention cannot be limited due to obvious changes or substitutions in the technical field to which the present invention belongs.

Claims (24)

카메라로부터 사용자의 시선 방향으로 복수개의 객체가 포함된 외부 환경에 대한 영상 및 사용자의 동공의 위치에 대한 정보를 수신하여 처리하는 3차원 응시점 정보 기반 관심객체 검출 및 사용자 시지각 메타데이터 제공장치에 있어서,
상기 외부 환경에 대한 영상 및 사용자의 양안 동공에 대한 영상 정보를 통해 외부 환경과 사용자의 시선에 따른 응시점 정보를 추정하는 응시점 정보 추정부;
상기 외부 환경에 대한 영상 중, 상기 사용자의 응시점 정보 및 사전에 정해진 기준에 따라 사용자 응시점에 대응하는 관심영역을 생성하고, 사용자의 응시점에 대응되는 객체의 크기에 맞게 상기 관심영역의 크기를 조절하는 관심영역 생성부;
상기 관심영역과 상기 관심영역에 대응하는 상기 외부 환경에 대한 영상의 특징에 따라 선택되는 복수의 특징맵 레이어 구조를 갖는 객체 검출 딥러닝 모델을 이용하여 상기 관심영역 내의 관심객체 정보를 검출하는 객체 정보 검출부; 및
상기 사용자 응시점 정보와 상기 관심객체 정보를 기초로 사용자의 시·지각 반응 정보를 포함하는 메타데이터를 생성하는 메타데이터 생성부; 및
상기 메타데이터를 기초로 사용자가 위치한 주변 환경의 상기 관심객체 정보와 상기 사용자의 시·지각 반응 정보를 동시에 사용자에게 제공하는 메타데이터 제공부를 포함하며,
상기 메타데이터 제공부는 사용자가 위치한 공간상에서 상기 관심객체별 크기 및 위치를 경계상자의 형태로 나타내고, 시간에 따른 상기 관심객체에 대한 응시 빈도에 따른 우선순위를 반영한 관심객체 지도를 생성하여 사용자가 위치한 주변 환경의 상기 관심객체 정보를 제공하는 것을 특징으로 하는, 3차원 응시점 정보 기반 관심객체 검출 및 사용자 시지각 메타데이터 제공장치.
An apparatus for detecting an object of interest based on 3D gaze point information and providing user visual perception metadata by receiving and processing an image of an external environment including a plurality of objects in the direction of the user's gaze from a camera and information on the position of the user's pupil in
a gaze point information estimator for estimating gaze point information according to the gaze of the user and the external environment through the image of the external environment and image information of the pupils of both eyes of the user;
Among the images of the external environment, a region of interest corresponding to the user's gaze point is created according to the user's gaze point information and a predetermined criterion, and the size of the region of interest matches the size of the object corresponding to the user's gaze point. a region-of-interest generating unit that adjusts;
Object information for detecting object information in the ROI using an object detection deep learning model having a structure of a plurality of feature map layers selected according to the ROI and the characteristics of the image of the external environment corresponding to the ROI. detection unit; and
a metadata generating unit generating metadata including visual/perceptual response information of a user based on the user gaze point information and the object of interest information; and
a metadata providing unit that simultaneously provides the object of interest information of a surrounding environment where the user is located and visual/perceptual response information of the user to a user based on the metadata;
The metadata providing unit expresses the size and location of each object of interest in the form of a bounding box on the space where the user is located, creates an object of interest map reflecting priority according to the frequency of staring at the object of interest over time, and generates an object of interest map where the user is located. An apparatus for detecting an object of interest based on 3D gaze point information and providing user visual perception metadata, characterized in that the object of interest information of the surrounding environment is provided.
제1항에 있어서,
상기 사용자의 응시점 정보는 사용자가 위치한 공간 상의 응시점 위치, 및 사용자로부터의 응시 대상에 대한 응시 거리를 포함하는 것을 특징으로 하는, 3차원 응시점 정보 기반 관심객체 검출 및 사용자 시지각 메타데이터 제공장치.
According to claim 1,
Detecting an object of interest based on 3D gaze point information and providing user visual perception metadata, characterized in that the user's gaze point information includes a gaze point position in the space where the user is located and a gaze distance from the user to the gaze target. Device.
제2항에 있어서,
상기 관심영역 생성부는 상기 응시점 위치를 매개변수로 하여 관심영역의 기준 위치를 정의하고, 상기 응시 거리와 상기 응시점에 대응되는 객체의 폭 길이, 상기 외부 환경에 대한 영상의 너비, 및 외부 환경을 촬영하는 카메라 수평 화각을 매개변수로 하여 관심영역의 크기를 정의하는 것을 특징으로 하는, 3차원 응시점 정보 기반 관심객체 검출 및 사용자 시지각 메타데이터 제공장치.
According to claim 2,
The region of interest generation unit defines a reference position of the region of interest using the position of the gaze point as a parameter, and determines the gaze distance, the width and length of the object corresponding to the gaze point, the width of the image relative to the external environment, and the external environment An apparatus for detecting an object of interest based on 3D gaze point information and providing user visual perception metadata, characterized in that the size of a region of interest is defined using a horizontal angle of view of a camera as a parameter.
제3항에 있어서,
상기 관심영역 생성부는 상기 외부 환경에 대한 영상의 색상, 영상의 엣지, 및 영상의 깊이맵 정보를 매개변수로 포함하여 상기 관심영역의 폭을 조절하는 것을 특징으로 하는, 3차원 응시점 정보 기반 관심객체 검출 및 사용자 시지각 메타데이터 제공장치.
According to claim 3,
The region of interest generator adjusts the width of the region of interest by including a color of the image of the external environment, an edge of the image, and depth map information of the image as parameters, based on 3D gaze point information. Object detection and user visual perception metadata provision device.
제1항에 있어서,
상기 객체 정보 검출부는 상기 관심영역 생성부가 생성한 상기 관심영역과 상기 외부 환경에 대한 영상 간의 비교 특징을 입력 정보로 설정하고, 상기 비교 특징을 학습하여 상기 복수의 특징맵 레이어들을 선택적으로 조합하는 가변적 신경망을 구성하여 관심객체를 추출하는 것을 특징으로 하는, 3차원 응시점 정보 기반 관심객체 검출 및 사용자 시지각 메타데이터 제공장치.
According to claim 1,
The object information detector sets a comparison feature between the region of interest generated by the region of interest generator and the image of the external environment as input information, learns the comparison feature, and selectively combines the plurality of feature map layers. An apparatus for detecting an object of interest based on 3D gazing point information and providing user visual perception metadata, characterized in that a neural network is configured to extract an object of interest.
제5항에 있어서,
상기 비교 특징은 상기 관심영역의 넓이와 상기 외부 환경에 대한 영상 넓이의 비율, 상기 관심영역에 대응되는 상기 외부 환경에 대한 영상의 복잡도, 또는 상기 관심영역에 대응되는 상기 외부 환경에 대한 영상의 색상 대비를 포함하는 것을 특징으로 하는, 3차원 응시점 정보 기반 관심객체 검출 및 사용자 시지각 메타데이터 제공장치.
According to claim 5,
The comparison feature may be the ratio of the width of the ROI to the image width of the external environment, the complexity of the image of the external environment corresponding to the ROI, or the color of the image of the external environment corresponding to the ROI. An apparatus for detecting an object of interest based on 3D gazing point information and providing user visual perception metadata, characterized in that it includes contrast.
제5항에 있어서,
상기 객체 정보 검출부의 관심객체 추출은, 상기 복수의 특징맵 레이어 중 상기 입력 정보에 대해 정해진 적어도 하나의 객체 후보 추정 레이어를 활성화시키고, 상기 활성화된 객체 후보 레이어를 통해 상기 관심객체의 유형과 위치 정보를 추정하는 것을 특징으로 하는, 3차원 응시점 정보 기반 관심객체 검출 및 사용자 시지각 메타데이터 제공장치.
According to claim 5,
The object information detection unit extracts the object of interest by activating at least one object candidate estimation layer determined for the input information among the plurality of feature map layers, and the type and location information of the object of interest through the activated object candidate layer. An apparatus for detecting an object of interest based on 3D gazing point information and providing user visual perception metadata, characterized in that estimating .
제1항에 있어서,
상기 사용자의 응시점 정보 추정부는 상기 관심객체에 대한 응시 빈도 및 응시점 형성 시간 정보를 획득하고,
상기 메타데이터 생성부는 상기 관심객체를 객체 유형별로 분류하고, 상기 관심객체에 대한 응시 빈도 및 응시점 형성 시간 정보를 객체 유형별로 분류된 상기 관심객체별로 기록하는 것을 특징으로 하는, 3차원 응시점 정보 기반 관심객체 검출 및 사용자 시지각 메타데이터 제공장치.
According to claim 1,
The user's gaze point information estimator obtains gaze frequency and gaze point formation time information for the object of interest;
The metadata generation unit classifies the object of interest by object type, and records gaze frequency and gaze point formation time information for each object of interest classified by object type. Based object of interest detection and user visual perception metadata provision device.
삭제delete 제1항에 있어서,
상기 메타데이터 제공부는 시간에 따른 사용자의 상기 관심객체 변화와 상기 메타데이터 생성부로부터 갱신되는 상기 관심객체별 응시 빈도 정보를 수신하여 사용자의 관심도가 높은 순으로 관심객체를 분류하여 제공하는 것을 특징으로 하는, 3차원 응시점 정보 기반 관심객체 검출 및 사용자 시지각 메타데이터 제공장치.
According to claim 1,
The metadata providing unit receives the change in the user's object of interest over time and the gaze frequency information for each object of interest updated by the metadata generating unit, and classifies the objects of interest in order of the user's level of interest and provides them. An apparatus for detecting an object of interest based on 3D gaze point information and providing user visual perception metadata.
제1항에 있어서,
상기 메타데이터 제공부는 사용자의 현재 응시점 위치와 응시점에 대응하는 관심객체, 및 시간에 따른 관심객체의 변화에 대한 응시점의 변화를 상기 각 관심객체에 대응하는 경계상자 및 상기 각 관심객체의 변화를 나타내는 이동 경로 표시의 형태로 제공하는 것을 특징으로 하는, 3차원 응시점 정보 기반 관심객체 검출 및 사용자 시지각 메타데이터 제공장치.
According to claim 1,
The metadata providing unit stores the location of the user's current gaze point, the object of interest corresponding to the gaze point, and the change of the gaze point for the change of the object of interest over time in a bounding box corresponding to each object of interest and each object of interest. An apparatus for detecting an object of interest based on 3D gazing point information and providing user visual perception metadata, characterized in that it is provided in the form of a movement path indicating change.
제11항에 있어서,
상기 이동 경로 표시는 시간에 따른 관심객체의 변화에 대한 응시점의 변화를, n-1번째 관심객체에 대한 사용자의 응시점으로부터 n번째 관심객체 지각시 대응되는 사용자의 응시점으로의 응시점 위치 변화를 나타내도록 제공되는 것을 특징으로 하는, 3차원 응시점 정보 기반 관심객체 검출 및 사용자 시지각 메타데이터 제공장치.
According to claim 11,
The movement route display shows the change in the gaze point for the change of the object of interest over time, and the location of the gaze point from the user's gaze point for the n-1th object of interest to the user's gaze point corresponding to the n-th object of interest. An apparatus for detecting an object of interest based on 3D gazing point information and providing user visual perception metadata, characterized in that it is provided to indicate a change.
카메라로부터 사용자의 시선 방향으로 복수개의 객체가 포함된 외부 환경에 대한 영상 및 사용자의 동공의 위치에 대한 정보를 수신하여 처리하는 3차원 응시점 정보 기반 관심객체 검출 및 사용자 시지각 메타데이터 제공방법에 있어서,
(a) 상기 외부 환경에 대한 영상 및 사용자의 양안 동공에 대한 영상 정보를 통해 외부 환경과 사용자의 시선에 따른 응시점 정보를 추정하는 단계;
(b) 상기 외부 환경에 대한 영상 중, 상기 사용자의 응시점 정보 및 사전에 정해진 기준에 따라 사용자 응시점에 대응하는 관심영역을 생성하고, 사용자의 응시점에 대응되는 객체의 크기에 맞게 상기 관심영역의 크기를 조절하는 단계;
(c) 상기 관심영역과 상기 관심영역에 대응하는 상기 외부 환경에 대한 영상의 특징에 따라 선택되는 복수의 특징맵 레이어 구조를 갖는 객체 검출 딥러닝 모델을 이용하여 상기 관심영역 내의 객체 정보를 검출하는 단계;
(d) 상기 사용자 응시점 정보와 상기 관심객체 정보를 기초로 사용자의 시·지각 반응 정보를 포함하는 메타데이터를 생성하는 단계; 및
(e) 상기 메타데이터를 기초로 사용자가 위치한 주변 환경의 상기 관심객체 정보와 상기 사용자의 시·지각 반응 정보를 동시에 사용자에게 제공하는 단계를 포함하며,
상기 (e) 단계는 사용자가 위치한 공간상에서 상기 관심객체별 크기 및 위치를 경계상자의 형태로 나타내고, 시간에 따른 상기 관심객체에 대한 응시 빈도에 따른 우선순위를 반영한 관심객체 지도를 생성하여 사용자가 위치한 주변 환경의 상기 관심객체 정보를 제공하는 것을 특징으로 하는, 3차원 응시점 정보 기반 관심객체 검출 및 사용자 시지각 메타데이터 제공방법.
A method for detecting an object of interest based on 3D gaze point information and providing user visual perception metadata by receiving and processing an image of an external environment including a plurality of objects in the direction of the user's gaze from a camera and information on the location of the user's pupil in
(a) estimating gaze point information according to the external environment and the gaze of the user through the image of the external environment and the image information of the pupils of both eyes of the user;
(b) Among the images of the external environment, a region of interest corresponding to the user's gaze point is generated according to the user's gaze point information and a predetermined criterion, and the interest is matched to the size of the object corresponding to the user's gaze point. resizing the area;
(c) detecting object information in the region of interest using an object detection deep learning model having a structure of a plurality of feature map layers selected according to the region of interest and characteristics of the image of the external environment corresponding to the region of interest step;
(d) generating metadata including visual/perceptual response information of the user based on the user gaze point information and the object of interest information; and
(e) simultaneously providing the object of interest information of a surrounding environment where the user is located and visual/perceptual response information of the user to the user based on the metadata;
The step (e) represents the size and position of each object of interest in the form of a bounding box on the space where the user is located, and creates an object of interest map reflecting priority according to the frequency of staring at the object of interest over time, so that the user can A method of detecting an object of interest based on 3D gaze point information and providing user visual perception metadata, characterized in that providing the object of interest information of a located surrounding environment.
제13항에 있어서,
상기 사용자의 응시점 정보는 사용자가 위치한 공간 상의 응시점 위치, 및 사용자로부터의 응시 대상에 대한 응시 거리를 포함하는 것을 특징으로 하는, 3차원 응시점 정보 기반 관심객체 검출 및 사용자 시지각 메타데이터 제공방법.
According to claim 13,
Detecting an object of interest based on 3D gaze point information and providing user visual perception metadata, characterized in that the user's gaze point information includes a gaze point position in the space where the user is located and a gaze distance from the user to the gaze target. method.
제14항에 있어서,
상기 (b) 단계는 상기 응시점 위치를 매개변수로 하여 관심영역의 기준 위치를 정의하고, 상기 응시 거리와 상기 응시점에 대응되는 객체의 폭 길이, 상기 외부 환경에 대한 영상의 너비, 및 외부 환경을 촬영하는 카메라 수평 화각을 매개변수로 하여 관심영역의 크기를 정의하는 것을 특징으로 하는, 3차원 응시점 정보 기반 관심객체 검출 및 사용자 시지각 메타데이터 제공방법.
According to claim 14,
In the step (b), the reference position of the region of interest is defined using the location of the gaze point as a parameter, and the gaze distance, the width and length of the object corresponding to the gaze point, the width of the image relative to the external environment, and the external A method for detecting an object of interest based on 3D gaze point information and providing user visual perception metadata, characterized in that the size of a region of interest is defined using a horizontal angle of view of a camera photographing an environment as a parameter.
제15항에 있어서,
상기 (b) 단계는 상기 외부 환경에 대한 영상의 색상, 영상의 엣지, 및 영상의 깊이맵 정보를 매개변수로 포함하여 상기 관심영역의 폭을 조절하는 것을 특징으로 하는, 3차원 응시점 정보 기반 관심객체 검출 및 사용자 시지각 메타데이터 제공방법.
According to claim 15,
In the step (b), the width of the region of interest is adjusted by including a color of the image of the external environment, an edge of the image, and depth map information of the image as parameters, based on 3D gaze point information. A method for detecting an object of interest and providing user visual perception metadata.
제13항에 있어서, 상기 (c) 단계는
(c-1) 상기 (b) 단계에서 생성된 상기 관심영역과 상기 외부 환경에 대한 영상 간의 비교 특징을 입력 정보로 설정하는 단계; 및
(c-2) 상기 비교 특징을 학습하여 상기 복수의 특징맵 레이어들을 선택적으로 조합하는 가변적 신경망을 구성하여 관심객체를 추출하는 단계를 포함하는 것을 특징으로 하는, 3차원 응시점 정보 기반 관심객체 검출 및 사용자 시지각 메타데이터 제공방법.
The method of claim 13, wherein step (c) is
(c-1) setting a comparison feature between the ROI generated in step (b) and the image of the external environment as input information; and
(c-2) extracting an object of interest by constructing a variable neural network that learns the comparison feature and selectively combines the plurality of feature map layers, and detects the object of interest based on 3D gaze point information. and a method for providing user visual perception metadata.
제17항에 있어서,
상기 비교 특징은 상기 관심영역의 넓이와 상기 외부 환경에 대한 영상 넓이의 비율, 상기 관심영역에 대응되는 상기 외부 환경에 대한 영상의 복잡도, 또는 상기 관심영역에 대응되는 상기 외부 환경에 대한 영상의 색상 대비를 포함하는 것을 특징으로 하는, 3차원 응시점 정보 기반 관심객체 검출 및 사용자 시지각 메타데이터 제공방법.
According to claim 17,
The comparison feature may be the ratio of the width of the ROI to the image width of the external environment, the complexity of the image of the external environment corresponding to the ROI, or the color of the image of the external environment corresponding to the ROI. A method of detecting an object of interest based on 3D gaze point information and providing user visual perception metadata, characterized in that it includes contrast.
제17항에 있어서,
상기 (c-2) 단계는 상기 복수의 특징맵 레이어 중 상기 입력 정보에 대해 정해진 적어도 하나의 객체 후보 추정 레이어를 활성화시키고, 상기 활성화된 객체 후보 레이어를 통해 상기 관심객체의 유형과 위치 정보를 추정하는 것을 특징으로 하는, 3차원 응시점 정보 기반 관심객체 검출 및 사용자 시지각 메타데이터 제공방법.
According to claim 17,
The step (c-2) activates at least one object candidate estimation layer determined for the input information among the plurality of feature map layers, and estimates the type and location information of the object of interest through the activated object candidate layer. A method of detecting an object of interest based on 3D gaze point information and providing user visual perception metadata, characterized in that:
제13항에 있어서,
상기 (a) 단계는 상기 관심객체에 대한 응시 빈도 및 응시점 형성 시간 정보를 획득하고,
상기 (d) 단계는 상기 관심객체를 객체 유형별로 분류하고, 상기 관심객체에 대한 응시 빈도 및 응시점 형성 시간 정보를 객체 유형별로 분류된 상기 관심객체별로 기록하는 것을 특징으로 하는, 3차원 응시점 정보 기반 관심객체 검출 및 사용자 시지각 메타데이터 제공방법.
According to claim 13,
Step (a) obtains information on the frequency of gaze and the formation time of gaze point for the object of interest;
In the step (d), the object of interest is classified by object type, and gaze frequency and gaze point formation time information for the object of interest are recorded for each object of interest classified by object type. A method for detecting an object of interest based on information and providing user visual perception metadata.
삭제delete 제21항에 있어서,
상기 (e) 단계는 시간에 따른 사용자의 상기 관심객체 변화와 메타데이터 생성부로부터 갱신되는 상기 관심객체별 응시 빈도 정보를 수신하여 사용자의 관심도가 높은 순으로 관심객체를 분류하여 제공하는 것을 특징으로 하는, 3차원 응시점 정보 기반 관심객체 검출 및 사용자 시지각 메타데이터 제공방법.
According to claim 21,
In the step (e), the change in the object of interest of the user over time and the gaze frequency information for each object of interest updated from the metadata generator are received, and the objects of interest are classified in order of the user's interest level and provided. A method for detecting an object of interest based on 3D gaze point information and providing user visual perception metadata.
제13항에 있어서,
상기 (e) 단계는 사용자의 현재 응시점 위치와 응시점에 대응하는 관심객체, 및 시간에 따른 관심객체의 변화에 대한 응시점의 변화를 상기 각 관심객체에 대응하는 경계상자 및 상기 각 관심객체의 변화를 나타내는 이동 경로 표시의 형태로 제공하는 것을 특징으로 하는, 3차원 응시점 정보 기반 관심객체 검출 및 사용자 시지각 메타데이터 제공방법.
According to claim 13,
In the step (e), the location of the user's current gaze point, the object of interest corresponding to the gaze point, and the change of the gaze point for the change of the object of interest over time are stored in a bounding box corresponding to each object of interest and each object of interest. A method of detecting an object of interest based on 3D gazing point information and providing user visual perception metadata, characterized in that providing it in the form of a movement path indicating a change in .
제23항에 있어서,
상기 이동 경로 표시는 시간에 따른 관심객체의 변화에 대한 응시점의 변화를, n-1번째 관심객체에 대한 사용자의 응시점으로부터 n번째 관심객체 지각시 대응되는 사용자의 응시점으로의 응시점 위치 변화를 나타내도록 제공되는 것을 특징으로 하는, 3차원 응시점 정보 기반 관심객체 검출 및 사용자 시지각 메타데이터 제공방법.
According to claim 23,
The movement route display shows the change in the gaze point for the change of the object of interest over time, and the location of the gaze point from the user's gaze point for the n-1th object of interest to the user's gaze point corresponding to the n-th object of interest. A method of detecting an object of interest based on 3D gaze point information and providing user visual perception metadata, characterized in that it is provided to indicate a change.
KR1020200145813A 2020-11-04 2020-11-04 Apparatus for detecting objects of interest based on 3d gaze point information and providing metadata reflecting user's perspective and perception KR102543306B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200145813A KR102543306B1 (en) 2020-11-04 2020-11-04 Apparatus for detecting objects of interest based on 3d gaze point information and providing metadata reflecting user's perspective and perception

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200145813A KR102543306B1 (en) 2020-11-04 2020-11-04 Apparatus for detecting objects of interest based on 3d gaze point information and providing metadata reflecting user's perspective and perception

Publications (2)

Publication Number Publication Date
KR20220060163A KR20220060163A (en) 2022-05-11
KR102543306B1 true KR102543306B1 (en) 2023-06-16

Family

ID=81606950

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200145813A KR102543306B1 (en) 2020-11-04 2020-11-04 Apparatus for detecting objects of interest based on 3d gaze point information and providing metadata reflecting user's perspective and perception

Country Status (1)

Country Link
KR (1) KR102543306B1 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023239043A1 (en) * 2022-06-08 2023-12-14 삼성전자주식회사 Method for detecting object, and electronic device supporting same
KR102589150B1 (en) * 2022-12-12 2023-10-16 유티정보 주식회사 Long-distance object detection system using cumulative difference image

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120127790A (en) * 2011-05-16 2012-11-26 경북대학교 산학협력단 Eye tracking system and method the same
KR101343875B1 (en) * 2011-12-06 2013-12-23 경북대학교 산학협력단 Analysis device of user cognition and method for analysis of user cognition
KR101564967B1 (en) * 2014-03-17 2015-11-02 홍익대학교 산학협력단 System and method to identify user interest using eye tracking
KR102159954B1 (en) * 2014-09-29 2020-09-25 에스케이텔레콤 주식회사 Method for establishing region of interest in intelligent video analytics and video analysis apparatus using the same
KR20160126309A (en) 2015-04-23 2016-11-02 삼성전자주식회사 Wearable electronic device

Also Published As

Publication number Publication date
KR20220060163A (en) 2022-05-11

Similar Documents

Publication Publication Date Title
KR102192899B1 (en) Method and storage medium for applying bokeh effect to one or more images
US20230351259A1 (en) Training data generating device, method, and program, and crowd state recognition device, method, and program
JP6943338B2 (en) Image processing equipment, systems, methods and programs
EP3674852B1 (en) Method and apparatus with gaze estimation
JP6458394B2 (en) Object tracking method and object tracking apparatus
JP5554984B2 (en) Pattern recognition method and pattern recognition apparatus
WO2020125499A1 (en) Operation prompting method and glasses
KR102543306B1 (en) Apparatus for detecting objects of interest based on 3d gaze point information and providing metadata reflecting user's perspective and perception
JP5127067B2 (en) Image search apparatus and image search method
US12008686B2 (en) Augmented reality map curation
WO2015163830A1 (en) Target localization and size estimation via multiple model learning in visual tracking
CN107851192B (en) Apparatus and method for detecting face part and face
KR20150004397A (en) Systems, methods, and media for providing interactive refocusing in images
JP7093427B2 (en) Object tracking methods and equipment, electronic equipment and storage media
US20160259898A1 (en) Apparatus and method for providing reliability for computer aided diagnosis
KR102280201B1 (en) Method and apparatus for inferring invisible image using machine learning
Wang et al. Stereoscopic image retargeting based on 3D saliency detection
WO2020197655A1 (en) Action classification based on manipulated object movement
KR20160046399A (en) Method and Apparatus for Generation Texture Map, and Database Generation Method
CN106922181A (en) Directional perception is focused on automatically
JP7312026B2 (en) Image processing device, image processing method and program
Duan et al. Visual conspicuity index: Spatial dissimilarity, distance, and central bias
EP2947626A1 (en) Method and apparatus for generating spanning tree, method and apparatus for stereo matching, method and apparatus for up-sampling, and method and apparatus for generating reference pixel
KR102327578B1 (en) Apparatus and method for providing object and environment information using wearable device
JP7385416B2 (en) Image processing device, image processing system, image processing method, and image processing program

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right