WO2019045244A1 - 시각 대화를 통해 객체의 위치를 알아내기 위한 주의 기억 방법 및 시스템 - Google Patents

시각 대화를 통해 객체의 위치를 알아내기 위한 주의 기억 방법 및 시스템 Download PDF

Info

Publication number
WO2019045244A1
WO2019045244A1 PCT/KR2018/007410 KR2018007410W WO2019045244A1 WO 2019045244 A1 WO2019045244 A1 WO 2019045244A1 KR 2018007410 W KR2018007410 W KR 2018007410W WO 2019045244 A1 WO2019045244 A1 WO 2019045244A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
memory
information
question
answer
Prior art date
Application number
PCT/KR2018/007410
Other languages
English (en)
French (fr)
Inventor
장병탁
한철호
허유정
강우영
전재현
Original Assignee
서울대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교 산학협력단 filed Critical 서울대학교 산학협력단
Priority to US16/605,800 priority Critical patent/US11188774B2/en
Publication of WO2019045244A1 publication Critical patent/WO2019045244A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/041Abduction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/0007Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Abstract

시각 대화를 통해 객체의 위치를 알아내기 위한 주의 기억 방법 및 시스템을 제시하며, 이미지 상의 객체를 식별하는 주의기억시스템에 있어서, 상기 이미지 상에서 기 설정된 객체를 식별하기 위한 질문을 생성하고, 생성된 질문에 대해 답변을 도출하고, 상기 질문 및 상기 답변에 기초하여 상기 이미지에서 기 설정된 객체를 식별하는 제어부 및 상기 이미지를 저장하는 메모리를 포함하며, 상기 제어부는, 상기 이미지에 포함된 객체들에 대한 정보를 반영하여 상기 질문을 생성하고, 상기 답변에 기초하여 상기 객체들에 대한 정보를 갱신할 수 있다.

Description

시각 대화를 통해 객체의 위치를 알아내기 위한 주의 기억 방법 및 시스템
본 명세서에서 개시되는 실시예들은 시각 대화를 통해 객체의 위치를 알아내기 주의 기억 방법 및 시스템에 관한 것으로, 보다 상세하게는 인공지능으로 구현된 질문자 및 답변자 사이의 대화를 통해 이미지상의 객체를 식별하는 방법에서 이미지상의 객체의 위치정보를 저장하는 주의 기억을 이용한 효율적인 질문을 생성하도록 하는 주의 기억 방법 및 시스템에 관한 것이다.
2018년 과제번호 및 사사표기
1-1. 과제고유번호: 1711065242
1-2. 사사 국문표기: 본 연구는 과학기술정보통신부 및 정보통신기술진흥센터의 SW컴퓨팅산업원천기술개발사업(SW스타랩)의 연구결과로 수행되었음" (IITP-2018-1711065242)
1-3. 사사 영문표기: This research was supported by the MSIT(Ministry of Science and ICT), Korea, under the SW Starlab support program (IITP-2018-1711065242) supervised by the IITP(Institute for Information & communications Technology Promotion)
1-4. 기여율: 1/2
2-1. 과제고유번호: 1415155958
2-2. 사사 국문표기: 이 연구는 2018년도 산업통상자원부 및 산업기술평가관리원(KEIT) 연구비 지원에 의한 연구임('1415155958')
2-3. 사사 영문표기: This work was supported by the Technology Innovation Program (or Industrial Strategic Technology Development Program) ( 1415155958 , A robot intelligence software framework as an open and self-growing integration foundation of intelligence and knowledge for personal service robots) funded By the Ministry of Trade & Energy(MOTIE, Korea)
2-4. 기여율: 1/2
뉴럴네트워크는 생물 신경계의 고도의 정보처리기구를 공학적으로 모방해서 입력과 출력을 상호간에 상세히 관련지어 복잡한 제어를 하는 정보처리기술로 스위치나 각 센서 등에서 신호를 보내는 입력 레이어, 그 정보를 바탕으로 입력과 출력의 우선순위를 정하면서 상호관계를 조정하는 은닉 레이어, 이것을 바탕으로 필요한 제어량을 산출해서 출력하는 출력 레이어 3종류의 뉴론(신경세포) 모델이 복수로 얽혀서 네트워크를 구성하고 있다.
이러한 뉴럴네트워크는 이미지상의 객체를 식별하는데 이용되고 있으며, 객체를 효율적으로 인식하기 위한 다양한 기술에 응용되고 있다.
이와 같이 뉴럴네트워크를 이용한 이미지의 객체를 인식하는 방법 중 스무고개와 같이 질문자와 답변자 역할을 하는 두 개의 플레이어가 질문과 답변을 반복함으로써 이미지에서 기 설정된 객체를 식별하는 방법이 있다.
즉, 질문자는 주어진 이미지에 기 설정된 객체를 예측하기 위한 제 1 질문을 생성하여 답변자에게 제공하고, 질문에 대한 답변자의 답변과 제 1 질문을 기초로 제 2 질문을 생성하는 과정을 반복하여 이미지상의 객체 중 기 설정된 객체를 선택한다.
하지만, 질문자는 질문을 생성할 때, 자신이 한 질문과 답변자의 답변만을 기초로 질문을 생성함에 따라 객체를 식별하는데 중요한 정보를 포함하는 효율적인 질문을 생성하지 못한다는 문제점이 있다.
관련하여 선행기술 문헌인 한국특허공개번호 제10-2017-0033398호에서는 발화 인식 시스템을 위해 신경망을 구현하는 것에 관련된 기법으로 발화 디코더에 의해 필요로 되는 출력만이 신경망 또는 근사계산 기법을 통하여 제공되도록, 근사계산된 스킵 프레임을 이용한 프레임 스키핑 및 수요거리를 계산할 뿐, 상술된 바와 같이 대화 시스템에서 효율적인 질문을 생성하지 못한다.
따라서 상술된 문제점을 해결하기 위한 기술이 필요하게 되었다.
한편, 전술한 배경기술은 발명자가 본 발명의 도출을 위해 보유하고 있었거나, 본 발명의 도출 과정에서 습득한 기술 정보로서, 반드시 본 발명의 출원 전에 일반 공중에게 공개된 공지기술이라 할 수는 없다.
본 명세서에서 개시되는 실시예들은, 시각 대화를 통해 객체의 위치를 알아내기 위한 주의 기억 방법 및 시스템을 제시하는데 목적이 있다.
또한, 본 명세서에서 개시되는 실시예들은, 주의 기억에 저장된 이미지상의 객체의 위치를 이용하여 질문을 생성하는 주의 기억 방법 및 시스템을 제시하는 데 목적이 있다.
아울러 본 명세서에서 개시되는 실시예들은, 대화를 통해 주의 기억에 저장된 이미상의 객체의 위치를 갱신함으로써 효율적인 질문을 생성하는 주의 기억 방법 및 시스템을 제시하는 데 목적이 있다.
상술한 기술적 과제를 달성하기 위한 기술적 해결방법은, 이미지상의 객체를 식별하기 위해 질문을 생성하고 생성된 질문에 대한 답변에 기초하여 이미지상의 객체를 식별한다.
전술한 과제 해결 수단 중 어느 하나에 의하면, 시각 대화를 통해 객체의 위치를 알아내기 위한 주의 기억 방법 및 시스템을 제시할 수 있다.
또한, 전술한 과제 해결 수단 중 어느 하나에 의하면, 주의 기억에 저장된 이미지상의 객체의 위치를 이용하여 질문을 생성하는 주의 기억 방법 및 시스템을 제시할 수 있다.
아울러 본 명세서에서 개시되는 실시예들은, 대화를 통해 주의 기억에 저장된 이미지 상의 객체의 위치를 갱신함으로써 효율적인 질문을 생성하는 주의 기억 방법 및 시스템을 제시할 수 있다.
개시되는 실시예들에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 개시되는 실시예들이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
도 1은 일 실시예에 따른 주의기억시스템을 도시한 블록도이다.
도 2는 일 실시예에 따른 주의기억방법을 설명하기 위한 순서도이다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 일 실시예에 따르면, 이미지 상의 객체를 식별하는 주의기억시스템에 있어서, 상기 이미지 상에서 기 설정된 객체를 식별하기 위한 질문을 생성하고, 생성된 질문에 대해 답변을 도출하고, 상기 질문 및 상기 답변에 기초하여 상기 이미지에서 기 설정된 객체를 식별하는 제어부 및 상기 이미지를 저장하는 메모리를 포함하며, 상기 제어부는, 상기 이미지에 포함된 객체들에 대한 정보를 반영하여 상기 질문을 생성하고, 상기 답변에 기초하여 상기 객체들에 대한 정보를 갱신할 수 있다.
다른 실시예에 따르면, 주의기억시스템이 이미지 상의 객체를 식별하는 주의기억방법에 있어서, 상기 이미지를 입력받는 단계, 상기 이미지에 포함된 객체들에 대한 정보를 반영하여 기 설정된 객체를 식별하기 위한 질문을 생성하고, 생성된 질문에 대한 답변을 도출하는 단계 및 적어도 하나의 질문 및 상기 질문 및 상기 답변에 기초하여 상기 이미지에서 기 설정된 객체를 식별하는 단계를 포함하고, 상기 주의기억방법은, 상기 답변에 기초하여 상기 객체들에 대한 정보를 갱신하는 단계를 포함할 수 있다.
다른 실시예에 따르면, 주의기억방법을 수행하는 프로그램이 기록된 컴퓨터 판독이 가능한 기록매체로서, 상기 이미지를 입력받는 단계, 상기 이미지에 포함된 객체들에 대한 정보를 반영하여 기 설정된 객체를 식별하기 위한 질문을 생성하고, 생성된 질문에 대한 답변을 도출하는 단계 및 적어도 하나의 질문 및 상기 질문 및 상기 답변에 기초하여 상기 이미지에서 기 설정된 객체를 식별하는 단계를 포함하고, 상기 주의기억방법은, 상기 답변에 기초하여 상기 객체들에 대한 정보를 갱신하는 단계를 포함할 수 있다.
다른 실시예에 따르면, 주의기억시스템에 의해 수행되며, 주의기억방법을 수행하기 위해 기록매체에 저장된 컴퓨터프로그램으로서, 상기 이미지를 입력받는 단계, 상기 이미지에 포함된 객체들에 대한 정보를 반영하여 기 설정된 객체를 식별하기 위한 질문을 생성하고, 생성된 질문에 대한 답변을 도출하는 단계 및 적어도 하나의 질문 및 상기 질문 및 상기 답변에 기초하여 상기 이미지에서 기 설정된 객체를 식별하는 단계를 포함하고, 상기 주의기억방법은, 상기 답변에 기초하여 상기 객체들에 대한 정보를 갱신하는 단계를 포함할 수 있다.
아래에서는 첨부한 도면을 참조하여 다양한 실시예들을 상세히 설명한다. 아래에서 설명되는 실시예들은 여러 가지 상이한 형태로 변형되어 실시될 수도 있다. 실시예들의 특징을 보다 명확히 설명하기 위하여, 이하의 실시예들이 속하는 기술분야에서 통상의 지식을 가진 자에게 널리 알려져 있는 사항들에 관해서 자세한 설명은 생략하였다. 그리고, 도면에서 실시예들의 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 구성이 다른 구성과 "연결"되어 있다고 할 때, 이는 ‘직접적으로 연결’되어 있는 경우뿐 아니라, ‘그 중간에 다른 구성을 사이에 두고 연결’되어 있는 경우도 포함한다. 또한, 어떤 구성이 어떤 구성을 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한, 그 외 다른 구성을 제외하는 것이 아니라 다른 구성들을 더 포함할 수도 있음을 의미한다.
이하 첨부된 도면을 참고하여 실시예들을 상세히 설명하기로 한다.
다만 이를 설명하기에 앞서, 아래에서 사용되는 용어들의 의미를 먼저 정의한다.
이하에서 ‘시각적특징맵(visual feature map)’은 입력된 이미지로부터 이미지에 포함된 객체에 대한 특징을 나타내는 값의 배열로 예를 들어, 이미지에 포함된 객체의 모서리에 대한 정보를 추출한 값일 수 있다.
그리고 ‘주의기억특징맵”은 이미지상에서 기 설정된 객체로 선택될 수 있는 후보 객체에 대한 특징을 나타내는 값으로 시각적특징맵과 이미지에서 식별된 적어도 하나의 객체에 대한 위치정보에 기초하여 생성된 정보이다.
위에 정의한 용어 이외에 설명이 필요한 용어는 아래에서 각각 따로 설명한다.
도 1은 일 실시예에 따른 주의기억시스템(10)을 설명하기 위한 블록도이다.
주의기억시스템(10)은 이미지상의 기 설정된 객체에 대한 정보를 알고 있는 답변자와 이미지에서 적어도 하나의 객체 중 기 설정된 객체에 대한 정보를 획득하기 위해 질문을 생성하는 질문자 그리고 질문자와 답변자 간의 대화에 기초하여 이미지 상의 적어도 하나의 객체 중 기 설정된 객체를 선택하는 추측자 역할을 수행하여, 질문자와 답변자 간의 대화를 통해 획득된 정보를 기초로 추측자가 기 설정된 객체를 선택합니다.
이러한 주의기억시스템(10)는 서버-클라이언트 시스템으로 구현될 수 있으며, 클라이언트는 전자단말기에 설치되어 서버와 통신할 수 있다.
이때, 전자단말기는 네트워크(N)를 통해 원격지의 서버에 접속하거나, 타 단말 및 서버와 연결 가능한 컴퓨터나 휴대용 단말기, 텔레비전, 웨어러블 디바이스(Wearable Device) 등으로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(desktop), 랩톱(laptop)등을 포함하고, 휴대용 단말기는 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, PCS(Personal Communication System), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), GSM(Global System for Mobile communications), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet), 스마트폰(Smart Phone), 모바일 WiMAX(Mobile Worldwide Interoperability for Microwave Access) 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있다. 또한, 텔레비전은 IPTV(Internet Protocol Television), 인터넷 TV(Internet Television), 지상파 TV, 케이블 TV 등을 포함할 수 있다. 나아가 웨어러블 디바이스는 예를 들어, 시계, 안경, 액세서리, 의복, 신발 등 인체에 직접 착용 가능한 타입의 정보처리장치로서, 직접 또는 다른 정보처리장치를 통해 네트워크를 경유하여 원격지의 서버에 접속하거나 타 단말과 연결될 수 있다.
그리고 서버는 전자단말기와 네트워크(N)를 통해 통신이 가능한 컴퓨터로 구현될 수 있으며, 데이터를 저장할 수 있는 저장장치가 포함될 수 있거나 또는 제 3 의 서버(미도시)를 통해 데이터를 저장할 수도 있다.
이와 같이 본 발명의 일실시예에 따른, 주의기억시스템(10)은 입출력부(110), 제어부(120), 통신부(130) 및 메모리(130)를 포함할 수 있다.
입출력부(110)는 사용자로부터 입력을 수신하기 위한 입력부와, 작업의 수행 결과 또는 주의기억시스템(10)의 상태 등의 정보를 표시하기 위한 출력부를 포함할 수 있다. 예를 들어, 입출력부(110)는 사용자 입력을 수신하는 조작 패널(operation panel) 및 화면을 표시하는 디스플레이 패널(display panel) 등을 포함할 수 있다.
구체적으로, 입력부는 키보드, 물리 버튼, 터치 스크린, 카메라 또는 마이크 등과 같이 다양한 형태의 사용자 입력을 수신할 수 있는 장치들을 포함할 수 있다. 또한, 출력부는 디스플레이 패널 또는 스피커 등을 포함할 수 있다. 다만, 이에 한정되지 않고 입출력부(110)는 다양한 입출력을 지원하는 구성을 포함할 수 있다.
제어부(120)는 주의기억시스템(10)의 전체적인 동작을 제어하며, CPU 등과 같은 프로세서를 포함할 수 있다. 제어부(120)는 입출력부(110)를 통해 수신한 사용자 입력에 대응되는 동작을 수행하도록 주의기억시스템(10)에 포함된 다른 구성들을 제어할 수 있다.
예를 들어, 제어부(120)는 메모리(130)에 저장된 프로그램을 실행시키거나, 메모리(130)에 저장된 파일을 읽어오거나, 새로운 파일을 메모리(130)에 저장할 수도 있다.
이러한 제어부(120)는 입출력부(110)를 통해 입력된 이미지에 대해 이미지에 포함된 적어도 하나의 객체를 식별할 수 있다.
예를 들어, 제어부(120)는 이미지에 대해 YOLO(You only look once)라는 객체검출(Object detection)모델을 통해 적어도 하나의 객체를 식별할 수 있다.
그리고 제어부(120)는 식별된 적어도 하나의 객체 각각의 위치를 추출할 수 있고, 추출된 적어도 하나의 객체 각각의 위치정보를 기초로 후술할 메모리(130) 상의 주의기억(Attention memory)을 초기화할 수 있다.
예를 들어, 제어부(120)는 메모리(130)에 일정한 영역을 주의기억으로 할당할 수 있고, 할당된 주의기억에 이미지에서 식별된 적어도 하나의 객체 각각에 대해 이미지상에서 상대적인 위치에 대한 위치정보를 추출하여 저장할 수 있다.
이후, 제어부(120)는 이미지에 포함된 적어도 하나의 객체에 대한 특징을 포함하는 시각적특징맵(visual feature map)을 추출할 수 있다.
예를 들어, 제어부(120)는 CAEs(Convolutional AutoEncoders)를 통해 이미지로부터 시각적특징맵을 추출할 수 있다.
그리고 제어부(120)는 이미지 상에서 기 설정된 객체를 식별하기 위한 질문을 생성할 수 있다.
이를 위해 제어부(120)는 실시예에 따라 질문을 구성할 수 있도록 적어도 하나의 단어를 기 저장하거나 또는 제 3 의 서버를 통해 적어도 하나의 단어를 획득할 수 있다.
우선 제어부(120)는 대화를 시작하기 위해 시작 질문을 생성할 수 있고, 시작 질문에 대한 답변을 수행할 수 있다.
예를 들어, 제어부(120)는 대화를 시작하기 위해 “사람입니까?”라는 질문을 랜덤하게 생성할 수 있고, 생성된 질문에 대해 “아니오”라는 답변을 수행할 수 있다.
그리고 제어부(120)는 시작 질문에 대한 답변과 시각적특징맵을 기초로 주의기억에 저장된 주의기억정보를 갱신할 수 있다.
예를 들어, 제어부(120)는 “사람입니까?”라는 질문에 대한 답변 “아니오”를 기초로 주의기억에 저장된 주의기억정보인 이미지상의 적어도 하나의 객체의 위치 중 이미지상의 사람에 대한 정보를 삭제할 수 있다.
이후, 제어부(120)는 주의기억정보와 시각적특징맵을 기초로 주의기억특징맵(feature map with attention memory value)을 생성할 수 있고, 생성된 주의기억특징맵과 질문에 대한 답변을 기초로 질문을 생성할 수 있다.
즉, 제어부(120)는 이미지상의 객체에 대한 특징 정보를 포함하는 시각적특징맵과 후보 객체에 대한 정보를 포함하는 주의기억정보를 기초로 이미지상의 적어도 하나의 객체 중 후보 객체와 관련된 질문을 생성할 수 있다.
예를 들어, 제어부(120)는 주의기억정보에서 “사람”을 제외한 나머지 “라켓, 공”에 대한 위치를 기초로 시각적특징맵에서 “라켓, 공”에 대한 시각적특징맵을 추출하여 주의기억특징맵을 생성할 수 있고, 생성된 주의기억특징맵을 기초로 “라켓” 또는 “공”과 관련된 질문을 생성할 수 있다.
그리고 제어부(120)는 새롭게 생성된 질문에 대한 답변을 도출할 수 있고, 도출된 답변과 시각적특징맵을 기초로 주의기억정보를 갱신하여 후보 객체의 수를 줄일 수 있다.
이후, 제어부(120)는 상술된 바와 같이 갱신된 주의기억정보와 시각적특징맵을 이용하여 후보 객체의 수가 줄어든 주의기억특징맵을 생성하여 질문을 생성할 수 있고, 생성된 질문에 대한 답변을 도출하여 주의기억정보를 갱신하는 과정을 반복할 수 있다.
그리고 제어부(120)는 주의기억에 저장된 주의기억정보에 기초하여 이미지상의 적어도 하나의 객체 중 기 설정된 객체를 선택할 수 있다.
예를 들어, 제어부(120)는 주의기억정보, 이미지의 공간 정보 및 카테고리별 예시 객체와 비교하여 기 설정된 객체를 선택할 수 있다.
메모리(130)에는 파일, 어플리케이션 및 프로그램 등과 같은 다양한 종류의 데이터가 설치 및 저장될 수 있다. 제어부(120)는 메모리(130)에 저장된 데이터에 접근하여 이를 이용하거나, 또는 새로운 데이터를 메모리(130)에 저장할 수도 있다. 또한, 제어부(120)는 메모리(130)에 설치된 프로그램을 실행할 수도 있다. 도 1을 참조하면, 메모리(130)에는 주의기억방법을 수행하기 위한 프로그램이 설치될 수 있다.
이러한 메모리(130)는 입출력부(110)를 통해 입력된 이미지를 저장할 수 있다.
그리고 메모리(130)는 제어부(120)에 의해 일시적으로 정보를 저장할 수 있는 주의기억이 할당될 수 있으며, 할당된 주의기억에 제어부(120)에 의해 계산된 주의기억정보가 저장될 수 있다.
도 2 는 일 실시예에 따른 주의기억방법을 설명하기 위한 순서도이다.
도 2 에 도시된 실시예에 따른 주의기억방법은 도 1 에 도시된 주의기억시스템(10)에서 시계열적으로 처리되는 단계들을 포함한다. 따라서, 이하에서 생략된 내용이라고 하더라도 도 1 에 도시된 주의기억시스템(10)에 관하여 이상에서 기술한 내용은 도 2 에 도시된 실시예에 따른 주의기억방법에도 적용될 수 있다.
우선, 주의기억시스템(10)은 이미지를 획득할 수 있다(S2001).
즉, 주의기억시스템(10)은 기 설정된 객체가 포함된 이미지를 입력받을 수 있으며, 입력된 이미지를 저장할 수 있다. 이때 이미지에는 적어도 하나의 객체가 포함될 수 있다.
그리고 주의기억시스템(10)은 식별된 적어도 하나의 객체 각각의 위치를 추출할 수 있다.
예를 들어, 주의기억시스템(10)은 S2001단계에서 획득된 이미지에 대해 YOLO 객체검출방법을 적용할 수 있고, 이미지를 적어도 하나 이상의 영역으로 나누어 객체로 예측되는 위치에 바운딩 박스(bounding box)를 표시할 수 있고, 예측되는 확률에 따라 가중치를 적용한 바운딩 박스를 통해 실시간으로 이미지로부터 적어도 하나의 객체를 검출할 수 있다.
이후, 주의기억시스템(10)은 추출된 적어도 하나의 객체 각각의 위치를 기초로 메모리에 할당된 주의기억의 주의기억정보를 초기화할 수 있다(S2002).
그리고 주의기억시스템(10)은 이미지에 포함된 적어도 하나의 객체에 대한 특징을 포함하는 시각적특징맵(visual feature map)을 추출할 수 있다.
실시예에 따라, 주의기억시스템(10)은 CAEs를 통해 이미지상의 객체에 대한 특징 정보를 추출할 수 있다.
예를 들어, 주의기억시스템(10)은 객체의 경계선을 추출할 수 있는 필터를 콘볼루션 계산을 통해 이미지에 적용하여 이미지에 포함되는 객체의 경계선에 대한 값을 나타내는 시각적특징맵을 추출할 수 있다.
그리고 주의기억시스템(10)은 상기 이미지 상에서 기 설정된 객체를 식별하기 위한 질문을 생성하고, 생성된 질문에 대한 답변을 도출할 수 있다(S2003).
이를 위해, 주의기억시스템(10)은 시각적특징맵 및 주의기억에 저장된 주의기억정보에 기초하여 주의기억특징맵을 생성할 수 있다.
즉, 주의기억시스템(10)은 이미지 상에서 객체의 경계선에 대한 정보와 이미지 상에서 검출된 객체의 위치에 기초한 정보를 이용하여 이미지에 포함된 적어도 하나의 객체 즉, 기 설정된 객체로 선택될 수 있는 후보 객체에 대한 특징인 주의기억특징맵을 생성할 수 있다.
그리고 주의기억시스템(10)은 기존 질문 및 답변에 대한 정보인 콘텍스트 벡터 그리고 주의기억특징맵을 기초로 질문을 생성할 수 있다.
예를 들어, 주의기억시스템(10)은 LSTM(Long Short-Term memory) 그리고 HRED(Hierarchical Recurrent Encoder Decoder)를 통해 기존 질문과 답변을 기초로 인코더(Encoder)에서 출력된 값을 콘텍스트 층(Context Layer)에 입력하여 도출된 값과 주의기억특징맵을 디코더(Decoder)에 입력하여 현재 상태에서의 자연어 질문을 생성할 수 있다.
그리고 주의기억시스템(10)은 생성된 질문에 대해 답변을 도출할 수 있다.
예를 들어, 주의기억시스템(10)은 “자전거야” 라는 질문에 대해 MLP(Multi-Layer Perceptron)를 통해 “예/아니오” 중 어느 하나의 답변을 도출할 수 있다.
이후, 주의기억시스템(10)은 기존 질문과 답변 그리고 시각적특징맵을 기초로 주의기억에 저장된 주의기억정보를 갱신할 수 있다(S2004).
즉, 주의기억시스템(10)은 S2003 단계에서 인코더에서 출력된 값과 시각적특징맵을 기초로 주의기억에 저장된 주의기억정보를 갱신할 수 있다.
예를 들어, 주의기억시스템(10)은 “자전거야?”라는 질문에 대한 답변인 “아니”를 포함하는 콘텍스트 벡터와 시각적특징맵을 기초로 주의기억정보에서 ‘자전거’에 대한 정보를 제거할 수 있다.
그리고 주의기억시스템(10)은 S2003 단계 내지 S2004 단계를 반복하여 기 설정된 횟수만큼 질문을 생성하여 답변을 도출할 수 있고, 기 설정된 질문 수에 도달하였는지 판단할 수 있다(S2005).
이때, 주의기억시스템(10)은 질문과 답변을 반복하는 과정에서 주의기억정보를 갱신할 수 있고, 갱신된 주의기억정보를 기초로 효과적인 질문을 생성할 수 있다.
이후, 질문과 답변이 완료되면 주의기억시스템(10)은 주의기억에 저장된 주의기억정보 및 객체를 나누는 카테고리 별로 제공되는 예시 객체를 기초로 이미지 상에서 기 설정된 객체를 선택할 수 있다(S2006).
예를 들어, 주의기억시스템(10)은 기 설정된 객체에 근접한 후보 객체에 대한 정보인 주의기억정보, 이미지 상의 객체의 공간 정보 및 객체의 카테고리와 비교하여 이미지 상의 후보 객체 중 기 설정된 객체를 선택할 수 있다.
이상의 실시예들에서 사용되는 '~부'라는 용어는 소프트웨어 또는 FPGA(field programmable gate array) 또는 ASIC 와 같은 하드웨어 구성요소를 의미하며, '~부'는 어떤 역할들을 수행한다. 그렇지만 '~부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '~부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '~부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램특허 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들, 및 변수들을 포함한다.
구성요소들과 '~부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부'들로 결합되거나 추가적인 구성요소들과 '~부'들로부터 분리될 수 있다.
뿐만 아니라, 구성요소들 및 '~부'들은 디바이스 또는 보안 멀티미디어카드 내의 하나 또는 그 이상의 CPU 들을 재생시키도록 구현될 수도 있다.
도 2 를 통해 설명된 실시예에 따른 주의기억방법은 컴퓨터에 의해 실행 가능한 명령어 및 데이터를 저장하는, 컴퓨터로 판독 가능한 매체의 형태로도 구현될 수 있다. 이때, 명령어 및 데이터는 프로그램 코드의 형태로 저장될 수 있으며, 프로세서에 의해 실행되었을 때, 소정의 프로그램 모듈을 생성하여 소정의 동작을 수행할 수 있다. 또한, 컴퓨터로 판독 가능한 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터로 판독 가능한 매체는 컴퓨터 기록 매체일 수 있는데, 컴퓨터 기록 매체는 컴퓨터 판독 가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함할 수 있다. 예를 들어, 컴퓨터 기록 매체는 HDD 및 SSD 등과 같은 마그네틱 저장 매체, CD, DVD 및 블루레이 디스크 등과 같은 광학적 기록 매체, 또는 네트워크를 통해 접근 가능한 서버에 포함되는 메모리일 수 있다.
또한 도 2 를 통해 설명된 실시예에 따른 주의기억방법은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 컴퓨터 프로그램(또는 컴퓨터 프로그램 제품)으로 구현될 수도 있다. 컴퓨터 프로그램은 프로세서에 의해 처리되는 프로그래밍 가능한 기계 명령어를 포함하고, 고레벨 프로그래밍 언어(High-level Programming Language), 객체 지향 프로그래밍 언어(Object-oriented Programming Language), 어셈블리 언어 또는 기계 언어 등으로 구현될 수 있다. 또한 컴퓨터 프로그램은 유형의 컴퓨터 판독가능 기록매체(예를 들어, 메모리, 하드디스크, 자기/광학 매체 또는 SSD(Solid-State Drive) 등)에 기록될 수 있다.
따라서 도 2 를 통해 설명된 실시예에 따른 주의기억방법은 상술한 바와 같은 컴퓨터 프로그램이 컴퓨팅 장치에 의해 실행됨으로써 구현될 수 있다. 컴퓨팅 장치는 프로세서와, 메모리와, 저장 장치와, 메모리 및 고속 확장포트에 접속하고 있는 고속 인터페이스와, 저속 버스와 저장 장치에 접속하고 있는 저속 인터페이스 중 적어도 일부를 포함할 수 있다. 이러한 성분들 각각은 다양한 버스를 이용하여 서로 접속되어 있으며, 공통 머더보드에 탑재되거나 다른 적절한 방식으로 장착될 수 있다.
여기서 프로세서는 컴퓨팅 장치 내에서 명령어를 처리할 수 있는데, 이런 명령어로는, 예컨대 고속 인터페이스에 접속된 디스플레이처럼 외부 입력, 출력 장치상에 GUI(Graphic User Interface)를 제공하기 위한 그래픽 정보를 표시하기 위해 메모리나 저장 장치에 저장된 명령어를 들 수 있다. 다른 실시예로서, 다수의 프로세서 및(또는) 다수의 버스가 적절히 다수의 메모리 및 메모리 형태와 함께 이용될 수 있다. 또한 프로세서는 독립적인 다수의 아날로그 및(또는) 디지털 프로세서를 포함하는 칩들이 이루는 칩셋으로 구현될 수 있다.
또한 메모리는 컴퓨팅 장치 내에서 정보를 저장한다. 일례로, 메모리는 휘발성 메모리 유닛 또는 그들의 집합으로 구성될 수 있다. 다른 예로, 메모리는 비휘발성 메모리 유닛 또는 그들의 집합으로 구성될 수 있다. 또한 메모리는 예컨대, 자기 혹은 광 디스크와 같이 다른 형태의 컴퓨터 판독 가능한 매체일 수도 있다.
그리고 저장장치는 컴퓨팅 장치에게 대용량의 저장공간을 제공할 수 있다. 저장 장치는 컴퓨터 판독 가능한 매체이거나 이런 매체를 포함하는 구성일 수 있으며, 예를 들어 SAN(Storage Area Network) 내의 장치들이나 다른 구성도 포함할 수 있고, 플로피 디스크 장치, 하드 디스크 장치, 광 디스크 장치, 혹은 테이프 장치, 플래시 메모리, 그와 유사한 다른 반도체 메모리 장치 혹은 장치 어레이일 수 있다.
상술된 실시예들은 예시를 위한 것이며, 상술된 실시예들이 속하는 기술분야의 통상의 지식을 가진 자는 상술된 실시예들이 갖는 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 상술된 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 명세서를 통해 보호 받고자 하는 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태를 포함하는 것으로 해석되어야 한다.

Claims (14)

  1. 이미지 상의 객체를 식별하는 주의기억시스템에 있어서,
    상기 이미지 상에서 기 설정된 객체를 식별하기 위한 질문을 생성하고, 생성된 질문에 대해 답변을 도출하고, 상기 질문 및 상기 답변에 기초하여 상기 이미지에서 기 설정된 객체를 식별하는 제어부; 및
    상기 이미지를 저장하는 메모리를 포함하며,
    상기 제어부는,
    상기 이미지에 포함된 객체들에 대한 정보를 반영하여 상기 질문을 생성하고, 상기 답변에 기초하여 상기 객체들에 대한 정보를 갱신하는, 주의기억시스템.
  2. 제 1 항에 있어서,
    상기 제어부는,
    상기 이미지 상의 적어도 하나의 객체를 식별하고, 식별된 적어도 하나의 객체 각각의 위치를 추출하고, 추출된 적어도 하나의 객체 각각의 위치정보를 기초로 상기 메모리 상의 주의기억을 초기화하는, 주의기억시스템.
  3. 제 2 항에 있어서,
    상기 제어부는,
    상기 이미지에 포함된 적어도 하나의 객체에 대한 특징을 포함하는 시각적특징맵을 추출하는, 주의기억시스템.
  4. 제 3 항에 있어서,
    상기 제어부는,
    상기 시각적특징맵 및 상기 주의기억에 저장되는 상기 객체들에 대한 정보인 주의기억정보에 기초하여 주의기억특징맵을 생성하고, 생성된 주의기억특징맵을 기초로 상기 질문을 생성하는, 주의기억시스템.
  5. 제 4 항에 있어서,
    상기 제어부는,
    상기 답변 및 상기 시각적특징맵을 기초로 상기 주의기억정보를 갱신하는, 주의기억시스템.
  6. 제 5 항에 있어서,
    상기 제어부는,
    상기 주의기억정보에 기초하여, 상기 이미지에서 상기 기 설정된 객체를 선택하는, 주의기억시스템.
  7. 주의기억시스템이 이미지 상의 객체를 식별하는 주의기억방법에 있어서,
    상기 이미지를 입력받는 단계;
    상기 이미지에 포함된 객체들에 대한 정보를 반영하여 기 설정된 객체를 식별하기 위한 질문을 생성하고, 생성된 질문에 대한 답변을 도출하는 단계; 및
    적어도 하나의 질문 및 상기 질문 및 상기 답변에 기초하여 상기 이미지에서 기 설정된 객체를 식별하는 단계를 포함하고,
    상기 주의기억방법은,
    상기 답변에 기초하여 상기 객체들에 대한 정보를 갱신하는 단계를 포함하는, 주의기억방법.
  8. 제 7 항에 있어서,
    상기 이미지를 입력받는 단계는,
    상기 이미지 상의 적어도 하나의 객체를 식별하는 단계; 및
    식별된 적어도 하나의 객체 각각의 위치를 추출하고, 추출된 적어도 하나의 객체 각각의 위치정보를 기초로 메모리 상의 주의기억을 초기화하는 단계를 포함하는, 주의기억방법.
  9. 제 8 항에 있어서,
    상기 이미지를 입력받는 단계는,
    상기 이미지에 포함된 적어도 하나의 객체에 대한 특징을 포함하는 시각적특징맵을 추출하는 단계를 포함하는, 주의기억방법.
  10. 제 9 항에 있어서,
    상기 주 질문을 생성하는 단계는,
    상기 시각적특징맵 및 상기 주의기억에 저장되는 상기 객체들에 대한 정보인 주의기억정보에 기초하여 주의기억특징맵을 생성하는 단계; 및
    생성된 주의기억특징맵을 기초로 상기 질문을 생성하는 단계를 포함하는, 주의기억방법.
  11. 제 10 항에 있어서,
    상기 주의기억방법은,
    상기 답변 및 상기 시각적특징맵을 기초로 상기 주의기억정보를 갱신하는 단계를 더 포함하는, 주의기억방법.
  12. 제 11 항에 있어서,
    상기 기 설정된 객체를 식별하는 단계는,
    상기 주의기억정보에 기초하여, 상기 이미지 상에서 상기 기 설정된 객체를 선택하는 단계를 더 포함하는, 주의기억방법.
  13. 제 8 항에 기재된 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체.
  14. 주의기억시스템에 의해 수행되며, 제 8 항에 기재된 방법을 수행하기 위해 매체에 저장된 컴퓨터 프로그램.
PCT/KR2018/007410 2017-08-29 2018-06-29 시각 대화를 통해 객체의 위치를 알아내기 위한 주의 기억 방법 및 시스템 WO2019045244A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/605,800 US11188774B2 (en) 2017-08-29 2018-06-29 Attentive memory method and system for locating object through visual dialogue

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020170109461A KR101986307B1 (ko) 2017-08-29 2017-08-29 시각 대화를 통해 객체의 위치를 알아내기 위한 주의 기억 방법 및 시스템
KR10-2017-0109461 2017-08-29

Publications (1)

Publication Number Publication Date
WO2019045244A1 true WO2019045244A1 (ko) 2019-03-07

Family

ID=65525860

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2018/007410 WO2019045244A1 (ko) 2017-08-29 2018-06-29 시각 대화를 통해 객체의 위치를 알아내기 위한 주의 기억 방법 및 시스템

Country Status (3)

Country Link
US (1) US11188774B2 (ko)
KR (1) KR101986307B1 (ko)
WO (1) WO2019045244A1 (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110276715B (zh) * 2019-05-14 2020-07-17 北京邮电大学 一种图像去夜方法和装置
KR102352128B1 (ko) * 2019-11-08 2022-01-19 경기대학교 산학협력단 심층 영상 이해를 이용한 영상 기반 대화 시스템
KR102311218B1 (ko) 2020-09-07 2021-10-12 고려대학교 산학협력단 영상에 관한 대화 처리 장치, 방법 및 시스템
US11901047B2 (en) * 2020-10-28 2024-02-13 International Business Machines Corporation Medical visual question answering
KR102529431B1 (ko) * 2020-11-10 2023-05-08 주식회사 포티투마루 문맥 기반 질의응답 생성 아키텍처
JP2022082238A (ja) * 2020-11-20 2022-06-01 富士通株式会社 機械学習プログラム,機械学習方法および出力装置
CN114399799A (zh) * 2021-11-22 2022-04-26 电子科技大学 一种基于YOLOv5网络的口罩佩戴检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070118038A (ko) * 2006-06-09 2007-12-13 소니 가부시끼 가이샤 정보처리 장치 및 정보처리 방법과 컴퓨터·프로그램
WO2017062645A1 (en) * 2015-10-06 2017-04-13 Evolv Technologies, Inc. Platform for gathering real-time analysis
US20170124432A1 (en) * 2015-11-03 2017-05-04 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015207181A (ja) * 2014-04-22 2015-11-19 ソニー株式会社 情報処理装置、情報処理方法及びコンピュータプログラム
US10482393B2 (en) * 2017-05-10 2019-11-19 The Travelers Indemnity Company Machine-based learning systems, methods, and apparatus for interactively mapping raw data objects to recognized data objects

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070118038A (ko) * 2006-06-09 2007-12-13 소니 가부시끼 가이샤 정보처리 장치 및 정보처리 방법과 컴퓨터·프로그램
WO2017062645A1 (en) * 2015-10-06 2017-04-13 Evolv Technologies, Inc. Platform for gathering real-time analysis
US20170124432A1 (en) * 2015-11-03 2017-05-04 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CAIMING XIONG: "Dynamic Memory Networks for Visual and Textual Question Answering", ARXIV:1603.01417, 4 March 2016 (2016-03-04), XP080687209, Retrieved from the Internet <URL:https://arxiv.org/abs/1603.01417> *
CHEOLHO HAN: "Attention Memory for Locating an Object through Visual Dialogue", VQA CHALLENGE WORKSHOP AT CVPR 2017, 26 July 2017 (2017-07-26), Honolulu, Hawaii, USA, pages 1 - 3, XP055581546, Retrieved from the Internet <URL:https://bi.snu.ac.kr/~yjheo/paper/CVPRVQA_chan_yjheo.pdf> *
HARM DE VRIES: "GuessWhat?! Visual object discovery through multi-modal", ARXIV:1611.08481, 23 November 2016 (2016-11-23), pages 1 - 23, XP033249801, Retrieved from the Internet <URL:https://arxiv.org/abs/1611.08481vl> *

Also Published As

Publication number Publication date
US20200042819A1 (en) 2020-02-06
KR101986307B1 (ko) 2019-06-05
KR20190023547A (ko) 2019-03-08
US11188774B2 (en) 2021-11-30

Similar Documents

Publication Publication Date Title
WO2019045244A1 (ko) 시각 대화를 통해 객체의 위치를 알아내기 위한 주의 기억 방법 및 시스템
Aoki et al. Realtime personal positioning system for a wearable computer
US11315366B2 (en) Conference recording method and data processing device employing the same
WO2018135881A1 (en) Vision intelligence management for electronic devices
US20200380299A1 (en) Recognizing People by Combining Face and Body Cues
WO2015108300A1 (ko) 프레임률 제어 방법 및 그 전자 장치
WO2020253616A1 (zh) 音频采集设备定位方法及装置、说话人识别方法及系统
WO2019172704A1 (en) Method for intent-based interactive response and electronic device thereof
WO2020186701A1 (zh) 用户位置的查找方法、装置、设备及介质
US20210312163A1 (en) Face recognition method, device and electronic equipment, and computer non-volatile readable storage medium
KR102501327B1 (ko) 정보의 병렬처리 방법 및 장치
CN112306447A (zh) 一种界面导航方法、装置、终端和存储介质
US20220383522A1 (en) Semi-automatic data collection and association for multi-camera tracking
CN111680686A (zh) 招牌信息识别方法、装置、终端及存储介质
WO2020045794A1 (ko) 전자 장치 및 그 제어 방법
US20220300774A1 (en) Methods, apparatuses, devices and storage media for detecting correlated objects involved in image
WO2019214019A1 (zh) 基于卷积神经网络的网络教学方法以及装置
TW202312725A (zh) 隨動拍攝方法、裝置、電腦可讀記錄媒體和電子設備
WO2020111844A2 (ko) 물체 레이블을 활용한 비주얼 슬램에서의 영상 특징점 강화 방법 및 장치
CN114092608B (zh) 表情的处理方法及装置、计算机可读存储介质、电子设备
CN112669982B (zh) 密切接触者的确定方法、装置、设备和存储介质
CN112560690A (zh) 基于多模态特征人物属性标注方法、装置、设备及介质
CN112560958A (zh) 基于人像识别的人员接待方法、装置及电子设备
US20150082346A1 (en) System for Selective and Intelligent Zooming Function in a Crowd Sourcing Generated Media Stream
WO2022114489A1 (ko) 딥러닝 지원 디바이스 및 딥러닝 지원 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18850100

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18850100

Country of ref document: EP

Kind code of ref document: A1