KR20210054355A - 시각 및 언어 기반 공간 탐색 시스템 - Google Patents

시각 및 언어 기반 공간 탐색 시스템 Download PDF

Info

Publication number
KR20210054355A
KR20210054355A KR1020190140411A KR20190140411A KR20210054355A KR 20210054355 A KR20210054355 A KR 20210054355A KR 1020190140411 A KR1020190140411 A KR 1020190140411A KR 20190140411 A KR20190140411 A KR 20190140411A KR 20210054355 A KR20210054355 A KR 20210054355A
Authority
KR
South Korea
Prior art keywords
feature
unit
features
neural network
visual
Prior art date
Application number
KR1020190140411A
Other languages
English (en)
Other versions
KR102331803B1 (ko
Inventor
김인철
황지수
Original Assignee
경기대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 경기대학교 산학협력단 filed Critical 경기대학교 산학협력단
Priority to KR1020190140411A priority Critical patent/KR102331803B1/ko
Publication of KR20210054355A publication Critical patent/KR20210054355A/ko
Application granted granted Critical
Publication of KR102331803B1 publication Critical patent/KR102331803B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0246Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Automation & Control Theory (AREA)
  • Robotics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Electromagnetism (AREA)
  • Image Analysis (AREA)

Abstract

시각 및 언어 기반 심층 신경망 공간 탐색 시스템이 개시된다. 이 시스템은 초기 입력된 자연어 지시와 관련된 물체와 장소 중 적어도 하나인 랜드마크를 에이전트의 외부 관찰 영상에서 탐지하는 입력 처리부, 및 탐지된 랜드마크를 고려하여 에이전트의 자율 이동 행동을 계획하는 행동 계획부를 포함한다.

Description

시각 및 언어 기반 심층 신경망 공간 탐색 시스템{Vision and language navigation system}
본 발명은 공간 탐색 기술에 관한 것으로, 특히 심층 신경망을 이용한 시각 및 언어 기반의 공간 탐색 기술에 관한 것이다.
사람의 자연어 지시(natural language instruction)에 따라 작업을 수행할 수 있는 기계나 로봇을 만드는 일은 인공지능(AI)과 로봇 공학(robotics)의 오랜 꿈이었다. 이와 관련하여 최근 컴퓨터 비전 기술과 자연처 처리 기술의 급속한 발전으로, 이 기술들을 결합한 영상 기반의 질문과 응답(Visual Question Answering), 영상 기반의 대화(Visual Dialog), 에이전트의 행동 계획과 실행까지 요구하는 신체 기반의 질문과 응답(Embodied Question Answering), 상호 작용 기반의 질문과 응답(Interactive Question Answering) 등 다양한 복합 지능 문제들에 관한 연구들이 활발하다.
특히, 시각-언어 이동(Vision-and-Language Navigation, VLN)은 이러한 꿈에 한층 더 가까이 다가갈 수 있게 하는 복합 지능 문제 중 하나이다. 시각-언어 이동(VLN)은 3차원 환경에서 실시간 입력 영상(image)과 자연어 지시를 이해함으로써, 에이전트 스스로 목적지까지 이동(navigate)해야 하는 문제이다. 시각, 언어 기반의 공간 탐색에 관한 종래기술로는 Seq2S2q(Sequence to Sequence) 모델에 주로 사용되는 LSTM(Long Short-Term Memory)을 기본 구조로 사용하고 있다. 또한, 입력 영상과 지시어정보 간의 조합을 위해 각 특징들에 대하여 소프트 어텐션(soft-attention)을 적용하는 연구들이 제안되어 왔다.
국내공개특허공보 제10-2018-0134683호 (2018년 12월 19일 공개)
본 발명은 자연어 지시에 따라 경로를 탐색함에 있어서 오류율을 최소화하기 위한 기술적 방안을 제공함을 목적으로 한다.
일 양상에 따른 시각 및 언어 기반 심층 신경망 공간 탐색 시스템은 초기 입력된 자연어 지시와 관련된 물체와 장소 중 적어도 하나인 랜드마크를 에이전트의 외부 관찰 영상에서 탐지하는 입력 처리부, 및 탐지된 랜드마크를 고려하여 에이전트의 자율 이동 행동을 계획하는 행동 계획부를 포함할 수 있다.
입력 처리부는 초기 입력된 자연어 지시를 인코딩하여 지시 특징을 추출하는 지시 추출부와, 입력 영상인 파노라마 영상으로부터 영상 특징을 추출하는 영상 추출부와, 영상 특징에 기초하여 파노라마 영상에서 자연어 지시와 관련된 물체를 탐지하고 해당 물체 특징을 추출하는 물체 탐지부, 및 영상 특징에 기초하여 파노라마 영상에서 자연어 지시와 관련된 장소를 인식하고 해당 장소 특징을 추출하는 장소 인식부를 포함하는 특징 추출부를 포함할 수 있다.
물체 탐지부는 YOLO(You Only Look Once) v3 신경망에 기초하여 물체를 탐지할 수 있다.
장소 인식부는 Matterport 3D 시뮬레이터 및 Places365 데이터를 사용한 합성곱 신경망(Convolutional Newral Network, CNN) 분류 모델에 기초하여 장소를 인식할 수 있다.
물체 탐지부와 장소 인식부는 각각 물체 또는 장소에 대한 탐지 확률과 물체 또는 장소의 탐지 방향을 토대로 물체 특징 또는 장소 특징을 생성할 수 있다.
입력 처리부는 특징 추출부에서 추출된 특징들로 멀티 모달 특징을 생성하는 특징 정의부를 더 포함할 수 있다.
특징 정의부는 특징 추출부에 의해 추출된 특징마다 소프트 어텐션(soft-attention) 기법을 통해 주의 집중된 특징을 생성하되, 에이전트의 직전 상황 정보가 반영되어 결정된 가중치를 적용하여 주의 집중된 특징을 생성하는 주의 집중부, 및 주의 집중된 특징들로 멀티 모달 특징을 생성하는 멀티 모달 특징 생성부를 포함할 수 있다.
멀티 모달 특징 생성부는 주의 집중된 특징들 외에 직전 시간에 수행된 에이전트의 행동 특징을 추가로 포함하여 멀티 모달 특징을 생성할 수 있다.
행동 계획부는 멀티 모달 특징에 기초하여 현 상황 정보인 맥락 특징을 추출하는 맥락 추출부, 및 입력 처리부를 통해 얻어진 일부 특징과 맥락 추출부에 의해 추출된 맥락 특징을 토대로 에이전트의 자율 이동 행동을 결정하는 행동 결정부를 포함할 수 있다.
맥락 추출부는 순환신경망(recurrent neural network)에 속하는 LSTM(Long Short-Term Memory)을 이용하여 맥락 특징을 추출할 수 있다.
행동 결정부는 영상 특징과 주의 집중된 지시 특징 및 맥락 특징을 토대로 에이전트의 자율 이동 행동을 결정할 수 있다.
한편, 일 양상에 따른 시각 및 언어 기반 심층 신경망 공간 탐색 방법은 초기 입력된 자연어 지시와 관련된 물체와 장소 중 적어도 하나인 랜드마크 정보를 에이전트의 외부 관찰 영상에서 탐지하는 입력 처리 단계, 및 탐지된 랜드마크 정보를 고려하여 에이전트의 자율 이동 행동을 계획하는 행동 계획 단계를 포함할 수 있다.
본 발명은 공간 탐색 과정에서 랜드마크가 되는 물체와 장소를 탐지하고 관련 특징 벡터를 추출하고 추출한 정보들에 대하여 선택적 주의 집중을 활용하고 시스템에 적용함으로써, 오류율이 낮은 지시어에 대한 탐색 경로를 제공할 수 있다.
도 1은 일 실시예에 따른 시각 및 언어 기반 심층 신경망 공간 탐색 시스템 블록도이다.
도 2는 시각-언어 이동(VLN) 환경을 예시한 도면이다.
도 3은 일 실시예에 따른 랜드마크 기반 VLN(LVLN) 구조도이다.
도 4는 물체 특징 매트릭스 예시도이다.
도 5는 장소 인식 네트워크 설명을 위한 참조도이다.
전술한, 그리고 추가적인 본 발명의 양상들은 첨부된 도면을 참조하여 설명되는 바람직한 실시예들을 통하여 더욱 명백해질 것이다. 이하에서는 본 발명을 이러한 실시예를 통해 당업자가 용이하게 이해하고 재현할 수 있도록 상세히 설명하기로 한다.
도 1은 일 실시예에 따른 시각 및 언어 기반 심층 신경망 공간 탐색 시스템 블록도이다. 본 시스템은 로봇과 같은 에이전트에 탑재되어 에이전트로 하여금 시각 및 언어 기반으로 자율 이동 행동을 수행할 수 있도록 하는 시스템이다. 본 시스템은 입력 처리부(100)와 행동 계획부(400)를 포함하며, 진척 점검부(500)를 더 포함할 수 있다. 입력 처리부(100)는 초기 입력된 자연어 지시와 관련된 물체와 장소 중 적어도 하나인 랜드마크를 에이전트의 입력 영상에서 탐지한다. 여기서 입력 영상은 에이전트에 의해 촬영된 영상, 즉 관찰 영상을 말한다. 그리고 행동 계획부(400)는 입력 처리부(100)에서 탐지된 랜드마크를 고려하여 에이전트의 자율 이동 행동을 계획한다. 즉, 본 시스템은 자연어 지시에서 언급하는 주요 장소와 물체들을 입력 영상에서 탐지해내고 이 정보들을 이용하여 자율 이동 행동을 계획하도록 하는 것이다. 예를 들어, 자연어 지시가 “Walk forward to the yellow sofa thing. Walk around the yellow sofa thing and enter the door on the left. Stand at the top of the stairs”과 같을 경우에 yellow sofa, door, stairs와 같은 특정 단어들을 입력 영상에서 탐지해내고 이를 고려하여 자율 이동 행동을 계획하도록 한다.
입력 처리부(100)는 특징 추출부(200)와 특징 정의부(300)를 포함할 수 있다. 특징 추출부(200)는 입력으로부터 에이전트의 자율 이동 행동을 결정하는데 필요한 특징들을 추출(생성)하기 위한 구성으로서, 정보가 입력되면 딥러닝 알고리즘으로 인지 정보 특징을 추출한다. 일 실시예에 있어서, 특징 추출부(200)는 지시 추출부(210)와 영상 추출부(220)와 물체 탐지부(230) 및 장소 인식부(240)를 포함할 수 있다. 지시 추출부(210)는 초기에 입력된 자연어 지시를 인코딩하여 지시 특징을 추출한다. 일 실시예에 있지시 추출부(210)는 순환신경망인 LSTM(Long Short-Term Memory)을 이용하여 자연어 형태로 된 지시어로부터 지시 특징을 추출한다. 영상 추출부(220)는 실시간(매 시간마다) 입력되는 영상으로부터 영상 특징을 추출한다. 여기서, 입력 영상은 에이전트가 관찰하는 주변 영상(외부 영상)으로서 360°파노라마 영상(panorama image)일 수 있다. 일 실시예에 있어서, 영상 특징 추출부(200)는 파노라마 형태의 RGB 입력 영상을 합성곱 신경망(Convolutional Newral Network, CNN) 알고리즘을 이용하여 시각 특징을 추출한다. 여기서, 합성곱 신경망 모델은 ResNet일 수 있다. 그리고 추출된 시각 특징은 입력 영상 내의 물체, 장소, 배경 등의 속성들을 일괄적으로 함축하여 표현하는 특징으로서, 로봇의 현재 상황을 파악할 수 있는 필수적인 특징으로 활용될 수 있다.
물체 탐지부(230)는 입력 영상에서 자연어 지시와 관련된 물체를 탐지하고 해당 물체 특징을 추출(생성)하는 것으로, 영상 추출부(220)로부터 추출된 영상 특징을 입력으로 받는다. 물체 탐지부(230)는 영상 특징 추출부(200)의 결과물을 받아서 영상 내의 특정 랜드마크 요소가 될 수 있는 물체들을 탐지하고 이를 특징 벡터로 설계한다. 그리고 장소 인식부(240)는 입력 영상에서 자연어 지시와 관련된 장소를 인식하고 해당 장소 특징을 추출(생성)하는 것으로, 물체 탐지부(230)와 동일하게 영상 추출부(220)로부터 추출된 영상 특징을 입력받아 영상 내에 탐지되는 특정 장소를 인식하고 이를 특징 벡터로 설계한다.
일 실시예에 있어서, 물체 탐지부(230)는 대표적인 실시간 물체 탐지 딥러닝 모델로 알려진 YOLO(You Only Look Once) v3 신경망에 기초하여 물체를 탐지한다. 일 실시예에 있어서, 장소 인식부(240)는 Matterport 3D 시뮬레이터 및 Places365 데이터를 사용한 합성곱 신경망(Convolutional Newral Network, CNN) 분류 모델에 기초하여 장소를 인식한다. 그리고 물체 탐지부(230)는 딥러닝 모델을 통해 얻어지는 물체에 대한 탐지 확률과 탐지 방향을 토대로 물체 특징을 추출(생성)할 수 있으며, 장소 인식부(240)는 딥러닝 모델을 통해 얻어지는 장소에 대한 탐지 확률과 탐지 방향을 토대로 장소 특징을 생성할 수 있다.
특징 정의부(300)는 특징 추출부(200)에서 추출된 지시, 영상, 물체, 장소 등의 특징들을 종합하여 복합적인 멀티 모달 특징을 생성한다. 일 실시예에 있어서, 특징 정의부(300)는 주의 집중부(310)와 멀티 모달 특징 생성부(320)를 포함한다. 주의 집중부(310)는 특징 추출부(200)에 의해 추출된 특징마다 소프트 어텐션(soft-attention) 기법을 통해 주의 집중된 특징을 생성한다. 즉, 주의 집중부(310)는 지시 주의 집중부(311)는 지시 특징을 입력받아 주의 집중된 특징을 생성하고, 시각 주의 집중부(312)는 시각 특징을 입력받아 주의 집중된 특징을 생성하고, 물체 주의 집중부(313)는 물체 특징을 입력받아 주의 집중된 특징을 생성하며, 장소 주의 집중부(314)는 장소 특징을 입력받아 주의 집중된 특징을 생성한다. 이때, 각각의 주의 집중부(311, 312, 313, 314)는 에이전트의 직전 상황 정보가 반영되어 결정된 가중치를 적용하여 주의 집중된 특징을 생성할 수 있다. 그리고 멀티 모달 특징 생성부(320)는 주의 집중된 지시 특징, 영상 특징, 물체 특징, 장소 특징을 가지고 에이전트의 행동을 계획하는데 필요한 멀티 모달 특징을 생성하는데, 추가로 직전 시간에 수행된 에이전트의 행동 특징도 함께 반영하여 멀티 모달 특징을 생성할 수 있다.
행동 계획부(400)는 맥락 추출부(410)와 행동 결정부(420)를 포함할 수 있다. 맥락 추출부(410)는 멀티 모달 특징에 기초하여 에이전트의 현재 상황에 대한 특징(맥락 특징)을 추출한다. 일 실시예에 있어서, 맥락 추출부(410)는 순환신경망에 속하는 LSTM을 이용하여 맥락 특징을 추출한다. 그리고 행동 결정부(420)는 입력 처리부(100)를 통해 얻어진 일부 특징들과 맥락 추출부(410)에서 추출된 맥락 특징을 토대로 에이전트의 자율 이동 행동을 결정한다. 구체적으로, 행동 결정부(420)는 영상 추출부(220)에서 추출된 영상 특징과 지시 주의 집중부(311)에서 주의 집중된 지시 특징 그리고 맥락 추출부(410)에서 추출된 맥락 특징을 토대로 에이전트의 행동을 결정할 수 있다. 한편, 진척 점검부(500)는 에이전트가 3차원 실내 환경에서 자연어 지시와 입력 영상에 의존하여 자율 이동을 계속하는 동안에 실질적으로 목표 지점에 접근하는지 여부를 판단한다.
이하에서는 본 시스템의 시각 및 언어 기반 심층 신경망 공간 탐색 방법에 대해 보다 구체적으로 설명하기로 한다. 본 시스템은 에이전트에게 직접 목표 지점을 알려주는 대신 고수준의 이동 계획인 자연어 지시를 제공하고, 에이전트로 하여금 이 자연어 지시와 실시간 입력 영상에 따라 자율적으로 이동하도록 한다. 시간-언어 이동 작업은 도 2와 같이 실사 영상(photo-realistic image)를 제공하는 3차원 실내 시뮬레이션 환경인 Matterport3D에서 수행될 수 있다. 에이전트가 활동하는 실내 공간에는 도 2의 하단과 같이 그래프 형태의 위상 지도(topological map)가 그려져 있다. 즉, 이 지도는 실내 공간의 특정 지점들을 나타내는 노드(node)들과 직접 이동 접근이 가능한 두 인접 노드를 잇는 간선(edge)들로 구성된다. 예컨데, 도 2의 예에서 노란색 점과 선들은 에이전트가 이동할 수 있는 공간상의 경로들을 보여주는 위상 지도를 나타낸다. 그리고 그 위에 놓인 빨간색 별표는 시작 지점(starting point)을, 파란색 선은 목표 지점까지의 최적 경로(optimal path)를 각각 나타낸다.
그러나 에이전트에게는 이와 같은 그래프 형태의 위상 지도가 직접 제공되지는 않고, 그림 2의 상단과 같이 현재 위치에서 에이전트의 주변 환경을 포착한 360°파노라마 영상(panorama image)이 주어진다. 이 파노라마 영상은 도 2의 상단과 같이 수평과 수직으로 균등히 분할된 총 36개의 부분 영상들로 나뉠 수 있다. 에이전트는 매순간 이러한 파노라마 입력 영상으로부터 실내 환경의 배치와 자신의 현재 위치를 추정하고, 파노라마 영상을 구성하는 36개의 부분 영상들 중 하나를 선택하여 해당 방향으로 향하는 행동을 수행한다. 이때, 에이전트가 선택한 행동의 결과는 해당 방향으로 놓인 위상 지도상 가장 근접한 노드로 에이전트의 위치 변경이 이루어지는 것이다. 따라서, 시각-언어 이동(VLN) 문제는 아래와 같이 정의할 수 있다.
① 지시(Instruction):
Figure pat00001
단어들의 시퀀스인 자연어 지시
Figure pat00002
,
Figure pat00003
② 상태(State):
Figure pat00004
시각-언어 이동 문제를 구성하는 각 상태(state) st는 에이전트의 실시간 위치 정보로 표현한다. 즉,
Figure pat00005
, 이때
Figure pat00006
는 에이전트가 놓여있는 지점의 3차원 위치(position)를,
Figure pat00007
는 에이전트가 향하고 있는 수평 방향(heading)을,
Figure pat00008
는 수직 방향인 고도(elevation)를 각각 나타낸다. 초기 상태는
Figure pat00009
과 같이 에이전트의 시작 위치로 주어진다.
③ 관찰(Observation):
Figure pat00010
매 순간 에이전트에게 주어지는 입력은 그 상태 st의 현재 위치에서 취득한 360°파노라마 영상
Figure pat00011
이다. 파노라마 영상
Figure pat00012
는 360°를 수평으로 30°씩 나눈 12개의 수평 방향 영역들과 이들 각각을 다시 3개의 상하 고도로 나눈 수직 방향 영역들을 종합하여 총 36개의 부분 영상들로 구성된다.
Figure pat00013
④ 행동(Action):
Figure pat00014
매 순간 에이전트는 입력 파노라마 영상을 구성하는 총 36개의 부분 영상들 중 하나를 선택하여 그에 해당하는 방향 영역으로 이동한다. 따라서
Figure pat00015
, 이때 각
Figure pat00016
는 부분 영상
Figure pat00017
에 해당하는 방향 영역으로 향하는 이동 행동을 나타낸다.
⑤ 상태 전이(State Transition):
Figure pat00018
상태
Figure pat00019
에서 에이전트가 실행한 행동
Figure pat00020
는 새로운 상태
Figure pat00021
로 상태 전이를 유발한다. 즉
Figure pat00022
⑥ 에피소드(Episode):
Figure pat00023
하나의 에피소드
Figure pat00024
는 초기 상태에서 시작하여 에이전트가 수행하는 일련의 행동 시퀀스
Figure pat00025
를 나타낸다. 에피소드
Figure pat00026
를 구성하는 각 행동
Figure pat00027
의 실행은 다음 상태
Figure pat00028
로의 변경과 새로운 관찰
Figure pat00029
의 입력을 발생시킨다.
⑦ 작업 평가(Evaluation)
에피소드
Figure pat00030
가 완료된 상태에서 도달 지점과 목표 지점과의 거리를 계산한다. 두 지점 간의 차이가 소정 거리 이내(예를 들어, 3미터 이내)일 경우 작업 성공으로 판단한다.
도 3은 일 실시예에 따른 심층 신경망 모델인 LVLN의 전체 구조도를 나타낸다. LVLN 모델은 초기에 자연어 지시
Figure pat00031
를 입력한 후, 매 시간(
Figure pat00032
) 입력 영상
Figure pat00033
과 직전 행동
Figure pat00034
으로부터 현재 실행할 행동
Figure pat00035
를 결정하는 과정을 반복해야 한다. LVLN 모델에서는 이 과정을 입력 시퀀스로부터 출력 시퀀스를 생성하는 문제로 간주하여, 중심 모듈로 순환신경망(recurrent neural network)의 하나인 LSTM(Long Short-Term Memory)을 채용한다. 그리고 LVLN 모델은 LSTM을 중심으로 크게 자연어 지시
Figure pat00036
와 입력 영상
Figure pat00037
과 직전 행동
Figure pat00038
등의 입력으로부터 행동 결정에 필요한 멀티 모달 특징 벡터를 얻어내는 인코더(Encoder) 부분과, 멀티 모달 특징 벡터를 토대로 현재 실행할 행동
Figure pat00039
를 결정하는 디코더(Decoder) 부분으로 나뉜다. 그리고 인코더 부분은 다시 각각의 입력으로부터 특징을 추출하는 특징 추출 모듈(feature extration module)들과 추출된 특징들에 주의 집중을 적용하는 주의 집중 모듈(attention module)들로 구성된다.
지시 인코더(Instruction Encoder)에서는 자연어 지시(instruction)를 순환신경망(LSTM)을 통해 인코딩하고, 지시의 어느 부분까지 현재 수행하였는지 추적할 수 있도록 단어의 위치 정보(Positional Encoding, PE)를 추가하여 지시 특징
Figure pat00040
을 만들게 된다. 영상 특징 추출기(Visual Feature Extractor)에서는 대표적인 합성 곱 신경망(CNN)인 ResNet-152를 이용하여 입력 파노라마 영상
Figure pat00041
으로부터 시각 특징
Figure pat00042
을 추출해낸다. 그리고 파노라마 영상에 관한 시각 특징
Figure pat00043
은 수학식 1과 같이 각 부분 영상에서 추출한 시각 특징들을 서로 연결(concatenation)하여 만든다.
Figure pat00044
또한, 이 영상 특징
Figure pat00045
은 물체 탐지 네트워크(Object Detection Network, ODN)와 장소 인식 네트워크(Place Recognition Network, PRN)의 입력으로도 제공되어, 입력 파노라마 영상에 포함된 특정 장소들과 물체들을 나타내는 물체 특징
Figure pat00046
과 장소 특징
Figure pat00047
을 추출한다. 마지막으로, 직전 시간(t-1)에서 수행했던 행동
Figure pat00048
도 인코딩하여 행동 특징
Figure pat00049
을 생성한다.
LVLN 모델은 매 시간마다 올바른 행동
Figure pat00050
를 결정하기 위해 자연어 지시
Figure pat00051
중 어떤 부분에 집중해야 하는지와 입력 영상
Figure pat00052
의 어떤 영역에 집중해야 하는지를 명확히 해야 한다. 따라서, 도 3과 같이 주의 집중 단계에서는 그동안의 작업 맥락 정보를 나타내는 순환신경망 LSTM의 직전 은닉 상태(ht-1)를 사용하여 각 특징마다 soft-attention 기법을 적용한 주의 집중된 특징들을 생성한다. 특히, LVLN 모델에서는 자연어 지시에서 언급하는 물체와 장소에 주목하기 위하여 물체 특징과 장소 특징에도 주의 집중 메커니즘을 적용한다. 지시 특징(instruction feature)의 주의 집중 계산은 수학식 2와 같다.
Figure pat00053
이때,
Figure pat00054
는 자연어 지시
Figure pat00055
내의 현재까지 실행한 단어
Figure pat00056
위치 정보(Positional Encoding)를 나타내며,
Figure pat00057
은 자연어 지시 내의
Figure pat00058
번째 단어와 직전 상황(은닉) 특징
Figure pat00059
간의 상관관계를 계산한 값이다. 그리고
Figure pat00060
는 지시 특징
Figure pat00061
에 적용할 주의 집중 가중치를 나타낸다. 한편, 시각 특징(visual feature)의 주의 집중 계산 과정은 지시 특징의 경우와 유사한 수학식 3과 같다.
Figure pat00062
여기서
Figure pat00063
함수는 하나의 다층 신경망(Multi-Layer Perceptron, MLP)으로 구현되며,
Figure pat00064
는 시각 특징
Figure pat00065
에 적용할 주의 집중 가중치를 나타낸다. 물체와 장소 특징의 주의 집중 과정도 앞선 시각 특징과 유사한 방식으로, 수학식 4와 같이 직전 은닉 상태
Figure pat00066
와 현재의 랜드마크 특징
Figure pat00067
을 이용하여 주의 집중(soft-attention)을 수행한다.
Figure pat00068
이와 같이 주의 집중 과정을 거친 지시 특징
Figure pat00069
, 시각 특징
Figure pat00070
, 물체 특징
Figure pat00071
, 장소 특징
Figure pat00072
들은 직전에 수행한 행동을 나타내는 행동 특징
Figure pat00073
과 함께 통합되어 하나의 멀티 모달 특징 벡터
Figure pat00074
를 생성한다. 그리고 이것은 순환신경망 LSTM의 입력으로 주어져 수학식 5와 같이 새로운 은닉 상태
Figure pat00075
를 생성하게 된다.
Figure pat00076
순환신경망인 LSTM의 셀 상태(cell state)
Figure pat00077
와 직전의 은닉 상태
Figure pat00078
는 주의 집중된 시각 특징
Figure pat00079
과 지시 특징의 주의 집중 가중치(
Figure pat00080
)와 함께 진척 점검기(Progress Monitor)의 입력으로 이용될 수 있으며, 이 과정에서 나온 행동 스코어
Figure pat00081
는 모델을 최적화하는 손실값(Loss)을 구하는 과정에 활용될 수 있다.
마지막으로, 행동 디코더는 자연어 지시
Figure pat00082
내에서 현재 주목해야 할 부분을 나타내는 지시 특징
Figure pat00083
과 입력 영상에 대한 시각 특징
Figure pat00084
, 그리고 맥락 정보를 나타내는 은닉 상태
Figure pat00085
를 토대로 현재 수행할 행동
Figure pat00086
를 결정한다. 행동 디코더는 선형 계층(Linear Layer)과 소프트맥스(softmax) 계층으로 구성되며, 행동
Figure pat00087
를 결정하는 과정은 수학식 6과 같다. 수학식 6에서
Figure pat00088
는 현재 수행 가능한 각 행동에 대한 평가치를 나타낸다.
Figure pat00089
따라서, 행동 디코더는 현재 수행 가능한 행동들 중에서 가장 높은 평가치를 갖는 행동을 선택한다.
한편, LVLN 모델의 물체 탐지 네트워크(ODN)에서는 빠른 실시간 처리를 위해 대표적인 단-단계 탐지기(single-phase detector)인 YOLO(You Only Look Once)가 사용될 수 있는데, 구체적으로 YOLO v3가 사용될 수 있다. 그리고 물체 특징의 경우, 물체가 탐지된 방향과 물체의 확률값을 토대로 특징 벡터를 설계하는데 아래의 수학식 7과 같이 나타낼 수 있으며, 세미콜론은 각 특징들을 이어붙인(concatenate) 것을 의미한다.
Figure pat00090
수학식 7과 같이, 하나의 파노라마 영상을 90°단위로 분할한 4개의 부분 영상 각각에서 탐지된 물체(object)의 종류
Figure pat00091
와 탐지 방향(heading)
Figure pat00092
, 그리고 탐지 확률(probability)을 기초로 수학식 7과 같이 개별 물체 특징
Figure pat00093
들로 구성되는 물체 특징 행렬
Figure pat00094
를 생성한다. 이때 방향
Figure pat00095
는 360°파노라마 영상을 30°씩 수평으로 나눈 총 12개의 방향 영역들 중 하나가 된다. 따라서, (M×N) 크기의 행렬(matrix)로 표현되는 물체 특징
Figure pat00096
에는 각 물체의 탐지 신뢰도를 나타내는 확률값(probability)들을 포함한다. 도 4를 예로 들면, 첫 번째 부분 영상에서 물체 색인번호가 5인 싱크대(sink)가 2번 방향 영역에서 탐지되었으므로, 물체 특징 행렬
Figure pat00097
내 (5, 2) 지점의 특징값은 해당 물체의 탐지 신뢰도를 나타내는 확률값 0.88이 된다. 여기서, 확률값은 YOLO v3를 사용하였을 때 얻어진 값이다.
장소 인식 네트워크(PRN)는 도 5와 같은 구조의 합성곱 신경망(CNN)으로 구성될 수 있다. 이 네트워크는 장소 데이터 집합으로 사전 학습시킨 장면 인식 네트워크를 Matterport3D 환경에서 수집한 새로운 장소별 영상 데이터들로 재학습시켜 사용한다. 이 네트워크에서도 물체 탐지 네트워크와 유사한 방식으로 입력 파노라마 영상을 수평으로 90°단위로 나눈 4개의 부분 영상들에서 다양한 장소들을 탐지해낸다. 그리고 탐지된 장소(place)의 색인번호
Figure pat00098
, 탐지 방향(heading)
Figure pat00099
, 탐지 확률 값(probability)들을 토대로 수학식 8과 같이 장소 특징 행렬
Figure pat00100
을 생성한다.
Figure pat00101
이렇게 생성된 물체 특징
Figure pat00102
과 장소 특징
Figure pat00103
도 자연어 지시에서 언급한 물체 혹은 장소와의 연관성을 높이기 위해 맥락 정보 기반의 주의 집중 단계를 거친다.
한편, 도 3에서 진척 점검기(Progress Monitor)는 직전 상태의 상황 정보를 나타내는 순환신경망(LSTM)의 직전 은닉 상태(
Figure pat00104
), 현재의 셀 상태(
Figure pat00105
) 정보, 주의 집중된 시각 특징(
Figure pat00106
), 지시어의 주의 집중 가중치(
Figure pat00107
) 등을 입력으로 이용한다. 이러한 입력들을 토대로, 내부 은닉 상태(
Figure pat00108
)와 평가 점수(
Figure pat00109
)를 수학식 9와 같이 각각 계산한다.
Figure pat00110
이 식에서
Figure pat00111
은 행렬의 요소 곱(element-wise produce) 연산을, σ는 시그모이드(Sigmoid) 함수를 각각 나타낸다. LVLN 모델에서는 진척 점검 과정에서 생성된
Figure pat00112
을 모델 학습 단계에서 이용하기 위해, 수학식 10과 같은 손실 함수
Figure pat00113
를 정의한다.
Figure pat00114
이 손실 함수
Figure pat00115
는 크게 행동 결정에 대한 크로스 엔트로피 손실(cross-entropy loss) 부분인
Figure pat00116
과, 진척 점검기의 평균 제곱오차 손실(mean squared error loss) 부분인
Figure pat00117
로 구성된다. 그리고 문제의 특성에 맞게 계수 λ를 조절함으로써, 이 두 가지 손실들의 결합 비율을 조정할 수 있다. 크로스 엔트로피 손실 계산에 사용된
Figure pat00118
Figure pat00119
시간의 정답 동작(ground truth action)을,
Figure pat00120
는 수행 대상 동작(
Figure pat00121
)에 대한 에이전트의 평가 확률 값을 각각 나타낸다. 한편, 평균 제곱오차 손실에 사용된
Figure pat00122
는 에이전트의 현재 위치와 목표 지점간의 거리를 정규화한 값을,
Figure pat00123
는 수학식 9에 따라 계산한 진척 평가 점수를 각각 나타낸다.
정리하면, 시각-언어 이동(VLN) 문제를 위한 새로운 심층 신경망 모델인 LVLN(Landmark-based VLN)은 자연어 지시의 언어적 특징과 입력 영상 전체의 시각적 특징들 외에 자연어 지시에서 언급하는 주요 장소와 물체들을 입력 영상에서 탐지해내고 이 정보들을 추가적으로 이용한다. 특히, 맥락 정보 기반의 주의 집중(context-besed attention) 메커니즘을 통해, 자연어 지시 내 각 개체(entity)와 영상 내 각 관심영역(ROI), 그리고 영상에서 탐지된 개별 물체(object) 및 장소(place) 간의 연관성과 일치성을 높일 수 있다. 또한, LVLN 모델에서는 에이전트의 목표 도달 가능성을 향상시키기 위해 목표를 향한 실질적인 접근을 점검할 수 있는 진척 점검기(progress monitor) 모듈도 포함한다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
100 : 입력 처리부 200 : 특징 추출부
210 : 지시 추출부 220 : 영상 추출부
230 : 물체 탐지부 240 : 장소 인식부
300 : 특징 정의부 310 : 주의 집중부
311 : 지시 주의 집중부 312 : 시각 주의 집중부
313 : 물체 주의 집중부 314 : 장소 주의 집중부
320 : 멀티 모달 특징 생성부 400 : 행동 계획부
410 : 맥락 추출부 420 : 행동 결정부
500 : 진척 점검부

Claims (15)

  1. 초기 입력된 자연어 지시와 관련된 물체와 장소 중 적어도 하나인 랜드마크를 에이전트의 외부 관찰 영상에서 탐지하는 입력 처리부; 및
    탐지된 랜드마크를 고려하여 에이전트의 자율 이동 행동을 계획하는 행동 계획부;
    를 포함하는 시각 및 언어 기반 심층 신경망 공간 탐색 시스템.
  2. 제 1 항에 있어서, 입력 처리부는 :
    초기 입력된 자연어 지시를 인코딩하여 지시 특징을 추출하는 지시 추출부와, 입력 영상인 파노라마 영상으로부터 영상 특징을 추출하는 영상 추출부와, 영상 특징에 기초하여 파노라마 영상에서 자연어 지시와 관련된 물체를 탐지하고 해당 물체 특징을 생성하는 물체 탐지부, 및 영상 특징에 기초하여 파노라마 영상에서 자연어 지시와 관련된 장소를 인식하고 해당 장소 특징을 생성하는 장소 인식부를 포함하는 특징 추출부;
    를 포함하는 시각 및 언어 기반 심층 신경망 공간 탐색 시스템.
  3. 제 2 항에 있어서,
    물체 탐지부는 YOLO(You Only Look Once) 신경망에 기초하여 물체를 탐지하는 시각 및 언어 기반 심층 신경망 공간 탐색 시스템.
  4. 제 2 항에 있어서,
    장소 인식부는 Matterport 3D 시뮬레이터 및 Places365 데이터를 사용한 합성곱 신경망(Convolutional Newral Network, CNN) 분류 모델에 기초하여 장소를 인식하는 시각 및 언어 기반 심층 신경망 공간 탐색 시스템.
  5. 제 2 항에 있어서,
    물체 탐지부와 장소 인식부는 각각 물체 또는 장소에 대한 탐지 확률과 물체 또는 장소의 탐지 방향을 토대로 물체 특징 또는 장소 특징을 생성하는 시각 및 언어 기반 심층 신경망 공간 탐색 시스템.
  6. 제 2 항에 있어서, 입력 처리부는 :
    특징 추출부에서 추출된 특징들로 멀티 모달 특징을 생성하는 특징 정의부;
    를 더 포함하는 시각 및 언어 기반 심층 신경망 공간 탐색 시스템.
  7. 제 6 항에 있어서, 특징 정의부는 :
    특징 추출부에 의해 추출된 특징마다 소프트 어텐션(soft-attention) 기법을 통해 주의 집중된 특징을 생성하되, 에이전트의 직전 상황 정보가 반영되어 결정된 가중치를 적용하여 주의 집중된 특징을 생성하는 주의 집중부; 및
    주의 집중된 특징들로 멀티 모달 특징을 생성하는 멀티 모달 특징 생성부;
    를 포함하는 시각 및 언어 기반 심층 신경망 공간 탐색 시스템.
  8. 제 7 항에 있어서,
    멀티 모달 특징 생성부는 주의 집중된 특징들 외에 직전 시간에 수행된 에이전트의 행동 특징을 추가로 포함하여 멀티 모달 특징을 생성하는 시각 및 언어 기반 심층 신경망 공간 탐색 시스템.
  9. 제 6 항 내지 제 8 항 중 어느 한 항에 있어서, 행동 계획부는 :
    멀티 모달 특징에 기초하여 현 상황 정보인 맥락 특징을 추출하는 맥락 추출부; 및
    입력 처리부를 통해 얻어진 일부 특징과 맥락 추출부에 의해 추출된 맥락 특징을 토대로 에이전트의 자율 이동 행동을 결정하는 행동 결정부;
    를 포함하는 시각 및 언어 기반 심층 신경망 공간 탐색 시스템.
  10. 제 9 항에 있어서,
    맥락 추출부는 순환신경망(recurrent neural network)에 속하는 LSTM(Long Short-Term Memory)을 이용하여 맥락 특징을 추출하는 시각 및 언어 기반 심층 신경망 공간 탐색 시스템.
  11. 제 9 항에 있어서,
    행동 결정부는 영상 특징과 주의 집중된 지시 특징 및 맥락 특징을 토대로 에이전트의 자율 이동 행동을 결정하는 시각 및 언어 기반 심층 신경망 공간 탐색 시스템.
  12. 초기 입력된 자연어 지시와 관련된 물체와 장소 중 적어도 하나인 랜드마크 정보를 에이전트의 외부 관찰 영상에서 탐지하는 입력 처리 단계; 및
    탐지된 랜드마크 정보를 고려하여 에이전트의 자율 이동 행동을 계획하는 행동 계획 단계;
    를 포함하는 시각 및 언어 기반 심층 신경망 공간 탐색 방법.
  13. 제 12 항에 있어서, 입력 처리 단계는 :
    초기 입력된 자연어 지시를 인코딩하여 지시 특징을 추출하는 단계와, 입력 영상인 파노라마 영상으로부터 영상 특징을 추출하는 단계와, 영상 특징에 기초하여 파노라마 영상에서 자연어 지시와 관련된 물체를 탐지하고 해당 물체 특징을 추출하는 단계, 및 영상 특징에 기초하여 파노라마 영상에서 자연어 지시와 관련된 장소를 인식하고 해당 장소 특징을 추출하는 단계를 포함하는 특징 추출 단계;
    를 포함하는 시각 및 언어 기반 심층 신경망 공간 탐색 방법.
  14. 제 13 항에 있어서, 입력 처리 단계는 :
    추출된 특징마다 소프트 어텐션(soft-attention) 기법을 통해 주의 집중된 특징을 생성하되, 에이전트의 직전 상황 정보가 반영되어 결정된 가중치를 적용하여 주의 집중된 특징을 생성하는 단계, 및 주의 집중된 특징들과 직전 시간에 수행된 에이전트의 행동 특징으로 멀티 모달 특징을 생성하는 단계를 포함하는 특징 정의 단계;
    를 더 포함하는 시각 및 언어 기반 심층 신경망 공간 탐색 방법.
  15. 제 14 항에 있어서, 행동 계획 단계는
    멀티 모달 특징에 대해 순환신경망(recurrent neural network)에 속하는 LSTM(Long Short-Term Memory)을 이용하여 현 상황 정보인 맥락 특징을 추출하는 맥락 추출 단계; 및
    영상 특징과 주의 집중된 지시 특징 및 맥락 특징을 토대로 에이전트의 자율 이동 행동을 결정하는 행동 결정 단계;
    를 포함하는 시각 및 언어 기반 심층 신경망 공간 탐색 방법.
KR1020190140411A 2019-11-05 2019-11-05 시각 및 언어 기반 공간 탐색 시스템 KR102331803B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190140411A KR102331803B1 (ko) 2019-11-05 2019-11-05 시각 및 언어 기반 공간 탐색 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190140411A KR102331803B1 (ko) 2019-11-05 2019-11-05 시각 및 언어 기반 공간 탐색 시스템

Publications (2)

Publication Number Publication Date
KR20210054355A true KR20210054355A (ko) 2021-05-13
KR102331803B1 KR102331803B1 (ko) 2021-11-30

Family

ID=75913480

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190140411A KR102331803B1 (ko) 2019-11-05 2019-11-05 시각 및 언어 기반 공간 탐색 시스템

Country Status (1)

Country Link
KR (1) KR102331803B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113223120A (zh) * 2021-06-01 2021-08-06 平安科技(深圳)有限公司 图文生成方法、装置、计算机设备及存储介质
EP4105604A1 (en) * 2021-06-16 2022-12-21 Beijing Xiaomi Mobile Software Co., Ltd. Indoor navigation method, equipment, storage medium and program product
CN117773934A (zh) * 2023-12-29 2024-03-29 兰州大学 基于语言指引的物体抓取方法和装置、电子设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180134683A (ko) 2017-06-09 2018-12-19 엘지전자 주식회사 인공지능 이동 로봇의 제어 방법
KR20190096307A (ko) * 2019-07-29 2019-08-19 엘지전자 주식회사 음성 인식 서비스를 제공하는 인공 지능 장치 및 그의 동작 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180134683A (ko) 2017-06-09 2018-12-19 엘지전자 주식회사 인공지능 이동 로봇의 제어 방법
KR20190096307A (ko) * 2019-07-29 2019-08-19 엘지전자 주식회사 음성 인식 서비스를 제공하는 인공 지능 장치 및 그의 동작 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113223120A (zh) * 2021-06-01 2021-08-06 平安科技(深圳)有限公司 图文生成方法、装置、计算机设备及存储介质
EP4105604A1 (en) * 2021-06-16 2022-12-21 Beijing Xiaomi Mobile Software Co., Ltd. Indoor navigation method, equipment, storage medium and program product
CN117773934A (zh) * 2023-12-29 2024-03-29 兰州大学 基于语言指引的物体抓取方法和装置、电子设备及介质

Also Published As

Publication number Publication date
KR102331803B1 (ko) 2021-11-30

Similar Documents

Publication Publication Date Title
EP3814865B1 (en) Self-aware visual-textual co-grounded navigation agent
Chen et al. Think global, act local: Dual-scale graph transformer for vision-and-language navigation
Sadeghian et al. Sophie: An attentive gan for predicting paths compliant to social and physical constraints
Irshad et al. Hierarchical cross-modal agent for robotics vision-and-language navigation
CN114384920A (zh) 一种基于局部栅格地图实时构建的动态避障方法
KR102331803B1 (ko) 시각 및 언어 기반 공간 탐색 시스템
CN110717927A (zh) 基于深度学习和视惯融合的室内机器人运动估计方法
An et al. Etpnav: Evolving topological planning for vision-language navigation in continuous environments
KR102372703B1 (ko) V2v 통신을 통해 획득된 타 자율 주행 차량의 공간 탐지 결과를 자신의 자율 주행 차량의 공간 탐지 결과와 통합하는 학습 방법 및 학습 장치, 그리고 이를 이용한 테스트 방법 및 테스트 장치
CN113515131B (zh) 基于条件变分自动编码器的移动机器人避障方法及系统
JP2020038660A (ja) CNN(Convolutional Neural Network)を利用して車線を検出するための学習方法及び学習装置そしてこれを利用したテスト方法及びテスト装置{LEARNING METHOD, LEARNING DEVICE FOR DETECTING LANE USING CNN AND TEST METHOD, TEST DEVICE USING THE SAME}
JP2020038661A (ja) 車線モデルを利用して車線を検出し得る学習方法及び学習装置そしてこれを利用したテスト方法及びテスト装置{learning method, learning device for detecting lane using lane model and test method, test device using the same}
CN113156419B (zh) 一种基于雷达与视觉多模态融合的具身语言导航方法
JP2003271975A (ja) 平面抽出方法、その装置、そのプログラム、その記録媒体及び平面抽出装置搭載型ロボット装置
Kojima et al. To learn or not to learn: Analyzing the role of learning for navigation in virtual environments
Rui et al. A multi-sensory blind guidance system based on YOLO and ORB-SLAM
CN114399515A (zh) 基于语言描述的类级别目标物6d位姿获取方法及存储介质
Zhi et al. Learning autonomous exploration and mapping with semantic vision
Xu et al. Avoidance of manual labeling in robotic autonomous navigation through multi-sensory semi-supervised learning
CN117570960A (zh) 一种用于导盲机器人的室内定位导航系统及方法
Zhao et al. A multi-sensor fusion system for improving indoor mobility of the visually impaired
Temsamani et al. A multimodal AI approach for intuitively instructable autonomous systems: a case study of an autonomous off-highway vehicle
Luo et al. Recursive neural network based semantic navigation of an autonomous mobile robot through understanding human verbal instructions
Kapotoglu et al. Robots avoid potential failures through experience-based probabilistic planning
Kayalvizhi et al. A Comprehensive Study on Supermarket Indoor Navigation for Visually Impaired using Computer Vision Techniques

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant