KR20210029388A

KR20210029388A - 시각 장애인을 위한 물건 탐지 및 안내를 위한 시스템

Info

Publication number: KR20210029388A
Application number: KR1020190110536A
Authority: KR
Inventors: 이보원; 김태용; 김상홍; 최준희; 이영선
Original assignee: 인하대학교 산학협력단
Priority date: 2019-09-06
Filing date: 2019-09-06
Publication date: 2021-03-16
Also published as: KR102259332B1

Abstract

물건 탐지 및 안내를 위한 시스템이 개시된다. 일 실시예에 따른 물건 탐지 및 안내 시스템은, 영상 장치로부터 촬영되는 영상 데이터를 획득함에 따라 적어도 하나 이상의 객체를 인식하는 객체 인식부; 상기 객체에 대한 질의 응답을 위하여 구성된 모델로부터 시각 장애인의 음성 데이터를 통하여 질의된 의도 정보를 판단하는 판단부; 상기 판단된 의도 정보와 관련하여 상기 인식된 객체의 위치 정보를 식별하는 식별부; 및 상기 식별된 객체의 위치 정보를 포함하는 객체 정보를 안내하는 안내부를 포함할 수 있다.

Description

시각 장애인을 위한 물건 탐지 및 안내를 위한 시스템{OBJECT DETECTION AND GUIDANCE SYSTEM FOR PEOPLE WITH　VISUAL IMPAIRMENT}

아래의 설명은 물건 탐지 및 안내 기술에 관한 것이다.

시각 장애인을 위한 길안내 시스템 등 다양한 발명이 이루어지고 있지만, 시각 장애인이 일상생활에서 물건을 찾거나 이를 안내해주는 시스템은 부재하다. 시각 장애인들은 물건의 위치를 기억하고 정해진 위치에 놓는 방식으로 물건의 위치 정보를 기억하지만, 새로운 상황에 놓여있을 때나 위치가 바뀌어 버리면 원하는 물건을 찾기가 매우 힘든 점이 있다. 시각 장애인 뿐 아니라 고령자, 영유아 및 복잡한 업무를 동시에 진행하는 일반 사용자들에게도 물건을 찾거나 안내해주는 시스템이 유용하게 사용될 수 있다.

이러한 문제를 해결하기 위해, 사용자의 음성을 이해하고 물건의 위치 정보를 알아내는 기술을 이용하여 시각 장애인을 포함한 사용자들이 용이하게 사용할 수 있는 기술이 필요하다.

한편, 한국등록특허 시각 장애인용 지팡이 및 이를 이용한 물건 탐지 시스템(등록번호: 1018567000000(2018.05.03))은 시각 장애인이 안전하게 보행을 하는 것을 돕기 위하여, 지팡이를 통한 전방 장애물을 인지하고 및 경고하는 것이 개시된바 있다.

사용자의 음성 데이터를 인식함에 따라 파악된 사용자의 의도와 영상 장치로부터 획득된 영상 데이터를 이용하여 물건의 위치 정보를 안내하는 방법 및 시스템을 제공할 수 있다.

물건 탐지 및 안내 시스템은, 영상 장치로부터 촬영되는 영상 데이터를 획득함에 따라 적어도 하나 이상의 객체를 인식하는 객체 인식부; 상기 객체에 대한 질의 응답을 위하여 구성된 모델로부터 시각 장애인의 음성 데이터를 통하여 질의된 의도 정보를 판단하는 판단부; 상기 판단된 의도 정보와 관련하여 상기 인식된 객체의 위치 정보를 식별하는 식별부; 및 상기 식별된 객체의 위치 정보에 기초하여 객체 정보를 안내하는 안내부를 포함할 수 있다.

상기 판단부는, 상기 객체에 대한 질의 응답을 위하여 기계학습 기반의 모델을 구성하고, 상기 구성된 모델을 통하여 상기 영상 데이터로부터 객체를 감지한 식별 정보를 획득하고, 상기 시각 장애인의 음성 데이터로부터 요청된 질의에 대한 객체의 식별 정보를 인식할 수 있다.

상기 판단부는, 상기 시각 장애인의 음성 데이터를 인식하기 위한 시각 장애인의 목소리를 저장하고, 상기 음성 데이터가 상기 저장된 시각 장애인의 목소리를 통하여 음성 데이터가 발화됨에 따라 인식 알고리즘에 기반하여 음성 데이터를 최적화할 수 있다.

상기 판단부는, 상기 시각 장애인으로부터 상기 객체의 위치 정보를 포함하는 객체 정보와 관련된 질의로서 음성 데이터가 발화됨을 수신하고, 상기 수신된 음성 데이터에 기초하여 상기 시각 장애인의 질의에 대한 의도 정보를 판단할 수 있다.

상기 판단부는, 복수 개의 유저 인터페이스를 구성하고, 상기 구성된 복수 개의 유저 인터페이스 중 하나의 유저 인터페이스가 선택됨에 따라 상기 시각 장애인과 기 설정된 거리 이내에 존재하는 객체를 판단하고, 판단된 객체와 관련된 객체 정보를 생성하고, 상기 복수 개의 유저 인터페이스 중 다른 유저 인터페이스가 선택됨에 따라 상기 시각 장애인으로부터 음성 데이터를 통하여 질의되고, 상기 질의된 음성 데이터에 포함된 특정 객체 정보가 상기 시각 장애인을 기준으로 기 설정된 범위 내에 존재하는지 판단할 수 있다.

상기 식별부는, 상기 객체의 종류, 객체의 형태, 객체의 위치 또는 객체의 방향을 포함하는 객체의 위치 정보를 식별하는 것을 포함하고, 상기 안내부는, 상기 객체의 종류, 객체의 형태, 객체의 위치 또는 객체의 방향을 포함하는 객체의 위치 정보 중 하나 또는 하나 이상을 포함하는 안내 정보를 상기 시각 장애인에게 음성 메시지로 통보할 수 있다.

상기 안내부는, 상기 시각 장애인으로부터 질의된 객체 정보가 탐색되지 않는 경우, 상기 객체가 탐지될 때까지 상기 시각 장애인이 위치 및 방향을 이동시키도록 안내할 수 있다.

상기 안내부는, 상기 식별된 객체의 위치 정보를 포함하는 객체 정보를 음성 장치에 입력하여 음성 합성을 진행한 후, 상기 합성된 음성 데이터를 통하여 상기 객체 정보를 포함하는 안내 정보를 골전도를 사용하여 음성 데이터로 전달할 수 있다.

물건 탐지 및 안내 시스템에 의해 수행되는 방법은, 영상 장치로부터 촬영되는 영상 데이터를 획득함에 따라 적어도 하나 이상의 객체를 인식하는 단계; 상기 객체에 대한 질의 응답을 위하여 구성된 모델로부터 시각 장애인의 음성 데이터를 통하여 질의된 의도 정보를 판단하는 단계; 상기 판단된 의도 정보와 관련하여 상기 인식된 객체의 위치 정보를 식별하는 단계; 및 상기 식별된 객체의 위치 정보에 기초하여 객체 정보를 안내하는 단계를 포함할 수 있다.

일 실시예에 따른 물건 탐지 및 안내 시스템은 시각 장애인으로부터 요청된 물건에 대하여 영상 인식을 통하여 물건의 위치 정보를 파악한 후, 파악된 물건의 위치 정보를 안내할 수 있다.

일 실시예에 따른 물건 탐지 및 안내 시스템은 시각 장애인이 용이하게 착용 및 사용할 수 있는 형태로 제작하여 주변의 물건을 인지하고 안내하기 때문에, 어디서든 휴대가 간편하고 사용법이 간단하여 시각 장애인들이 편리하게 장치를 이용할 수 있다.

일 실시예에 따른 물건 탐지 및 안내 시스템은 위험한 물건이 있다면 이를 인식하여 피해를 미연에 방지할 수 있기 때문에, 시각 장애인이 직면할 수 있는 위험한 상황을 안전하게 회피할 수 있다.

일 실시예에 따른 물건 탐지 및 안내 시스템은 시각 장애인이 일상 생활에서 피치 못하게 주변의 물건을 잘못 건드려서 파손시키는 금전적 손실을 방지 할 수 있다.

도 1은 일 실시예에 따른 물건 탐지 및 안내 시스템의 개괄적인 동작을 설명하기 위한 도면이다.
도 2는 일 실시예에 따른 물건 탐지 및 안내 시스템의 구성을 설명하기 위한 블록도이다.
도 3은 일 실시예에 따른 물건 탐지 및 안내 시스템에서 물건 탐지 및 안내 방법을 설명하기 위한 흐름도이다.
도 4 및 도 5는 일 실시예에 따른 물건 탐지 및 안내 시스템에서 유저 인터페이스를 장착하는 부분과 카메라를 고정하는 부분을 설명하기 위한 예이다.
도 6은 일 실시예에 따른 물건 탐지 및 안내 시스템에서 유저 인터페이스의 예이다.
도 7은 일 실시예에 따른 물건 탐지 및 안내 시스템에서 유저 인터페이스의 선택에 따라 동작되는 것을 설명하기 위한 예이다.
도 8은 일 실시예에 따른 물건 탐지 및 안내 시스템에서 제1 유저 인터페이스를 통하여 주위에 객체가 존재하는지 여부를 판단하는 동작을 설명하기 위한 흐름도이다.
도 9는 일 실시예에 따른 물건 탐지 및 안내 시스템에서 제2 유저 인터페이스를 통하여 찾고자 하는 객체가 존재하는지 여부를 판단하는 동작을 설명하기 위한 흐름도이다.

이하, 실시예를 첨부한 도면을 참조하여 상세히 설명한다.

실시예에서는 시각 장애인의 주변에 물건이 어디에 있는지 찾는 어려움을 해결하기 위하여 시각 장애인의 편의성을 향상시킬 수 있는 시각 장애인용 물건 탐지 및 안내 시스템을 설명하기로 한다. 시각 장애인이 주로 안내견이나 지팡이를 들고 다니고 한쪽에는 물건을 들고 있는 경우가 많기 때문에, 시각 장애인이 용이하게 착용 및 사용할 수 있도록 상기 시스템 또는 시스템의 카메라가 사용자의 신체의 일부 예를 들면, 목 혹은 가슴에 부착할 수 있는 착용 가능한 형태로 구성되어 있다고 가정하기로 한다.

도 1은 일 실시예에 따른 물건 탐지 및 안내 시스템의 개괄적인 동작을 설명하기 위한 도면이다.

물건 탐지 및 안내 시스템은 객체(object)를 인식할 수 있다. 물건 탐지 및 안내 시스템은 영상 데이터로부터 적어도 하나 이상의 객체를 인식할 수 있다. 예를 들면, 물건 탐지 및 안내 시스템은 영상 장치(예를 들면, 카메라)가 내장되어 카메라로부터 촬영된 영상 데이터를 획득할 수 있으며, 외부에 존재하는 영상 장치(예를 들면, 카메라)와 연동되어 카메라로부터 촬영된 영상 데이터를 수신할 수도 있다. 이때, 물건 탐지 및 안내 시스템은 카메라로부터 촬영되는 영상 데이터에 의하여 캡쳐된 이미지로부터 적어도 하나 이상의 객체를 인식할 수 있다. 일례로, 카메라를 시각 장애인의 가슴 높이에서 촬영함에 따라 획득된 이미지에 존재하는 적어도 하나 이상의 객체를 인식할 수 있다. 물건 탐지 및 안내 시스템은 임베디드 시스템의 형태일 수 있으며, 예를 들면, 라이베리파이가 적용될 수 있다. 예를 들면, 물건 탐지 및 안내 시스템은 다중 객체를 인식하기 위하여 Google Coral USB Accelerator와 함께 Raspberry Pi 3에 설치된 MobileNetV2 모델이 사용될 수 있다.

물건 탐지 및 안내 시스템은 객체 정보에 대한 질의 응답을 위하여 모델을 구성할 수 있다. 이때, 물건 탐지 및 안내 시스템은 기계학습 기반의 모델을 구성할 수 있다. 예를 들면, 기계학습 기반의 모델은 심층 신경망(예를 들면, DNN, CNN 등)을 사용한 컴퓨터 비전이 적용될 수 있다.

이와 같이 구성된 모델을 통하여 음성 기반의 질의 응답이 수행될 수 있다. 물건 탐지 및 안내 시스템은 영상 데이터를 통하여 감지된 객체의 식별 정보(예를 들면, 객체명)를 나열할 수 있다. 예를 들면, 시각 장애인이 인식된 객체의 이름을 열거하는 음성 데이터를 듣고, 원하는 객체의 위치를 시각 장애인의 음성 데이터를 통하여 질의할 수 있다.

또한, 시각 장애인은 감지되고 있는 객체가 무엇인지 들을 수 있고, 특정 객체의 위치를 요청할 수 있다. 물건 탐지 및 안내 시스템은 시각 장애인으로부터 음성 데이터를 통하여 객체와 관련하여 질의됨을 수신할 수 있고, 질의된 객체와 관련된 객체 식별 정보를 식별할 수 있다. 일례로, 물건 탐지 및 안내 시스템은 시각 장애인으로부터 발화되는 음성 데이터로부터 키워드를 추출할 수 있고, 추출된 키워드가 영상 데이터 내에 존재하는지 감지할 수 있다. 또는, 물건 탐지 및 안내 시스템은 시각 장애인으로부터 발화되는 음성 데이터로부터 키워드를 추출할 수 있고, 추출된 키워드와 영상 데이터로부터 인식된 적어도 하나 이상의 객체를 비교하여 키워드와 일치하는 객체가 존재하는지 감지할 수 있다. 또한, 물건 탐지 및 안내 시스템은 시각 장애인으로부터 음성 데이터를 통하여 객체와 관련하여 질의된 의도 정보를 판단할 수 있다. 일례로, 물건 탐지 및 안내 시스템은 제1 유저 인터페이스 또는 제2 유저 인터페이스에 따라 시각 장애인의 의도 정보를 다르게 수신할 수 있다. 물건 탐지 및 안내 시스템은 제1 유저 인터페이스가 선택됨에 따라 현재 주위에 존재하는 객체를 알려달라는 의도 정보를 판단할 수 있고, 제2 유저 인터페이스가 선택됨에 따라 찾고 싶은 객체와, 찾고 싶은 객체의 정보를 알려달라는 의도 정보를 판단할 수 있다. 다른 예로서, 물건 탐지 및 안내 시스템은 시각 장애인이 객체의 위치 정보를 질의하더라도 객체에 도달하기 위하여 객체가 존재하는 위치를 질의한 것인지, 객체를 피하기 위하여 객체가 존재하는 위치를 질의한 것인지 판단할 수 있다.

물건 탐지 및 안내 시스템은 시각 장애인의 질의와 관련하여 객체를 인식하고, 인식된 객체의 위치 정보를 포함하는 객체 정보를 음성 데이터를 통하여 질의에 대한 응답으로 답변할 수 있다. 물건 탐지 및 안내 시스템은 카메라가 촬영되는 범위 내에서 객체가 존재하는 위치 정보를 안내할 수 있다. 이때, 물건 탐지 및 안내 시스템은 객체를 감지할 때까지 시각 장애인에게 위치를 이동할 것을 제안할 수 있다.

물건 탐지 및 안내 시스템은 시각 장애인으로부터 요청된 객체의 존재 여부를 판단할 수 있다. 물건 탐지 및 안내 시스템은 객체의 종류, 객체의 형태, 객체의 위치 또는 객체의 방향을 포함하는 객체의 위치 정보 중 하나 또는 하나 이상을 포함하는 안내 정보를 시각 장애인에게 음성 메시지로 통보할 수 있다. 물건 탐지 및 안내 시스템은 시각 장애인으로부터 요청된 객체가 존재하는 것으로 탐지함에 따라 객체의 상대적인 위치를 통보하여 시각 장애인이 객체로 이동할 수 있도록 안내할 수 있다. 예를 들면, 물건 탐지 및 안내 시스템은 사용자로부터 요청된 객체가 '크루아상'일 경우, "오른쪽 하단에 있습니다"라고 음성 메시지로 안내할 수 있다. 또는, 물건 탐지 및 안내 시스템은 시각 장애인으로부터 요청된 객체가 존재하지 않는 것으로 탐지함에 따라 객체가 존재하지 않음을 통보하고, 방향을 이동하도록 요청할 수 있다.

도 2는 일 실시예에 따른 물건 탐지 및 안내 시스템의 구성을 설명하기 위한 블록도이고, 도 3은 일 실시예에 따른 물건 탐지 및 안내 시스템에서 물건 탐지 및 안내 방법을 설명하기 위한 흐름도이다.

물건 탐지 및 안내 시스템(100)의 프로세서는 객체 인식부(210), 판단부(220), 식별부(230) 및 안내부(240)를 포함할 수 있다. 이러한 프로세서의 구성요소들은 물건 탐지 및 안내 시스템(100)에 저장된 프로그램 코드가 제공하는 제어 명령에 따라 프로세서에 의해 수행되는 서로 다른 기능들(different functions)의 표현들일 수 있다. 프로세서 및 프로세서의 구성요소들은 도 3의 물건 탐지 및 안내 방법이 포함하는 단계들(310 내지 340)을 수행하도록 물건 탐지 및 안내 시스템(100)을 제어할 수 있다. 이때, 프로세서 및 프로세서의 구성요소들은 메모리가 포함하는 운영체제의 코드와 적어도 하나의 프로그램의 코드에 따른 명령(instruction)을 실행하도록 구현될 수 있다.

프로세서는 물건 탐지 및 안내 방법을 위한 프로그램의 파일에 저장된 프로그램 코드를 메모리에 로딩할 수 있다. 예를 들면, 물건 탐지 및 안내 시스템(100)에서 프로그램이 실행되면, 프로세서는 운영체제의 제어에 따라 프로그램의 파일로부터 프로그램 코드를 메모리에 로딩하도록 물건 탐지 및 안내 시스템(100)을 제어할 수 있다. 이때, 프로세서 및 프로세서가 포함하는 객체 인식부(210), 판단부(220), 식별부(230) 및 안내부(240) 각각은 메모리에 로딩된 프로그램 코드 중 대응하는 부분의 명령을 실행하여 이후 단계들(310 내지 340)을 실행하기 위한 프로세서의 서로 다른 기능적 표현들일 수 있다.

단계(310)에서 객체 인식부(210)는 영상 장치로부터 촬영되는 영상 데이터를 획득함에 따라 적어도 하나 이상의 객체를 인식할 수 있다.

단계(320)에서 판단부(220)는 객체 정보에 대한 질의 응답을 위하여 구성된 모델로부터 시각 장애인의 음성 데이터를 통하여 질의된 의도 정보를 판단할 수 있다. 판단부(220)는 객체 정보에 대한 질의 응답을 위하여 기계학습 기반의 모델을 구성하고 구성된 모델을 통하여 상기 영상 데이터로부터 객체를 감지한 식별 정보를 획득하고, 시각 장애인의 음성 데이터로부터 요청된 질의에 대한 객체의 식별 정보를 인식할 수 있다. 판단부(220)는 시각 장애인의 음성 데이터를 인식하기 위한 시각 장애인의 목소리를 저장하고, 음성 데이터가 저장된 시각 장애인의 목소리를 통하여 음성 데이터가 발화됨에 따라 인식 알고리즘에 기반하여 음성 데이터를 최적화할 수 있다. 판단부(220)는 시각 장애인으로부터 객체의 위치 정보를 포함하는 객체 정보와 관련된 질의로서 음성 데이터가 발화됨을 수신하고, 수신된 음성 데이터에 기초하여 시각 장애인의 질의에 대한 의도 정보를 판단할 수 있다. 판단부(220)는 복수 개의 유저 인터페이스를 구성하고, 구성된 복수 개의 유저 인터페이스 중 하나의 유저 인터페이스가 선택됨에 따라 시각 장애인과 기 설정된 거리 이내에 객체가 존재하는 객체를 판단하고, 판단된 객체와 관련된 객체 정보를 생성하고, 복수 개의 유저 인터페이스 중 다른 유저 인터페이스가 선택됨에 따라 시각 장애인으로부터 음성 데이터를 통하여 질의되고, 질의된 음성 데이터에 포함된 특정 객체 정보가 시각 장애인을 기준으로 기 설정된 범위 내에 존재하는지 판단할 수 있다.

단계(330)에서 식별부(230)는 판단된 의도 정보와 관련하여 상기 인식된 객체의 위치 정보를 식별할 수 있다. 식별부(230)는 객체의 종류, 객체의 형태, 객체의 위치 또는 객체의 방향을 포함하는 객체의 위치 정보를 식별할 수 있다.

단계(340)에서 안내부(240)는 식별된 객체의 위치 정보를 포함하는 객체 정보를 안내할 수 있다. 안내부(240)는 객체의 종류, 객체의 형태, 객체의 위치 또는 객체의 방향을 포함하는 객체의 위치 정보 중 하나 또는 하나 이상을 포함하는 안내 정보를 생성하고, 생성된 안내 정보를 시각 장애인에게 음성 메시지로 통보할 수 있다.

도 4 및 도 5는 일 실시예에 따른 물건 탐지 및 안내 시스템에서 유저 인터페이스를 장착하는 부분과 카메라를 고정하는 부분을 설명하기 위한 예이다.

도 4를 참고하면, 물건 탐지 및 안내 시스템을 장착하는 부분을 나타낸 예이고, 도 5를 참고하면, 물건 탐지 및 안내 시스템에서 카메라를 고정하는 부분을 나타낸 것이다. 시각 장애인의 활동에 있어 피해를 주지 않도록 도 4로 구성된 고정 장치를 통하여 물건 탐지 및 안내 시스템을 장착할 수 있고, 도 5로 구성된 고정 장치를 통하여 카메라를 고정할 수 있다.

핸즈프리 작동을 위해 영상 장치(예를 들면, 카메라)는 가슴 레벨에 배치되어 순차적 이미지를 캡처할 수 있다. 3D 인쇄 마운트에 Google Coral USB Accelerator가 설치된 Raspberry Pi 3 Model B +가 카메라의 순차적 이미지와 시각 장애인의 음성 입력을 위해 허리에 부착될 수 있다.

웨어러블 디바이스에서 기계학습 기반의 모델(예를 들면, DNN)을 사용하여 엔드 투 엔드 애플리케이션을 설계하기 위하여 임베디드 보드가 선택될 수 있다.

도 6은 일 실시예에 따른 물건 탐지 및 안내 시스템에서 유저 인터페이스의 예이다.

물건 탐지 및 안내 시스템에서 유저 인터페이스는 복수 개로 구성될 수 있다. 이때, 물건 탐지 및 안내 시스템은 사용자의 음성 데이터 이외의 잡음을 인식하지 않도록 트리거 역할을 수행할 수 있다. 예를 들면, 유저 인터페이스는 다양한 형태로 존재할 수 있으며, 사용자의 입력(예를 들면, 터치)을 수신할 수 있는 형태로 구성될 수 있다. 실시예에서는 버튼 형태의 유저 인터페이스를 예를 들어 설명하기로 한다. 이하, 복수 개의 유저 인터페이스를 버튼 1, 버튼 2라고 기재하기로 한다.

도 7을 참고하면, 유저 인터페이스의 선택에 따라 동작되는 것을 설명하기 위한 예이다. 버튼 1의 역할과 버튼 2의 역할은 다음과 같다.

버튼 1은 시각 장애인 주변에 존재하는 객체를 알 수 있도록 제공하기 위한 유저 인터페이스이다.

버튼 2는 시각 장애인에게 원하는 객체를 질의하고, 시각 장애인에게 객체의 위치를 알려주기 위한 유저 인터페이스이다.

버튼 1이 선택될 경우, 물건 감지 및 안내 시스템은 시각 장애인에게 "현재 주위의 객체를 알려주겠다"는 음성 데이터로 된 설명을 제공할 수 있다. 물건 감지 및 안내 시스템은 시각 장애인에게 가까이에 존재하는 객체를 안내할 수 있다. 이때, 동일한 버튼인 버튼 1이 다시 선택됨에 따라 물건 감지 및 안내 시스템은 영상 장치를 통하여 촬영되는 현재 영상을 전달받고, 전달받은 현재 영상을 YOLO-v2, MobileNet-v2 등의 객체 인식 알고리즘을 통해 객체의 종류 및 위치 정보를 포함하는 객체 정보를 식별할 수 있고, 식별된 객체 정보를 음성 장치(예를 들면, 마이크)에 입력하여 음성 합성을 진행한 후, 합성된 음성 데이터를 통하여 식별된 객체 정보를 시각 장애인에게 안내할 수 있다. 만약 버튼 1이 다시 선택되지 않고, 버튼 2가 선택될 경우, 초기 상태로 돌아갈 수 있다.

버튼 2가 선택될 경우, 물건 감지 및 안내 시스템은 시각 장애인에게 "찾고 싶은 물체가 무엇인지 알려달라"는 음성 데이터로 된 설명을 제공할 수 있다. 다시 말해서, 물건 감지 및 안내 시스템은 시각 장애인으로부터 시각 장애인이 찾고 있는 객체를 요청하고, 객체의 이름을 획득하기 위하여 시각 장애인의 음성 데이터를 인식할 수 있다. 이때, 시각 장애인으로부터 알고자 하는 객체를 음성 데이터로 발화할 수 있다. 이때, 동일한 버튼인 버튼 2가 다시 선택됨에 따라 물건 감지 및 안내 시스템은 음성 장치에 사용자의 음성 데이터를 녹음 및 인식하는 명령을 전달할 수 있다. 물건 감지 및 안내 시스템은 사용자의 음성 데이터를 인식함에 따라 영상 장치를 통하여 획득된 사용자 주위의 영상 데이터를 YOLO-v2, MobileNet-v2 등의 객체 인식 알고리즘을 통해 탐색하고자 하는 객체가 사용자의 주위에 존재하는지 여부를 판단할 수 있다. 물건 감지 및 안내 시스템은 탐색하고자 하는 객체가 감지되었을 경우, 객체의 종류 및 위치 정보를 포함하는 객체 정보를 식별하고, 식별된 객체 정보를 음성 장치(예를 들면, 마이크)에 입력하여 음성 합성을 진행한 후, 합성된 음성 데이터를 통하여 식별된 객체 정보를 시각 장애인에게 안내할 수 있다. 또는, 물건 감지 및 안내 시스템은 탐색하고자 하는 객체가 존재하지 않을 경우, 시각 장애인에게 객체가 탐색되지 않음을 안내하고, 다른 객체의 이름을 말하거나 객체의 이름을 바꾸어 다른 용어로 발화하도록 요청할 수 있다. 만약 버튼 2가 다시 선택되지 않고, 버튼 1이 선택될 경우, 초기상태로 돌아갈 수 있다.

도 8은 일 실시예에 따른 물건 탐지 및 안내 시스템에서 제1 유저 인터페이스를 통하여 주위에 객체가 존재하는지 여부를 판단하는 동작을 설명하기 위한 흐름도이다.

도 8에서는 제1 유저 인터페이스를 버튼 A라고 기재하기로 한다.

물건 탐지 및 안내 시스템은 버튼 A 에 대한 명령이 입력됨을 수신할 수 있다(801). 예를 들면, 물건 탐지 및 안내 시스템은 시각 장애인으로부터 버튼 A가 선택될 수 있다. 물건 탐지 및 안내 시스템은 버튼 A에 대한 명령이 입력됨에 따라 보이는 객체(물체)의 정보를 알려주는 프로그램 시작 안내 음성 메시지를 재생할 수 있다(802). 물건 탐지 및 안내 시스템은 다시 버튼 A에 대한 명령이 입력됨을 수신할 수 있다(803). 예를 들면, 물건 탐지 및 안내 시스템은 시각 장애인으로부터 다시 버튼 A가 선택될 수 있다. 물건 탐지 및 안내 시스템은 버튼 A가 다시 입력됨에 따라 영상 장치를 통하여 촬영되는 영상들을 캡쳐할 수 있다(804). 물건 탐지 및 안내 시스템은 캡쳐된 영상들에 존재하는 객체들을 인식할 수 있다(805). 물건 탐지 및 안내 시스템은 캡쳐된 영상들에 존재하는 객체들을 인식함에 따라 객체들의 존재 여부를 인식할 수 있다(806). 이때, 물건 탐지 및 안내 시스템은 객체들이 인식되지 않을 경우, 재인식을 위한 프로세스를 시작할 수 있다. 물건 탐지 및 안내 시스템은 인식된 객체들의 정보 및 위치 정보에 대한 텍스트들을 생성할 수 있다(807). 물건 탐지 및 안내 시스템은 텍스트들로부터 음성 데이터를 합성할 수 있다(808). 물건 탐지 및 안내 시스템은 합성된 음성 데이터를 재생시킬 수 있다(809).

도 9는 일 실시예에 따른 물건 탐지 및 안내 시스템에서 제2 유저 인터페이스를 통하여 찾고자 하는 객체가 존재하는지 여부를 판단하는 동작을 설명하기 위한 흐름도이다.

도 9에서는 제2 유저 인터페이스를 버튼 B라고 기재하기로 한다.

물건 탐지 및 안내 시스템은 버튼 B 에 대한 명령이 입력됨을 수신할 수 있다(901). 예를 들면, 물건 탐지 및 안내 시스템은 시각 장애인으로부터 버튼 A가 선택될 수 있다. 물건 탐지 및 안내 시스템은 버튼 B에 대한 명령이 입력됨에 따라 찾고자 하는 객체(물체)가 있는지 알려주는 프로그램 시작 안내 음성 메시지를 재생할 수 있다(902). 물건 탐지 및 안내 시스템은 다시 버튼 B에 대한 명령이 입력됨을 수신할 수 있다(903). 예를 들면, 물건 탐지 및 안내 시스템은 시각 장애인으로부터 다시 버튼 B가 선택될 수 있다. 물건 탐지 및 안내 시스템은 시각 장애인으로부터 찾고자 하는 객체의 이름을 음성 데이터로 인식할 수 있다(904).

물건 탐지 및 안내 시스템은 영상 장치를 통하여 촬영되는 영상들을 캡쳐할 수 있다(905). 물건 탐지 및 안내 시스템은 캡쳐된 영상들에 존재하는 객체들을 인식할 수 있다(906). 물건 탐지 및 안내 시스템은 캡쳐된 영상들에 존재하는 객체들을 인식함에 따라 객체들의 존재 여부를 인식할 수 있다(907). 예를 들면, 문건 탐지 및 안내 시스템은 시각 장애인이 찾고자 하는 객체가 존재하는지 여부를 인식할 수 있다. 이때, 물건 탐지 및 안내 시스템은 객체가 인식되지 않을 경우, 인식된 객체가 존재하지 않는다는 음성 데이터를 재생할 수 있다(908).

물건 탐지 및 안내 시스템은 객체가 인식됨에 따라 인식된 객체의 정보 및 위치 정보에 대한 텍스트들을 생성할 수 있다(909). 물건 탐지 및 안내 시스템은 텍스트들로부터 음성 데이터를 합성할 수 있다(910). 물건 탐지 및 안내 시스템은 합성된 음성 데이터를 재생시킬 수 있다(911). 또한, 물건 탐지 및 안내 시스템은 사용자가 버튼 A(완료 버튼)을 선택할 때까지 지속적으로 객체의 위치를 안내할 수 있다(912).

일 실시예에 따른 물건 탐지 및 안내 시스템은 시각 장애인이 주변 인근 물체가 어느 정도의 거리 및 방향에 있는지 직관적으로 판단할 수 있고 그에 따라 물건을 집거나 위험한 물체를 인식하여 피해를 미연에 방지할 수 있다.

일 실시예에 따른 물건 탐지 및 안내 시스템은 시각 장애인 뿐 아니라 고령인, 어린이, 혹은 복잡한 업무를 수행중인 일반 사용자가 일상생활에서 용이하게 사용할 수 있도록 제공할 수 있다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

물건 탐지 및 안내 시스템에 있어서,
영상 장치로부터 촬영되는 영상 데이터를 획득함에 따라 적어도 하나 이상의 객체를 인식하는 객체 인식부;
상기 객체에 대한 질의 응답을 위하여 구성된 모델로부터 시각 장애인의 음성 데이터를 통하여 질의된 의도 정보를 판단하는 판단부;
상기 판단된 의도 정보와 관련하여 상기 인식된 객체의 위치 정보를 식별하는 식별부; 및
상기 식별된 객체의 위치 정보를 포함하는 객체 정보를 안내하는 안내부
를 포함하는 물건 탐지 및 안내 시스템.
제1항에 있어서,
상기 판단부는,
상기 객체에 대한 질의 응답을 위하여 기계학습 기반의 모델을 구성하고, 상기 구성된 모델을 통하여 상기 영상 데이터로부터 객체를 감지한 식별 정보를 획득하고, 상기 시각 장애인의 음성 데이터로부터 요청된 질의에 대한 객체의 식별 정보를 인식하는
것을 특징으로 하는 물건 탐지 및 안내 시스템.
제1항에 있어서,
상기 판단부는,
상기 시각 장애인의 음성 데이터를 인식하기 위한 시각 장애인의 목소리를 저장하고, 상기 음성 데이터가 상기 저장된 시각 장애인의 목소리를 통하여 음성 데이터가 발화됨에 따라 인식 알고리즘에 기반하여 음성 데이터를 최적화하는
것을 특징으로 하는 물건 탐지 및 안내 시스템.
제1항에 있어서,
상기 판단부는,
상기 시각 장애인으로부터 상기 객체의 위치 정보를 포함하는 객체 정보와 관련된 질의로서 음성 데이터가 발화됨을 수신하고, 상기 수신된 음성 데이터에 기초하여 상기 시각 장애인의 질의에 대한 의도 정보를 판단하는
것을 특징으로 하는 물건 탐지 및 안내 시스템.
제4항에 있어서,
상기 판단부는,
복수 개의 유저 인터페이스를 구성하고, 상기 구성된 복수 개의 유저 인터페이스 중 하나의 유저 인터페이스가 선택됨에 따라 상기 시각 장애인과 기 설정된 거리 이내에 객체가 존재하는 객체를 판단하고, 판단된 객체와 관련된 객체 정보를 생성하고, 상기 복수 개의 유저 인터페이스 중 다른 유저 인터페이스가 선택됨에 따라 상기 시각 장애인으로부터 음성 데이터를 통하여 질의되고, 상기 질의된 음성 데이터에 포함된 특정 객체 정보가 상기 시각 장애인을 기준으로 기 설정된 범위 내에 존재하는지 판단하는
것을 특징으로 하는 물건 탐지 및 안내 시스템.
제1항에 있어서,
상기 식별부는,
상기 객체의 종류, 객체의 형태, 객체의 위치 또는 객체의 방향을 포함하는 객체의 위치 정보를 식별하는 것을 포함하고,
상기 안내부는,
상기 객체의 종류, 객체의 형태, 객체의 위치 또는 객체의 방향을 포함하는 객체의 위치 정보 중 하나 또는 하나 이상을 포함하는 안내 정보를 상기 시각 장애인에게 음성 메시지로 통보하는
것을 특징으로 하는 물건 탐지 및 안내 시스템.
제5항에 있어서,
상기 안내부는,
상기 시각 장애인으로부터 질의된 객체 정보가 탐색되지 않는 경우, 상기 객체가 탐지될 때까지 상기 시각 장애인이 위치 및 방향을 이동시키도록 안내하는
것을 특징으로 하는 물건 탐지 및 안내 시스템.
제6항에 있어서,
상기 안내부는,
상기 식별된 객체의 위치 정보에 기초하여 객체 정보를 음성 장치에 입력하여 음성 합성을 진행한 후, 상기 합성된 음성 데이터를 통하여 상기 객체 정보를 포함하는 안내 정보를 골전도를 사용하여 음성 데이터로 전달하는
것을 특징으로 하는 물건 탐지 및 안내 시스템.
물건 탐지 및 안내 시스템에 의해 수행되는 방법에 있어서,
영상 장치로부터 촬영되는 영상 데이터를 획득함에 따라 적어도 하나 이상의 객체를 인식하는 단계;
상기 객체에 대한 질의 응답을 위하여 구성된 모델로부터 시각 장애인의 음성 데이터를 통하여 질의된 의도 정보를 판단하는 단계;
상기 판단된 의도 정보와 관련하여 상기 인식된 객체의 위치 정보를 식별하는 단계; 및
상기 식별된 객체의 위치 정보를 포함하는 객체 정보를 안내하는 단계
를 포함하는 방법.