KR102593866B1

KR102593866B1 - 스마트 디바이스 사용 과정에서 시각 장애인의 객체 탐지를 돕기 위한 태스크 기반의 음향 가이드 방법 및 장치

Info

Publication number: KR102593866B1
Application number: KR1020210170523A
Authority: KR
Inventors: 고인영; 아카푸싯 피라폰
Original assignee: 한국과학기술원
Priority date: 2021-12-02
Filing date: 2021-12-02
Publication date: 2023-10-26
Anticipated expiration: 2041-12-02
Also published as: KR20230082758A

Abstract

스마트 디바이스 사용 과정에서 시각 장애인의 객체 탐지를 돕기 위한 태스크 기반의 음향 가이드 방법 및 장치가 개시된다. 음향 가이드 방법은, 사용자 음성을 기초로 사용자가 활성화하고자 하는 기능의 인터페이스 객체를 타겟 버튼으로 지정하는 단계; 카메라를 통한 실시간 영상에서 상기 타겟 버튼과 상기 사용자의 손끝을 감지하는 단계; 및 상기 타겟 버튼과 상기 손끝에 대한 감지 결과에 따라 음향 가이드를 제공하는 단계를 포함할 수 있다.

Description

스마트 디바이스 사용 과정에서 시각 장애인의 객체 탐지를 돕기 위한 태스크 기반의 음향 가이드 방법 및 장치{METHOD AND DEVICE FOR Task-oriented Sounding Guide with Object Detection to Guide Visually Impaired People During Smart Device Usage}

아래의 설명은 스마트 디바이스에 대한 음향 가이드를 제공하는 기술에 관한 것이다.

가전제품 제어, 음식 주문, 온라인 뱅킹과 같은 우리 일상생활에서의 스마트 기기 사용이 최근 증가하고 있다.

그러나, 시각 장애가 있는 사용자는 스마트 기기와 애플리케이션을 사용하는 동안 몇 가지 어려움을 겪는다. 예를 들어, 스마트폰의 애플리케이션을 사용하거나 집에 있는 스마트 선풍기에서 옵션을 선택하려면 특정 아이콘이나 버튼을 찾아 터치해야 한다.

현재 스마트 기기는 보통 시각 장애인의 보조 기능을 거의 고려하지 않고 설계된다. 대부분의 스마트폰에는 사용자들을 위해 화면의 내용을 읽어주는 화면 판독기가 설치되어 있지만 시각 장애인을 효과적으로 돕는데 실패하는 경우가 많다. 예를 들어, 사용자가 웹 브라우저의 URL 필드를 탭하는 경우 화면 판독기는 "링크"라고 말하게 되는데 이것만으로 사용자가 적절한 행동을 하기 애매하다. 스마트 선풍기와 같이 화면 판독기를 장착하기 어려운 기기의 경우 더욱 어려운 문제가 있다. 사용자가 버튼에 표시된 이미지 아이콘을 인식할 수 없기 때문에 시각 장애가 있는 사용자는 터치 버튼을 구별할 수 없다.

점자 시스템과 화면 판독기는 시각 장애인을 돕는 전통적인 방법의 몇 가지 예이다. 그럼에도 불구하고 터치 화면을 주 사용자 인터페이스로 사용하는 스마트 기기의 다양한 특징과 옵션은 여전히 시각 장애인이 작업을 수행하기 위해 정확한 버튼이나 아이콘을 조작하는 데 어려움을 초래한다.

최근에는 시각 장애인이 스마트 기기에서 네이티브(native) 애플리케이션을 사용할 수 있도록 유용성 및 접근성 평가가 실시되고 있다. 일부 모바일 애플리케이션과 웹 인터페이스는 애플리케이션과 인터페이스로 일련의 사전 정의된 작업을 수행하도록 요청하여 시각 장애가 있는 피험자를 대상으로 테스트한 결과, 중요한 사용적합성 문제가 발견되었으며 그 중 하나는 사용자가 자신의 과제에 스마트 기기를 정확하게 활용할 수 있는 단계별 지침과 대화형 기능이 부족하다는 것이다. 즉, 시각 장애인이 스마트 기기와 상호작용하는 동안 무엇을 해야 하는지 구체적으로 돕기 위해 대화형 메시지 형태의 지침 제공이 필요하다.

시각 장애가 있는 사용자를 대상으로 스마트 디바이스의 사용성과 접근성을 개선하기 위해 단계별 및 대화형 방식으로 사용자를 안내하는 태스크 지향적 접근 방식의 음향 가이드를 제공할 수 있다.

컴퓨터 시스템에서 수행되는 음향 가이드 방법에 있어서, 상기 컴퓨터 시스템이 포함하는 적어도 하나의 프로세서의 의해, 사용자 음성을 기초로 사용자가 활성화하고자 하는 기능의 인터페이스 객체를 타겟 버튼으로 지정하는 단계; 상기 적어도 하나의 프로세서의 의해, 카메라를 통한 실시간 영상에서 상기 타겟 버튼과 상기 사용자의 손끝을 감지하는 단계; 및 상기 적어도 하나의 프로세서의 의해, 상기 타겟 버튼과 상기 손끝에 대한 감지 결과에 따라 음향 가이드를 제공하는 단계를 포함하는 음향 가이드 방법을 제공한다.

일 측면에 따르면, 상기 지정하는 단계는, 상기 사용자 음성을 텍스트로 변환하는 단계; 및 상기 텍스트에 대응되는 키워드의 인터페이스 객체를 상기 타겟 버튼으로 지정하는 단계를 포함할 수 있다.

다른 측면에 따르면, 상기 감지하는 단계는, 손끝 이미지와 인터페이스 객체 이미지로 구성된 데이터셋으로 학습된 CNN(convolution neural network) 기반의 객체 인식 모델을 통해 상기 타겟 버튼과 상기 손끝의 위치를 추적하는 단계를 포함할 수 있다.

또 다른 측면에 따르면, 상기 감지하는 단계는, CNN 기반의 SSD(single-shot multibox detector)를 이용하여 상기 타겟 버튼과 상기 손끝의 위치에 따라 상기 사용자가 상기 타겟 버튼을 터치하는데 필요한 시간을 계산하는 단계를 포함할 수 있다.

또 다른 측면에 따르면, 상기 음향 가이드를 제공하는 단계는, 카메라 영상에서 감지된 상기 타겟 버튼과 상기 손끝의 위치를 나타내는 경계 상자(bounding box) 좌표를 서로 비교하여 상기 타겟 버튼에 대한 상기 손끝의 이동 방향을 안내하는 단계를 포함할 수 있다.

또 다른 측면에 따르면, 상기 음향 가이드를 제공하는 단계는, 카메라 영상에 상기 타겟 버튼이 포착되는지 여부를 확인하는 단계; 상기 카메라 영상에 상기 타겟 버튼이 포착되면 상기 카메라 영상에서 상기 손끝의 위치를 찾는 단계; 상기 카메라 영상에서 상기 타겟 버튼과 상기 손끝의 위치를 비교하여 비교 결과에 따라 상기 손끝의 이동 방향에 대한 가이드 피드백을 제공하는 단계; 및 상기 손끝의 위치가 상기 타겟 버튼의 위치에 도달함에 따른 결과 피드백을 제공하는 단계를 포함할 수 있다.

또 다른 측면에 따르면, 상기 음향 가이드를 제공하는 단계는, 상기 카메라 영상에 상기 타겟 버튼이 포착되지 않으면 해당 감지 결과에 대한 음성 알림을 제공하는 단계를 더 포함할 수 있다.

음향 가이드 방법을 컴퓨터에 실행시키기 위해 컴퓨터 판독가능한 기록 매체에 저장되는 컴퓨터 프로그램에 있어서, 상기 음향 가이드 방법은, 사용자 음성을 기초로 사용자가 활성화하고자 하는 기능의 인터페이스 객체를 타겟 버튼으로 지정하는 단계; 카메라를 통한 실시간 영상에서 상기 타겟 버튼과 상기 사용자의 손끝을 감지하는 단계; 및 상기 타겟 버튼과 상기 손끝에 대한 감지 결과에 따라 음향 가이드를 제공하는 단계를 포함하는, 컴퓨터 프로그램을 제공한다.

컴퓨터로 구현되는 음향 가이드 시스템에 있어서, 메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 사용자 음성을 기초로 사용자가 활성화하고자 하는 기능의 인터페이스 객체를 타겟 버튼으로 지정하는 과정; 카메라를 통한 실시간 영상에서 상기 타겟 버튼과 상기 사용자의 손끝을 감지하는 과정; 및 상기 타겟 버튼과 상기 손끝에 대한 감지 결과에 따라 음향 가이드를 제공하는 과정을 처리하는 음향 가이드 시스템을 제공한다.

본 발명의 실시예들에 따르면, 스마트 디바이스 사용 중 시각 장애인을 안내하기 위한 객체 감지 기능이 있는 태스크 지향적 접근 방식의 음향 가이드를 제공함으로써 시각 장애인들이 여러 환경에서 접하게 되는 다양한 스마트 디바이스를 쉽게 사용할 수 있다.

도 1은 본 발명의 일실시예에 있어서 컴퓨터 장치의 내부 구성의 일례를 설명하기 위한 블록도이다.
도 2는 본 발명에 따른 음향 가이드를 사용하는 환경 예시를 도시한 것이다.
도 3은 본 발명의 일실시예에 있어서 음향 가이드 방법의 일례를 도시한 순서도이다.
도 4는 본 발명의 일실시예에 있어서 스마트 디바이스에서 사용되는 아이콘 예시를 도시한 것이다.
도 5는 기계학습을 위한 텐서보드(tensorboard)에 의해 생성된 손실 점수 그래프를 도시한 것이다.
도 6은 본 발명의 일실시예에 있어서 인터페이스 객체 및 손끝을 감지하는 과정의 알고리즘 예시를 도시한 것이다.
도 7은 본 발명의 일실시예에 있어서 알림을 위한 음성 출력을 생성하는 과정의 알고리즘 예시를 도시한 것이다.

이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

본 발명의 실시예들은 스마트 디바이스에 대한 음향 가이드를 제공하는 기술에 관한 것이다.

본 명세서에서 구체적으로 개시되는 것들을 포함하는 실시예들은 스마트 디바이스 사용 중 시각 장애인을 안내하기 위한 객체 감지 기능이 있는 태스크 지향적 접근 방식의 음향 가이드를 제공할 수 있다.

도 1은 본 발명의 일실시예에 따른 컴퓨터 장치의 예를 도시한 블록도이다. 예를 들어, 본 발명의 실시예들에 따른 음향 가이드 시스템은 도 1을 통해 도시된 컴퓨터 장치(100)에 의해 구현될 수 있다.

도 1에 도시된 바와 같이 컴퓨터 장치(100)는 본 발명의 실시예들에 따른 음향 가이드 방법을 실행하기 위한 구성요소로서, 메모리(110), 프로세서(120), 통신 인터페이스(130) 그리고 입출력 인터페이스(140)를 포함할 수 있다.

메모리(110)는 컴퓨터에서 판독 가능한 기록매체로서, RAM(random access memory), ROM(read only memory) 및 디스크 드라이브와 같은 비소멸성 대용량 기록장치(permanent mass storage device)를 포함할 수 있다. 여기서 ROM과 디스크 드라이브와 같은 비소멸성 대용량 기록장치는 메모리(110)와는 구분되는 별도의 영구 저장 장치로서 컴퓨터 장치(100)에 포함될 수도 있다. 또한, 메모리(110)에는 운영체제와 적어도 하나의 프로그램 코드가 저장될 수 있다. 이러한 소프트웨어 구성요소들은 메모리(110)와는 별도의 컴퓨터에서 판독 가능한 기록매체로부터 메모리(110)로 로딩될 수 있다. 이러한 별도의 컴퓨터에서 판독 가능한 기록매체는 플로피 드라이브, 디스크, 테이프, DVD/CD-ROM 드라이브, 메모리 카드 등의 컴퓨터에서 판독 가능한 기록매체를 포함할 수 있다. 다른 실시예에서 소프트웨어 구성요소들은 컴퓨터에서 판독 가능한 기록매체가 아닌 통신 인터페이스(130)를 통해 메모리(110)에 로딩될 수도 있다. 예를 들어, 소프트웨어 구성요소들은 네트워크(160)를 통해 수신되는 파일들에 의해 설치되는 컴퓨터 프로그램에 기반하여 컴퓨터 장치(100)의 메모리(110)에 로딩될 수 있다.

프로세서(120)는 기본적인 산술, 로직 및 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리(110) 또는 통신 인터페이스(130)에 의해 프로세서(120)로 제공될 수 있다. 예를 들어, 프로세서(120)는 메모리(110)와 같은 기록 장치에 저장된 프로그램 코드에 따라 수신되는 명령을 실행하도록 구성될 수 있다.

통신 인터페이스(130)는 네트워크(160)를 통해 컴퓨터 장치(100)가 다른 장치와 서로 통신하기 위한 기능을 제공할 수 있다. 일례로, 컴퓨터 장치(100)의 프로세서(120)가 메모리(110)와 같은 기록 장치에 저장된 프로그램 코드에 따라 생성한 요청이나 명령, 데이터, 파일 등이 통신 인터페이스(130)의 제어에 따라 네트워크(160)를 통해 다른 장치들로 전달될 수 있다. 역으로, 다른 장치로부터의 신호나 명령, 데이터, 파일 등이 네트워크(160)를 거쳐 컴퓨터 장치(100)의 통신 인터페이스(130)를 통해 컴퓨터 장치(100)로 수신될 수 있다. 통신 인터페이스(130)를 통해 수신된 신호나 명령, 데이터 등은 프로세서(120)나 메모리(110)로 전달될 수 있고, 파일 등은 컴퓨터 장치(100)가 더 포함할 수 있는 저장 매체(상술한 영구 저장 장치)로 저장될 수 있다.

통신 방식은 제한되지 않으며, 네트워크(160)가 포함할 수 있는 통신망(일례로, 이동통신망, 유선 인터넷, 무선 인터넷, 방송망)을 활용하는 통신 방식뿐만 아니라 기기들 간의 근거리 유선/무선 통신 역시 포함될 수 있다. 예를 들어, 네트워크(160)는, PAN(personal area network), LAN(local area network), CAN(campus area network), MAN(metropolitan area network), WAN(wide area network), BBN(broadband network), 인터넷 등의 네트워크 중 하나 이상의 임의의 네트워크를 포함할 수 있다. 또한, 네트워크(160)는 버스 네트워크, 스타 네트워크, 링 네트워크, 메쉬 네트워크, 스타-버스 네트워크, 트리 또는 계층적(hierarchical) 네트워크 등을 포함하는 네트워크 토폴로지 중 임의의 하나 이상을 포함할 수 있으나, 이에 제한되지 않는다.

입출력 인터페이스(140)는 입출력 장치(150)와의 인터페이스를 위한 수단일 수 있다. 예를 들어, 입력 장치는 마이크, 키보드, 카메라 또는 마우스 등의 장치를, 그리고 출력 장치는 디스플레이, 스피커와 같은 장치를 포함할 수 있다. 다른 예로 입출력 인터페이스(140)는 터치스크린과 같이 입력과 출력을 위한 기능이 하나로 통합된 장치와의 인터페이스를 위한 수단일 수도 있다. 입출력 장치(150)는 컴퓨터 장치(100)와 하나의 장치로 구성될 수도 있다.

또한, 다른 실시예들에서 컴퓨터 장치(100)는 도 1의 구성요소들보다 더 적은 혹은 더 많은 구성요소들을 포함할 수도 있다. 그러나, 대부분의 종래기술적 구성요소들을 명확하게 도시할 필요성은 없다. 예를 들어, 컴퓨터 장치(100)는 상술한 입출력 장치(150) 중 적어도 일부를 포함하도록 구현되거나 또는 트랜시버(transceiver), 카메라, 각종 센서, 데이터베이스 등과 같은 다른 구성요소들을 더 포함할 수도 있다.

본 실시예들은 시각 장애가 있는 사용자를 대상으로 스마트 디바이스의 사용성과 접근성을 개선하기 위해 단계별 및 대화형 방식으로 사용자를 안내하는 태스크 지향적 접근 방식인 음향 가이드 시스템은 제공한다.

본 실시예에서는 기계학습(machine learning)과 함께 객체 인식 기술을 사용하여 사용자의 손끝과 스마트 기기의 기본 요소인 아이콘 또는 버튼이라는 두 가지 주요 객체를 감지하고 추적한다. 사용자는 시스템의 음향 가이드를 사용하여 스마트폰 애플리케이션과 같이 사용할 장치의 유형을 시스템에 지시할 수 있다. 이어 스마트폰이나 스마트안경 등 사용자 기기에 설치된 카메라를 이용해 사용자가 음향 가이드 시스템에 단말기의 사용자 인터페이스를 보여줄 수 있다. 그런 다음 음향 가이드 시스템은 사용자 인터페이스에 표시된 버튼과 관련된 주요 기능을 인식하여 사용자가 작업을 수행하는 데 도움이 되는 장치 또는 애플리케이션의 작동에 대한 적절한 지침을 제공한다. 음향 가이드 시스템은 사용자가 장치에서 원하는 기능을 활성화하기 위해 특정 아이콘이나 버튼에 손끝을 올바르게 위치시킬 수 있도록 실시간으로 음성 같은 안내 정보의 이산 비트를 제공한다.

사용자의 손끝을 감지하기 위해 기계학습과 결합된 객체 감지 기법이 다양한 작업에 사용되고 있다. 그러나, 시각 장애인이 스마트 기기와 상호작용할 수 있도록 실시간으로 상세한 지침을 제공하는 데 초점을 맞추고 있지 않다. 시각 장애가 있는 사용자가 비시각적 인터페이스를 채택한 제안 기반 시스템을 사용하여 웹 사이트를 탐색하고 모바일 애플리케이션을 사용할 수 있도록 하기 위한 몇 가지 작업이 수행되고 있을 뿐이다. 그러나 이러한 접근 방식은 웹 사이트 탐색 또는 미리 정의된 모바일 애플리케이션에서만 작동한다. 또한, TapTapSee, CamFind, Talking Goggles와 같은 기존 객체 감지 기술은 시각 장애인을 위한 단계별 지침을 제공하는 데 직접 사용할 수 없다. 물체를 실시간으로 감지하기 위해 심층 신경망 모델을 갖춘 프로토타입 시스템에 대한 연구도 있으나, 이러한 시스템은 물리적 객체를 감지하는 용도로만 작동하며 스마트 기기의 사용자 인터페이스 요소를 감지하는 데 사용할 수 없다. 손끝 감지를 위한 한 가지 주요 기술은 신체 관절 및 얼굴 표정 로컬리제이션의 사용이다. 시각 장애가 있는 사용자를 위한 실시간 지침을 제공하려면 이러한 손끝 감지 기술의 효율성을 개선하는 것이 중요하다.

본 발명에서는 CNN(convolution neural network)을 사용하여 스마트 기기의 사용자 인터페이스 요소와 관련하여 사용자의 손끝 위치를 실시간으로 감지하고 추적한다. CNN은 물체 감지에 효과적인 기계학습 기법이며, 음향 가이드 시스템은 CNN을 사용하여 사용자가 스마트 기기의 제어판을 작동하는 동안 버튼, 아이콘 및 사용자의 손끝을 포함한 여러 물체를 인식하기 위해 처리할 수 있는 일련의 데이터에 이미지 입력을 매핑한다. 또한, 모바일 기기의 객체 감지에 널리 사용되는 SSD(single-shot multibox detector)를 사용한다. SSD는 CNN을 사용하는 심층 신경망 접근 방식을 기반으로 한다. 음향 가이드 시스템은 SSD를 사용하여 감지된 객체를 둘러싸는 경계 상자(bounding box)의 네 가지 위치를 생성할 수 있다. 음향 가이드 시스템은 객체의 경계 상자를 기반으로 버튼이나 아이콘의 정확한 위치와 사용자가 버튼이나 아이콘을 터치하는 데 필요한 정확한 시간을 계산할 수 있다.

다시 말해, 본 발명에 따른 음향 가이드 시스템은 CNN 기반의 객체 인식 기술을 사용하여 사용자의 손끝과 스마트 디바이스의 화면 상의 인터페이스 객체(아이콘 또는 버튼)를 감지하고 추적할 수 있고, 실시간으로 오디오와 같은 안내 정보의 이산 비트를 제공하여 사용자가 특정 객체에서 손끝을 적절하게 움직여 장치에서 원하는 기능을 활성화할 수 있도록 도와줄 수 있다.

도 2는 음향 가이드가 필요한 스마트 디바이스 사용 환경의 예시를 도시한 것이다. 도 2는 시각 장애를 가진 사용자가 러닝머신을 사용하는 환경을 나타내고 있다.

음향 가이드 시스템에 필요한 정보를 입력하는 외부 엔티티(entity)는 다음과 같다.

도 2를 참조하면, 사용자(210)는 스마트폰과 같은 모바일 기기(220)에서 실행되는 음향 가이드 시스템과 상호 작용한다.

음향 가이드 시스템은 사용자(210)의 모바일 기기(220)에서 실행된다.

타겟 디바이스(230)는 사용자(210)가 조작하고자 하는 디바이스로 사용자 조작을 위한 제어 패널을 포함하고 제어 패널 상의 아이콘이나 버튼으로 작동되는 디바이스를 의미할 수 있다.

음향 가이드 시스템은 모바일 기기(220)에서 실행되어 모바일 기기(220)의 카메라 또는 모바일 기기(220)과 연동 가능한 스마트 안경 등을 이용하여 타겟 디바이스(230)에 대한 사용자(210)의 조작 장면을 캡처할 수 있다.

도 2에 도시한 바와 같이, 사용자(210)는 모바일 기기(220)에서 음향 가이드 시스템을 실행한 후 모바일 기기(220)의 화면 상에 타겟 디바이스(230)의 제어 패널을 포착할 수 있다.

음향 가이드 시스템의 내부 구성요소는 다음과 같다.

프로세서(120)는 가이드 출력을 컴파일하고 추정하는 내부 구성요소로서 TTS(text to speech) 모듈, STT(speech to text) 모듈, 및 객체 감지 모듈을 포함할 수 있다.

TTS 모듈은 텍스트를 입력으로 수신하여 음성을 생성하는 역할을 하며, 예를 들어 안드로이드 스튜디오를 사용하여 텍스트-음성 변환 기능을 구현할 수 있다.

STT 모듈은 음성을 입력으로 수신하여 텍스트를 생성하는 역할을 하며, 예를 들어 안드로이드 스튜디오를 사용하여 음성-텍스트 변환 기능을 구현할 수 있다.

음향 가이드 시스템은 TTS 모듈과 STT 모듈을 통해 사용자(210)와 대화할 수 있으며, 이때 TTS 모듈에서 생성된 음성을 사용자(210)에서 전달할 수 있고 STT 모듈에서 생성된 텍스트로부터 사용자(210)의 의도를 인식할 수 있다.

객체 감지 모듈은 타겟 객체에 해당되는 사용자(210)의 손끝과 인터페이스 객체(아이콘 또는 버튼)의 위치를 추정하는 역할을 한다. 객체 감지 모듈은 타겟 객체의 위치 추정을 위해 카메라와 관리 도구(TensorFlow)를 사용할 수 있다.

카메라는 모바일 기기(220)의 카메라 또는 모바일 기기(220)과 연동 가능한 스마트 안경 등을 이용할 수 있다. 음향 가이드 시스템은 타겟 디바이스(230)의 제어 패널과 같은 사용자 인터페이스를 표시하기 위한 카메라와의 연결을 설정할 수 있다.

관리 도구는 가이드 알고리즘을 위한 것으로, 사용자(210)의 손끝과 인터페이스 객체(아이콘 또는 버튼) 감지를 위한 CNN 아키텍처인 SSD MobileNet Version 2와 데이터셋을 이용하여 학습할 수 있다. 이때, 기계학습을 위한 데이터셋으로 사람들의 손끝 이미지, 기기들의 제어 패널 이미지, 기기들의 인터페이스 객체 이미지 등을 포함할 수 있다.

도 3은 본 발명의 일실시예에 있어서 음향 가이드 방법의 일례를 도시한 순서도이다.

프로세서(120)는 사용자 음성을 기초로 사용자가 지정한 인터페이스 객체에 해당되는 타겟 버튼에 대한 정보를 인식한 후 카메라를 통해 실시간 이미지가 포착되는 동안 실시간 이미지에서 타겟 버튼을 찾아낸다. 이후, 프로세서(120)는 모바일 커넥터를 사용하여 타겟 버튼의 위치를 모바일 기기로 출력한다. 마지막으로, 프로세서(120)는 사용자에게 타겟 버튼의 위치에 대한 방향을 음성으로 안내한다.

도 3을 참조하면, 단계(S1)에서 프로세서(120)는 사용자 음성 입력을 수신하여 수신된 음성 입력으로부터 타겟 버튼(즉, 인터페이스 객체)을 지정할 수 있다. 사용자는 활성화하고자 하는 기능에 대해 음성 발화를 할 수 있고, 프로세서(120)는 사용자의 음성 발화로부터 사용자가 활성화하고자 하는 기능에 해당되는 인터페이스 객체를 타겟 버튼으로 지정할 수 있다.

단계(S2)에서 프로세서(120)는 카메라를 통해 실시간 이미지를 수신하여 기계학습 모델을 통해 이미지 상에 포착된 타겟 디바이스의 제어 패널과 사용자의 손끝을 추적하여 제어 패널 상에 사용자의 손끝이 위치하는 인터페이스 객체를 감지할 수 있다. 프로세서(120)는 모바일 기기의 화면 상에 타겟 버튼으로 지정된 인터페이스 객체와 사용자가 현재 손끝으로 가리키는 인터페이스 객체를 표시할 수 있다.

단계(S3)에서 프로세서(120)는 사용자가 타겟 버튼으로 지정된 인터페이스 객체를 터치하기 위한 가이드 피드백으로서 사용자가 손끝을 움직여야 하는 방향을 음성으로 알려줄 수 있다.

단계(S4)에서 프로세서(120)는 사용자가 손끝을 이동하면 실시간으로 손끝 위치를 추적하면서 현재 손끝 위치가 타겟 버튼으로 지정된 인터페이스 객체에 도달하면 결과 피드백을 제공할 수 있다.

프로세서(120)는 사용자 음성을 입력으로 수신하게 되는데, 이때 사용자가 선택하고자 하는 인터페이스 객체의 이름을 짧고 구체적인 키워드로 발화하면 인식 오류를 줄일 수 있다. 이때, 프로세서(120)는 기계학습 기반 CNN 모델을 활용하여 타겟 버튼으로 지정하기 위한 인터페이스 객체와 관련된 키워드를 STT 기능을 기반으로 인식할 수 있다. 이후, 사용자는 손끝을 사용하여 타겟 디바이스의 지정된 버튼을 터치할 수 있다. 프로세서(120)는 사용자에게 음성 출력으로 피드백을 제공할 수 있다. 사용자 손끝이 타겟 버튼으로 지정된 인터페이스 객체에 위치하면 음성 피드백을 제공할 수 있다.

상기 음향 가이드 방법의 각 단계에 대한 기술적 세부 사항은 다음과 같다.

타겟 버튼 지정 단계(S1)

프로세서(120)는 사용자 음성 입력에 따라 음향 가이드 기능을 트리거할 수 있다. 일례로, 프로세서(120)는 안드로이드 운영체제의 공식 통합 환경인 안드로이드 프레임워크가 제공하는 음성 인식기를 통해 사용자 음성으로부터 타겟 버튼과 관련된 키워드를 인식할 수 있다. 타겟 디바이스의 기능 유형에 액세스 하려면 사용자가 지정한 키워드가 필요하다. 예를 들어, 도 4에 도시한 바와 같이 기능이나 아이콘을 14가지 유형으로 분류할 수 있다. 스마트 기기의 인터페이스 객체로 구성된 각 버튼은 해당 기능의 아이콘이 있다. 프로세서(120)는 STT 기능을 통해 사용자 음성을 텍스트로 변환하여 해당 텍스트에 대응되는 키워드의 버튼을 타겟 버튼으로 지정할 수 있다. 프로세서(120)는 사용자 음성에서 인식된 키워드의 버튼을 타겟 버튼으로 지정한 후 카메라 영상으로부터 제어 패널 상의 인터페이스 객체, 사용자의 손끝, 타겟 버튼을 감지할 수 있다.

타겟 버튼 및 손끝 위치찾기(Locating)(S2)

제어 패널 상의 인터페이스 객체, 사용자의 손끝, 타겟 버튼을 찾기 위해 SSD MobileNet Version 2를 음향 가이드 시스템의 기계학습 모델로 사용할 수 있다. 제한된 메모리를 사용하는 경우 필요한 학습 파라미터가 지나치게 커지는 것을 방지하기 위해 ReLU(Rectified Linear Unit) 함수를 기계학습 모델의 활성화 함수로 사용할 수 있다. 또한, 표준 점수 변환기(standard score converter)를 사용하고 시그모이드 함수와 L2 정규화기를 사용할 수 있다. 손끝 감지와 손 제스처 인식을 위한 학습 데이터셋으로 EgoGesture 데이터셋을 사용할 수 있다. 학습 데이터셋에는 손끝과 관절에 대한 정보로 수동 레이블이 지정된 경계 상자와 함께 서로 다른 손 제스처에 대한 이미지들이 포함될 수 있다. 예를 들어, 검지를 사용하는 제스처를 가리키는 레이블 'SingleOne'이 지정된 한 손 제스처 이미지들을 사용하여 모델을 학습할 수 있다.

또한, 다양한 아이콘이 포함된 모바일 기기의 화면 이미지, '시작', '정지', '추가', '마이너스' 등의 버튼이 포함된 러닝머신이나 리모컨의 패널 이미지 등으로 구성된 버튼 데이터셋을 수동으로 생성하여 레이블을 지정할 수 있다. 도 4의 테이블에 도시된 버튼을 14개의 클래스로 분류하고 '손끝'과 'SingleOne' 제스처를 위한 2개의 클래스가 추가될 수 있다.

도 5는 기계학습 실험을 위한 시각화 툴키트인 텐서보드(tensorboard)에 의해 생성된 손실 점수 그래프를 나타내고 있다. 도 5는 잘못된 예측에 대한 페널티 값을 나타내는 총 손실과 더 나은 예측을 일반화하기 위해 총 손실에 추가 손실을 더한 정규화 손실을 보여준다. 모델을 최적화하면서 시간이 지남에 따라 총 손실은 감소하고 정규화 손실은 비교적 낮아 원활한 성능을 보인다.

가이드 피드백(S3)

가이드 피드백을 생성하기 위해 학습된 기계학습 모델을 TFLite(TensorFlow Lite)로 변환할 수 있다. TFLite 짧은 지연시간과 작은 이진 파일이 필요한 모바일 기기를 위한 경량 텐서플로우 솔루션이다.

일례로, 음향 가이드 시스템에서 음성 피드백을 생성하는데 필요한 TTS 모듈을 안드로이드 라이브러리의 TTS 인스턴스를 사용하여 구현할 수 있다. TTS 모듈은 입력을 기반으로 즉시 재생을 위해 음성을 합성할 수 있다. 예를 들어, 사용자를 가이드하기 위해 합성하는 피드백 키워드는 왼쪽 상단, 오른쪽 상단, 왼쪽 하단, 오른쪽 하단으로 이루어질 수 있다. 이러한 피드백 키워드는 사용자가 손가락을 움직여야 하는 방향을 나타낸다.

사용자의 손끝과 타겟 버튼의 위치 좌표가 감지된 후 사용자에게 제공될 가이드는 도 6의 알고리즘 1과 같이 처리된다. 알고리즘 1은 음향 가이드 시스템의 런타임 동안 지속적으로 실행된다. 알고리즘 1은 1행에서 카메라가 포착한 영상에서 타겟 버튼을 찾을 수 있는지 확인하는 것으로 시작된다.

타겟 버튼을 찾을 수 없는 경우 2행에서 음성 알림을 생성하여 도 7의 알고리즘 2에 정의된 convert_to_speech() 함수를 사용한 TTS 변환을 통해 사용자에게 알린다. 알고리즘 2는 전역 변수(global variable)를 사용하여 각 함수 호출 간의 시차를 처리할 수 있다. 알고리즘 2의 1행에서는 먼저 new_now 변수에서 함수가 호출되는 시간을 검색한다. 다음으로, convert_to_speec() 함수가 호출된 시간을 알고리즘 2의 6행에서 전역 변수와 비교한다. 만약 이 함수가 이전 호출로부터의 응답 지연(α 또는 β초) 후에 호출된다면 텍스트를 음성으로 변환한다. 사용자가 화면에서 타겟 버튼을 찾기 위해 탐색할 때 1.5초(α)를 응답 지연으로 사용한다. 화면에 타겟 버튼이 없을 경우 3초(β)를 응답 지연으로 사용하여 불편함을 피할 수 있다. 사용자를 안내하는 것이 최종 목표이기 때문에 알고리즘 2의 10행에 있는 키워드 "okay"만 음성으로 즉시 변환될 수 있다. Text To Speech 함수가 호출될 때마다 전역 변수가 업데이트될 수 있다.

알고리즘 1에서 타겟 버튼을 감지한 후 4행에서 사용자의 손끝을 찾아 사용자에게 알린다. 타겟 버튼과 손끝이 모두 감지되면 타겟 버튼과 손끝의 경계 상자 좌표를 서로 비교하여 9, 11, 14, 16행의 결과에 따라 사용자에게 방향을 안내한다. 이때 사용자는 가이드 방향으로 "SingleOne" 제스처로 손가락을 계속 이동한다.

결과 피드백(S4)

사용자 손끝이 타겟 버튼의 경계 상자 안에 있으면 텍스트 음성 변환 인스턴스에서 출력 "okay"가 생성될 수 있다(알고리즘 1의 17 및 18행). 사용자는 "okay" 음성이 출력되면 해당 손끝 위치에서 타겟 버튼을 누를 수 있다. 상기한 과정이 끝나면 프로세서(120)는 다음 음성 입력을 수신할 준비가 된다. 사용자는 다음 타겟 버튼을 입력하고 타겟 디바이스를 다음 동작 조작을 위한 안내를 받을 수 있다.

본 발명은 시각 장애인들이 디바이스를 이용하는 과정에서 원하는 기능의 버튼을 누를 수 있도록 도와주는 음향 가이드를 제공할 수 있다. 사용자가 어떤 버튼을 누를지 발화하게 되면 음향 가이드 시스템은 해당 발화 내용을 분석하여 사용자가 누르고 싶은 버튼을 타겟으로 지정하고 카메라를 통해 포착된 영상에서 타겟 버튼의 위치를 계산할 수 있다. 음향 가이드 시스템은 카메라 영상 내에서 감지된 사용자 손끝 위치와 타겟 버튼 위치에 따라서 단계적으로 방향을 지시함으로써 사용자가 원하는 버튼을 누를 수 있도록 지원할 수 있다.

이처럼 본 발명의 실시예들에 따르면, 다양한 환경에서의 다양한 디바이스를 대상으로 해당 디바이스 조작을 위한 음향 가이드를 제공함으로써 시각 장애를 가진 사용자에게 디바이스 조작의 어려움을 해소하기 위한 보다 확실한 도움을 제공할 수 있다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 이때, 매체는 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수 개의 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 어플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

컴퓨터 시스템에서 수행되는 음향 가이드 방법에 있어서,
상기 컴퓨터 시스템이 포함하는 적어도 하나의 프로세서의 의해, 사용자 음성을 기초로 사용자가 활성화하고자 하는 기능의 인터페이스 객체를 타겟 버튼으로 지정하는 단계;
상기 적어도 하나의 프로세서의 의해, 카메라를 통한 실시간 영상에서 상기 타겟 버튼과 상기 사용자의 손끝을 감지하는 단계; 및
상기 적어도 하나의 프로세서의 의해, 상기 타겟 버튼과 상기 손끝에 대한 감지 결과에 따라 음향 가이드를 제공하는 단계
를 포함하고,
상기 음향 가이드를 제공하는 단계는,
카메라 영상에 상기 타겟 버튼이 포착되는지 여부를 확인하는 단계;
상기 카메라 영상에 상기 타겟 버튼이 포착되면 상기 카메라 영상에서 상기 손끝의 위치를 찾는 단계;
상기 카메라 영상에서 상기 타겟 버튼과 상기 손끝의 위치를 비교하여 비교 결과에 따라 상기 손끝의 이동 방향에 대한 가이드 피드백을 제공하는 단계; 및
상기 손끝의 위치가 상기 타겟 버튼의 위치에 도달함에 따른 결과 피드백을 제공하는 단계
를 포함하는 음향 가이드 방법.
제1항에 있어서,
상기 지정하는 단계는,
상기 사용자 음성을 텍스트로 변환하는 단계; 및
상기 텍스트에 대응되는 키워드의 인터페이스 객체를 상기 타겟 버튼으로 지정하는 단계
를 포함하는 음향 가이드 방법.
제1항에 있어서,
상기 감지하는 단계는,
손끝 이미지와 인터페이스 객체 이미지로 구성된 데이터셋으로 학습된 CNN(convolution neural network) 기반의 객체 인식 모델을 통해 상기 타겟 버튼과 상기 손끝의 위치를 추적하는 단계
를 포함하는 음향 가이드 방법.
제1항에 있어서,
상기 감지하는 단계는,
CNN 기반의 SSD(single-shot multibox detector)를 이용하여 상기 타겟 버튼과 상기 손끝의 위치에 따라 상기 사용자가 상기 타겟 버튼을 터치하는데 필요한 시간을 계산하는 단계
를 포함하는 음향 가이드 방법.
제1항에 있어서,
상기 음향 가이드를 제공하는 단계는,
카메라 영상에서 감지된 상기 타겟 버튼과 상기 손끝의 위치를 나타내는 경계 상자(bounding box) 좌표를 서로 비교하여 상기 타겟 버튼에 대한 상기 손끝의 이동 방향을 안내하는 단계
를 포함하는 음향 가이드 방법.
삭제
제1항에 있어서,
상기 음향 가이드를 제공하는 단계는,
상기 카메라 영상에 상기 타겟 버튼이 포착되지 않으면 해당 감지 결과에 대한 음성 알림을 제공하는 단계
를 더 포함하는 음향 가이드 방법.
음향 가이드 방법을 컴퓨터에 실행시키기 위해 컴퓨터 판독가능한 기록 매체에 저장된 컴퓨터 프로그램에 있어서,
상기 음향 가이드 방법은,
사용자 음성을 기초로 사용자가 활성화하고자 하는 기능의 인터페이스 객체를 타겟 버튼으로 지정하는 단계;
카메라를 통한 실시간 영상에서 상기 타겟 버튼과 상기 사용자의 손끝을 감지하는 단계; 및
상기 타겟 버튼과 상기 손끝에 대한 감지 결과에 따라 음향 가이드를 제공하는 단계
를 포함하고,
상기 음향 가이드를 제공하는 단계는,
카메라 영상에 상기 타겟 버튼이 포착되는지 여부를 확인하는 단계;
상기 카메라 영상에 상기 타겟 버튼이 포착되면 상기 카메라 영상에서 상기 손끝의 위치를 찾는 단계;
상기 카메라 영상에서 상기 타겟 버튼과 상기 손끝의 위치를 비교하여 비교 결과에 따라 상기 손끝의 이동 방향에 대한 가이드 피드백을 제공하는 단계; 및
상기 손끝의 위치가 상기 타겟 버튼의 위치에 도달함에 따른 결과 피드백을 제공하는 단계
를 포함하는, 컴퓨터 판독가능한 기록 매체에 저장된 컴퓨터 프로그램.
컴퓨터로 구현되는 음향 가이드 시스템에 있어서,
메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서
를 포함하고,
상기 적어도 하나의 프로세서는,
사용자 음성을 기초로 사용자가 활성화하고자 하는 기능의 인터페이스 객체를 타겟 버튼으로 지정하는 과정;
카메라를 통한 실시간 영상에서 상기 타겟 버튼과 상기 사용자의 손끝을 감지하는 과정; 및
상기 타겟 버튼과 상기 손끝에 대한 감지 결과에 따라 음향 가이드를 제공하는 과정
을 처리하고,
상기 적어도 하나의 프로세서는,
카메라 영상에 상기 타겟 버튼이 포착되는지 여부를 확인하고,
상기 카메라 영상에 상기 타겟 버튼이 포착되지 않으면 해당 감지 결과에 대한 음성 알림을 제공하고,
상기 카메라 영상에 상기 타겟 버튼이 포착되면 상기 카메라 영상에서 상기 손끝의 위치를 찾고,
상기 카메라 영상에서 상기 타겟 버튼과 상기 손끝의 위치를 비교하여 비교 결과에 따라 상기 손끝의 이동 방향에 대한 가이드 피드백을 제공하고,
상기 손끝의 위치가 상기 타겟 버튼의 위치에 도달함에 따른 결과 피드백을 제공하는 것
을 특징으로 하는 음향 가이드 시스템.
제9항에 있어서,
상기 적어도 하나의 프로세서는,
상기 사용자 음성을 텍스트로 변환하고,
상기 텍스트에 대응되는 키워드의 인터페이스 객체를 상기 타겟 버튼으로 지정하는 것
을 특징으로 하는 음향 가이드 시스템.
제9항에 있어서,
상기 적어도 하나의 프로세서는,
손끝 이미지와 인터페이스 객체 이미지로 구성된 데이터셋으로 학습된 CNN(convolution neural network) 기반의 객체 인식 모델을 통해 상기 타겟 버튼과 상기 손끝의 위치를 추적하는 것
을 특징으로 하는 음향 가이드 시스템.
제9항에 있어서,
상기 적어도 하나의 프로세서는,
CNN 기반의 SSD(single-shot multibox detector)를 이용하여 상기 타겟 버튼과 상기 손끝의 위치에 따라 상기 사용자가 상기 타겟 버튼을 터치하는데 필요한 시간을 계산하는 것
을 특징으로 하는 음향 가이드 시스템.
제9항에 있어서,
상기 적어도 하나의 프로세서는,
카메라 영상에서 감지된 상기 타겟 버튼과 상기 손끝의 위치를 나타내는 경계 상자(bounding box) 좌표를 서로 비교하여 상기 타겟 버튼에 대한 상기 손끝의 이동 방향을 안내하는 것
을 특징으로 하는 음향 가이드 시스템.
삭제