KR20200050609A

KR20200050609A - 음성 명령 기반의 가상 터치 입력 장치

Info

Publication number: KR20200050609A
Application number: KR1020180133400A
Authority: KR
Inventors: 김종훈; 김한결
Original assignee: 김종훈
Priority date: 2018-11-02
Filing date: 2018-11-02
Publication date: 2020-05-12
Also published as: KR102138095B1

Abstract

본 발명은 음성 명령 기반의 가상 터치 입력 장치에 관한 것으로, 사용자의 음성 명령을 수신하여 명령 텍스트 또는 명령 코드를 생성하는 음성 명령 인식부, 현재 포그라운드 프로세스에서 제공되는 적어도 하나의 문자 또는 코드정보 디스크립션에 있는 문자 또는 코드정보열과 문자 또는 코드정보 영역을 추출하는 디스크립션 추출부, 상기 명령 텍스트 또는 명령 코드와 가장 유사하게 연관된 특정 문자 또는 코드정보열을 결정하고 해당 문자 또는 코드정보 영역을 기초로 터치 영역을 결정하는 터치 영역 결정부 및 상기 터치 영역에 가상 터치를 제공하는 가상 터치 입력부를 포함한다. 따라서, 본 발명은 음성 명령으로 터치 명령을 대체함으로써 물리적인 터치 없이도 조작이 가능할 수 있다.

Description

음성 명령 기반의 가상 터치 입력 장치{VOICE COMMAND BASED VIRTUAL TOUCH INPUT APPARATUS}

본 발명은 음성 명령 기반의 가상 터치 입력 기술에 관한 것으로, 보다 상세하게는 음성 명령으로 터치 명령을 대체함으로써 물리적인 터치 없이도 조작이 가능한 음성 명령 기반의 가상 터치 입력 장치에 관한 것이다.

정전식 터치 디스플레이를 사용하는 기기, 예를 들어, 스마트폰은 사용자의 물리적인 터치를 통해 동작을 수행할 수 있다. 그러나, 스마트폰은 추운 날씨에 장갑을 착용하고 있는 경우 터치를 위하여 매번 장갑을 벗어야 하고, 물기 있는 상태에서 터치 입력이 어려우며, 화면의 대형화로 인해 한 손 제어가 쉽지 않다는 단점을 가지고 있다. 구글 어시스턴트, 애플 쉬리 등 다양한 음성인식 플랫폼들이 도입되고 있으나 실제로 스마트폰 사용자가 일상 생활에서 가장 많이 사용하는 화면 터치 동작을 대체하는 음성 서비스는 제공되고 있지 않다.

한국공개특허 제10-2013-0041421(2013.04.25)호는 터치기반 음성인식 멀티모달리티 시스템에 관한 것으로, 직관적이고 간단한 조작을 통해 음성인식 기술을 이용할 수 있어 사용자로 하여금 조작법을 인지하여야 하는 불편함을 줄일 수 있으며, 해당 주변장치를 터치하여 음성명령을 하도록 함으로써 음성인식률을 높여 기기 오작동으로 인한 불만사항을 줄일 수 있으며, 기존의 음성인식 기술에 쉽게 적용하여 사용할 수 있어 경제적 부담이 적은 효과가 있다.

한국공개특허 제10-2012-0083104(2012.07.25)호는 멀티미디어 장치의 음성인식을 통한 텍스트 입력 방법 및 그에 따른 멀티미디어 장치에 관한 것으로, 멀티미디어 장치에서 음성 신호를 입력받아, 입력된 음성 신호를 텍스트로 변환하고, 상기 입력된 음성 신호에서 특징 정보를 추출하여, 상기 추출된 특징에 매칭(matching)되는 글씨체를 검색하여 상기 검색된 글씨체로 상기 변환된 텍스트를 디스플레이할 수 있도록 함으로써, 사용자가 멀티미디어 장치를 통하여 정확하고 다양한 텍스트를 입력할 수 있다.

한국공개특허 제10-2013-0041421(2013.04.25)호 한국공개특허 제10-2012-0083104(2012.07.25)호

본 발명의 일 실시예는 음성 명령으로 터치 명령을 대체함으로써 물리적인 터치 없이도 조작이 가능한 음성 명령 기반의 가상 터치 입력 장치를 제공하고자 한다.

본 발명의 일 실시예는 음성 인식을 통해 수신된 명령 텍스트 또는 명령 코드와 화면 내에서 추출된 문자 또는 코드정보열 간의 유사도를 기초로 결정되는 터치 영역에 가상 터치를 제공할 수 있는 음성 명령 기반의 가상 터치 입력 장치를 제공하고자 한다.

본 발명의 일 실시예는 음성 인식을 통해 수신된 명령 텍스트 또는 명령 코드와 일치하는 문자 또는 코드정보열이 복수인 경우 사용자로부터의 선택을 수신하기 위한 인터페이스를 제공할 수 있는 음성 명령 기반의 가상 터치 입력 장치를 제공하고자 한다.

실시예들 중에서, 음성 명령 기반의 가상 터치 입력 장치에 관한 것으로, 사용자의 음성 명령을 수신하여 명령 텍스트 또는 명령 코드를 생성하는 음성 명령 인식부, 현재 포그라운드 프로세스에서 제공되는 적어도 하나의 문자 또는 코드정보 디스크립션에 있는 문자 또는 코드정보열과 문자 또는 코드정보 영역을 추출하는 디스크립션 추출부, 상기 명령 텍스트 또는 명령 코드와 가장 유사하게 연관된 특정 문자 또는 코드정보열을 결정하고 해당 문자 또는 코드정보 영역을 기초로 터치 영역을 결정하는 터치 영역 결정부 및 상기 터치 영역에 가상 터치를 제공하는 가상 터치 입력부를 포함한다.

상기 음성 명령 인식부는 상기 포그라운드 프로세스에서 사용자 입력을 수신할 수 있는 문자 또는 코드정보 디스크립션을 검출하여 음성 명령 플로팅 컨트롤에 해당 문자 또는 코드정보 디스크립션을 동적으로 표시할 수 있다.

상기 디스크립션 추출부는 상기 현재 포그라운드 프로세스에서 제공되는 아이콘 디스크립션에 있는 아이콘 내용 및 아이콘 영역을 추출할 수 있다.

상기 디스크립션 추출부는 상기 특정 문자 또는 코드정보열의 유사도가 특정 기준 이하인 경우에는 상기 현재 포그라운드 프로세스와 연관된 사용자 화면 뒤에서 사용자 화면을 가지는 백그라운드 프로세스에서 제공되는 백그라운드 문자 또는 코드정보 디스크립션을 추출할 수 있다.

상기 터치 영역 결정부는 상기 특정 문자 또는 코드정보열의 개수가 복수인 경우에는 각각이 음성 명령 플로팅 컨트롤로부터 시각적으로 파생되어 해당 특정 문자 또는 코드정보열 주위에 배치되고 음성 인디케이터를 가지는 복수의 음성 문자 또는 코드정보열 선택 서브-컨트롤들을 제공할 수 있다.

상기 터치 영역 결정부는 상기 복수의 음성 문자 또는 코드정보열 선택 서브-컨트롤들을 통한 음성 선택이 수행되면 상기 해당 특정 문자 또는 코드정보열과 연관된 문자 또는 코드정보 영역에 가상 터치를 제공하고 상기 복수의 음성 문자 또는 코드정보열 선택 서브-컨트롤들을 시각적으로 복귀시켜 상기 음성 명령 플로팅 컨트롤을 제공할 수 있다.

상기 터치 영역 결정부는 상기 해당 문자 또는 코드정보 영역의 중심을 기준으로 특정 반경 이내의 범위 영역을 상기 터치 영역으로서 결정할 수 있다.

상기 가상 터치 입력부는 상기 터치 영역에 따라 터치 개시부터 종료까지 터치의 연속성을 유지하는 적어도 하나의 가상 터치를 제공할 수 있다.

개시된 기술은 다음의 효과를 가질 수 있다. 다만, 특정 실시예가 다음의 효과를 전부 포함하여야 한다거나 다음의 효과만을 포함하여야 한다는 의미는 아니므로, 개시된 기술의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.

본 발명의 일 실시예에 따른 음성 명령 기반의 가상 터치 입력 장치는 음성 인식을 통해 수신된 명령 텍스트 또는 명령 코드와 화면 내에서 추출된 문자 또는 코드정보열 간의 유사도를 기초로 결정되는 터치 영역에 가상 터치를 제공할 수 있다.

본 발명의 일 실시예에 따른 음성 명령 기반의 가상 터치 입력 장치는 음성 인식을 통해 수신된 명령 텍스트 또는 명령 코드와 일치하는 문자 또는 코드정보열이 복수인 경우 사용자로부터의 선택을 수신하기 위한 인터페이스를 제공할 수 있다.

도 1은 본 발명의 일 실시예에 따른 음성 명령 기반의 가상 터치 입력 시스템을 설명하는 도면이다.
도 2는 도 1에 있는 가상 터치 입력 장치를 설명하는 블록도이다.
도 3은 도 1에 있는 가상 터치 입력 장치에서 수행되는 가상 터치 입력 과정을 설명하는 순서도이다.
도 4 내지 9는 도 1에 있는 가상 터치 입력 장치에서 수행되는 가상 터치 입력을 통한 화면 제어의 실시예를 설명하는 예시도이다.

본 발명에 관한 설명은 구조적 내지 기능적 설명을 위한 실시예에 불과하므로, 본 발명의 권리범위는 본문에 설명된 실시예에 의하여 제한되는 것으로 해석되어서는 아니 된다. 즉, 실시예는 다양한 변경이 가능하고 여러 가지 형태를 가질 수 있으므로 본 발명의 권리범위는 기술적 사상을 실현할 수 있는 균등물들을 포함하는 것으로 이해되어야 한다. 또한, 본 발명에서 제시된 목적 또는 효과는 특정 실시예가 이를 전부 포함하여야 한다거나 그러한 효과만을 포함하여야 한다는 의미는 아니므로, 본 발명의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.

한편, 본 출원에서 서술되는 용어의 의미는 다음과 같이 이해되어야 할 것이다.

"제1", "제2" 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위한 것으로, 이들 용어들에 의해 권리범위가 한정되어서는 아니 된다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 "연결되어"있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결될 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어"있다고 언급된 때에는 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 한편, 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함하다"또는 "가지다" 등의 용어는 실시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

각 단계들에 있어 식별부호(예를 들어, a, b, c 등)는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 단계들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.

본 발명은 컴퓨터가 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현될 수 있고, 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

여기서 사용되는 모든 용어들은 다르게 정의되지 않는 한, 본 발명이 속하는 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한 이상적이거나 과도하게 형식적인 의미를 지니는 것으로 해석될 수 없다.

도 1은 본 발명의 일 실시예에 따른 음성 명령 기반의 가상 터치 입력 시스템을 설명하는 도면이다.

음성 명령 기반의 가상 터치 입력 장치(이하, 가상 터치 입력 장치라 한다.)는 프로세서(110), 메모리(130), 사용자 입출력부(150) 및 네트워크 입출력부(170)를 포함할 수 있다.

가상 터치 입력 장치(100)는 사용자의 음성 명령을 인식하여 터치 입력으로 대체할 수 있는 컴퓨터 또는 프로그램에 해당하는 서버로 구현될 수 있다. 일 실시예에서, 가상 터치 입력 장치(100)는 스마트폰, 노트북 또는 컴퓨터로 구현될 수 있으며, 반드시 이에 한정되지 않고, 태블릿 PC, 스마트 워치 등 정전식 터치 디스플레이를 사용하는 다양한 디바이스로도 구현될 수 있다. 일 실시예에서, 가상 터치 입력 장치(100)는 데이터베이스(도면에 미도시함)를 포함하여 구현될 수 있고, 데이터베이스와 별도로 구현될 수 있다. 데이터베이스와 별도로 구현된 경우 가상 터치 입력 장치(100)는 데이터베이스와 연결되어 데이터를 송수신할 수 있다.

데이터베이스는 가상 터치 입력 장치(100)가 사용자의 음성 명령을 인식하여 터치 입력으로 대체하는 과정에서 다양한 형태로 수집 또는 가공된 정보들을 저장할 수 있다. 데이터베이스는 특정 범위에 속하는 정보들을 저장하는 적어도 하나의 독립된 서브-데이터베이스들로 구성될 수 있고, 적어도 하나의 독립된 서브-데이터베이스들이 하나로 통합된 통합 데이터베이스로 구성될 수 있다.

프로세서(110)는 음성 명령 기반의 가상 터치 입력 프로시저를 실행할 수 있고, 그 과정 전반에서 읽혀지거나 작성되는 메모리(130)를 관리할 수 있으며, 메모리(130)에 있는 휘발성 메모리와 비휘발성 메모리 간의 동기화 시간을 스케줄할 수 있다. 프로세서(110)는 가상 터치 입력 장치(100)의 동작 전반을 제어할 수 있고, 메모리(130), 사용자 입출력부(150) 및 네트워크 입출력부(170)와 전기적으로 연결되어 이들 간의 데이터 흐름을 제어할 수 있다. 또한, 프로세서(110)는 가상 터치 입력 장치(100)의 CPU(Central Processing Unit)로 구현될 수 있다.

메모리(130)는 SSD(Solid State Disk) 또는 HDD(Hard Disk Drive)와 같은 비휘발성 메모리로 구현되어 가상 터치 입력 장치(100)에 필요한 데이터 전반을 저장하는데 사용되는 보조기억장치를 포함할 수 있고, RAM(Random Access Memory)과 같은 휘발성 메모리로 구현된 주기억장치를 포함할 수 있다.

사용자 입출력부(150)는 사용자 입력을 수신하기 위한 환경 및 사용자에게 특정 정보를 출력하기 위한 환경을 포함하고, 예를 들어, 마우스, 트랙볼, 터치 패드, 그래픽 태블릿, 스캐너, 터치 스크린, 키보드 또는 포인팅 장치와 같은 어댑터를 포함하는 입력장치 및 모니터 또는 터치스크린과 같은 어댑터를 포함하는 출력장치를 포함할 수 있다. 일 실시예에서, 사용자 입출력부(150)는 원격 접속을 통해 접속되는 컴퓨팅 장치에 해당할 수 있고, 그러한 경우, 가상 터치 입력 장치(100)는 서버로서 수행될 수 있다.

네트워크 입출력부(170)은 네트워크를 통해 외부 장치 또는 시스템과 연결하기 위한 환경을 포함하고, 예를 들어, LAN(Local Area Network), MAN(Metropolitan Area Network), WAN(Wide Area Network) 및 VAN(Value Added Network) 등의 통신을 위한 어댑터를 포함할 수 있다.

도 2는 도 1에 있는 가상 터치 입력 장치를 설명하는 블록도이다.

도 2를 참조하면, 가상 터치 입력 장치(100)는 음성 명령 인식부(210), 디스크립션 추출부(230), 터치 영역 결정부(250), 가상 터치 입력부(270) 및 제어부(290)를 포함할 수 있다.

음성 명령 인식부(210)는 사용자의 음성 명령을 수신하여 명령 텍스트 또는 명령 코드를 생성할 수 있다. 예를 들어, 음성 명령 인식부(210)는 음성 명령 인식을 위하여 구글 어시스턴트, 애플 쉬리 등 제3자 음성 인식 플랫폼 API를 활용할 수 있고, 수신된 음성 명령을 대응되는 명령 텍스트 또는 명령 코드로 변환할 수 있다. 여기에서, 명령 텍스트는 음성 명령을 대응되는 문자로 변환하여 생성된 문자열에 해당할 수 있고 명령 코드는 음성 명령에 대응되고 특정 동작의 실행을 의미하는 코드정보 또는 코드정보열에 해당할 수 있다. 또한, 명령 텍스트 또는 명령 코드는 단일의 텍스트 또는 복수의 텍스트들로 구성될 수 있다.

일 실시예에서, 음성 명령 인식부(210)는 음성 명령 플로팅 컨트롤이 활성화된 경우 사용자의 음성 명령을 수신할 수 있다. 여기에서, 음성 명령 플로팅 컨트롤은 on/off 상태 변화를 통해 음성 인식 모드 및 터치 모드 간의 전환 동작을 제어하는 플로팅 액션 버튼(Floating Action Button, FAB)에 해당할 수 있다. 사용자는 사용자 화면의 최상위에 노출되는 음성 명령 플로팅 컨트롤을 터치함으로써 음성 인식 모드를 활성화할 수 있다.

일 실시예에서, 음성 명령 인식부(210)는 포그라운드(foreground) 프로세스에서 사용자 입력을 수신할 수 있는 문자 또는 코드정보 디스크립션을 검출하여 음성 명령 플로팅 컨트롤에 해당 문자 또는 코드정보 디스크립션을 동적으로 표시할 수 있다. 여기에서, 포그라운드(foreground) 프로세스는 사용자의 입력한 명령을 해석하여 실행하고 그 결과를 현재 사용자 화면에 출력하는 동작을 수행하는 프로세스로서 프로세서(110)에 의해 동작이 제어될 수 있다. 음성 명령 인식부(210)는 포그라운드 프로세스에서 문자 또는 코드정보 디스크립션을 검출함으로써 현재 표시되고 있는 사용자 화면 내에 존재하는 텍스트 정보를 획득하거나 특정 메뉴에 관한 정보를 획득할 수 있다.

또한, 음성 명령 인식부(210)는 포그라운드 프로세스로부터 획득한 문자 또는 코드정보 디스크립션 중에서 사용자의 입력을 수신할 수 있는 문자 또는 코드정보 디스크립션 만을 추출할 수 있다. 문자 디스크립션은 포그라운드 프로세스가 현재 사용자 화면을 출력하기 위하여 사용하는 다양한 디스크립션들 중에서 문자열을 포함하는 디스크립션에 해당할 수 있고, 코드정보 디스크립션은 코드정보열을 포함하는 디스크립션에 해당할 수 있다. 또한, 사용자의 입력을 수신할 수 있는 문자 또는 코드정보 디스크립션은 단순 텍스트나 그림이 아닌 하이퍼링크로 연결된 텍스트, 그림 및 메뉴 등과 같이 사용자의 선택에 따라 특정 동작을 수행하거나 특정 웹페이지로 이동하는 것이 가능한 디스크립션에 해당할 수 있다.

음성 명령 인식부(210)는 음성 명령 플로팅 컨트롤에 해당 문자 또는 코드정보 디스크립션을 동적으로 표시함으로써 사용자에게 음성 명령으로 터치할 수 있는 문자 또는 코드정보 디스크립션에 관한 정보를 제공할 수 있다. 예를 들어, 음성 명령 인식부(210)는 음성 명령 플로팅 컨트롤 내부에 문자 또는 코드정보 디스크립션을 특정 순서에 따라 순차적으로 표시하거나 또는 랜덤으로 표시할 수 있다.

디스크립션 추출부(230)는 현재 포그라운드 프로세스에서 제공되는 적어도 하나의 문자 또는 코드정보 디스크립션에 있는 문자 또는 코드정보열과 문자 또는 코드정보 영역을 추출할 수 있다. 따라서, 디스크립션 추출부(230)는 현재 출력되는 사용자 화면에서 텍스트 또는 메뉴에 해당하는 문자 또는 코드정보열과 해당 문자 또는 코드정보열이 차지하고 있는 문자 또는 코드정보 영역을 추출할 수 있다. 문자 또는 코드정보 영역은 사용자 화면 상에서의 해당 영역에 대한 위치 좌표로 표현될 수 있고, 해당 문자를 포함하는 직사각형 형태의 영역 또는 해당 코드정보에 대응되고 미리 설정된 특정 영역에 해당할 수 있으나, 반드시 이에 한정되지 않고, 다양한 형태의 영역으로 표현될 수 있다.

일 실시예에서, 디스크립션 추출부(230)는 현재 포그라운드 프로세스에서 제공되는 아이콘 디스크립션에 있는 아이콘 내용 및 아이콘 영역을 추출할 수 있다. 따라서, 디스크립션 추출부(230)는 현재 출력되는 사용자 화면에서 아이콘을 구성하는 문자 또는 코드정보열을 포함하는 아이콘 내용과 해당 아이콘이 차지하고 있는 아이콘 영역을 추출할 수 있다. 아이콘 영역은 사용자 화면 상에서의 해당 영역에 대한 위치 좌표로 표현될 수 있고, 해당 아이콘을 포함하는 직사각형 형태의 영역에 해당할 수 있으나, 반드시 이에 한정되지 않고, 다양한 형태의 영역으로 표현될 수 있다.

또한, 디스크립션 추출부(230)는 사용자 화면에는 아이콘만 표시되고 별도의 텍스트가 표시되지 않은 경우라고 하더라도 아이콘 디스크립션에 포함된 아이콘 내용을 추출함으로써 해당 아이콘과 연관된 텍스트 정보를 획득할 수 있고, 이를 통해 사용자가 해당 앱의 일반적인 명칭이나 숨겨진 텍스트를 음성 명령으로 제공하면 아이콘만 표시된 앱에 대한 터치 입력이 수행될 수 있다.

일 실시예에서, 디스크립션 추출부(230)는 특정 문자 또는 코드정보열의 유사도가 특정 기준 이하인 경우에는 현재 포그라운드 프로세스와 연관된 사용자 화면 뒤에서 사용자 화면을 가지는 백그라운드 프로세스에서 제공되는 백그라운드 문자 또는 코드정보 디스크립션을 추출할 수 있다. 터치 영역 결정부(250)에 의해 결정된 특정 문자 또는 코드정보열이 명령 텍스트 또는 명령 코드와의 유사도가 너무 낮은 경우 현재 사용자 화면 상에서 사용자의 음성 명령에 해당하는 텍스트나 아이콘이 존재하지 않는다는 것을 의미할 수 있다.

따라서, 디스크립션 추출부(230)는 현재 사용자 화면에 출력되는 내용에 상관없이 백그라운드 프로세서에 의해 수행되는 동작에 대한 음성 명령인지 여부를 검출하기 위하여 백그라운드 문자 또는 코드정보 디스크립션을 추출할 수 있다. 백그라운드 문자 또는 코드정보 디스크립션은 백그라운드 프로세서에 의해 현재 사용자 화면의 출력 내용과 상관없이 수행될 수 있는 동작에 관한 문자 또는 코드정보열을 포함할 수 있다. 예를 들어, '뒤로 가기', '홈' 및 '열림창' 등의 터치 동작 또는 '왼쪽', '오른쪽', '위' 및 '아래' 등의 제스처 동작은 사용자 화면에 텍스트나 아이콘으로 표시되지 않더라도 언제든지 사용자가 입력하여 수행될 수 있는 동작에 해당하고, 백그라운드 문자 또는 코드정보 디스크립션은 이러한 동작에 관한 문자 또는 코드정보열 및 문자 또는 코드정보 영역을 포함할 수 있다. 이 경우, 문자 또는 코드정보 영역은 해당 문자 또는 코드정보열에 대해 사용자 화면 상에서 미리 지정된 특정 범위 영역에 해당할 수 있다.

터치 영역 결정부(250)는 명령 텍스트 또는 명령 코드와 가장 유사하게 연관된 특정 문자 또는 코드정보열을 결정하고 해당 문자 또는 코드정보 영역을 기초로 터치 영역을 결정할 수 있다. 터치 영역 결정부(250)는 사용자의 음성 명령에 대응되는 명령 텍스트 또는 명령 코드와 일치하는 문자 또는 코드정보열을 결정할 수 있고, 해당 문자 또는 코드정보 영역에 대한 가상 터치를 제공하기 위한 터치 영역을 결정할 수 있다. 터치 영역 결정부(250)는 특정 문자 또는 코드정보열이 문자 또는 코드정보 디스크립션으로부터 추출된 경우 해당 문자 또는 코드정보 영역을 터치하기 위한 터치 영역을 결정할 수 있고, 특정 문자 또는 코드정보열이 아이콘 디스크립션으로부터 추출된 경우 해당 아이콘 영역을 터치하기 위한 터치 영역을 결정할 수 있다.

일 실시예에서, 터치 영역 결정부(250)는 특정 문자 또는 코드정보열의 개수가 복수인 경우에는 각각이 음성 명령 플로팅 컨트롤로부터 시각적으로 파생되어 해당 특정 문자 또는 코드정보열 주위에 배치되고 음성 인디케이터를 가지는 복수의 음성 문자 또는 코드정보열 선택 서브-컨트롤들을 제공할 수 있다. 사용자의 터치에 의해 음성 명령 플로팅 컨트롤이 활성화되면 사용자의 음성 명령에 의한 제어가 가능한 상태로 전환되고, 터치 영역 결정부(250)는 사용자의 음성 명령에 대응되는 명령 텍스트 또는 명령 코드와 일치하는 복수의 문자 또는 코드정보열들이 현재 사용자 화면에 동시에 출력되어 어느 것에 대한 음성 명령인지 불명확한 경우 사용자에게 선택을 요청할 수 있는 인터페이스를 제공할 수 있다.

보다 구체적으로, 터치 영역 결정부(250)는 복수의 특정 문자 또는 코드정보열들 각각에 복수의 음성 문자 또는 코드정보열 선택 서브-컨트롤를 배치할 수 있고, 각 음성 문자 또는 코드정보열 선택 서브-컨트롤은 음성 명령 플로팅 컨트롤로부터 시각적으로 파생될 수 있으며, 각 음성 문자 또는 코드정보열 선택 서브-컨트롤은 음성 인디케이터를 할당 받을 수 있다. 음성 인디케이터는 문자 또는 코드정보열을 식별하기 위한 문자 또는 기호에 해당할 수 있다. 음성 문자 또는 코드정보열 선택 서브-컨트롤은 음성 명령 플로팅 컨트롤로부터 생성되어 해당 위치에서 특정 문자 또는 코드정보열이 위치한 곳까지 이동하도록 그래픽적으로 표현될 수 있다. 사용자는 복수의 특정 문자 또는 코드정보열들에 배치된 음성 인디케이터를 직접 음성으로 발음하여 해당 음성 인디케이터와 연관된 특정 문자 또는 코드정보열을 명령 텍스트 또는 명령 코드에 대응하는 최종 문자 또는 코드정보열로 결정할 수 있다.

일 실시예에서, 터치 영역 결정부(250)는 복수의 음성 문자 또는 코드정보열 선택 서브-컨트롤들을 통한 음성 선택이 수행되면 해당 특정 문자 또는 코드정보열과 연관된 문자 또는 코드정보 영역에 가상 터치를 제공하고 복수의 음성 문자 또는 코드정보열 선택 서브-컨트롤들을 시각적으로 복귀시켜 음성 명령 플로팅 컨트롤을 제공할 수 있다. 터치 영역 결정부(250)는 사용자의 음성 명령을 통해 특정 음성 인디케이터를 결정함으로써 음성 선택을 수행할 수 있고, 각 음성 문자 또는 코드정보열 선택 서브-컨트롤은 대응되는 특정 문자 또는 코드정보열 위치에서 음성 명령 플로팅 컨트롤 위치까지 이동하도록 그래픽적으로 표현될 수 있다.

일 실시예에서, 터치 영역 결정부(250)는 해당 문자 또는 코드정보 영역을 터치 영역으로 결정하여 가상 터치를 제공하였을 때 해당 사용자 화면의 변화를 검출하고, 변화가 없는 경우에는 특정 문자 또는 코드정보열에 대한 인터넷 검색을 수행하여 해당 사용자 화면에 오버레이되는 검색내용 팝업을 제공할 수 있다. 사용자의 음성 명령에 대한 터치 입력이 성공적으로 제공된 경우 해당 터치 입력의 결과로서 특정 문자 또는 코드정보열과 연결된 페이지로 이동하거나 또는 특정 문자 또는 코드정보열과 연관된 앱이 실행될 수 있다. 만약 사용자 화면의 변화가 없는 경우에는 특정 문자 또는 코드정보열이 사용자 입력을 수신할 수 없는 텍스트에 해당한다는 것을 의미하므로 터치 영역 결정부(250)는 특정 문자 또는 코드정보열에 대한 인터넷 검색을 수행하여 검색 결과를 사용자 화면 위에 중첩되도록 제공할 수 있다.

일 실시예에서, 터치 영역 결정부(250)는 해당 문자 또는 코드정보 영역의 중심을 기준으로 특정 반경 이내의 범위 영역을 상기 터치 영역으로서 결정할 수 있다. 터치 영역 결정부(250)는 사용자 음성 명령에 대응되는 가상 터치가 제공될 수 있도록 문자 또는 코드정보 영역을 기초로 터치 영역을 결정할 수 있다. 터치 영역 결정부(250)는 문자 또는 코드정보 영역에 대한 위치 좌표를 기초로 해당 문자 또는 코드정보 영역의 중심 좌표를 산출할 수 있고, 미리 설정된 특정 반경을 이용하여 문자 또는 코드정보 영역의 중심을 기준으로 특정 반경 이내의 원형 영역을 터치 영역으로서 결정할 수 있다.

일 실시예에서, 터치 영역 결정부(250)는 해당 문자 또는 코드정보 영역의 중심을 기준으로 다음의 수학식을 통해 산출되는 반경 이내의 범위 영역을 상기 터치 영역으로 결정할 수 있다.

[수학식]

여기에서, R은 반경을, k는 비례 상수를, T는 문자 또는 코드정보열의 크기를, S_max 및 S_min은 문자 또는 코드정보 영역의 중심에서 문자 또는 코드정보 영역의 경계까지의 거리 중 최대값과 최소값을 의미한다. 문자 또는 코드정보열의 크기 T는 문자 또는 코드정보열의 높이에 해당할 수 있다. 반경 R은 문자 또는 코드정보 영역의 중심으로부터 문자 또는 코드정보 영역의 경계까지의 거리와 문자 또는 코드정보열의 크기를 반영하여 산출될 수 있다.

가상 터치 입력부(270)는 터치 영역에 가상 터치를 제공할 수 있다. 일 실시예에서, 가상 터치 입력부(270)는 터치 영역에 따라 터치 개시부터 종료까지 터치의 연속성을 유지하는 적어도 하나의 가상 터치를 제공할 수 있다. 가상 터치 입력부(270)는 터치 영역이 특정 문자 또는 코드정보열이나 아이콘에 관한 터치에 대응되는 경우 해당 터치 영역에 대한 하나의 가상 터치만을 제공할 수 있다. 또한, 가상 터치 입력부(270)는 터치 영역이 '왼쪽', '오른쪽' 등과 같이 화면 이동을 위한 제스처에 대응되는 경우 해당 터치 영역에 대해 복수의 가상 터치들을 제공할 수 있다.

예를 들어, 사용자가 '왼쪽'이라는 음성 명령을 제공한 경우 디스크립션 추출부(230)는 문자 또는 아이콘 디스크립션으로부터 해당 명령 텍스트 또는 명령 코드와 유사한 문자 또는 코드정보열을 검출한 후, 백그라운드 프로세스에서 제공되는 백그라운드 문자 또는 코드정보 디스크립션으로부터 해당 명령 텍스트 또는 명령 코드와 유사한 문자 또는 코드정보열을 검출할 수 있다. 만약, 백그라운드 문자 또는 코드정보 디스크립션에서만 해당 명령 텍스트 또는 명령 코드와 동일한 문자 또는 코드정보열이 검출된 경우 터치 영역 결정부(250)는 해당 문자 또는 코드정보열의 문자 또는 코드정보 영역을 기초로 터치 영역을 결정할 수 있고, 이 경우 '왼쪽'에 대응하는 문자 영역은 사용자 화면 오른쪽 임의의 지점에서 동일 높이의 왼쪽 임의의 지점을 포함하는 슬라이딩 제스처 영역에 해당할 수 있다.

결과적으로, 가상 터치 입력부(270)는 사용자 화면 오른쪽 임의의 지점에서 동일 높이의 왼쪽 방향으로 일정 간격으로 이동하는 복수의 가상 터치들을 제공할 수 있다. 이 경우, 가상 터치 입력부(270)는 터치 개시부터 종료까지 복수의 가상 터치들 간에 터치의 연속성이 유지되도록 제어함으로써 슬라이딩 터치 효과를 제공할 수 있다.

일 실시예에서, 가상 터치 입력부(270)는 터치 영역에 따라 특정 시간 간격으로 발생하는 적어도 하나의 가상 터치를 제공할 수 있다. 가상 터치 입력부(270)는 터치 영역이 특정 크기를 초과하는 경우 특정 시간 간격마다 해당 터치 영역 내의 임의의 위치에 대한 가상 터치를 제공할 수 있고, 터치 영역이 특정 길이를 초과하는 경우 특정 시간 간격마다 해당 터치 영역 내에서 일정한 방향으로 이동하는 가상 터치를 제공할 수 있다.

제어부(290)는 가상 터치 입력 장치(100)의 전체적인 동작을 제어하고, 음성 명령 인식부(210), 디스크립션 추출부(230), 터치 영역 결정부(250) 및 가상 터치 입력부(270) 간의 제어 흐름 또는 데이터 흐름을 관리할 수 있다.

도 3은 도 1에 있는 가상 터치 입력 장치에서 수행되는 가상 터치 입력 과정을 설명하는 순서도이다.

도 3을 참조하면, 가상 터치 입력 장치(100)는 음성 명령 인식부(210)를 통해 사용자의 음성 명령을 수신하여 명령 텍스트 또는 명령 코드를 생성할 수 있다(단계 S310). 가상 터치 입력 장치(100)는 디스크립션 추출부(230)를 통해 현재 포그라운드 프로세스에서 제공되는 적어도 하나의 문자 또는 코드정보 디스크립션에 있는 문자 또는 코드정보열과 문자 또는 코드정보 영역을 추출할 수 있다(단계 S330). 가상 터치 입력 장치(100)는 터치 영역 결정부(250)를 통해 명령 텍스트 또는 명령 코드와 가장 유사하게 연관된 특정 문자 또는 코드정보열을 결정하고 해당 문자 또는 코드정보 영역을 기초로 터치 영역을 결정할 수 있다(단계 S350). 가상 터치 입력 장치(100)는 가상 터치 입력부(270)를 통해 터치 영역 결정부(250)에 의해 결정된 터치 영역에 가상 터치를 제공할 수 있다(단계 S370).

도 4 내지 9는 도 1에 있는 가상 터치 입력 장치에서 수행되는 가상 터치 입력을 통한 화면 제어의 실시예를 설명하는 예시도이다.

도 4를 참조하면, 가상 터치 입력 장치(100)는 사용자 화면의 플로팅 버튼을 터치하여 음성 인식 모드를 전환할 수 있다. 가상 터치 입력 장치(100)는 음성 인식 모드에서 사용자의 음성과 화면 터치의 두가지 방법을 통해 사용자 화면의 제어를 제공할 수 있다. 사용자는 화면 내에서 사용하고 싶은 앱의 이름으로서 “다음”이라는 음성 명령을 제공할 수 있고, 가상 터치 입력 장치(100)는 가상 터치를 제공하여 해당 앱을 실행시킬 수 있다. 사용자는 뉴스 기사의 앞 단어를 음성으로 불러 해당 뉴스 기사에 링크된 페이지로 이동할 수 있고, 사용자가 “병원 노조”라는 음성 명령을 제공한 경우 가상 터치 입력 장치(100)는 가상 터치를 제공하여 “병원 노조”에 해당하는 기사 내용을 오픈할 수 있다. 사용자는 음성 명령을 통해 화면을 업/다운하며 뉴스 기사를 읽을 수 있고, 뉴스 기사를 다 읽은 경우 음성 명령을 통해 이전 페이지로 돌아갈 수 있다.

도 5를 참조하면, 사용자는 특정 웹페이지에서 음성 명령을 통해 다음 페이지로 이동할 수 있다. 예를 들어, 사용자는 “넥스트”라는 음성 명령을 통해 다음 페이지로 이동할 수 있다. 사용자는 음성 명령을 통해 원하는 기사를 오픈하여 내용을 읽을 수 있고, 초기 홈화면으로 돌아가고 싶은 경우 “홈”이라는 음성 명령을 통해 초기 홈화면으로 이동할 수 있다.

도 6을 참조하면, 가상 터치 입력 장치(100)는 음성 명령을 통해 사용자가 특정 앱을 호출하고 앱 내에서 추가 작업을 수행하도록 할 수 있다. 도 6에서, 사용자는 화면 상의 음성 명령을 통해 증권 앱(음성 명령: “카카오스탁”)을 호출할 수 있고 화면 내에서 주가 상세 검색하고 싶은 회사명(음성 명령: “아이리버”)을 호출할 수 있다. 사용자는 주가 상세 조회 중이라도 “홈”이라는 음성 명령을 통해 초기 홈화면으로 복귀할 수 있다.

도 7을 참조하면, 가상 터치 입력 장치(100)는 음성 명령을 통해 사용자가 메일 앱을 호출하고 앱 내에서 메일 확인 작업을 수행하도록 할 수 있다. 사용자는 음성 명령을 통해 화면 상의 메일 앱(음성 명령: “G메일”)을 호출할 수 있고, Gmail 받은메일함에서 확인하고자 하는 메일의 제목(음성 명령: “11번가”)을 호출할 수 있다. 사용자는 11번가에서 온 메일 확인 이후 “홈”이라는 음성 명령을 통해 초기 홈화면으로 복귀할 수 있다.

도 8을 참조하면, 가상 터치 입력 장치(100)는 음성 명령을 통해 사용자가 숫자를 입력할 수 있는 기능을 제공할 수 있다. 사용자는 음성 명령을 통해 화면 상의 계산기 앱(음성 명령: “계산기”)을 호출할 수 있고 화면 내에서 계산에 필요한 숫자 및 연산부호(음성 명령: “215*3”)를 호출할 수 있다. 또한, 사용자는 계산기 사용을 끝내고 “홈”이라는 음성 명령을 통해 초기 홈화면으로 이동할 수 있다.

도 9를 참조하면, 가상 터치 입력 장치(100)는 사용자가 음성 명령을 통해 금융 앱 진입을 위한 비밀번호를 입력할 수 있는 기능을 제공할 수 있다. 사용자는 음성 명령을 통해 화면 상의 금융 앱(음성명령: “금융”)을 호출할 수 있고, 비밀번호를 음성 명령을 통해 입력하여 금융 앱으로 진입할 수 있다. 또한, 사용자는 금융 앱 사용을 끝내고 “홈”이라는 음성 명령을 통해 초기 홈화면으로 이동할 수 있다.

상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

100: 음성 명령 기반의 가상 터치 입력 장치
110: 프로세서 130: 메모리
150: 사용자 입출력부 170: 네트워크 입출력부
210: 음성 명령 인식부 230: 디스크립션 추출부
250: 터치 영역 결정부 270: 가상 터치 입력부
290: 제어부

Claims

사용자의 음성 명령을 수신하여 명령 텍스트 또는 명령 코드를 생성하는 음성 명령 인식부;
현재 포그라운드(foreground) 프로세스에서 제공되는 적어도 하나의 문자 또는 코드정보 디스크립션(description)에 있는 문자 또는 코드정보열과 문자 또는 코드정보 영역을 추출하는 디스크립션 추출부;
상기 명령 텍스트 또는 명령 코드와 가장 유사하게 연관된 특정 문자 또는 코드정보열을 결정하고 해당 문자 또는 코드정보 영역을 기초로 터치 영역을 결정하는 터치 영역 결정부; 및
상기 터치 영역에 가상 터치를 제공하는 가상 터치 입력부를 포함하는 음성 명령 기반의 가상 터치 입력 장치.
제1항에 있어서, 상기 음성 명령 인식부는
상기 포그라운드 프로세스에서 사용자 입력을 수신할 수 있는 문자 또는 코드정보 디스크립션을 검출하여 음성 명령 플로팅(floating) 컨트롤에 해당 문자 또는 코드정보 디스크립션을 동적으로 표시하는 것을 특징으로 하는 음성 명령 기반의 가상 터치 입력 장치.
제1항에 있어서, 상기 디스크립션 추출부는
상기 현재 포그라운드 프로세스에서 제공되는 아이콘 디스크립션에 있는 아이콘 내용 및 아이콘 영역을 추출하는 것을 특징으로 하는 음성 명령 기반의 가상 터치 입력 장치.
제3항에 있어서, 상기 디스크립션 추출부는
상기 특정 문자 또는 코드정보열의 유사도가 특정 기준 이하인 경우에는 상기 현재 포그라운드 프로세스와 연관된 사용자 화면 뒤에서 사용자 화면을 가지는 백그라운드(background) 프로세스에서 제공되는 백그라운드 문자 또는 코드정보 디스크립션을 추출하는 것을 특징으로 하는 음성 명령 기반의 가상 터치 입력 장치.
제1항에 있어서, 상기 터치 영역 결정부는
상기 특정 문자 또는 코드정보열의 개수가 복수인 경우에는 각각이 음성 명령 플로팅 컨트롤로부터 시각적으로 파생되어 해당 특정 문자 또는 코드정보열 주위에 배치되고 음성 인디케이터(indicator)를 가지는 복수의 음성 문자 또는 코드정보열 선택 서브-컨트롤들을 제공하는 것을 특징으로 하는 음성 명령 기반의 가상 터치 입력 장치.
제5항에 있어서, 상기 터치 영역 결정부는
상기 복수의 음성 문자 또는 코드정보열 선택 서브-컨트롤들을 통한 음성 선택이 수행되면 상기 해당 특정 문자 또는 코드정보열과 연관된 문자 또는 코드정보 영역에 가상 터치를 제공하고 상기 복수의 음성 문자 또는 코드정보열 선택 서브-컨트롤들을 시각적으로 복귀시켜 상기 음성 명령 플로팅 컨트롤을 제공하는 것을 특징으로 하는 음성 명령 기반의 가상 터치 입력 장치.
제1항에 있어서, 상기 터치 영역 결정부는
상기 해당 문자 또는 코드정보 영역의 중심을 기준으로 특정 반경 이내의 범위 영역을 상기 터치 영역으로서 결정하는 것을 특징으로 하는 음성 명령 기반의 가상 터치 입력 장치.
제4항에 있어서, 상기 가상 터치 입력부는
상기 터치 영역에 따라 터치 개시부터 종료까지 터치의 연속성을 유지하는 적어도 하나의 가상 터치를 제공하는 것을 특징으로 하는 음성 명령 기반의 가상 터치 입력 장치.