KR101499044B1 - 사용자의 손동작 및 음성에 기초하여 사용자가 의도한 텍스트를 취득하는 웨어러블 컴퓨터 및 사용자가 의도한 텍스트를 취득하는 방법 - Google Patents

사용자의 손동작 및 음성에 기초하여 사용자가 의도한 텍스트를 취득하는 웨어러블 컴퓨터 및 사용자가 의도한 텍스트를 취득하는 방법 Download PDF

Info

Publication number
KR101499044B1
KR101499044B1 KR20130119085A KR20130119085A KR101499044B1 KR 101499044 B1 KR101499044 B1 KR 101499044B1 KR 20130119085 A KR20130119085 A KR 20130119085A KR 20130119085 A KR20130119085 A KR 20130119085A KR 101499044 B1 KR101499044 B1 KR 101499044B1
Authority
KR
South Korea
Prior art keywords
text
user
hand
voice
observation camera
Prior art date
Application number
KR20130119085A
Other languages
English (en)
Inventor
조택연
Original Assignee
홍익대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 홍익대학교 산학협력단 filed Critical 홍익대학교 산학협력단
Priority to KR20130119085A priority Critical patent/KR101499044B1/ko
Application granted granted Critical
Publication of KR101499044B1 publication Critical patent/KR101499044B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/002Specific input/output arrangements not covered by G06F3/01 - G06F3/16
    • G06F3/005Input arrangements through a video camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/0346Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor with detection of the device orientation or free movement in a 3D space, e.g. 3D mice, 6-DOF [six degrees of freedom] pointers using gyroscopes, accelerometers or tilt-sensors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback

Abstract

본 발명은 용자의 손동작 및 음성에 기초하여 사용자가 의도한 텍스트를 취득하는 웨어러블 컴퓨터 및 텍스트를 취득 방법에 관한 것으로서, 사용자의 동공정보를 취득하는 동공 관찰 카메라; 상기 사용자의 손동작 영상을 취득하는 주변 관찰 카메라; 상기 사용자의 음성을 취득하는 마이크; 및 상기 주변 관찰 카메라로 부터 취득된 상기 사용자의 손동작 영상으로부터 제1 텍스트를 인식하고, 상기 사용자의 음성으로부터 제2 텍스트를 인식하고, 상기 제1 텍스트와 상기 제2 텍스트를 기초로 하여 상기 사용자가 의도한 텍스트를 취득하는 정보 처리부를 포함하는 웨어러블 컴퓨터 및 사용자가 의도한 텍스트를 취득하는 방법을 제공한다.

Description

사용자의 손동작 및 음성에 기초하여 사용자가 의도한 텍스트를 취득하는 웨어러블 컴퓨터 및 사용자가 의도한 텍스트를 취득하는 방법{WEARABLE COMPUTER OBTAINING TEXT BASED ON GESTURE AND VOICE OF USER AND METHOD OF OBTAINING THE TEXT}
본 발명은 웨어러블 컴퓨터(wearable computer)에 관한 것으로, 보다 자세하게는 사용자의 손동작 및 음성에 기초하여 사용자가 의도한 텍스트를 취득하는 웨어러블 컴퓨터 및 텍스트를 취득하는 방법에 관한 것이다.
웨어러블 컴퓨터는 사용자가 움직이면서도 컴퓨팅 시스템을 이용할 수 있는 기술로서, 가장 널리 사용되는 것이 의복 형태의 착용형 컴퓨터이다. 착용 가능한 웨어러블 컴퓨터는 기존의 노트북 컴퓨터나 PDA의 형태에서 진화하여 경량화, 소형화된 모듈들이 옷 속에 내장되며, 이때 각 모듈들의 무게 분산 정도와 인체공학적 측면을 고려함으로써 착용감과 활동성을 최대화 한 형태의 차세대 컴퓨터이다. 웨어러블 컴퓨터에 대해서는 착용의 편의성 및 사용의 편의성을 고려하여 사용자가 특별한 학습 기간을 갖지 않고도 쉽게 이용할 수 있는 기능들이 개발 되고 있다.
웨어러블 컴퓨터는 사용자의 움직임에 제한을 받지 않으면서 언제 어디서나 쉽게 사용할 수 있는 기기인 것이 특징이며, 이에 맞추어 사용자의 편의성과 휴대성 및 효율성 등을 갖춘 새로운 입력수단의 필요하다. 전통적으로 사용된 키보드와 마우스만으로서, 웨어러블 컴퓨터의 특징을 잘 활용하기에는 어려움이 있다. 최근 개인정보 단말기 등에 주로 사용되고 있는 입력펜, 터치스크린, 탁찰형 키보드 등을 웨어러블 컴퓨터의 입력수단으로 적용할 수 있다. 그러나 전술한 각각의 입력수단은 사용자가 자신의 어딘가에 부착된 입력장치에 터치를 해야 하기 때문에, 사용자의 움직임에 제한을 받지 않으면서 언제 어디서나 쉽게 사용할 수 있는 웨어러블 컴퓨터에 적용하기에는 어려움이 있다.
본 발명은 사용자의 편의성과 휴대성 및 효율성 높이기 위해, 사용자의 입력정보를 정확하게 수신할 수 있는 웨어러블 컴퓨터를 제공한다.
본 발명의 해결과제는 이상에서 언급한 것들에 한정되지 않으며, 언급되지 아니한 다른 해결과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기 기술적 과제를 달성하기 위해 개시된 기술의 제1 특징은 사용자의 동공정보를 취득하는 동공 관찰 카메라; 상기 사용자의 손동작 영상을 취득하는 주변 관찰 카메라; 상기 사용자의 음성을 취득하는 마이크; 및 상기 주변 관찰 카메라로 부터 취득된 상기 사용자의 손동작 영상으로부터 제1 텍스트를 인식하고, 상기 사용자의 음성으로부터 제2 텍스트를 인식하고, 상기 제1 텍스트와 상기 제2 텍스트를 기초로 하여 상기 사용자가 의도한 텍스트를 취득하는 정보 처리부를 포함하는 웨어러블 컴퓨터를 제공한다.
상기 기술적 과제를 달성하기 위해 개시된 기술의 제2 특징은 사용자의 동공정보를 취득하는 동공 관찰 단계; 상기 사용자의 손동작 영상을 취득하는 손동작 영상 취득 단계; 상기 사용자의 음성을 취득하는 음성 취득 단계; 취득된 상기 사용자의 손동작 영상으로부터 제1 텍스트를 인식하는 제1 텍스트 인식 단계; 상기 사용자의 음성으로부터 제2 텍스트를 인식하는 제2 텍스트 인식 단계; 및 상기 제1 텍스트와 상기 제2 텍스트를 기초로 하여 상기 사용자가 의도한 텍스트를 취득하는 텍스트 선택 단계를 포함하는 사용자가 의도한 텍스트를 취득하는 방법을 제공한다.
개시된 기술의 실시예들은 다음의 장점을 포함하는 효과를 가질 수 있다. 다만, 개시된 기술의 실시예들이 이를 전부 포함하여야 한다는 의미는 아니므로, 개시된 기술의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.
본 발명에 의해 사용자 몸에 부착된 웨어러블 컴퓨터에 입력되는 정보 또는 명령어를 보다 쉬우면서도 정확하게 컴퓨터에 제공할 수 있다.
도 1은 본 발명의 일실시예에 따른 사용자가 의도한 텍스트를 취득하는 웨어러블 컴퓨터의 블록도이다.
도 2 내지 도 4는 도 1에 도시된 웨어러블 컴퓨터에 정보를 입력하기 위한 예시적인 손동작을 나타내는 도면이다.
도 5는 본 발명의 일실시예에 따른 사용자가 의도한 텍스트를 취득하는 방법의 순서도이다.
본 발명은 웨어러블 컴퓨터에 관한 것으로, 특히 지리기반 공간 인터페이스 하에서 사용자가 일상에서 웨어러블 컴퓨터를 제어(조작 혹은 데이터의 입력)하려는 의지를 손의 여러 동작과 모양과 동공의 관찰점 그리고 사용자의 언어 등으로 표현하면, 웨어러블 컴퓨터가 그 정보를 종합적으로 고려하여 정확한 입력정보를 인식하는 것이 특징이다. 즉, 본 발명의 웨어러블 컴퓨터는 입력되는 동공위치, 음성정보, 손동작 등을 종합적으로 인지하여 사용자가 웨어러블 컴퓨터에 전달하려는 의지를 정확하게 읽어낸다. 여기서 지리기반 공간 인터페이스라는 것은 사용자가 현재 있는 장소의 공간적 특성을 인터페이스로 사용하여, 이를 기준좌표계(토대)로 사용자 자신의 의지를 입력하는 것을 말한다.
본 발명의 웨어러블 컴퓨터는 글라스(예를 들어 구글 글라스)와 같은 형태로 구현될 수 있으며, 웨어러블 컴퓨터에 구비된 카메라를 이용하여 주변의 환경을 촬영하고, 사용자는 그 촬영이 이루어지는 장소에 시선을 고정했을 때에 나타나는 가상공간(촬영하는 장소와 사용자 사이에 사용자의 시선이 가리키는 공간)에 비춰지는 모니터의 영상을 공간 인터페이스로 한다. 이 영상에 표시되는 사용자의 손 또는 손가락 움직임을 웨어러블 컴퓨터가 인식해 사용자가 원하는 대로 컴퓨터가 작동하게 된다.
도 1은 본 발명의 일실시예에 따른 웨어러블 컴퓨터를 나타내는 블록도이다.
도 1을 참조하여 살펴보면, 본 실시예에 따른 웨어러블 컴퓨터는 정보 처리부(100), 동공 관찰 카메라(200), 주변관찰 카메라(300) 및 마이크(400)를 구비한다. 실시예에 따라, GPS 장비(500), 디지털 자이로(600) 및 디스플레이부(미도시)를 더 구비할 수 있다. 또한, 여기서는 동공 관찰 카메라(200)와 주변관찰 카메라(300)를 각각 표시하였지만, 실시예에 따라 동공 관찰 카메라(200)와 주변관찰 카메라(300)하나의 카메라로 구현될 수도 있고, 별도의 카메라로 구현될 수도 있다. 또한 동공 관찰 카메라(200)는 사용자의 동공 정보를 취득하여 사용자가 바라보는 시점을 인식하는 역할이므로 동공 인식 센서로도 대체 가능하다.
동공 관찰 카메라(200)는 사용자가 보는 시점에 따라 입력될 대상을 추적하는 아이 트래킹(eye tracking) 기능을 구현한다. 사용자의 시점에 대한 정보를 웨어러블 컴퓨터가 이용하여 정확한 사용자의 의지를 판단하는데 참고하는 것이다. 주변 관찰 카메라(300)는 사용자가 관찰하는 대상에 대한 영상을 기록하고, 그 영상과 사용자가 가상 공간에 손동작을 하게 되면, 그 손의 움직임을 촬영한다. 마이크(400)는 사용자가 말하는 음성 정보를 읽어서, 정보 처리부(100)에 전달한다.
본 발명에 의한 웨어러블 컴퓨터는 동공 관찰 카메라(200)를 이용한 아이 트래킹, 주변관찰 카메라(300)를 이용한 사용자의 손동작 및 마이크(400)를 이용하여 입력받은 음성 정보를 종합적으로 고려하여, 사용자가 원하는 입력정보를 정확하게 판단하게 된다. 또한, 본 발명의 웨어러블 컴퓨터는 아이 트래킹, 사용자의 손동작 및 사용자 음성 중에서 2개만을 이용하여 입력정보를 판단할 수도 있다. 예를 들어, 아이 트래킹 기능에다가 손가락이 가리키는 위치를 검출하여 사용자의 입력정보를 판단할 수 있다. 또한, 사용자의 손동작 및 사용자 음성 정보를 이용하여 입력정보를 판단할 수도 있다. 이와 같이, 두 가지 이상의 입력 값을 판단하여 웨어러블 컴퓨터가 수신할 입력정보가 정해지기 때문에, 오차 없이 웨어러블 컴퓨터에 사용자가 원하는 명령이 전달될 수 있다.
한 실시예에 의하면, 웨어러블 컴퓨터는 동공 관찰 카메라(200)로부터 취득된 동공정보로부터 사용자가 바라보는 시선 방향을 인식하고, 주변 관찰 카메라(300)는 사용자의 시선 방향의 영상을 취득한다. 보다 자세하게는 주변 관찰 카메라(300)는 사용자의 시선 방향의 영상에서 사용자의 손동작 영상을 취득한다. 정보 처리부(100)는 사용자의 손동작 영상으로부터 제1 텍스트를 인식한다. 여기서 제1 텍스트는 사용자가 허공에 손으로 글자를 쓴 것을 인식한 것으로서, 제1 텍스트 인식은 손동작 영상에서 손 영역과 배경을 분리하고 손 영역의 가장자리를 추출하고 손가락 중심점의 위치 변화를 기초로 하여 수행될 수 있다.
실시예에 따라, 정보 처리부(100)는 영상 데이터를 이용하여 사용자가 사물 등의 대상을 가리키는 손가락(예를 들어 검지)의 끝과 같이, 사용자 신체의 광학적 영상 정보를 추출한다. 사용자의 손과 손가락 위치 또는 움직임을 통해 입력된 손가락의 광학적 영상정보는 벡터(vector)로 변환된다. 이를 위해 정보 처리부(100)는 사용자의 손과 손가락 위치 또는 움직임을 벡터 이미지로 변환 시키는 알고리즘을 가지고 있다. 여기서 사용하는 변환 알고리즘은 "엣지(edge) 찾은 후의 중심선 탐색"과, "중심선의 직선화"와 같은 알고리즘을 이용할 수 있다.
마이크(400)는 사용자의 음성을 취득한다. 구체적으로 사용자의 음성은 정보 처리부(100)로 제공되고, 정보 처리부(100)는 이를 처리하여 제2 텍스트를 인식한다. 여기서 제2 텍스트는 사용자가 발음한 음성을 음성인식의 방법을 통해 얻은 텍스트이다. 따라서 정보 처리부(100)는 단어를 인식할 수 있는 음운(언어) 인식 기능을 포함하는 것이 바람직하다. 음운 인식 지능은 음향적으로 채취한 정보에 내포된 문자 정보를 인식하는 다양한 알고리즘을 포함하며, 이미 사용되고 있는 알고리즘(예를 들어, 시리(Siri), 구글 음성인식, 또는 갤럭시 음성인식)을 이용할 수 있다.
한편, 제2 텍스트의 인식은 특정 경우에만 수행되는 것이 바람직하다. 음성 인식은 정보 처리부(100)의 연산 부담을 주며, 사용자는 주변 사람과의 의사소통을 위한 경우 또는 사용자가 아닌 인접한 다른 사람의 목소리를 인식하는 경우 원치 않는 음성 인식이 수행될 수 있기 때문이다. 따라서 제2 텍스트의 인식은 주변 관찰 카메라(200)가 시점 내의 사용자 손동작 영상을 취득할 때만 수행되는 것이 바람직하다.
한 실시예에 의하면, 정보 처리부(100)는 제1 텍스트와 제2 텍스트를 기초로 하여 사용자가 의도한 텍스트를 취득한다. 앞서 설명한 바와 같이 제1 텍스트는 사용자가 손동작을 통하여 허공에 쓴 글자를 인식한 것이고, 제2 텍스트는 사용자의 음성을 인식한 것이다. 손동작에 의한 텍스트 인식은 획이 끝나는 점 및 획이 시작하는 점의 구별이 명확하게 인식되지 않을 수 있으므로 텍스트 인식률이 떨어질 수 있다. 제2 텍스트는 제1 텍스트가 사용자가 의도한 바와 같이 인식되지 않은 경우 이를 보완하기 위한 것이다. 따라서 실시예에 따르면, 사용자는 제1 텍스트가 의도한 바가 아니고 제2 텍스트가 의도한 바인 경우 제2 텍스트를 선택할 수 있다. 반대로 제2 텍스트가 의도한 바가 아니고 제1 텍스트가 의도한 바인 경우 제1 텍스트를 선택할 수 있다. 제1 텍스트 또는 제2 텍스트를 선택하는 구성에 대해서는 아래에서 보다 구체적으로 설명할 것이다.
제1 텍스트 또는 제2 텍스트를 선택하는 한 실시예에 의하면, 정보 처리부(100)는 제1 텍스트와 제2 텍스트가 일치하는 경우 제1 텍스트 또는 제2 텍스트를 사용자가 의도한 텍스트로 취득한다.(제1 텍스트와 제2 텍스트가 일치하면 둘 중 어느 것을 취득하던 동일함)
제1 텍스트 또는 제2 텍스트를 선택하는 다른 실시예에 의하면, 제1 텍스트 또는 제2 텍스트를 디스플레이 장치에 표시하고 사용자는 표시된 제1 텍스트 또는 제2 텍스트 중에서 어느 한 텍스트를 선택할 수 있다. 구체적으로, 제1 텍스트는 텍스트를 구성하는 음소가 인식될 때마다 디스플레이부에 표시될 수 있다. 여기서 디스플레이부는 안경 형태의 착용 가능한 반투명 디스플레이 장치를 사용할 수 있다. 제1 텍스트는 사용자의 시선에서 손이 위치한 부분에 중첩되게 디스플레이부에 표시될 수 있다. 보다 구체적으로 설명하자면, 사용자가 사물 A를 바라보는 경우 사용자의 시점을 사물 A 방향이라고 하고, 사용자가 사물 A 방향으로 손을 내밀어 텍스트를 구성하는 음소 하나 하나에 대한 동작을 한다면, 정보 처리부(100)는 영상 처리를 통하여 음소 하나 하나씩을 인식하여 제1 텍스트를 인식한다. 이때, 디스플레이부는 음소가 하나씩 인식될 때 마다 인식된 음소를 사용자의 동공과 사물 A를 잇는 선상에 위치하도록 표시한다. 다양한 실시예에 따라 제2 텍스트는 제1 텍스트와 인접한 위치에 제1 텍스와는 구별되도록 표시될 수 있다. 제2 텍스트는 제1 텍스트와 색상 또는 폰트가 다르게 표시될 수 있다. 따라서 사용자는 디스플레이부에 표시된 제1 텍스트 및 제2 텍스트를 확인하고, 사용자가 의도한 텍스트를 선택할 수 있다.
디스플레이부에 표시된 제1 텍스트 또는 제2 텍스트 중에서 어느 한 텍스트를 선택하는 구성은 실시예에 따라 다양하게 구현 가능하다. 한 실시예에 따르면 정보 처리부(100)는 사용자의 손동작이 미리 정해진 제1 동작일 경우 제1 텍스트를 취득할 수 있으며, 사용자의 손동작이 미리 정해진 제2 동작일 경우 제2 텍스트를 취득할 수 있다. 일예로 제1 동작은 주먹을 쥐는 동작이고, 제2 동작은 손을 흔드는 동작일 수 있다. 다른 예로 제1 동작은 디스플레이부에 표시된 제1 텍스트를 집개손가락으로 집는 동작이고, 제2 동작은 디스플레이부에 표시된 제2 텍스트를 집개손가락으로 집는 동작일 수 있다.
디스플레이부에 표시된 제1 텍스트 또는 제2 텍스트 중에서 어느 한 텍스트를 선택하는 다른 실시예에 따르면 정보 처리부(100)는 사용자의 음성이 미리 정해진 제1 음성일 경우 제1 텍스트를 취득할 수 있으며, 사용자의 음성이 미리 정해진 제2 음성일 경우 제2 텍스트를 취득할 수 있다. 일예로 제1 음성은 "1 선택"이고, 제2 음성은 "2 선택"일 수 있다.
한편, 정보 처리부(100)는 제1 텍스트 또는 제2 텍스트 중에서 선택된 텍스트를 사용자가 바라보는 시점에 위치한 대상의 정보와 연관하여 취득할 수 있다. 정보 처리부(100)는 주변 관찰 카메라(300)로부터 취득된 영상으로부터 사용자의 손이 가리키는 대상을 인식하고, 인식된 대상에 제1 텍스트 또는 제2 텍스트 중에서 선택된 텍스트를 연관시킬 수 있다. 예를 들어 사용자가 건물 A를 손으로 가리키면, 정보 처리부(100)는 건물 A를 인식한다. 실시예에 의하면 사용자의 손동작이 미리 정해진 제3 동작인 경우 사용자의 손이 가리키는 건물 A를 인식할 수 있다. 일예로 제3 동작은 양손으로 건물 A를 포함하는 사각형을 만드는 동작일 수도 있으며, 그 밖에 제3 동작은 다양하게 변형 실시 가능하다. 다른 실시예에 의하면 사용자의 음성이 미리 정해진 제3 음성인 경우 사용자의 손이 가리키는 건물 A를 인식할 수 있다. 일예로 제3 음성은 "대상 인식"일 수 있으며, 제3 음성은 다양하게 변형 실시 가능하다. 한편, 건물 A에 대한 정보는 GPS로부터 사용자의 위치를 파악하여 구글 어스와 같은 지도 정보 제공 서비스의 정보를 참조할 수 있다.
본 발명에 의한 웨어러블 컴퓨터 장치는 영상에 포함된 사물을 인식하는 다양한 프로그램을 이용할 수 있다. 예를 들어, 구글 동영상 속 사물 인식 기능 또는 네이버 사물인식 알고리즘 기능을 이용하여 카메라로 촬영한 영상을 분석하는 기능을 구비할 수 있다. 또한, 본 발명에 의한 웨어러블 컴퓨터는 GPS(500)를 내장할 수 있어 사용자의 위치 정보를 알 수 있으며, 디지털 자이로(600)를 내장하여 사용자의 움직임을 알 수 있다. 움직임에는 가속도, 속도, 움직인 거리, 각도의 변화 등을 포함한다. 또한, 본 발명에 의한 웨어러블 컴퓨터는 수평각과 올려다보는 각을 측정할 수 있고, 촬영된 영상에서 관찰 대상에 대한 2개의 다른 지점에서의 상대적 각도를 측정할 수 있는 각도측정 장비(미도시)를 구비할 수 있다.
도 5는 본 발명의 일실시예에 따른 사용자가 의도한 텍스트를 취득하는 방법의 순서도이다. 도 5는 도 1의 웨어러블 컴퓨터를 시 계열적으로 구현한 경우에도 본 실시예에 해당하므로, 정보 처리부(100), 동공 관찰 카메라(200), 주변관찰 카메라(300), 마이크(400), GPS 장비(500), 디지털 자이로(600) 및 디스플레이부(미도시)에 대하여 설명된 부분은 본 실시예에서도 그대로 적용된다.
한 실시예에 따라 사용자가 의도한 텍스트를 취득하는 방법은, 사용자의 동공정보를 취득하는 동공 관찰 단계(S510), 사용자의 손동작 영상을 취득하는 손동작 영상 취득 단계(S520), 사용자의 음성을 취득하는 음성 취득 단계(S530), 취득된 사용자의 손동작 영상으로부터 제1 텍스트를 인식하는 제1 텍스트 인식 단계(S540), 사용자의 음성으로부터 제2 텍스트를 인식하는 제2 텍스트 인식 단계(S550) 및 제1 텍스트와 제2 텍스트를 기초로 하여 사용자가 의도한 텍스트를 취득하는 텍스트 선택 단계(S560)를 포함한다.
S510 단계에서는 사용자의 동공 정보를 취득하여 사용자가 바라보는 시점을 인식한다. 즉, 사용자의 시점에 대한 정보를 이용하여 사용자가 바라보는 대상이 무엇인지 웨어러블 컴퓨터가 확인할 수 있다.
S520 단계에서는 사용자의 시선 방향의 영상을 취득한다.
S530 단계에서는 사용자의 음성을 취득한다.
S540 단계에서는 사용자의 손동작 영상으로부터 제1 텍스트를 인식한다. 여기서 제1 텍스트는 사용자가 허공에 손으로 글자를 쓴 것을 인식한 것으로서, 제1 텍스트 인식은 손동작 영상에서 손 영역과 배경을 분리하고 손 영역의 가장자리를 추출하고 손가락 중심점의 위치 변화를 기초로 하여 수행될 수 있다.
S550 단계에서는 취득된 사용자의 음성을 기초로 하여 제2 텍스트를 인식한다. 여기서 제2 텍스트는 사용자가 발음한 음성을 음성인식의 방법을 통해 얻어진다.
한편, 실시예에 따르면 제2 텍스트를 인식은 특정 경우에만 수행되는 것이 바람직하다. 음성 인식은 정보 처리부(100)의 연산 부담을 주며, 다른 사람의 목소리를 인식하는 경우 원치 않는 음성 인식이 수행될 수 있기 때문이다. 따라서 제2 텍스트를 인식은 사용자 손동작 영상이 취득될 때만 수행되는 것이 바람직하다.
S560 단계에서는 제1 텍스트와 제2 텍스트를 기초로 하여 사용자가 의도한 텍스트를 취득한다. 앞서 설명한 바와 같이 제1 텍스트는 사용자가 손동작을 통하여 허공에 쓴 글자를 인식한 것이고, 제2 텍스트는 사용자의 음성을 인식한 것이다. 손동작에 의한 텍스트 인식은 획이 끝나는 점 및 획이 시작하는 점의 구별이 명확하게 인식되지 않을 수 있으므로 텍스트 인식률이 떨어질 수 있다. 제2 텍스트는 제1 텍스트가 사용자가 의도한 바와 같이 인식되지 않은 경우 이를 보완하기 위한 것이다. 따라서 실시예에 따르면, 사용자는 제1 텍스트가 의도한 바가 아니고 제2 텍스트가 의도한 바인 경우 제2 텍스트를 선택할 수 있다. 반대로 제2 텍스트가 의도한 바가 아니고 제1 텍스트가 의도한 바인 경우 제1 텍스트를 선택할 수 있다. 제1 텍스트 또는 제2 텍스트를 선택하는 구성에 대해서는 아래에서 보다 구체적으로 설명할 것이다.
제1 텍스트 또는 제2 텍스트를 선택하는 한 실시예에 의하면 S560 단계에서는 제1 텍스트와 제2 텍스트가 일치하는 경우 제1 텍스트 또는 제2 텍스트를 사용자가 의도한 텍스트로 취득한다.(제1 텍스트와 제2 텍스트가 일치하면 둘 중 어느 것을 취득하던 동일함)
제1 텍스트 또는 제2 텍스트를 선택하는 다른 실시예에 의하면, 제1 텍스트 또는 제2 텍스트를 디스플레이 장치에 표시하고 사용자는 표시된 제1 텍스트 또는 제2 텍스트 중에서 어느 한 텍스트를 선택할 수 있다. 구체적으로, 제1 텍스트는 텍스트를 구성하는 음소가 인식될 때마다 디스플레이부에 표시될 수 있다. 여기서 디스플레이부는 안경 형태의 착용 가능한 반투명 디스플레이 장치를 사용할 수 있다. 제1 텍스트는 사용자의 시선에서 손이 위치한 부분에 중첩되게 디스플레이부에 표시될 수 있다. 보다 구체적으로 설명하자면, 사용자가 사물 A를 바라보는 경우 사용자의 시점을 사물 A 방향이라고 하고, 사용자가 사물 A 방향으로 손을 내밀어 텍스트를 구성하는 음소 하나 하나에 대한 동작을 한다면, 영상 처리를 통하여 음소 하나 하나씩을 인식하여 제1 텍스트를 인식한다. 이때, 디스플레이부는 음소가 하나씩 인식될 때 마다 인식된 음소를 사용자의 동공과 사물 A를 잇는 선상에 위치하도록 표시한다. 다양한 실시예에 따라 제2 텍스트는 제1 텍스트와 인접한 위치에 제1 텍스트와는 구별되도록 표시될 수 있다. 제2 텍스트는 제1 텍스트와 색상 또는 폰트가 다르게 표시될 수 있다. 따라서 사용자는 디스플레이부에 표시된 제1 텍스트 및 제2 텍스트를 확인하고, 사용자가 의도한 텍스트를 선택할 수 있다.
디스플레이부에 표시된 제1 텍스트 또는 제2 텍스트 중에서 어느 한 텍스트를 선택하는 구성은 실시예에 따라 다양하게 구현 가능하다. 한 실시예에 따르면 사용자의 손동작이 미리 정해진 제1 동작일 경우 제1 텍스트를 취득할 수 있으며, 사용자의 손동작이 미리 정해진 제2 동작일 경우 제2 텍스트를 취득할 수 있다. 일예로 제1 동작은 주먹을 쥐는 동작이고, 제2 동작은 손을 흔드는 동작일 수 있다. 다른 예로 제1 동작은 디스플레이부에 표시된 제1 텍스트를 집개손가락으로 집는 동작이고, 제2 동작은 디스플레이부에 표시된 제2 텍스트를 집개손가락으로 집는 동작일 수 있다.
디스플레이부에 표시된 제1 텍스트 또는 제2 텍스트 중에서 어느 한 텍스트를 선택하는 다른 실시예에 따르면 사용자의 음성이 미리 정해진 제1 음성일 경우 제1 텍스트를 취득할 수 있으며, 사용자의 음성이 미리 정해진 제2 음성일 경우 제2 텍스트를 취득할 수 있다. 일예로 제1 음성은 "1 선택"이고, 제2 음성은 "2 선택"일 수 있다.
이상에서 대표적인 실시예를 통하여 본 발명에 대하여 상세하게 설명하였으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 상술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다. 그러므로 본 발명의 권리범위는 설명된 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
100 : 정보 처리부
200 : 동공 관찰 카메라
300 : 주변관찰 카메라
400 : 마이크
500 : GPS 장비
600 : 디지털 자이로

Claims (17)

  1. 사용자의 동공정보를 취득하는 동공 관찰 카메라;
    상기 사용자의 손동작 영상을 취득하는 주변 관찰 카메라;
    상기 사용자의 음성을 취득하는 마이크; 및
    상기 주변 관찰 카메라로 부터 취득된 상기 사용자의 손동작 영상으로부터 제1 텍스트를 인식하고, 상기 사용자의 음성으로부터 제2 텍스트를 인식하고, 상기 제1 텍스트와 상기 제2 텍스트를 기초로 하여 상기 사용자가 의도한 텍스트를 취득하는 정보 처리부를 포함하되,
    상기 동공 관찰 카메라는 상기 동공 정보로부터 상기 사용자가 바라보는 시점을 인식하고,
    상기 주변 관찰 카메라는 상기 사용자의 손이 상기 시점 내에 위치할 때 상기 손동작 영상을 취득하고,
    상기 마이크는 상기 사용자의 손이 상기 시점 내에 위치할 때 상기 음성을 취득하고,
    디스플레이부는 상기 사용자의 손동작에 맞추어 상기 제1 텍스트를 상기 시점에 대응되는 위치에 표시하고,
    상기 디스플레이부는 상기 제2 텍스트를 상기 제1 텍스트가 디스플레이된 위치와 인접한 위치에 상기 제1 텍스트와 구별되도록 표시하고,
    상기 정보 처리부는 상기 사용자의 손동작이 미리 정해진 제3 동작인 경우,
    상기 주변 관찰 카메라로부터 취득된 영상으로부터 상기 시점 내의 상기 사용자의 손이 가리키는 사물을 인식하고,
    상기 제1 텍스트 또는 상기 제2 텍스트 중에서 선택된 텍스트를 상기 사물의 인식된 정보와 연관시키는 사용자가 의도한 텍스트를 취득하는 웨어러블 컴퓨터.
  2. 삭제
  3. 청구항 1에 있어서,
    상기 정보 처리부는 상기 제1 텍스트와, 상기 제2 텍스트가 일치하는 경우 상기 제1 텍스트 또는 상기 제2 텍스트를 상기 사용자가 의도한 텍스트로 취득하는, 사용자가 의도한 텍스트를 취득하는 웨어러블 컴퓨터.
  4. 청구항 1에 있어서,
    상기 정보 처리부는 상기 주변 관찰 카메라로부터 취득된 영상으로부터 상기 시점 내에서 상기 사용자의 손이 가리키는 대상을 인식하고,
    상기 제1 텍스트 또는 상기 제2 텍스트 중에서 선택된 텍스트를 상기 대상의 인식된 정보를 연관시키는, 사용자가 의도한 텍스트를 취득하는 웨어러블 컴퓨터.
  5. 청구항 1에 있어서,
    상기 사용자에게 적어도 상기 제1 텍스트 또는 상기 제2 텍스트 중에서 선택된 텍스트를 표시하는 디스플레이부를 더 포함하는, 사용자가 의도한 텍스트를 취득하는 웨어러블 컴퓨터.
  6. 삭제
  7. 삭제
  8. 청구항 1에 있어서,
    상기 정보 처리부는 상기 사용자의 손동작이 미리 정해진 제1 동작인 경우 상기 제1 텍스트를 취득하고, 상기 손동작이 미리 정해진 제2 동작인 경우 상기 제2 텍스트를 취득하는, 사용자가 의도한 텍스트를 취득하는 웨어러블 컴퓨터.
  9. 삭제
  10. 청구항 1에 있어서,
    상기 정보 처리부는 상기 사용자의 음성이 미리 정해진 제1 음성인 경우 상기 제1 텍스트를 취득하고, 상기 음성이 미리 정해진 제2 음성인 경우 상기 제2 텍스트를 취득하는, 사용자가 의도한 텍스트를 취득하는 웨어러블 컴퓨터.
  11. 사용자의 동공정보를 취득하는 동공 관찰 카메라;
    상기 사용자의 손동작 영상을 취득하는 주변 관찰 카메라;
    상기 사용자의 음성을 취득하는 마이크; 및
    상기 주변 관찰 카메라로 부터 취득된 상기 사용자의 손동작 영상으로부터 제1 텍스트를 인식하고, 상기 사용자의 음성으로부터 제2 텍스트를 인식하고, 상기 제1 텍스트와 상기 제2 텍스트를 기초로 하여 상기 사용자가 의도한 텍스트를 취득하는 정보 처리부를 포함하되,
    상기 동공 관찰 카메라는 상기 동공 정보로부터 상기 사용자가 바라보는 시점을 인식하고,
    상기 주변 관찰 카메라는 상기 사용자의 손이 상기 시점 내에 위치할 때 상기 손동작 영상을 취득하고,
    상기 마이크는 상기 사용자의 손이 상기 시점 내에 위치할 때 상기 음성을 취득하고,
    디스플레이부는 상기 사용자의 손동작에 맞추어 상기 제1 텍스트를 상기 시점에 대응되는 위치에 표시하고,
    상기 디스플레이부는 상기 제2 텍스트를 상기 제1 텍스트가 디스플레이된 위치와 인접한 위치에 상기 제1 텍스트와 구별되도록 표시하고,
    상기 정보 처리부는 상기 사용자의 음성이 미리 정해진 제3 음성인 경우,
    상기 주변 관찰 카메라로부터 취득된 영상으로부터 상기 시점 내의 상기 사용자의 손이 가리키는 사물을 인식하고,
    상기 제1 텍스트 또는 상기 제2 텍스트 중에서 선택된 텍스트를 상기 사물의 인식된 정보와 연관시키는, 사용자가 의도한 텍스트를 취득하는 웨어러블 컴퓨터.
  12. 삭제
  13. 삭제
  14. 삭제
  15. 삭제
  16. 삭제
  17. 삭제
KR20130119085A 2013-10-07 2013-10-07 사용자의 손동작 및 음성에 기초하여 사용자가 의도한 텍스트를 취득하는 웨어러블 컴퓨터 및 사용자가 의도한 텍스트를 취득하는 방법 KR101499044B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR20130119085A KR101499044B1 (ko) 2013-10-07 2013-10-07 사용자의 손동작 및 음성에 기초하여 사용자가 의도한 텍스트를 취득하는 웨어러블 컴퓨터 및 사용자가 의도한 텍스트를 취득하는 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR20130119085A KR101499044B1 (ko) 2013-10-07 2013-10-07 사용자의 손동작 및 음성에 기초하여 사용자가 의도한 텍스트를 취득하는 웨어러블 컴퓨터 및 사용자가 의도한 텍스트를 취득하는 방법

Publications (1)

Publication Number Publication Date
KR101499044B1 true KR101499044B1 (ko) 2015-03-11

Family

ID=53026382

Family Applications (1)

Application Number Title Priority Date Filing Date
KR20130119085A KR101499044B1 (ko) 2013-10-07 2013-10-07 사용자의 손동작 및 음성에 기초하여 사용자가 의도한 텍스트를 취득하는 웨어러블 컴퓨터 및 사용자가 의도한 텍스트를 취득하는 방법

Country Status (1)

Country Link
KR (1) KR101499044B1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002259046A (ja) * 2001-02-28 2002-09-13 Tomoya Sonoda 空中で手描きした文字・記号入力システム
KR20030022538A (ko) * 2001-09-11 2003-03-17 김태용 시점 추적 좌표 입력 시스템을 이용한 데이터 입력 방법
WO2013093906A1 (en) * 2011-09-19 2013-06-27 Eyesight Mobile Technologies Ltd. Touch free interface for augmented reality systems

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002259046A (ja) * 2001-02-28 2002-09-13 Tomoya Sonoda 空中で手描きした文字・記号入力システム
KR20030022538A (ko) * 2001-09-11 2003-03-17 김태용 시점 추적 좌표 입력 시스템을 이용한 데이터 입력 방법
WO2013093906A1 (en) * 2011-09-19 2013-06-27 Eyesight Mobile Technologies Ltd. Touch free interface for augmented reality systems

Similar Documents

Publication Publication Date Title
US10082940B2 (en) Text functions in augmented reality
US11093769B2 (en) Stroke extraction in free space
CN105824431B (zh) 信息输入装置与方法
Mulfari et al. Using Google Cloud Vision in assistive technology scenarios
KR101551424B1 (ko) 수화 인식 장치
US20160291699A1 (en) Touch fee interface for augmented reality systems
US20160179210A1 (en) Input supporting method and input supporting device
US10254847B2 (en) Device interaction with spatially aware gestures
US11663784B2 (en) Content creation in augmented reality environment
CN108027654B (zh) 输入设备、输入方法和程序
US20190026589A1 (en) Information processing device, information processing method, and program
JPWO2014016987A1 (ja) 3次元ユーザインタフェース装置及び3次元操作方法
KR101455200B1 (ko) 학습 모니터링 장치 및 학습 모니터링 방법
CN108027656B (zh) 输入设备、输入方法和程序
US20150241984A1 (en) Methods and Devices for Natural Human Interfaces and for Man Machine and Machine to Machine Activities
US11397320B2 (en) Information processing apparatus, information processing system, and non-transitory computer readable medium
JP2016192122A (ja) 情報処理装置、情報処理方法、およびプログラム
JP2012226529A (ja) 画像処理装置、画像処理方法及びプログラム
JP6225612B2 (ja) プログラム、情報処理装置、および方法
KR101793607B1 (ko) 수화교육 시스템, 방법 및 프로그램
KR102330218B1 (ko) 발달장애인의 언어 훈련을 위한 가상현실 교육 시스템 및 방법
KR101499044B1 (ko) 사용자의 손동작 및 음성에 기초하여 사용자가 의도한 텍스트를 취득하는 웨어러블 컴퓨터 및 사용자가 의도한 텍스트를 취득하는 방법
JP2011243141A (ja) 操作情報処理装置、方法及びプログラム
US20180292980A1 (en) System, information processing method, and storage medium
KR20190108909A (ko) 사용자 시선 움직임을 이용한 시력 측정 방법 및 시스템

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee