KR101474854B1

KR101474854B1 - 음성인식을 통해 컨트롤 객체를 선택하기 위한 장치 및 방법

Info

Publication number: KR101474854B1
Application number: KR20130109992A
Authority: KR
Inventors: 신종원; 김세미; 정강래; 도정인; 윤재선; 김경선
Original assignee: 주식회사 디오텍
Priority date: 2013-09-12
Filing date: 2013-09-12
Publication date: 2014-12-19
Also published as: US20150073801A1; EP2849054A1; TW201510774A; CN104464720A

Abstract

본 발명은 음성인식을 통해 컨트롤 객체를 선택하기 위한 장치 및 방법에 관한 것으로서, 본 발명에 따른 컨트롤 객체 선택장치는 음성인식을 통해 컨트롤 객체를 선택하기 위한 장치로서, 하나 이상의 처리 디바이스를 포함하고, 하나 이상의 처리 디바이스는, 사용자의 음성에 기초하여 입력정보를 획득하고, 컨트롤 객체에 기초하여 획득된 적어도 하나의 제 1 식별정보 및 제 1 식별정보에 대응하는 제 2 식별정보를 입력정보와 매칭하고, 제 1 식별정보 및 제 2 식별정보 내에서 입력정보와 매칭되는 매칭 식별정보를 획득하고, 매칭 식별정보에 대응하는 컨트롤 객체를 선택하도록 구성된 것을 특징으로 하고, 사용자가 제어 명령어가 사전에 내장되어 있지 않은 어플리케이션을 사용하는 경우에도, 음성인식을 통해 전자장치를 제어할 수 있어, 해당 전자장치에 대한 사용자의 접근성을 향상시킬 수 있는 효과가 있다.

Description

음성인식을 통해 컨트롤 객체를 선택하기 위한 장치 및 방법{APPARATUS AND METHOD FOR SELECTING A CONTROL OBJECT BY VOICE RECOGNITION}

본 발명은 음성인식을 통해 컨트롤 객체를 선택하기 위한 장치 및 방법에 관한 것으로서, 보다 상세하게는, 컨트롤 객체의 디스플레이 정보에 기초한 제 1 식별정보를 이용하여 컨트롤 객체를 선택하기 위한 장치 및 방법에 관한 것이다.

컴퓨터, 노트북, 스마트폰 (smartphone), 태블릿PC (tablet PC), 네비게이션 (navigation) 등과 같은 전자장치의 사용자가 증가함에 따라, 이러한 전자장치와 사용자가 쉽게 상호작용할 수 있게 하는 사용자 인터페이스 (user interface) 에 대한 중요성이 높아지고 있다.

일반적인 사용자 인터페이스는, 키보드, 마우스, 터치 스크린 등의 입력장치를 통해 물리적 입력에 의하는 경우가 많다. 그러나, 디스플레이 된 화면을 볼 수 없는 시각 장애인이나, 키보드, 마우스, 터치 스크린 등과 같은 입력장치의 조작이 불편한 사람들 입장에서는, 전술한 사용자 인터페이스만을 통해 해당 전자장치를 조작하기가 용이하지 않다.

또한, 장애가 없는 사람들 입장에서도, 운전을 하거나, 양손에 짐을 들고 있는 경우와 같이 전자장치를 자유롭게 다루기 어려운 상황에서는, 전술한 사용자 인터페이스만으로 해당 전자장치를 조작하는 것은 용이하지 않다.

따라서, 전자장치에의 접근성 (accessibility) 을 향상시킬 수 있는 사용자 인터페이스의 개발이 요구되고 있는 실정이다. 전자장치에의 접근성을 향상시킬 수 있는 사용자 인터페이스 중 하나로, 사용자의 음성을 분석하여 전자장치를 제어하는 기술인 음성인식 기술을 예로 들 수 있다.

전자장치가 음성인식 기술을 이용하여 사용자의 음성을 통해 제어되기 위해서는, 사용자의 음성과 매칭될 수 있는 제어 명령어가 해당 전자장치에 미리 내장되어 있어야 한다.

사용자의 음성과 매칭될 수 있는 제어 명령어가 플랫폼 단에 내장된 경우, 음성인식을 통해 해당 전자장치의 기본 설정, 예컨대, 전자장치의 볼륨이나 밝기와 같은 전자장치의 기본적인 제어 등이 가능하다.

반면, 음성인식을 통해 개별적인 어플리케이션을 제어하기 위해서는, 어플리케이션 각각에, 사용자의 음성과 매칭될 수 있는 제어 명령어가 내장되어 있어야 한다.

따라서, 음성인식을 지원하지 않는 어플리케이션에서 음성인식을 가능하게 하거나, 음성인식으로 가능한 기능을 더 추가하기 위해서는, 해당 어플리케이션에 사용자의 음성과 매칭될 수 있는 제어 명령어가 내장될 수 있도록, 해당 어플리케이션을 다시 개발하거나, 업데이트 (update) 해야 한다.

그러나, 전자장치와 각 전자장치에 탑재되는 어플리케이션은 날이 갈수록 다양해져, 모든 어플리케이션에 사용자의 음성과 매칭될 수 있는 제어 명령어를 내장시키는 것도 용이하지 않아, 다양한 어플리케이션에서 연동가능한 범용적인 음성인식 시스템을 구현하기 어려운 문제점이 있다.

전술한 이유로, 음성인식이 지원되는 어플리케이션은 그 수가 많지 않고, 음성인식이 지원되더라도, 음성인식을 통해 수행할 수 있는 동작 또한 한정적이어서, 실질적으로 전자장치에의 접근성을 향상시키는데 한계가 있다.

따라서, 음성인식을 통해 전자장치에의 접근성을 향상시킬 수 있는 기술에 대한 개발이 요구되었다.

본 발명이 해결하고자 하는 과제는 사용자가 제어 명령어가 사전에 내장되어 있지 않은 어플리케이션을 사용하는 경우에도, 음성인식을 통해 전자장치를 제어할 수 있게 하는 장치 및 방법을 제공하는 것이다.

본 발명이 해결하고자 하는 다른 과제는 사용자의 사용 언어를 불문하고, 음성인식을 통해 다양한 언어로 구성된 컨트롤 객체를 선택할 수 있는 장치 및 방법을 제공하는 것이다.

본 발명의 과제들은 이상에서 언급한 과제들로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

전술한 바와 같은 과제를 해결하기 위하여 본 발명의 일 실시예에 따른 컨트롤 객체 선택장치는 음성인식을 통해 컨트롤 객체를 선택하기 위한 장치로서, 하나 이상의 처리 디바이스를 포함하고, 하나 이상의 처리 디바이스는, 사용자의 음성에 기초하여 입력정보를 획득하고, 컨트롤 객체에 기초하여 획득된 적어도 하나의 제 1 식별정보 및 제 1 식별정보에 대응하는 제 2 식별정보를 입력정보와 매칭하고, 제 1 식별정보 및 제 2 식별정보 내에서 입력정보와 매칭되는 매칭 식별정보를 획득하고, 매칭 식별정보에 대응하는 컨트롤 객체를 선택하도록 구성된 것을 특징으로 한다.

본 발명의 다른 특징에 따르면, 제 2 식별정보는 제 1 식별정보의 유의어인 유의 식별정보를 포함하는 것을 특징으로 한다.

본 발명의 또 다른 특징에 따르면, 제 2 식별정보는, 제 1 식별정보가 기준 언어로 번역된 번역 식별정보 및 제 1 식별정보가 기준 언어로 표음된 표음 식별정보 중 적어도 하나를 포함하는 것을 특징으로 한다.

본 발명의 또 다른 특징에 따르면, 제 2 식별정보는 제 1 식별정보의 발음열인 발음열 식별정보를 포함하는 것을 특징으로 한다.

본 발명의 또 다른 특징에 따르면, 하나 이상의 처리 디바이스는, 제 2 식별정보를 디스플레이 하는 것을 특징으로 한다.

본 발명의 또 다른 특징에 따르면, 제 1 식별정보는 컨트롤 객체에 대한 디스플레이 정보에 기초하여 획득되는 것을 특징으로 한다.

본 발명의 또 다른 특징에 따르면, 제 1 식별정보는 어플리케이션 화면 정보에 기초하여 획득되는 것을 특징으로 한다.

본 발명의 또 다른 특징에 따르면, 제 1 식별정보는 광학문자인식 (OCR; optical character recognition) 을 통해 획득되는 것을 특징으로 한다.

본 발명의 또 다른 특징에 따르면, 제 1 식별정보는 컨트롤 객체에 기초하여 획득된 심볼 (symbol) 에 대응하는 것을 특징으로 한다.

본 발명의 또 다른 특징에 따르면, 입력정보는 사용자의 음성의 특징이 분석되어 획득된 음성패턴 정보를 포함하고, 식별정보와 입력정보의 매칭은 식별정보와 음성패턴 정보의 매칭을 포함하는 것을 특징으로 한다.

본 발명의 또 다른 특징에 따르면, 입력정보는 음성인식을 통해 사용자의 음성으로부터 인식된 텍스트 정보를 포함하고, 식별정보와 입력정보의 매칭은 식별정보와 텍스트 정보의 매칭을 포함하는 것을 특징으로 한다.

전술한 바와 같은 과제를 해결하기 위하여 본 발명의 일 실시예에 따른 컨트롤 객체 선택방법은 음성인식을 통해 컨트롤 객체를 선택하기 위한 방법으로서, 사용자의 음성에 기초하여 입력정보를 획득하는 단계, 컨트롤 객체에 기초하여 획득된 적어도 하나의 제 1 식별정보 및 제 1 식별정보에 대응하는 제 2 식별정보를 입력정보와 매칭하는 단계, 제 1 식별정보 및 제 2 식별정보 내에서 입력정보와 매칭되는 매칭 식별정보를 획득하는 단계 및 매칭 식별정보에 대응하는 컨트롤 객체를 선택하는 단계를 포함하는 것을 특징으로 한다.

본 발명의 또 다른 특징에 따르면, 제 2 식별정보를 디스플레이 하는 단계를 더 포함하는 것을 특징으로 한다.

전술한 바와 같은 과제를 해결하기 위하여 본 발명의 일 실시예에 따른 컴퓨터 판독가능매체는 명령어 세트들을 저장하는 컴퓨터 판독가능매체로서, 명령어 세트들은, 컴퓨팅 장치에 의해 실행되는 경우에 컴퓨팅 장치로 하여금, 사용자의 음성에 기초하여 입력정보를 획득하고, 컨트롤 객체에 기초하여 획득된 적어도 하나의 제 1 식별정보 및 제 1 식별정보에 대응하는 제 2 식별정보를 입력정보와 매칭하고, 제 1 식별정보 및 제 2 식별정보 내에서 입력정보와 매칭되는 매칭 식별정보를 획득하고, 매칭 식별정보에 대응하는 컨트롤 객체를 선택하게 하는 것을 특징으로 한다.

기타 실시예의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.

본 발명은 제어 명령어가 사전에 내장되어 있지 않은 어플리케이션의 경우에도, 음성인식을 통해 전자장치가 제어될 수 있어, 해당 전자장치에 대한 사용자의 접근성 (accessibility) 을 향상시킬 수 있다.

본 발명은 사용자의 사용 언어를 불문하고, 음성인식을 통해 다양한 언어로 구성된 컨트롤 객체가 선택될 수 있어, 사용자 편의성을 증대시킬 수 있다.

본 발명에 따른 효과는 이상에서 예시된 내용에 의해 제한되지 않으며, 더욱 다양한 효과들이 본 명세서 내에 포함되어 있다.

도 1은 본 발명의 일 실시예에 따른 컨트롤 객체 선택장치의 블록도이다.
도 2는 본 발명의 일 실시예에 따른 컨트롤 객체 선택방법의 흐름도이다.
도 3은 본 발명의 일 실시예에 따른 컨트롤 객체 선택장치에서 획득되는 제 1 식별정보와 제 1 식별정보와 대응하는 제 2 식별정보 (유의 식별정보) 를 도시한 것이다.
도 4는 도 3에서 획득된 제 1 식별정보와 제 1 식별정보와 대응하는 제 2 식별정보 (번역 식별정보) 를 도시한 것이다.
도 5는 도 3에서 획득된 제 1 식별정보와 제 1 식별정보와 대응하는 제 2 식별정보 (발음열 식별정보) 를 도시한 것이다.
도 6은 본 발명의 일 실시예에 따른 컨트롤 객체 선택장치에서 획득되는 제 1 식별정보와 제 1 식별정보와 대응하는 제 2 식별정보를 도시한 것이다.
도 7은 본 발명의 일 실시예에 따른 컨트롤 객체 선택장치에서 획득되는 제 1 식별정보와 제 1 식별정보와 대응하는 제 2 식별정보를 도시한 것이다.
도 8은 본 발명의 일 실시예에 따른 컨트롤 객체 선택장치에서 제 2 식별정보가 디스플레이 된 화면을 도시한 것이다.
도 9는 본 발명의 일 실시예에 따른 심볼 (symbol) 에 대응하는 제 1 식별정보와 제 1 식별정보와 대응하는 제 2 식별정보를 도시한 것이다.
도 10은 심볼과 심볼에 대응하는 제 1 식별정보의 예시도이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

비록 제 1, 제 2 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서 이하에서 언급되는 제 1 구성요소는 본 발명의 기술적 사상 내에서 제 2 구성요소일 수도 있음은 물론이다.

명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.

본 발명의 여러 실시예들의 각각 특징들이 부분적으로 또는 전체적으로 서로 결합 또는 조합 가능하며, 당업자가 충분히 이해할 수 있듯이 기술적으로 다양한 연동 및 구동이 가능하며, 각 실시예들이 서로에 대하여 독립적으로 실시 가능할 수도 있고 연관 관계로 함께 실시 가능할 수도 있다.

본 명세서에 있어서는 어느 하나의 구성요소가 다른 구성요소로 데이터 또는 신호를 '전송'하는 경우에는 구성요소는 다른 구성요소로 직접 상기 데이터 또는 신호를 전송할 수 있고, 적어도 하나의 또 다른 구성요소를 통하여 데이터 또는 신호를 다른 구성요소로 전송할 수 있음을 의미한다.

음성인식이란, 기본적으로 사용자가 발성한 음성을 전자장치가 해석해 그 내용을 텍스트로 인식하는 작업을 의미한다. 구체적으로, 사용자가 발성한 음성의 파형이 전자장치에 입력되면, 음향 모델 등을 참조하여 음성파형을 분석함으로써, 음성패턴 정보가 획득될 수 있다. 그리고, 획득된 음성패턴 정보가 제 1 식별정보 및 제 2 식별정보와 비교됨으로써, 제 1 식별정보 및 제 2 식별정보 내에서 일치 확률이 가장 높은 텍스트가 인식될 수 있다.

본 명세서에서 컨트롤 객체란, 컨트롤 객체 선택장치의 화면상에 디스플레이 되어 사용자의 입력을 받을 수 있는 버튼 등의 인터페이스를 의미하며, 디스플레이 된 컨트롤 객체에 사용자의 입력이 인가되면, 컨트롤 객체 선택장치가 미리 결정된 제어 동작을 수행하도록 구현될 수 있다.

버튼, 체크 박스, 텍스트 입력란 등과 같이 사용자가 클릭, 탭 등을 하여 선택할 수 있는 인터페이스가 컨트롤 객체일 수 있으나, 이에 한정되지 않고, 사용자가 마우스나 터치 스크린 등의 입력장치를 통해 선택 가능한 모든 인터페이스가 컨트롤 객체일 수 있다.

본 명세서에서 입력정보란, 사용자의 음성에 기초하여, 전술한 음성인식 과정의 일부 또는 전부를 거쳐 획득되는 정보를 통칭한다. 예컨대, 입력정보는 사용자의 음성파형의 특징이 분석되어 획득된 음성패턴 정보일 수 있다. 이러한 음성패턴 정보는 음향적 (acoustic) 특징이 표현되도록 단구간 (short-time) 별로 사용자의 음성으로부터 추출된 음성특징계수들로 구성될 수 있다.

본 명세서에서 제 1 식별정보란, 컨트롤 객체 선택장치를 통해 컨트롤 객체에 기초하여 자동으로 획득되는 텍스트를 의미하고, 제 1 제 2 식별정보란, 제 1 식별정보에 대응하여 획득되는 텍스트를 의미한다.

제 2 식별정보는 제 1 식별정보의 유의어인 ‘유의 식별정보’, 제 1 식별정보가 기준 언어로 번역된 ‘번역 식별정보’, 제 1 식별정보가 기준 언어로 표음된 ‘표음 식별정보’, 제 1 식별정보의 발음열인 ‘발음열 식별정보’ 등을 포함할 수 있다.

한편, 제 1 식별정보는 컨트롤 객체에 대한 디스플레이 정보, 어플리케이션 화면 정보, 컨트롤 객체에 대한 텍스트 (text) 정보 또는 컨트롤 객체에 대한 설명 (description) 정보 등에 기초하여 획득될 수 있으며, 이와 관련하여서는 도 3에서 후술한다.

본 명세서에서 컨트롤 객체에 대한 디스플레이 정보란, 특정 컨트롤 객체가 디스플레이 되는데 이용되는 정보를 통칭한다. 예컨대, 객체의 이미지나 아이콘, 컨트롤 객체의 크기나 위치 등에 대한 정보가 디스플레이 정보일 수 있다. 디스플레이 정보를 구성하는 각 항목에 대한 값 (value) 이나 해당 값에 이르는 경로 (path) 에 기초하여, 컨트롤 객체가 컨트롤 객체 선택장치의 화면에 디스플레이 된다.

본 명세서에서 어플리케이션 화면 정보란, 컨트롤 객체 선택장치에 실행되어 있는 어플리케이션에서 특정 화면이 디스플레이 되는데 이용되는 정보를 의미한다.

본 명세서에서 컨트롤 객체에 대한 텍스트 정보란, 컨트롤 객체를 지칭하는 문자열을 의미하며, 해당 문자열은 컨트롤 객체와 함께 디스플레이 될 수도 있다.

본 명세서에서 컨트롤 객체에 대한 설명 정보란, 개발자가 컨트롤 객체에 대해 설명하기 위해 기입한 정보를 의미한다.

한편, 제 1 식별정보는, 컨트롤 객체에 기초하여 획득된 심볼 (symbol) 에 대응할 수 있고, 이때 심볼과 제 1 식별정보는 일대일, 일대다, 다대일 또는 다대다로 대응할 수 있다. 심볼에 대응하는 제 1 식별정보와 관련하여서는 도 9 및 도 10에서 후술한다.

본 명세서에서 심볼이란, 텍스트를 포함하진 않으나, 특정 의미로 해석될 수 있는 도형, 기호 또는 이미지를 의미한다. 심볼로 표시되는 컨트롤 객체의 경우, 해당 컨트롤 객체의 심볼은 일반적으로 해당 컨트롤 객체가 어플리케이션에서 어떠한 기능이 수행하는지 암시할 수 있다. 예컨대, ‘▶’ 심볼은 일반적으로 소리나 영상 등의 재생을 의미하고, ‘+’심볼이나 ‘-‘심볼은 항목 등의 추가나 제거를 의미할 수 있다.

이러한 심볼은, 전술한 컨트롤 객체에 대한 디스플레이 정보 또는 어플리케이션 화면 정보 등에 기초하여 획득될 수 있다.

이하, 첨부된 도면을 참조하여 본 발명의 다양한 실시예들을 상세히 설명한다.

도 1은 본 발명의 일 실시예에 따른 컨트롤 객체 선택장치의 블록도이다.

도 1을 참조하면, 본 발명의 일 실시예에 따른 컨트롤 객체 선택장치 (100) 는 프로세서 (120), 메모리 컨트롤러 (122), 메모리 (124) 를 포함하고, 인터페이스 (110), 마이크로폰 (140), 스피커 (152), 디스플레이부 (130) 를 더 포함할 수 있다.

본 발명의 일 실시예에 따른 컨트롤 객체 선택장치 (100) 는 음성인식을 통해 컨트롤 객체를 선택할 수 있는 컴퓨팅 장치로서, 하나 이상의 처리 디바이스를 포함하고, 오디오 입력 기능을 구비한 컴퓨터, 노트북, 스마트폰, 태블릿 PC (tablet PC), 네비게이션 (navigation), PDA (personal digital assistant), PMP (portable media player), MP3 플레이어, 전자사전 등의 단말이거나, 이러한 단말들과 연결될 수 있는 서버나 다수의 컴퓨터로 구성된 분산 컴퓨팅 시스템일 수 있다. 여기서, 하나 이상의 처리 디바이스는 적어도 하나 이상의 프로세서 (120) 와 메모리 (124) 를 포함할 수 있고, 복수의 프로세서 (120) 는 서로 메모리 (124) 를 공유하도록 구현될 수도 있다.

처리 디바이스는 사용자의 음성에 기초하여 입력정보를 획득하고, 컨트롤 객체에 기초하여 획득된 적어도 하나의 제 1 식별정보 및 제 1 식별정보에 대응하는 제 2 식별정보를 입력정보와 매칭하고, 제 1 식별정보 및 제 2 식별정보 내에서 입력정보와 매칭되는 매칭 식별정보를 획득하고, 매칭 식별정보에 대응하는 컨트롤 객체를 선택하도록 구성된다.

기본적으로, 사용자의 음성이 분석되어 획득된 음성패턴 정보가 텍스트인 제 1 식별정보와 매칭되면, 제 1 식별정보 내에서 일치 확률이 가장 높은 ‘매칭 식별정보’가 인식될 수 있다.

제 1 식별정보 내에서 사용자의 음성과 일치 확률이 가장 높은 ‘매칭 식별정보’가 인식되면, 인식된 ‘매칭 식별정보’에 대응하는 컨트롤 객체가 선택된다. 따라서, 사용자의 음성과 매칭되는 제어 명령어가 내장되어 있지 않더라도, 컨트롤 객체 선택장치에 의해 컨트롤 객체가 선택될 수 있다.

그러나, 컨트롤 객체 선택장치 (100) 가 컨트롤 객체를 선택하기 위해, 제 1 식별정보만을 이용하는 경우, 사용자의 언어 습관이나 환경 등 다양한 요소들의 영향으로 인해, 사용자가 의도한 컨트롤 객체가 선택되지 않을 수 있다.

따라서, 사용자의 언어 습관이나 환경 등 다양한 요소들이 고려될 수 있도록, 컨트롤 객체 선택장치 (100) 는 제 1 식별정보뿐만 아니라, 제 1 식별정보에 대응하는 제 2 식별정보도 함께 이용하도록 구현된다.

그러므로, 사용자의 음성이 분석되어 획득된 음성패턴 정보가 텍스트인 제 1 식별정보 및 제 2 식별정보와 매칭됨으로써, 제 1 식별정보 및 제 2 식별정보 내에서 일치 확률이 가장 높은 식별정보가 인식되고, 인식된 식별정보에 대응하는 컨트롤 객체가 선택될 수 있다.

한편, 제 2 식별정보의 획득 시기나, 그 저장 여부 등은 다양한 방식으로 구현될 수 있다. 예컨대, 제 1 식별정보가 컨트롤 객체에 기초하여 획득되면, 획득된 제 1 식별정보에 대응하는 제 2 식별정보도 바로 이어서 획득되어 저장되고, 이후, 저장된 제 2 식별정보 및 제 1 식별정보가 함께 이용되는 방식으로 컨트롤 객체 선택장치 (100) 가 구현될 수 있다.

그러나, 일단 제 1 식별정보만이 획득되어, 컨트롤 객체 선택장치 (100) 가 입력정보와 제 1 식별정보를 매칭한 결과, 입력정보와 매칭되는 매칭 식별정보가 없는 경우에만 제 1 식별정보에 대응하는 제 2 식별정보를 획득하는 방식, 즉, 그때그때 필요에 따라 제 1 식별정보에 대응하는 제 2 식별정보를 획득하여 이용하는 방식으로 컨트롤 객체 선택장치 (100) 가 구현될 수도 있다.

메모리 (124) 는 프로그램이나 명령어 세트 등을 저장하며, 메모리 (124) 는 램 (RAM; random access memory), 롬 (ROM; read-only memory), 자기 디스크 (magnetic disk) 장치, 광 디스크 (optical disk) 장치, 플래시 메모리 등을 포함할 수 있다. 여기서, 메모리 (124) 는 음성패턴 정보와 그에 대응하는 텍스트를 제공하는 언어 모델 DB를 저장하거나, 제 1 식별정보에 대응하는 제 2 식별정보를 제공하는 DB를 저장할 수 있다. 한편, 이러한 DB (들) 은 컨트롤 객체 선택장치 (100) 와 네트워크를 통해 연결되는 외부에 존재할 수도 있다.

메모리 컨트롤러 (122) 는 프로세서 (120) 나 인터페이스 (110) 등의 기타 유닛이 메모리 (124) 로 액세스 하는 것을 제어한다.

프로세서 (120) 는 메모리 (124) 에 저장된 프로그램이나 명령어 세트를 실행하는 등의 연산을 수행한다.

인터페이스 (110) 는 컨트롤 객체 선택장치 (100) 의 마이크로폰 (140) 이나 스피커 (152) 와 같은 입출력 장치 (100) 를 프로세서 (120) 및 메모리 (124) 에 연결시킨다.

마이크로폰 (140) 은 음성신호를 수신하고, 수신한 음성신호를 전기신호로 변환하여 인터페이스 (110) 에 제공하며, 스피커 (152) 는 인터페이스 (110) 로부터 제공받은 전기신호를 음성신호로 변환하여 출력한다.

디스플레이부 (130) 는 사용자에게 시각적인 그래픽적 정보를 디스플레이 하며, 디스플레이부 (130) 는 터치 입력을 검출하는 터치 스크린 디스플레이를 포함할 수 있다.

본 발명의 일 실시예에 따른 컨트롤 객체 선택장치 (100) 는, 메모리 (124) 에 저장되고, 프로세서 (120) 에 의해 실행되는 프로그램 (이하, ‘컨트롤 객체 선택엔진’) 을 이용하여, 음성인식을 통해 컨트롤 객체를 선택한다.

컨트롤 객체 선택엔진은 컨트롤 객체 선택장치 (100) 의 백그라운드 (background) 또는 플랫폼상에서 실행되어, 어플리케이션으로부터 컨트롤 객체에 대한 정보를 획득하고, 컨트롤 객체에 대한 정보에 기초하여 획득된 제 1 식별정보 및 제 1 식별정보에 대응하는 제 2 식별정보를 이용하여, 컨트롤 객체 선택장치 (100) 로 하여금 음성인식을 통해 컨트롤 객체를 선택하게 한다.

도 2는 본 발명의 일 실시예에 따른 컨트롤 객체 선택방법의 흐름도이다. 설명의 편의를 위해 도 3을 참조하여 설명한다.

도 3은 본 발명의 일 실시예에 따른 컨트롤 객체 선택장치에서 획득되는 제 1 식별정보와 제 1 식별정보와 대응하는 제 2 식별정보를 도시한 것이다.

컨트롤 객체 선택장치는 사용자의 음성에 기초하여 입력정보를 획득한다 (S100).

여기서 입력정보는 사용자의 음성의 특징이 분석되어 획득된 음성패턴 정보인 것으로 설명하나, 이에 한정되는 것은 아니고, 사용자의 음성에 기초하여, 음성인식 과정의 일부 또는 전부를 거쳐 획득될 수 있는 모든 정보가 입력정보일 수 있다.

입력정보가 획득되면, 컨트롤 객체 선택장치는 컨트롤 객체에 기초하여 획득된 적어도 하나의 제 1 식별정보 및 제 1 식별정보에 대응하는 제 2 식별정보를 입력정보와 매칭한다 (S110).

도 3을 참조하면, 컨트롤 객체 선택장치 (100) 상에 지하철 어플리케이션 (150) 이 실행되어 있는 경우, ‘노선 버튼’ (152), ‘시간표 버튼’ (154), ‘경로검색 버튼’ (156), ‘Update 버튼’ (158) 이 컨트롤 객체에 해당한다.

본 발명의 일 실시예에 따르면, 컨트롤 객체에 대한 디스플레이 정보에 기초하여 제 1 식별정보가 획득되도록 구현될 수 있다.

도 3를 참조하면, 컨트롤 객체에 대한 정보 (200) 중 디스플레이 정보 (252, 254, 256, 258) 는 컨트롤 객체의 크기와 위치를 결정하는 항목 (252A, 254A, 256A, 258A) 인 ‘width’ 항목, ‘height’ 항목, ‘left’ 항목 및 ‘top’ 항목, 컨트롤 객체의 이미지에 대한 링크 (link) 를 제공하는 ‘img’ 항목 (252B, 254B, 256B, 258B) 등에 대한 값을 포함할 수 있다.

전술한 항목들 (252A, 254A, 256A, 258A, 252B, 254B, 256B, 258B) 은 설명의 편의상 임의로 정의된 것일 뿐, 컨트롤 객체에 대한 디스플레이 정보 (252, 254, 256, 258) 를 구성하는 항목의 종류, 수, 항목의 이름 등은 다양하게 변형되어 구현될 수 있다.

도 3를 참조하면, 컨트롤 객체 (152, 154, 156, 158) 의 이미지에 대한 링크를 제공하는 ‘img’ 항목 (252B, 254B, 256B, 258B) 에 대한 값은 해당 컨트롤 객체 (152, 154, 156, 158) 의 이미지 파일 경로 (‘x.jpg’, ‘y.jpg’, ‘z.jpg’, ‘u.jpg’) 또는 이미지 그 자체를 나타내기 위한 문자열로 주어질 수 있다.

컨트롤 객체의 크기와 위치를 결정하는 항목 (252A, 254A, 256A, 258A) 중 ‘width’ 항목 및 ‘height’ 항목에 대한 값에 의해 해당 컨트롤 객체 (152, 154, 156, 158) 에 대한 이미지의 너비와 높이가 결정되고, ‘left’ 항목 및 ‘top’ 항목에 대한 값에 의해 컨트롤 객체 (152, 154, 156, 158) 의 디스플레이 위치가 결정됨으로써, 해당 컨트롤 객체 (152, 154, 156, 158) 가 디스플레이 되는 영역이 결정될 수 있다.

도 3를 참조하면, ‘노선 버튼’ (152) 은, ‘img’ 항목 (252B) 의 ‘x.jpg’에 의해 이미지로 디스플레이 될 수 있다. 여기서, ‘x.jpg’는 일 예시에 불과하며, 컨트롤 객체는 다양한 타입의 파일에 의해 이미지로 디스플레이 될 수 있다.

도 3에 도시된 바와 같이, 해당 이미지 (‘x.jpg’) 가 ‘노선’으로 식별될 수 있는 텍스트를 포함한 경우, 해당 이미지 (‘x.jpg’) 에 대해 광학문자인식 (OCR; optical character recognition) 이 수행되면, 해당 이미지 (‘x.jpg’) 에 포함된 텍스트인 ‘노선’이 인식된다.

전술한 바와 같이, ‘노선 버튼’ (152) 의 이미지에 대해 광학문자인식이 수행되어 인식된 ‘노선’이란 텍스트가 제 1 식별정보에 해당한다. 즉, ‘노선 버튼’ (152) 에 기초하여 획득된 제 1 식별정보는 ‘노선’에 해당하며, 이와 같은 방법으로 ‘시간표 버튼’ (154) 에 기초하여 획득된 제 1 식별정보는 ‘시간표’에 해당하고, ‘경로검색 버튼’ (156) 에 기초하여 획득된 제 1 식별정보는 ‘경로검색’에 해당하고, ‘Update 버튼’ (158) 에 기초하여 획득된 제 1 식별정보는 ‘Update’에 해당한다.

제 2 식별정보는 제 1 식별정보에 대응하여 획득되는 텍스트로서, 제 2 식별정보는 도 3에 도시된 바와 같이, 제 1 식별정보의 유의어인 유의 식별정보일 수 있다. 즉, ‘노선’ 제 1 식별정보에 대응하는 제 2 식별정보는, ‘선로’, ‘길’ 등과 같이, ‘노선’ 제 1 식별정보의 유의어인 유의 식별정보일 수 있다. 또한, 영어로 구성된 ‘Update’ 제 1 식별정보에 대응하는 제 2 식별정보는 ‘renew’, ‘revise’ 등과 같이, ‘Update’ 제 1 식별정보의 유의어인 유의 식별정보일 수 있다. 한편, 여기서, 만약 제 1 식별정보가 복수의 단어로 구성된 경우에는, 각각의 단어에 대한 제 2 식별정보가 획득될 수도 있다.

여기서, 유의 식별정보는, 단어들의 유의어를 저장한 유의어 DB를 통해 컨트롤 객체 선택장치에 제공될 수 있다. 이러한 유의어 DB는 컨트롤 객체 선택장치에 포함될 수 있으나, 네트워크 등을 통해 컨트롤 객체 선택장치에 연결되어, 컨트롤 객체 선택장치에 유의 식별정보를 제공할 수도 있다.

한편, 유의 식별정보는, 제 1 식별정보와 동일 언어 내에서의 유의어뿐만 아니라, 상이한 언어 내에서의 유의어를 포함할 수도 있고, 여기서 상이한 언어 내에서의 유의어는 도 5에서 후술하는 바와 같이, 유의 식별정보가 기준 언어로 번역된 것을 의미할 수 있다.

제 2 식별정보는 전술한 바와 같이 제 1 식별정보의 유의 식별정보일 수 있으나, 제 2 식별정보는 제 1 식별정보가 기준 언어로 번역된 번역 식별정보, 제 1 식별정보가 기준 언어로 표음된 표음 식별정보 또는 제 1 식별정보의 발음열인 발음열 식별정보일 수도 있다. 다양한 유형의 제 2 식별정보는 도 4 내지 도 5에서 후술한다.

제 1 식별정보 및 제 2 식별정보와 입력정보의 매칭, 즉, 제 1 식별정보 및 제 2 식별정보와 음성패턴 정보의 매칭을 통해, 획득된 음성패턴이 제 1 식별정보 및 제 2 식별정보들과 비교되어, 제 1 식별정보 및 제 2 식별정보 내에서 해당 음성패턴과 동일하거나 가장 유사한 패턴을 갖는 매칭 식별정보가 판단된다.

한편, 사용자의 음성으로부터 음성패턴 정보가 코드화된 방식으로, 제 1 식별정보 및 제 2 식별정보도 음소나 특정 구간 단위로 코드화됨으로써, 음성패턴 정보와 제 1 식별정보 및 제 2 식별정보가 서로 매칭될 수 있다. 제 1 식별정보 및 제 2 식별정보와 음성패턴 정보의 매칭 시에는 정적 매칭 (static matching), 코사인 유사성 (cosine similarity) 비교, 탄력 매칭 (elastic matching) 등이 이용될 수 있다.

컨트롤 객체 선택장치는, 제 1 식별정보 및 제 2 식별정보와 입력정보의 매칭 결과, 입력정보와 매칭되는 매칭 식별정보가 있는지 여부를 판단한다 (S120).

전술한 바와 같이, 제 1 식별정보 및 제 2 식별정보 내에서, 획득된 음성패턴과 동일하거나 가장 유사한 패턴을 갖는 식별정보가 매칭 식별정보인 것으로 판단된다.

만약 입력정보와 매칭되는 매칭 식별정보가 없다고 판단된 경우, 컨트롤 객체 선택장치는 다시 입력정보를 획득하기 전까지 대기하거나, 사용자가 음성을 다시 발성하게 요구하도록 구현될 수 있다.

만약 입력정보와 매칭되는 매칭 식별정보가 있다고 판단된 경우, 컨트롤 객체 선택장치는 해당 매칭 식별정보를 획득한다 (S130).

도 3을 참조하면, “길찾기”란 사용자의 음성으로부터 입력정보가 획득된 경우, ‘노선’, ‘시간표’, ‘경로검색’, ‘Update’ 제 1 식별정보 및 제 1 식별정보에 대응하는 제 2 식별정보 내에서 ‘경로검색’ 제 1 식별정보에 대응하는 ‘길찾기’ 제 2 식별정보가 매칭 식별정보에 해당한다.

매칭 식별정보가 획득되면, 컨트롤 객체 선택장치는 매칭 식별정보에 대응하는 컨트롤 객체를 선택한다 (S150).

즉, 전술한 바와 같이, ‘길찾기’ 제 2 식별정보가 매칭 식별정보에 해당하는 경우, 컨트롤 객체 선택장치 (100) 는 ‘경로검색 버튼’ (156) 을 선택한다.

여기서, 컨트롤 객체의 선택은 입력 이벤트 (input event) 또는 선택 이벤트 (selection event) 를 통해 이루어질 수 있다.

이벤트란, 프로그램에서 감지될 수 있는 활동 (action) 이나 사건 (occurrence) 을 의미하는데, 이벤트의 유형으로, 입력을 처리하기 위한 입력 이벤트 (input event), 출력을 처리하기 위한 출력 이벤트 (output event), 특정 객체를 선택하기 위한 선택 이벤트 (selection event) 등을 예로 들 수 있다.

입력 이벤트는 일반적으로 마우스, 터치패드, 터치 스크린, 키보드 등과 같은 입력장치를 통해 클릭, 터치, 키 스트로크 등의 입력이 인가되는 경우에 발생할 수 있으나, 전술한 입력장치를 통해 실제 입력이 인가되지 않더라도, 가상적으로 입력이 인가된 것으로 처리하여, 입력 이벤트가 발생할 수도 있다.

한편, 선택 이벤트는 특정 컨트롤 객체를 선택하기 위해 발생하며, 특정 컨트롤 객체에 대해 전술한 입력 이벤트, 예컨대, 더블클릭 이벤트나 탭 이벤트가 발생함에 따라, 특정 객체가 선택되도록 구현될 수도 있다.

이와 같이, 본 발명의 일 실시예에 따른 컨트롤 객체 선택장치에 의하면, 제어 명령어가 사전에 내장되어 있지 않은 어플리케이션의 경우에도, 음성인식을 통해 전자장치가 제어될 수 있어, 해당 전자장치에 대한 사용자의 접근성을 향상시킬 수 있는 효과가 있다.

한편, 본 발명의 일 실시예에 따르면, 제 1 식별정보는 다양한 방법을 통해 획득될 수 있다. 예컨대, 제 1 식별정보는 컨트롤 객체에 대한 텍스트 정보에 기초하여 획득되도록 구현될 수 있다.

계속 도 3을 참조하면, 컨트롤 객체에 대한 정보 (200) 는 컨트롤 객체에 대한 텍스트 정보 (242, 244, 246, 248) 를 포함할 수 있다.

컨트롤 객체에 대한 이미지에 텍스트가 포함된 경우, 광학문자인식 등의 수단을 통해 텍스트가 인식됨으로써, 제 1 식별정보가 획득될 수 있으나, 컨트롤 객체에 대한 텍스트 정보가 존재하는 경우에는, 해당 텍스트 정보로부터 바로, 텍스트인 제 1 식별정보가 획득될 수도 있다.

여기서, 컨트롤 객체에 대한 텍스트 정보의 일부가 제 1 식별정보로 획득되도록 구현될 수 있다. 예컨대, 텍스트 정보가 복수의 단어로 구성된 경우에는 각 단어가 해당 컨트롤 객체에 대응하는 개별적인 제 1 식별정보로 획득되도록 구현될 수 있다.

한편, 본 발명의 일 실시예에 따르면, 컨트롤 객체에 대한 설명 정보에 기초하여 제 1 식별정보가 획득되도록 구현될 수도 있다.

다만, 설명 정보는 전술한 텍스트 정보와 달리 개발자가 해당 컨트롤 객체에 대해 설명을 기입한 것이므로, 텍스트 정보에 비해 많은 양의 텍스트로 구성될 수 있고, 이때, 해당 설명 전체가 제 1 식별정보로 획득되는 경우에는, 입력정보와의 매칭의 정확도나 매칭 속도가 저하될 수 있다.

따라서, 컨트롤 객체에 대한 설명 정보가 복수의 단어로 구성된 경우에는, 해당 설명 정보의 일부분만이 제 1 식별정보로 획득되도록 구현될 수 있다. 또한, 해당 설명 정보의 각 부분이 해당 컨트롤 객체에 대응하는 개별적인 제 1 식별정보로 획득되도록 구현될 수도 있다.

한편, 제 1 식별정보는 어플리케이션 화면 정보에 기초하여 획득되도록 구현될 수도 있다.

어플리케이션 화면에 대해 광학문자인식이 수행되면, 해당 어플리케이션 화면 내에서 디스플레이 될 수 있는 모든 텍스트가 획득될 수 있고, 어플리케이션 화면에서 텍스트가 획득되면, 그 텍스트가 컨트롤 객체에 대응하는 제 1 식별정보에 해당하는지 결정되어야 한다.

따라서, 컨트롤 객체 선택 장치는 어플리케이션 화면 내에서 텍스트가 디스플레이 되는 제 1 영역과, 제 1 영역과 대응되는 제 2 영역에서 디스플레이 되는 컨트롤 객체를 판단하여, 판단된 컨트롤 객체에 제 1 영역에서의 텍스트가 대응하도록 구현될 수 있다.

여기서, 텍스트가 디스플레이 되는 제 1 영역과 대응되는 제 2 영역이라 함은, 텍스트가 디스플레이 되는 블록 (block) 의 적어도 일부를 포함하는 영역, 텍스트가 디스플레이 되는 블록과 가장 근접하는 영역, 텍스트가 디스플레이 되는 블록의 상단이나 하단과 같은 영역일 수 있다. 여기서, 제 1 영역과 대응되는 제 2 영역은, 전술한 방식에 한정되지 않고, 다양한 방식으로 결정될 수 있다. 한편, 제 2 영역에서 디스플레이 되는 컨트롤 객체를 판단하기 위해, 컨트롤 객체에 대한 디스플레이 정보를 참조할 수 있다.

전술한 바와 같이, 제 1 식별정보는 다양한 방법을 통해 획득될 수 있으며, 제 1 식별정보가 반드시 컨트롤 객체에 대해 하나만 존재할 필요는 없으며, 하나의 컨트롤 객체에 복수의 제 1 식별정보가 대응될 수도 있다.

또한, 제 1 식별정보는 컨트롤 객체 선택엔진에 의해 획득될 수 있으나, 반드시 이에 한정되는 것은 아니고, 실행된 어플리케이션에 의해서 획득되도록 구현될 수도 있다.

도 4는 본 발명의 일 실시예에 따른 컨트롤 객체 선택장치에서 획득되는 제 1 식별정보와 제 1 식별정보와 대응하는 제 2 식별정보를 도시한 것이다.

제 2 식별정보는 제 1 식별정보가 기준 언어로 번역된 번역 식별정보일 수 있다. 설명의 편의상 기준 언어가 영어로 설정된 경우를 예로 들어 설명한다.

도 4를 참조하면, 컨트롤 객체 (152) 에 기초하여, ‘노선’ 제 1 식별정보가 획득된 경우, ‘노선’ 제 1 식별정보에 대응하는 제 2 식별정보는, ‘route’, ‘line’ 등과 같이, 제 1 식별정보가 영어로 번역된 번역 식별정보일 수 있다.

한편, 기준 언어는 컨트롤 객체 선택장치의 위치 정보나 사용자가 설정한 언어나 지역 정보와 같은 로케일 (locale) 정보에 기초하여 설정될 수 있다.

또한, 기준 언어는 제 1 식별정보에 따라 상대적으로 결정되도록 구현될 수도 있다. 예컨대, 제 1 식별정보가 한국어로 구성된 경우, 영어로 번역되고, 제 1 식별정보가 영어로 구성된 경우에는, 한국어로 번역되도록 구현될 수도 있다.

즉, 도 4에서 컨트롤 객체 (158) 에 기초하여, 영어로 구성된 ‘Update’ 제 1 식별정보가 획득된 경우, 해당 제 1 식별정보에 대응하는 제 2 식별정보는, ‘판올림’, ‘갱신’ 등과 같이, ‘Update’ 제 1 식별정보가 한국어로 번역된 번역 식별정보일 수 있다.

여기서, 번역 식별정보는, 단어들의 번역어를 저장한 사전 DB를 통해 컨트롤 객체 선택장치에 제공될 수 있다. 사전 DB는 워드 뱅크 (word bank) 와 프레이즈 뱅크 (phrase bank) 를 포함할 수 있으나, 제 1 식별정보에 대한 번역 식별정보, 즉, 단어들의 번역어만을 제공하기 위해, 워드 뱅크만을 의미할 수도 있다.

이러한 사전 DB는 컨트롤 객체 선택장치에 포함될 수 있으나, 네트워크 등을 통해 컨트롤 객체 선택장치에 연결되어, 컨트롤 객체 선택장치에 번역 식별정보를 제공할 수도 있다.

한편, 제 2 식별정보는 제 1 식별정보가 기준 언어로 표음된 표음 식별정보일 수도 있다. 설명의 편의상 기준 언어가 한국어로 설정된 경우를 예로 들어 설명한다.

도 4를 참조하면, 일 컨트롤 객체 (158) 에 기초하여, ‘Update’ 제 1 식별정보가 획득된 경우, ‘Update’ 제 1 식별정보에 대응하는 제 2 식별정보는, ‘업데이트’, ‘업뎃’ 등과 같이, 제 1 식별정보가 한국어로 표음된 표음 식별정보일 수도 있다.

또한, 기준 언어는 제 1 식별정보에 따라 상대적으로 결정되도록 구현될 수도 있다. 예컨대, 제 1 식별정보가 한국어로 구성된 경우, 영어로 표음되고, 제 1 식별정보가 영어로 구성된 경우에는, 한국어로 표음되도록 구현될 수도 있다.

즉, 도 4에서 컨트롤 객체 (152) 에 기초하여, 한국어로 구성된 ‘노선’ 제 1 식별정보가 획득된 경우, 해당 제 1 식별정보에 대응하는 제 2 식별정보는, ‘noseon’, ‘noson’, ‘nosun’ 등과 같이, ‘노선’ 제 1 식별정보가 영어로 표음된 표음 식별정보일 수 있다.

여기서, 표음 식별정보는, 단어들이 표음된 단어들을 저장한 표음어 DB를 통해 컨트롤 객체 선택장치에 제공되거나, 제 1 식별정보가 표음 알고리즘을 거침으로써, 컨트롤 객체 선택장치에 제공될 수 있다. 표음어 DB는 컨트롤 객체 선택장치에 포함될 수 있으나, 네트워크 등을 통해 컨트롤 객체 선택장치에 연결되어, 컨트롤 객체 선택장치에 표음 식별정보를 제공할 수도 있다. 표음 알고리즘은 단독으로 이용될 수도 있으나, 표음어 DB에 표음 식별정보가 존재하지 않는 경우에 보조적으로 이용될 수도 있다.

표음 알고리즘은, 예컨대, 제 1 식별정보가 대문자 영어 알파벳들로 구성된 경우, 각각의 알파벳을 그대로 발음하는 알고리즘일 수 있다. 예를 들어, ‘ABC’라는 제 1 식별정보가 한국어로 표음된 표음 식별정보는, ‘에이비씨’에 해당한다.

한편, 표음 알고리즘은 도 5에서 후술하는 발음열 식별정보로부터, 해당 발음열에 대응하는 문자를 획득하는 알고리즘일 수도 있다.

도 5는 본 발명의 일 실시예에 따른 컨트롤 객체 선택장치에서 획득되는 제 1 식별정보와 제 1 식별정보와 대응하는 제 2 식별정보를 도시한 것이다.

제 2 식별정보는 제 1 식별정보의 발음열인 발음열 식별정보일 수 있다.

발음열 식별정보는 제 1 식별정보에 대한 발음기호를 참조하여 획득될 수 있고, 여기서 발음기호는 국제 음성 기호 (IPA; International Phonetic Alphabet) 에 대응할 수 있다.

도 5에 도시된 바와 같이, 제 2 식별정보는 국제 음성 기호에 따른 제 1 식별정보의 발음열 식별정보일 수 있고, 여기서 발음열 식별정보는 국제 음성 기호에 따르므로, 제 1 식별정보의 발음열로만 나타내어지는 제 2 식별정보가 획득될 수 있다.

즉, 이와 같이 제 2 식별정보가 발음열로만 나타내어 지는 경우, 사용자의 발음과 제 2 식별정보의 발음열의 매칭 정도가 판단될 수 있으므로, 사용자가 발성한 음성이 어느 언어에 속하는지 여부를 불문하고 음성인식을 통해 컨트롤 객체가 선택될 수 있다.

한편, 발음열 식별정보로부터, 기준 언어에서 발음열에 대응하는 문자가 획득될 수 있으며, 이러한 획득된 문자는 도 4에서 전술한 표음 식별정보를 의미할 수도 있다.

여기서, 발음열 식별정보는, 단어들의 발음열 정보를 저장한 발음열 DB를 통해 컨트롤 객체 선택장치에 제공될 수 있다. 이러한 발음열 DB는 컨트롤 객체 선택장치에 포함될 수 있으나, 네트워크 등을 통해 컨트롤 객체 선택장치에 연결되어, 컨트롤 객체 선택장치에 발음 식별정보를 제공할 수도 있다.

전술한 바와 같이, 제 1 식별정보에 기초하여 다양한 유형의 제 2 식별정보가 획득될 수 있고, 제 2 식별정보는 사용자에 의해 임의로 지정되도록 구현될 수도 있다. 또한, 나아가, 제 2 식별정보는 제 1 식별정보의 유의 식별정보가 기준 언어로 번역된 식별정보 또는 제 1 식별정보가 제 1 언어로 번역된 후에 기준 언어로 번역된 식별정보를 수도 있다. 이와 같이, 제 1 식별정보가 일 이상의 과정을 거쳐 획득되는 제 2 식별정보와 관련하여서는 도 6 및 도 7을 참조하여 설명한다.

도 6은 본 발명의 일 실시예에 따른 컨트롤 객체 선택장치에서 획득되는 제 1 식별정보와 제 1 식별정보와 대응하는 제 2 식별정보를 도시한 것이다.

도 6를 참조하면, 컨트롤 객체 선택장치 (100) 상에 웹 브라우저 (160) 이 실행되고, 해당 웹 브라우저 (160) 가 컨트롤 객체 (161, 162, 163, 164 및 165) 를 포함하는 경우, 일 컨트롤 객체 (161) 에 기초하여 ‘朝鮮の由來’와 같은 제 1 식별정보가 획득될 수 있다.

‘朝鮮の由來’ 제 1 식별정보가 획득된 경우, 해당 제 1 식별정보의 유의어인 유의 식별정보는 도 6에 도시된 바와 같이, ‘朝鮮の歷史’, ‘韓國の由來’, ‘韓國の歷史’에 해당한다.

도 6에 도시된 바와 같이, 기준 언어가 한국어로 설정된 경우, 제 1 식별정보가 한국어로 번역된 ‘조선의 유래’를 비롯하여, 제 1 식별정보의 유의 식별정보가 한국어로 번역된 ‘조선의 역사’, ‘한국의 유래’, ‘한국의 역사' 가 제 2 식별정보에 해당할 수 있다.

도 7은 본 발명의 일 실시예에 따른 컨트롤 객체 선택장치에서 획득되는 제 1 식별정보와 제 1 식별정보와 대응하는 제 2 식별정보를 도시한 것이다.

본 발명의 일 실시예에 따르면, 제 2 식별정보는 제 1 식별정보가 제 1 기준 언어로 번역된 번역 식별정보 또는 해당 번역 식별정보가 다시 제 2 기준 언어로 번역된 번역 식별정보를 포함할 수 있다.

도 7에 도시된 바와 같이, 일 컨트롤 객체 (161) 에 기초하여 ‘朝鮮の由來’와 같은 제 1 식별정보가 획득된 경우, 해당 제 1 식별정보가 제 1 기준 언어, 예컨대 영어로 번역되어, ‘origin of Joseon (Korea)’, ‘genesis of Joseon (Korea)’, ‘history of Joseon (Korea)’ 등의 번역 식별정보가 획득될 수 있다.

나아가, 해당 번역 식별정보가 다시 제 2 기준 언어, 예컨대 한국어로 번역되어, ‘조선 (한국, 대한민국) 의 유래’, ‘조선 (한국, 대한민국) 의 기원’, ‘조선 (한국, 대한민국) 의 역사’ 등의 번역 식별정보가 획득될 수 있다.

도 8은 도 4에서 획득된 제 2 식별정보가 디스플레이 된 화면을 도시한 것이다.

도 8에 도시된 바와 같이, 본 발명의 일 실시예에 따른 컨트롤 객체 선택장치 (100) 는 컨트롤 객체 (152, 154, 156, 158) 에 대응하는 제 2 식별정보를 디스플레이 하도록 구현될 수 있다.

도 8에 도시된 바와 같이, 제 2 식별정보 (‘Route’, ‘Schedule’, ‘Route search’, ‘Update’) 는, 대응하는 컨트롤 객체 (152, 154, 156, 158) 에 인접하여 디스플레이 되거나, 제 1 식별정보에 대응하는 텍스트 (‘노선’, ‘시간표’, ‘경로검색’, ‘Update’, 도 4참조) 나 심볼이 위치하던 영역에 디스플레이 될 수 있으며, 제 1 식별정보로 인식된 텍스트와 함께 디스플레이 될 수도 있다.

따라서, 사용자는 컨트롤 객체 선택장치 (100) 에 디스플레이 된 제 2 식별정보를 확인함으로써, 컨트롤 객체 선택장치 (100) 가 인식할 수 있는 단어 등이 무엇인지 알 수 있다.

한편, 본 발명의 일 실시예에 따른 컨트롤 객체 선택장치는 컨트롤 객체에 대한 제 1 식별정보 및 제 2 식별정보 또는 매칭 식별정보를 음성으로 출력하도록 구현될 수 있다.

컨트롤 객체의 제 1 식별정보 및 제 2 식별정보가 음성으로 출력됨으로써, 컨트롤 객체 선택장치가 인식할 수 있는 단어 등이 무엇인지 등과 같은 가이드라인이 사용자에게 제공될 수 있고, 매칭 식별정보가 음성으로 출력됨으로써, 사용자가 발성한 음성으로부터 최종적으로 인식된 텍스트가 사용자에게 제공될 수 있어, 사용자는 컨트롤 객체 선택장치의 화면을 보지 않고서도 컨트롤 객체를 편리하게 선택할 수 있다.

도 9는 본 발명의 일 실시예에 따른 심볼 (symbol) 에 대응하는 제 1 식별정보와 제 1 식별정보와 대응하는 제 2 식별정보를 도시한 것이다.

본 발명의 일 실시예에 따르면, 제 1 식별정보는 컨트롤 객체에 기초하여 획득된 심볼 (symbol) 에 대응할 수 있다.

도 9를 참조하면, 컨트롤 객체 선택장치 (100) 상에 미디어 플레이어 어플리케이션 (170) 이 실행되어 있는 경우, ‘이전 버튼’ (172), ‘다음 버튼’ (174), ‘재생 버튼’ (176) 이 컨트롤 객체에 해당한다.

도 9에 도시된 바와 같이, 컨트롤 객체 (172, 174, 176) 가 텍스트를 포함하지 않는 경우, 즉, 해당 컨트롤 객체 (172, 174, 176) 가 심볼 (‘_◀◀’, ‘_▶▶’, ‘▶’) 을 포함하는 경우에는, 본 발명의 일 실시예에 따른 컨트롤 객체 선택장치 (100) 는 해당 컨트롤 객체 (172, 174, 176) 에 기초하여 심볼 (‘_◀◀’, ‘_▶▶’, ‘▶’) 을 획득하여, 해당 심볼 (‘_◀◀’, ‘_▶▶’, ‘▶’) 에 대응하는 제 1 식별정보 (‘이전’, ‘다음’, ‘재생’) 를 획득할 수 있다.

이러한 심볼은, 제 1 식별정보가 컨트롤 객체에 대한 디스플레이 정보에 기초하여 획득되는 것처럼, 해당 컨트롤 객체에 대한 디스플레이 정보에 기초하여 획득될 수 있다.

도 9를 참조하면, ‘이전 버튼’ (172) 은, ‘img’ 항목 (272B) 의 ‘bwd.jpg’에 의해 이미지로 디스플레이 될 수 있다. 그리고, “bwd.jpg”에 대해 이미지 패턴 매칭 (image pattern matching) 또는 전술한 광학문자인식 (OCR; optical character recognition) 이 수행되면, ‘_◀◀’ 심볼이 획득될 수 있다. 마찬가지로, “play.jpg”와 “fwd.jpg”에 대해 이미지 패턴 매칭 또는 전술한 광학문자인식이 수행되면, ‘▶’ 심볼과 ‘_▶▶’ 심볼이 획득될 수 있다.

여기서, 이미지 패턴 매칭이란, 대상 이미지, 예컨대 전술한 “bwd.jpg”, “play.jpg” 또는 “fwd.jpg” 와 같은 대상 이미지로부터 특징 (feature) 을 추출한 후, 미리 설정되거나 사용자의 사후적 설명 또는 경험적 방식 (heuristic) 을 통해 생성된 비교군에서, 동일하거나 유사한 패턴을 갖는 이미지를 획득하는 것으로서, 이미지 패턴 매칭을 위해, 템플릿 매칭 (template matching), 뉴럴 네트워크 (neural network), 은닉 마르코프 모델 (HMM; hidden Markov model) 등이 이용될 수 있으며, 열거한 방법에 한정되지 않고, 다양한 방법들이 이용될 수 있다.

심볼은 컨트롤 객체 선택엔진에 의해 획득되고, 메모리에 저장될 수 있으나, 반드시 이에 한정되는 것은 아니고, 실행된 어플리케이션에 의해 획득되고, 메모리에 저장되도록 구현될 수도 있다.

전술한 바에 따라 컨트롤 객체에 기초하여 획득된 심볼은 제 1 식별정보에 대응한다. 심볼에 대응하는 제 1 식별정보에 관해서는 도 10를 참조하여 설명한다.

도 10은 심볼과 심볼에 대응하는 제 1 식별정보의 예시도이다.

‘이전 버튼’ (172, 도 9), ‘다음 버튼’ (174, 도 9), ‘재생 버튼’ (176, 도 9) 에 대한 심볼로서, 각각 ‘_◀◀’, ‘_▶▶’, ‘▶’심볼 (372, 374, 376) 이 획득될 수 있다.

획득된 심볼은 도 10에 도시된 바와 같이 각각 제 1 식별정보에 대응된다. 도 10를 참조하면, ‘_◀◀’ 심볼 (372) 의 경우 ‘이전’ 제 1 식별정보 (472) 가 획득되고, ‘_▶▶’ 심볼 (374) 의 경우, ‘다음’ 제 1 식별정보 (474) 가 획득되고, ‘▶’ 심볼 (376) 의 경우, ‘재생’ 제 1 식별정보 (476) 가 획득될 수 있다.

이어서, 획득된 제 1 식별정보 (472, 474, 476) 에 대응하는 제 2 식별정보, 예컨대, 제 1 식별정보의 번역 식별정보가 획득될 수 있다. 도 9를 참조하면, ‘이전’, ‘재생’, ‘다음’ 제 1 식별정보가 영어로 번역된 ‘backward’, ‘play’, ‘forward’ 번역 식별정보가 획득될 수 있다. 이러한 번역 식별정보뿐만이 아니라, 제 2 식별정보는 도 3 내지 도 7 에서 전술한 바와 같이 제 1 식별정보에 대한 유의 식별정보, 표음 식별정보, 발음열 식별정보 등일 수 있다.

한편, 도 10에 도시된 심볼 (300) 이나 심볼에 대응하는 식별정보 (400) 는 예시에 불과하며, 심볼의 종류나 수, 그에 대응되는 식별정보는 다양하게 구현될 수 있다.

예컨대, 반드시 하나의 심볼과 하나의 식별정보가 서로 대응될 필요는 없으며, 어플리케이션에 따라서, 심볼이 가지는 의미가 다양할 수 있으므로, 하나의 심볼에 서로 다른 의미를 가지는 복수의 식별정보가 모두 대응하도록 구현될 수도 있다.

이와 같이, 하나의 심볼에 복수의 식별정보가 대응하는 경우에는 해당 복수의 식별정보 간에 우선순위를 두어, 매칭 식별정보가 결정되도록 구현될 수도 있다.

또한, 하나의 심볼에 대해, 어플리케이션에 따라 상이한 제 1 식별정보가 대응되도록 구현될 수 있다. 예컨대, ‘▶’ 심볼 (376) 의 경우, 미디어 플레이어에서는 ‘재생’이란 제 1 식별정보에 대응하고, 웹 브라우저나 전자책 어플리케이션에서는 ‘다음’이란 제 1 식별정보에 대응하도록 구현될 수 있다.

한편, 본 발명의 일 실시예에 따르면, 심볼은 어플리케이션 화면 정보에 기초하여 획득되도록 구현될 수도 있다.

어플리케이션 화면에 컨트롤 객체가 디스플레이 되는 경우, 어플리케이션 화면에 대해 광학문자인식이 수행되면, 해당 어플리케이션 화면 내에서 텍스트나 문자기호로 식별될 수 있는 정보가 획득될 수 있다.

그러나, 어플리케이션 화면에서 문자기호로 식별될 수 있는 정보들만 획득되면, 각 심볼이 어떤 컨트롤 객체에 대응하는지 결정되어야 한다. 이는 어플리케이션 화면에서 텍스트가 획득되면, 그 텍스트가 컨트롤 객체에 대응하는 제 1 식별정보에 해당하는지 여부를 결정하는 방식과 동일한 방식으로 수행될 수 있다.

한편, 본 발명의 일 실시예에 따르면, 입력정보는 사용자의 음성으로부터 획득된 음성패턴 정보가 언어 모델 DB와 비교되는 과정을 추가적으로 거쳐 인식된 텍스트 그 자체일 수도 있다. 이러한 언어 모델 DB는 컨트롤 객체 선택장치에 포함될 수 있으나, 컨트롤 객체 선택장치와 네트워크를 통해 연결될 수도 있다.

입력정보가 음성인식을 통해 사용자의 음성으로부터 인식된 텍스트인 경우에는, 입력정보와 제 1 식별정보의 매칭은 인식된 텍스트와 제 1 식별정보 그 자체가 비교됨으로써 수행된다.

첨부된 블록도의 각 블록과 흐름도의 각 단계의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수도 있다. 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 블록도의 각 블록 또는 흐름도 각 단계에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 것도 가능하다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 블록도의 각 블록 및 흐름도의 각 단계에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.

본 명세서에서, 각 블록은 특정된 논리적 기능 (들) 을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 실행 예들에서는 블록들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.

본 명세서에 개시된 실시예들과 관련하여 설명된 방법 또는 알고리즘의 단계는 프로세서에 의해 실행되는 하드웨어, 소프트웨어 모듈 또는 그 2 개의 결합으로 직접 구현될 수도 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, 착탈형 디스크, CD-ROM 또는 당업계에 알려진 임의의 다른 형태의 저장 매체에 상주할 수도 있다. 예시적인 저장 매체는 프로세서에 커플링 되며, 그 프로세서는 저장 매체로부터 정보를 판독할 수 있고 저장 매체에 정보를 기입할 수 있다. 다른 방법으로, 저장 매체는 프로세서와 일체형일 수도 있다. 프로세서 및 저장 매체는 주문형 집적회로 (ASIC) 내에 상주할 수도 있다. ASIC는 사용자 단말기 내에 상주할 수도 있다. 다른 방법으로, 프로세서 및 저장 매체는 사용자 단말기 내에 개별 컴포넌트로서 상주할 수도 있다.

이상으로 실시예를 들어 본 발명을 더욱 상세하게 설명하였으나, 본 발명은 반드시 이러한 실시예로 국한되는 것은 아니고, 본 발명의 기술사상을 벗어나지 않는 범위 내에서 다양하게 변형 실시될 수 있다. 따라서 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

100: 컨트롤 객체 선택장치
110: 인터페이스
120: 프로세서
122: 메모리 컨트롤러
124: 메모리
130: 디스플레이부
140: 마이크로폰
142: 스피커
150, 160, 170: 어플리케이션
152, 154, 156, 158, 161, 162, 163, 164, 165, 172, 174, 176: 컨트롤 객체
200: 컨트롤 객체에 대한 정보
242, 244, 246, 248: 컨트롤 객체에 대한 텍스트 정보
252, 252A, 252B, 254, 254A, 254B, 256, 256A, 256B, 258, 258A, 258B, 272, 272A, 272B, 274, 274A, 274B, 276, 276A, 276B: 컨트롤 객체에 대한 디스플레이 정보
300, 352, 354, 356, 358, 368: 심볼
400, 452, 454, 456, 458, 468: 제 1 식별정보

Claims

음성인식을 통해 컨트롤 객체를 선택하기 위한 장치로서,
하나 이상의 처리 디바이스를 포함하고,
상기 하나 이상의 처리 디바이스는,
사용자의 음성에 기초하여 입력정보를 획득하고,
컨트롤 객체에 기초하여 획득된 적어도 하나의 제 1 식별정보 및 상기 제 1 식별정보에 대응하는 제 2 식별정보를 상기 입력정보와 매칭하고,
상기 제 1 식별정보 및 상기 제 2 식별정보 내에서 상기 입력정보와 매칭되는 매칭 식별정보를 획득하고,
상기 매칭 식별정보에 대응하는 컨트롤 객체를 선택하도록 구성되고,
상기 제 2 식별정보는 상기 제 1 식별정보의 유의어인 유의 식별정보 및 상기 제 1 식별정보가 기준 언어로 번역된 번역 식별정보를 포함하는 것을 특징으로 하는, 컨트롤 객체 선택장치.
삭제
제 1 항에 있어서,
상기 제 2 식별정보는, 상기 제 1 식별정보가 상기 기준 언어로 표음된 표음 식별정보 식별정보 및 상기 제 1 식별정보의 발음열인 발음열 식별정보를 더 포함하는 것을 특징으로 하는, 컨트롤 객체 선택장치.
삭제
제 1 항에 있어서,
상기 하나 이상의 처리 디바이스는,
상기 제 2 식별정보를 디스플레이 하는 것을 특징으로 하는, 컨트롤 객체 선택장치.
제 1 항에 있어서,
상기 제 1 식별정보는 상기 컨트롤 객체에 대한 디스플레이 정보에 기초하여 획득되는 것을 특징으로 하는, 컨트롤 객체 선택장치.
제 6 항에 있어서,
상기 제 1 식별정보는 어플리케이션 화면 정보에 기초하여 획득되는 것을 특징으로 하는, 컨트롤 객체 선택장치.
제 6 항 또는 제 7 항에 있어서,
상기 제 1 식별정보는 광학문자인식 (OCR; optical character recognition) 을 통해 획득되는 것을 특징으로 하는, 컨트롤 객체 선택장치.
제 6 항에 있어서,
상기 제 1 식별정보는 상기 컨트롤 객체에 기초하여 획득된 심볼 (symbol) 에 대응하는 것을 특징으로 하는, 컨트롤 객체 선택장치.
제 1 항에 있어서,
상기 입력정보는 상기 사용자의 음성의 특징이 분석되어 획득된 음성패턴 정보를 포함하고,
상기 식별정보와 상기 입력정보의 매칭은 상기 식별정보와 상기 음성패턴 정보의 매칭을 포함하는 것을 특징으로 하는, 컨트롤 객체 선택장치.
제 1 항에 있어서,
상기 입력정보는 음성인식을 통해 상기 사용자의 음성으로부터 인식된 텍스트 정보를 포함하고,
상기 식별정보와 상기 입력정보의 매칭은 상기 식별정보와 상기 텍스트 정보의 매칭을 포함하는 것을 특징으로 하는, 컨트롤 객체 선택장치.
음성인식을 통해 컨트롤 객체를 선택하기 위한 방법으로서,
사용자의 음성에 기초하여 입력정보를 획득하는 단계;
컨트롤 객체에 기초하여 획득된 적어도 하나의 제 1 식별정보 및 상기 제 1 식별정보에 대응하는 제 2 식별정보를 상기 입력정보와 매칭하는 단계;
상기 제 1 식별정보 및 상기 제 2 식별정보 내에서 상기 입력정보와 매칭되는 매칭 식별정보를 획득하는 단계; 및
상기 매칭 식별정보에 대응하는 컨트롤 객체를 선택하는 단계를 포함하고,
상기 제 2 식별정보는 상기 제 1 식별정보의 유의어인 유의 식별정보 및 상기 제 1 식별정보가 기준 언어로 번역된 번역 식별정보를 포함하는 것을 특징으로 하는, 컨트롤 객체 선택방법.
삭제
제 12 항에 있어서,
상기 제 2 식별정보는, 상기 제 1 식별정보가 상기 기준 언어로 표음된 표음 식별정보 및 상기 제 1 식별정보의 발음열인 발음열 식별정보를 더 포함하는 것을 특징으로 하는, 컨트롤 객체 선택방법.
삭제
제 12 항에 있어서,
상기 제 2 식별정보를 디스플레이 하는 단계를 더 포함하는 것을 특징으로 하는, 컨트롤 객체 선택방법.
명령어 세트들을 저장하는 컴퓨터 판독가능매체로서,
상기 명령어 세트들은, 컴퓨팅 장치에 의해 실행되는 경우에 상기 컴퓨팅 장치로 하여금,
사용자의 음성에 기초하여 입력정보를 획득하고,
컨트롤 객체에 기초하여 획득된 적어도 하나의 제 1 식별정보 및 상기 제 1 식별정보에 대응하는 제 2 식별정보를 상기 입력정보와 매칭하고,
상기 제 1 식별정보 및 상기 제 2 식별정보 내에서 상기 입력정보와 매칭되는 매칭 식별정보를 획득하고,
상기 매칭 식별정보에 대응하는 컨트롤 객체를 선택하게 하고,
상기 제 2 식별정보는 상기 제 1 식별정보의 유의어인 유의 식별정보 및 상기 제 1 식별정보가 기준 언어로 번역된 번역 식별정보를 포함하는 것을 특징으로 하는, 컴퓨터 판독가능매체.