KR20230130589A

KR20230130589A - 디스플레이 장치 및 이의 제어방법

Info

Publication number: KR20230130589A
Application number: KR1020230113974A
Authority: KR
Inventors: 김양수; 수라즈 싱 탄와르
Original assignee: 삼성전자주식회사
Priority date: 2017-05-12
Filing date: 2023-08-29
Publication date: 2023-09-12
Also published as: KR102524675B1; KR20180124682A

Abstract

디스플레이 장치가 개시된다. 본 디스플레이 장치는, 디스플레이 및 복수의 텍스트 객체를 포함하는 UI 스크린을 표시하도록 디스플레이를 제어하고, 복수의 텍스트 객체 중 기결정된 언어와 상이한 텍스트 객체에 대해서는 기설정된 숫자가 함께 표시되도록 디스플레이를 제어하고, 사용자가 발화한 음성의 인식 결과가 표시된 숫자를 포함하면 표시된 숫자에 대응되는 텍스트 객체와 관련된 동작을 수행하는 프로세서를 포함한다.

Description

디스플레이 장치 및 이의 제어방법 { DISPLAY APPARATUS AND CONTROLLING METHOD THEREOF }

본 개시는 디스플레이장치 및 이의 제어방법에 관한 것으로, 더욱 상세하게는 다양한 언어로 구성된 컨텐츠에 대한 음성인식 제어를 제공하는 디스플레이장치 및 이의 제어방법에 관한 것이다.

전자 기술의 발달에 힘입어 다양한 유형의 디스플레이장치가 개발 및 보급되고 있었다. 특히, TV, 휴대폰, PC, 노트북 PC, PDA 등과 같은 각종 전자 장치들은 대부분의 일반 가정에서도 많이 사용되고 있었다.

한편, 최근에는 디스플레이장치를 조금 더 편리하고 직관적으로 제어하기 위하여 음성 인식을 이용한 기술이 개발되고 있었다.

종래 사용자의 음성에 따라 제어되는 디스플레이장치들은 음성인식엔진을 이용하여 음성 인식을 수행하게 되는데, 언어마다 다른 음성인식엔진이 존재하므로, 어떤 음성인식엔진을 이용해서 음성 인식을 수행할지 미리 결정할 필요가 있었다. 따라서, 보통은 디스플레이장치의 시스템 언어를 음성 인식에 사용할 언어로 결정하였다.

그러나 예컨대 디스플레이장치에 표시된 하이퍼링크텍스트에서 사용된 언어가 영어이고, 디스플레이장치의 시스템 언어는 한국어인 경우, 사용자가 그 하이퍼링크텍스트에 해당하는 음성을 발화하더라도 그 음성은 한국어 음성인식엔진을 거쳐 한국어 텍스트로 변환되기 때문에, 결국 해당 하이퍼링크텍스트를 선택할 수 없다는 문제가 있었다.

이와 같이 종래엔, 시스템 언어와 디스플레이장치에 실제 표시된 언어가 서로 다른 경우에 음성으로 디스플레이장치를 제어하는데 제한이 있었다.

본 개시는 상술한 필요성에 따른 것으로, 본 개시의 목적은 다양한 언어로 구성된 컨텐츠에 대한 음성인식 제어를 제공하는 디스플레이장치 및 이의 제어방법을 제공함에 있다.

이상과 같은 목적을 달성하기 위한 본 개시의 일 실시 예에 따른 디스플레이 장치는, 디스플레이 및 복수의 텍스트 객체를 포함하는 UI 스크린을 표시하도록 상기 디스플레이를 제어하고, 상기 복수의 텍스트 객체 중 기결정된 언어와 상이한 텍스트 객체에 대해서는 기설정된 숫자가 함께 표시되도록 상기 디스플레이를 제어하고, 사용자가 발화한 음성의 인식 결과가 상기 표시된 숫자를 포함하면 상기 표시된 숫자에 대응되는 텍스트 객체와 관련된 동작을 수행하는 프로세서를 포함한다.

이 경우, 상기 프로세서는, 상기 디스플레이 장치의 설정 메뉴에서 설정된 사용 언어를 상기 기결정된 언어로 설정할 수 있다. 또는 상기 복수의 텍스트 객체에 가장 많이 사용된 언어를 상기 기결정된 언어로 설정할 수 있다.

한편, 상기 UI 스크린은 웹 페이지이며, 상기 프로세서는, 상기 웹 페이지의 언어 정보에 대응되는 언어를 상기 기결정된 언어로 설정할 수 있다.

한편, 상기 프로세서는, 상기 복수의 텍스트 객체 중 2 이상의 언어로 구성된 텍스트 객체에 대해선, 상기 기결정된 언어의 포함 비율이 기설정된 비율 미만인 경우 상기 기결정된 언어와 상이한 텍스트 객체인 것으로 판단할 수 있다.

한편, 상기 프로세서는, 상기 기 설정된 숫자를 상기 기 설정된 숫자에 대응되는 텍스트 객체에 인접하여 표시하도록 상기 디스플레이를 제어할 수 있다.

한편, 본 개시에 따른 디스플레이 장치는 외부 장치와 통신을 수행하는 통신부를 더 포함하고, 상기 프로세서는, 상기 외부 장치의 특정 버튼의 선택에 대응하는 신호가 수신되는 동안 상기 기설정된 숫자를 표시하도록 상기 디스플레이를 제어할 수 있다.

이 경우, 상기 외부 장치는 마이크를 포함하며, 상기 통신부는, 상기 외부 장치의 마이크를 통해 입력된 음성에 대응하는 음성신호를 수신하고, 상기 프로세서는, 상기 수신된 음성신호에 대한 인식 결과가 상기 표시된 숫자를 포함하면 상기 표시된 숫자에 대응되는 텍스트 객체와 관련된 동작을 수행할 수 있다.

이 경우, 상기 프로세서는, 상기 수신된 음성신호에 대한 인식 결과가 상기 복수의 텍스트 객체 중 어느 하나에 대응하는 텍스트를 포함하면 해당 텍스트 객체와 관련된 동작을 수행할 수 있다.

한편, 상기 텍스트 객체와 관련된 동작은, 상기 텍스트 객체에 대응하는 URL 주소의 웹 페이지의 표시 동작 또는 상기 텍스트 객체에 대응하는 애플리케이션 프로그램 실행 동작일 수 있다.

한편, 상기 복수의 텍스트 객체는 제1 애플리케이션의 실행 화면에 포함된 것이며, 상기 프로세서는, 상기 제1 애플리케이션의 실행 화면이 표시된 동안 사용자가 발화한 음성의 인식 결과에 대응하는 객체가 상기 제1 애플리케이션의 실행 화면에 없는 것으로 판단되면, 상기 제1 애플리케이션과는 다른 제2 애플리케이션을 실행하여 상기 음성의 인식 결과에 대응하는 동작을 수행할 수 있다.

이 경우, 상기 제2 애플리케이션은 검색어에 대한 검색 결과를 제공하는 애플리케이션이고, 상기 프로세서는, 상기 제1 애플리케이션의 실행 화면이 표시된 동안 사용자가 발화한 음성의 인식 결과에 대응하는 객체가 상기 제1 애플리케이션의 실행 화면에 없는 것으로 판단되면, 상기 제2 애플리케이션을 실행하여 상기 음성의 인식 결과에 대응하는 텍스트를 검색어로 한 검색 결과를 제공할 수 있다.

한편, 본 개시에 따른 디스플레이 장치는 복수의 서로 다른 언어에 대한 음성 인식을 수행하는 서버와 통신하는 통신부를 더 포함하고, 상기 프로세서는, 상기 사용자가 발화한 음성에 대응하는 음성 신호와 상기 기 결정된 언어에 대한 정보를 상기 서버에 제공하도록 상기 통신부를 제어하고, 상기 서버로부터 수신된 음성 인식 결과가 상기 표시된 숫자를 포함하면 상기 표시된 숫자에 대응되는 텍스트 객체와 관련된 동작을 수행할 수 있다.

이 경우, 상기 프로세서는, 상기 서버로부터 수신된 음성 인식 결과가 상기 복수의 텍스트 객체 중 어느 하나에 대응하는 텍스트를 포함하면 해당 텍스트 객체와 관련된 동작을 수행할 수 있다.

한편, 본 개시의 일 실시 예에 따른 디스플레이 장치의 제어방법은, 복수의 텍스트 객체를 표시하는 단계, 상기 복수의 텍스트 객체 중 기결정된 언어와 상이한 텍스트 객체에 대해서는 기설정된 숫자를 함께 표시하는 단계 및 사용자가 발화한 음성의 인식 결과가 상기 표시된 숫자를 포함하면 상기 표시된 숫자에 대응되는 텍스트 객체와 관련된 동작을 수행하는 단계를 포함한다.

이 경우, 본 개시에 따른 디스플레이 장치의 제어방법은 상기 복수의 텍스트 객체에 가장 많이 사용된 언어를 상기 기결정된 언어로 설정하는 단계를 더 포함할 수 있다.

한편, 상기 복수의 텍스트 객체는 웹 페이지에 포함된 것이며, 본 개시에 따른 디스플레이 장치의 제어방법은 상기 웹 페이지의 언어 정보에 대응되는 언어를 상기 기결정된 언어로 설정하는 단계를 더 포함할 수 있다.

한편, 본 개시에 따른 디스플레이 장치의 제어방법은 상기 복수의 텍스트 객체 중 2 이상의 언어로 구성된 텍스트 객체에 대해선, 상기 기결정된 언어의 포함 비율이 기설정된 비율 미만인 경우 상기 기결정된 언어와 상이한 텍스트 객체인 것으로 판단하는 단계를 더 포함할 수 있다.

한편, 상기 기설정된 숫자를 함께 표시하는 단계는, 상기 기 설정된 숫자를 상기 기 설정된 숫자에 대응되는 텍스트 객체에 인접하여 표시할 수 있다.

한편, 상기 기설정된 숫자를 함께 표시하는 단계는, 외부 장치로부터 상기 외부 장치의 특정 버튼의 선택에 대응하는 신호가 수신되는 동안 상기 기설정된 숫자를 표시할 수 있다.

한편, 상기 텍스트 객체와 관련된 동작을 수행하는 단계는, 상기 텍스트 객체에 대응하는 URL 주소의 웹 페이지를 표시하거나, 상기 텍스트 객체에 대응하는 애플리케이션 프로그램을 실행할 수 있다.

한편, 상기 복수의 텍스트 객체는 제1 애플리케이션의 실행 화면에 포함된 것이며, 본 개시에 따른 디스플레이 장치의 제어방법은 상기 제1 애플리케이션의 실행 화면이 표시된 동안 사용자가 발화한 음성의 인식 결과에 대응하는 객체가 상기 제1 애플리케이션의 실행 화면에 없는 것으로 판단되면, 상기 제1 애플리케이션과는 다른 제2 애플리케이션을 실행하여 상기 음성의 인식 결과에 대응하는 동작을 수행하는 단계를 더 포함할 수 있다.

한편, 본 개시에 따른 디스플레이 장치의 제어방법은 복수의 서로 다른 언어에 대한 음성 인식을 수행하는 서버에 상기 사용자가 발화한 음성에 대응하는 음성 신호와 상기 기 결정된 언어에 대한 정보를 제공하는 단계를 더 포함하며, 상기 텍스트 객체와 관련된 동작을 수행하는 단계는 상기 서버로부터 수신된 음성 인식 결과가 상기 표시된 숫자를 포함하면 상기 표시된 숫자에 대응되는 텍스트 객체와 관련된 동작을 수행할 수 있다.

한편, 본 개시의 일 실시 예에 따른 디스플레이 장치의 제어방법을 실행하기 위한 프로그램이 저장된 컴퓨터 판독 가능 기록매체에 있어서, 상기 디스플레이 장치의 제어방법은, 복수의 텍스트 객체를 표시하도록 상기 디스플레이 장치를 제어하는 단계, 상기 복수의 텍스트 객체 중 기결정된 언어와 상이한 텍스트 객체에 대해서는 기설정된 숫자를 함께 표시하도록 상기 디스플레이 장치를 제어하는 단계, 및 사용자가 발화한 음성의 인식 결과가 상기 표시된 숫자를 포함하면 상기 표시된 숫자에 대응되는 텍스트 객체와 관련된 동작을 수행하는 단계를 포함한다.

도 1 내지 도 2는 본 개시의 다양한 실시 예에 따른 디스플레이장치에서의 음성 명령 입력 방법을 설명하기 위한 도면,
도 3은 본 개시의 일 실시 예에 따른 음성인식시스템을 설명하기 위한 도면,
도 4는 본 개시의 일 실시 예에 따른 디스플레이장치의 구성을 설명하기 위한 블럭도,
도 5 내지 도 7은 본 개시의 다양한 실시 예에 따른 객체 선택을 위한 숫자 표시 방식을 설명하기 위한 도면,
도 8 내지 도 9는 본 개시의 다양한 실시 예에 따른 음성 검색 방법을 설명하기 위한 도면,
도 10은 본 개시의 또 다른 실시 예에 따른 디스플레이장치의 구성을 설명하기 위한 블럭도, 그리고
도 11은 본 개시의 일 실시 예에 따른 디스플레이장치의 제어방법을 설명하기 위한 흐름도이다.

본 개시에 대하여 구체적으로 설명하기에 앞서, 본 명세서 및 도면의 기재 방법에 대하여 설명한다.

먼저, 본 명세서 및 청구범위에서 사용되는 용어는 본 개시의 다양한 실시 예들에서의 기능을 고려하여 일반적인 용어들을 선택하였다 하지만, 이러한 용어들은 당해 기술 분야에 종사하는 기술자의 의도나 법률적 또는 기술적 해석 및 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 일부 용어는 출원인이 임의로 선정한 용어도 있다. 이러한 용어에 대해서는 본 명세서에서 정의된 의미로 해석될 수 있으며, 구체적인 용어 정의가 없으면 본 명세서의 전반적인 내용 및 당해 기술 분야의 통상적인 기술 상식을 토대로 해석될 수도 있다.

또한, 본 명세서에 첨부된 각 도면에 기재된 동일한 참조번호 또는 부호는 실질적으로 동일한 기능을 수행하는 부품 또는 구성요소를 나타낸다. 설명 및 이해의 편의를 위해서 서로 다른 실시 예들에서도 동일한 참조번호 또는 부호를 사용하여 설명한다. 즉, 복수의 도면에서 동일한 참조 번호를 가지는 구성요소를 모두 도시되어 있다고 하더라도, 복수의 도면들이 하나의 실시 예를 의미하는 것은 아니다.

또한, 본 명세서 및 청구범위에서는 구성요소들 간의 구별을 위하여 "제1", "제2" 등과 같이 서수를 포함하는 용어가 사용될 수 있다. 이러한 서수는 동일 또는 유사한 구성요소들을 서로 구별하기 위하여 사용하는 것이며 이러한 서수 사용으로 인하여 용어의 의미가 한정 해석되어서는 안 된다. 일 예로, 이러한 서수와 결합된 구성요소는 그 숫자에 의해 사용 순서나 배치 순서 등이 제한되어서는 안 된다. 필요에 따라서는, 각 서수들은 서로 교체되어 사용될 수도 있다.

본 명세서에서 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "구성되다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

본 개시의 실시 예에서 "모듈", "유닛", "부(part)" 등과 같은 용어는 적어도 하나의 기능이나 동작을 수행하는 구성요소를 지칭하기 위한 용어이며, 이러한 구성요소는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의 "모듈", "유닛", "부(part)" 등은 각각이 개별적인 특정한 하드웨어로 구현될 필요가 있는 경우를 제외하고는, 적어도 하나의 모듈이나 칩으로 일체화되어 적어도 하나의 프로세서로 구현될 수 있다.

또한, 본 개시의 실시 예에서, 어떤 부분이 다른 부분과 연결되어 있다고 할 때, 이는 직접적인 연결뿐 아니라, 다른 매체를 통한 간접적인 연결의 경우도 포함한다. 또한, 어떤 부분이 어떤 구성요소를 포함한다는 의미는, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

이하, 첨부된 도면을 이용하여 본 개시에 대하여 구체적으로 설명한다.

도 1은 음성 인식에 따라 제어되는 본 개시의 일 실시 예에 따른 디스플레이장치를 설명하기 위한 도면이다.

도 1을 참고하면, 디스플레이장치(100)는 도 1에 도시된 바와 같이 TV 일 수 있으나, 이는 일 예에 불과할 뿐, 스마트폰, 데스크탑 PC, 노트북, 스마트 워치, 네비게이션, 냉장고 등 디스플레이 기능을 갖는 어떠한 장치로도 구현될 수 있다.

디스플레이장치(100)는 사용자가 발화한 음성의 인식 결과에 기초하여 동작을 수행할 수 있다. 예컨대, 사용자가 "7번 채널로 변경"이라고 말하면 7번 채널의 프로그램을 표시할 수 있고, 사용자가 "전원 꺼"라고 말하면 전원을 오프할 수 있다. 또한, 디스플레이장치(100)는 사용자와 대화하듯이 동작할 수도 있다. 예컨대, 사용자가 "현재 방송 중인 프로그램의 명칭이 뭐야?"라는 음성에 대한 답변으로 "문의하신 프로그램 제목은 ○○○ 입니다"라는 메시지를 음성 또는 텍스트로 출력할 수 있고, 사용자가 "오늘 날씨 어때"라고 말하면 "원하시는 지역을 말씀해 주세요"라는 메시지를 음성 또는 텍스트로 출력할 수 있고, 이에 대해 사용자가 "서울"이라고 말하면 "서울의 기온은 ○○ 입니다"라는 메시지를 음성 또는 텍스트로 출력할 수 있다.

도 1에 도시된 바와 같이 디스플레이장치(100)는 디스플레이장치(100)에 연결되거나 디스플레이장치(100)에 포함된 마이크를 통해 사용자 음성을 수신할 수 있다. 또는, 디스플레이장치(100)는 외부 장치의 마이크를 통해 입력된 음성에 대응하는 음성 신호를 상기 외부 장치로부터 수신할 수도 있다. 이에 대해선 도 2를 참고하여 설명하도록 한다.

도 2는 본 개시의 일 실시 에에 따른 디스플레이시스템을 설명하기 위한 도면이다.

도 2를 참고하면, 디스플레이시스템은 디스플레이장치(100)와 외부장치(200)를 포함한다.

디스플레이장치(100)는 도 1에서 설명한 것처럼 음성 인식 결과에 따라 동작하는 장치이다.

도 2에선 외부장치(200)가 리모컨으로 구현된 예를 도시하였으나, 스마트폰, 테블릿 PC, 스마트 워치 등의 전자 장치로 구현되는 것도 가능하다.

외부장치(200)는 마이크를 포함한 장치로서, 마이크를 통해 입력된 음성에 대응하는 음성 신호를 디스플레이장치(100)로 전송할 수 있다. 예컨대, 외부장치(200)는 적외선(IR), RF, 블루투스, 와이파이 등의 무선 통신 방식을 이용하여 음성 신호를 디스플레이장치(100)로 전송할 수 있다.

외부장치(200)의 마이크는 전력 절감을 위해 기 설정된 이벤트가 있는 경우에만 활성화될 수 있다. 예컨대, 외부장치(200)의 마이크 버튼(210)을 누르고 있는 동안 마이크가 활성화되고, 마이크 버튼(210)이 릴리즈되면 마이크가 비활성화된다. 즉, 마이크 버튼(210)이 눌려진 동안에만 음성을 입력받을 수 있다.

디스플레이장치(100)의 마이크 또는 외부장치(200)의 마이크를 통해 입력된 음성에 대한 음성 인식은 외부 서버를 통해 수행될 수 있다. 도 3은 이와 관련한 실시 예를 설명하기 위한 도면이다.

도 3을 참고하면, 음성 인식 시스템(2000)은 디스플레이장치(100) 및 서버(300)를 포함한다.

디스플레이장치(100)는 도 1에서 설명한 것처럼 음성 인식 결과에 따라 동작하는 장치이다. 디스플레이장치(100)는 앞서 설명한 것과 같이 디스플레이장치(100)의 마이크 또는 외부장치(200)의 마이크를 통해 입력된 음성에 대응하는 음성 신호를 서버(300)로 전송할 수 있다.

디스플레이장치(100)는 음성 신호와 함께, 상기 음성 신호를 어떤 언어를 기반으로 인식해야 하는지를 나타내는 정보(이하 '언어 정보')를 서버(300)로 전송할 수 있다. 동일한 음성 신호라도, 어떤 언어의 음성 인식 엔진을 이용하느냐에 따라 다른 음성 인식 결과가 나올 수 있다.

서버(300)는 복수의 서로 다른 언어에 대한 음성 인식을 수행할 수 있다. 서버(300)는 여러 언어 각각에 대응하는 여러 음성 인식 엔진을 포함할 수 있다. 예를 들어 서버(300)는 한국어 음성 인식 엔진, 영어 음성 인식 엔진, 일본어 음성 인식 엔진 등을 포함할 수 있다. 서버(300)는 디스플레이장치(100)로부터 음성 신호와 언어 정보가 수신되면, 음성 신호에 대해 언어 정보에 대응하는 음성 인식 엔진을 이용해서 음성 인식을 수행할 수 있다.

그리고 서버(300)는 음성 인식의 결과를 디스플레이장치(100)로 전송하고, 디스플레이장치(100)는 서버(300)로부터 수신된 음성 인식 결과에 대응하는 동작을 수행할 수 있다.

예를 들어, 디스플레이장치(100)는 서버(300)로부터 수신된 음성 인식 결과에 포함된 텍스트가 디스플레이장치(100)에 표시된 텍스트 객체와 일치되면, 해당 텍스트 객체와 관련한 동작을 수행할 수 있다. 예를 들어, 디스플레이장치(100)는 웹 페이지 내에서 음성인식결과에 포함된 텍스트와 일치되는 텍스트 객체가 있으면, 해당 텍스트 객체에 대응되는 URL 주소의 웹 페이지를 표시할 수 있다. 다만, 이는 일 예에 불과할 뿐, 디스플레이장치(100)의 다양한 애플리케이션이 제공하는 UI 객체가 음성인식에 의해 선택되어 해당 동작이 수행될 수 있다.

한편, 도 3에선 서버(300)가 하나인 것으로 도시하였으나, 복수의 언어에 각각에 대응되는 복수의 서버가 존재할 수 있다. 예컨대, 한국어 음성 인식을 담당하는 서버와 영어 음성 인식을 담당하는 서버가 별도로 존재할 수 있다.

한편, 상술한 예에선 음성 인식이 디스플레이장치(100)와는 별도의 장치인 서버(300)에서 이루어지는 것으로 설명하였으나, 또 다른 예에 따르면, 디스플레이장치(100)가 서버(300)의 기능을 수행하는 것도 가능하다. 즉, 상술한 디스플레이장치(100)와 서버(300)가 하나의 제품으로 구현되는 것도 가능하다.

도 4는 본 개시의 일 실시 예에 따른 디스플레이장치(100)의 구성을 설명하기 위한 블럭도이다.

디스플레이장치(100)는 디스플레이(110)와 프로세서(120)를 포함한다.

디스플레이(110)는 예컨대, LCD(Liquid Crystal Display)로 구현될 수 있으며, 경우에 따라 CRT(cathode-ray tube), PDP(plasma display panel), OLED(organic light emitting diodes), TOLED(transparent OLED) 등으로 구현될 수 있다. 또한, 디스플레이(110)는 사용자의 터치 조작을 감지할 수 있는 터치스크린 형태로 구현될 수도 있다.

프로세서(120)는 디스플레이장치(100)의 전반적인 동작을 제어하기 위한 구성이다.

예를 들어, 프로세서(120)는 CPU, 램(RAM), 롬(ROM), 시스템 버스를 포함할 수 있다. 여기서, 롬은 시스템 부팅을 위한 명령어 세트가 저장되는 구성이고, CPU는 롬에 저장된 명령어에 따라 디스플레이장치(100)의 저장부에 저장된 운영체제를 램에 복사하고, O/S를 실행시켜 시스템을 부팅시킨다. 부팅이 완료되면, CPU는 저장부에 저장된 각종 애플리케이션을 램에 복사하고, 실행시켜 각종 동작을 수행할 수 있다. 이상에서는 프로세서(120)가 하나의 CPU만을 포함하는 것으로 설명하였지만, 구현시에는 복수의 CPU(또는 DSP, SoC 등)으로 구현될 수 있다.

프로세서(120)는 디스플레이(110)에 표시된 객체를 선택하기 위한 사용자 명령이 입력되면, 사용자 명령에 의해 선택된 객체와 연관된 동작을 수행할 수 있다. 여기서 객체는 선택이 가능한 어떠한 객체라도 될 수 있으며, 예를 들어, 하이퍼링크 또는 아이콘 등일 수 있다. 선택된 객체와 연관된 동작이란 예컨대 하이퍼링크에 연결된 페이지, 문서, 영상 등을 표시하는 동작, 아이콘에 대응하는 프로그램을 실행하는 동작 등일 수 있다.

객체를 선택하기 위한 사용자 명령은 예컨대, 디스플레이장치(100)와 연결된 다양한 입력 장치(ex. 마우스, 키보드, 터치패드 등)를 통해 입력되는 명령이거나, 사용자가 발화한 음성에 대응하는 음성 명령일 수 있다.

도 4에 도시하진 않았지만 디스플레이장치(100)는 음성을 입력받기 위한 음성 수신부를 더 포함할 수 있다. 음성 수신부는 마이크를 포함하여 사용자가 발화한 음성을 직접 입력받아 음성 신호를 생성할 수 있고, 또는 외부 장치(200)로부터 전기적인 음성 신호를 수신할 수 있다. 후자의 경우 음성 수신부는 외부 장치(200)와 유선 또는 무선 통신을 수행하기 위한 통신부로 구현될 수 있다. 이와 같은 음성 수신부는 경우에 따라 디스플레이장치(100)에 포함되지 않을 수 있다. 예를 들어, 외부 장치(200)의 마이크를 통해 입력된 음성에 대응하는 음성 신호가 디스플레이장치(100)가 아닌 다른 장치를 거쳐 서버(300)로 전달되거나 혹은 외부 장치(200)로부터 직접적으로 서버(300)로 전달될 수 있고, 디스플레이장치(100)는 서버(300)로부터 음성 인식 결과만을 수신하는 형태로 구현될 수 있다.

프로세서(120)는 디스플레이(110)에 표시된 텍스트 객체들 중, 기결정된 언어와 상이한 텍스트 객체에 대해선 숫자를 함께 표시하도록 디스플레이(110)를 제어할 수 있다.

여기서 기결정된 언어란, 음성 인식의 기초가 되는 언어(음성인식에 이용할 음성인식엔진의 언어)를 의미하는 것으로서, 사용자가 수동으로 설정할 수 있고, 자동으로 설정되는 것도 가능하다. 수동으로 언어를 설정하는 경우에 대해 설명하자면, 예컨대, 디스플레이장치(100)가 제공하는 설정메뉴에서 사용언어(또는 시스템 언어)로서 설정된 언어를 음성 인식의 기초가 되는 언어로 설정할 수 있다.

자동으로 음성 인식의 기초가 되는 언어를 설정하는 일 실시 예에 따르면, 프로세서(120)는 디스플레이(110)에 현재 표시된 텍스트 객체에 가장 많이 사용된 언어를 식별하여 해당 언어를 음성 인식의 기초가 되는 언어로 자동 설정할 수 있다.

구체적으로, 프로세서(120)는 현재 디스플레이(110)에 표시된 복수의 텍스트 객체 각각에 포함된 문자의 종류(예컨대, 한글 또는 알파벳)를 분석해서 복수의 텍스트 객체에 전반적으로 가장 많이 사용된 문자의 종류에 해당하는 언어를 음성 인식의 기초가 되는 언어로 설정할 수 있다.

또 다른 실시 예에 따르면, 프로세서(120)는 디스플레이(110)에 현재 표시된 객체들이 웹 페이지의 객체들이면, 해당 웹 페이지의 언어 정보에 대응되는 언어를 음성 인식의 기초가 되는 언어로서 설정할 수 있다. 웹 페이지의 언어 정보는 예컨대, HTML의 lang 속성에서 확인할 수 있다(예컨대, <html lang="en">).

음성 인식의 기초가 되는 언어가 설정되었으면, 프로세서(120)는 음성 인식의 기초가 되는 언어와 상이한 텍스트 객체에 대해서는 임의의 숫자가 함께 표시되도록 디스플레이(110)를 제어할 수 있다. 사용자는 디스플레이(110)에 표시된 임의의 숫자를 말함으로써 텍스트 객체를 선택할 수 있다. 또한, 이미지 객체 또한 음성으로 선택할 수 없기 때문에, 프로세서(120)는 이미지 객체에 대해서도 임의의 숫자가 함께 표시되도록 디스플레이(110)를 제어할 수 있다.

프로세서(120)는 음성 인식의 기초가 되는 언어가 아닌 다른 언어로만 구성된 텍스트 객체에 대해선 음성 인식에 사용될 언어와 상이한 텍스트 객체라고 판단할 수 있다. 또한, 프로세서(120)는 2 이상의 언어로 구성된 텍스트 객체에 대해선, 음성 인식의 기초가 되는 언어의 포함 비율이 기설정된 비율 미만인 경우에 음성인식에 사용될 언어와 상이한 텍스트 객체라고 판단할 수 있다. 이에 대해서 도 5를 참고하여 좀 더 구체적으로 설명하도록 한다.

도 5는 디스플레이(110)에 특정 화면이 표시된 것을 도시한 것이다.

도 5를 참고하면, 복수의 텍스트 객체(51 ~ 59)를 포함하는 UI 스크린이 디스플레이(110)에 표시되어 있다. 음성 인식의 기초가 되는 언어가 영어로 설정되었다고 가정하도록 한다. 프로세서(120)는 영어가 아닌 다른 언어로 구성된 텍스트 객체들(51 ~ 56)에 대해선 임의의 숫자(①~⑥)가 함께 표시되도록 디스플레이(110)를 제어할 수 있다. 숫자들(①~⑥)은 대응하는 텍스트 객체들(51 ~ 56)에 인접한 위치에 표시될 수 있다. 그리고 영어로 구성된 텍스트 객체들(51, 58)에 대해선, 주변에 특정 아이콘(57a, 58a)이 함께 표시됨으로써, 텍스트 객체들(51, 58)에 포함된 텍스트를 발화함으로써 텍스트 객체들(51, 58)을 선택할 수 있음을 사용자에게 알릴 수 있다. 아이콘(57a, 58a)은 도 5에 도시한 것과 같이 "T"로 표현될 수 있으나, 이에 한정되는 것은 아니고, 예컨대 "Text" 등과 같이 다양한 형태로 표현될 수 있다.

2 이상의 언어로 구성된 텍스트 객체(59)에 대해선, 프로세서(120)는 영어의 포함 비율이 기설정된 비율(예컨대 50%) 미만인지 확인하여, 미만인 경우에 숫자를 함께 표시하도록 디스플레이(110)를 제어할 수 있다. 도 5에 도시한 텍스트 객체(59)는 한국어와 영어로 구성되어 있는데, 영어의 포함 비율이 기설정된 비율(예컨대 50%)을 넘으므로 숫자가 함께 표시되지 않는다. 대신 텍스트 객체에 포함된 텍스트를 발화함으로써 텍스트 객체가 선택이 가능함을 알리는 아이콘(59a)이 텍스트 객체(59)에 인접하여 표시될 수 있다.

한편, 도 5에선 숫자가 "①"와 같은 형상인 것으로 도시되었으나, 숫자의 형상엔 제한이 없다. 예컨대 원형이 아닌 사각형 안에 "1"이 포함된 형태일 수도 있고, 단순히 "1"이라고만 표시될 수도 있다. 본 개시의 또 다른 실시 예에 따르면, 음성 인식의 기초가 되는 언어의 단어로 표시될 수 있는데, 음성 인식의 기초가 되는 언어가 영어라면 "one"이라고 표시될 수 있고, 음성 인식의 기초가 되는 언어가 스페인어라면 "uno"라고 표시될 수 있다.

한편, 도 5에선 도시하지 않았으나, 숫자의 표시와 함께 "말하신 숫자에 대응하는 객체를 선택하실 수 있습니다"와 같이 숫자를 말할 것을 유도하는 문구가 추가적으로 디스플레이(110)에 표시될 수도 있다.

본 개시의 또 다른 실시 예에 따르면 프로세서(120)는 2 이상의 언어로 구성된 텍스트 객체에 대해선, 맨 앞의 단어의 언어가 음성인식에 사용될 언어와 다르면, 음성 인식의 기초가 되는 언어와 상이한 텍스트 객체라고 판단할 수 있다. 본 실시 예에 관해선 도 6을 참고하여 설명하도록 한다.

도 6은 디스플레이(110)에 특정 화면이 표시된 것을 도시한 것이다.

도 6을 참고하면, 복수의 텍스트 객체(61 ~ 63)를 포함하는 UI 스크린이 디스플레이(110)에 표시되어 있다. 음성인식에 사용될 언어가 한국어로 설정되었다고 가정하도록 한다. 프로세서(120)는 2 이상의 언어로 구성된 텍스트 객체(61)에 대해선, 맨 앞의 단어 "AAA"의 언어가 음성 인식의 기초가 되는 언어인 한국어가 아닌 영어이므로 음성 인식의 기초가 되는 언어와 상이한 텍스트 객체라고 판단할 수 있다. 따라서, 프로세서(120)는 숫자(①)가 텍스트 객체(61)와 함께 표시되도록 디스플레이(110)를 제어할 수 있다.

도 6을 참고하여 설명한 실시 예에 따르면, 2 이상의 언어로 구성된 텍스트 객체에 음성 인식의 기초가 되는 언어가 기 설정된 비율 이상으로 포함되어 있더라도 맨 앞 단어가 음성 인식의 기초가 되는 언어와 다르면 숫자를 표시한다. 반대로, 2 이상의 언어로 구성된 텍스트 객체에 음성 인식의 기초가 되는 언어가 기 설정된 비율 미만으로 포함되어 있더라도 맨 앞 단어가 음성 인식의 기초가 되는 언어와 같으면 숫자를 표시하지 않는다. 이는, 사용자가 텍스트 객체를 선택하기 위해 텍스트 객체의 가장 맨앞에 존재하는 단어를 말할 가능성이 높기 때문이다.

한편, 본 개시의 또 다른 실시 예에 따르면, 이미지 객체 또한 음성으로 선택할 수 없기 때문에, 이미지 객체에도 숫자가 표시될 수 있다. 본 실시 예에 대해선 이하 도 7을 참고하여 설명한다.

도 7은 디스플레이(110)에 특정 화면이 표시된 것을 도시한 것이다.

도 7을 참고하면, 제1 이미지 객체(71), 제2 이미지 객체(72), 제3 이미지 객체(74), 제1 텍스트 객체(73) 및 제2 텍스트 객체(75)가 디스플레이(110)에 표시되어 있다. 프로세서(120)는 제1 이미지 객체(71)와 함께 숫자(①)를 표시하도록 디스플레이(110)를 제어할 수 있다.

한편, 본 개시의 또 다른 실시 예에 따르면, 디스플레이(110)에 표시된 복수의 객체가 URL 링크를 가지는 객체인 경우, 프로세서(120)는 상기 복수의 객체의 URL 링크를 비교한 결과, 동일한 URL 링크를 가지는 객체들이 있는 경우에 있어서, 해당 객체들이 모두 음성 인식으로 선택이 가능하지 않은 객체라면 어느 하나의 객체에만 숫자를 표시하도록 디스플레이(110)를 제어할 수 있고, 이 객체들 중 어느 하나라도 음성 인식으로 선택이 가능한 객체이면 숫자를 표시하지 않도록 디스플레이(110)를 제어할 수 있다.

좀 더 구체적으로 설명하자면, 디스플레이(110)에 음성 인식으로 선택이 가능하지 않은 객체(즉, 음성 인식의 기초가 되는 언어와 상이한 텍스트 객체, 또는 이미지 객체)가 복수 개 표시되어 있고, 이들이 동일한 URL 주소의 링크를 가질 경우엔, 어느 하나의 객체에만 숫자가 표시될 수 있다. 도 7을 참고하여 설명하자면, 제2 이미지 객체(72)는 음성으로 선택될 수 없는 객체이고, 텍스트 객체(73)는 음성 인식의 기초가 되는 언어인 한국어와는 다른 언어인 영어로 구성되어 있기 때문에 제2 이미지 객체(72)와 제1 텍스트 객체(73)는 모두 음성으로 선택될 수 없지만, 제2 이미지 객체(72)와 제1 텍스트 객체(73)는 선택되었을 때 동일한 URL 주소로 연결되기 때문에, 제2 이미지 객체(72)와 제1 텍스트 객체(73) 중 어느 하나인 제2 이미지 객체(72)에만 숫자(②)가 표시될 수 있다. 또는, 제2 이미지 객체(72) 대신에 텍스트 객체(73)에 숫자가 표시되는 것도 가능하다. 이는, 디스플레이(110)에 표시되는 숫자의 개수를 최소화하기 위함이다.

디스플레이(110)에 표시되는 숫자의 개수를 최소화하기 위해, 본 개시의 또 다른 실시 예에 따르면, 디스플레이(110)에 동일한 URL 주소를 갖는 복수의 객체가 디스플레이(110)에 표시되어 있고, 이들 중 어느 하나라도 음성 인식의 기초가 되는 언어와 동일한 텍스트 객체이면 이들 모두에 대해 숫자를 표시하지 않는다. 도 7을 참고하여 설명하자면, 프로세서(120)는 제3 이미지 객체(74)의 URL 주소와 제2 텍스트 객체(75)의 ULR 주소를 비교하여 서로가 같은 것으로 판단되고, 제2 텍스트 객체(75)가 음성 인식의 기초가 되는 언어인 한국어와 동일한 텍스트 객체라고 판단되면, 제3 이미지 객체(74)에는 숫자를 표시하지 않도록 디스플레이(110)를 제어한다.

사용자가 발화한 음성의 인식 결과가 디스플레이(110)에 표시된 특정 텍스트를 포함하면, 프로세서(120)는 해당 텍스트에 대응하는 텍스트 객체와 관련한 동작을 수행할 수 있다. 도 5를 참고하여 설명하자면, 사용자가 "Voice recognition"이라고 말하면, 프로세서(120)는 텍스트 객체(59)에 대응하는 URL 주소의 페이지를 표시하도록 디스플레이(110)를 제어할 수 있다.

한편, 본 개시의 일 실시 예에 따르면, 사용자가 발화한 음성의 인식 결과가 디스플레이(110)에 표시된 텍스트 객체들 중 2 이상의 텍스트 객체에 공통으로 포함된 텍스트를 포함한 경우, 프로세서(120)는 해당 텍스트 객체들에 각각 숫자를 표시하고, 사용자가 표시된 숫자를 발화하면 숫자에 대응하는 텍스트 객체에 관련한 동작을 수행할 수 있다. 도 5를 참고하여 설명하자면, 사용자가 발화한 음성 인식의 결과에 "Speech recognition"이 포함된 경우, 프로세서(120)는 화면에 표시된 텍스트 객체들 중 "Speech recognition"이 포함되어 있는 텍스트 객체를 검색한다. 복수의 텍스트 객체(57, 58)가 검색된 경우, 프로세서(120)는 텍스트 객체들(57, 58) 옆에 임의의 숫자를 표시하도록 디스플레이(110)를 제어할 수 있다. 예컨대, 텍스트 객체(57) 옆에 숫자 ⑦이 표시되고, 텍스트 객체(58) 옆에 숫자 ⑧이 표시될 수 있고, 사용자는 숫자 "7"을 말함으로써 텍스트 객체(57)를 선택할 수 있게 된다. 사용자가 발화한 음성의 인식 결과가 디스플레이(110)에 표시된 숫자를 포함하면, 프로세서(120)는 포함된 숫자에 대응되는 텍스트 객체 또는 이미지 객체와 관련된 동작을 수행할 수 있다. 도 6을 참고하여 설명하자면, 사용자가 "일"이라고 말하면 프로세서(120)는 텍스트 객체(61)에 대응하는 URL 주소의 페이지를 표시하도록 디스플레이(110)를 제어할 수 있다.

사용자가 발화한 음성은 디스플레이장치(100)의 마이크를 통해 입력되거나 외부장치(200)이 마이크를 통해 입력될 수 있다. 후자의 경우, 디스플레이장치(100)는 마이크를 포함한 외부장치(200)와 통신하기 위한 통신부를 포함할 수 있고, 통신부는 외부장치(200)의 마이크를 통해 입력된 음성에 대응하는 음성신호를 수신할 수 있다. 프로세서(120)는 통신부를 통해 외부장치(200)로부터 수신된 음성신호에 대한 인식 결과가 디스플레이(110)에 표시된 숫자를 포함하면, 해당 숫자에 대응하는 텍스트 객체와 관련된 동작을 수행할 수 있다. 도 6을 참고하여 설명하자면, 사용자가 외부장치(200)의 마이크에 "일"이라고 말하면 외부장치(200)는 음성신호를 디스플레이장치(200)로 전송하고, 프로세서(120)는 수신한 음성신호에 대한 음성 인식 결과를 바탕으로 텍스트 객체(61)에 대응하는 URL 주소의 페이지를 표시하도록 디스플레이(110)를 제어할 수 있다.

한편, 텍스트 또는 이미지 객체에 대응하여 표시된 숫자는 일정 기간 동안만 표시될 수 있다. 일 실시 예에 따르면, 프로세서(120)는 외부장치(200)에서 특정 버튼의 선택에 대응하는 신호가 수신되는 동안 숫자들을 표시하도록 디스플레이(110)를 제어할 수 있다. 즉, 외부장치(200)의 특정버튼을 사용자가 누르고 있는 동안에만 숫자가 표시될 수 있다. 여기서 특정 버튼은 예컨대, 도 2에서 설명한 외부장치(200)의 마이크 버튼(210)일 수 있다.

또 다른 실시 예에 따르면, 프로세서(120)는 디스플레이장치(100)의 마이크를 통해 입력된 음성이 기 설정된 키워드(예컨대, "Hi TV")를 포함하면 숫자들을 표시하고, 디스플레이장치(100)의 마이크를 통해 음성이 미입력되는 상태로 기 설정된 시간이 경과하면 표시된 숫자들을 제거할 수 있다.

한편, 상술한 실시 예들에선 숫자가 표시되는 것으로 설명하였으나, 반드시 숫자가 표시될 필요는 없고, 사용자가 보고 읽을 수 있는 단어(의미를 가진 단어 또는 의미가 없는 단어)라면 어떠한 것이든 가능하다. 예컨대, 1, 2, 3.. 대신에 a, b, c...가 표시되는 것도 가능하다. 본 개시의 또 다른 실시 예에 따르면, 디스플레이(110)에 표시된 웹 페이지에 검색창이 있는 경우, 사용자는 검색하고자 하는 단어와, 검색 기능을 실행시키는 특정 키워드를 발화함으로써 손쉽게 검색을 수행할 수 있다. 예컨대, 디스플레이(110)에 표시된 웹 페이지에 검색창이 있는 경우, "○○○ 검색" 또는 "검색 ○○○" 등과 같이 말하기만 하면 "○○○"에 대한 검색결과가 디스플레이(110)에 표시될 수 있다.

이를 위해, 프로세서(120)는 디스플레이(110)에 표시된 웹 페이지에서 검색어 입력창을 검출할 수 있다. 구체적으로, 프로세서(120)는 디스플레이(110)에 표시된 웹 페이지의 구성 객체들 중에서 입력이 가능한 객체를 검색할 수 있다. HTML 상의 입력 태그(Input tag)가 입력이 가능한 객체이다. 입력 태그(Input tag)는 다양한 속성들(attributes)을 가지는데, 그 중 타입 속성(type attributes)은 입력 성격을 명확히 규정한다. 타입이 "search"인 경우엔 그 객체는 명확히 검색어 입력창에 해당된다.

다만, 타입이 "text"인 객체의 경우엔 검색어 입력창인지 여부를 바로 판단할 수 없다. 일반적인 입력 객체들도 텍스트 타입(text type)을 가지고 있기 때문에 해당 객체가 검색어 입력창인지 일반 입력 창인지 구분할 수 없기 때문이다. 따라서, 이 경우엔 검색어 입력창인지 여부를 판단하는 별도의 과정이 필요하다.

타입이 "text"인 객체의 경우, 검색어 입력창인지 여부를 판단하기 위해, 해당 객체의 추가적인 속성(attributes)에 대한 정보를 참고하게 된다. title이나 aria-label 에 "검색" 키워드가 있는 경우 해당 객체를 검색어 입력창이라고 판단할 수 있다.

그리고 프로세서(120)는 사용자가 발화한 음성의 인식 결과에 특정 키워드가 포함되어 있는지 판단한다. 여기서 특정 키워드는 "검색", "찾아" 등일 수 있다. 특정 키워드가 포함되어 있는 것으로 판단되면, 프로세서(120)는 사용자의 의도를 보다 정확히 판단하기 위해 상기 특정 키워드의 위치를 확인하다. 상기 특정 키워드의 앞 또는 뒤에 적어도 하나의 단어가 존재하는 경우라면 사용자의 의도가 그 적어도 하나의 단어를 검색하고자 하는 의도일 가능성이 높다. 만약 음성 인식 결과에 오직 "검색" 또는 "찾아"와 같은 특정 키워드만 포함된 경우라면 사용자가 검색하고자 하는 의도가 아닐 확률이 높다.

이와 같은 사용자의 의도 판단 과정은 디스플레이장치(100)에서 수행될 수 있고, 서버(300)에서 수행되어 그 결과를 디스플레이장치(100)에 제공하는 것도 가능하다.

사용자의 검색 의도가 판단된 경우, 프로세서(120)는 상기 특정 키워드를 제외한 나머지 단어를 검색어로 선정하고, 선정된 검색어를 상술한 방식에 따라 검출된 검색어 입력창에 입력하여 검색을 수행한다. 예컨대, 도 8에 도시한 바와 같이 검색어 입력창(810)을 포함하는 웹 페이지가 디스플레이(110)에 표시되면, 프로세서(120)는 검색어 입력창(810)을 검출하고, 사용자가 "강아지 검색"이라고 음성을 발화하면, 프로세서(120)는 발화된 음성에 대한 음성 인식 결과에서 "강아지"를 검색어로 선정하여 상기 검출된 검색어 입력창(810)에 입력하여 검색을 수행한다.

한편, 디스플레이(110)에 표시된 웹 페이지에서 검색어 입력창을 검출하는 동작은 음성 인식 결과에 특정 키워드가 포함되어 있음이 판단된 이후에 수행될 수 있고, 또는 그 이전에 미리 수행되는 것도 가능하다.

도 9는 검색어 입력 방식의 또 다른 예를 설명하기 위한 도면이다. 도 9는 한 웹 페이지 내에 검색어 입력창이 복수 개인 경우에 검색 수행방법을 설명하기 위한 것이다.

도 9를 참고하면, 한 웹 페이지 안에 검색창이 2개인 경우를 도시한 것이다. 제1 검색어 입력창(910)은 뉴스 검색을 위한 것이고, 제2 검색어 입력창(920)은 주식 검색을 위한 것이다. 프로세서(120)는 객체의 배치 위치에 관한 정보 및 현재 화면의 레이아웃에 관한 정보에 기초하여, 사용자가 검색어를 포함한 음성을 발화한 시점에 표시된 검색어 입력창으로 검색을 수행한다. 예컨대, 제1 검색어 입력창(910)이 디스플레이(110)에 표시된 상황에서 사용자가 검색어 및 특정 키워드를 포함한 음성을 발화하면 프로세서(120)는 제1 검색어 입력창(910)에 검색어를 입력하고, 아래 방향으로 스크롤이 수행되어서 제2 검색어 입력창(920)이 디스플레이(110)에 표시된 상황에서 사용자가 검색어 및 특정 키워드를 포함한 음성을 발화하면 프로세서(120)는 제2 검색어 입력창(920)에 검색어를 입력할 수 있다. 즉, 한 웹 페이지 안에 다수의 검색어 입력창이 있는 경우, 현재 화면에서 보여지는 검색어 입력창으로 검색이 수행될 수 있다.

디스플레이(110)에 보여지는 화면에 기초하여 음성 제어가 이루어진다 즉, 기본적으로 디스플레이(110)에 표시 중인 화면에 해당하는 애플리케이션을 이용하여 음성 명령에 따른 기능이 수행된다. 그러나 입력된 음성 명령이 현재 표시된 화면에 포함된 객체와 매칭되지 않거나, 현재 화면을 표시하고 있는 애플리케이션이 갖는 기능과 다른 것일 경우, 다른 애플리케이션이 실행되어 해당 음성 명령에 따른 기능을 수행할 수 있다.

예를 들어, 현재 실행 중인 애플리케이션이 웹 브라우징 애플리케이션이고, 사용자가 발화한 음성이 웹 브라우징 애플리케이션이 표시하고 있는 웹 페이지 내 객체와 매칭되지 않는 경우, 프로세서(120)는 기 설정된 다른 애플리케이션을 실행시켜 사용자가 발화한 음성에 대응하는 검색 기능을 수행할 수 있다. 여기서 기 설정된 다른 애플리케이션은 검색 기능을 제공하는 애플리케이션으로서 예컨대, 구글™의 검색엔진을 이용하여 음성에 대응하는 텍스트에 대한 검색결과를 제공하는 애플리케이션, 음성에 대응하는 텍스트에 대응하는 VOD 컨텐츠의 검색 결과를 제공하는 애플리케이션 등일 수 있다. 한편, 이와 같은 다른 애플리케이션이 실행되기 전에, 프로세서(120)는 "현재 화면에서 ○○○와 일치되는 결과가 없습니다. 인터넷에서 ○○○를 검색하시겠습니까?"와 같은 사용자의 동의를 받기 위한 UI를 표시할 수 있고, UI에서 사용자 동의가 입력되고 나서 인터넷 검색 애플리케이션 등을 실행하여 검색 결과를 제공할 수 있다.

디스플레이장치(100)는 서버(300)로부터 수신된 음성 인식 결과를 처리하는 음성처리부와 디스플레이장치(100)에 설치된 애플리케이션을 실행하는 애플리케이션부를 포함할 수 있다. 음성처리부는 서버(300)로부터 수신된 음성 인식 결과를 애플리케이션부에 제공한다. 애플리케이션부의 제1 애플리케이션이 실행되어 제1 애플리케이션의 화면이 디스플레이(110)에 표시되어 있는 동안 상기 인식 결과를 제공받은 경우, 제1 애플리케이션은 음성처리부로부터 제공받은 음성 인식 결과를 기초로 앞서 설명한 동작을 수행할 수 있다. 예컨대, 음성 인식 결과에 포함된 숫자에 해당하는 텍스트 또는 이미지 객체 탐색, 음성 인식 결과에 포함된 단어에 해당하는 텍스트 객체 탐색, 음성 인식 결과에 "검색"이 포함된 경우 검색창에 키워드 입력 후 검색을 실행하는 등과 같은 동작을 수행할 수 있다. 만약 제1 애플리케이션이 음성처리부로부터 제공받은 음성 인식 결과를 이용하여 수행할 동작이 없는 경우, 즉 예컨대 음성 인식 결과에 해당하는 텍스트 또는 이미지 객체가 없거나, 검색창이 없는 경우, 제1 애플리케이션은 음성처리부에 이를 통지하고, 음성처리부는 음성 인식 결과와 관련한 동작을 수행할 수 있는 제2 애플리케이션을 실행하도록 애플리케이션부를 제어할 수 있다. 예컨대, 제2 애플리케이션은 특정 검색어에 대한 검색 결과를 제공하는 애플리케이션이다. 애플리케이션부는 제2 애플리케이션을 실행하여 음성인식결과에 포함된 텍스트를 검색어로 이용한 검색 결과를 제공할 수 있다.

도 10은 디스플레이장치(100)가 TV로 구현된 경우의 구성을 도시한 블럭도이다. 도 10을 설명함에 있어서 도 4에서 설명한 구성과 중복되는 구성에 대한 설명은 생략한다.

도 10을 참고하면, 디스플레이장치(100)는 예를 들어 아날로그 TV, 디지털 TV, 3D-TV, 스마트 TV, LED TV, OLED TV, 플라즈마 TV, 모니터, 고정 곡률(curvature)인 화면을 가지는 커브드(curved) TV, 고정 곡률인 화면을 가지는 플렉시블(flexible) TV, 고정 곡률인 화면을 가지는 벤디드(bended) TV, 및/또는 수신되는 사용자 입력에 의해 현재 화면의 곡률을 변경 가능한 곡률 가변형 TV 등으로 구현될 수 있으나, 이에 한정되지 않는다.

디스플레이 장치(100)는 디스플레이(110), 프로세서(120), 튜너(130), 통신부(140), 마이크(150), 입/출력부(160), 오디오 출력부(170), 저장부(180)를 포함한다.

튜너(130)는 유선 또는 무선으로 수신되는 방송 신호를 증폭(amplification), 혼합(mixing), 공진(resonance) 등을 통하여 많은 전파 성분 중에서 디스플레이 장치(100)에서 수신하고자 하는 채널의 주파수만을 튜닝(tuning)시켜 선택할 수 있다. 방송 신호는 비디오(video), 오디오(audio) 및 부가 데이터(예를 들어, EPG(Electronic Program Guide)를 포함할 수 있다.

튜너(130)는 사용자 입력에 대응되는 채널 번호에 대응되는 주파수 대역에서 비디오, 오디오 및 데이터를 수신할 수 있다.

튜너(130)는 지상파 방송, 케이블 방송, 또는, 위성 방송 등과 같이 다양한 소스에서부터 방송 신호를 수신할 수 있다. 튜너(130)는 다양한 소스에서부터 아날로그 방송 또는 디지털 방송 등과 같은 소스로부터 방송 신호를 수신할 수도 있다.

튜너(130)는 디스플레이 장치(100)와 일체형(all-in-one)으로 구현되거나 또는 디스플레이 장치(100)와 전기적으로 연결되는 튜너 유닛을 가지는 별개의 장치(예를 들어, 셋톱박스(set-top box), 입/출력부(160)에 연결되는 튜너)로 구현될 수 있다.

통신부(140)는 다양한 유형의 통신방식에 따라 다양한 유형의 외부 기기와 통신을 수행하는 구성이다. 통신부(140)는 근거리 통신망(LAN: Local Area Network) 또는 인터넷망을 통해 외부 기기에 접속될 수 있고, 무선 통신(예를 들어, Z-wave, 4LoWPAN, RFID, LTE D2D, BLE, GPRS, Weightless, Edge Zigbee, ANT+, NFC, IrDA, DECT, WLAN, 블루투스, 와이파이, Wi-Fi Direct, GSM, UMTS, LTE, WiBRO 등의 무선 통신) 방식에 의해서 외부 기기에 접속될 수 있다. 통신부(140)는 와이파이칩(141), 블루투스 칩(142), NFC칩(143), 무선 통신 칩(144) 등과 같은 다양한 통신 칩을 포함한다. 와이파이 칩(141), 블루투스 칩(142), NFC 칩(143)은 각각 WiFi 방식, 블루투스 방식, NFC 방식으로 통신을 수행한다. 무선 통신 칩(174)은 IEEE, 지그비, 3G(3rd Generation), 3GPP(3rd Generation Partnership Project), LTE(Long Term Evoloution) 등과 같은 다양한 통신 규격에 따라 통신을 수행하는 칩을 의미한다. 또한 통신부(140)는 외부장치(200)로부터 제어신호(예를 들어 IR 펄스)를 수신할 수 있는 광 수신부(145)를 포함한다.

프로세서(120)는 통신부(140)를 통해 서버(300)로 음성신호와 언어정보(음성 인식의 기초가 되는 언어에 대한 정보)를 전송할 수 있고, 서버(300)가 상기 언어 정보에 대응하는 언어의 음성인식엔진을 이용하여 상기 음성신호에 대하여 수행한 음성 인식의 결과를 전송하면, 상기 음성 인식의 결과를 통신부(140)를 통해 수신할 수 있다.

마이크(150)는 사용자가 발화한 음성을 수신할 수 있고, 수신된 음성에 대응하는 음성 신호를 생성할 수 있다. 마이크(150)는 디스플레이 장치(100)와 일체형으로 구현되거나 또는 분리될 수 있다. 분리된 마이크(150)는 디스플레이 장치(100)와 전기적으로 연결될 수 있다.

디스플레이장치(100)에 마이크가 없는 경우, 디스플레이장치(100)는 외부장치(200)의 마이크를 통해 입력된 음성에 대응하는 음성신호를 통신부(140)를 통해 외부장치(200)로부터 수신할 수 있다. 통신부(140)는 와이파이, 블루투스 등의 통신 방식으로 외부장치(200)로부터 음성신호를 수신할 수 있다.

입/출력부(160)는 외부 장치와 연결되기 위한 구성이다. 입/출력부(160)는 HDMI 입력 포트(High-Definition Multimedia Interface port, 161), 컴포넌트 입력 잭(162), 및 USB 포트(163) 중 적어도 하나를 포함할 수 있다. 도시한 것 이외에도 입/출력부(180)는 RGB, DVI, HDMI, DP, 썬드볼트 등의 포트 중 적어도 하나를 포함할 수 있다.

오디오 출력부(170)는 오디오를 출력하기 위한 구성으로서, 예컨대, 튜너(130)를 통해 수신된 방송 신호에 포함된 오디오, 또는 통신부(140), 입/출력부(160) 등을 통해 입력되는 오디오, 또는 저장부(180)에 저장된 오디오 파일에 포함된 오디오를 출력할 수 있다. 오디오 출력부(170)는 스피커(171) 및 헤드폰 출력 단자(172)를 포함할 수 있다.

저장부(180)는 프로세서(120)의 제어에 의해 디스플레이 장치(100)를 구동하고 제어하기 위한 각종 애플리케이션 프로그램, 데이터, 소프트웨어 모듈을 포함할 수 있다. 예컨대, 저장부(180)는 인터넷망을 통해 수신된 웹 컨텐츠 데이터를 파싱하는 웹 파싱 모듈, JavaScript 모듈, 그래픽처리 모듈, 음성인식결과 처리모듈, 입력 처리 모듈을 포함할 수 있다.

외부의 서버(300)가 아닌 디스플레이장치(100) 자체적으로 음성 인식을 수행하는 경우, 저장부(180)에는 다양한 언어에 맞는 다양한 음성인식엔진을 포함하는 음성인식모듈이 저장되어 있을 수 있다.

저장부(180)는 디스플레이(110)에서 제공되는 다양한 UI 화면을 구성하기 위한 데이터를 저장할 수 있다. 또한, 저장부(180)는 다양한 사용자 인터렉션에 대응되는 제어 신호를 생성하기 위한 데이터를 저장할 수 있다.

저장부(180)는 비휘발성 메모리, 휘발성 메모리, 플래시메모리(flash-memory), 하드디스크 드라이브(HDD) 또는 솔리드 스테이트 드라이브(SSD) 등으로 구현될 수 있다. 한편, 저장부(180)는 디스플레이 장치(100) 내의 저장 매체뿐만 아니라, 외부 저장 매체, 예를 들어, micro SD 카드, USB 메모리 또는 네트워크를 통한 웹 서버(Web server) 등으로 구현될 수 있다.

프로세서(120)는 디스플레이 장치(100)의 전반적인 동작 및 디스플레이 장치(100)의 내부 구성요소들 사이의 신호 흐름을 제어하고, 데이터를 처리하는 기능을 수행한다.

프로세서(120)는 RAM(121), ROM(122), CPU(123) 및 버스(124)를 포함한다. RAM(121), ROM(122), CPU(123) 등은 버스(124)를 통해 서로 연결될 수 있다. 프로세서(120)는 SoC(System On Chip)로 구현될 수 있다.

CPU(123)는 저장부(180)에 액세스하여, 저장부(180)에 저장된 O/S를 이용하여 부팅을 수행한다. 그리고 저장부(180)에 저장된 각종 프로그램, 컨텐츠, 데이터 등을 이용하여 다양한 동작을 수행한다.

ROM(122)에는 시스템 부팅을 위한 명령어 세트 등이 저장된다. 턴 온 명령이 입력되어 전원이 공급되면, CPU(123)는 ROM(122)에 저장된 명령어에 따라 저장부(180)에 저장된 O/S를 RAM(121)에 복사하고, O/S를 실행시켜 시스템을 부팅시킨다. 부팅이 완료되면, CPU(123)는 저장부(180)에 저장된 각종 애플리케이션 프로그램을을 RAM(121)에 복사하고, RAM(121)에 복사된 애플리케이션 프로그램을 실행시켜 각종 동작을 수행한다.

프로세서(120)는 저장부(180)에 저장된 모듈을 이용하여 다양한 동작을 수행할 수 있다. 예를 들어, 프로세서(120)는 인터넷망을 통해 수신한 웹 컨텐츠 데이터를 파싱하고 처리하여 해당 컨텐츠의 전체적인 레이아웃(layout)과 각 객체를 디스플레이(110)에 표시할 수 있다.

프로세서(120)는 음성 인식 기능이 활성화 되면, 웹 컨텐츠의 객체들을 분석하여 음성으로 컨트롤 될 수 있는 객체를 찾아서 객체의 위치, 객체에 관련된 동작, 객체 내 텍스트 포함 여부 등의 정보에 대한 전 처리를 수행하여 전처리 수행 결과를 저장부(180)에 저장할 수 있다.

그리고 프로세서(120)는 전 처리된 객체 정보에 기초하여, 음성으로 컨트롤 가능한(선택 가능한) 객체들이 식별되게 표시되도록 디스플레이(110)를 제어할 수 있다. 예를 들어, 프로세서(120)는 음성으로 컨트롤이 가능한 객체들의 색상을 다른 객체들과 다르게 표시하도록 디스플레이(110)를 제어할 수 있다.

그리고 프로세서(120)는 마이크(150)로 입력된 음성을 음성인식엔진을 이용해서 텍스트로 인식할 수 있다. 이 경우, 프로세서(120)는 기결정된 언어(음성 인식의 기초가될 언어로서 설정된 언어)의 음성인식엔진을 이용한다. 또는, 프로세서(120)는 음성 신호와 음성 인식의 기초가 되는 언어에 대한 정보를 서버(300)로 보내어 서버(300)로부터 음성인식결과로서 텍스트를 수신하는 것도 가능하다.

그리고 프로세서(120)는 전 처리된 객체들 중에서 음성 인식 결과에 대응하는 객체를 검색하고, 검색된 객체의 위치에 객체가 선택되었음을 표시할 수 있다. 예를 들어, 프로세서(120)는 음성에 의해 선택된 객체를 하이라이트하도록 디스플레이(110)를 제어할 수 있다. 그리고 프로세서(120)는 전 처리된 객체 정보를 기초로, 음성 인식 결과에 대응하는 객체에 관련된 동작을 수행하여 그 결과를 디스플레이(110) 또는 오디오 출력부(170)를 통해 출력할 수 있다.

도 11은 본 개시의 일 실시 예에 따른 디스플레이장치(100)의 제어방법을 설명하기 위한 흐름도이다. 도 11에 도시된 흐름도는 본 명세서에서 설명되는 디스플레이장치(100)에서 처리되는 동작들로 구성될 수 있다. 따라서, 이하에서 생략된 내용이라 하더라도 디스플레이장치(100)에 관하여 기술된 내용은 도 11에 도시된 흐름도에도 적용될 수 있다.

도 11을 참고하면, 먼저 디스플레이장치(100)에서 복수의 텍스트 객체를 포함하는 UI 스크린을 표시한다(S1110).

그리고 디스플레이장치에 표시된 복수의 텍스트 객체 중 기결정된 언어와 상이한 텍스트 객체에 대해서는 기설정된 숫자를 함께 표시한다(S1120). 여기서 기결정된 언어란, 음성인식의 기초가 되는 언어로서 미리 결정된 것을 의미한다. 음성인식의 기초가 될 언어는 디폴트 언어로 설정된 언어이거나, 사용자의 수동 설정에 의해 설정되거나, 디스플레이장치(100)에 표시된 객체들을 구성하는 언어에 기초하여 자동 설정될 수 있다. 자동 설정의 경우, 예컨대 디스플레이장치(100)에 표시된 객체들에 OCR(Optical character recognition)을 적용하여 객체를 구성하는 언어를 확인할 수 있다.

그리고 사용자가 발화한 음성의 인식 결과가 표시된 숫자를 포함하면 표시된 숫자에 대응되는 텍스트 객체와 관련된 동작을 수행한다(S1130).

사용자가 발화한 음성의 인식 결과는 디스플레이장치의 자체적인 음성 인식에 의해 얻을 수 있거나, 복수의 서로 다른 언어에 대한 음성 인식을 수행하는 외부 서버에 음성 인식을 요청해서 수신받을 수 있다. 후자의 경우, 디스플레이장치(100)는 사용자가 발화한 음성에 대응하는 음성 신호와 음성 인식의 기초가되는 언어로 설정된 언어에 대한 정보를 외부 서버에 제공하고, 외부 서버로부터 수신된 음성 인식 결과가 표시된 숫자를 포함하면, 표시된 숫자에 대응되는 텍스트 객체와 관련된 동작을 수행할 수 있다.

예컨대, 텍스트 객체가 웹 페이지 내의 하이퍼링크텍스트인 경우, 텍스트 객체에 대응하는 URL 주소의 웹 페이지의 표시 동작을 수행할 수 있고, 텍스트 객체가 애플리케이션 실행을 위한 아이콘인 경우, 해당 애플리케이션을 실행할 수 있다.

한편, 상기 복수의 텍스트 객체를 포함하는 UI 스크린은 제1 애플리케이션의 실행 화면일 수 있다. 제1 애플리케이션의 실행 화면이란 제1 애플리케이션이 제공하는 어떠한 화면이라도 될 수 있다. 제1 애플리케이션의 실행 화면이 표시된 동안 사용자가 발화한 음성의 인식 결과에 대응하는 객체가 상기 제1 애플리케이션의 실행 화면에 없는 것으로 판단되면, 디스플레이장치는 상기 제1 애플리케이션과는 다른 제2 애플리케이션을 실행하여 상기 음성의 인식 결과에 대응하는 동작을 수행할 수 있다. 여기서 제1 애플리케이션은 웹브라우징 애플리케이션일 수 있고, 제2 애플리케이션은 다양한 소스, 예컨대 인터넷, 디스플레이장치 내 저장된 데이터, VOD 컨텐츠, 채널 정보(ex. EPG) 등에서 검색을 수행하는 애플리케이션일 수 있다. 예컨대, 현재 표시된 웹 페이지에서 음성 인식에 대응하는 객체가 없는 경우, 디스플레이장치는 다른 애플리케이션을 실행해서 음성 인식에 대응하는 검색 결과(예컨대, 구글 검색 결과, VOD 검색 결과, 채널 검색 결과 등)를 제공할 수 있다.

상술한 다양한 실시 예들에 따르면, 다양한 언어로 구성된 객체들에 대한 음성 컨트롤이 가능하며, 또한, 음성 검색을 보다 용이하게 할 수 있다.

한편, 이상에서 설명된 다양한 실시 예들은 소프트웨어(software), 하드웨어(hardware) 또는 이들의 조합된 것을 이용하여 컴퓨터(computer) 또는 이와 유사한 장치로 읽을 수 있는 기록 매체 내에서 구현될 수 있다. 하드웨어적인 구현에 의하면, 본 개시에서 설명되는 실시 예들은 ASICs(Application Specific Integrated Circuits), DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(programmable logic devices), FPGAs(field programmable gate arrays), 프로세서(processors), 제어기(controllers), 마이크로 컨트롤러(micro-controllers), 마이크로 프로세서(microprocessors), 기타 기능 수행을 위한 전기적인 유닛(unit) 중 적어도 하나를 이용하여 구현될 수 있다. 일부의 경우에 본 명세서에서 설명되는 실시 예들이 프로세서(120) 자체로 구현될 수 있다. 소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시 예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 상기 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 작동을 수행할 수 있다.

한편, 상술한 본 개시의 다양한 실시 예들에 따른 디스플레이장치(100)에서의 처리동작을 수행하기 위한 컴퓨터 명령어(computer instructions)는 비일시적 컴퓨터 판독 가능 매체(non-transitory computer-readable medium) 에 저장될 수 있다. 이러한 비일시적 컴퓨터 판독 가능 매체에 저장된 컴퓨터 명령어는 특정 기기의 프로세서에 의해 실행되었을 때 상술한 다양한 실시 예에 따른 디스플레이장치(100)에서의 처리 동작을 상기 특정 기기가 수행하도록 한다.

비일시적 컴퓨터 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 비일시적 컴퓨터 판독 가능 매체의 구체적인 예로는, CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등이 있을 수 있다.

이상에서는 본 개시의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시에 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.

100: 디스플레이장치
110: 디스플레이
120: 프로세서

Claims

디스플레이 장치에 있어서,
디스플레이; 및
복수의 객체를 포함하는 제1 화면을 표시하도록 상기 디스플레이를 제어하고,
상기 디스플레이 장치 또는 외부 장치의 마이크를 이용하여 수신된 음성 입력에 대응되는 음성 신호를 수신하고,
텍스트를 포함하는 음성 인식 결과를 획득하도록 음성 신호를 처리하고,
상기 텍스트가 상기 복수의 객체 중 단일 객체에 대응되면, 상기 단일 객체와 관련된 동작을 수행하고,
상기 텍스트가 상기 복수의 객체 중 적어도 두 개의 객체들에 대응되면, 적어도 두 개의 아이콘을 표시하도록 상기 디스플레이를 제어하는 프로세서;를 포함하고,
상기 적어도 두 개의 아이콘 중 각 아이콘은 숫자를 표현하며, 상기 적어도 두 개의 객체들 중 대응되는 객체에 인접하여 표시되는, 디스플레이 장치.
제1항에 있어서,
상기 디스플레이 장치는 통신부;를 더 포함하고,
상기 프로세서는,
상기 음성 신호를 서버로 전송하도록 통신부를 제어하고,
상기 통신부를 이용하여, 상기 서버로부터 상기 음성 인식 결과를 수신하는, 디스플레이 장치.
제1항에 있어서,
상기 프로세서는,
상기 텍스트를 포함하는 적어도 하나의 객체를 식별하는, 디스플레이 장치.
제3항에 있어서,
상기 프로세서는,
상기 적어도 하나의 객체가 상기 단일 객체이면, 상기 단일 객체와 관련된 동작을 수행하고,
상기 적어도 하나의 객체가 상기 적어도 두 개의 객체이면, 상기 적어도 두 개의 아이콘들을 표시하도록 상기 디스플레이를 제어하는, 디스플레이 장치.
제1항에 있어서,
상기 프로세서는,
상기 적어도 두 개의 객체들의 위치들에 대한 정보에 기초하여 상기 적어도 두 개의 아이콘들을 표시하도록 상기 디스플레이를 제어하는, 디스플레이 장치.
제1항에 있어서,
상기 입력된 음성은 제1 음성 입력이고, 상기 음성 신호는 제1 음성 신호이며, 상기 음성 인식 결과는 제1 음성 인식 결과이고, 상기 텍스트는 제1 텍스트이며, 상기 단일 객체는 제1 단일 객체이고,
상기 프로세서는,
상기 디스플레이 장치 또는 상기 외부 장치의 상기 마이크를 이용하여 수신된 제2 음성 입력에 대응되는 제2 음성 신호를 수신하고,
제2 텍스트를 포함하는 제2 음성 인식 결과를 획득하도록 상기 제2 음성 신호를 처리하고,
상기 제2 텍스트가 상기 적어도 두 개의 객체 중 제2 단일 객체에 대응되면, 상기 제2 단일 객체와 관련된 동작을 수행하는, 디스플레이 장치.
제1항에 있어서,
상기 숫자는 음성 인식을 위해 이용된 기초 언어의 단어로 표현되는, 디스플레이 장치.
제1항에 있어서,
상기 단일 객체 및 상기 적어도 두 개의 객체들은 상기 음성 신호에 기초하여 선택 가능하며,
상기 단일 객체 각각 및 상기 적어도 두 개의 객체는 기 설정된 언어에 포함된 텍스트 객체를 포함하는, 디스플레이 장치.
제1항에 있어서,
상기 프로세서는,
상기 적어도 두 개의 아이콘과 함께, 사용자에게 상기 숫자를 포함하는 추가 음성 입력을 제공하도록 지시하는 문구를 표시하도록 상기 디스플레이를 제어하는, 디스플레이 장치.
제1항에 있어서,
상기 프로세서는,
상기 복수의 객체가 상기 음성 인식 결과와 대응하지 않는다고 판단하면, 상기 음성 인식 결과에 포함된 상기 텍스트에 기초하여 검색 결과를 표시하도록 상기 디스플레이를 제어하는, 디스플레이 장치.
디스플레이 장치의 제어 방법에 있어서,
복수의 객체를 포함하는 제1 화면을 표시하는 단계;
상기 디스플레이 장치 또는 외부 장치의 마이크를 이용하여 수신된 음성 입력에 대응되는 음성 신호를 수신하는 단계;
텍스트를 포함하는 음성 인식 결과를 획득하도록 음성 신호를 처리하는 단계;
상기 텍스트가 상기 복수의 객체 중 단일 객체에 대응되면, 상기 단일 객체와 관련된 동작을 수행하는 단계; 및
상기 텍스트가 상기 복수의 객체 중 적어도 두 개의 객체들에 대응되면, 적어도 두 개의 아이콘을 표시하는 단계;를 포함하고,
상기 적어도 두 개의 아이콘 중 각 아이콘은 숫자를 표현하며, 상기 적어도 두 개의 객체들 중 대응되는 객체에 인접하여 표시되는, 제어 방법.
제11항에 있어서,
상기 제어 방법은,
상기 음성 신호를 서버로 전송하는 단계; 및
상기 서버로부터 상기 음성 인식 결과를 수신하는 단계;를 더 포함하는, 제어 방법.
제11항에 있어서,
상기 제어 방법은,
상기 텍스트를 포함하는 적어도 하나의 객체를 식별하는 단계;를 더 포함하는, 제어 방법.
제13항에 있어서,
상기 단일 객체와 관련된 동작을 수행하는 단계는,
상기 적어도 하나의 객체가 상기 단일 객체이면, 상기 단일 객체와 관련된 동작을 수행하고,
상기 적어도 두 개의 아이콘을 표시하는 단계는,
상기 적어도 하나의 객체가 상기 적어도 두 개의 객체이면, 상기 적어도 두 개의 아이콘들을 표시하는, 제어 방법.
제11항에 있어서,
상기 적어도 두 개의 아이콘을 표시하는 단계는,
상기 적어도 두 개의 객체들의 위치들에 대한 정보에 기초하여 상기 적어도 두 개의 아이콘들을 표시하는, 제어 방법.
제11항에 있어서,
상기 입력된 음성은 제1 음성 입력이고, 상기 음성 신호는 제1 음성 신호이며, 상기 음성 인식 결과는 제1 음성 인식 결과이고, 상기 텍스트는 제1 텍스트이며, 상기 단일 객체는 제1 단일 객체이고,
상기 제어 방법은,
상기 디스플레이 장치 또는 상기 외부 장치의 상기 마이크를 이용하여 수신된 제2 음성 입력에 대응되는 제2 음성 신호를 수신하는 단계;
제2 텍스트를 포함하는 제2 음성 인식 결과를 획득하도록 상기 제2 음성 신호를 처리하는 단계; 및
상기 제2 텍스트가 상기 적어도 두 개의 객체 중 제2 단일 객체에 대응되면, 상기 제2 단일 객체와 관련된 동작을 수행하는 단계;를 더 포함하는, 제어 방법.
제11항에 있어서,
상기 숫자는 음성 인식을 위해 이용된 기초 언어의 단어로 표현되는, 제어 방법.
제11항에 있어서,
상기 단일 객체 및 상기 적어도 두 개의 객체들은 상기 음성 신호에 기초하여 선택 가능하며,
상기 단일 객체 각각 및 상기 적어도 두 개의 객체는 기 설정된 언어에 포함된 텍스트 객체를 포함하는, 제어 방법.
제11항에 있어서,
상기 제어 방법은,
상기 적어도 두 개의 아이콘과 함께, 사용자에게 상기 숫자를 포함하는 추가 음성 입력을 제공하도록 지시하는 문구를 표시하는 단계;를 더 포함하는, 제어 방법.
제11항에 있어서,
상기 제어 방법은,
상기 복수의 객체가 상기 음성 인식 결과와 대응하지 않는다고 판단하면, 상기 음성 인식 결과에 포함된 상기 텍스트에 기초하여 검색 결과를 표시하는 단계;를 더 포함하는, 제어 방법.

.