WO2019103518A1

WO2019103518A1 - 전자 장치 및 그 제어 방법

Info

Publication number: WO2019103518A1
Application number: PCT/KR2018/014509
Authority: WO
Inventors: 권재성
Original assignee: 삼성전자주식회사
Priority date: 2017-11-24
Filing date: 2018-11-23
Publication date: 2019-05-31
Also published as: CN111344664A; KR20220143622A; KR20190060157A; CN117975962A; US20200243084A1; KR102455067B1; US11455990B2; US20220375473A1; CN111344664B

Abstract

전자 장치가 개시된다. 전자 장치는 음성 입력부, 제1 표기 형식에 따른 제1 텍스트 및 제1 텍스트가 제2 표기 형식으로 표기된 적어도 하나의 제2 텍스트를 저장하는 저장부 및, 음성 입력부를 통해 입력된 사용자 음성이 변환된 음성 텍스트가 기설정된 명령어에 대응되면, 기설정된 명령어에 따른 기능을 실행하는 프로세서를 포함한다. 프로세서는, 기설정된 명령어가 제1 텍스트를 포함하고, 음성 텍스트가, 기설정된 명령어의 제1 텍스트가 제2 표기 형식의 제2 텍스트로 표기된 텍스트인 경우, 기설정된 명령어에 따른 기능을 실행한다.

Description

전자 장치 및 그 제어 방법

본 발명은 전자 장치 및 그 제어 방법에 관한 것으로, 보다 상세하게는 음성 인식에 의해 제어될 수 있는 전자 장치 및 그 제어 방법에 관한 것이다.

기술 개발로 인해, 스마트 폰, 스마트 TV와 같은 디스플레이 장치에서 사용자의 음성 인식이 가능해짐에 따라, 사용자는 별도의 조작 없이 발화 음성을 통해 디스플레이 장치의 동작을 제어하거나 다양한 컨텐츠 서비스를 제공받을 수 있다.

또한, 클라우드 기반의 음성 인식 서비스는 NLU(Natural Language Understanding) 모듈에서 음성 인식 결과에 기반한 기능 동작의 실행을 결정하는 것이 일반적이다. 사용자가 전자 장치에 음성 명령어를 입력하면, 음성 인식 서버는 전자 장치로부터 음성 명령어를 전달받아 음성 인식을 수행하게 된다. 이때, 음성 인식 서버는 NLU 모듈에 음성 인식 결과를 전달하고(추가적으로 전자 장치에 음성 인식 결과를 전달하여, 전자 장치에 사전 등록된 명령어를 빠르게 실행하도록 할 수도 있다), NLU 모듈에서는 음성 인식 결과를 분석하여 적절한 기능 실행 방법을 도출하며, 그 결과를 전자 장치에 전달한다.

그러나, NLU 처리가 어려운 상황인 경우, 혹은 응답 시간의 단축이 필요한 경우에는 NLU 처리 전에 음성 인식 결과만으로 기능이 실행되도록 동작하는 경우도 있다. 예를 들어, TV와 같은 디스플레이 장치는 기본적인 기능을 위한 사전 등록된 명령어("볼륨올려", "채널올려"), 보이스 터치(디스플레이 화면에 보이는 선택 항목의 텍스트를 명령어로 등록하여 음성으로 기능을 실행하는 기술)에 기반한 명령어의 실행을 위해서 음성 인식 결과와 명령어의 문자를 비교하고, 완벽히 일치하는 명령어의 기능 동작을 수행하게 된다.

그러나, 이러한 종래 기술은 명령어와 음성인식 결과의 문자를 비교하여 완벽히 일치하는 명령어를 찾기 때문에, 명령어 표기의 불일치가 있거나 명령어의 다양한 표현 방식이 있는 경우 정확한 문자 비교가 되지 않으므로, 사용자에게 음성 인식 기능에 대한 부정적인 인식을 심어줄 우려가 있다.

본 발명은 상술한 문제에 의한 필요성에 따른 것으로, 본 발명의 목적은 다양한 표현 방식에 따른 음성 명령을 처리할 수 있는 전자 장치 및 그 제어 방법을 제공함에 있다.

본 발명의 일 실시 예에 따른 전자 장치는 음성 입력부, 제1 표기 형식에 따른 제1 텍스트 및 상기 제1 텍스트가 제2 표기 형식으로 표기된 적어도 하나의 제2 텍스트를 저장하는 저장부 및, 상기 음성 입력부를 통해 입력된 사용자 음성이 변환된 음성 텍스트가 기설정된 명령어에 대응되면, 상기 기설정된 명령어에 따른 기능을 실행하는 프로세서를 포함하고, 상기 프로세서는 상기 기설정된 명령어가 상기 제1 텍스트를 포함하고, 상기 음성 텍스트가, 상기 기설정된 명령어의 상기 제1 텍스트가 제2 표기 형식의 상기 제2 텍스트로 표기된 텍스트인 경우, 상기 기설정된 명령어에 따른 기능을 실행한다.

이때, 상기 음성 텍스트는 기설정된 텍스트 단위로 구분되고, 상기 프로세서는 상기 음성 텍스트의 텍스트 단위 중 적어도 하나가 상기 제2 텍스트를 포함하면, 상기 저장부로부터, 상기 제2 텍스트 각각에 대응되는 제1 텍스트를 식별하고, 상기 식별된 제1 텍스트 및 상기 제2 텍스트에 기초하여 식별된 명령어에 따른 기능을 실행할 수 있다.

또한, 상기 프로세서는 상기 음성 텍스트의 텍스트 단위 및 상기 식별된 제1 텍스트 중 어느 하나가 상기 기설정된 명령어에 포함되는지 여부에 기초하여 상기 기설정된 명령어 및 상기 사용자 음성의 제1 유사도 스코어를 산출하고, 상기 산출된 제1 유사도 스코어가 기설정된 임계값 이상인 경우, 상기 기설정된 명령어에 따른 기능을 실행할 수 있다.

또한, 상기 기설정된 명령어는 기설정된 텍스트 단위로 구분되고, 상기 프로세서는 상기 기설정된 명령어의 텍스트 단위 각각이 상기 음성 텍스트의 텍스트 단위 및 상기 식별된 제1 텍스트 중 어느 하나에 포함되는지 여부에 기초하여 상기 기설정된 명령어 및 상기 사용자 음성의 제2 유사도 스코어를 더 산출하고, 상기 산출된 제1 및 제2 유사도 스코어 각각이 기설정된 임계값 이상인 경우, 상기 기설정된 명령어에 따른 기능을 실행할 수 있다.

또한, 상기 전자 장치는 디스플레이를 더 포함하고, 상기 기설정된 명령어는 상기 디스플레이를 통해 제공되는 UI(User Interface)에 표시될 수 있다.

또한, 상기 프로세서는 상기 기설정된 명령어에 따른 기능이 실행된 화면을 디스플레이하도록 상기 디스플레이를 제어할 수 있다.

또한, 상기 전자 장치는 통신부를 더 포함하고, 상기 프로세서는 상기 기설정된 명령어에 따른 기능이 실행된 화면을 제공하는 영상을 상기 전자 장치와 연결된 디스플레이 장치에 전송하도록 상기 통신부를 제어할 수 있다.

또한, 상기 음성 입력부는 마이크로폰(microphone)를 포함할 수 있다.

또한, 상기 프로세서는 상기 음성 입력부를 통해 입력된 상기 사용자 음성을 외부 장치로 전송하고, 상기 외부 장치로부터 상기 사용자 음성이 음성 인식에 따라 변환된 음성 텍스트를 수신하도록 상기 통신부를 제어할 수 있다.

또한, 상기 제2 텍스트는 상기 제1 텍스트의 외래어 표기에 의한 형식, 숫자 표기에 의한 형식 및 기호 표기에 의한 형식 중 적어도 하나에 따라 상기 제1 텍스트와 다르게 표기되는 텍스트일 수 있다.

한편, 제1 표기 형식에 따른 제1 텍스트 및 상기 제1 텍스트가 제2 표기 형식으로 표기된 적어도 하나의 제2 텍스트를 저장하는 전자 장치의 일 실시 예에 따른 제어 방법은 사용자 음성을 입력받는 단계 및, 상기 입력된 사용자 음성이 변환된 음성 텍스트가 기설정된 명령어에 대응되면, 상기 기설정된 명령어에 따른 기능을 실행하는 단계를 포함하고, 상기 실행하는 단계는 상기 기설정된 명령어가 상기 제1 텍스트를 포함하고, 상기 음성 텍스트가, 상기 기설정된 명령어의 상기 제1 텍스트가 제2 표기 형식의 상기 제2 텍스트로 표기된 텍스트인 경우, 상기 기설정된 명령어에 따른 기능을 실행한다.

이때, 상기 음성 텍스트는 기설정된 텍스트 단위로 구분되고, 상기 실행하는 단계는 상기 음성 텍스트의 텍스트 단위 중 적어도 하나가 상기 제2 텍스트를 포함하면, 상기 제2 텍스트 각각에 대응되는 제1 텍스트를 식별하고, 상기 식별된 제1 텍스트 및 상기 제2 텍스트에 기초하여 식별된 명령어에 따른 기능을 실행할 수 있다.

또한, 상기 실행하는 단계는 상기 음성 텍스트의 텍스트 단위 및 상기 식별된 제1 텍스트 중 어느 하나가 상기 기설정된 명령어에 포함되는지 여부에 기초하여, 상기 기설정된 명령어 및 상기 사용자 음성의 제1 유사도 스코어를 산출하는 단계 및 상기 산출된 제1 유사도 스코어가 기설정된 임계값 이상인 경우, 상기 기설정된 명령어에 따른 기능을 실행하는 단계를 포함할 수 있다.

또한, 상기 기설정된 명령어는 기설정된 텍스트 단위로 구분되고, 상기 제어 방법은 상기 기설정된 명령어의 텍스트 단위 각각이 상기 음성 텍스트의 텍스트 단위 및 상기 식별된 제1 텍스트 중 어느 하나에 포함되는지 여부에 기초하여 상기 기설정된 명령어 및 상기 사용자 음성의 제2 유사도 스코어를 산출하는 단계를 더 포함하며, 상기 실행하는 단계는 상기 산출된 제1 및 제2 유사도 스코어 각각이 기설정된 임계값 이상인 경우, 상기 기설정된 명령어에 따른 기능을 실행할 수 있다.

또한, 상기 제어 방법은 상기 기설정된 명령어를 포함하는 UI를 표시하는 단계 및, 상기 기설정된 명령어에 따른 기능이 실행된 화면을 표시하는 단계를 더 포함할 수 있다.

또한, 상기 제어 방법은 상기 기설정된 명령어에 따른 기능이 실행된 화면을 제공하는 영상을 상기 전자 장치와 연결된 디스플레이 장치에 전송하는 단계를 더 포함할 수 있다.

또한, 상기 제어 방법은 상기 입력된 사용자 음성을 외부 장치로 전송하는 단계 및, 상기 외부 장치로부터 상기 사용자 음성이 음성 인식에 따라 변환된 음성 텍스트를 수신하는 단계를 더 포함할 수 있다.

또한, 상기 기설정된 텍스트 단위는 단어, 숫자 및 기호 중 적어도 하나를 포함할 수 있다.

또한, 상기 사용자 음성을 입력받는 단계는 상기 전자 장치를 제어하기 위한 원격 제어 장치로부터, 상기 사용자 음성을 수신할 수 있다.

본 발명의 다양한 실시 예에 따르면, 음성 인식 결과와 명령어 표기의 불일치가 있는 경우에도 사용자의 의도에 따른 명령어의 기능이 실행될 수 있으므로, 사용자의 만족도와 편의성을 증대시킬 수 있다.

도 1a 내지 1c는 본 발명의 다양한 실시 예에 따른 전자 장치의 구성을 간략히 도시한 블록도,

도 2는 본 발명의 일 실시 예에 따른 전자 장치의 구현 예를 나타낸 도면,

도 3은 본 발명의 일 실시 예에 따른 음성 인식 시스템을 설명하기 위한 도면,

도 4는 본 발명의 일 실시 예에 따른 확장 텍스트에 의한 기능 실행 방법을 설명하기 위한 블록도,

도 5는 본 발명의 일 실시 예에 따른 확장 단어 리스트를 설명하기 위한 도면,

도 6은 본 발명의 일 실시 예에 따른 명령어들이 표시된 보이스 터치 화면을 나타낸 도면,

도 7은 본 발명의 다른 실시 예에 따른 전자 장치의 구성을 상세히 도시한 블록도,

도 8은 본 발명의 일 실시 예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도이다.

-

본 발명에 대하여 구체적으로 설명하기에 앞서, 본 명세서 및 도면의 기재 방법에 대하여 설명한다.

먼저, 본 명세서 및 청구범위에서 사용되는 용어는 본 발명의 다양한 실시 예들에서의 기능을 고려하여 일반적인 용어들을 선택하였다. 하지만, 이러한 용어들은 당 분야에 종사하는 기술자의 의도나 법률적 또는 기술적 해석 및 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 일부 용어는 출원인이 임의로 선정한 용어일 수 있다. 이러한 용어에 대해서는 본 명세서에서 정의된 의미로 해석될 수 있으며, 구체적인 용어 정의가 없으면 본 명세서의 전반적인 내용 및 당해 기술 분야의 통상적인 기술 상식을 토대로 해석될 수도 있다.

또한, 본 명세서에 첨부된 각 도면에 기재된 동일한 참조 번호 또는 부호는 실질적으로 동일한 기능을 수행하는 부품 또는 구성요소를 나타낸다. 설명 및 이해의 편의를 위해서 서로 다른 실시 예들에서도 동일한 참조번호 또는 부호를 사용하여 설명하도록 한다. 즉, 복수의 도면에서 동일한 참조 번호를 가지는 구성 요소를 모두 도시하고 있다고 하더라도, 복수의 도면들이 하나의 실시 예를 의미하는 것은 아니다.

또한, 본 명세서 및 청구범위에서는 구성요소들 간의 구별을 위하여 ‘제1’, ‘제2’ 등과 같이 서수를 포함하는 용어가 사용될 수 있다. 이러한 서수는 동일 또는 유사한 구성 요소들을 서로 구별하기 위하여 사용하는 것이며, 이러한 서수 사용으로 인하여 용어의 의미가 한정 해석되어서는 안될 것이다. 일 예로, 이러한 서수와 결합된 구성 요소는 그 숫자에 의해 사용 순서나 배치 순서 등이 제한 해석되어서는 안된다. 필요에 따라서는, 각 서수들은 서로 교체되어 사용될 수도 있다.

본 명세서에서 단수의 표현은 문맥상 명백하게 다름을 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, ‘포함하다’ 또는 ‘구성하다’ 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성 요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성 요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

본 발명의 실시 예에서 ‘모듈’, ‘유닛’, ‘부(Part)’ 등과 같은 용어는 적어도 하나의 기능이나 동작을 수행하는 구성 요소를 지칭하기 위한 용어이며, 이러한 구성 요소는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어 및 소프트웨어의 결합으로 구현될 수도 있다. 또한, 복수의 ‘모듈’, ‘유닛’, ‘부(part)’ 등은 각각이 개별적인 특정한 하드웨어로 구현될 필요가 있는 경우를 제외하고는, 적어도 하나의 모듈이나 칩으로 일체화되어 적어도 하나의 프로세서(미도시)로 구현될 수 있다.

또한, 본 발명의 실시 예에서, 어떤 부분이 다른 부분과 연결되어 있다고 할 때, 이는 직접적인 연결뿐 아니라, 다른 매체를 통한 간접적인 연결의 경우도 포함한다. 또한 어떤 부분이 어떤 구성 요소를 포함한다는 의미는, 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있다는 것을 의미한다.

이하, 첨부된 도면을 이용하여 본 발명에 대하여 구체적으로 설명한다.

도 1a 내지 1c는 본 발명의 다양한 실시 예에 따른 전자 장치의 구성을 간략히 도시한 블록도이다.

도 1a에 따르면, 본 발명의 일 실시 예에 따른 전자 장치(100)는 음성 입력부(110), 저장부(120) 및 프로세서(130)를 필수적으로 포함한다.

본 발명의 전자 장치(100)는 사용자의 발화 음성을 인식하여 사용자가 의도한 동작을 수행하는 장치로서, 도 2의 (a)에 도시된 바와 같은 스마트 TV, 도 2의 (b)에 도시된 바와 같은 셋탑 박스(set-top box), 도 2의 (c)에 도시된 바와 같은 스마트폰 등과 같은 다양한 전자 장치로 구현될 수 있다. 이 이에도, 전자 장치(100)는 태블릿(tablet) PC, PDA(Personal Digital Assistants), 노트북 등 다양한 전자 장치로 구현될 수 있음은 물론이다.

전자 장치(100)의 음성 입력부(110)는 사용자로부터 음성을 입력받기 위한 구성이다. 음성 입력부(110)는 마이크로폰(microphone)을 포함하며, 사용자로부터 발화된 음성에 대응하는 음성을 수집할 수 있다. 마이크로폰은 프로세서(130)의 제어에 따라, 외부로부터의 음성(voice) 또는 사운드(sound)를 입력받아 전기적인 음성 신호를 생성할 수 있다.

또한, 음성 입력부(110)는 유선 네트워크 또는 무선 네트워크를 통해 통신을 수행하여 사용자로부터 음성 신호를 입력받을 수도 있다. 예를 들어, 전자 장치(100)를 제어하기 위한 원격 제어 장치(10)가 마이크로폰을 포함하고 있는 경우, 원격 제어 장치(10)가 사용자 음성을 수집하고, 수집된 사용자 음성의 아날로그 신호 또는 디지털 신호를 전자 장치(100)에 전송할 수 있다. 음성 입력부(110)는 수신된 음성이 아날로그 신호인 경우, 이를 디지털 신호로 변환할 수 있다.

또한, 음성 입력부(110)는 전자 장치(100)와 연결된 외부의 마이크로폰을 통해 음성 신호를 입력받을 수도 있다.

저장부(120)는 전자 장치(100)의 기능 실행, 음성 인식, 콘텐츠 표시 등과 관련된 다양한 데이터를 저장하는 구성이다. 특히, 저장부(120)는 제1 표기 형식에 따른 제1 텍스트 및 제1 텍스트가 제2 표기 형식으로 표기된 적어도 하나의 제2 텍스트를 저장한다.

여기서, 제1 텍스트는, 단어(word), 숫자(number), 기호(symbol) 및 문장(sentence) 중 적어도 하나를 포함할 수 있다. 예를 들어, 제1 텍스트는 "smart", "home", "모드", "설정" 등과 같은 단어, "1", "3", "7" 등과 같은 숫자, "+", "*", "#" 등과 같은 기호, "TV 꺼", "10번 채널 틀어줘" 등과 같은 문장 등을 포함할 수 있다.

또한, 제2 텍스트는 제1 텍스트가 다른 표기 형식에 의해 표기된 텍스트를 의미한다. 좀 더 구체적으로, 제2 텍스트는 제1 텍스트의 외래어 표기에 의한 형식, 숫자 표기에 의한 형식 및 기호 표기에 의한 형식 중 적어도 하나에 따라 제1 텍스트와 다르게 표기되는 텍스트일 수 있다.

예를 들어, 제1 텍스트가 "smart"인 경우, 제2 텍스트는 "smart"가 한글로 표기된 "스마트"가 될 수 있다. 또한, 제1 텍스트가 "3"인 경우, 제2 텍스트는 "3"이 숫자가 아닌 "삼", "셋", "three", "쓰리" 등의 단어가 될 수 있다. 또한, 제1 텍스트가 "+"인 경우, 제2 텍스트는 "+"가 영어 또는 한글로 표기된 "plus", "플러스" 등이 될 수 있다.

이와 같이, 저장부(120)는 제1 표기 형식에 따른 제1 텍스트를 기준으로, 제1 텍스트가 제1 표기 형식과 다른 제2 표기 형식으로 표기된 하나 또는 복수의 제2 텍스트를 저장할 수 있다. 여기서, 제1 텍스트는 기설정되어 있을 수 있으며, 사용자에 의해 지정된 단어, 숫자 또는 기호일 수도 있다. 제1 텍스트는 복수 개일 수 있으며, 제1 텍스트에 매칭되는 적어도 하나의 제2 텍스트가 각각 리스트 형식으로 저장부(120)에 저장될 수 있다. 제1 텍스트 및 제1 텍스트에 매칭되는 적어도 하나의 제2 텍스트의 매칭 리스트에 대하여는 도 4에서 좀 더 구체적으로 설명하도록 한다.

프로세서(130)는 전자 장치(100)의 전반적인 동작을 제어하는 구성이다. 특히, 프로세서(130)는 음성 입력부(110)를 통해 입력된 사용자 음성이 변환된 음성 텍스트가 기설정된 명령어에 대응되면, 기설정된 명령어에 따른 기능을 실행한다.

여기서, 기설정된 명령어는 예를 들어, 전자 장치(100)에서 제공되는 메뉴 화면을 표시하도록 하는 "smart tv home", 현재 시청 중인 영화 콘텐츠의 시청 모드를 설정할 수 있는 화면을 표시하도록 하는 "영화 모드 설정" 등이 될 수 있다. 이러한 기설정된 명령어는 음성 인식을 위해 저장부(120)에 저장될 수 있다. 이때, 기설정된 명령어는 텍스트 형식으로 저장되어, 음성 인식에 의해 사용자 음성이 변환된 텍스트와 비교될 수 있으며, 사용자 음성이 변환된 텍스트와 일치하는 명령어에 따른 기능이 실행될 수 있다.

또한, 기설정된 명령어는 특정 콘텐츠를 가리키는 텍스트가 될 수 있다. 예를 들어, 기설정된 명령어는 "mission impossible 4"와 같이 영화 제목을 포함할 수 있다. 특히, 전자 장치(100)에 포함된 디스플레이 혹은 전자 장치(100)와 연결된 외부 디스플레이 장치에 표시되는 다양한 UI 중 어느 하나를 사용자 음성으로 선택하는 보이스 터치(voice touch) 환경에 있어서, 기설정된 명령어는 각 UI에 포함되는 텍스트가 될 수 있다. 여기서, UI는 현재 표시되는 화면과 관련하여 전자 장치(100)의 특정 기능을 실행하기 위한 메뉴 혹은 특정 콘텐츠를 실행하기 위한 메뉴를 포함할 수 있으며, 각 UI에 대응되는 텍스트는 메뉴에 표시되는 특정 기능의 이름 혹은 특정 콘텐츠의 제목이 될 수 있다.

프로세서(130)는 사용자 음성이 변환된 음성 텍스트가 기설정된 명령어에 대응되면 기설정된 명령어에 따른 기능을 실행한다. 예를 들어, 사용자 음성이 변환된 음성 텍스트에 대응되는 기설정된 명령어가 "smart tv home"인 경우, 프로세서(130)는 전자 장치(100)에서 제공되는 기본 메뉴 화면을 디스플레이하도록 하는 기능을 실행할 수 있다. 또, 사용자 음성이 변환된 음성 텍스트에 대응되는 기설정된 명령어가 "mission impossible 4"인 경우, 프로세서(130)는 "mission impossible 4"에 해당하는 콘텐츠를 재생하도록 하는 기능을 실행할 수 있다.

한편, 프로세서(130)는 기설정된 명령어가 제1 텍스트를 포함하고, 사용자 음성이 변환된 음성 텍스트가, 기설정된 명령어의 제1 텍스트가 제2 표기 형식의 제2 텍스트로 표기된 텍스트인 경우, 기설정된 명령어에 따른 기능을 실행할 수 있다.

예를 들어, 기설정된 명령어가 "smart tv home"이고, 사용자 음성이 변환된 음성 텍스트가 "스마트 티비 홈"인 경우를 상정하면, 기설정된 명령어인 "smart tv home"에 포함된 "smart", "tv" 및 "home"은 제2 표기 형식으로 표기된 제2 텍스트인 "스마트", "티비" 및 "홈"이 각각 제1 표기 형식으로 표기된 제1 텍스트에 해당한다.

이러한 조선을 만족하면, 프로세서(130)는 사용자 음성이 변환된 음성 텍스트가 "smart tv home"이 아닌 "스마트 티비 홈"이더라도, 기설정된 명령어인 "smart tv home"에 대응되는 기능을 실행할 수 있다.

이러한 본 발명의 특징이 구체화된 실시 예에 대하여는 도 4 내지 6을 참조하여 구체적으로 설명하도록 한다.

한편, 본 발명의 일 실시 예에 따른 전자 장치(100A)는 도 1b에 도시된 바와 같이 디스플레이(140)를 포함하는 디스플레이 장치로 구현될 수 있다. 즉, 전자 장치(100A)는 TV, 스마트폰, 노트북, PDA 등 디스플레이 패널을 구비한 전자 장치를 포함한다.

이때, 프로세서(130)는 기설정된 명령어를 포함하는 UI(User Interface)를 디스플레이하도록 디스플레이(140)를 제어할 수 있다. 이후, 사용자 음성에 의해 디스플레이(140)에 표시된 UI 중 어느 하나가 선택되면, 선택된 UI에 포함된 기설정된 명령어에 따른 기능을 실행하고, 해당 기능이 실행된 화면을 디스플레이하도록 디스플레이(140)를 제어할 수 있다.

또한, 본 발명의 다른 실시 예에 따른 전자 장치(100B)는 도 1c에 도시된 바와 같이 외부의 디스플레이 장치(200)와 유선 또는 무선 네트워크로 연결되는 통신부(150)를 포함하는 전자 장치로 구현될 수 있다. 즉, 전자 장치(100B)는 셋탑 박스(set-top box), DVD 플레이어, 게임기 등 디스플레이 장치(200)와 연결되어, 디스플레이 장치에 영상을 제공하는 전자 장치를 포함한다.

이때, 프로세서(130)는 전자 장치(100B)와 연결된 디스플레이 장치(200)에 기설정된 명령어를 포함하는 UI(User Interface)를 제공하는 영상을 전송하도록 통신부(150)를 제어할 수 있다. 또한, 프로세서(130)는 사용자 음성에 의해 디스플레이 장치에 표시된 UI 중 어느 하나가 선택되면, 선택된 UI에 포함된 기설정된 명령어에 따른 기능을 실행하고, 해당 기능이 실행된 영상을 전자 장치(100B)와 연결된 디스플레이 장치(200)에 전송하도록 통신부(150)를 제어할 수 있다.

도 3은 본 발명의 일 실시 예에 따른 음성 인식 시스템을 설명하기 위한 도면이다.

이하에서는, 본 발명의 이해를 돕기 위하여 전자 장치(100)가 디스플레이 장치로 구현된 실시 예에 한정하여 설명하도록 하며, 전자 장치를 디스플레이 장치로 기재하도록 한다. 그러나 본 발명의 전자 장치(100)가 디스플레이를 포함하는 디스플레이 장치에 한정되는 것이 아니라는 것은 상술한 전자 장치(100)의 다양한 구현 예로부터 쉽게 인식될 수 있을 것이다.

본 발명의 디스플레이 장치(100)는 통신부(150)를 포함하며, 통신부(150)는 음성 인식을 수행하는 외부의 제1 서버(20)와 통신을 수행하기 위한 제1 통신부(151) 및 방송 콘텐츠 또는 콘텐츠 관련 정보를 제공하는 외부의 제2 서버(30)와 통신을 수행하기 위한 제2 통신부(152)를 포함할 수 있다.

디스플레이 장치(100)가 음성 인식 모드로 동작할 때, 사용자의 발화 음성이 디스플레이 장치(100)에 입력될 수 있다. 이때, 최초 사용자는 디스플레이 장치(100)가 음성 인식 모드로 동작하도록 하기 위한 발화를 수행할 수 있다. 이와 같은 사용자의 발화 음성이 입력되면, 디스플레이 장치(100)는 입력된 발화 음성의 음성 신호를 분석하여 해당 음성 신호가 음성 인식 모드로 진입하기 위한 트리거 명령어인지 여부를 판단할 수 있다.

판단 결과, 발화 음성이 음성 인식 모드로 동작하기 위한 명령이라면, 프로세서(120)는 디스플레이 장치(100)가 음성 인식 모드로 진입하도록 제어할 수 있다. 이와 같이, 디스플레이 장치(100)가 음성 인식 모드로 진입한 상태에서 사용자의 추가 발화 음성이 입력되면, 디스플레이 장치(100)는 내부적으로 추가 발화된 발화 음성을 인식하기 위한 동작을 수행할 수 있다.

그러나, 본 발명의 디스플레이 장치(100)는 음성 인식 모드로 진입하기 위한 트리거 명령어를 필요로 하지 않을 수 있으며, 사용자 음성을 항상 감지하는 상태 혹은 기설정된 주기로 사용자 음성을 감지하는 상태로 동작하여, 트리거 명령어 없이 음성 인식이 수행될 수도 있다.

한편, 디스플레이 장치(100)의 음성 입력부(110)는 마이크로폰으로 구현되어, 사용자로부터 발화된 사용자 음성을 직접 감지할 수 있으며, 디스플레이 장치(100)를 제어하는 원격 제어 장치(10)로부터 사용자 음성을 수신할 수도 있다.

구체적으로, 원격 제어 장치(10)는 디스플레이 장치(100)와 통신을 수행하여 디스플레이 장치(100)의 동작을 제어하기 위한 장치로서, 리모콘, 키보드 등을 포함하는 구성이다. 사용자로부터 발화된 사용자 음성은 원격 제어 장치(10)에 구비된 마이크로폰을 통해 감지될 수 있으며, 디스플레이 장치(100)는 원격 제어 장치(10)로부터 사용자 음성을 수신할 수 있다. 이를 위해, 통신부(150)는 원격 제어 장치(10)로부터 사용자 음성을 수신하기 위한 제3 통신부(153)를 더 포함할 수 있다.

다만, 디스플레이 장치(100)와 원격 제어 장치(10)가 수행하는 통신 방식이 디스플레이 장치(100)와 제1 서버(20) 또는 제2 서버(30)가 수행하는 통신 방식과 동일한 경우에는 제3 통신부(153)가 생략될 수도 있다. 예를 들어, 디스플레이 장치(100)와 원격 제어 장치(10)가 와이파이 모듈을 이용한 통신을 수행하고, 디스플레이 장치(100)와 제1 서버(20)가 역시 와이파이 모듈을 이용한 통신을 수행하는 경우, 디스플레이 장치(100)는 제3 통신부(153)를 따로 구비하지 않고, 제1 통신부(151)에 포함된 와이파이 모듈을 통해 원격 제어 장치(10)와 통신을 수행할 수 있다.

또한, 디스플레이 장치(100)와 원격 제어 장치(10)가 와이파이(Wi-Fi) 모듈 혹은 블루투스(bluetooth) 모듈을 이용하여 통신을 수행하고, 디스플레이 장치(100)가 제1 서버(20) 및 제2 서버(20)와 이더넷(ethernet) 모뎀을 이용하여 통신을 수행하는 경우, 디스플레이 장치(100)는 와이파이 모듈 혹은 블루투스 모듈을 포함하는 제3 통신부(153)를 구비하여야 할 것이다.

또한, 디스플레이 장치(100)의 동작을 제어하기 위하여 스마트 폰 등의 사용자 휴대 단말이 원격 제어 장치(10)의 역할을 할 수도 있다. 최근에는 스마트 폰에 여러 외부 장치를 제어할 수 있는 리모트 컨트롤 관련 어플리케이션을 설치하고, 어플리케이션 상에서 제공되는 UI를 조작함으로써 외부 장치를 제어하는 기술이 일반적으로 사용되고 있다. 이를 위해, 스마트 폰은 적외선 송신부를 포함할 수 있고, 적외선 송신부를 통해 제어 신호를 디스플레이 장치(100)로 전송할 수 있다. 혹은 스마트 폰과 디스플레이 장치(100)가 와이파이(Wi-Fi), 블루투스(bluetooth) 통신을 통해 각종 제어 신호를 주고 받을 수도 있다. 이러한 다양한 실시 예에 대응하여, 디스플레이 장치(100)는 원격 제어 장치(10) 또는 원격 제어 장치(10)의 역할을 하는 사용자 휴대 단말과 다양한 방식으로 통신을 수행할 수 있도록, 각 통신 방식에 따른 복수의 통신부를 포함할 수 있다.

따라서, 사용자가 스마트 폰에 포함된 마이크로폰을 통해 음성을 입력하고, 입력된 음성을 와이파이 등의 통신을 이용하여 디스플레이 장치(200)로 전송하는 실시 예도 가능함은 자명할 것이다.

한편, 디스플레이 장치(100)는 음성 입력부(110)를 통해 사용자 음성이 수신되면, 수신된 사용자 음성을 제1 서버(20)로 전송할 수 있다. 제1 서버(20)는 수신된 사용자 음성을 텍스트로 변환하고, 변환된 텍스트(이하, 음성 텍스트)를 디스플레이 장치(100)로 전송한다. 즉, 제1 서버(20)는 소리 정보를 분석하여 음성 신호를 텍스트 포맷으로 변환해주는 STT(Speech-To-Text) 서버로 구현될 수 있다. 디스플레이 장치(100)가 제1 서버(20)로부터 음성 텍스트를 수신하면, 수신된 음성 텍스트에서 키워드를 추출하고, 추출된 키워드에 상응하는 명령어를 실행할 수 있다.

그러나 본 발명의 디스플레이 장치(100)는 실시 예에 따라 음성 인식 모듈을 저장하여, 자체적으로 음성 신호를 텍스트 포맷으로 변환할 수도 있다. 즉, 디스플레이 장치(100)는 저장부(120)에 기등록된 명령어와 관련된 사용자 발화 음성을 자체적으로 인식하는 임베디드 방식에 기반하여 음성 인식을 수행할 수도 있다.

추출된 키워드에 상응하는 명령어가 특정 콘텐츠의 재생 혹은 특정 콘텐츠와 관련된 정보에 대한 요청인 경우, 디스플레이 장치(100)는 해당 요청에 따른 신호를 제2 서버(30)로 전송할 수 있다. 제2 서버(30)는 콘텐츠 관련 정보를 제공하는 서버로서, 특정 콘텐츠와 관련된 정보를 검색하여 사용자에게 제공할 수 있다. 디스플레이 장치(100)는 제2 서버(30)로부터 콘텐츠 관련 정보를 수신하여 디스플레이할 수 있다. 예를 들어, 명령어가 "mission impossible 4"라면, 디스플레이 장치(100)는 제2 서버(30)로부터 "mission impossible 4"와 관련된 영화 정보를 수신하여 디스플레이하거나 "mission impossible 4"에 해당하는 영화 콘텐츠를 수신하여 재생할 수 있다.

한편, 본 실시 예에서는 제1 서버(20) 및 제2 서버(30)가 별개의 서버임을 전제로 하였으나, 제1 서버(20) 및 제2 서버(30)는 동일한 서버로 구현될 수도 있다. 즉, 본 발명의 디스플레이 장치(100)는 소리 정보를 분석하여 음성 신호를 텍스트 포맷으로 변환하는 역할과 방송 콘텐츠 또는 콘텐츠 관련 정보를 제공하는 역할을 동시에 수행하는 통합 서버와 통신을 수행할 수 있다. 이 경우, 제1 통신부(151) 및 제2 통신부(152)는 하나로 통합되어, 통합 서버와 통신을 수행하게 된다.

도 4는 본 발명의 일 실시 예에 따른 확장 텍스트에 의한 기능 실행 방법을 설명하기 위한 블록도이다.

도 4에 도시된 바와 같이, 디스플레이 장치(100)의 프로세서(130)는 저장부(120)에 저장된 검색 모듈(121) 및 기능 실행 모듈(122)을 이용하여 사용자 음성에 대응되는 명령어를 검색하고, 검색된 명령어에 따른 기능을 실행할 수 있다.

먼저, 프로세서(130)는 사용자 음성이 변환된 음성 텍스트를 기초로, 저장부(120)에 저장된 제1 텍스트를 추출한다. 구체적으로, 프로세서(130)는 음성 텍스트에 제2 텍스트가 포함되어 있는 경우, 저장부(120)로부터, 음성 텍스트에 포함된 제2 텍스트와 매칭되는 제1 텍스트를 추출할 수 있다. 제1 텍스트는, 단어, 숫자, 기호 등 다양한 텍스트 단위를 포함할 수 있다.

도 5에 도시된 바와 같이, 본 발명의 일 실시 예에 따른 디스플레이 장치(100)의 저장부(120)는 일 표기 형식에 따른 제1 텍스트 및 일 표기 형식에 따른 해당 텍스트가 다른 표기 형식으로 표기된 적어도 하나의 제2 텍스트를 저장할 수 있다. 여기서, 저장부(120)에 저장되는 제1 텍스트는 기설정된 명령어를 이루는 기설정된 텍스트 단위(이하, 토큰)로, 저장부(120)에 저장되는 제2 텍스트는 제1 텍스트의 표현 형식을 확장하기 위한 토큰이 될 수 있다. 이때, 저장부(120)는 일 표기 형식에 따른 제1 텍스트와 일 표기 형식에 따른 제1 텍스트를 다른 표기 형식으로 기재한 제2 텍스트를 매칭시킨 텍스트 매칭 리스트를 저장할 수 있다.

도 5에 도시된 바와 같이, 저장부(120)에 저장된 텍스트 매칭 리스트에서 제1 표기 형식의 "smart"는 제2 표기 형식의 "스마트"와, 제1 표기 형식의 "4"는 제2 표기 형식의 "포", 제3 표기 형식의 "사", 제4 표기 형식인 "넷" 등과, 제1 표기 형식의 "+"는 제2 표기 형식의 "플러스", 제3 표기 형식의 "plus" 등과 각각 매칭될 수 있다.

이러한 매칭 리스트는 기계 학습 알고리즘을 활용하는 인공지능(AI) 시스템에 의해 수립될 수도 있다, 인공지능 시스템은 인간 수준의 지능을 구현하는 컴퓨터 시스템으로서, 기계가 스스로 학습하고 판단하기 때문에, 사용할수록 음성 인식률이 향상될 수 있다는 이점이 있다.

인공지능 기술은 입력 데이터들의 특징을 스스로 분류/학습하는 알고리즘을 이용하는 기계학습(딥러닝) 기술 및 기계학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 요소 기술들로 구성되는데, 요소 기술의 예로서, 인간의 언어/문자를 인식하는 언어적 이해 기술이 본 발명에 적용될 수 있다.

언어적 이해 기술은 인간의 언어/문자를 인식하고 응용/처리하는 기술로서, 자연어 처리, 기계 번역, 대화시스템, 질의 응답, 음성 인식/합성 등을 포함하게 되는데, 본 발명의 일 실시 예에 따르면, 저장부(120)에 저장되는 매칭 리스트 중 제1 텍스트를 다양한 표기 형식에 따라 표기하는 제2 텍스트는 인공지능에 의해 학습되어 지속적으로 업데이트될 수 있다.

이에 따르면, 인공지능에 의해, 텍스트의 다양한 표기 형식에 대한 DB가 자동적으로 구축될 수 있다. 따라서, 특정 사용자 혹은 복수의 사용자들이 특정 텍스트에 대하여 읽는 다양한 표현 방식 혹은 특정 텍스트의 다양한 표기 형식이 지속적으로 확장될 수 있으므로, 음성 인식률이 효율적이고 지속적으로 증가할 수 있다.

한편, 프로세서(130)는 사용자 음성이 변환된 음성 텍스트를 저장부(120)에 저장된 텍스트 매칭 리스트에 기초하여 확장하고, 저장부(120)에 저장된 검색 모듈(121)을 실행하여 사용자 음성에 대응되는 명령어를 식별할 수 있다. 검색 모듈(121)은 기설정된 명령어 리스트(42)로부터, 음성 텍스트에 포함된 토큰 및 해당 토큰과 매칭되는 토큰을 검색어로 하여, 명령어를 식별할 수 있다.

여기서, 기설정된 명령어 리스트(42)는 저장부(120)에 저장된 명령어 리스트로서, 특히 디스플레이 장치(100)의 주요 기능을 실행하기 위한 주요 명령어의 리스트일 수 있다.

또한, 기설정된 명령어 리스트(42)는 디스플레이 장치(100)의 디스플레이(140)에서 제공되는 UI에 표시되는 명령어의 리스트일 수 있다. 예를 들어, 보이스 터치 환경에서 제공되는 UI에 표시되는 명령어의 리스트가 될 수 있다. 이때, 프로세서(130)는 해당 UI가 콘텐츠 관련 정보를 제공하는 제2 서버(30)로부터 제공되는 UI인 경우, 제2 서버(30)로부터 해당 UI에 표시되는 명령어를 수신하거나 디스플레이(140)에 표시되는 화면에 대한 이미지 분석을 수행하여, UI에 표시되는 명령어를 인식하는 방식으로 명령어 리스트(42)를 생성할 수 있다.

또한, 음성 텍스트에 포함된 토큰은 텍스트 매칭 리스트에 포함된 제1 텍스트 또는 제2 텍스트가 될 수 있다.

프로세서(120)는 음성 텍스트에 포함된 토큰이 제1 텍스트인 경우, 제1 텍스트에 대응되는 제2 텍스트를 식별하고, 제2 텍스트를 추가적인 검색어로 확장할 수 있으며, 음성 텍스트에 포함된 토큰이 제2 텍스트인 경우, 제2 텍스트에 대응되는 제1 텍스트를 식별하고 제1 텍스트를 추가적인 검색어로 확장할 수 있다.

예를 들어, 사용자 음성이 변환된 음성 텍스트가 "스마트 티비 홈"인 경우, 명령어 리스트(42)로부터 사용자 음성에 대응되는 명령어를 검색하기 위한 토큰은 음성 텍스트를 구성하는 단어인 "스마트", "티비", "홈"과, "스마트", "티비", "홈"에 각각 대응되는 "smart", "tv" 및 "home"로 확장될 수 있다.

또한, 사용자 음성이 변환된 음성 텍스트가 "TV +"인 경우, 명령어 리스트(42)로부터 사용자 음성에 대응되는 명령어를 검색하기 위한 토큰은 "TV", "+", "티비", "플러스" 및 "plus"로 확장될 수 있다.

프로세서(130)는 명령어 리스트(42)에 저장된 명령어를 기설정된 텍스트 단위인 토큰으로 구분하고, 확장된 검색어 각각과 명령어 리스트(42)에 저장된 명령어를 이루는 단어와의 유사도 스코어를 산출하여 가장 높은 유사도 스코어를 가지는 명령어를 식별할 수 있다. 프로세서(130)는 명령어가 식별되면, 저장부(120)에 저장된 기능 실행 모듈(122)을 실행하여 식별된 명령어에 대응되는 기능을 실행한다.

사용자 음성이 변환된 음성 텍스트를 구성하는 각 토큰의 집합 Q와, 음성 텍스트에 기초하여 텍스트 매칭 리스트로부터 식별된 토큰의 집합 Q_ex를 수식으로 표현하면 다음과 같다.

수학식 1에서, q₁ 내지 q_n은 음성 텍스트를 구성하는 각 토큰을 의미한다. 예를 들어, 음성 텍스트 Q가 "스마트 홈 티비"인 경우, Q는 q₁(스마트), q₂(홈), q₃(티비)의 집합으로 표현될 수 있다.

수학식 2에서 q_(1,1) 내지 q_(1,m)은 음성 텍스트를 구성하는 토큰 q₁의 다른 표기 형식에 따른 적어도 하나의 토큰을 의미하며, q_(n,1) 내지 q_(n,l)은 음성 텍스트를 구성하는 토큰 q_n의 다른 표기 형식에 따른 적어도 하나의 토큰을 의미한다.

이하, 도 6을 참조하여, 보이스 터치 환경에서 사용자 음성에 따른 기능을 실행하는 구체적인 방법을 설명하도록 한다.

도 6은 본 발명의 일 실시 예에 따른 명령어들이 표시된 보이스 터치 화면을 나타낸 도면이다.

도 6은 본 발명의 일 실시 예에 따른 보이스 터치 화면이 디스플레이된 모습을 나타낸 것이다. 사용자는 보이스 터치 환경에서, 디스플레이 장치(100)의 디스플레이(140)에서 제공되는 각 UI(62 내지 65)를 사용자 음성을 발화하여 선택하여 실행할 수 있다.

디스플레이(140)의 화면에는 제1 명령어인 "smart tv home"을 포함하는 UI(62), 제2 명령어인 "영화 모드 설정"을 포함하는 UI(63), 제3 명령어인 "16:9 화면 모드"를 포함하는 UI(64), 제4 명령어인 "mission impossible 4"를 포함하는 UI(65)가 디스플레이될 수 있다.

이때, 사용자가 발화한 음성이 변환된 음성 텍스트가 "스마트 티비 홈"인 경우, 프로세서(130)는 "스마트 티비 홈"을 토큰 단위("스마트", "티비", "홈")로 구분하고, 음성 텍스트에 포함된 각 토큰 중 적어도 하나가 저장부(120)에 저장된 매칭 리스트의 제2 텍스트에 포함되는 경우, 매칭 리스트로부터 제2 텍스트에 대응되는 제1 텍스트를 식별할 수 있다. 이때, 프로세서(130)는 식별된 제1 텍스트 및 제2 텍스트에 기초하여 명령어 리스트(42)로부터 사용자 음성에 대응되는 명령어를 식별하고, 식별된 명령어에 따른 기능을 실행할 수 있다. "스마트", "티비" 및 "홈"은 매칭 리스트의 제2 텍스트에 포함되므로, 프로세서(130)는 매칭 리스트로부터 "스마트", "티비" 및 "홈"에 각각 대응되는 "smart", "tv" 및 "home"을 식별할 수 있다.

한편, 프로세서(130)는 이와 같이 확장된 토큰인 "스마트", "티비", "홈", "smart", "tv", "home"과 디스플레이(140)에 표시된 명령어들을 비교하여 가장 유사한 명령어인 제1 명령어를 식별할 수 있으며, 제1 명령어를 포함하는 UI(62)에 대응되는 기능을 실행할 수 있다.

구체적으로, 프로세서(130)는 확장된 토큰 중 어느 하나가 디스플레이(140)에 표시된 명령어들에 각각 포함되는지 여부에 기초하여, 디스플레이(140)에 표시된 명령어 및 사용자 음성의 제1 유사도 스코어를 산출하고, 산출된 제1 유사도 스코어가 기설정된 임계값 이상인 경우, 기설정된 명령어에 따른 기능을 실행할 수 있다.

예를 들어, 프로세서(130)는 제1 명령어인 "smart tv home"을 토큰 단위로 구분하고, "smart"가 음성 텍스트의 확장된 토큰 중 어느 하나에 포함되면 토큰 "smart"에 대하여 "1"이라는 스코어를, 음성 텍스트의 확장된 토큰 중 어느 하나에 포함되지 않으면 "0"이라는 스코어를 할당할 수 있다. 마찬가지로, 프로세서(130)는 제1 명령어의 토큰 "tv" 및 "home"에 대하여도 각 토큰이 음성 텍스트의 확장된 토큰 중 어느 하나에 포함되는지 여부에 기초하여 스코어를 할당할 수 있다.

이후, 프로세서(130)는 "smart", "tv" 및 "home"에 각각 할당된 스코어를 합산하고, 이를 제1 명령어인 "smart tv home"의 토큰 개수로 나눈 제1 유사도 스코어를 산출할 수 있다.

본 실시 예에서, 제1 명령어의 토큰 "smart", "tv" 및 "home"은 모두 음성 텍스트의 확장된 토큰에 포함되므로, 각각 "1"이라는 스코어가 할당되며, 제1 유사도 스코어는 각 할당된 스코어가 합산된 3을 토큰 개수인 3으로 나눈 "1"이 될 수 있다. 이를 통해, 프로세서(130)는 사용자 음성에 대응되는 명령어가 제1 명령어인 "smart tv home"인 것으로 인식하고, 제1 명령어인 "smart tv home"을 포함하는 UI(62)에 대응되는 기능을 실행할 수 있다.

또한, 프로세서(130)는 제1 명령어를 구성하는 토큰 각각이 음성 텍스트의 확장된 토큰에 포함되는지 여부에 기초하여 제1 명령어 및 사용자 음성의 제2 유사도 스코어를 더 산출하고, 산출된 제1 및 제2 유사도 스코어 각각이 기설정된 임계값 이상인 경우, 제1 명령어인 "smart tv home"을 포함하는 UI(62)에 대응되는 기능을 실행할 수도 있다. 제2 유사도 스코어는 제1 명령어를 구성하는 토큰 중 음성 텍스트의 확장된 토큰에 포함되는 토큰의 개수를 제1 명령어를 구성하는 토큰 개수로 나눈 값이 될 수 있다.

본 실시 예에서, 제1 명령어를 구성하는 토큰 "smart", "tv" 및 "home"은 모두 음성 텍스트의 확장된 토큰에 모두 포함되므로 제2 유사도 스코어는 음성 텍스트의 확장된 토큰에 포함되는 제1 명령어의 토큰 개수를 제1 명령어의 토큰 개수인 3으로 나눈 "1"이 될 수 있다.

다른 실시 예로서, 사용자가 발화한 음성이 변환된 음성 텍스트가 "영화 설정"인 경우, 프로세서(130)는 "영화 설정"을 토큰 단위("영화", "설정")로 구분하고, 마찬가지로 제1 유사도 스코어를 산출할 수 있다. 여기서, 음성 텍스트의 토큰 "영화" 및 "설정"을 다른 표기 형식으로 표기한 토큰은 없는 것으로 가정한다.

음성 텍스트의 토큰 "영화" 및 "설정"이 모두 제2 명령어인 "영화 모드 설정"에 포함되므로, 제1 유사도 스코어는 "1"이 될 수 있다.

그러나, "영화 모드 설정"의 각 토큰인 "영화", "모드" 및 "설정" 중에서 "영화" 및 "모드"는 음성 텍스트의 토큰에 포함되나, "모드"는 음성 텍스트의 토큰에 포함되지 않으므로, 제2 유사도 스코어는 음성 텍스트의 토큰에 포함되는 제2 명령어의 토큰 개수인 2를 제2 명령어의 토큰 개수인 3으로 나눈 "2/3"이 될 수 있다. 프로세서(130)는 제2 유사도 스코어인 "2/3"이 기설정된 임계값 이상이면, 제2 명령어인 "영화 모드 설정"을 포함하는 UI(63)에 대응되는 기능을 실행하고, 기설정된 임계값 이하면, 해당 기능을 실행하지 않을 수 있다.

이와 같이 제1 유사도 스코어에 더하여, 제2 유사도 스코어를 고려하는 경우, 보다 정확한 음성 인식이 가능할 수 있다.

또한, 본 발명의 음성 인식 방법은 음성 텍스트를 이루는 토큰의 순서를 고려하지 않기 때문에 사용자가 발화한 음성이 변환된 음성 텍스트가 "화면모드 16:9"인 경우와 같이, 제3 명령어인 "16:9 화면 모드"를 이루는 각 토큰의 순서가 바뀐 텍스트인 경우라도, 제1 및 제2 유사도 스코어는 모두 1이 될 수 있다. 이에 따라, 제3 명령어인 "16:9 화면 모드"를 포함하는 UI(64)에 대응되는 기능이 실행될 수 있다.

또한, 다른 실시 예로서, 사용자가 발화한 음성이 변환된 음성 텍스트가 "미션 임파서블 포"인 경우, 프로세서(130)는 "미션 임파서블 포"를 토큰 단위("미션", "임파서블", "포")로 구분하고, 음성 텍스트에 포함된 각 토큰을 확장할 수 있다. 프로세서(130)는 매칭 리스트로부터 "미션", "임파서블" 및 "포"에 각각 대응되는 "mission", "impossible", "4"를 식별할 수 있다.

프로세서(130)는 이와 같이 확장된 토큰인 "미션", "임파서블", "포", "mission", "impossible" 및 "4"과 디스플레이(140)에 표시된 명령어들을 비교하여 가장 유사한 명령어인 제4 명령어를 식별할 수 있으며, 제4 명령어를 포함하는 UI(65)에 대응되는 기능을 실행할 수 있다.

이와 같은 실시 예 역시, 제1 및 제2 유사도 스코어는 상술한 방식에 의하면 각각 "1"이 될 수 있다.

또한, 상술한 실시 예를 더 확장하여, 본 발명의 매칭 리스트는 기설정된 명령어인 TV 프로그램명 "냉장고를 부탁해"를 제1 텍스트로, "냉장고를 부탁해"의 줄임말인 "냉부해"를 제2 텍스트로 저장할 수도 있다. 이에 따라, 사용자가 "냉부해"를 발화하더라도 사용자 음성이 변환된 음성 텍스트인 "냉부해" 및 "냉부해"와 매칭되는 제1 텍스트인 "냉장고를 부탁해"를 토큰으로 명령어를 검색할 수 있으므로, 검색 확률이 높아질 수 있다.

한편, 제1 유사도 스코어만을 이용하여 명령어를 식별하거나 제2 유사도 스코어만을 이용하여 명령어를 식별할 수도 있으나, 명령어 식별의 정확도를 높이기 위하여 바람직하게는 상술한 바와 같이 제1 및 제2 유사도 스코어를 모두 이용하여 명령어를 인식할 수 있다.

도 7은 본 발명의 다른 실시 예에 따른 전자 장치의 구성을 상세히 도시한 블록도이다.

도 7에 도시된 바와 같이, 본 발명의 다른 실시 예에 따른 전자 장치(100')는 음성 입력부(110), 저장부(120), 프로세서(130), 디스플레이(1400, 통신부(150), 오디오 처리부(160), 오디오 출력부(170), 비디오 처리부(180) 및 사용자 인터페이스(190)를 포함한다. 이하에서는, 도 1a 내지 1c에서의 설명과 중복되는 설명은 생략하기로 한다.

저장부(120)는 전자 장치(100')를 구동시키기 위한 O/S(Operating System) 소프트웨어 모듈, 각종 멀티미디어 콘텐츠와 같은 다양한 데이터를 저장할 수 있다.

구체적으로, 저장부(120)는 전자 장치(100')에 포함된 각 하드웨어들로부터 전달되는 신호를 처리하는 베이스 모듈, 데이터베이스(DB)나 레지스트리를 관리하는 스토리지 모듈, 레이아웃의 화면을 생성하기 위한 그래픽 처리 모듈 및 보안 모듈 등을 저장할 수 있다.

특히, 저장부(120)는 도 4에서 설명한 바와 같이, 기설정된 명령어 리스트(42)로부터 명령어를 검색하기 위한 검색 모듈(121) 및 검색된 명령어에 따른 기능을 실행하기 위한 기능 실행 모듈(122)을 저장할 수 있다.

프로세서(130)는 ROM(131), RAM(132), CPU(133), 그래픽 처리부(134), 제1 인터페이스(135-1) 내지 제n 인터페이스(135-n)를 포함할 수 있다. ROM(131), RAM(132), CPU(133), 그래픽 처리부(134), 제1 인터페이스(135-1) 내지 제n 인터페이스(135-n)는 버스(136)를 통해 서로 연결될 수 있다.

CPU((133)는 저장부(120)에 액세스하고, 저장부(120)에 저장된 O/S를 이용하여 부팅을 수행한다. 그리고, CPU(133)는 저장부(120)에 저장된 각종 프로그램, 콘텐츠 및 데이터 등을 이용하여 다양한 동작을 수행할 수 있다.

ROM(131)에는 시스템 부팅을 위한 명령어 세트 등이 저장된다. 턴온 명령이 입력되어 전원이 공급되면, CPU(133)는 ROM(131)에 저장된 명령어에 따라 저장부(120)에 저장된 O/S를 RAM(132)에 복사하고, O/S를 실행시켜 시스템을 부팅시킨다. 부팅이 완료되면, CPU(133)는 저장부(120)에 저장된 각종 어플리케이션 프로그램을 RAM(132)에 복사하고, RAM(132)에 복사된 어플리케이션 프로그램을 실행시켜 각종 동작을 수행한다.

그래픽 처리부(134)는 연산부(미도시) 및 렌더링부(미도시)를 이용하여 아이콘, 이미지, 텍스트 등과 같은 다양한 객체를 포함하는 화면을 생성한다. 연산부는 화면의 레이아웃에 따라 각 객체들이 표시될 좌표값, 형태, 크기, 컬러 등과 같은 속성값을 연산한다. 렌더링부는 연산부에서 연산한 속성값에 기초하여 객체를 포함하는 다양한 레이아웃의 화면을 생성한다.

제1 인터페이스(135-1) 내지 n 인터페이스(135-n)는 상술한 각종 구성 요소들과 연결된다. 인터페이스들 중 하나는 네트워크를 통해 외부장치와 연결되는 네트워크 인터페이스가 될 수도 있다.

한편, 상술한 프로세서(130)의 동작은 저장부(120)에 저장된 프로그램이 실행되어 이루어질 수 있다.

디스플레이(140)는 전자 장치(100')에서 재생 가능한 다양한 콘텐츠를 포함하는 화면을 제공하는 구성이다. 여기서, 콘텐츠는 텍스트, 이미지, 동영상, GUI(Graphic User Interface) 등과 같은 다양한 포맷의 콘텐츠를 포함할 수 있다.

디스플레이(140)의 구현 방식은 제한되지 않으며, 예컨대, LCD(Liquid Crystal Display), OLED(Organic Light Emitting Diodes) 디스플레이, AM-OLED(Active-Matrix Organic Light-Emitting Diode), PDP(Plasma Display Panel) 등과 같은 다양한 형태의 디스플레이로 구현될 수 있다. 디스플레이(140)는 그 구현 방식에 따라서 부가적인 구성을 추가적으로 포함할 수 있다. 예를 들면, 디스플레이(140)가 액정 방식인 경우, 디스플레이(140)는 LCD 디스플레이 패널(미도시), 이에 광을 공급하는 백라이트 유닛(미도시), 패널(미도시)을 구동시키는 패널 구동기판(미도시)을 포함할 수 있다.

통신부(150)는 다양한 유형의 통신 방식에 따라 외부 장치와 통신을 수행하는 구성이다. 통신부(150)는 적외선 방식, RF 방식, 근거리 자기장 통신(Near Field Communication; NFC) 방식, 지그비(ZigBee), DLNA(Digital Living Network Alliance), 와이파이(Wi-Fi), 블루투스(Bluetooth), LTE(Long Term Evolution) 등의 다양한 통신 규격에 따라 외부 장치와 데이터를 송신 또는 수신할 수 있다. 또는, 인터넷망을 포함하는 유/무선 네트워크와 연결되어 외부 장치와 데이터를 송수신할 수 있다.

통신부(150)는 외부 장치와의 상술한 통신 방식에 따른 통신을 수행하기 위해 와이파이 칩, 블루투스 칩, 무선 통신 칩 등 다양한 통신 칩을 포함할 수 있으며, 해당 칩들을 이용하여 서버를 포함하는 타 전자 장치와 통신을 수행할 수 있다. 또한, 통신부(150)는 유선 통신 방식을 통해 외부 장치와 통신을 수행하기 위한 유선 통신 칩, 유선 통신 단자 등을 포함할 수 있다.

통신부(150)는 음성 인식을 수행하는 외부의 제1 서버(20)와 통신을 수행하기 위한 제1 통신부(151), 방송 콘텐츠 또는 콘텐츠 관련 정보를 제공하는 외부의 제2 서버(30)와 통신을 수행하기 위한 제2 통신부(152), 원격 제어 장치(10)로부터 사용자 음성을 수신하기 위한 제3 통신부(153) 및 외부의 디스플레이 장치(200)와 통신하여 디스플레이 장치(200)로 영상을 전송하기 위한 제4 통신부(154)를 포함할 수 있다.

오디오 처리부(160)는 오디오 데이터에 대한 처리를 수행하는 구성요소이다.

오디오 출력부(170)는 오디오 처리부(160)에서 처리된 오디오 데이터를 출력하는 구성요소이다.

비디오 처리부(180)는 컨텐츠에 대한 디코딩, 스케일링, 노이즈 필터링, 프레임 레이트 변환, 해상도 변환 등과 같은 다양한 이미지 처리를 수행하는 구성요소이다.

사용자 인터페이스(190)는 전자 장치(100')의 전반적인 동작을 제어하기 위한 사용자 인터렉션을 감지하기 위한 구성요소이다. 사용자 인터페이스(190)는 IR 신호 수신부(미도시), 카메라(미도시) 등과 같은 다양한 인터렉션 감지 장치를 포함할 수 있다. 사용자 인터페이스(190)는 IR 신호 수신부를 통해, 원격 제어 장치(10)로부터 전자 장치(100')가 턴온되기 위한 신호를 수신할 수 있고, 전자 장치(100')가 턴온되어 있는 상태에서 원격 제어 장치(10)로부터 각종 제어 신호를 수신할 수 있다.

먼저, 전자 장치를 통해 사용자 음성을 입력받을 수 있다(S810). 본 발명의 전자 장치에는 제1 표기 형식에 따른 제1 텍스트 및 제1 텍스트가 제2 표기 형식으로 표기된 적어도 하나의 제2 텍스트가 저장되는데, 이러한 제1 텍스트 및 제2 텍스트는 사용자에 의해 직접 입력될 수도 있으며, 제조공정에서 미리 전자 장치에 저장될 수도 있다.

이후, 입력된 사용자 음성이 변환된 음성 텍스트가 기설정된 명령어에 대응되면, 기설정된 명령어에 따른 기능을 실행한다.

이때, 기설정된 명령어가 제1 표기 형식에 따른 제1 텍스트를 포함하고, 사용자 음성이 변환된 음성 텍스트가, 기설정된 명령어의 제1 텍스트가 제2 표기 형식의 제2 텍스트로 표기된 텍스트인 경우, 기설정된 명령어에 따른 기능을 실행할 수 있다. 이때, 음성 텍스트는 기설정된 단위로 구분될 수 있으며, 음성 텍스트의 텍스트 단위 중 적어도 하나가 제2 텍스트를 포함하면, 제2 텍스트 각각에 대응되는 제1 텍스트를 식별하고, 식별된 제1 텍스트 및 제2 텍스트에 기초하여 식별된 명령어에 따른 기능을 실행할 수 있다.

또한, 음성 텍스트의 텍스트 단위 및 식별된 제1 텍스트 중 어느 하나가 기설정된 명령어에 포함되는지 여부에 기초하여, 기설정된 명령어 및 사용자 음성의 제1 유사도 스코어를 산출하고, 산출된 제1 유사도 스코어가 기설정된 임계값 이상인 경우, 기설정된 명령어에 따른 기능을 실행할 수 있다.

또한, 기설정된 명령어는 기설정된 텍스트 단위로 구분될 수 있으며, 기설정된 명령어의 텍스트 단위 각각이 음성 텍스트의 텍스트 단위 및 식별된 제1 텍스트 중 어느 하나에 포함되는지 여부에 기초하여 기설정된 명령어 및 사용자 음성의 제2 유사도 스코어를 산출할 수 있다. 이때, 산출된 제1 및 제2 유사도 스코어 각각이 기설정된 임계값 이상인 경우, 기설정된 명령어에 따른 기능을 실행할 수 있다.

이상과 같은 본 발명의 다양한 실시 예에 따르면, 음성 인식 결과와 명령어 표기의 불일치가 있는 경우에도 사용자의 의도에 따른 명령어의 기능이 실행될 수 있으므로 사용자의 편의성이 증대될 수 있다.

상술한 다양한 실시 예에 따른 제어 방법은 프로그램으로 구현되어 다양한 기록 매체에 저장될 수 있다. 즉, 각종 프로세서에 의해 처리되어 상술한 다양한 제어 방법을 실행할 수 있는 컴퓨터 프로그램이 기록 매체에 저장된 상태로 사용될 수도 있다.

일 예로, i) 제1 표기 형식에 따른 제1 텍스트를 포함하는 기설정된 명령어 및 상기 제1 텍스트가 제2 표기 형식으로 표기된 적어도 하나의 제2 텍스트, ii) 사용자 음성을 입력받는 단계 및 iii) 사용자 음성이 변환된 텍스트가 제2 텍스트를 포함하면, 기설정된 명령어에 따른 기능을 실행하는 단계를 수행하는 프로그램이 저장된 비일시적 판독 가능 매체(non-transitory computer readable medium)가 제공될 수 있다.

비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.

또한, 이상에서는 본 발명의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

Claims

전자 장치에 있어서,

음성 입력부;

제1 표기 형식에 따른 제1 텍스트 및 상기 제1 텍스트가 제2 표기 형식으로 표기된 적어도 하나의 제2 텍스트를 저장하는 저장부; 및

상기 음성 입력부를 통해 입력된 사용자 음성이 변환된 음성 텍스트가 기설정된 명령어에 대응되면, 상기 기설정된 명령어에 따른 기능을 실행하는 프로세서;를 포함하고,

상기 프로세서는,

상기 기설정된 명령어가 상기 제1 텍스트를 포함하고, 상기 음성 텍스트가, 상기 기설정된 명령어의 상기 제1 텍스트가 제2 표기 형식의 상기 제2 텍스트로 표기된 텍스트인 경우, 상기 기설정된 명령어에 따른 기능을 실행하는 전자 장치.
제1항에 있어서,

상기 음성 텍스트는,

기설정된 텍스트 단위로 구분되고,

상기 프로세서는,

상기 음성 텍스트의 텍스트 단위 중 적어도 하나가 상기 제2 텍스트를 포함하면, 상기 저장부로부터, 상기 제2 텍스트 각각에 대응되는 제1 텍스트를 식별하고, 상기 식별된 제1 텍스트 및 상기 제2 텍스트에 기초하여 식별된 명령어에 따른 기능을 실행하는, 전자 장치.
제2항에 있어서,

상기 프로세서는,

상기 음성 텍스트의 텍스트 단위 및 상기 식별된 제1 텍스트 중 어느 하나가 상기 기설정된 명령어에 포함되는지 여부에 기초하여 상기 기설정된 명령어 및 상기 사용자 음성의 제1 유사도 스코어를 산출하고, 상기 산출된 제1 유사도 스코어가 기설정된 임계값 이상인 경우, 상기 기설정된 명령어에 따른 기능을 실행하는, 전자 장치.
제3항에 있어서,

상기 기설정된 명령어는,

기설정된 텍스트 단위로 구분되고,

상기 프로세서는,

상기 기설정된 명령어의 텍스트 단위 각각이 상기 음성 텍스트의 텍스트 단위 및 상기 식별된 제1 텍스트 중 어느 하나에 포함되는지 여부에 기초하여 상기 기설정된 명령어 및 상기 사용자 음성의 제2 유사도 스코어를 더 산출하고, 상기 산출된 제1 및 제2 유사도 스코어 각각이 기설정된 임계값 이상인 경우, 상기 기설정된 명령어에 따른 기능을 실행하는, 전자 장치.
제1항에 있어서,

디스플레이;를 더 포함하고,

상기 기설정된 명령어는,

상기 디스플레이를 통해 제공되는 UI(User Interface)에 표시되는, 전자 장치.
제5항에 있어서,

상기 프로세서는,

상기 기설정된 명령어에 따른 기능이 실행된 화면을 디스플레이하도록 상기 디스플레이를 제어하는, 전자 장치.
제1항에 있어서,

통신부;를 더 포함하고,

상기 프로세서는,

상기 기설정된 명령어에 따른 기능이 실행된 화면을 제공하는 영상을 상기 전자 장치와 연결된 디스플레이 장치에 전송하도록 상기 통신부를 제어하는, 전자 장치.
제1항에 있어서,

상기 음성 입력부는,

마이크로폰(microphone)를 포함하는, 전자 장치.
제1항에 있어서,

통신부;를 더 포함하고,

상기 프로세서는,

상기 음성 입력부를 통해 입력된 상기 사용자 음성을 외부 장치로 전송하고, 상기 외부 장치로부터 상기 사용자 음성이 음성 인식에 따라 변환된 음성 텍스트를 수신하도록 상기 통신부를 제어하는, 전자 장치.
제1항에 있어서,

상기 제2 텍스트는,

상기 제1 텍스트의 외래어 표기에 의한 형식, 숫자 표기에 의한 형식 및 기호 표기에 의한 형식 중 적어도 하나에 따라 상기 제1 텍스트와 다르게 표기되는 텍스트인, 전자 장치.
제1 표기 형식에 따른 제1 텍스트 및 상기 제1 텍스트가 제2 표기 형식으로 표기된 적어도 하나의 제2 텍스트를 저장하는 전자 장치의 제어 방법에 있어서,

사용자 음성을 입력받는 단계; 및

상기 입력된 사용자 음성이 변환된 음성 텍스트가 기설정된 명령어에 대응되면, 상기 기설정된 명령어에 따른 기능을 실행하는 단계;를 포함하고,

상기 실행하는 단계는,

상기 기설정된 명령어가 상기 제1 텍스트를 포함하고, 상기 음성 텍스트가, 상기 기설정된 명령어의 상기 제1 텍스트가 제2 표기 형식의 상기 제2 텍스트로 표기된 텍스트인 경우, 상기 기설정된 명령어에 따른 기능을 실행하는, 제어 방법.
제11항에 있어서,

상기 음성 텍스트는,

기설정된 텍스트 단위로 구분되고,

상기 실행하는 단계는,

상기 음성 텍스트의 텍스트 단위 중 적어도 하나가 상기 제2 텍스트를 포함하면, 상기 제2 텍스트 각각에 대응되는 제1 텍스트를 식별하고, 상기 식별된 제1 텍스트 및 상기 제2 텍스트에 기초하여 식별된 명령어에 따른 기능을 실행하는, 제어 방법.
제12항에 있어서,

상기 실행하는 단계는,

상기 음성 텍스트의 텍스트 단위 및 상기 식별된 제1 텍스트 중 어느 하나가 상기 기설정된 명령어에 포함되는지 여부에 기초하여 상기 기설정된 명령어 및 상기 사용자 음성의 제1 유사도 스코어를 산출하는 단계; 및

상기 산출된 제1 유사도 스코어가 기설정된 임계값 이상인 경우, 상기 기설정된 명령어에 따른 기능을 실행하는 단계;를 포함하는, 제어 방법.
제13항에 있어서,

상기 기설정된 명령어는,

기설정된 텍스트 단위로 구분되고,

상기 기설정된 명령어의 텍스트 단위 각각이 상기 음성 텍스트의 텍스트 단위 및 상기 식별된 제1 텍스트 중 어느 하나에 포함되는지 여부에 기초하여 상기 기설정된 명령어 및 상기 사용자 음성의 제2 유사도 스코어를 산출하는 단계;를 더 포함하고,

상기 실행하는 단계는,

상기 산출된 제1 및 제2 유사도 스코어 각각이 기설정된 임계값 이상인 경우, 상기 기설정된 명령어에 따른 기능을 실행하는, 제어 방법.
제11항에 있어서,

상기 기설정된 명령어를 포함하는 UI를 표시하는 단계; 및

상기 기설정된 명령어에 따른 기능이 실행된 화면을 표시하는 단계;를 더 포함하는, 제어 방법.