WO2019088571A1

WO2019088571A1 - 전자 장치, 음성 인식 방법 및 기록 매체

Info

Publication number: WO2019088571A1
Application number: PCT/KR2018/012750
Authority: WO
Inventors: 배재현
Original assignee: 삼성전자주식회사
Priority date: 2017-10-31
Filing date: 2018-10-25
Publication date: 2019-05-09
Also published as: EP3678131A4; US11223878B2; KR20190048334A; KR102452644B1; EP3678131B1; EP3678131A1; US20200280767A1

Abstract

전자 장치가 개시된다. 본 전자 장치는 음성을 입력받는 마이크, 복수의 텍스트 세트를 저장하는 메모리, 마이크를 통하여 입력된 음성을 텍스트로 변환하고, 복수의 텍스트 세트 각각에 대하여 변환된 텍스트와 공통된 단어를 검색하고, 검색된 공통된 단어의 비율에 기초하여 복수의 텍스트 세트 중 적어도 하나의 텍스트 세트를 결정하는 프로세서를 포함한다.

Description

전자 장치, 음성 인식 방법 및 기록 매체

본 개시는 전자 장치와 음성 인식 방법 및 기록 매체에 관한 것으로, 보다 상세하게는 입력된 음성을 변환한 텍스트에서 추출된 단어가 포함된 비율을 이용함으로써 일부 텍스트만의 발화로 전체 텍스트의 인식이 가능하게 하는 전자 장치, 음성 인식 방법 및 기록 매체에 관한 것이다.

전자 장치는 사용자의 명령에 따라 특정한 기능을 전자적으로 수행하는 장치로서, 전자 장치가 사용자의 명령을 받음에 있어 사용자의 음성을 인식하여 사용자가 의도한 기능을 수행하는 기술이 본격적으로 제공되기 시작하였다.

종래 사용자의 음성을 통해 사용자의 명령을 인식함에 있어, 음성인식 결과가 후보 단어 혹은 문장과 일치할 때, 해당 단어 혹은 문장을 인식하였음을 결정하였고, 상술한 인식 결과를 이용하여 기능을 동작시키거나, 사용자에게 피드백을 제공하였다.

따라서, 인식하여야 하는 후보 단어 혹은 문장이 길거나 사용자가 전체를 발성하지 않은 경우 해당 후보 단어 혹은 문장을 인식한 것으로 판단하지 않아 기능 동작 혹은 피드백이 이루어지지 않았고, 결과적으로 사용자의 의도에 반하여 음성인식의 사용성을 저해하는 문제점이 있었다.

또한, 음성인식 결과에 대해 후처리를 하는 종래의 기술 역시, 기본적으로 최종 결과가 후보 단어 혹은 문장과 일치하여야만 인식이 되는 것으로 하였으므로 한계가 있었다.

따라서, 본 개시의 목적은 입력된 음성을 변환한 텍스트에서 추출된 단어가 포함된 비율을 이용함으로써 일부 텍스트만의 발화로 전체 텍스트의 인식이 가능하게 하는 전자 장치, 음성 인식 방법 및 기록 매체를 제공함에 있다.

상술한 목적을 달성하기 위한 본 개시의 일 실시예에 따른 전자 장치는 음성을 입력받는 마이크, 복수의 텍스트 세트를 저장하는 메모리, 상기 마이크를 통하여 입력된 음성을 텍스트로 변환하고, 상기 복수의 텍스트 세트 각각에 대하여 상기 변환된 텍스트와 공통된 단어를 검색하고, 상기 검색된 공통된 단어의 비율에 기초하여 상기 복수의 텍스트 세트 중 적어도 하나의 텍스트 세트를 결정하는 프로세서를 포함한다.

이때, 상기 프로세서는, 상기 텍스트 세트 내의 상기 검색된 공통된 단어의 제1 비율 및 상기 변환된 텍스트 내의 상기 검색된 공통된 단어의 제2 비율에 기초하여 적어도 하나의 텍스트 세트를 결정할 수 있다.

이 경우, 상기 프로세서는, 상기 제1 비율 및 상기 제2 비율 중 적어도 하나의 비율이 기설정된 비율을 넘는 텍스트 세트를 적어도 하나의 텍스트 세트로 결정할 수 있다.

이때, 상기 프로세서는, 상기 기설정된 비율을 넘는 텍스트 세트가 복수개이면, 상기 복수개의 텍스트 세트를 상기 복수개의 텍스트 세트 각각의 상기 제1 비율 및 제2 비율 중 적어도 하나의 비율의 순서대로 정렬한 UI를 표시하도록 할 수 있다.

또한, 상기 프로세서는, 상기 복수의 텍스트 세트 내의 상기 추출된 단어의 비율 및 상기 추출된 단어의 순서에 기초하여 상기 복수의 텍스트 세트 중 하나의 텍스트 세트를 결정할 수 있다.

그리고, 상기 프로세서는, 상기 복수의 텍스트 세트 중 상기 추출된 단어 및 상기 추출된 단어의 순서에 기초하여 후보 텍스트 세트를 검색하고, 상기 검색된 후보 텍스트 세트 내의 상기 추출된 단어의 비율에 기초하여 적어도 하나의 텍스트 세트를 결정할 수 있다.

또한, 상기 프로세서는, 상기 결정된 텍스트 세트에 대응되는 이벤트를 수행할 수 있다.

한편, 본 전자 장치는 EPG 정보를 수신하는 통신부를 더 포함하고, 상기 프로세서는, EPG 정보에 포함된 방송 프로그램 정보를 상기 텍스트 세트로 상기 메모리에 저장할 수 있다.

이때, 상기 프로세서는, 상기 결정된 텍스트 세트가 상기 EPG 정보에 대응되면, 상기 EPG 정보에 대응되는 방송 프로그램과 관련된 이벤트를 생성할 수 있다.

이 경우, 상기 방송 프로그램과 관련된 이벤트는, 상기 방송 프로그램으로의 채널 이동, 녹화, 예약 녹화, 시청 예약 중 적어도 하나일 수 있다.

한편, 본 개시의 다른 실시 예에 따른 전자 장치에서의 음성 인식 방법은, 입력된 음성을 텍스트로 변환하는 단계, 상기 변환된 텍스트를 기초로 복수의 단어를 추출하는 단계, 기저장된 복수의 텍스트 세트 각각에 대하여 상기 추출된 복수의 단어와 공통된 단어를 검색하고, 상기 검색된 공통된 단어의 비율에 기초하여 상기 복수의 텍스트 세트 중 적어도 하나의 텍스트 세트를 결정하는 단계, 상기 결정된 텍스트 세트에 대응되는 이벤트를 수행하는 단계를 포함한다.

이때, 상기 결정하는 단계는, 상기 텍스트 세트 내의 상기 검색된 공통된 단어의 제1 비율을 계산하는 단계, 상기 변환된 텍스트 내의 상기 검색된 공통된 단어의 제2 비율을 계산하는 단계, 상기 계산된 제1 비율 및 상기 계산된 제2 비율에 기초하여 적어도 하나의 텍스트 세트를 선정하는 단계를 포함할 수 있다.

이 경우, 상기 선정하는 단계는, 상기 제1 비율 및 상기 제2 비율 중 적어도 하나의 비율이 기설정된 비율을 넘는 텍스트 세트를 적어도 하나의 텍스트 세트로 선정할 수 있다.

이때, 본 음성 인식 방법은, 상기 기설정된 비율을 넘는 텍스트 세트가 복수개이면, 상기 복수개의 텍스트 세트를 상기 복수개의 텍스트 세트 각각의 상기 제1 비율 및 제2 비율 중 적어도 하나의 비율의 순서대로 정렬한 UI를 표시하는 단계를 더 포함할 수 있다.

또한, 상기 결정하는 단계는, 상기 복수의 텍스트 세트 내의 상기 추출된 단어의 비율 및 상기 추출된 단어의 순서에 기초하여 상기 복수의 텍스트 세트 중 하나의 텍스트 세트를 결정할 수도 있다.

또는, 상기 결정하는 단계는, 상기 복수의 텍스트 세트 중 상기 추출된 단어 및 상기 추출된 단어의 순서에 기초하여 후보 텍스트 세트를 검색하는 제1단계, 상기 검색된 후보 텍스트 세트 내의 상기 추출된 단어의 비율에 기초하여 적어도 하나의 텍스트 세트를 결정하는 제2단계를 포함할 수도 있다.

또는, 상기 음성 인식 방법은, EPG 정보를 수신하는 단계와 상기 EPG 정보에 포함된 방송 프로그램 정보를 텍스트 세트로 메모리에 저장하는 단계를 더 포함할 수 있다.

이 경우, 상기 이벤트를 수행하는 단계는, 상기 결정된 텍스트 세트가 상기 EPG 정보에 대응되면, 상기 EPG 정보에 대응되는 방송 프로그램과 관련된 이벤트를 수행할 수 있다.

이에 더하여, 상기 방송 프로그램과 관련된 이벤트는, 상기 방송 프로그램으로의 채널 이동, 녹화, 예약 녹화, 시청 예약 중 적어도 하나일 수 있다.

한편, 본 개시의 또 다른 일 실시 예에 따르면, 전자 장치에서의 음성 인식 방법을 실행하기 위한 프로그램을 포함하는 컴퓨터 판독가능 기록 매체에 있어서 상기 음성 인식 방법은 입력된 음성을 텍스트로 변환하는 단계, 상기 변환된 텍스트를 기초로 복수의 단어를 추출하는 단계, 기저장된 복수의 텍스트 세트 내의 상기 추출된 단어의 비율에 기초하여 상기 복수의 텍스트 세트 중 적어도 하나의 텍스트 세트를 결정하는 단계, 상기 결정된 텍스트 세트에 대응되는 이벤트를 수행하는 단계를 포함할 수 있다.

도 1은 본 개시의 일 실시 예의 전자 장치의 구성을 나타내는 블럭도,

도 2는 음성 인식 결과 매칭을 위한 본 개시의 다양한 실시 예에 따른 전자 장치의 구성을 나타내는 블럭도,

도 3은 도 1을 구체화하여, 프로세서의 구성 및 메모리 내 저장된 텍스트 세트를 나타내는 블럭도,

도 4는 사용자의 일부 텍스트 발성만으로 전체 텍스트를 인식하여 상기 전체 텍스트에 대응되는 기능을 실행하는 전자 장치의 일 예를 설명하기 위한 도면,

도 5는 음성 인식 결과 매칭을 위해 서버와 음성 신호 및 텍스트 정보를 공유하며 인식 결과를 출력하는 전자 장치의 일 예를 설명하기 위한 도면,

도 6은 본 개시의 음성 인식 결과 매칭을 EPG에 적용한 일 예를 설명하기 위한 도면,

도 7은 본 개시의 일 실시 예로서, 전자 장치에서의 음성 인식 방법을 단계별로 나타내는 흐름도, 그리고

도 8은 전자 장치에서의 음성 인식을 위한 판단 과정을 나타내는 또 다른 실시 예를 설명하기 위한 흐름도이다.

본 개시에 대하여 구체적으로 설명하기에 앞서, 본 명세서 및 도면의 기재 방법에 대하여 설명한다.

먼저, 본 명세서 및 청구범위에서 사용되는 용어는 본 개시의 다양한 실시 예들에서의 기능을 고려하여 일반적인 용어들을 선택하였다 하지만, 이러한 용어들은 당해 기술 분야에 종사하는 기술자의 의도나 법률적 또는 기술적 해석 및 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 일부 용어는 출원인이 임의로 선정한 용어도 있다. 이러한 용어에 대해서는 본 명세서에서 정의된 의미로 해석될 수 있으며, 구체적인 용어 정의가 없으면 본 명세서의 전반적인 내용 및 당해 기술 분야의 통상적인 기술 상식을 토대로 해석될 수도 있다.

또한, 본 명세서에 첨부된 각 도면에 기재된 동일한 참조번호 또는 부호는 실질적으로 동일한 기능을 수행하는 부품 또는 구성요소를 나타낸다. 설명 및 이해의 편의를 위해서 서로 다른 실시 예들에서도 동일한 참조번호 또는 부호를 사용하여 설명한다. 즉, 복수의 도면에서 동일한 참조 번호를 가지는 구성요소를 모두 도시되어 있다고 하더라도, 복수의 도면들이 하나의 실시 예를 의미하는 것은 아니다.

또한, 본 명세서 및 청구범위에서는 구성요소들 간의 구별을 위하여 "제1", "제2" 등과 같이 서수를 포함하는 용어가 사용될 수 있다. 이러한 서수는 동일 또는 유사한 구성요소들을 서로 구별하기 위하여 사용하는 것이며 이러한 서수 사용으로 인하여 용어의 의미가 한정 해석되어서는 안 된다. 일 예로, 이러한 서수와 결합된 구성요소는 그 숫자에 의해 사용 순서나 배치 순서 등이 제한되어서는 안 된다. 필요에 따라서는, 각 서수들은 서로 교체되어 사용될 수도 있다.

본 명세서에서 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "구성되다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

본 개시의 실시 예에서 "모듈", "유닛", "부(part)" 등과 같은 용어는 적어도 하나의 기능이나 동작을 수행하는 구성요소를 지칭하기 위한 용어이며, 이러한 구성요소는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의 "모듈", "유닛", "부(part)" 등은 각각이 개별적인 특정한 하드웨어로 구현될 필요가 있는 경우를 제외하고는, 적어도 하나의 모듈이나 칩으로 일체화되어 적어도 하나의 프로세서로 구현될 수 있다.

또한, 본 개시의 실시 예에서, 어떤 부분이 다른 부분과 연결되어 있다고 할 때, 이는 직접적인 연결뿐 아니라, 다른 매체를 통한 간접적인 연결의 경우도 포함한다. 또한, 어떤 부분이 어떤 구성요소를 포함한다는 의미는, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

이하, 첨부된 도면을 이용하여 본 개시에 대해 구체적으로 설명한다.

도 1은 본 개시의 일 실시 예의 전자 장치의 구성을 나타내는 블럭도이다. 도 1에 따르면, 전자 장치(100)는 마이크(110), 메모리(120) 및 프로세서(130)를 포함한다.

전자 장치(100)는 예를 들어 아날로그 TV, 디지털 TV, 3D-TV, 스마트 TV, LED TV, OLED TV, 플라즈마 TV, 모니터, 고정 곡률(curvature)인 화면을 가지는 커브드(curved) TV, 고정 곡률인 화면을 가지는 플렉시블(flexible) TV, 고정 곡률인 화면을 가지는 벤디드(bended) TV, 및/또는 수신되는 사용자 입력에 의해 현재 화면의 곡률을 변경 가능한 곡률 가변형 TV 등으로 구현될 수 있으나, 이에 한정되지는 않는다.

마이크(110)는 사용자의 음성을 입력받고, 수신된 음성에 대응하는 음성 신호를 생성할 수 있다. 도 1에서 마이크(110)는 전자 장치(100) 내에 구비된 것으로 구현되었으나, 전자 장치(100) 외부에 별도로 구성되며 전자장치(100)와 전자적으로 연결된 외장형 마이크일 수 있다.

메모리(120)는 비휘발성 메모리(ex, 하드디스크, SSD(Solid state drive), 플래시 메모리), 휘발성 메모리 등으로 구현될 수 있으며 텍스트 정보, 영상 컨텐츠 및 전자 장치(100)의 기능과 관련된 정보를 저장할 수 있다.

메모리(120)는 복수의 텍스트 세트를 저장할 수 있다. 예를 들면 각각의 텍스트 세트는, "What time is it now?"나 "How is the weather today?"와 같은 일상 정보와 관련된 문장, 전자 장치(100)가 수행할 수 있는 기능에 대한 명령문장 또는 특정한 정보를 요청하는 문장 등을 포함할 수 있고, EPG(Electronic Program Guide) 정보도 포함될 수 있다. 다만, 텍스트 세트는 상술한 구성들에만 국한되지는 않는다.

한편, 메모리(120)에 저장된 복수의 텍스트 세트에 대한 정보는 프로세서(130)의 제어에 의해 추가, 삭제 또는 변경될 수 있다.

프로세서(130)는 마이크(110)가 음성을 입력받도록 제어하거나 메모리(120)가 데이터를 저장하도록 제어하거나 또는 메모리(120)로부터 데이터를 받아올 수 있다. 한편, 프로세서(130)는 전자 장치(100)에 포함된 구성들을 제어하는 구성일 수 있다.

프로세서(130)는 사용자의 발화가 마이크(110)를 통해 입력되어 얻어진 음성신호를 텍스트로 변환한 뒤, 이를 메모리(120)에 저장된 각각의 텍스트 세트와 단어 단위로 비교할 수 있다. 다만, 반드시 단어 단위에 한정된다고 할 수 없으며, 음절이나 자음, 모음 또는 각 글자나 알파벳 단위 등일 수 있다.

또한 프로세서(130)는 음성신호를 변환한 텍스트와 메모리에 저장된 각각의 텍스트 세트 간에 일치하는 단어의 비율 또는 순서를 고려하여, 가장 일치하는 정도가 높은 텍스트 세트를 결정한다.

한편 프로세서(130)는 단어의 순서를 기초로 텍스트 중 하나 이상의 후보를 정할 수 있고, 정해진 후보들에 대해서만 음성신호를 변환한 텍스트와 일치하는 단어의 비율을 고려하여 최종적으로 하나의 텍스트 세트를 결정할 수도 있다.

이 경우, 후보를 정할 때는 공통된 단어의 순서를 이용함으로써, 기저장된 모든 텍스트 세트에 대해서 비율을 계산할 필요는 없게 되므로 전체 과정의 속도가 향상되는 장점이 있다.

또한, 후보 텍스트 세트를 추려낸 뒤에는 비율을 이용한 정밀한 결정이 가능하므로, 본 실시 예는 음성 인식 결과 매칭의 신속성과 정확성이 모두 구비된 것이라 할 수 있다.

또한, 프로세서(130)는 각각의 텍스트 세트들에 대하여, 음성신호를 변환한 텍스트와 일치하는 단어의 비율을 계산하여, 기설정된 임계값을 넘는 텍스트 세트들만 후보로 삼고, 그 후보 중 음성신호를 변환한 텍스트와 일치하는 단어의 비율이 가장 높은 텍스트 세트를 선정할 수 있다.

이 경우, 만약 기설정된 임계값을 넘는 텍스트 세트가 존재하지 않는다면, 프로세서(130)는 전자 장치(100)가 사용자에게 결과가 없음을 알리거나 추가적인 발화를 요구하거나 또는 기설정된 임계값을 다시 설정할 것인지 물어보는 등의 기능을 수행하도록 제어할 수 있다.

한편, 프로세서(130)는 저장된 복수의 텍스트 세트 각각에 대해서 음성신호를 변환한 텍스트와 공통된 단어를 검색하고, 각각의 텍스트 세트 내에서 검색된 공통된 단어의 제1 비율 및 음성신호를 변환한 텍스트 내에서 검색된 공통된 단어의 제2 비율에 기초하여 적어도 하나의 텍스트 세트를 결정할 수 있다.

이 경우, 제1 비율 및 제2 비율 중 적어도 하나의 비율이 기설정된 비율을 넘는 텍스트 세트를 결과 텍스트 세트로 결정할 수 있다. 만약, 기설정된 비율을 넘는 텍스트 세트가 복수 개이면, 복수 개의 텍스트 세트 중 제1 비율 또는 제2 비율이 가장 높은 텍스트 세트를 결과 텍스트 세트로 선정하거나, 또는 기설정된 비율을 만족하는 복수 개의 텍스트 세트 각각의 제1 비율 및 제2 비율 중 적어도 하나의 비율의 순서대로 정렬한 UI를 표시하여 사용자가 선택할 수 있도록 할 수 있다.

또한, 제1 비율 및 제2 비율에 대하여, 임계값이 되는 비율을 각각 달리 설정할 수 있다. 제1 비율과 제2 비율 각각에 대하여, 기설정된 비율을 넘는 텍스트 세트가 필요 이상으로 많은 경우 임계값이 되는 비율을 낮출 것이고, 기설정된 비율을 넘는 텍스트 세트가 없는 경우 임계값이 되는 비율을 높일 수 있을 것이다.

이때, 기설정된 임계값은 언어의 종류, 음성 신호를 변환한 텍스트가 포함하는 각 단어의 사용 빈도, 전자 장치의 종류, 음성 신호를 변환한 텍스트가 포함하는 각 단어를 포함하는 표준 텍스트의 수, 음성 신호를 변환한 텍스트의 문장 완성도 또는 음성 신호의 노이즈 정도 등에 따라 설정된 것일 수 있다.

한편, 각 단어가 일치하는 지를 판단하는 방법도 복수 개 존재한다. 일 예로, 각 음절 또는 글자별로 비교하여 모든 음절이 완전히 일치하는 경우 또는 기설정된 비율 이상 일치하는 경우에만 단어가 서로 일치한다고 할 수 있고, 또는 각 자음이나 모음 및 알파벳 등 언어별 기본 문자 단위를 토대로 결정할 수도 있다.

단어의 일치 여부를 판단함에 있어 어떤 단위를 이용할 것인지는 음성신호의 시간 길이, 음성 신호를 변환한 텍스트의 데이터 용량, 언어의 종류, 전자 장치의 종류, 음성 신호를 변환한 텍스트가 포함하는 각 단어의 사용 빈도 또는 음성 신호를 변환한 텍스트가 포함하는 각각의 단어에 대해 전자장치가 판단한 오차 확률 등을 이용하여 결정될 수 있다.

상술한 여러 가지 결정 방법에 따라 텍스트 세트를 결정한 프로세서(130)는 결정된 텍스트 세트에 대응되는 이벤트를 수행할 수 있다.

도 2는 음성 인식 결과 매칭을 위한 본 개시의 다양한 실시 예 중 하나로, 전자 장치(100)가 TV로 구현된 경우의 구성을 나타내는 블럭도이다. 도 2를 설명함에 있어, 도 1과 중복되는 구성에 대한 설명은 생략한다.

도 2를 참조하면, 전자 장치(100)는 하드웨어적 구성으로써 마이크(110), 메모리(120), 프로세서(130), 디스플레이(140), 음성 출력부(150), 통신부(160)를 포함할 수 있다. 또한 방송 신호를 수신하는 방송 수신부(170)를 포함할 수 있다.

프로세서(130)는 RAM(131), ROM(132), CPU(133), 시스템 버스(134)를 포함할 수 있다. RAM(131), ROM(132), CPU(133) 등은 시스템 버스(134)를 통해 서로 연결되어 각종 데이터나 신호를 송수신할 수 있다.

ROM(132)은 시스템 부팅을 위한 명령어 세트가 저장되는 것으로, CPU(133)는 ROM(132)에 저장된 명령어에 따라서 전자 장치(100)의 저장부(도시되지 않음)에 저장된 운영체제를 RAM(131)에 복사하고 O/S를 실행시켜 시스템을 부팅시킨다.

부팅 이후, CPU(133)는 전자 장치(100)의 저장부에 저장된 각종 애플리케이션을 RAM(131)에 복사하고 실행시켜 여러가지 동작을 수행할 수 있다. 도 3에서는 하나의 CPU(133)만을 포함하고 있지만, 구현 시 복수의 CPU 또는 DSP, SoC 등으로 구현될 수 있다.

CPU(123)는 저장부(도시되지 않음)에 액세스하여, 저장부에 저장된 O/S를 이용하여 부팅을 수행한다. 그리고 저장부에 저장된 각종 프로그램, 컨텐츠, 데이터 등을 이용하여 다양한 동작을 수행한다. 한편, 메모리(120)는 저장부에 포함된 구성이거나 또는 저장부는 메모리(120)에 포함된 구성일 수 있다.

디스플레이(140)는 LCD(Liquid Crystal Display), CRT(cathode-ray tube), PDP(plasma display panel), OLED(organic light emitting diodes), TOLED(transparent OLED) 등으로 구현될 수 있다. LCD로 구성되는 경우, 디스플레이(120) 내에는 a-si TFT, LTPS(low temperature poly silicon) TFT, OTFT(organic TFT) 등과 같은 형태로 구현될 수 있는 구동 회로, 백라이트 유닛 등도 함께 포함될 수 있다. 한편, 디스플레이(140)는 사용자의 터치 조작을 감지할 수 있는 터치스크린 형태로 구현될 수도 있다.

음성 출력부(150)는 오디오를 출력하기 위한 구성으로서, 예컨대, 튜너(도시되지 않음)를 통해 수신된 방송 신호에 포함된 오디오, 또는 통신부(160)나 마이크(110) 등을 통해 입력되는 오디오, 또는 메모리(120)에 저장된 오디오 파일에 포함된 오디오를 출력할 수 있다.

또한, 오디오 출력부(150)는 스피커(151) 및 헤드폰 출력 단자(152)를 포함할 수 있다. 음성 출력부(150)는 프로세서(130)로부터 결과 신호를 받아서, 프로세서(130)의 제어에 대응되는 음성을 출력할 수 있다.

통신부(160)는 통신방식에 따라 다양한 종류의 외부 기기와 통신을 수행하는 구성이다. 통신부(160)는 근거리 통신망(LAN: Local Area Network) 또는 인터넷망을 통해 외부 기기에 접속될 수 있고, 무선 통신(예를 들어, Z-wave, 4LoWPAN, RFID, LTE D2D, BLE, GPRS, Weightless, Edge Zigbee, ANT+, NFC, IrDA, DECT, WLAN, 블루투스, 와이파이, Wi-Fi Direct, GSM, UMTS, LTE, WiBRO 등의 무선 통신) 방식에 의해서 외부 기기에 접속될 수 있다.

통신부(160)는 와이파이칩(161), 블루투스 칩(162), NFC칩(163), 무선 통신 칩(164) 등과 같은 다양한 통신 칩을 포함한다. 와이파이 칩(161), 블루투스 칩(162), NFC 칩(163)은 각각 WiFi 방식, 블루투스 방식, NFC 방식으로 통신을 수행한다. 또한 통신부(160)는 외부장치(도시되지 않음) 또는 서버(도시되지 않음)로부터 제어신호(예를 들어 IR 펄스)를 수신할 수 있는 광 수신부(165)를 포함할 수 있다.

무선 통신 칩(164)은 IEEE, 지그비, 3G(3rd Generation), 3GPP(3rd Generation Partnership Project), LTE(Long Term Evoloution) 등과 같은 다양한 통신 규격에 따라 통신을 수행하는 칩을 의미한다.

CPU(133)는 메모리(120)에 기저장된 복수의 텍스트 세트 중에서 음성 신호에 맞는 텍스트 세트를 결정한 후, 결정된 텍스트 세트에 대응되는 기능을 수행한다.

또한, CPU(133)는 디스플레이(140)가 입력된 음성 신호를 변환한 텍스트, 결정된 텍스트 세트 또는 결정된 텍스트 세트에 대응되는 기능을 수행한 결과를 디스플레이(140)에 표시하도록 제어할 수 있다.

한편, CPU(133)는 결정된 텍스트 세트 또는 결정된 텍스트 세트에 대응되는 기능을 수행한 결과를 음성출력부(150)가 스피커(151) 또는 헤드폰(152) 등을 통해서 음성으로 출력하도록 제어할 수 있다.

외부 장치(도시되지 않음)와 데이터의 송수신이 가능한 통신부(160)는, CPU(133)의 제어에 따라, 음성신호나 음성신호의 변환 텍스트 또는 결정된 텍스트 세트 정보를 외부장치에 전송하거나 또는 외부장치로부터 추가적인 텍스트 세트 정보를 받을 수 있다. CPU(133)는 메모리(120)에 저장된 텍스트 세트 정보를 추가, 변경 또는 삭제할 수 있다.

방송 수신부(170)는 유선 또는 무선으로 수신되는 방송 신호를 증폭(amplification), 혼합(mixing), 공진(resonance) 등을 통하여 많은 전파 성분 중에서 전자 장치(100)에서 수신하고자 하는 채널의 주파수만을 튜닝(tuning)시켜 선택할 수 있다. 방송 신호는 비디오(video), 오디오(audio) 및 부가 데이터(예를 들어, EPG(Electronic Program Guide)를 포함할 수 있다.

방송 수신부(170)는 사용자 입력에 대응되는 채널 번호에 대응되는 주파수 대역에서 비디오, 오디오 및 데이터를 수신할 수 있다.

방송 수신부(170)는 지상파 방송, 케이블 방송, 또는, 위성 방송 등과 같이 다양한 소스에서부터 방송 신호를 수신할 수 있다. 방송 수신부(170)는 다양한 소스에서부터 아날로그 방송 또는 디지털 방송 등과 같은 소스로부터 방송 신호를 수신할 수도 있다.

방송 수신부는 전자 장치(100)와 일체형(all-in-one)으로 구현되거나 또는 전자 장치(100)와 전기적으로 연결되는 방송 수신 유닛을 가지는 별개의 장치(예를 들어, 셋톱박스(set-top box), 입/출력부(도시되지 않음)에 연결되는 튜너)로 구현될 수 있다.

도 3은 프로세서의 구성 및 텍스트 세트가 저장된 메모리를 포함하는 일 실시예에 대한 블럭도이다. 도 3을 참조하면 프로세서(130)는, 음성인식부(310) 및 매칭부(320)를 포함할 수 있다.

음성인식부(310)는 사용자의 발화가 마이크(110)로부터 입력되어 얻어진 음성 신호를 텍스트 데이터로 변환하고, 음성신호를 변환하여 얻어진 텍스트 데이터를 매칭부(320)로 전송할 수 있다.

매칭부(320)는 메모리(120)에 저장된 각각의 텍스트 세트를 메모리(120)로부터 받고, 받은 각각의 텍스트 세트를 음성인식부가 전송한 음성신호 변환 텍스트와 비교하여, 가장 일치 정도가 높은 텍스트 세트를 사용자의 발화에 대응되는 텍스트 세트로 결정할 수 있다.

일 실시 예로, 입력된 음성 신호가 변환된 텍스트를 단어 단위로 나누고, 나눠진 단어와 일치하는 단어를 각각의 텍스트 세트가 포함한 수를 계산하고, 포함한 수의 비율에 기초하여 가장 일치하는 정도가 높은 텍스트 세트를 결정할 수 있다.

도 4는 사용자의 일부 텍스트 발성만으로 전체 텍스트를 인식하여 전체 텍스트에 대응되는 기능을 실행하는 전자 장치의 일 예를 설명하기 위한 도면이다.

도 4를 참조하면, 음성을 발화하는 사용자(410)와 전자 장치(420)가 도시되어 있다. 도 4에서 현재 시간이 궁금한 사용자(410)는 "What time is it now?"라는 문장을 발성함으로써 전자 장치(420)로부터 현재 시간에 대한 정보를 시각 또는 청각적으로 제공받기를 원할 수 있다. 문장 "What time is it now?"는 앞서 언급한 텍스트 세트의 한 예이다.

도 4는 사용자(410)가 "What time is it now?"라는 문장 전체가 아니라, "What time now"만을 발성한 경우이고, 이 경우, 전자 장치(420)는 사용자의 발화에 기초한 음성신호를 변환하여 텍스트 "What time now"를 얻은 뒤, "What time now"로부터 "What", "time", "now"를 검출할 수 있다.

이때, 복수 개의 기저장된 텍스트 세트들 중 "What", "time" 또는 "now"와 일치하는 단어를 일정 비율 이상 소유한 텍스트 세트들을 후보로 선정하고, 그 중 가장 높은 비율에 해당하는 텍스트 세트인 "What time is it now?"를 사용자가 의도한 문장으로 결정할 수 있다.

도 4를 참조하면, 복수의 텍스트 세트들 중 "What", "time" 또는 "now" 중 어느 하나와 일치하는 단어를 가장 높은 비율로 가진 "What time is it now?"를 사용자의 발화로 결정한 결과를 토대로, 전자 장치(420)가 "What time is it now?"를 인식했음을 디스플레이함은 물론, 해당 텍스트 즉 "What time is it now?"가 질문 문장이므로, 그에 대한 대답인 "It's 2 PM."을 "What time is it now?"와 함께 디스플레이하고 음성으로도 출력하는 것이 가능하다.

본 개시의 실시 예는 도 4에 한정되지 않으므로, 예를 들어 전자 장치(420)가 TV이고 사용자의 발화 내용이 채널을 999번으로 변경하기를 원하는 텍스트 세트인 것으로 결정된 경우 그에 따라 TV의 채널을 999번으로 변경하는 등 전자 장치(100) 자체의 기능을 수행하도록 할 수 있다.

도 5는 음성 인식 결과 매칭을 위해 음성 신호 및 텍스트 정보를 송수신하며 인식 결과를 출력하는 전자 장치 또는 서버의 실시 예들을 설명하기 위한 도면이다.

도 5의 실시 예 중 하나는, 사용자(510)가 전자 장치(500)에 대해 발화를 하면, 전자 장치(500)는 사용자의 음성을 변환한 음성 신호를 서버(520)에 전송함과 동시에 음성 신호를 대응되는 텍스트로 변환한다.

이후, 음성 신호를 받은 서버(520)는 음성 신호를 대응되는 텍스트로 변환한 뒤, 서버(520)에 기저장되어 있던 복수의 텍스트 세트 각각에 대하여 음성신호가 변환된 텍스트와 공통된 단어를 추출하고, 공통된 단어가 포함된 순서 또는 비율을 고려하여 후보인 텍스트 세트를 선정한다.

다음으로, 서버(520)가 선정된 후보 텍스트 세트를 전자 장치(500)에 전송하면, 전자 장치(500)는 서버(520)에서 선정된 후보 텍스트 세트 각각에 대하여 음성신호가 변환된 텍스트와 공통된 단어를 추출하고, 공통된 단어가 포함된 순서 또는 비율을 고려하여 후보 텍스트 세트 중 하나의 텍스트 세트를 결정한다.

또한, 전자 장치(500)는, 음성신호가 아니라 음성 신호를 변환한 텍스트에 대한 데이터를 서버(520)에 전송할 수도 있다. 이 경우, 서버(520)는 자체적으로 음성 신호를 텍스트로 변환할 필요는 없게 된다.

한편, 전자 장치(500)가 음성신호 및 음성신호를 변환한 텍스트에 대한 데이터를 모두 서버(520)에 전송하고, 서버(520) 역시 음성 신호를 텍스트로 변환하여 보고, 전자 장치(500)에서 음성신호를 변환한 텍스트가 서버(520)에서 음성신호를 변환한 텍스트와 일치하지 않는 경우 서버(520)가 전자 장치(500)에 음성신호를 변환한 텍스트에 대한 정보를 피드백하는 것도 가능하다.

이는, 수많은 기저장된 텍스트 세트 중에서 후보를 선정하는 과정이 오래 걸릴 수 있다는 점을 보완할 수 있는 것으로써, 서버(520)가 기저장된 전체 텍스트 세트 각각이 후보 텍스트가 될 수 있는지를 결정함은 물론, 실시간으로 결정된 후보 텍스트를 전자 장치(500)에 연속적으로 보냄과 동시에, 전자 장치(610)는 서버(520)로부터 받는 후보 텍스트 세트 각각에 대한 비율 계산을 실시간으로 하여, 최종적인 결과를 도출하는 시간이 줄어들 수 있다는 장점이 있다.

한편, 도 5의 실시 예 중 다른 하나로, 전자 장치(500)는 주로 사용자와의 관계에서 음성 신호의 입력과 결과 출력을 수행하고, 서버(520)는 전자 장치(500)로부터 받은 음성신호에 대응되는 데이터 및 서버(520)에 기저장된 복수의 텍스트 세트를 이용하여 결과 텍스트 세트를 선정한 뒤 선정된 텍스트 세트를 다시 전자 장치(500)로 전송할 수 있다.

이때, 서버(520)는, 단어의 순서를 기초로 텍스트 세트 중 하나 이상의 후보를 정할 수 있고, 정해진 후보들에 대해서만 음성신호를 변환한 텍스트와 일치하는 단어의 비율을 고려하여 최종적으로 하나의 텍스트 세트를 결정할 수도 있다.

또한, 서버(520)는 저장된 각각의 텍스트 세트에 대하여, 음성신호를 변환한 텍스트와 일치하는 단어의 비율을 계산하여, 기설정된 임계값을 넘는 텍스트 세트들만 후보로 삼고, 그 후보 중 음성신호를 변환한 텍스트와 일치하는 단어의 비율이 가장 높은 텍스트 세트를 선정할 수 있다.

한편, 서버(520)는 저장된 복수의 텍스트 세트 각각에 대해서 음성신호를 변환한 텍스트와 공통된 단어를 검색하고, 각각의 텍스트 세트 내에서 검색된 공통된 단어의 제1 비율 및 음성신호를 변환한 텍스트 내에서 검색된 공통된 단어의 제2 비율에 기초하여 적어도 하나의 텍스트 세트를 결정할 수 있다.

이 경우, 제1 비율 및 제2 비율 중 적어도 하나의 비율이 기설정된 비율을 넘는 텍스트 세트를 적어도 하나의 텍스트 세트로 결정할 수 있다. 만약, 기설정된 비율을 넘는 텍스트 세트가 복수 개이면, 복수 개의 텍스트 세트 중 제1 비율 또는 제2 비율이 가장 높은 텍스트 세트를 결과 텍스트 세트로 선정하여 전자 장치(500)에 전송하거나, 또는 기설정된 비율을 만족하는 복수 개의 텍스트 세트들을 각각의 제1 비율 및 제2 비율 중 적어도 하나의 비율의 순서대로 정렬한 데이터를 전자 장치(500)에 전송하고, 그 데이터에 대응되는 UI를 전자 장치(500)에 표시하여 사용자가 직접 텍스트 세트를 선택할 수 있도록 할 수 있다.

또한 서버(520)는, 제1 비율 및 제2 비율에 대하여, 임계값이 되는 비율을 각각 달리 설정할 수 있다. 이는, 제1 비율과 제2 비율 각각에 대하여, 기설정된 비율을 넘는 텍스트 세트가 필요 이상으로 많은 경우 임계값이 되는 비율을 낮출 것이고, 기설정된 비율을 넘는 텍스트 세트가 없는 경우 임계값이 되는 비율을 높일 수 있을 것이다.

이 경우, 만약 서버(520)에 저장된 복수의 텍스트 세트 가운데, 기설정된 임계값을 넘는 텍스트 세트가 존재하지 않는다면, 서버(520)는, 전자 장치(500)가 사용자에게 결과가 없음을 알리거나 추가 발화를 요구하거나 또는 기설정된 임계값을 다시 설정할 것인지 물어보는 등의 기능을 수행도록 하는 명령을 전송할 수 있다.

이 경우, 서버(520)에 저장된 복수의 텍스트 세트 정보는 서버(520)와 연결 가능한 다른 외부장치(도시되지 않음)로부터 서버(520)로 전송된 데이터를 이용하여 갱신, 삭제 또는 변경될 수 있다.

한편, 도 5의 실시 예들에 있어, 전자 장치(500)는, 음성신호를 변환한 텍스트를 서버(590)로 전송하거나 또는 음성 신호 또는 텍스트 이외의 다른 데이터 형태로서 서버(590)에 전송할 수 있다. 텍스트 이외의 형태로 전송받은 경우, 서버(520) 내에서 음성 신호에 대응하는 텍스트를 직접 추출할 것이다.

또한, 서버(520)는 결정된 텍스트 세트에 대한 데이터를 전자 장치(500)에 전송할 수 있으며, 이에 더하여 결정된 텍스트 세트의 출력 명령 또는 결정된 텍스트 세트에 대응되는 이벤트의 수행 명령을 전자 장치(500)에 전송할 수도 있다.

이 경우, 전자 장치(500)는 서버(520)의 명령에 따라, 서버(520)가 결정한 텍스트 세트를 디스플레이를 통해 표시하거나 스피커 또는 헤드폰을 통해 음성 출력할 수 있다.

이때, 결정된 텍스트 세트가 질문 문장인 경우, 전자 장치(500)는 서버(520)의 명령에 따라 그 질문에 대한 답변내용을 디스플레이(560)를 통해 표시하거나 스피커(541) 또는 헤드폰(542)을 통해 음성 출력할 수 있다.

또한, 전자 장치(500)는 서버(590)의 명령에 따라 서버(590)가 결정한 텍스트 세트에 대응되는 기능이나 이벤트를 수행할 수 있다. 이에 더하여, 전자 장치(500)는, 서버(590)가 결정한 텍스트 세트를 출력하거나 또는 서버(590)의 명령에 따른 기능을 수행한 이후에, 출력 또는 수행하였다는 보고 데이터를 서버에 전송할 수 있다. 이 경우, 기설정된 시간이 지나도록 보고 데이터를 받지 못한 서버(590)는, 재차 명령을 전송할 수 있다.

한편, 서버(520)에 저장된 복수의 텍스트 세트 정보의 갱신이나 삭제 또는 변경은, 서버와 연결 가능한 외부 장치들의 음성 인식 결과로 각각의 저장된 텍스트 세트가 선정된 횟수나 비율을 고려할 수 있다.

또한, 서버(520)는 복수의 텍스트 세트 정보를, 서버와 연결 가능하고 음성 인식이 가능한 외부장치의 종류별로 구분하여 저장할 수 있다.

이를, 전자 장치(500)의 종류별로 예를 들면, 전자 장치(500)가 네비게이션가 음성 인식을 위해 서버(520)에 저장된 복수의 텍스트 세트는 지역명이나 교통 관련 정보에 대응되는 텍스트 세트의 비율이 높을 것이다.

또한, 전자 장치(500)가 TV라면, TV의 음성인식을 위해 서버(520)에 저장된 복수의 텍스트 세트는 방송 프로그램이나 TV 기능에 관련된 텍스트 세트의 비율이 높을 것이다.

만약, 전자 장치(500)가 스마트폰이라면, 스마트폰의 음성인식을 위해 서버(520)에 저장되는 복수의 텍스트 세트는 스마트폰 내에서 사용되는 애플리케이션의 종류마다 구분되어 저장될 수 있을 것이다.

한편, 도 5와 관련된 위의 각 실시 예에 있어 전자 장치(500)와 서버(520)가 나누어 한 기능은, 하나의 전자 장치에서 두 가지 구성이 나누어 하는 것도 가능할 것이다.

도 6은 본 개시의 음성 인식 결과 매칭을 EPG에 적용한 일 예를 설명하기 위한 도면이다. 도 6은 전자 장치(600)가 TV인 경우의 실시 예 중 하나로서 사용자(610), 전자 장치(600), 서버(620) 간의 음성 인식 및 매칭을 나타낸다.

전자 장치(600)는 통신부(도시되지 않음)를 이용하여 서버(620)로부터 EPG(Electronic Program Guide) 정보를 수신하거나 또는 방송 수신부(도시되지 않음)를 통해 외부로부터 수신되는 방송 신호에 EPG 정보가 포함된 형태로 EPG 정보를 수신할 수 있고, 도 6은 전자 장치(100)가 수신한 EPG 정보에 속해있는 방송 프로그램 정보 및 EPG 기능에 대한 정보를 텍스트 세트 형태로 추출하여 추출된 텍스트 세트들을 메모리(도시되지 않음)에 저장해둔 상태이다.

이 경우, 만약 사용자의 발화로 인해 결정된 텍스트 세트가 위의 EPG 정보 중 어느 하나와 대응되면, 전자 장치(600)는 대응되는 EPG 정보와 관련된 이벤트를 생성할 수 있다. (참고로, 위의 통신부(도시되지 않음)와 메모리(도시되지 않음)는 전자 장치(600) 자체 내에 구비되거나 또는 별도로 구성되어 전기전자적으로 연결될 수 있다.)

도 6을 참조하면, 수신된 EPG 정보 중 현재시간과 관련된 EPG 정보(605)는 사용자(610)의 명령에 의해 해당시간 EPG 정보(605)로서 전자 장치(600)에 디스플레이될 수 있고, 이미 해당시간의 EPG(605)에 속한 방송 프로그램 정보들은 텍스트 세트로 변환되어 메모리 상에 저장되어 있는 상황이다.

이러한 상황에서, 사용자(610)가 디스플레이된 해당시간의 EPG 정보(605)를 보고 그 중 원하는 방송 프로그램인 "Now Testing Broadcast"(606)가 방영되는 채널로 채널을 변경하거나 "Now Testing Broadcast"(606)에 대한 정보를 얻고자 할 때, "Now Testing Broadcast"(606) 전체를 발화할 필요없이 예를 들면 "Now Test"나 "Now Testing" 또는 "Testing Broadcast"만을 발음하더라도, 전자 장치(606)는 현재 EPG가 디스플레이되어 있는 상황인 것을 고려하여 해당시간 EPG 정보(705)에 속하는 방송 프로그램이나 기능 중 가장 단어의 일치율이 높은 "Now Testing Broadcast"(606)가 사용자의 발화 의도에 대응됨을 알아낼 수 있을 것이다.

이 경우, 전자 장치(600)는 "Now Testing Broadcast"(606)가 방영 중인 채널로 채널을 이동하거나, "Nos Testing Broadcast"(606)에 대한 상세한 정보를 디스플레이할 수 있고, 또는 해당 채널에 대한 녹화, 예약 녹화, 시청 예약 등도 가능할 것이다.

도 7은 본 개시의 일 실시 예로서, 전자 장치에서의 음성 인식 방법을 단계별로 나타내는 순서도이다.

도 7을 참조하면, 먼저 사용자의 발화를 통해 입력된 음성을 마이크를 통해 음성신호로 변환하고, 변환된 음성신호를 다시 텍스트로 변환한다(S710). 이때, 변환되는 사용자의 음성은 음성의 공백이 기설정된 시간 이하인 것일 수 있고, 사용자 음성의 전체 시간 길이가 또다른 기설정된 시간을 넘지 않는 것일 수 있다.

이어서, 음성신호를 변환한 텍스트에 포함된 단어를 추출한다(S720). 이 경우, 추출된 단어의 수를 전자 장치에 저장해둘 수 있다. 이때 단어로써 추출되지 않는 부분은, 기저장되지 않은 단어일 수 있으므로, 전자장치와 연결 가능한 외부장치에 그에 대한 데이터를 전송하여 단어로써 추출되지 않는 부분에 대해 필요한 정보를 얻을 수 있다.

한편, 음성신호를 변환한 텍스트 상에서 추출되는 것은 반드시 단어 단위일 필요는 없다. 즉 음절, 글자, 자음, 모음, 알파벳 등 각 언어 종류에 따라 다른 종류의 단위로써 추출되어 기저장된 복수의 텍스트 세트와 비교될 수 있다.

이후, 음성신호를 변환한 텍스트에 포함된 단어를 추출한 다음 각각의 기저장된 텍스트 세트에 대하여 음성신호를 변환한 텍스트와 공통된 단어를 검색 및 추출할 수 있다(S730). 이때 각각의 기저장된 텍스트 세트에 대하여 음성신호를 변환한 텍스트와 공통된 단어의 수를 저장해둘 수 있다.

다음으로는, 각각의 기저장된 텍스트에 대하여, 음성신호를 변환한 텍스트와 공통된 단어가 포함된 비율을 이용하여, 결과적으로 하나의 텍스트 세트를 결정한다(S740). 이때, 비율 뿐만 아니라, 공통된 단어들이 포함된 순서도 고려할 수 있다.

이때 공통된 단어들 및 공통된 단어들이 포함된 순서를 기초로 기저장된 복수의 텍스트 세트 중 후보를 지정하고, 후보 텍스트 세트 중에서는 공통된 단어의 비율을 이용하여 최종적으로 하나의 텍스트 세트를 결정할 수 있다.

여기서, 각각의 기저장된 텍스트 세트에 대하여, 변환한 텍스트와 공통된 단어가 포함된 비율을 이용한다는 것의 의미는, 공통된 단어의 수와 음성신호를 변환한 텍스트에서 추출된 단어의 수의 제1 비율 및 공통된 단어의 수와 각각의 기저장된 텍스트 세트에서 추출된 단어의 수의 제2 비율 중 적어도 어느 하나를 계산하여 이용한다는 것일 수 있다.

이 경우, 제1 비율 또는 제2 비율에 대하여 임계값을 설정하여, 임계값을 넘는 비율을 가진 텍스트 세트만을 후보로 지정하거나, 공통된 단어가 포함된 순서에 기초하여 후보를 지정할 수 있다. 그 후, 제1 비율 또는 제2 비율 중 적어도 어느 하나를 이용하여, 후보로 지정된 텍스트 세트 가운데 하나의 텍스트 세트를 결정할 수 있다.

한편, 기설정된 비율을 넘는 텍스트 세트가 복수 개이면, 복수 개의 텍스트 세트를 각각의 제1 비율 및 제2 비율 중 적어도 하나의 비율의 순서대로 정렬한 UI를 표시할 수 있다.

그리고, 하나의 텍스트 세트가 결정되면 결정된 텍스트 세트에 대응되는 이벤트를 수행한다(S750). 구체적으로, 단순히 결정된 텍스트 세트 자체를 디스플레이 또는 음성 출력할 수도 있고, 결정된 텍스트 세트가 질문이라면 질문에 맞는 답변을 디스플레이 또는 음성 출력할 수도 있다. 만약 결정된 텍스트 세트가 전자 장치의 특정한 기능에 대한 것이라면, 해당 기능을 전자 장치가 수행하게 될 것이다.

한편, 제1 비율 또는 제2 비율 중 적어도 하나를 고려하였는데, 기설정된 임계값을 넘는 기저장된 텍스트 세트가 없는 경우, 결과가 없음 또는 추가 발화가 필요함을 디스플레이하거나 음성 출력할 수 있을 것이다.

또는, 서버 등 외부장치에 매칭되지 않은 음성 신호에 대한 정보를 전송하고, 그와 관련된 추가 정보를 다시 수신하여 전자 장치에 저장할 수 있을 것이다. 이 경우, 사용자의 다른 상황에서의 발화에 의해 동일한 음성 신호 및 변환 텍스트를 얻게 된다면, 저장해 둔 추가 정보를 이용하여 사용자의 의도에 맞는 기능을 수행할 수도 있을 것이다.

한편, 본 개시에 있어, 도 7과 관련된 실시 예 중 하나로, EPG 정보를 수신하여 EPG 정보에 포함된 방송 프로그램 정보를 텍스트 세트로 메모리에 저장하는 단계가 사전에 더 포함되어 있을 수 있다.

이 경우, 결정된 텍스트 세트에 대응되는 이벤트를 수행하는 단계(S750)에 대한 실시 예로, 결정된 텍스트 세트가 기저장되었던 EPG 정보에 대응되면 그 EPG 정보에 대응되는 방송 프로그램으로의 채널 이동, 녹화, 예약 녹화, 시청 예약 및 정보 제공 등의 기능을 사용자에게 제공하는 것이 가능하다.

도 8은 전자 장치에서의 음성 인식을 위한 판단 과정을 나타내는 다른 하나의 구체적인 실시 예를 설명하기 위한 흐름도이다.

도 8을 설명하기에 앞서, 후보 문장의 개수를 n, 인식결과 문장을 A, 현재 처리중인 후보문장을 S_i 라고 표기함을 밝힌다. 도 8 이전까지의 설명과 대응시켜 보자면, 후보문장은 기저장된 텍스트 세트들에 해당하는 구성이고, 인식결과 문장은 음성신호를 변환한 텍스트에 해당하는 구성이다. 이때, 도 8에 있어, 1 ≤ i ≤ n로 가정한다.

한편, 기저장된 모든 문장 중 후보문장의 선정은, 단순히 기저장된 모든 문장을 후보로 선정했을 수도 있고, 인식결과 문장과 공통되는 단어를 포함한 순서 및 비율 중 적어도 어느 하나에 기초한 선정일 수도 있다.

도 8을 참조했을 때, 먼저 음성이 입력되면(S805), 그 음성에 기초한 음성인식결과 문장 A를 추출할 수 있다(S810). 이는 이전까지의 설명과 대응시켜 보자면, 음성신호를 변환하여 텍스트를 얻어내는 과정이다.

다음으로는 인식결과 텍스트(A)와 각 후보문장(S_i) 간에 공통으로 포함되는 단어들(AS_i)을 추출할 수 있다(S815). 이를 토대로 AS_i의 A에 대한 인식결과포함도, 즉 A 에 대해 AS_i 가 포함된 비율인 Ratio(A_i)를 계산할 수 있다(S820). 또한 AS_i의 S_i에 대한 후보문장포함도, 즉 S_i에 대해 AS_i가 포함된 비율 Ratio(S_i)도 계산할 수 있다(S825).

상술한 S815 내지 S825의 과정을 각각의 기저장된 후보문장 모두에 대해서 반복할 수 있는데(S830), 그 결과 이 과정을 후보문장 개수인 n번만큼 반복하게 된다.

다음은, 모든 후보문장 중에서, Ratio(A_i)가 인식결과포함도의 임계치 TH(A)보다 크거나 같고, Ratio(S_i)가 후보문장포함도의 임계치 TH(S)보다 크거나 같은 후보문장들을 추출할 수 있다(S835). 그 후, S835에서 추출된 후보문장들 중에서 인식결과포함도가 최대인 후보문장 S_k를 추출할 수 있다(S840).

이 경우, 만약 S835에서 추출된 후보문장이 없는 경우라면 S_k 를 추출하는 것이 불가능하므로 S_k 를 출력하지 못하여(S845-N), 종료할 수 있다. 한편, 그와 달리 S835에서 추출된 후보문장이 있어서 S_k가추출된 경우(S845-Y)라면, S_k를 출력하고(S850), S_k에 대응하는 기능을 실행(S855)할 수 있다.

위 과정에서 비율(Ratio)을 계산하기 위해 문장의 단어 수를 추출하여 사용했지만, 비단 단어수 뿐만 아니라 글자수나 워딩수 및 음절수 중 어느 하나에 기초할 수도 있는 바, 상술한 예들에만 국한되는 것은 아니다.

한편, 음성인식의 기초가 될 언어는 디폴트 언어로 설정된 언어이거나, 사용자의 수동 설정에 의해 설정되거나, 전자 장치(100)에서 다루는 객체들을 구성하는 언어에 기초하여 자동 설정될 수 있다. 자동 설정에 있어, 예컨대 전자 장치(100)에 표시된 객체들에 OCR(Optical character recognition)을 적용하여 객체를 구성하는 언어를 확인할 수 있다.

상술한 다양한 실시 예들에 따르면 다양한 언어로 구성된 객체들에 대한 음성 컨트롤이 가능하며, 문장의 처음부터 끝까지 사용자가 모두 발성할 필요 없이 핵심 단어 몇 개만을 발성하여도 이에 대해 음성인식을 수행할 수 있으므로 사용자 편의성을 증대시킬 수 있다.

한편, 이상에서 설명된 다양한 실시 예들은 소프트웨어(software), 하드웨어(hardware) 또는 이들의 조합된 것을 이용하여 컴퓨터(computer) 또는 이와 유사한 장치로 읽을 수 있는 기록 매체 내에서 구현될 수 있다.

하드웨어적인 구현에 의하면, 본 개시에서 설명되는 실시 예들은 ASICs(Application Specific Integrated Circuits), DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(programmable logic devices), FPGAs(field programmable gate arrays), 프로세서(processors), 제어기(controllers), 마이크로 컨트롤러(micro-controllers), 마이크로 프로세서(microprocessors), 기타 기능 수행을 위한 전기적인 유닛(unit) 중 적어도 하나를 이용하여 구현될 수 있다.

일부의 경우에 본 명세서에서 설명되는 실시 예들이 프로세서(130) 자체로 구현될 수 있다. 소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시 예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 상술한 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 작동을 수행할 수 있다.

한편, 상술한 본 개시의 다양한 실시 예들에 따른 전자 장치(100)에서의 처리동작을 수행하기 위한 컴퓨터 명령어(computer instructions)는 비일시적 컴퓨터 판독 가능 매체(non-transitory computer-readable medium) 에 저장될 수 있다. 이러한 비일시적 컴퓨터 판독 가능 매체에 저장된 컴퓨터 명령어는 특정 기기의 프로세서에 의해 실행되었을 때 상술한 다양한 실시 예에 따른 전자 장치(100)에서의 처리 동작을 상술한 특정 기기가 수행하도록 한다.

비일시적 컴퓨터 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 비일시적 컴퓨터 판독 가능 매체의 구체적인 예로는, CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등이 있을 수 있다.

이상에서는 본 개시의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시에 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.

Claims

전자 장치에 있어서,

음성을 입력받는 마이크;

복수의 텍스트 세트를 저장하는 메모리; 및

상기 마이크를 통하여 입력된 음성을 텍스트로 변환하고, 상기 복수의 텍스트 세트 각각에 대하여 상기 변환된 텍스트와 공통된 단어를 검색하고, 상기 검색된 공통된 단어의 비율에 기초하여 상기 복수의 텍스트 세트 중 적어도 하나의 텍스트 세트를 결정하는 프로세서;를 포함하는 전자 장치.
제1항에 있어서,

상기 프로세서는,

상기 텍스트 세트 내의 상기 검색된 공통된 단어의 제1 비율 및 상기 변환된 텍스트 내의 상기 검색된 공통된 단어의 제2 비율에 기초하여 적어도 하나의 텍스트 세트를 결정하는 전자 장치.
제2항에 있어서,

상기 프로세서는,

상기 제1 비율 및 상기 제2 비율 중 적어도 하나의 비율이 기설정된 비율을 넘는 텍스트 세트를 적어도 하나의 텍스트 세트로 결정하는 전자 장치.
제3항에 있어서,

상기 프로세서는,

상기 기설정된 비율을 넘는 텍스트 세트가 복수개이면, 상기 복수개의 텍스트 세트를 상기 복수개의 텍스트 세트 각각의 상기 제1 비율 및 제2 비율 중 적어도 하나의 비율의 순서대로 정렬한 UI를 표시하도록 하는 전자 장치.
제1항에 있어서,

상기 프로세서는,

상기 복수의 텍스트 세트 내의 상기 추출된 단어의 비율 및 상기 추출된 단어의 순서에 기초하여 상기 복수의 텍스트 세트 중 하나의 텍스트 세트를 결정하는 전자 장치.
제1항에 있어서,

상기 프로세서는,

상기 복수의 텍스트 세트 중 상기 추출된 단어 및 상기 추출된 단어의 순서에 기초하여 후보 텍스트 세트를 검색하고, 상기 검색된 후보 텍스트 세트 내의 상기 추출된 단어의 비율에 기초하여 적어도 하나의 텍스트 세트를 결정하는 전자 장치.
제1항에 있어서,

상기 프로세서는,

상기 결정된 텍스트 세트에 대응되는 이벤트를 수행하는 전자 장치.
제1항에 있어서,

EPG 정보를 수신하는 통신부;를 더 포함하고,

상기 프로세서는,

EPG 정보에 포함된 방송 프로그램 정보를 상기 텍스트 세트로 상기 메모리에 저장하는 전자 장치.
제8항에 있어서,

상기 프로세서는,

상기 결정된 텍스트 세트가 상기 EPG 정보에 대응되면, 상기 EPG 정보에 대응되는 방송 프로그램과 관련된 이벤트를 생성하는 전자 장치.
제9항에 있어서,

상기 방송 프로그램과 관련된 이벤트는,

상기 방송 프로그램으로의 채널 이동, 녹화, 예약 녹화, 시청 예약 중 적어도 하나인 전자 장치.
전자 장치에서의 음성 인식 방법에 있어서,

입력된 음성을 텍스트로 변환하는 단계;

상기 변환된 텍스트를 기초로 복수의 단어를 추출하는 단계;

기저장된 복수의 텍스트 세트 각각에 대하여 상기 추출된 복수의 단어와 공통된 단어를 검색하고, 상기 검색된 공통된 단어의 비율에 기초하여 상기 복수의 텍스트 세트 중 적어도 하나의 텍스트 세트를 결정하는 단계; 및

상기 결정된 텍스트 세트에 대응되는 이벤트를 수행하는 단계;를 포함하는 음성 인식 방법.
제11항에 있어서,

상기 결정하는 단계는,

상기 텍스트 세트 내의 상기 검색된 공통된 단어의 제1 비율을 계산하는 단계;

상기 변환된 텍스트 내의 상기 검색된 공통된 단어의 제2 비율을 계산하는 단계; 및

상기 계산된 제1 비율 및 상기 계산된 제2 비율에 기초하여 적어도 하나의 텍스트 세트를 선정하는 단계;를 포함하는 음성 인식 방법.
제12항에 있어서,

상기 선정하는 단계는,

상기 제1 비율 및 상기 제2 비율 중 적어도 하나의 비율이 기설정된 비율을 넘는 텍스트 세트를 적어도 하나의 텍스트 세트로 선정하는 음성 인식 방법.
제13항에 있어서,

상기 기설정된 비율을 넘는 텍스트 세트가 복수개이면, 상기 복수개의 텍스트 세트를 상기 복수개의 텍스트 세트 각각의 상기 제1 비율 및 제2 비율 중 적어도 하나의 비율의 순서대로 정렬한 UI를 표시하는 단계;를 더 포함하는 음성 인식 방법.
제11항에 있어서,

상기 결정하는 단계는,

상기 복수의 텍스트 세트 내의 상기 추출된 단어의 비율 및 상기 추출된 단어의 순서에 기초하여 상기 복수의 텍스트 세트 중 하나의 텍스트 세트를 결정하는 음성 인식 방법.