KR20150087687A

KR20150087687A - 대화형 시스템, 디스플레이 장치 및 그 제어 방법

Info

Publication number: KR20150087687A
Application number: KR1020140007910A
Authority: KR
Inventors: 최찬희; 박경미; 황광일
Original assignee: 삼성전자주식회사
Priority date: 2014-01-22
Filing date: 2014-01-22
Publication date: 2015-07-30
Also published as: EP3039531A1; WO2015111850A1; KR102215579B1; EP3039531A4; EP3039531B1; US9886952B2; US20150206530A1

Abstract

대화형 시스템, 디스플레이 장치 및 그 제어 방법이 개시된다. 본 발명에 따른 디스플레이 장치는 사용자의 발화 음성을 입력받는 입력부, 발화 음성에 대한 음성 신호를 음성 인식 장치로 전송하는 통신부, 발화 음성에 대한 음성 인식을 수행하는 음성 인식부 및 음성 인식부를 통해 인식된 제1 음성 정보에 대한 신뢰도 값과 음성 인식 장치를 통해 인식된 제2 음성 정보에 대한 신뢰도 값 중 기설정된 임계값 이상의 신뢰도 값을 가지는 음성 정보를 상기 발화 음성에 대한 실행 명령으로 결정하는 제어부를 포함한다. 이에 따라, 디스플레이 장치는 디스플레이 장치 및 외부 장치에서 사용자의 발화 음성을 동시에 인식할 경우, 두 음성 인식 결과 중 사용자의 의도에 근접한 음성 인식 결과를 선택할 수 있다.

Description

대화형 시스템, 디스플레이 장치 및 그 제어 방법{Interactive system, display apparatus and controlling method thereof}

본 발명은 대화형 시스템, 디스플레이 장치 및 그 제어 방법에 관한 것으로써, 보다 상세하게는 사용자의 발화 음성에 대응되는 응답 정보를 제공하기 위한 대화형 시스템, 디스플레이 장치 및 제어 방법에 관한 것이다.

일반적으로, 대화형 시스템에서 디스플레이 장치는 사용자의 발화 음성이 입력되면, 인식 상황에 따라 디스플레이 장치 내에서 음성 인식을 수행하거나 혹은 디스플레이 장치 및 외부 장치를 통해 동시에 사용자의 발화 음성에 대한 음성 인식을 수행한다. 동시에 음성 인식을 수행할 경우, 디스플레이 장치는 디스플레이 장치 내에서 수행된 음성 인식에 대한 신뢰도와 외부 장치를 통해 수행된 음성 인식에 대한 신뢰도를 비교하여 신뢰도가 높은 음성 인식 결과를 선택하고, 선택된 음성 인식 결과에 기초하여 동작을 수행한다.

그러나, 이 같은 종래의 신뢰도 비교 방식은 디스플레이 장치 및 외부 장치에서 보유하고 있는 발화 음성에 대응하는 실행 명령에 대한 후보군이 서로 상이하기 때문에 동일한 발화 음성에 대한 음성 인식 결과에 따른 신뢰도가 서로 상이할 수 있다.

예를 들어, 디스플레이 장치는 발화 음성에 대응하여 백 개의 실행 명령에 대한 후보군을 보유할 수 있으며, 외부 장치는 발화 음성에 대응하여 만 개의 실행 명령에 후보군을 보유할 수 있다. 이 경우, 만 개의 실행 명령에 대한 후보군을 보유한 외부 장치가 백 개의 실행 명령에 대한 후보군을 보유한 디스플레이 장치보다 사용자의 발화 음성으로 인식된 음성 인식 결과와 유사한 실행 명령이 존재할 가능성이 높음에도 불구하고, 디스플레이 장치에 비해 낮은 신뢰도 값이 산출될 수 있다.

뿐만 아니라, 디스플레이 장치는 사용자의 발화 음성으로 인식된 음성 인식 결과에 포함된 텍스트 중 보유한 백 개의 실행 명령과 관련된 텍스트를 제외한 나머지 텍스트를 잡음으로 인식함으로써, 외부 장치의 음성 인식 결과에 따른 신뢰도에 비해 높은 신뢰도 값이 산출될 수 있다.

이 같은 문제가 있음에도 불구하고, 종래의 디스플레이 장치는 단순히 신뢰도가 높은 음성 인식 결과를 사용자의 발화 음성에 대한 실행 명령으로 선택함으로써, 사용자의 발화 음성과 상이한 음성 인식 결과가 선택되는 문제가 발생한다.

발명은 상술한 필요성에 따라 안출된 것으로, 본 발명의 목적은, 디스플레이 장치 및 외부 장치에서 사용자의 발화 음성을 동시에 인식할 경우, 두 음성 인식 결과 중 사용자의 의도에 근접한 음성 인식 결과를 선택하도록 함을 목적으로 한다.

나아가, 본 발명은 사용자의 발화 음성에 적합한 동작을 수행하거나 응답 정보를 제공하도록 함을 목적으로 한다.

이상과 같은 목적을 달성하기 위한 본 발명의 일 실시 예에 따른 디스플레이 장치는 사용자의 발화 음성을 입력받는 입력부, 상기 발화 음성에 대한 음성 신호를 음성 인식 장치로 전송하는 통신부, 상기 발화 음성에 대한 음성 인식을 수행하는 음성 인식부 및 상기 음성 인식부를 통해 인식된 제1 음성 정보에 대한 신뢰도 값과 상기 음성 인식 장치를 통해 인식된 제2 음성 정보에 대한 신뢰도 값 중 기설정된 임계값 이상의 신뢰도 값을 가지는 음성 정보를 상기 발화 음성에 대한 실행 명령으로 결정하는 제어부를 포함한다.

그리고, 상기 제1 및 제2 음성 정보는 상기 발화 음성에 대한 음성 신호로부터 변환된 텍스트 정보이며, 상기 제어부는, 상기 제1 및 제2 음성 정보에 대한 신뢰도 값이 상기 임계값 이상이면, 상기 제1 및 제2 음성 정보에 대한 텍스트 정보로부터 문자열 길이를 비교하여 문자열 길이가 긴 음성 정보를 실행 명령으로 결정할 수 있다.

또한, 상기 제어부는, 상기 문자열 길이가 동일하면, 기정의된 유사도 알고리즘을 이용하여 상기 제1 및 제2 음성 정보에 대한 텍스트 정보로부터 발음열의 유사도 값을 산출하고, 산출된 유사도 값이 기설정된 임계값 이상이면, 상기 제1 음성 정보를 실행 명령으로 결정하며, 상기 산출된 유사도 값이 상기 임계값 미만이면, 상기 제2 음성 정보를 실행 명령으로 결정할 수 있다.

그리고, 상기 제어부는, 상기 발화 음성에 대한 실행 명령이 결정되면, 상기 실행 명령으로 결정된 음성 정보에 기초하여 도메인을 결정하고, 상기 결정된 도메인과 상기 디스플레이 장치의 현재 동작 모드에 대한 도메인의 일치 여부에 따라, 상기 실행 명령으로 결정된 음성 정보를 최종 실행 명령으로 결정할 수 있다.

또한, 상기 제어부는, 상기 제1 및 제2 음성 정보에 대한 신뢰도 값이 상기 임계값 미만이면, 상기 제1 및 제2 음성 정보에 기초하여 각각의 도메인을 결정하고, 상기 결정된 각각의 도메인 중 상기 디스플레이 장치의 현재 동작 모드에 대한 도메인과 일치하는 음성 정보의 신뢰도 값에 가중치를 부여하고, 상기 가중치가 부여된 음성 정보의 신뢰도 값이 상기 임계값 이상인지 여부에 따라, 상기 가중치가 부여된 음성 정보를 실행 명령으로 결정할 수 있다.

그리고, 복수의 음성 정보에 대응하는 제어 명령을 저장하는 저장부 및 대화형 서버로부터 수신한 응답 정보에 대한 음성 인식 결과를 디스플레이하는 디스플레이부를 더 포함하며, 상기 제어부는, 상기 음성 인식부를 통해 인식된 제1 음성 정보가 실행 명령으로 결정되면, 상기 저장부에 저장된 제어 명령 중 상기 제1 음성 정보와 대응하는 제어 명령에 따라 제어 동작을 수행하며, 상기 음성 인식 장치로부터 수신된 제2 음성 정보가 실행 명령으로 결정되면, 상기 통신부를 통해 상기 대화형 서버로 상기 제2 음성 정보를 전송하여, 상기 대화형 서버로부터 상기 제2 음성 정보와 관련된 응답 정보를 수신할 수 있다.

한편, 본 발명의 또다른 실시 예에 따르면, 디스플레이 장치의 제어 방법에 있어서, 상기 제어 방법은 사용자의 발화 음성을 입력받는 단계, 상기 발화 음성에 대한 음성 인식을 수행하여 제1 음성 정보에 대한 신뢰도 값을 산출하는 단계, 상기 발화 음성에 대한 음성 신호를 음성 인식 장치로 전송하는 단계, 상기 음성 인식 장치로부터 상기 발화 음성에 대한 인식 결과가 수신되면, 상기 제1 음성 정보에 대한 신뢰도 값과 상기 인식 결과에 포함된 제2 음성 정보에 대한 신뢰로 값 각각을 기설정된 임계값과 비교하는 단계 및 상기 제1 및 제2 음성 정보 중 하나의 음성 정보가 상기 임계값 이상의 신뢰도 값을 가지면, 상기 임계값 이상의 신뢰도 값을 가지는 음성 정보를 상기 발화 음성에 대한 실행 명령으로 결정하는 단계를 포함한다.

그리고, 상기 제1 및 제2 음성 정보는 상기 발화 음성에 대한 음성 신호로부터 변환된 텍스트 정보이며, 상기 결정하는 단계는, 상기 제1 및 제2 음성 정보에 대한 신뢰도 값이 상기 임계값 이상이면, 상기 제1 및 제2 음성 정보에 대한 텍스트 정보로부터 문자열 길이를 비교하여 문자열 길이가 긴 음성 정보를 실행 명령으로 결정할 수 있다.

또한, 상기 결정하는 단계는, 상기 문자열 길이가 동일하면, 기저장된 유사도 알고리즘을 이용하여 상기 제1 및 제2 음성 정보에 대한 텍스트 정보로부터 발음열의 유사도 값을 산출하고, 산출된 유사도 값이 기설정된 임계값 이상이면, 상기 제1 음성 정보를 실행 명령으로 결정하며, 상기 산출된 유사도 값이 상기 임계값 미만이면, 상기 제2 음성 정보를 실행 명령으로 결정할 수 있다.

그리고, 상기 발화 음성에 대한 실행 명령이 결정되면, 상기 실행 명령으로 결정된 음성 정보에 기초하여 도메인을 결정하는 단계 및 상기 결정된 도메인과 상기 디스플레이 장치의 현재 동작 모드에 대한 도메인의 일치 여부에 따라, 상기 실행 명령으로 결정된 음성 정보를 최종 실행 명령을 결정하는 단계를 더 포함할 수 있다.

또한, 상기 제1 및 제2 음성 정보에 대한 신뢰도 값이 상기 임계값 미만이면, 상기 제1 및 제2 음성 정보에 기초하여 각각의 도메인을 결정하는 단계 및 상기 결정된 각각의 도메인 중 상기 디스플레이 장치의 현재 동작 모드에 대한 도메인과 일치하는 음성 정보의 신뢰도 값에 가중치를 부여하는 단계를 더 포함하며, 상기 결정하는 단계는, 상기 가중치가 부여된 음성 정보의 신뢰도 값이 상기 임계값 이상인지 여부에 따라 상기 가중치가 부여된 음성 정보를 실행 명령으로 결정할 수 있다.

그리고, 상기 제1 음성 정보가 실행 명령으로 결정되면, 기저장된 복수의 제어 명령 중 상기 제1 음성 정보와 관련된 제어 명령에 따라 제어 동작을 수행하고, 상기 제2 음성 정보가 실행 명령으로 결정되면, 대화형 서버로부터 상기 제2 음성 정보와 관련된 응답 정보를 수신하고, 상기 수신된 응답 정보와 관련된 음성 인식 결과를 디스플레이하는 단계를 더 포함할 수 있다.

한편, 본 발명의 또다른 실시 예에 따르면, 대화형 시스템은 사용자의 발화 음성을 입력되면, 상기 음성 신호에 기초하여 음성 인식을 수행하면서, 음성 인식 장치로 상기 음성 신호를 전송하는 디스플레이 장치 및 상기 디스플레이 장치로부터 수신된 음성 신호에 기초하여 음성 인식을 수행하고, 상기 음성 인식에 따른 인식 결과를 상기 디스플레이 장치로 전송하는 음성 인식 장치를 포함하며, 상기 디스플레이 장치는, 상기 음성 인식 장치로부터 인식 결과가 수신되면, 상기 디스플레이 장치에서 인식된 제1 음성 정보에 대한 신뢰도 값과 상기 수신된 인식 결과에 포함된 제2 음성 정보에 대한 신뢰도 값 중 기설정된 임계값 이상의 신뢰도 값을 가지는 음성 정보를 상기 발화 음성에 대한 실행 명령으로 결정한다.

그리고, 상기 제1 및 제2 음성 정보는 상기 발화 음성에 대한 음성 신호로부터 변환된 텍스트 정보이며, 상기 디스플레이 장치는, 제1 및 제2 음성 정보에 대한 신뢰도 값이 상기 임계값 이상이면, 상기 제1 및 제2 음성 정보에 대한 텍스트 정보로부터 문자열 길이를 비교하여 문자열 길이가 긴 음성 정보를 실행 명령으로 결정할 수 있다.

또한, 상기 디스플레이 장치는, 상기 문자열 길이가 동일하면, 기정의된 유사도 알고리즘을 이용하여 상기 제1 및 제2 음성 정보에 대한 텍스트 정보로부터 발음열의 유사도 값을 산출하고, 산출된 유사도 값이 기설정된 임계값 이상이면, 상기 제1 음성 정보를 실행 명령으로 결정하며, 상기 산출된 유사도 값이 상기 임계값 미만이면, 상기 제2 음성 정보를 실행 명령으로 결정할 수 있다.

그리고, 상기 디스플레이 장치는, 상기 발화 음성에 대한 실행 명령이 결정되면, 상기 실행 명령으로 결정된 음성 정보에 기초하여 도메인을 결정하고, 상기 결정된 도메인과 상기 디스플레이 장치의 현재 동작 모드에 대한 도메인의 일치 여부에 따라, 상기 실행 명령으로 결정된 음성 정보를 최종 실행 명령으로 결정할 수 있다.

또한, 상기 디스플레이 장치는, 상기 제1 및 제2 음성 정보에 대한 신뢰도 값이 상기 임계값 미만이면, 상기 제1 및 제2 음성 정보에 기초하여 각각의 도메인을 결정하고, 상기 결정된 각각의 도메인 중 상기 디스플레이 장치의 현재 동작 모드에 대한 도메인과 일치하는 음성 정보의 신뢰도 값에 가중치를 부여하고, 상기 가중치가 부여된 음성 정보의 신뢰도 값이 상기 임계값 이상인지 여부에 따라, 상기 가중치가 부여된 음성 정보를 실행 명령으로 결정할 수 있다.

그리고, 상기 디스플레이 장치는, 상기 제1 음성 정보가 실행 명령으로 결정되면, 기저장된 제1 음성 정보와 관련된 제어 명령에 따라 제어 동작을 수행하고, 상기 제2 음성 정보가 실행 명령으로 결정되면, 대화형 서버로 상기 제2 음성 정보를 전송하여 상기 제2 음성 정보에 대한 응답 정보가 수신되면, 상기 수신된 응답 정보와 관련된 음성 인식 결과를 디스플레이할 수 있다.

이상과 같이 본 발명의 다양한 실시 예에 따르면, 대화형 시스템에서 디스플레이 장치 및 외부 장치에서 사용자의 발화 음성을 동시에 인식할 경우, 디스플레이 장치는 두 음성 인식 결과 중 사용자의 의도에 근접한 음성 인식 결과를 선택할 수 있다.

도 1은 본 발명의 일 실시예에 따른 사용자 발화 음성에 적합한 응답 정보를 제공하는 대화형 시스템의 제1 예시도,
도 2는 본 발명의 또다른 실시예에 따른 사용자 발화 음성에 적합한 응답 정보를 제공하는 대화형 시스템의 제2 예시도,
도 3은 본 발명의 일 실시예에 따른 디스플레이 장치의 블록도,
도 4는 본 발명의 일 실시예에 따른 제어부의 세부 구성을 나타내는 블록도,
도 5는 본 발명의 일 실시예에 따른 제1 및 제2 음성 정보에 대한 텍스트 정보로부터 문자열 길이를 비교하는 예시도,
도 6은 본 발명의 일 실시예에 따른 제1 및 제2 음성 정보에 대한 텍스트 정보로부터 발음열의 유사도 정보를 비교하는 예시도,
도 7은 본 발명의 일 실시예에 따른 대화형 서버의 블록도,
도 8은 본 발명의 일 실시예에 따른 디스플레이 장치의 제어 방법에 대한 흐름도,
도 9는 본 발명의 일 실시예에 따른 디스플레이 장치에서 제1 및 제2 음성 정보의 신뢰도 값이 기설정된 제1 임계값 이상 혹은 미만인 경우, 하나의 음성 정보를 사용자의 발화 음성에 대한 실행 명령으로 결정하는 방법의 흐름도이다.

이하 첨부된 도면들을 참조하여 본 발명의 일시 예를 보다 상세하게 설명한다.

도 1은 본 발명의 일 실시예에 따른 사용자 발화 음성에 적합한 응답 정보를 제공하는 대화형 시스템의 제1 예시도이며, 도 2는 본 발명의 또다른 실시예에 따른 사용자 발화 음성에 적합한 응답 정보를 제공하는 대화형 시스템의 제2 예시도이다.

도 1에 도시된 바와 같이, 대화형 시스템은 디스플레이 장치(100), 음성 인식 장치(200) 및 대화형 서버(300)를 포함한다.

디스플레이 장치(100)는 인터넷이 가능한 장치로써, 스마트 TV, 스마트폰과 같은 휴대폰, 데스크탑 PC, 노트북, 네비게이션 등과 같은 다양한 전자 장치로 구현될 수 있다. 이 같은 디스플레이 장치(100)는 사용자의 발화 음성이 입력되면, 입력된 사용자의 발화 음성에 대응되는 동작을 수행한다. 구체적으로, 디스플레이 장치(100)는 사용자의 발화 음성에 대응되는 제어 명령에 따라 기능을 수행하거나 또는 사용자의 발화 음성과 관련된 음성 인식 결과를 출력할 수 있다.

음성 인식 장치(200)는 사용자의 발화 음성에 대한 음성 신호로부터 텍스트 형태의 음성 정보를 생성하고, 생성된 음성 정보와 기저장된 복수의 발화 음성별 패턴 정보에 기초하여 기생성된 음성 정보에 대한 신뢰도 값을 산출한다. 이후, 음성 인식 장치(200)는 사용자의 발화 음성에 대한 음성 신호로부터 생성된 음성 정보와 해당 음성 정보에 대한 신뢰도 값을 포함하는 인식 결과를 디스플레이 장치(100)로 전송한다.

대화형 서버(300)는 디스플레이 장치(100)로부터 수신한 텍스트 형태의 음성 정보를 분석하여 발화 요소를 추출하고, 그 추출된 발화 요소에 기초하여 사용자의 발화 음성에 대응되는 동작을 수행하기 위한 응답 정보를 생성하여 디스플레이 장치(100)로 전송한다. 이에 따라, 디스플레이 장치(100)는 대화형 서버(300)로부터 수신한 응답 정보에 기초하여 사용자의 발화 음성과 관련된 음성 인식 결과를 화면상에 디스플레이할 수 있다.

구체적으로, 디스플레이 장치(100)는 사용자의 발화 음성이 입력되면, 입력된 발화 음성을 디지털 신호인 음성 신호로 변환하고, 변환된 음성 신호에 기초하여 음성 인식을 수행하여 사용자의 발화 음성에 대한 음성 정보(이하 제1 음성 정보라 함)를 생성한다. 이 같은 제1 음성 정보가 생성되면, 디스플레이 장치(100)는 기저장된 복수의 발화 음성별 패턴 정보에 기초하여 제1 음성 정보에 대한 신뢰도 값을 산출할 수 있다.

한편, 디스플레이 장치(100)는 사용자의 발화 음성이 입력되면, 입력된 발화 음성에 대한 음성 신호를 음성 인식 장치(200)로 전송한다. 이 같은 음성 신호가 수신되면, 음성 인식 장치(200)는 수신된 음성 신호에 대한 음성 인식을 수행하여 사용자의 발화 음성에 대한 음성 정보(이하 제2 음성 정보라 함)를 생성한다. 제2 음성 정보가 생성되면, 음성 인식 장치(200)는 기저장된 복수의 발화 음성별 패턴 정보에 기초하여 제2 음성 정보에 대한 신뢰도 값을 산출할 수 있다. 이 같은 제2 음성 정보에 대한 신뢰도 값이 산출되면, 음성 인식 장치(200)는 제2 음성 정보와 제2 음성 정보에 대한 신뢰도 값을 포함하는 인식 결과를 디스플레이 장치(100)로 전송한다.

한편, 전술한 제1 및 제2 음성 정보는 사용자의 발화 음성에 대한 음성 신호로부터 텍스트 형태로 변환된 정보가 될 수 있다. 실시예에 따라, 디스플레이 장치(100) 및 음성 인식 장치(200)는 STT(Speech to Text) 알고리즘을 이용하여 사용자의 발화 음성을 텍스트 형태의 음성 정보를 생성할 수 있다.

디스플레이 장치(100)는 음성 인식 장치(200)로부터 사용자의 발화 음성에 대한 인식 결과가 수신되면, 제1 음성 정보에 대한 신뢰도 값과 수신된 인식 결과에 포함된 제2 음성 정보에 대한 신뢰도 값 각각을 기설정된 임계값(이하 제1 임계값이라 함)과 비교한다. 즉, 디스플레이 장치(100)는 제1 음성 정보에 대한 신뢰도 값과 기설정된 제1 임계값을 비교하고, 제2 음성 정보에 대한 신뢰도 값과 해당 제1 임계값을 비교한다. 비교 결과, 제1 및 제2 음성 정보 중 하나의 음성 정보에 대한 신뢰도 값이 제1 임계값 이상이면, 디스플레이 장치(100)는 제1 임계값 이상의 신뢰도 값을 가지는 음성 정보를 실행 명령으로 결정한다.

실시예에 따라, 제1 음성 정보의 신뢰도 값이 제1 임계값 이상이면, 디스플레이 장치(100)는 제1 음성 정보를 실행 명령으로 결정한다. 이후, 디스플레이 장치(100)는 기저장된 복수의 음성 정보에 대응하는 제어 명령 중 제1 음성 정보에 대응하는 제어 명령에 따라 제어 동작을 수행할 수 있다.

한편, 제2 음성 정보의 신뢰도 값이 제1 임계값 이상이면, 디스플레이 장치(100)는 제2 음성 정보를 실행 명령으로 결정하고, 실행 명령으로 결정된 제2 음성 정보를 대화형 서버(300)로 전송한다. 대화형 서버(300)는 디스플레이 장치(100)로부터 수신한 제2 음성 정보에 기초하여 사용자의 발화 음성과 관련된 응답 정보를 생성하여 디스플레이 장치(100)로 전송한다. 이에 따라, 디스플레이 장치(100)는 대화형 서버(300)로부터 수신한 응답 정보에 기초하여 사용자의 발화 음성과 관련된 음성 인식 결과를 화면상에 디스플레이할 수 있다.

한편, 제1 및 제2 음성 정보가 제1 임계값 이상의 신뢰도 값을 가지면, 디스플레이 장치(100)는 제1 및 제2 음성 정보에 대한 텍스트 정보로부터 문자열 길이를 비교하여 문자열 길이가 긴 음성 정보를 실행 명령으로 결정할 수 있다.

실시예에 따라, 제2 음성 정보에 대한 텍스트 정보가 제1 음성 정보에 대한 텍스트 정보보다 긴 문자열을 가질 수 있다. 이 경우, 디스플레이 장치(100)는 제2 음성 정보를 실행 명령으로 결정하고, 실행 명령으로 결정된 제2 음성 정보를 대화형 서버(300)로 전송한다. 대화형 서버(300)는 디스플레이 장치(100)로부터 수신한 제2 음성 정보에 기초하여 사용자의 발화 음성과 관련된 응답 정보를 생성하여 디스플레이 장치(100)로 전송한다. 이에 따라, 디스플레이 장치(100)는 대화형 서버(300)로부터 수신한 응답 정보에 기초하여 사용자의 발화 음성과 관련된 음성 인식 결과를 화면상에 디스플레이할 수 있다.

한편, 제1 및 제2 음성 정보에 대한 각각의 텍스트 정보에 해당하는 문자열이 동일할 경우, 디스플레이 장치(100)는 제1 및 제2 음성 정보에 대한 각각의 텍스트 정보로부터 발음열을 추출한다. 이후, 디스플레이 장치(100)는 추출된 제1 및 제2 음성 정보에 대한 각각의 발음열로부터 유사도 값을 산출하고, 산출된 유사도 값과 기설정된 임계값(이하 제2 임계값이라 함)을 비교한다. 비교 결과, 산출된 유사도 값이 제2 임계값 이상이면, 디스플레이 장치(100)는 제1 음성 정보를 실행 명령으로 결정하고, 기저장된 제어 명령 중 실행 명령으로 결정된 제1 음성 정보에 대응하는 제어 명령에 따라 제어 동작을 수행할 수 있다.

한편, 본 발명은 이에 한정되지 않으며, 디스플레이 장치(100)는 제1 및 제2 음성 정보에 대한 유사도 값에 기초하여 실행 명령으로 결정할 음성 정보가 결정되지 않으면, 제1 및 제2 음성 정보에 대한 각각의 텍스트 정보로부터 문자열 길이를 비교하여 문자열 길이가 긴 음성 정보를 실행 명령으로 결정할 수 있다.

한편, 본 발명의 추가적인 양상에 따라, 디스플레이 장치(100)는 실행 명령으로 결정된 음성 정보의 도메인과 디스플레이 장치(100)의 현재 동작 모드에 대한 도메인의 일치 여부에 따라 실행 명령으로 결정된 음성 정보를 최종 실행 명령으로 결정할 수 있다.

실시예에 따라, 디스플레이 장치(100)는 동작 모드가 방송 프로그램 실행 모드인 경우, 제어 관련 도메인으로 설정될 수 있으며, 어플리케이션 실행 모드인 경우, 컨텐츠 추천 관련 도메인으로 설정될 수 있다. 예들 들어, 디스플레이 장치(100)의 현재 동작 모드가 어플리케이션 실행 모드이고, 실행 명령으로 결정된 음성 정보가 제어 관련 도메인에 해당하면, 디스플레이 장치(100)는 두 도메인이 서로 일치하지 않는 것으로 판단하고, 실행 명령으로 결정되지 않은 또다른 음성 정보를 최종 실행 명령으로 결정할 수 있다.

한편, 디스플레이 장치(100)의 현재 동작 모드가 어플리케이션 실행 모드이고, 실행 명령으로 결정된 음성 정보가 컨텐츠 추천 관련 도메인에 해당하면, 디스플레이 장치(100)는 두 도메인이 서로 일치하는 것으로 판단하고, 실행 명령으로 결저오딘 음성 정보를 최종 실행 명령으로 결정할 수 있다.

따라서, 디스플레이 장치(100)는 최종 실행 명령으로 결정된 음성 정보에 기초하여 전술한 바와 같이, 사용자의 발화 음성과 관련된 제어 동작을 수행하거나 혹은 대화형 서버(300)로부터 수신된 응답 정보에 기초하여 사용자의 발화 음성과 관련된 음성 인식 결과를 디스플레이할 수 있다.

한편, 제1 및 제2 음성 정보에 대한 각각의 신뢰도 값이 제1 임계값 미만이면, 디스플레이 장치(100)는 제1 및 제2 음성 정보에 기초하여 각각의 도메인을 결정하고, 결정된 각각의 도메인 중 디스플레이 장치(100)의 현재 동작 모드에 대한 도메인과 일치하는 음성 정보의 신뢰도 값에 가중치를 부여할 수 있다.

이후, 디스플레이 장치(100)는 가중치가 부여된 음성 정보의 신뢰도 값이 제1 임계값 이상이면, 가중치가 부여된 음성 정보를 실행 명령으로 결정하고, 결정된 실행 명령에 해당하는 음성 정보에 기초하여 전술한 바와 같이, 사용자의 발화 음성과 관련된 제어 동작을 수행하거나 혹은 대화형 서버(300)로부터 수신된 응답 정보에 기초하여 사용자의 발화 음성과 관련된 음성 인식 결과를 디스플레이할 수 있다.

한편, 본 발명에서는 대화형 시스템에서 음성 인식 장치(200)와 대화형 서버(300)를 각각 분리하여 설명하였다. 그러나, 본 발명은 이에 한정되지 않으며, 도 2에 도시된 바와 같이, 대화형 시스템은 디스플레이 장치(100)와 대화형 서버(300)로 구성될 수 있다. 이 경우, 대화형 서버(300)는 전술한 음성 인식 장치(200)와 같이, 사용자의 발화 음성에 대한 음성 신호로부터 음성 인식을 수행하여 음성 정보를 생성하고, 생성된 음성 정보 및 해당 음성 정보에 대한 신뢰도 값을 포함하는 인식 결과를 디스플레이 장치(100)로 전송할 수 있다.

지금까지, 본 발명에 따른 디스플레이 장치(100), 음성 인식 장치(200) 및 대화형 서버(200)로 이루어진 대화형 시스템에서 사용자의 발화 음성과 관련된 제어 동작 또는 음성 인식 결과를 제공하는 동작에 대해서 개략적으로 설명하였다.

이하에서는, 전술한 디스플레이 장치(100)의 각 구성에 대해서 상세히 설명하도록 한다.

도 3은 본 발명의 일 실시예에 따른 디스플레이 장치의 블록도이다.

도 3에 도시된 바와 같이, 디스플레이 장치(100)는 입력부(110), 통신부(120), 음성 인식부(130), 제어부(140), 저장부(150) 및 디스플레이부(160)를 포함한다.

입력부(110)는 사용자의 발화 음성을 입력받는다. 구체적으로, 입력부(110)는 아날로그 형태의 사용자의 발화 음성이 입력되면, 입력된 사용자 발화 음성을 샘플링하여 디지털 신호로 변환한다. 이때, 입력부(110)는 입력된 사용자의 발화 음성에 노이즈(예를 들어, 에어컨 소리, 청소기 소리 등)가 있는 경우, 노이즈를 제거한 후, 노이즈가 제거된 사용자의 발화 음성을 디지털 신호로 변환함이 바람직하다. 뿐만 아니라, 입력부(110)는 다양한 사용자 조작을 입력받아 제어부(130)로 전달하는 기능을 수행할 수 있다. 이 경우, 입력부(110)는 터치패드(Touch Pad) 혹은 각종 기능키, 숫자키, 특수키, 문자키 등을 구비한 키패드(Key Pad) 또는 터치 스크린(Touch Screen)을 통해 사용자 조작 명령을 입력받을 수 있다.

통신부(120)는 입력부(110)를 통해 입력된 사용자의 발화 음성에 대한 음성 신호를 음성 인식 장치(200)로 전송하고, 음성 인식 장치(200)로부터 해당 음성 신호에 대한 인식 결과를 수신한다. 뿐만 아니라, 통신부(120)는 제어부(140)의 제어 명령에 따라, 실행 명령으로 결정된 음성 정보를 대화형 서버(300)로 전송하며, 대화형 서버(300)로부터 해당 음성 정보와 관련하여 생성된 응답 정보를 수신할 수 있다.

이 같은 통신부(120)는 거리 무선 통신 모듈(미도시), 무선 통신 모듈(미도시) 등과 같은 다양한 통신 모듈을 포함할 수 있다. 여기서, 근거리 무선 통신 모듈(미도시)은 근거리에 위치한 대화형 서버(200) 및 컨텐츠를 제공하는 외부 서버(미도시)와 무선 통신을 수행하는 통신 모듈로써, 예를 들어, 블루투스, 지그비 등이 될 수 있다. 무선 통신 모듈(미도시)은 와이파이(WiFi), IEEE 등과 같은 무선 통신 프로토콜에 따라 외부 네트워크에 연결되어 통신을 수행하는 모듈이다. 이 밖에 무선 통신 모듈은 3G(3rd Generation), 3GPP(3rd Generation Partnership Project), LTE(Long Term Evoloution) 등과 같은 다양한 이동 통신 규격에 따라 이동 통신 망에 접속하여 통신을 수행하는 이동 통신 모듈을 더 포함할 수도 있다.

음성 인식부(130)는 입력부(110)를 통해 입력된 사용자의 발화 음성에 대한음성 인식을 수행하여 제1 음성 정보를 생성한다. 여기서, 제1 음성 정보는 사용자의 발화 음성에 대한 음성 신호로부터 변환된 텍스트 정보가 될 수 있다. 실시예에 따라, 음성 인식부(130)는 STT(Speech to Text) 알고리즘을 이용하여 사용자의 발화 음성을 텍스트로 변환할 수 있다.

예를 들어, "볼륨 올려줘!"라는 발화 음성이 입력되면, 입력부(110)는 "볼륨 올려줘!"라는 발화 음성을 디지털 형태의 음성 신호로 변환한다. 이 같은 음성 신호로 변환되면, 음성 인식부(130)는 "볼륨 올려줘!"라는 발화 음성에 대한 음성 신호로부터 텍스트 형태의 제1 음성 정보를 생성할 수 있다. 이때, 음성 인식부(130)는 저장부(150)에 기저장된 복수의 음성 정보에 대한 후보군에 기초하여 사용자의 발화 음성과 관련된 제1 음성 정보를 생성하고, 생성된 제1 음성 정보에 대한 신뢰도 값을 산출할 수 있다.

제어부(140)는 디스플레이 장치(100)의 각 구성에 대한 전반적인 동작을 제어한다. 특히, 제어부(140)는 입력부(110)를 통해 사용자의 발화 음성이 디지털 형태의 음성 신호로 변환되면, 변환된 음성 신호에 기초하여 음성 인식을 수행하도록 음성 인식부(130)를 제어한다. 동시에, 제어부(140)는 입력부(110)를 통해 사용자의 발화 음성이 디지털 형태의 음성 신호로 변환되면, 변환된 음성 신호를 음성 인식 장치(200)로 전송하도록 통신부(120)를 제어한다. 이에 따라, 음성 인식부(130)는 전술한 바와 같은 동작을 통해 사용자의 발화 음성에 대한 음성 인식을 수행하고, 통신부(120)는 사용자의 발화 음성에 대한 음성 신호를 음성 인식 장치(200)로 전송할 수 있다.

이후, 제어부(140)는 음성 인식부(130)를 통해 인식된 제1 음성 정보에 대한 신뢰도 값과 음성 인식 장치(200)로부터 수신된 인식 결과에 포함된 제2 음성 정보에 대한 신뢰도 값 중 기설정된 임계값(이하 제1 임계값이라 함)을 가지는 음성 정보를 사용자의 발화 음성에 대한 실행 명령으로 결정한다.

예를 들어, 사용자는 "MBC 보여줘!"라는 발화를 할 수 있다. 이 같은 발화 음성이 입력되면, 입력부(110)는 입력된 발화 음성을 디지털 형태의 음성 신호로 변환하며, 음성 인식부(130)는 전술한 바와 같이, 저장부(150)에 기저장된 복수의 음성 정보에 대한 후보군에 기초하여 사용자의 발화 음성과 관련된 제1 음성 정보를 생성하고, 생성된 제1 음성 정보에 대한 신뢰도 값을 산출할 수 있다.

예를 들어, 저장부(150)는 "MBC, KBS, SBS, EBS, 채널 올려, 채널 내려, 볼륨 올려, 볼륨 내려" 등의 발화 음성에 대한 100개의 후보군에 해당하는 음성 정보를 저장할 수 있다. 이 경우, 음성 인식부(130)는 사용자의 발화 음성에 대한 음성 신호로부터 "MBC 보여줘!"라는 텍스트 형태의 음성 정보가 생성되면, 저장부(150)에 기저장된 100개의 후보군에 해당하는 음성 정보에 기초하여 "MBC 보여줘!"라는 음성 정보 중 "MBC"라는 음성 정보를 사용자의 발화 음성에 대한 제1 음성 정보로 인식하고, 나머지 음성 정보 즉 "에서 지금 머하지?"를 잡음으로 인식할 수 있다. 이후, 음성 인식부(130)는 저장부(150)에 기저장된 후보군에 해당하는 음성 정보에 기초하여 제1 음성 정보에 대한 신뢰도 값을 산출할 수 있다. 전술한 예와 같이, 저장부(150)는 100개의 후보군에 해당하는 음성 정보 중 "MBC"라는 음성 정보를 저장할 수 있으며, 사용자의 발화 음성으로부터 인식된 제1 음성 정보는 "MBC"가 될 수 있다. 이 경우, 음성 인식부(130)는 제1 음성 정보와 매칭되는 음성 정보가 저장부(150)에 저장되어 있으므로 신뢰도 값을 100으로 산출할 수 있다.

이와 유사하게, 음성 인식 장치(200)는 디스플레이 장치(100)로부터 사용자의 발화 음성에 대한 음성 신호가 수신되면, 수신된 음성 신호로부터 사용자의 발화 음성을 인식하여 제2 음성 정보 및 제2 음성 정보에 대한 신뢰도 값을 산출할 수 있다.

실시예에 따라, 음성 인식 장치(200)는 STT(Speech to Text) 알고리즘을 이용하여 사용자의 발화 음성을 텍스트로 변환할 수 있다. 전술한 예와 같이, "MBC 보여줘!"라는 발화 음성에 대한 음성 신호가 수신되면, 음성 인식 장치(200)는 STT 알고리즘을 이용하여 "MBC 보여줘!"라는 텍스트 형태의 제2 음성 정보를 생성할 수 있다. 이후, 음성 인식 장치(200)는 기저장된 복수의 음성 정보에 대한 후보군에 기초하여 "MBC 보여줘!"라는 텍스트 형태의 제2 음성 정보에 대한 신뢰도 값을 산출할 수 있다. 여기서, 제2 음성 정보에 대한 신뢰도 값은 디스플레이 장치(100)의 음성 인식부(130)를 통해 산출된 제1 음성 정보에 대한 신뢰도 값 이하일 수 있다. 이 같은 음성 신호로부터 인식된 제1 또는 제2 음성 정보에 기초하여 신뢰도 값을 산출하는 것은 공지된 기술이기에 본 발명에서는 상세한 설명을 생략하도록 한다.

일반적으로, 음성 인식 장치(200)는 사용자의 발화 음성에 대한 음성 인식을 수행하는 장치로써, 디스플레이 장치(100)에 비해 보다 많은 발화 음성에 대한 음성 정보가 저장될 수 있다. 다시 말해, 음성 인식 장치(200)에 기저장된 발화 음성과 관련된 음성 정보에 해당하는 후보군의 객체 수는 디스플레이 장치(100)에 기저장된 발화 음성과 관련된 음성 정보에 해당하는 후보군의 객체 수보다 많이 존재할 수 있다. 이 같이, 음성 인식 장치(200)에는 디스플레이 장치(100)에 비해 음성 정보에 해당하는 후보군의 객체 수가 많이 존재하기 때문에, 음성 인식 장치(200)를 통해 인식된 제2 음성 정보와 유사한 음성 정보가 존재할 가능성이 높다. 따라서, 음성 인식 장치(200)를 통해 인식된 제2 음성 정보가 디스플레이 장치(100)의 음성 인식부(130)를 통해 인식된 제1 음성 정보에 비해 사용자의 발화 음성과 유사할 가능성이 높음에도 불구하고, 음성 인식 장치(200)를 통해 산출된 제2 음성 정보에 대한 신뢰도 값은 음성 인식부(130)를 통해 산출된 신뢰도 값 이하일 가능성이 높다.

이 같은 제2 음성 정보에 대한 신뢰도 값이 산출되면, 음성 인식 장치(200)는 제2 음성 정보 및 제2 음성 정보에 대한 신뢰도 값을 포함하는 인식 결과를 디스플레이 장치(100)로 전송한다.

이 같은 인식 결과가 수신되면, 제어부(140)는 수신된 인식 결과에 포함된 제2 음성 정보에 대한 신뢰도 값과 음성 인식부(130)를 통해 산출된 제1 음성 정보에 대한 신뢰도 값 중 기설정된 제1 임계값 이상의 신뢰도 값을 가지는 음성 정보를 발화 음성에 대한 실행 명령으로 결정할 수 있다. 예를 들어, 제2 음성 정보에 대한 신뢰도 값이 85이고, 전술한 예와 같이, 제1 음성 정보에 대한 신뢰도 값은 100이 될 수 있다. 그리고, 기설정된 제1 임계값이 90으로 설정될 경우, 제어부(140)는 제1 및 제2 음성 정보 중 제1 임계값보다 높은 신뢰도 가지는 제1 음성 정보를 발화 음성에 대한 실행 명령으로 결정할 수 있다.

이에 따라, 제어부(140)는 저장부(150)에 기저장된 복수의 음성 정보에 대응하는 제어 명령 중 제1 음성 정보와 관련된 제어 명령을 획득하고, 획득한 제어 명령에 기초하여 제어 동작을 수행한다. 즉, 제어부(140)는 "MBC 보여줘!"라는 발화 음성과 관련하여 생성된 제1 음성 정보와 관련된 제어 명령에 따라 현재 선국된 채널에서 MBC로 채널 전환을 수행할 수 있다.

한편, 제1 및 제2 음성 정보에 대한 각각의 신뢰도 값이 기설정된 제1 임계값 이상일 경우, 제어부(140)는 제1 및 제2 음성 정보에 대한 텍스트 정보에 기초하여 유사도 정도에 따라 제1 또는 제2 음성 정보를 실행 명령으로 결정할 수 있다. 이를 위해, 제어부(140)는 도 4와 같은 구성을 포함할 수 있다.

도 4는 본 발명의 일 실시예에 따른 제어부의 세부 구성을 나타내는 블록도이다.

도 4에 도시된 바와 같이, 제어부(140)는 유사도 처리부(141), 실행 명령 결정부(143)를 포함할 수 있다.

구체적으로, 유사도 처리부(141)는 제1 및 제2 음성 정보에 대한 각각의 신뢰도 값이 제1 임계값 이상인 경우, 제1 및 제2 음성 정보에 대한 텍스트 정보로부터 생성된 문자열 길이를 비교하여 제1 및 제2 음성 정보 중 문자열이 긴 음성 정보가 있는지 여부를 판단한다. 판단 결과, 제1 및 제2 음성 정보 중 문자열이 긴 음성 정보가 있으면, 실행 명령 결정부(143)는 제1 및 제2 음성 정보 중 문자열이 긴 음성 정보를 사용자의 발화 음성에 대한 실행 명령으로 결정한다.

이하에서는, 제1 및 제2 음성 정보에 대한 각각의 신뢰도 값이 제1 임계값 이상인 경우, 제1 및 제2 음성 정보에 대한 텍스트 정보로부터 문자열 길이를 비교하여 사용자의 발화 음성에 대한 실행 명령을 결정하는 동작에 대해서 상세히 설명하도록 한다.

도 5는 본 발명의 일 실시예에 따른 제1 및 제2 음성 정보에 대한 텍스트 정보로부터 문자열 길이를 비교하는 예시도이다.

도 5에 도시된 바와 같이, "추천채널"이라는 발화 음성(510)과 관련하여 디스플레이 장치(100)의 음성 인식부(130)는 "추천"이라는 제1 음성 정보(520)를 생성할 수 있으며, 음성 인식 장치(200)는 "추천채널"이라는 제2 음성 정보(530)를 생성할 수 있다. 이 같은 제1 및 제2 음성 정보(520,530)에 대한 각각의 신뢰도 값이 기설정된 제1 임계값 이상이면, 유사도 처리부(141)는 제1 및 제2 음성 정보(520,530)에 대한 각각의 텍스트 정보로부터 문자열을 생성한다. 도시된 바와 같이, 제1 음성 정보(520)에 대한 텍스트 정보로부터 생성된 문자열(521)은 "[#c{u.c{On#]"이 될 수 있으며, 제2 음성 정보(530)에 대한 텍스트 정보로부터 생성된 문자열(531)은 [#c{u.c{On.c{En.Ol#]이 될 수 있다.

이 같은 제1 및 제2 음성 정보(520,530)에 대한 각각의 문자열(521,531)이 생성되면, 유사도 처리부(141)는 제1 및 제2 음성 정보(520,530)에 대한 각각의 문자열(521,531) 길이에 기초하여 유사도 값(540)을 산출한다. 도시된 바와 같이, 제2 음성 정보(530)에 대한 문자열(531) 길이가 제1 음성 정보(520)에 대한 문자열(521) 길이보다 더 길기 때문에 기설정된 임계값보다 낮은 유사도 값(540)이 산출될 수 있다.

이 같이 기설정된 임계값보다 낮은 유사도 값(540)이 산출되면, 실행 명령 결정부(143)는 제1 및 제2 음성 정보(520,530) 중 제2 음성 정보(530)가 사용자의 발화 음성과 유사한 인식 결과로 판단하고, 제2 음성 정보(530)를 사용자의 발화 음성에 대한 실행 명령으로 결정할 수 있다.

한편, 유사도 처리부(141)는 제1 및 제2 음성 정보에 대한 텍스트 정보로부터 비교한 문자열 길이가 서로 동일하면, 기정의된 유사도 알고리즘을 이용하여 제1 및 제2 음성 정보에 대한 텍스트 정보로부터 생성된 발음열의 유사도 값을 산출한다. 여기서, 기정의된 유사도 알고리즘은 예를 들어 Confusion Matrix가 될 수 있다. 그러나, 본 발명은 이에 한정되지 않으며, 유사도 처리부(141)는 제1 및 제2 음성 정보에 대한 텍스트 정보로부터 생성된 각각의 발음열을 비교하여 동일한 발음문자의 포함하는 정도에 기초하여 유사도 값을 산출할 수 있다.

이 같은 제1 및 제2 음성 정보에 대한 텍스트 정보로부터 생성된 발음열의 유사도 값이 산출되면, 실행 명령 결정부(143)는 산출된 유사도 값과 기설정된 임계값(이하 제2 임계값이라 함)을 비교하여 산출된 유사도 값이 제2 임계값 이상이면 제1 음성 정보를 사용자의 발화 음성에 대한 실행 명령으로 결정할 수 있다. 한편, 산출된 유사도 값이 제2 임계값 미만이면, 실행 명령 결정부(143)는 제2 음성 정보를 사용자의 발화 음성에 대한 실행 명령으로 결정할 수 있다.

이하에서는, 제1 및 제2 음성 정보에 대한 각각의 텍스트 정보로부터 생성된 문자열의 길이가 동일하거나 혹은 문자열 길이의 유사도 값이 기설정된 임계값 이상인 경우, 제1 및 제2 음성 정보에 대한 각각의 텍스트 정보로부터 생성된 발음열의 유사도 정도에 따라 사용자의 발화 음성에 대한 실행 명령을 결정하는 동작에 대해서 상세히 설명하도록 한다.

도 6은 본 발명의 일 실시예에 따른 제1 및 제2 음성 정보에 대한 텍스트 정보로부터 발음열의 유사도 정보를 비교하는 예시도이다.

도 6에 도시된 바와 같이, "피트니스"라는 발화 음성(610)과 관련하여 디스플레이 장치(100)의 음성 인식부(130)는 "피트니스"라는 제1 음성 정보(620)를 생성할 수 있으며, 음성 인식 장치(200)는 "비지니스"라는 제2 음성 정보(630)를 생성할 수 있다. 이 같은 제1 및 제2 음성 정보(620,630)에 대한 각각의 신뢰도 값이 기설정된 제1 임계값 이상이고, 제1 및 제2 음성 정보(620,630)에 대한 텍스트 정보로부터 생성된 문자열 길이는 동일할 수 있다. 이 경우, 유사도 처리부(141)는 제1 및 제2 음성 정보(620,630)에 대한 각각의 텍스트 정보로부터 발음열을 생성한다. 도시된 바와 같이, 제1 음성 정보(620)에 대한 텍스트 정보로부터 생성된 발음열(621)은 "[#p{i.t{u-.ni.녀#]"가 될 수 있으며, 제2 음성 정보(630)에 대한 텍스트 정보로부터 생성된 발음열(631)은 [#pi.j-u-.ni.s'u-#]가 될 수 있다.

이 같은 제1 및 제2 음성 정보(620,630)에 대한 각각의 발음열(621,631)이 생성되면, 유사도 처리부(141)는 제1 및 제2 음성 정보(620,630)에 대한 각각의 발음열(521,531)의 유사도 정도에 따라 유사도 값(640)을 산출한다. 구체적으로, 유사도 처리부(141)는 제1 및 제2 음성 정보(620,630)에 대한 각각의 발음열(621,631)에 속하는 발음문자를 비교하여 동일한 발음문자의 포함 정도에 따라 유사도 값을 산출할 수 있다.

이 같은 유사도 값(640)이 산출되면, 실행 명령 결정부(143)는 산출된 유사도 값(640)과 기설정된 제2 임계값을 비교한다. 비교 결과, 산출된 유사도 값(640)이 제2 임계값 이상이면, 실행 명령 결정부(143)는 제1 및 제2 음성 정보(620,630) 중 제1 음성 정보(620)가 사용자의 발화 음성과 유사한 인식 결과로 판단하고, 제1 음성 정보(620)를 사용자의 발화 음성에 대한 실행 명령으로 결정할 수 있다.

한편, 산출된 유사도 값(640)이 기설정된 제2 임계값 미만이면, 실행 명령 결정부(143)는 제1 및 제2 음성 정보(620,630) 중 제2 음성 정보(630)를 사용자의 발화 음성과 유사한 인식 결과로 판단하고, 제2 음성 정보(630)를 사용자의 발화 음성에 대한 실행 명령으로 결정할 수 있다.

한편, 도 4에 도시된 바와 같이, 제어부(140)는 기기 상태 관리부(145)를 더 포함할 수 있으며, 실행 명령 결정부(143)는 기기 상태 관리부(145)로부터 실행된 결과에 기초하여 실행 명령으로 기결정된 음성 정보에 대해서 최종 실행 명령으로 결정할지 여부를 판단할 수 있다.

구체적으로, 기기 상태 관리부(145)는 디스플레이 장치(100)의 현재 동작 모드를 주기적으로 모니터링하여 실행 명령 결정부(143)로 전달한다. 따라서, 실행 명령 결정부(143)는 제1 및 제2 음성 정보 중 하나의 음성 정보에 대해서 사용자의 발화 음성에 대한 실행 명령으로 결정되면, 기기 상태 관리부(145)를 통해 모니터링된 디스플레이 장치(100)의 현재 동작 모드에 대한 도메인과 실행 명령으로 기결정된 음성 정보에 대한 도메인의 일치 여부에 따라 실행 명령으로 결정된 음성 정보를 최종 실행 명령으로 결정할 수 있다. 즉, 실행 명령 결정부(143)는 실행 명령으로 결정된 음성 정보에 대한 도메인과 디스플레이 장치(100)의 현재 동작 모드에 대한 도메인이 서로 일치하면, 실행 명령으로 결정된 음성 정보를 최종 실행 명령으로 결정한다. 한편, 두 도메인이 서로 일치하지 않으면, 실행 명령 결정부(143)는 실행 명령으로 결정되지 않는 나머지 하나의 음성 정보를 최종 실행 명령으로 결정할 수 있다.

실시예에 따라, 제1 및 제2 음성 정보 중 제1 음성 정보가 실행 명령으로 결정되면, 실행 명령 결정부(143)는 제1 음성 정보에 기초하여 도메인을 결정한다. 예를 들어, "액션 영화 찾아줘"라는 발화 음성과 관련하여 실행 명령으로 결정된 제1 음성 정보는 "액션"라는 텍스트 정보를 포함할 수 있다. 이 경우, 실행 명령 결정부(143)는 "액션"이라는 제1 음성 정보와 관련된 제어 명령에 기초하여 제1 음성 정보에 대한 도메인을 채널 변경을 위한 기기 제어 관련 도메인으로 결정할 수 있다.

그리고, 실행 명령 결정부(143)는 기기 상태 관리부(145)를 통해 모니터링된 디스플레이 장치(100)의 현재 동작 모드에 대한 상태 정보에 기초하여 디스플레이 장치(100)가 어플리케이션 실행 모드로 동작하는 경우, 실행 명령 결정부(143)는 디스플레이 장치(100)의 현재 동작 모드에 대한 도메인을 컨텐츠 추천 관련 도메인으로 결정할 수 있다.

이 같이, 실행 명령으로 결정된 제1 음성 정보에 대한 도메인과 디스플레이 장치(100)의 현재 동작 모드에 대한 도메인이 결정되면, 실행 명령 결정부(143)는 두 도메인이 일치하는지 여부를 판단한다. 판단 결과, 두 도메인이 서로 일치하지 않으면, 실행 명령 결정부(143)는 실행 명령으로 결정되지 않은 제2 음성 정보를 최종 실행 명령으로 결정할 수 있다.

이와 같이, 실행 명령으로 결정된 제1 음성 정보가 기기의 동작을 제어하기 위한 제어 관련 실행 명령이고, 디스플레이 장치(100)가 어플리케이션 실행 모드로 동작하는 경우, 제어부(140)는 실행 명령으로 결정된 제1 음성 정보에 기초하여 디스플레이 장치(100)의 동작을 제어하기는 불가능하다. 따라서, 두 도메인이 서로 일치하지 않으면, 실행 명령 결정부(143)는 실행 명령으로 결정되지 않은 제2 음성 정보를 최종 실행 명령으로 결정할 수 있으며, 제어부(140)는 통신부(120)를 통해 최종 실행 명령으로 결정된 제2 음성 정보를 대화형 서버(300)로 전송하여, 사용자의 발화 음성과 관련된 응답 정보를 수신할 수 있다.

한편, 제어부(140)는 제1 및 제2 음성 정보에 대한 신뢰도 값이 제1 임계값 미만이면, 제1 및 제2 음성 정보에 기초하여 각각의 도메인을 결정하고, 결정된 각각의 도메인 중 디스플레이 장치(100)의 현재 동작 모드에 대한 도메인과 일치하는 음성 정보의 신뢰도 값에 가중치를 부여한다. 이후, 제어부(140)는 가중치가 부여된 음성 정보의 신뢰도 값이 제1 임계값 이상인지 여부에 따라 가중치가 부여된 음성 정보를 실행 명령으로 결정할 수 있다.

구체적으로, 제1 및 제2 음성 정보에 대한 신뢰도 값이 제1 임계값 미만이면, 제어부(140)는 도 4에서 설명한 기기 상태 관리부(145) 및 실행 명령 결정부(143)에 기초하여 제1 및 제2 음성 정보 중 하나의 음성 정보를 실행 명령으로 결정할 수 있다.

보다 구체적으로, 제1 및 제2 음성 정보에 대한 신뢰도 값이 제1 임계값 미만이면, 실행 명령 결정부(143)는 제1 및 제2 음성 정보에 대한 도메인을 결정한다. 예를 들어, 디스플레이 장치(100)의 현재 동작 모드는 어플리케이션 실행 모드가 될 수 있다. 이 경우, 실행 명령 결정부(143)는 디스플레이 장치(100)의 현재 동작 모드에 대한 도메인을 컨텐츠 추천 관련 도메인으로 결정할 수 있다. 또한, 실행 명령 결정부(143)는 제1 음성 정보에 대한 도메인을 기기 동작을 제어하기 위한 제어 관련 도메인으로 결정하고, 제2 음성 정보에 대한 도메인을 컨텐츠 추천 관련 도메인으로 결정할 수 있다.

이 같이, 제1 및 제2 음성 정보에 대한 도메인 및 디스플레이 장치(100)의 현재 동작 모드에 대한 도메인이 결정되면, 실행 명령 결정부(143)는 제1 및 제2 음성 정보 중 디스플레이 장치(100)의 현재 동작 모드와 관련하여 결정된 도메인과 일치하는 도메인이 결정된 음성 정보를 획득할 수 있다. 전술한 예와 같이, 제2 음성 정보에 대한 도메인이 디스플레이 장치(100)의 현재 동작 모드와 관련하여 결정된 도메인과 일치할 수 있다. 이 경우, 실행 명령 결정부(143)는 제2 음성 정보에 대한 신뢰도 값에 가중치를 부여한다. 이후, 실행 명령 결정부(143)는 가중치가 부여된 제2 음성 정보에 대한 신뢰도 값이 제1 임계값 이상인지 여부를 판단한다.

판단 결과, 가중치가 부여된 제2 음성 정보에 대한 신뢰도 값이 제1 임계값 미만이면, 실행 명령 결정부(143)는 제1 및 제2 음성 정보와 관련하여 사용자의 발화 음성에 대한 실행 명령 결정을 종료한다. 이 같은 실행 명령 결정이 종료되면, 제어부(140)는 사용자의 재발화를 요청하는 안내 메시지를 생성하고, 생성된 안내 메시지가 화면상에 디스플레이되도록 디스플레이부(160)를 제어한다.

한편, 판단 결과, 가중치가 부여된 제2 음성 정보에 대한 신뢰도 값이 제1 임계값 이상이면, 실행 명령 결정부(143)는 제2 음성 정보를 사용자의 발화 음성에 대한 실행 명령으로 결정한다. 이 같이, 제1 및 제2 음성 정보 중 하나의 음성 정보에 대한 실행 명령이 결정되면, 제어부(140)는 실행 명령으로 결정된 음성 정보에 기초하여 제어 동작을 수행하거나 대화형 서버(300)로 해당 음성 정보를 전송할 수 있다.

구체적으로, 제어부(140)는 실행 명령 결정부(143)를 통해 제1 음성 정보가 실행 명령으로 결정되면, 저장부(150)에 기저장된 복수의 음성 정보에 대응하는 제어 명령 중 실행 명령으로 결정된 제1 음성 정보와 대응하는 제어 명령에 따라 제어 동작을 수행한다. 한편, 제어부(140)는 실행 명령 결정부(143)를 통해 제2 음성 정보가 실행 명령으로 결정되면, 통신부(120)를 통해 대화형 서버(300)로 제2 음성 정보를 전송하여 대화형 서버(300)로부터 제2 음성 정보와 관련된 응답 정보를 수신한다. 이 같은 제2 음성 정보와 관련된 응답 정보가 수신되면, 디스플레이부(160)는 제어부(140)의 제어 명령에 따라, 수신된 응답 정보에 대한 음성 인식 결과를 화면상에 디스플레이할 수 있다.

이와 같이, 본 발명에 따른 디스플레이 장치(100)는 사용자의 발화 음성이 입력되면, 입력된 발화 음성에 대한 음성 인식을 수행하면서, 동시에 음성 인식 장치(200)로부터 해당 발화 음성에 대한 인식 결과를 수신한다. 이후, 디스플레이 장치(100)는 내부적으로 인식된 인식 결과와 음성 인식 장치(200)로부터 수신한 인식 결과 중 사용자 의도에 적합한 인식 결과에 기초하여 동작을 수행함으로써, 사용자의 다양한 발화 형태에 대해서 능동적으로 대처할 수 있다.

이하에서는, 전술한 대화형 서버(300)의 구성에 대해서 상세히 설명하도록 한다.

도 7은 본 발명의 일 실시예에 따른 대화형 서버의 블록도이다.

도 7에 도시된 바와 같이, 대화형 서버(300)는 통신부(310), 추출부(320), 저장부(340) 및 제어부(330)를 포함한다.

통신부(310)는 디스플레이 장치(100)와 통신을 수행하여 디스플레이 장치(100)로부터 사용자의 발화 음성과 관련하여 텍스트 정보로 변환된 제2 음성 정보를 수신할 수 있다. 추출부(320)는 통신부(310)를 통해 디스플레이 장치(100)로부터 수신한 제2 음성 정보로부터 발화 요소를 추출한다. 여기서, 제2 음성 정보는 실행 대상을 나타내는 제1 발화 요소 및 실행 명령을 나타내는 제2 발화 요소를 포함할 수 있다. 구체적으로, 실행 명령을 나타내는 제1 발화 요소는 사용자의 발화 음성 내에서 주요 특징(feature)으로 분류되는 발화 요소이며, 실행 명령을 나타내는 제2 발화 요소는 사용자의 발화 음성에 내에서 목적 기능(user action)으로 분류되는 발화 요소이다. 예를 들어, "액션 영화 찾아줘"라는 발화 음성의 경우, "액션"은 주요 특징으로 분류되는 제1 발화 요소이며, "찾아줘"는 목적 기능으로 분류되는 제2 발화 요소가 될 수 있다.

이 같은 발화 요소가 추출되면, 제어부(340)는 추출된 발화 요소에 따라 분류된 기능에 기초하여 사용자의 발화 음성과 관련된 응답 정보를 생성하여 디스플레이 장치(100)로 전송한다. 여기서, 발화 요소에 따라 분류되는 기능은 컨텐츠 추천 기능, EPG 관련 기능 및 디스플레이 장치(100)의 동작을 제어하기 위한 동작 제어 기능 중 적어도 하나를 포함할 수 있다. 따라서, 제어부(340)는 사용자의 발화 음성에 대한 제2 음성 정보로부터 추출된 발화 요소에 기초하여 사용자의 발화 음성에 대응되는 응답 정보를 생성할 수 있다.

예를 들어, ○○○(컨텐츠명) 찾아줘"라는 사용자의 발화 음성에 대한 제2 음성 정보가 수신되면, 추출부(320)는 "○○○(컨텐츠명)"에 대한 제1 발화 요소 및 "찾아줘"라는 제2 발화 요소를 추출할 수 있다. 이 같이, "○○○(컨텐츠명) 찾아줘"라는 발화 음성으로부터 제1 및 제2 발화 요소가 추출되면, 제어부(340)는 추출된 제1 발화 요소에 기초하여 실행 영역이 컨텐츠인 것으로 판단한다. 또한, 제어부(340)는 저장부(330)에 저장된 제1 발화 요소별 정의된 실행어를 참조하여 ""○○○(컨텐츠명)"에 대한 제1 발화 요소에 대응되는 실행어 "$○○○(컨텐츠명)$"를 획득할 수 있다. 또한, 제어부(330)는 컨텐츠로 판단된 실행 영역에 기초하여 "찾아줘"에 대한 제2 발화 요소의 타입이 컨텐츠 검색과 관련된 것으로 판단한다. 따라서, 제어부(340)는 저장부(330)에 저장된 제2 발화 요소별 정의된 명령어 중 컨텐츠 검색에 대응되는 명령어 "content_search"를 획득할 수 있다. 이후, 제어부(340)는 제1 및 제2 발화 요소에 대응되는 실행어 "$○○○(컨텐츠명)$" 및 명령어 "content_search"를 조합하여 "content_search($○○○(컨텐츠명)$)"라는 실행 명령 스크립트를 생성할 수 있다. 이 같은 실행 명령 스크립트가 생성되면, 제어부(340)는 생성된 실행 명령 스크립트를 포함하는 응답 정보를 디스플레이 장치(100)로 전송한다. 이에 따라, 디스플레이 장치(100)는 대화형 서버(300)로부터 수신한 응답 정보에 포함된 실행 명령 스크립트에 기초하여 컨텐츠 제공 서버(미도시)로부터 "○○○(컨텐츠명)"에 대한 회차별 컨텐츠 정보를 수신하고, 수신된 회차별 컨텐츠 정보에 대한 컨텐츠 리스트를 화면상에 디스플레이할 수 있다.

또다른 예를 들어, "취침예약 해줘"라는 발화 음성에 대한 제2 음성 정보의 경우, 추출부(320)는 "취침예약"에 대한 제1 발화 요소 및 "해줘"라는 제2 발화 요소를 추출할 수 있다. 이 같이, "취침예약 해줘"라는 발화 음성으로부터 제1 및 제2 발화 요소가 추출되면, 제어부(340)는 추출된 제1 발화 요소에 기초하여 실행 영역이 장치 제어인 것으로 판단한다. 또한, 제어부(340)는 저장부(330)에 저장된 제1 발화 요소별 정의된 실행어를 참조하여 "취침예약"에 대한 제1 발화 요소에 대응되는 실행어 "$취침예약$"를 획득할 수 있다. 또한, 제어부(340)는 장치 제어로 판단된 실행 영역에 기초하여 "해줘"에 대한 제2 발화 요소의 타입이 장치 기능 실행에 해당하는 것으로 판단한다. 따라서, 제어부(340)는 저장부(330)에 저장된 제2 발화 요소별 정의된 명령어 중 장치 기능 실행에 대응되는 명령어 "device_execute"를 획득할 수 있다. 이후, 제어부(340)는 제1 및 제2 발화 요소에 대응되는 실행어 "$취침예약$" 및 명령어 "device_execute"를 조합하여 "device_execute($취침예약$)"라는 실행 명령 스크립트를 생성할 수 있다. 이 같은 실행 명령 스크립트가 생성되면, 제어부(340)는 생성된 실행 명령 스크립트를 포함하는 응답 정보를 디스플레이 장치(100)로 전송한다. 이에 따라, 디스플레이 장치(100)는 대화형 서버(300)로부터 수신한 응답 정보에 포함된 실행 명령 스크립트에 기초하여 취침예약을 설정하고, 취침예약이 설정되었음을 안내하는 알림 메시지를 음성 및 텍스트 중 적어도 하나를 통해 출력할 수 있다.

지금까지, 본 발명에 따른 대화형 서버(300)의 각 구성에 대해서 상세히 설명하였다. 이하에서는 본 발명에 따른 디스플레이 장치(100)의 제어 방법에 대해서 상세히 설명하도록 한다.

도 8은 본 발명의 일 실시예에 따른 디스플레이 장치의 제어 방법에 대한 흐름도이다.

도 8에 도시된 바와 같이, 디스플레이 장치(100)는 사용자의 발화 음성이 입력되면, 입력된 발화 음성을 샘플링하여 디지털 신호의 음성 신호로 변환한다(S810). 이후, 디스플레이 장치(100)는 음성 신호로 변환된 발화 음성에 대한 음성 인식을 수행하여 제1 음성 정보를 생성하고, 생성된 제1 음성 정보에 대한 신뢰도 값을 산출한다(S820). 여기서, 제1 음성 정보는 사용자의 발화 음성에 대한 음성 신호로부터 변환된 텍스트 정보가 될 수 있다. 실시예에 따라, 디스플레이 장치(100)는 STT(Speech to Text) 알고리즘을 이용하여 사용자의 발화 음성을 텍스트로 변환할 수 있다. 구체적으로, 디스플레이 장치(100)는 기저장된 복수의 음성 정보에 대한 후보군에 기초하여 사용자의 발화 음성과 관련된 제1 음성 정보를 생성하고, 생성된 제1 음성 정보에 대한 신뢰도 값을 산출할 수 있다.

이후, 디스플레이 장치(100)는 디지털 형태의 음성 신호로 변환된 사용자의 발화 음성을 음성 인식 장치(200)로 전송한다(S830). 그러나, 본 발명은 이에 한정되지 않으면, 디스플레이 장치(100)는 전술한 단계 S820과 단계 S830에 대한 동작을 동시에 수행할 수 있다.

이후, 디스플레이 장치(100)는 음성 인식 장치(200)로부터 사용자의 발화 음성에 대한 인식 결과가 수신되면, 단계 820을 통해 산출된 제1 음성 정보에 대한 신뢰도 값과 음성 인식 장치(200)로부터 수신된 인식 결과에 포함된 제2 음성 정보에 대한 신뢰도 값 각각을 기설정된 제1 임계값과 비교한다(S840). 여기서, 제2 음성 정보는 사용자의 발화 음성에 대한 음성 신호로부터 변환된 텍스트 정보가 될 수 있다.

한편, 비교 결과, 제1 및 제2 음성 정보 중 하나의 음성 정보의 신뢰도 값이 제1 임계값 이상이면, 디스플레이 장치(100)는 제1 임계값 이상의 신뢰도 값을 가지는 음성 정보를 사용자의 발화 음성에 대한 실행 명령으로 결정한다(S850). 제1 및 제2 음성 정보 중 제1 음성 정보가 사용자의 발화 음성에 대한 실행 명령으로 결정된 것으로 판단되면, 디스플레이 장치(100)는 기저장된 복수의 음성 정보에 대응하는 제어 명령 중 제1 음성 정보와 관련된 제어 명령에 따라 제어 동작을 수행한다(S860,S870).

한편, 단계 S860에서 제1 및 제2 음성 정보 중 제2 음성 정보가 사용자의 발화 음성에 대한 실행 명령으로 결정된 것으로 판단되면, 디스플레이 장치(100)는 실행 명령으로 결정된 제2 음성 정보를 대화형 서버(300)로 전송한다(S880). 이후, 대화형 서버(300)로부터 제2 음성 정보와 관련된 응답 정보가 수신되면, 디스플레이 장치(100)는 수신된 응답 정보와 관련된 음성 인식 결과를 생성하여 화면상에 디스플레이한다(S840).

한편, 단계 S840에서 제1 및 제2 음성 정보에 대한 각각의 신뢰도 값이 제1 임계값 이상이면, 디스플레이 장치(100)는 다음과 같은 방법을 통해 제1 및 제2 음성 정보 중 하나의 음성 정보를 사용자의 발화 음성에 대한 실행 명령으로 결정할 수 있다.

도 9는 본 발명의 일 실시예에 따른 디스플레이 장치에서 제1 및 제2 음성 정보의 신뢰도 값이 기설정된 제1 임계값 이상 혹은 미만인 경우, 하나의 음성 정보를 사용자의 발화 음성에 대한 실행 명령으로 결정하는 방법의 흐름도이다.

도 9에 도시된 바와 같이, 먼저, 디스플레이 장치(100)는 제1 및 제2 음성 정보의 신뢰도 값이 기설정된 제1 임계값 이상인지 여부를 판단한다(S910). 판단 결과, 제1 및 제2 음성 정보의 신뢰도 값이 기설정된 제1 임계값 이상이면, 디스플레이 장치(100)는 제1 및 제2 음성 정보에 대한 각각의 텍스트 정보로부터 문자열을 생성하고, 생성된 각각의 문자열 길이를 비교하여 각각의 문자열 길이가 동일한지 여부를 판단한다(S915). 판단 결과, 제1 및 제2 음성 정보에 대한 각각의 텍스트 정보로부터 생성된 문자열의 길이가 서로 상이하면, 디스플레이 장치(100)는 제1 및 제2 음성 정보 중 문자열이 긴 음성 정보를 사용자의 발화 음성에 대한 실행 명령을 결정한다(S920).

한편, 판단 결과, 제1 및 제2 음성 정보에 대한 각각의 텍스트 정보로부터 생성된 문자열 길이가 서로 동일하면, 디스플레이 장치(100)는 기정의된 유사도 알고리즘을 이용하여 제1 및 제2 음성 정보에 대한 텍스트 정보로부터 생성된 발음열의 유사도 값을 산출한다(S925). 여기서, 기정의된 유사도 알고리즘은 예를 들어 Confusion Matrix가 될 수 있다. 그러나, 본 발명은 이에 한정되지 않으며, 디스플레이 장치(100)는 제1 및 제2 음성 정보에 대한 텍스트 정보로부터 생성된 각각의 발음열을 비교하여 동일한 발음문자의 포함하는 정도에 기초하여 유사도 값을 산출할 수 있다.

이 같이, 제1 및 제2 음성 정보에 대한 텍스트 정보로부터 생성된 발음열의 유사도 값이 산출되면, 디스플레이 장치(100)는 산출된 유사도 값과 기설정된 제2 임계값을 비교하여 산출된 유사도 값이 제2 임계값 이상인지 여부를 판단한다(S930).

판단 결과, 유사도 값이 기설정된 제2 임계값 이상이면, 디스플레이 장치(100)는 제1 및 제2 음성 정보 중 제1 음성 정보가 사용자의 발화 음성과 유사한 인식 결과로 판단하고, 제1 음성 정보를 사용자의 발화 음성에 대한 실행 명령으로 결정한다(S935). 한편, 판단 결과, 유사도 값이 기설정된 제2 임계값 미만이면, 디스플레이 장치(100)는 제1 및 제2 음성 정보 중 제2 음성 정보를 사용자의 발화 음성과 유사한 인식 결과로 판단하고, 제2 음성 정보를 사용자의 발화 음성에 대한 실행 명령으로 결정한다(S940).

한편, 본 발명의 추가적인 양상에 따라, 디스플레이 장치(100)는 전술한 단계를 통해 실행 명령으로 결정된 음성 정보에 대해서 최종 실행 명령으로 결정할지 여부를 판단할 수 있다.

이를 위해, 디스플레이 장치(100)는 제1 또는 제2 음성 정보가 사용자의 발화 음성에 대한 실행 명령으로 결정되면, 실행 명령으로 결정된 음성 정보에 대한 도메인 및 디스플레이 장치(100)의 현재 동작 모드에 대한 도메인을 결정한다(S945). 이후, 디스플레이 장치(100)는 디스플레이 장치(100)의 현재 동작 모드에 대한 도메인과 일치하는 도메인으로 결정된 음성 정보를 최종 실행 명령으로 결정한다(S950).

구체적으로, 디스플레이 장치(100)는 실행 명령으로 결정된 음성 정보에 대한 도메인과 디스플레이 장치(100)의 현재 동작 모드에 대한 도메인이 서로 일치하는지 여부를 판단한다. 판단 결과, 두 도메인이 서로 일치하면, 디스플레이 장치(100)는 실행 명령으로 결정된 음성 정보를 최종 실행 명령으로 결정할 수 있다. 한편, 두 도메인이 서로 일치하지 않으면, 디스플레이 장치(100)는 실행 명령으로 결정되지 않은 음성 정보에 대한 도메인이 디스플레이 장치(100)의 현재 동작 모드에 대한 도메인과 일치하는지 여부를 판단한다. 판단 결과, 두 도메인이 서로 일치하면, 디스플레이 장치(100)는 실행 명령으로 결정되지 않은 음성 정보를 최종 실행 명령으로 결정할 수 있다.

한편, 전술한 단계 S910에서 제1 및 제2 음성 정보에 대한 각각의 신뢰도 값이 기설정된 제1 임계값 미만인 것으로 판단되면, 디스플레이 장치(100)는 제1 및 제2 음성 정보에 대한 도메인을 결정한다(S955). 제 및 제2 음성 정보 각각에 대한 도메인이 결정되면, 디스플레이 장치(100)는 디스플레이 장치(100)의 현재 동작 모드에 대한 도메인과 일치하는 도메인을 가지는 음성 정보의 신뢰도 값에 가중치를 부여한다(S960). 이때, 가중치는 제1 임계값 이상의 신뢰도 값이 확보될 수 있는 정도의 값이 부여될 수 있다. 이 같이, 디스플레이 장치(100)의 현재 동작 모드에 대한 도메인과 일치하는 도메인을 가지는 음성 정보의 신뢰도 값에 가중치가 부여되면, 디스플레이 장치(100)는 해당 음성 정보를 사용자의 발화 음성에 대한 실행 명령으로 결정할 수 있다.

그러나, 본 발명은 이에 한정되지 않으며, 디스플레이 장치(100)의 현재 동작 모드에 대한 도메인과 일치하는 도메인을 가지는 음성 정보의 신뢰도 값에 부여되는 가중치는 기설정된 고정 값을 가질 수 있다. 이 경우, 디스플레이 장치(100)는 현재 동작 모드에 대한 도메인과 일치하는 도메인을 가지는 음성 정보의 신뢰도 값에 고정된 크기의 값을 가지는 가중치가 부여되면, 가중치가 부여된 음성 정보에 대한 신뢰도 값이 기설정된 제1 임계값 이상인지 여부를 재판단한다. 판단 결과, 가중치가 부여된 음성 정보에 대한 신뢰도 값이 제1 임계값 이상이면, 디스플레이 장치(100)는 해당 음성 정보를 사용자의 발화 음성에 대한 실행 명령으로 결정한다. 한편, 판단 결과, 가중치가 부여된 음성 정보에 대한 신뢰도 값이 제1 임계값 미만이면, 디스플레이 장치(100)는 사용자의 재발화를 요청하는 안내 메시지를 화면상에 디스플레이한다. 이에 따라, 사용자는 재발화를 수행하고, 디스플레이 장치(100)는 전술한 단계를 통해 재발화된 사용자의 발화 음성에 대한 음성 인식을 수행할 수 있다.

이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다.

이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

100 : 디스플레이 장치 110 : 입력부
120,310 : 통신부 130 : 음성 인식부
140,340 : 제어부 150,330 : 저장부
160 : 디스플레이부 200 : 음성 인식 장치
300 : 대화형 서버 320 : 추출부

Claims

사용자의 발화 음성을 입력받는 입력부;
상기 발화 음성에 대한 음성 신호를 음성 인식 장치로 전송하는 통신부;
상기 발화 음성에 대한 음성 인식을 수행하는 음성 인식부; 및
상기 음성 인식부를 통해 인식된 제1 음성 정보에 대한 신뢰도 값과 상기 음성 인식 장치를 통해 인식된 제2 음성 정보에 대한 신뢰도 값 중 기설정된 임계값 이상의 신뢰도 값을 가지는 음성 정보를 상기 발화 음성에 대한 실행 명령으로 결정하는 제어부;
를 포함하는 디스플레이 장치.
제 1 항에 있어서,
상기 제1 및 제2 음성 정보는 상기 발화 음성에 대한 음성 신호로부터 변환된 텍스트 정보이며,
상기 제어부는,
상기 제1 및 제2 음성 정보에 대한 신뢰도 값이 상기 임계값 이상이면, 상기 제1 및 제2 음성 정보에 대한 텍스트 정보로부터 문자열 길이를 비교하여 문자열 길이가 긴 음성 정보를 실행 명령으로 결정하는 것을 특징으로 하는 디스플레이 장치.
제 2 항에 있어서,
상기 제어부는,
상기 문자열 길이가 동일하면, 기정의된 유사도 알고리즘을 이용하여 상기 제1 및 제2 음성 정보에 대한 텍스트 정보로부터 발음열의 유사도 값을 산출하고, 산출된 유사도 값이 기설정된 임계값 이상이면, 상기 제1 음성 정보를 실행 명령으로 결정하며,
상기 산출된 유사도 값이 상기 임계값 미만이면, 상기 제2 음성 정보를 실행 명령으로 결정하는 것을 특징으로 하는 디스플레이 장치.
제 3 항에 있어서,
상기 제어부는,
상기 발화 음성에 대한 실행 명령이 결정되면, 상기 실행 명령으로 결정된 음성 정보에 기초하여 도메인을 결정하고, 상기 결정된 도메인과 상기 디스플레이 장치의 현재 동작 모드에 대한 도메인의 일치 여부에 따라, 상기 실행 명령으로 결정된 음성 정보를 최종 실행 명령으로 결정하는 것을 특징으로 하는 디스플레이 장치.
제 1 항에 있어서,
상기 제어부는,
상기 제1 및 제2 음성 정보에 대한 신뢰도 값이 상기 임계값 미만이면, 상기 제1 및 제2 음성 정보에 기초하여 각각의 도메인을 결정하고, 상기 결정된 각각의 도메인 중 상기 디스플레이 장치의 현재 동작 모드에 대한 도메인과 일치하는 음성 정보의 신뢰도 값에 가중치를 부여하고,
상기 가중치가 부여된 음성 정보의 신뢰도 값이 상기 임계값 이상인지 여부에 따라, 상기 가중치가 부여된 음성 정보를 실행 명령으로 결정하는 것을 특징으로 하는 디스플레이 장치.
제 1 항 내지 제 5 항 중 어느 한 항에 있어서,
복수의 음성 정보에 대응하는 제어 명령을 저장하는 저장부; 및
대화형 서버로부터 수신한 응답 정보에 대한 음성 인식 결과를 디스플레이하는 디스플레이부;를 더 포함하며,
상기 제어부는,
상기 음성 인식부를 통해 인식된 제1 음성 정보가 실행 명령으로 결정되면, 상기 저장부에 저장된 제어 명령 중 상기 제1 음성 정보와 대응하는 제어 명령에 따라 제어 동작을 수행하며,
상기 음성 인식 장치로부터 수신된 제2 음성 정보가 실행 명령으로 결정되면, 상기 통신부를 통해 상기 대화형 서버로 상기 제2 음성 정보를 전송하여, 상기 대화형 서버로부터 상기 제2 음성 정보와 관련된 응답 정보를 수신하는 것을 특징으로 하는 디스플레이 장치.
디스플레이 장치의 제어 방법에 있어서,
사용자의 발화 음성을 입력받는 단계;
상기 발화 음성에 대한 음성 인식을 수행하여 제1 음성 정보에 대한 신뢰도 값을 산출하는 단계;
상기 발화 음성에 대한 음성 신호를 음성 인식 장치로 전송하는 단계;
상기 음성 인식 장치로부터 상기 발화 음성에 대한 인식 결과가 수신되면, 상기 제1 음성 정보에 대한 신뢰도 값과 상기 인식 결과에 포함된 제2 음성 정보에 대한 신뢰로 값 각각을 기설정된 임계값과 비교하는 단계; 및
상기 제1 및 제2 음성 정보 중 하나의 음성 정보가 상기 임계값 이상의 신뢰도 값을 가지면, 상기 임계값 이상의 신뢰도 값을 가지는 음성 정보를 상기 발화 음성에 대한 실행 명령으로 결정하는 단계;
를 포함하는 제어 방법.
제 7 항에 있어서,
상기 제1 및 제2 음성 정보는 상기 발화 음성에 대한 음성 신호로부터 변환된 텍스트 정보이며,
상기 결정하는 단계는,
상기 제1 및 제2 음성 정보에 대한 신뢰도 값이 상기 임계값 이상이면, 상기 제1 및 제2 음성 정보에 대한 텍스트 정보로부터 문자열 길이를 비교하여 문자열 길이가 긴 음성 정보를 실행 명령으로 결정하는 것을 특징으로 하는 제어 방법.
제 8 항에 있어서,
상기 결정하는 단계는,
상기 문자열 길이가 동일하면, 기저장된 유사도 알고리즘을 이용하여 상기 제1 및 제2 음성 정보에 대한 텍스트 정보로부터 발음열의 유사도 값을 산출하고, 산출된 유사도 값이 기설정된 임계값 이상이면, 상기 제1 음성 정보를 실행 명령으로 결정하며,
상기 산출된 유사도 값이 상기 임계값 미만이면, 상기 제2 음성 정보를 실행 명령으로 결정하는 것을 특징으로 하는 제어 방법.
제 9 항에 있어서,
상기 발화 음성에 대한 실행 명령이 결정되면, 상기 실행 명령으로 결정된 음성 정보에 기초하여 도메인을 결정하는 단계; 및
상기 결정된 도메인과 상기 디스플레이 장치의 현재 동작 모드에 대한 도메인의 일치 여부에 따라, 상기 실행 명령으로 결정된 음성 정보를 최종 실행 명령을 결정하는 단계;
를 더 포함하는 것을 특징으로 하는 제어 방법.
제 7 항에 있어서,
상기 제1 및 제2 음성 정보에 대한 신뢰도 값이 상기 임계값 미만이면, 상기 제1 및 제2 음성 정보에 기초하여 각각의 도메인을 결정하는 단계; 및
상기 결정된 각각의 도메인 중 상기 디스플레이 장치의 현재 동작 모드에 대한 도메인과 일치하는 음성 정보의 신뢰도 값에 가중치를 부여하는 단계;를 더 포함하며,
상기 결정하는 단계는,
상기 가중치가 부여된 음성 정보의 신뢰도 값이 상기 임계값 이상인지 여부에 따라 상기 가중치가 부여된 음성 정보를 실행 명령으로 결정하는 것을 특징으로 하는 제어 방법.
제 7 항 내지 제 11 항 중 어느 한 항에 있어서,
상기 제1 음성 정보가 실행 명령으로 결정되면, 기저장된 복수의 제어 명령 중 상기 제1 음성 정보와 관련된 제어 명령에 따라 제어 동작을 수행하고,
상기 제2 음성 정보가 실행 명령으로 결정되면, 대화형 서버로부터 상기 제2 음성 정보와 관련된 응답 정보를 수신하고, 상기 수신된 응답 정보와 관련된 음성 인식 결과를 디스플레이하는 단계;
를 더 포함하는 것을 특징으로 하는 제어 방법.
사용자의 발화 음성을 입력되면, 상기 음성 신호에 기초하여 음성 인식을 수행하면서, 음성 인식 장치로 상기 음성 신호를 전송하는 디스플레이 장치; 및
상기 디스플레이 장치로부터 수신된 음성 신호에 기초하여 음성 인식을 수행하고, 상기 음성 인식에 따른 인식 결과를 상기 디스플레이 장치로 전송하는 음성 인식 장치;를 포함하며,
상기 디스플레이 장치는,
상기 음성 인식 장치로부터 인식 결과가 수신되면, 상기 디스플레이 장치에서 인식된 제1 음성 정보에 대한 신뢰도 값과 상기 수신된 인식 결과에 포함된 제2 음성 정보에 대한 신뢰도 값 중 기설정된 임계값 이상의 신뢰도 값을 가지는 음성 정보를 상기 발화 음성에 대한 실행 명령으로 결정하는 것을 특징으로 하는 대화형 시스템.
제 13 항에 있어서,
상기 제1 및 제2 음성 정보는 상기 발화 음성에 대한 음성 신호로부터 변환된 텍스트 정보이며,
상기 디스플레이 장치는,
제1 및 제2 음성 정보에 대한 신뢰도 값이 상기 임계값 이상이면, 상기 제1 및 제2 음성 정보에 대한 텍스트 정보로부터 문자열 길이를 비교하여 문자열 길이가 긴 음성 정보를 실행 명령으로 결정하는 것을 특징으로 하는 대화형 시스템.
제 14 항에 있어서,
상기 디스플레이 장치는,
상기 문자열 길이가 동일하면, 기정의된 유사도 알고리즘을 이용하여 상기 제1 및 제2 음성 정보에 대한 텍스트 정보로부터 발음열의 유사도 값을 산출하고, 산출된 유사도 값이 기설정된 임계값 이상이면, 상기 제1 음성 정보를 실행 명령으로 결정하며,
상기 산출된 유사도 값이 상기 임계값 미만이면, 상기 제2 음성 정보를 실행 명령으로 결정하는 것을 특징으로 하는 대화형 시스템.
제 15 항에 있어서,
상기 디스플레이 장치는,
상기 발화 음성에 대한 실행 명령이 결정되면, 상기 실행 명령으로 결정된 음성 정보에 기초하여 도메인을 결정하고, 상기 결정된 도메인과 상기 디스플레이 장치의 현재 동작 모드에 대한 도메인의 일치 여부에 따라, 상기 실행 명령으로 결정된 음성 정보를 최종 실행 명령으로 결정하는 것을 특징으로 하는 대화형 시스템.
제 13 항에 있어서,
상기 디스플레이 장치는,
상기 제1 및 제2 음성 정보에 대한 신뢰도 값이 상기 임계값 미만이면, 상기 제1 및 제2 음성 정보에 기초하여 각각의 도메인을 결정하고, 상기 결정된 각각의 도메인 중 상기 디스플레이 장치의 현재 동작 모드에 대한 도메인과 일치하는 음성 정보의 신뢰도 값에 가중치를 부여하고,
상기 가중치가 부여된 음성 정보의 신뢰도 값이 상기 임계값 이상인지 여부에 따라, 상기 가중치가 부여된 음성 정보를 실행 명령으로 결정하는 것을 특징으로 하는 대화형 시스템.
제 13 항 내지 제 17 항 중 어느 한 항에 있어서,
상기 디스플레이 장치는,
상기 제1 음성 정보가 실행 명령으로 결정되면, 기저장된 제1 음성 정보와 관련된 제어 명령에 따라 제어 동작을 수행하고,
상기 제2 음성 정보가 실행 명령으로 결정되면, 대화형 서버로 상기 제2 음성 정보를 전송하여 상기 제2 음성 정보에 대한 응답 정보가 수신되면, 상기 수신된 응답 정보와 관련된 음성 인식 결과를 디스플레이하는 것을 특징으로 하는 대화형 시스템.