KR102357321B1

KR102357321B1 - 음성 인식이 가능한 디스플레이 장치 및 방법

Info

Publication number: KR102357321B1
Application number: KR1020140112370A
Authority: KR
Inventors: 최찬희; 박경미; 배재현; 신기훈
Original assignee: 삼성전자주식회사
Priority date: 2014-08-27
Filing date: 2014-08-27
Publication date: 2022-02-03
Also published as: US9589561B2; KR20160025301A; EP2991073A1; US20160063995A1

Abstract

음성 인식이 가능한 디스플레이 장치 및 방법이 개시된다. 본 발명에 따른 디스플레이 장치에서 사용자의 발화 음성에 대한 음성 인식을 수행하는 방법은 사용자의 발화 음성을 입력받는 단계, 발화 음성으로부터 음성 정보를 추출하고, 추출된 음성 정보를 바탕으로 복수의 단어에 대한 신뢰도를 측정하여, 발화 음성과 유사한 복수의 유사 단어를 추출하는 단계, 추출된 복수의 유사 단어 중 기설정된 조건에 부합되는 단어를 발화 음성에 대한 타겟 단어로 결정하는 단계 및 타겟 단어와 타겟 단어를 제외한 유사 단어를 포함하는 유사 단어 리스트 중 적어도 하는 디스플레이하는 단계를 포함한다. 이에 따라, 디스플레이 장치는 음향 모델이나 발음 사전 등의 음성 인식 관련 내부 구성 요소를 변경하지 않고도 사용자의 발화 음성에 대한 음성 인식률을 향상킬 수 있다.

Description

음성 인식이 가능한 디스플레이 장치 및 방법{Apparatus and method for recognizing voiceof speech}

본 발명은 디스플레이 장치 및 방법에 관한 것으로써, 보다 상세하게는 사용자의 발화 음성 인식이 가능한 디스플레이 장치 및 방법에 관한 것이다.

일반적으로, 음성 인식이 가능한 디스플레이 장치는 사용자의 발화 음성이 입력되면, 입력된 사용자의 발화 음성과 기등록된 복수의 단어를 비교하여 신뢰도가 높은 단어를 사용자의 발화 음성에 대한 실행 명령어로 결정한다.

그러나, 사용자의 발화 음성과 유사한 유사 단어가 복수 개가 존재하는 경우, 사용자의 의도와 상이한 유사 단어가 사용자의 발화 음성에 대한 실행 명령어로 결정되는 문제가 있다.

이 같은 문제를 개선하기 위한 종래의 음성 인식 방법은 기등록된 복수의 단어별로 임계값을 설정하여 각 단어별로 설정된 임계값보다 높은 신뢰도 값을 가지는 단어를 발화 음성에 대한 실행 명령어로 결정하는 방법이 있다. 이 같은 음성 인식 방법은 사용자의 발화 음성을 전재로 실행 명령어를 결정함으로써, 사용자의 발화 음성과 유사한 유사 단어가 복수 개가 존재하는 경우 매번 특정 유사 단어가 실행 명령어로 결정되는 문제가 있다.

또다른 종래의 음성 인식 방법은 사용자의 발화 음성과 유사한 복수의 유사 단어를 리스트로 제공하여 사용자로부터 선택된 유사 단어를 실행 명령어로 결정하는 방법이 있다. 그러나, 이 같은 음성 인식 방법은 사용자의 발화 음성과 유사한 유사 단어가 복수 개가 존재하는 경우, 매번 복수 개의 유사 단어에 대한 리스트를 제공함으로써, 사용자의 발화 음성을 통해 디스플레이 장치의 동작을 제어하고자 하는 편의적인 측면에 있어 그 실용성이 저하되는 문제가 있다.

발명은 상술한 필요성에 따라 안출된 것으로, 본 발명의 목적은, 디스플레이 장치에서 사용자의 발화 음성에 대한 인식률을 향상시키기 위함을 목적으로 한다.

이상과 같은 목적을 달성하기 위한 본 발명의 일 실시 예에 따른 디스플레이 장치에서 사용자의 발화 음성에 대한 음성 인식을 수행하는 방법은 사용자의 발화 음성을 입력받는 단계, 상기 발화 음성으로부터 음성 정보를 추출하고, 상기 추출된 음성 정보를 바탕으로 복수의 단어에 대한 신뢰도를 측정하여, 상기 발화 음성과 유사한 복수의 유사 단어를 추출하는 단계, 상기 추출된 복수의 유사 단어 중 기설정된 조건에 부합되는 단어를 상기 발화 음성에 대한 타겟 단어로 결정하는 단계 및 상기 타겟 단어와 상기 타겟 단어를 제외한 유사 단어를 포함하는 유사 단어 리스트 중 적어도 하는 디스플레이하는 단계를 포함한다.

그리고, 상기 음성 정보는, 상기 발화 음성에 대한 음성 인식을 통해 변환된 텍스트의 발음열 정보일 수 있다.

또한, 상기 추출하는 단계는, 상기 복수의 단어별로 정의된 발음열과 상기 발화 음성에 대한 발음열의 유사도로부터 산출된 신뢰도 값에 기초하여 상기 발화 음성과 유사한 복수의 유사 단어를 추출하며, 상기 결정하는 단계는, 상기 복수의 유사 단어별로 산출된 신뢰도 값과 상기 유사 단어별로 설정된 임계값을 비교하여, 상기 유사 단어별로 설정된 임계값 이상의 신뢰도 값을 가지는 유사 단어를 상기 발화 음성에 대한 타겟 단어로 결정할 수 있다.

그리고, 실행 명령어를 결정하는 단계를 더 포함하며, 상기 실행 명령어를 결정하는 단계는, 기설정된 임계 시간 동안 상기 사용자의 실행 명령이 입력되지 않거나 또는 상기 타겟 단어에 대한 선택 명령이 입력되면, 상기 타겟 단어를 실행 명령어로 결정하고, 상기 유사 단어 리스트에 대한 선택 명령이 입력되면, 상기 선택 명령에 대응되는 유사 단어를 실행 명령어로 결정할 수 있다.

또한, 상기 유사 단어 리스트는, 상기 타겟 단어를 제외한 나머지 유사 단어 및 상기 나머지 유사 단어별로 상이한 기호 문자가 매칭된 리스트이며, 상기 제어 동작을 수행하는 단계는, 상기 선택 명령이 기호 문자 관련 발화 음성이면, 상기 유사 단어 리스트에 포함된 유사 단어 중 상기 발화 음성과 유사한 기호 문자가 매칭된 유사 단어를 실행 명령어로 결정할 수 있다.

그리고, 상기 타겟 단어를 포함하는 복수의 유사 단어 중 상기 실행 명령어로 결정된 유사 단어에 설정된 임계값을 조정하는 단계를 더 포함할 수 있다.

또한, 상기 조정하는 단계는, 상기 타겟 단어가 실행 명령어로 결정되면, 상기 타겟 단어로 결정된 유사 단어의 임계값을 기설정된 조절값 만큼 감소시킬 수 있다.

그리고, 상기 조정하는 단계는, 상기 유사 단어 리스트에 포함된 유사 단어가 실행 명령어로 결정되면, 상기 실행 명령어로 결정된 유사 단어의 임계값을 기설정된 제1 조절값 만큼 감소시키고, 상기 타겟 단어로 결정된 유사 단어의 임계값을 기설정된 제2 조절값 만큼 증가시킬 수 있다.

또한, 상기 추출하는 단계는, 상기 발화 음성과 유사한 복수의 유사 단어가 추출되면, 상기 추출된 복수의 유사 단어를 유사 단어 그룹으로 그룹핑할 수 있다.

그리고, 상기 추출하는 단계는, 상기 발화 음성과 관련하여 추출된 유사 단어가 유사 단어 그룹으로 그룹핑되어 있으면, 상기 유사 단어 그룹 내 모든 단어를 상기 발화 음성과 관련된 유사 단어로 추출할 수 있다.

한편, 본 발명의 또다른 실시 예에 따르면, 디스플레이 장치는 사용자의 발화 음성을 입력받는 입력부, 상기 발화 음성에 대한 음성 인식 결과를 디스플레이하는 디스플레이부, 상기 발화 음성을 인식하여 음성 정보를 추출하고, 상기 추출된 음성 정보를 바탕으로 복수의 단어에 대한 신뢰도를 측정하여 상기 발화 음성과 유사한 복수의 유사 단어를 추출하는 음성 처리부 및 상기 추출된 유사 단어 중 기설정된 조건에 부합되는 단어를 상기 발화 음성에 대한 타겟 단어로 결정하고, 상기 타겟 단어와 상기 타겟 단어를 제외한 유사 단어를 포함하는 유사 단어 리스트 중 적어도 하나를 디스플레이하도록 상기 디스플레이부를 제어하는 제어부를 포함한다.

또한, 상기 음성 처리부는, 상기 복수의 단어별로 정의된 발음열과 상기 발화 음성에 대한 발음열의 유사도로부터 산출된 신뢰도 값에 기초하여 상기 발화 음성과 유사한 복수의 유사 단어를 추출하며, 상기 제어부는, 상기 복수의 유사 단어별로 신뢰도 값과 상기 유사 단어별로 설정된 임계값을 비교하여 상기 유사 단어별로 설정된 임계값 이상의 신뢰도 값을 가지는 유사 단어를 상기 발화 음성에 대한 타겟 단어로 결정할 수 있다.

그리고, 상기 제어부는, 기설정된 임계 시간 동안 상기 사용자의 실행 명령이 입력되지 않거나 또는 상기 타겟 단어에 대한 선택 명령이 입력되면, 상기 타겟 단어를 실행 명령어로 결정하고, 상기 유사 단어 리스트에 대한 선택 명령이 입력되면, 상기 선택 명령에 대응되는 유사 단어를 실행 명령어로 결정할 수 있다.

또한, 상기 유사 단어 리스트는, 상기 타겟 단어를 제외한 나머지 유사 단어 및 상기 나머지 유사 단어별로 상이한 기호 문자가 매칭된 리스트이며, 상기 제어부는, 상기 선택 명령이 기호 문자 관련 발화 음성이면, 상기 유사 단어 리스트에 포함된 유사 단어 중 상기 발화 음성과 유사한 기호 문자가 매칭된 유사 단어를 실행 명령어로 결정할 수 있다.

그리고, 상기 제어부는, 상기 타겟 단어를 포함하는 복수의 유사 단어 중 상기 실행 명령어로 결정된 유사 단어에 설정된 임계값을 조정할 수 있다.

또한, 상기 제어부는, 상기 타겟 단어가 실행 명령어로 결정되면, 상기 타겟 단어로 결정된 유사 단어의 임계값을 기설정된 조절값 만큼 감소시킬 수 있다.

그리고, 상기 제어부는, 상기 유사 단어 리스트에 포함된 유사 단어가 실행 명령어로 결정되면, 상기 실행 명령어로 결정된 유사 단어의 임계값을 기설정된 제1 조절값 만큼 감소시키고, 상기 타겟 단어로 결정된 유사 단어의 임계값을 기설정된 제2 조절값 만큼 증가시킬 수 있다.

또한, 상기 제어부는, 상기 발화 음성과 유사한 복수의 유사 단어가 추출되면, 상기 추출된 복수의 유사 단어를 유사 단어 그룹으로 그룹핑할 수 있다.

그리고, 상기 음성 처리부는, 상기 발화 음성과 관련하여 추출된 유사 단어가 유사 단어 그룹으로 그룹핑되어 있으면, 상기 유사 단어 그룹 내 모든 단어를 상기 발화 음성과 관련된 유사 단어로 추출할 수 있다.

이상과 같이 본 발명의 다양한 실시 예에 따르면, 디스플레이 장치는 음향 모델이나 발음 사전 등의 음성 인식 관련 내부 구성 요소를 변경하지 않고도 사용자의 발화 음성에 대한 음성 인식률을 향상킬 수 있다.

도 1은 본 발명의 일 실시예에 따른 사용자 발화 음성에 적합한 응답 정보를 제공하는 대화형 시스템의 제1 예시도,도 2는 본 발명의 또다른 실시예에 따른
사용자 발화 음성에 적합한 응답 정보를 제공하는 대화형 시스템의 제2 예시도,
도 3은 본 발명의 일 실시예에 따른 디스플레이 장치의 블록도,
도 4는 본 발명의 일 실시예에 따른 디스플레이 장치에서 타겟 단어를 결정하는 예시도,
도 5는 본 발명의 일 실시예에 따른 디스플레이 장치에서 사용자의 발화 음성에 대한 음성 인식 결과를 디스플레이하는 예시도,
도 6은 본 발명의 일 실시예에 따른 디스플레이 장치에서 사용자의 발화 음성과 유사한 유사 단어의 임계값을 조정하는 예시도,
도 7은 본 발명의 일 실시예에 따른 디스플레이 장치에서 사용자의 발화 음성을 인식하는 방법의 흐름도,
도 8은 본 발명의 일 실시예에 따른 디스플레이 장치에서 타겟 단어를 결정하는 방법의 흐름도,
도 9는 본 발명의 일 실시예에 따른 디스플레이 장치에서 유사 단어의 임계값을 조정하는 방법의 흐름도이다.

이하 첨부된 도면들을 참조하여 본 발명의 일시 예를 보다 상세하게 설명한다.

도 1은 본 발명의 일 실시예에 따른 사용자 발화 음성에 적합한 응답 정보를 제공하는 대화형 시스템의 제1 예시도이며, 도 2는 본 발명의 또다른 실시예에 따른 사용자 발화 음성에 적합한 응답 정보를 제공하는 대화형 시스템의 제2 예시도이다.

도 1에 도시된 바와 같이, 대화형 시스템의 디스플레이 장치(100)는 인터넷이 가능한 장치로써, 스마트 TV, 스마트폰과 같은 휴대폰, 데스크탑 PC, 노트북, 네비게이션 등과 같은 다양한 전자 장치로 구현될 수 있다. 이 같은 디스플레이 장치(100)는 사용자의 발화 음성이 입력되면, 입력된 사용자의 발화 음성에 대응되는 동작을 수행한다. 구체적으로, 디스플레이 장치(100)는 사용자의 발화 음성이 입력되면, 입력된 발화 음성에 대한 음성 신호를 텍스트 형태로 변환한다. 실시예에 따라, 디스플레이 장치(100)는 STT(Speech to Text) 알고리즘을 이용하여 사용자의 발화 음성에 대한 음성 신호를 텍스트 형태로 변환할 수 있다.

이후, 디스플레이 장치(100)는 사용자의 발화 음성으로부터 변환된 텍스트의 발음열과 기등록된 복수의 단어별 발음열을 비교하여 복수의 단어에 대한 신뢰도를 측정한다. 이후, 디스플레이 장치(100)는 측정된 신뢰도에 기초하여 사용자의 발화 음성과 유사한 복수의 유사 단어를 추출한다.

이후, 디스플레이 장치(100)는 추출된 복수의 유사 단어 중 기설정된 조건에 부합되는 유사 단어를 사용자의 발화 음성에 대한 타겟 단어로 결정하고, 결정된 타겟 단어와 나머지 유사 단어에 대한 유사 단어 리스트를 UI 형태로 디스플레이한다.

예를 들어, 사용자의 발화 음성과 관련하여 3 개의 유사 단어가 추출되면, 디스플레이 장치(100)는 추출된 3 개의 유사 단어별 신뢰도 값과 3 개의 유사 단어별 설정된 임계값을 비교하여 3 개의 유사 단어 중 임계값보다 높은 신뢰도 값을 가지는 유사 단어를 타겟 단어로 결정한다. 또한, 디스플레이 장치(100)는 타겟 단어로 결정된 유사 단어를 제외한 나머지 2 개의 유사 단어에 대한 유사 단어 리스트를 생성하여 UI 형태로 화면상에 디스플레이한다.

이 같이, 타겟 단어와 유사 단어 리스트가 디스플레이된 상태에서, 타겟 단어에 대한 선택 명령이 입력되거나 혹은 기설정된 시간 내에 사용자로부터 선택 명령이 입력되지 않으면, 디스플레이 장치(100)는 타겟 단어를 사용자의 발화 음성에 대한 실행 명령어로 결정한다. 이후, 디스플레이 장치(100)는 실행 명령어로 결정된 타겟 단어에 기초하여 디스플레이 장치(100)의 동작을 제어하거나 웹 서버(미도시)로부터 컨텐츠를 수신하여 디스플레이할 수 있다.

한편, 디스플레이 장치(100)는 유사 단어 리스트에 포함된 적어도 하나의 유사 단어에 대한 선택 명령이 입력되면, 입력된 선택 명령에 대응되는 유사 단어를 사용자의 발화 음성에 대한 실행 명령어로 결정한다. 이후, 디스플레이 장치(100)는 실행 명령어로 결정된 유사 단어에 기초하여 디스플레이 장치(100)의 동작을 제어하거나 웹 서버(미도시)로부터 컨텐츠를 수신하여 디스플레이할 수 있다.

이와 같이, 본 발명에 따른 디스플레이 장치(100)는 사용자의 발화 음성을 통해 구분하기 어려운 유사 단어를 함께 제공하면서, 해당 유사 단어 중 사용 빈도가 높은 유사 단어를 우선적으로 실행될 수 있도록 제공할 수 있다. 이에 따라, 디스플레이 장치(100)는 사용자가 의도한 실행 명령에 대한 음성 인식 결과의 오류를 최소화할 수 있다.

한편, 디스플레이 장치(100)는 사용자의 발화 음성에 대한 실행 명령어가 결정되면, 실행 명령어로 결정된 유사 단어의 임계값을 조정할 수 있다. 구체적으로, 디스플레이 장치(100)는 타겟 단어로 결정된 유사 단어 혹은 유사 단어 리스트에 포함된 적어도 하나의 유사 단어가 실행 명령어로 결정되면, 실행 명령어로 결정된 유사 단어의 임계값을 기설정된 수치만큼 감소시킨다.

따라서, 디스플레이 장치(100)는 향후 음성 인식 과정에서 유사 단어별 조정된 임계값을 이용하여 사용자의 발화 음성에 대한 타겟 단어를 결정함으로써, 사용자의 발화 음성에 대한 음성 인식률을 향상시킬 수 있다.

한편, 도 2에 도시된 바와 같이, 대화형 시스템은 디스플레이 장치(100)와 음성 인식 장치(200)로 구성될 수 있다. 이 경우, 디스플레이 장치(100)는 사용자의 발화 음성을 입력받으며, 입력된 발화 음성에 대한 음성 신호를 음성 인식 장치(200)로 전송한다. 음성 인식 장치(200)는 디스플레이 장치(100)로부터 수신한 사용자의 발화 음성에 대한 음성 신호를 텍스트로 변환하고, 변환된 텍스트의 발음열과 기등록된 복수의 단어별 발음열을 비교하여 복수의 단어에 대한 신뢰도를 측정한다. 이후, 음성 인식 장치(200)는 측정된 신뢰도에 기초하여 사용자의 발화 음성과 유사한 복수의 유사 단어를 추출한다. 이후, 음성 인식 장치(200)는 추출된 복수의 유사 단어 중 기설정된 조건에 부합되는 유사 단어를 사용자의 발화 음성에 대한 타겟 단어로 결정하고, 결정된 타겟 단어와 나머지 유사 단어를 포함하는 음성 인식 결과 정보를 디스플레이 장치(100)로 전송한다.

이에 따라, 디스플레이 장치(100)는 음성 인식 장치(200)로부터 수신된 음성 인식 결과 정보를 이용하여 타겟 단어 및 나머지 유사 단어에 대한 유사 단어 리스트를 UI 형태로 디스플레이한다. 이후, 타겟 단어로 결정된 유사 단어 및 유사 단어 리스트에 포함된 유사 단어 중 하나의 유사 단어에 대한 선택 명령이 입력되면, 디스플레이 장치(100)는 입력된 선택 명령에 기초하여 디스플레이 장치(100)의 동작을 제어하거나 웹 서버(미도시)로부터 컨텐츠를 수신하여 디스플레이할 수 있다.

한편, 디스플레이 장치(100)는 사용자의 발화 음성에 대한 실행 명령어가 결정되면, 실행 명령어로 결정된 유사 단어에 대한 실행 정보를 음성 인식 장치(200)로 전송한다. 이에 따라, 음성 인식 장치(200)는 디스플레이 장치(100)로부터 수신된 실행 정보에 기초하여 실행 명령어로 결정된 유사 단어의 임계값을 기설정된 수치만큼 감소시킬 수 있다.

따라서, 음성 인식 장치(200)는 향후 음성 인식 과정에서 유사 단어별 조정된 임계값을 이용하여 사용자의 발화 음성에 대한 타겟 단어를 결정함으로써, 사용자의 발화 음성에 대한 음성 인식률을 향상시킬 수 있다.

지금까지, 본 발명에 따른 대화형 시스템에 대해서 개략적으로 설명하였다. 이하에서는, 본 발명에 따른 디스플레이 장치(100)의 각 구성에 대해서 상세히 설명하도록 한다.

도 3은 본 발명의 일 실시예에 따른 디스플레이 장치의 블록도이다.

도 3에 도시된 바와 같이, 디스플레이 장치(100)는 입력부(110), 통신부(120), 음성 처리부(130), 제어부(140), 저장부(150) 및 디스플레이부(160)를 포함한다.

입력부(110)는 사용자의 발화 음성을 입력받는다. 구체적으로, 입력부(110)는 마이크를 통해 아날로그 형태의 사용자 발화 음성이 입력되면, 입력된 발화 음성을 샘플링하여 디지털 신호로 변환한다. 이때, 입력부(110)는 입력된 사용자의 발화 음성에 주변 환경 요인에 따른 노이즈가 있는 경우, 노이즈를 제거한 후 노이즈가 제거된 사용자의 발화 음성을 디지털 신호로 변환함이 바람직하다. 뿐만 아니라, 입력부(110)는 다양한 사용자 조작을 입력받아 제어부(140)로 전달할 수 있다. 이 경우, 입력부(110)는 터치패드(Touch Pad) 혹은 각종 기능키, 숫자키, 특수키, 문자키 등을 구비한 키패드(Key Pad) 또는 터치 스크린(Touch Screen)을 통해 사용자 조작 명령을 입력받을 수 있다.

통신부(120)는 디스플레이 장치(100)를 제어하는 원격 제어 장치(미도시) 혹은 웹 서버(미도시)와 데이터 통신을 수행한다. 구체적으로, 통신부(120)는 원격 제어 장치(미도시)로부터 디스플레이 장치(100)를 제어하기 위한 제어 신호 혹은 원격 제어 장치(미도시)에 입력된 사용자의 발화 음성에 대한 음성 신호를 수신할 수 있다. 뿐만 아니라, 통신부(120)는 웹 서버(미도시)와 데이터 통신을 수행하여 사용자가 요청한 컨텐츠를 수신할 수 있다. 뿐만 아니라, 도 2에서 설명한 바와 같이, 음성 인식 장치(200)를 통해 사용자의 발화 음성에 대한 음성 인식을 수행할 경우, 통신부(120)는 입력부(110)를 통해 입력되거나 혹은 원격 제어 장치(미도시)를 통해 수신된 사용자의 발화 음성에 대한 음성 신호를 음성 인식 장치(200)로 전송하고, 음성 인식 장치(200)로부터 사용자의 발화 음성에 대한 음성 인식 결과를 수신할 수 있다.

이 같은 통신부(120)는 거리 무선 통신 모듈(미도시), 무선 통신 모듈(미도시) 등과 같은 다양한 통신 모듈을 포함할 수 있다. 여기서, 근거리 무선 통신 모듈(미도시)은 근거리에 위치한 대화형 서버(200) 및 컨텐츠를 제공하는 외부 서버(미도시)와 무선 통신을 수행하는 통신 모듈로써, 예를 들어, 블루투스, 지그비 등이 될 수 있다. 무선 통신 모듈(미도시)은 와이파이(WiFi), IEEE 등과 같은 무선 통신 프로토콜에 따라 외부 네트워크에 연결되어 통신을 수행하는 모듈이다. 이 밖에 무선 통신 모듈은 3G(3rd Generation), 3GPP(3rd Generation Partnership Project), LTE(Long Term Evoloution) 등과 같은 다양한 이동 통신 규격에 따라 이동 통신 망에 접속하여 통신을 수행하는 이동 통신 모듈을 더 포함할 수도 있다.

음성 처리부(130)는 입력부(110)를 통해 입력거나 혹은 통신부(120)를 통해 원격 제어 장치(미도시)로부터 수신된 사용자의 발화 음성에 대한 음성 인식을 수행하여 음성 정보를 추출한다. 이후, 음성 처리부(130)는 추출된 음성 정보를 바탕으로 저장부(150)에 기등록된 복수의 단어에 대한 신뢰도를 측정하여, 사용자의 발화 음성과 유사한 복수의 유사 단어를 추출한다. 여기서, 음성 정보는 사용자의 발화 음성에 대한 음성 인식을 통해 변환된 텍스트의 발음열 정보가 될 수 있다.

실시예에 따라, 음성 처리부(130)는 STT(Speech to Text) 알고리즘을 이용하여 사용자의 발화 음성을 텍스트로 변환할 수 있다. 예를 들어, "볼륨 올려줘!"라는 발화 음성이 입력되면, 입력부(110)는 "볼륨 올려줘!"라는 발화 음성을 디지털 형태의 음성 신호로 변환한다. 이 같은 음성 신호로 변환되면, 음성 처리부(130)는 "볼륨 올려줘!"라는 발화 음성에 대한 음성 신호를 텍스트 형태로 변환한다.

이후, 음성 처리부(130)는 사용자의 발화 음성에 대한 텍스트로부터 발음열을 추출한다. 이 같은 발화 음성에 대한 텍스트로부터 발음열이 추출되면, 음성 처리부(130)는 기등록된 복수의 단어별로 정의된 발음열과 사용자의 발화 음성에 대한 발음열의 유사도를 측정하여 그에 따른 신뢰도 값을 산출한다. 실시예에 따라, 음성 처리부(130)는 Confusion Matrix와 같은 유사도 알고리즘을 이용하여 사용자의 발화 음성에 대한 발음열과 기등록된 복수의 단어별 발음열에 대한 유사도를 측정하여 신뢰도 값을 산출할 수 있다.

이 같이, 복수의 단어별 신뢰도 값이 산출되면, 음성 처리부(130)는 산출된 신뢰도 값에 기초하여 사용자의 발화 음성과 유사한 복수의 유사 단어를 추출할 수 있다. 일 실시예에 따라, 음성 처리부(130)는 복수의 단어별 신뢰도 값이 산출되면, 복수의 단어 중 신뢰도 값이 가장 높은 단어부터 기설정된 순위 내에 속하는 단어를 사용자의 발화 음성과 유사한 복수의 유사 단어로 추출할 수 있다. 또다른 실시예에 따라, 음성 처리부(130)는 복수의 단어별 신뢰도 값이 산출되면, 복수의 단어 중 기설정된 기준값 이상의 신뢰도 값이 산출된 단어를 사용자의 발화 음성과 유사한 복수의 유사 단어로 추출할 수 있다.

추가적으로, 음성 처리부(130)는 복수의 단어별 신뢰도 값에 기초하여 사용자의 발화 음성과 유사한 유사 단어가 추출되면, 추출된 유사 단어가 유사 단어 그룹으로 그룹핑되어 있는지 여부를 판단하여, 해당 유사 단어가 특정 유사 단어 그룹으로 그룹핑되어 있으면, 해당 유사 단어 그룹 내에 속하는 나머지 단어를 유사 단어로 추출할 수 있다.

제어부(140)는 디스플레이 장치(100)를 구성하는 모든 구성에 대한 동작을 전반적으로 제어한다. 특히, 제어부(140)는 음성 처리부(130)를 통해 사용자의 발화 음성과 유사한 복수의 유사 단어가 추출되면, 추출된 복수의 유사 단어가 유사 단어 그룹으로 기저장되어 있는지 여부를 판단하여 동일 그룹으로 그룹핑되어 있지 않으면, 사용자의 발화 음성과 관련하여 추출된 복수의 유사 단어를 동일한 유사 단어 그룹으로 그룹 설정하여 저장부(150)에 저장할 수 있다. 따라서, 전술한 바와 같이, 음성 처리부(130)는 사용자의 발화 음성과 유사한 유사 단어가 추출되면, 추출된 유사 단어와 동일한 유사 단어 그룹으로 그룹핑된 나머지 단어를 유사 단어로 추출할 수 있다.

한편, 제어부(140)는 사용자의 발화 음성과 관련하여 추출된 복수의 유사 단어 중 기설정된 조건에 부합되는 유사 단어를 타겟(Target) 단어로 결정한다. 이후, 제어부(140)는 타겟 단어로 결정된 유사 단어와 타겟 단어로 결정된 유사 단어를 제외한 나머지 유사 단어를 포함하는 유사 단어 리스트 중 적어도 하나를 디스플레이하도록 디스플레이부(160)를 제어한다. 한편, 사용자의 발화 음성에 대한 음성 인식 결과를 디스플레이하는 디스플레이부(160)는 제어부(140)의 제어 명령에 따라, 타겟 단어로 결정된 유사 단어 및 UI 형태의 유사 단어 리스트를 화면상에 디스플레이할 수 있다.

구체적으로, 제어부(140)는 사용자의 발화 음성과 유사한 복수의 유사 단어가 추출되면, 추출된 복수의 유사 단어별 신뢰도 값과 각 유사 단어별로 설정된 임계값을 비교하여 추출된 복수의 유사 단어 중 임계값보다 높은 신뢰도 값을 가지는 유사 단어를 사용자의 발화 음성과 가장 유사한 타겟 단어로 결정할 수 있다.

예를 들어, "피트니스"라는 발화 음성과 관련하여 기등록된 복수의 단어 중 발화 음성과 동일한 "피트니스"라는 제1 유사 단어와 "비즈니스"라는 제2 유사 단어가 추출될 수 있다. 그리고, "피트니스"라는 발화 음성 및 제1 유사 단어의 발음열은 "[#p{i.t{u-.ni.su#]"가 될 수 있으며, "비즈니스"라는 제2 유사 단어의 발음열은 [#pi.j-u-.ni.s'u-#]가 될 수 있다. 또한, "피트니스"라는 발화 음성과 관련된 제1 유사 단어의 신뢰도 값은 100이 될 수 있으며, "비즈니스"라는 제2 유사 단어의 신뢰도 값은 80이 될 수 있으며, 제1 및 제2 유사 단어에 설정된 임계값은 90이 될 수 있다. 이 경우, 제어부(140)는 "피트니스"라는 발화 음성과 유사한 제1 및 제2 유사 단어 중 제1 유사 단어의 신뢰도 값이 제1 유사 단어에 설정된 임계값보다 높은 것으로 판단하고, 제1 유사 단어를 사용자의 발화 음성에 대한 타겟 단어로 결정할 수 있다.

이와 같은 예를 통해 사용자의 발화 음성에 대한 타겟 단어가 결정되면, 디스플레이부(160)는 타겟 단어로 결정된 유사 단어와 나머지 유사 단어를 포함하는 유사 단어 리스트를 UI 형태로 디스플레이할 수 있다. 여기서, 유사 단어 리스트는 사용자의 발화 음성과 관련하여 추출된 복수의 유사 단어 중 타겟 단어로 결정된 유사 단어를 제외한 나머지 유사 단어를 포함하며, 나머지 유사 단어별로 서로 상이한 기호 문자가 서로 매칭된 리스트이다.

이 같은 타겟 단어 및 유사 단어 리스트가 디스플레이되고 있는 상태에서, 제어부(140)는 사용자의 선택 명령에 따라 해당 타겟 단어 혹은 유사 단어 리스트 상에 포함된 적어도 하나의 유사 단어를 실행 명령어로 결정할 수 있다.

실시예에 따라, 제어부(140)는 기설정된 임계 시간 동안 입력부(110)를 통해 사용자의 실행 명령이 입력되지 않거나 타겟 단어에 대한 선택 명령이 입력되면, 타겟 단어를 실행 명령어로 결정한다. 한편, 사용자로부터 입력된 선택 명령이 유사 단어 리스트에 대한 선택 명령이면, 제어부(140)는 유사 단어 리스트에 포함된 복수의 유사 단어 중 사용자로부터 입력된 선택 명령에 대응되는 유사 단어를 실행 명령어로 결정할 수 있다. 여기서, 선택 명령은 터치패드, 키패드 혹은 터치 스크린과 같은 사용자의 조작 명령이거나 사용자의 발화 음성이 될 수 있다.

한편, 전술한 바와 같이, 유사 단어 리스트는 사용자의 발화 음성과 유사한 적어도 하나의 유사 단어와 해당 유사 단어에 대한 기호 문자가 매칭될 수 있다. 따라서, 발화 음성을 통해 유사 단어 리스트에 포함된 유사 단어를 선택할 경우, 사용자는 선택하고자 하는 유사 단어에 매칭된 기호 문자에 대한 발화를 수행할 수 있다. 따라서, 제어부(140)는 입력부(110)를 통해 입력된 선택 명령이 기호 문자 관련 발화 음성이면, 유사 단어 리스트에 포함된 유사 단어 중 사용자의 발화 음성과 유사한 기호 문자가 매칭된 유사 단어를 실행 명령어로 결정할 수 있다. 이에 따라, 디스플레이 장치(100)는 유사 단어 리스트 상에 포함된 유사 단어에 대한 선택 명령에 대한 인식 오류를 최소화할 수 있다.

이와 같이, 타겟 단어 혹은 유사 단어 리스트에 포함된 하나의 유사 단어가 실행 명령어으로 결정되면, 제어부(140)는 결정된 실행 명령어에 기초하여 채널 전환, 볼륨 조정 등의 제어 동작을 수행하거나 혹은 웹 서버(미도시)로부터 컨텐츠를 수신하여 디스플레이할 수 있다.

한편, 타겟 단어를 포함하는 복수의 유사 단어 중 실행 명령어가 결정되면, 제어부(140)는 실행 명령어로 결정된 유사 단어에 기설정된 임계값을 조정한다. 실시예에 따라, 제어부(140)는 타겟 단어가 실행 명령어로 결정되면, 타겟 단어로 결정된 유사 단어의 임계값을 기설정된 조절값 만큼 감소시킨다. 한편, 유사 단어 리스트에 포함된 유사 단어가 실행 명령어로 결정되면, 제어부(140)는 실행 명령어로 결정된 유사 단어의 임계값을 기설정된 제1 조절값 만큼 감소시키고, 타겟 단어로 결정된 유사 단어의 임계값을 기설정된 제2 조절값 만큼 증가시킨다.

이와 같이, 본 발명에 따른 디스플레이 장치(100)는 향후 음성 인식 과정에서 유사 단어별 조정된 임계값을 이용하여 사용자의 발화 음성에 대한 타겟 단어를 결정함으로써, 사용자의 발화 음성에 대한 음성 인식률을 향상시킬 수 있다.

도 4는 본 발명의 일 실시예에 따른 디스플레이 장치에서 타겟 단어를 결정하는 예시도이다,

도 4에 도시된 바와 같이, 예를 들어, 사용자로부터 "MDC 보여줘!"라는 발화 음성이 입력되면, 입력된 발화 음성과 유사한 "NDC", "MDC" 및 "ADC"라는 3 개의 유사 단어가 추출될 수 있으며, "NDC", "MDC" 및 "ADC"라는 3 개의 유사 단어의 신뢰도 값이 각각 산출될 수 있다.

이 같이, 사용자의 발화 음성과 유사한 3 개의 유사 단어 및 각각의 유사 단어에 대한 신뢰도 값이 산출되면, 제어부(140)는 각각의 유사 단어별 신뢰도 값과 각각의 유사 단어별로 설정된 임계값을 비교하여 임계값 이상의 신뢰도 값이 산출된 유사 단어를 사용자의 발화 음성에 대한 타겟 단어로 결정한다.

도시된 바와 같이, "NDC"라는 제1 유사 단어의 신뢰도 값은 4000이며, 임계값은 4200으로 설정될 수 있으며, "MDC"라는 제2 유사 단어의 신뢰도 값은 3800이며, 임계값은 3600으로 설정될 수 있다. 그리고, "ADC"라는 제3 유사 단어의 신뢰도 값은 3200이며, 임계값은 4000으로 설정될 수 있다. 따라서, 제어부(140)는 제1 내지 제3 유사 단어별로 산출된 신뢰도 값과 제1 내지 제3 유사 단어별로 설정된 임계값을 비교한다. 비교 결과, "MDC"라는 제2 유사 단어(410)의 신뢰도 값이 기설정된 임계값 이상인 것으로 판단되면, 제어부(140)는 "MDC"라는 제2 유사 단어(410)를 사용자의 발화 음성에 대한 타겟 단어로 결정한다.

이와 같이, 사용자의 발화 음성에 대한 타겟 단어가 결정되면, 디스플레이부(160)는 제어부(140)의 제어 명령에 따라, 타겟 단어로 결정된 제2 유사 단어(410)와, 제1 및 제3 유사 단어를 포함하는 유사 단어 리스트를 화면상에 디스플레이한다.

도 5는 본 발명의 일 실시예에 따른 디스플레이 장치에서 사용자의 발화 음성에 대한 음성 인식 결과를 디스플레이하는 예시도이다.

도 4에서 설명한 바와 같이, "MDC"라는 제2 유사 단어가 타겟 단어로 결정되면, 디스플레이 장치(100)는 도 5의 (a)에 도시된 바와 같이, 화면상에 타겟 단어(510)와 유사 단어 리스트(520)를 디스플레이한다. 즉, 디스플레이 장치(100)는 타겟 단어(510)인 "MDC"라는 제2 유사 단어를 화면의 상단에 디스플레이하고, 화면(510) 하단의 일 측면에 "NDC"라는 제1 유사 단어와 "ADC"라는 제3 유사 단어를 포함하는 유사 단어 리스트(520)를 디스플레이한다. 이때, 디스플레이 장치(100)는 "NDC"라는 제1 유사 단어와 "ADC"라는 제3 유사 단어 각각에 "1"과 "2"라는 기호 문자를 각각 매칭시킨 유사 단어 리스트(520)를 디스플레이할 수 있다.

이 같은 타겟 단어(510) 및 유사 단어 리스트(520)가 디스플레이된 상태에서, 기설정된 임계 시간 내에 사용자로부터 실행 명령이 입력되지 않거나 타겟 단어(510)에 대한 선택 명령이 입력되면, 디스플레이 장치(100)는 타겟 단어(510)로 결정된 제2 유사 단어에 기초하여 현재 선국된 채널에서 "MDC" 채널로 채널 전환을 수행한다.

한편, 사용자의 발화 의도가 "MDC"가 아닌 "NDC"로의 채널 전환일 수 있다. 이 경우, 디스플레이 장치(100)는 사용자로부터 유사 단어 리스트(520)에 포함된 제1 및 제3 유사 단어 중 하나에 대한 선택 명령을 입력받을 수 있다. 여기서, 선택 명령은 사용자의 조작 명령이거나 혹은 발화 음성이 될 수 있다. 본 발명에서는 선택 명령이 발화 음성인 것에 한정하여 설명하도록 한다. 따라서, 유사 단어 리스트(520)에 포함된 제1 및 제3 유사 단어 중 하나에 대한 발화 음성 관련 선택 명령이 입력되면, 디스플레이 장치(100)는 입력된 발화 음성을 인식하여 사용자의 발화 의도가 유사 단어 리스트(520)에 포함된 제1 유사 단어 선택인지 아니면 제3 유사 단어 선택인지 여부를 판단할 수 있다.

전술한 바와 같이, 유사 단어 리스트(520)에 포함된 제1 및 제3 유사 단어 각각은 "1"과 "2"라는 기호 문자가 각각 매칭될 수 있다. 따라서, 사용자는 제1 및 제3 유사 단어 중 적어도 하나에 대응되는 채널로 채널 전환을 위해서 제1 및 제3 유사 단어 각각에 매칭된 기호 문자에 대한 발화를 수행할 수 있다. 예를 들어, 사용자는 제1 유사 단어에 대응되는 "NDC" 채널로의 채널 전환을 위해서 제1 유사 단어에 매칭된 "1"이라는 기호 문자에 대한 발화를 수행할 수 있다. 이 같은 발화 음성이 입력되면, 디스플레이 장치(100)는 입력된 발화 음성을 인식하여 사용자의 의도가 "1"이라는 기호 문자에 대한 선택 명령인 것으로 판단한다. 이후, 디스플레이 장치(100)는 도 5의 (b)에 도시된 바와 같이, "1"이라는 음성 인식 결과(530)를 타겟 단어(510)인 "MDC"라는 제2 유사 단어가 디스플레이되는 영역에 디스플레한다. 이후, 디스플레이 장치(100)는 "1" 기호 문자와 매칭된 제1 유사 단어에 기초하여 현재 채널에서 "NDC" 채널로의 채널 전환을 수행한다.

이와 같이, 본 발명에 따른 디스플레이 장치(100)는 유사 단어 리스트(520)에 포함된 복수의 유사 단어별로 매칭된 기호 문자에 대한 발화 음성을 입력받음으로써, 유사 단어 리스트(520)에 포함된 복수의 유사 단어 중 사용자가 의도한 유사 단어에 대한 인식률을 향상시킬 수 있다.

도 6은 본 발명의 일 실시예에 따른 디스플레이 장치에서 사용자의 발화 음성과 유사한 유사 단어의 임계값을 조정하는 예시도이다.

도 5에서 설명한 바와 같이, 사용자는 유사 단어 리스트(520)에 포함된 제1 및 제3 유사 단어 중 "NDC"라는 제1 유사 단어를 선택할 수 있다. 이 경우, 디스플레이 장치(100)는 "NDC"라는 제1 유사 단어의 임계값(610)을 4300에서 4000으로 감소시키고, 타겟 단어(510)로 설정된 "MDC"의 제2 유사 단어의 임계값(620)을 3600에서 3800으로 증가시킨다.

그러나, 본 발명은 이에 한정되지 않으며, 디스플레이 장치(100)는 타겟 단어(510)로 설정된 "MDC"의 제2 유사 단어가 선택되면, 타겟 단어(510)로 설정된 "MDC"의 제2 유사 단어의 임계값(620)을 3600에서 기설정된 조절값만큼 감소시킬 수 있다.

이와 같이, 디스플레이 장치(100)는 사용자의 선택 명령에 따라, 사용자의 발화 음성으로부터 인식된 복수의 유사 단어별 각각에 설정된 임계값을 감소시키거나 증가시킬 수 있다. 이에 따라, 향후 이와 유사하거나 동일한 사용자의 발화 음성이 입력될 경우, 디스플레이 장치(100)는 해당 발화 음성과 관련하여 추출된 유사 단어별로 조정된 임계값을 이용하여 타겟 단어를 결정함으로써, 사용자의 발화 음성에 대한 인식률을 향상시킬 수 있다.

지금까지, 본 발명에 따른 디스플레이 장치(100)에서 사용자의 발화 음성에 대한 음성 인식을 수행하는 동작에 대해서 상세히 설명하였다. 이하에서는, 본 발명에 따른 디스플레이 장치(100)에서 사용자의 발화 음성을 인식하는 방법에 대해서 상세히 설명하도록 한다.

도 7은 본 발명의 일 실시예에 따른 디스플레이 장치에서 사용자의 발화 음성을 인식하는 방법의 흐름도이다.

도 7에 도시된 바와 같이, 디스플레이 장치(100)는 원격 제어 장치(미도시) 혹은 디스플레이 장치(100)에 구비된 마이크를 통해 사용자의 발화 음성이 입력되면, 입력된 발화 음성으로부터 음성 정보를 추출하고, 추출된 음성 정보를 바탕으로 기등록된 복수의 단어에 대한 신뢰도를 측정한다(S710,S720). 이후, 디스플레이 장치(100)는 측정된 신뢰도에 기초하여 사용자의 발화 음성과 유사한 복수의 유사 단어를 추출한다(S730)

구체적으로, 디스플레이 장치(100)는 입력된 발화 음성에 대한 음성 신호를 디지털 형태의 음성 신호로 변환하고, 변환된 디지털 형태의 음성 신호를 STT(Speech to Text) 알고리즘을 이용하여 텍스트 형태로 변환할 수 있다. 이후, 디스플레이 장치(100)는 사용자의 발화 음성에 대한 텍스트로부터 발음열을 추출하고, 추출된 발음열과 기등록된 복수의 단어별 발음열의 유사도를 측정하여 그에 따른 신뢰도 값을 산출한다.

실시예에 따라, 디스플레이 장치(100)는 Confusion Matrix와 같은 유사도 알고리즘을 이용하여 사용자의 발화 음성에 대한 발음열과 기등록된 복수의 단어별 발음열에 대한 유사도를 측정하여 신뢰도 값을 산출할 수 있다.

이 같은 복수의 단어별 신뢰도 값이 산출되면, 디스플레이 장치(100)는 산출된 신뢰도 값에 기초하여 사용자의 발화 음성과 유사한 복수의 유사 단어를 추출할 수 있다. 이때, 디스플레이 장치(100)는 사용자의 발화 음성과 유사한 복수의 유사 단어가 추출되면, 추출된 복수의 유사 단어를 유사 단어 그룹으로 그룹핑하는 것이 바람직하다. 추가적으로, 디스플레이 장치(100)는 추출된 복수의 유사 단어와 관련하여 유사 단어 그룹으로 그룹 설정되어 있는지 여부를 판단한다. 판단 결과, 추출된 복수의 유사 단어 중 적어도 하나의 유사 단어가 유사 단어 그룹으로 그룹 설정되어 있으면, 해당 유사 단어 그룹 내에 속하는 나머지 단어를 사용자의 발화 음성과 관련된 유사 단어로 더 추출할 수 있다.

이 같은 복수의 유사 단어가 추출되면, 디스플레이 장치(100)는 추출된 복수의 유사 단어 중 기설정된 조건에 부합되는 유사 단어를 타겟 단어로 결정한다(S740). 이후, 디스플레이 장치(100)는 타겟 단어로 결정된 유사 단어 및 나머지 유사 단어를 포함하는 유사 단어 리스트를 디스플레이한다(S750).

이 같은 타겟 단어 및 유사 단어 리스트가 디스플레이된 상태에서, 디스플레이 장치(100)는 사용자 명령에 따라, 타겟 단어로 결정된 유사 단어 또는 유사 단어 리스트에 포함된 적어도 하나의 유사 단어를 실행 명령어로 결정한다(S760). 실시예에 따라, 기설정된 임계 시간 동안 사용자의 실행 명령이 입력되지 않거나 혹은 타겟 단어에 대한 선택 명령이 입력되지 않으면, 디스플레이 장치(100)는 타겟 단어로 결정된 유사 단어를 실행 명령으로 결정할 수 있다. 한편, 유사 단어 리스트에 대한 선택 명령이 입력되면, 디스플레이 장치(100)는 유사 단어 리스트에 포함된 복수의 유사 단어 중 선택 명령에 대응되는 유사 단어를 실행 명령어로 결정할 수 있다.

한편, 유사 단어 리스트는 타겟 단어를 제외한 나머지 유사 단어 및 나머지 유사 단어별로 상이한 기호 문자가 매칭된 리스트이다. 따라서, 디스플레이 장치(100)는 사용자의 선택 명령이 기호 문자 관련 발화 음성이면, 유사 단어 리스트에 포함된 복수의 유사 단어 중 발화 음성과 유사한 기호 문자가 매칭된 유사 단어를 실행 명령어로 결정할 수 있다.

이와 같이, 실행 명령어가 결정되면, 디스플레이 장치(100)는 타겟 단어를 포함하는 복수의 유사 단어 중 실행 명령어로 결정된 유사 단어에 설정된 임계값을 조정한다(S770). 이와 같이, 본 발명에 따른 디스플레이 장치(100)는 향후 음성 인식 과정에서 유사 단어별 조정된 임계값을 이용하여 사용자의 발화 음성에 대한 타겟 단어를 결정함으로써, 사용자의 발화 음성에 대한 음성 인식률을 향상시킬 수 있다.

이하에서는, 본 발명에 따른 디스플레이 장치(100)에서 사용자의 발화 음성과 관련하여 추출된 복수의 유사 단어로부터 타겟 단어를 결정하는 방법에 대해서 상세히 설명하도록 한다.

도 8은 본 발명의 일 실시예에 따른 디스플레이 장치에서 타겟 단어를 결정하는 방법의 흐름도이다.

도 8에 도시된 바와 같이, 디스플레이 장치(100)는 사용자의 발화 음성과 유사한 복수의 유사 단어가 추출되면, 추출된 복수의 유사 단어 중 신뢰도 값이 가장 높은 제1 유사 단어를 선택한다(S810). 이후, 디스플레이 장치(100)는 제1 유사 단어의 신뢰도 값과 제1 유사 단어에 기설정된 임계값을 비교한다(S820). 비교 결과, 제1 유사 단어의 신뢰도 값이 제1 유사 단어에 기설정된 임계값 이상이면, 디스플레이 장치(100)는 제1 유사 단어를 사용자의 발화 음성과 가장 유사한 타겟 단어로 결정하고, 나머지 유사 단어를 유사 단어 리스트에 포함시킨다(S830). 한편, 제1 유사 단어의 신뢰도 값이 제1 유사 단어에 기설정된 임계값 미만이면, 디스플레이 장치(100)는 단계 S820 및 단계 S830을 재수행하여 두 번째로 신뢰도 값이 높은 제2 유사 단어를 선택하고, 결정된 제2 유사 단어의 신뢰도 값과 제2 유사 단어에 기설정된 임계값을 비교한다(S840. 제2 유사 단어의 신뢰도 값이 제2 유사 단어에 기설정된 임계값 이상이면, 디스플레이 장치(100)는 제2 유사 단어를 타겟 단어로 결정한다. 이 같은 일련의 과정을 통해, 디스플레이 장치(100)는 사용자의 발화 음성과 관련하여 추출된 복수의 유사 단어별 산출된 신뢰도 값 중 가장 높은 신뢰도 값을 가지는 유사 단어부터 각 유사 단어별 설정된 임계값을 비교하여 임계값 이상의 신뢰도 값을 가지는 유사 단어를 타겟 단어로 결정할 수 있다.

도 9는 본 발명의 일 실시예에 따른 디스플레이 장치에서 유사 단어의 임계값을 조정하는 방법의 흐름도이다.

도 9에 도시된 바와 같이, 디스플레이 장치(100)는 유사 단어 리스트에 포함된 복수의 유사 단어 중 적어도 하나의 유사 단어가 실행 명령어로 결정되는지 여부를 판단한다(S910). 판단 결과, 유사 단어 리스트에 포함된 유사 단어가 실행 명령어로 결정되면, 디스플레이 장치(100)는 실행 명령어로 결정된 유사 단어의 임계값을 기설정된 조절값 만큼 감소시키고, 타겟 단어로 결정된 유사 단어의 임계값을 기설정된 조절값 만큼 증가시킨다(S920).

그러나, 본 발명은 이에 한정되지 않으며, 디스플레이 장치(100)는 최초 타겟 단어로 결정된 유사 단어가 실행 명령어로 결정되면, 타겟 단어로 결정된 유사 단어의 임계값을 기설정된 조절값 만큼 감소시킬 수 있다.

이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다.

이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

100 : 디스플레이 장치 110 : 입력부
120 : 통신부 130 : 음성 처리부
140 : 제어부 150 : 저장부
160 : 디스플레이부 200 : 음성 인식 장치

Claims

디스플레이 장치에서 사용자 음성 입력에 대한 음성 인식 기능을 수행하는 방법에 있어서,
사용자 음성 입력을 수신하는 단계;
상기 사용자 음성 입력으로부터 획득된 음성 정보를 상기 디스플레이 장치에 기저장된 복수의 단어에 대한 정보와 비교하여 상기 기저장된 복수의 단어 각각에 대한 신뢰도를 획득하는 단계;
상기 획득된 신뢰도에 기초하여 상기 기저장된 복수의 단어 중 상기 사용자 음성 입력과 유사한 복수의 단어를 획득하는 단계;
상기 획득된 복수의 유사 단어 중 기설정된 조건에 대응되는 단어를 상기 사용자 음성 입력에 대한 타겟 단어로 인식하는 단계;
상기 타겟 단어와 상기 타겟 단어를 제외한 유사 단어를 포함하는 유사 단어 리스트 중 적어도 하나를 디스플레이하는 단계;
실행 명령어를 결정하는 단계; 및
상기 타겟 단어를 포함하는 복수의 유사 단어 중 상기 실행 명령어로 결정된 유사 단어에 설정된 임계값을 조정하는 단계;를 포함하고,
기설정된 임계 시간 동안 상기 사용자의 실행 명령이 입력되지 않거나 또는 상기 타겟 단어에 대한 선택 명령이 입력되면, 상기 타겟 단어를 상기 실행 명령어로 결정하는 것을 특징으로 하는 음성 인식 방법.
제 1항에 있어서,
상기 음성 정보는,
상기 사용자 음성 입력에 대한 음성 인식을 통해 변환된 텍스트의 발음열 정보인 것을 특징으로 하는 음성 인식 방법.
제 2 항에 있어서,
상기 복수의 유사 단어를 획득하는 단계는,
상기 복수의 단어별로 정의된 발음열과 상기 사용자 음성 입력에 대한 발음열의 유사도를 바탕으로 획득된 신뢰도 값에 기초하여 상기 사용자 음성 입력과 유사한 복수의 유사 단어를 획득하며,
상기 인식하는 단계는,
상기 복수의 유사 단어별로 산출된 신뢰도 값과 상기 유사 단어별로 설정된 임계값을 비교하여, 상기 유사 단어별로 설정된 임계값 이상의 신뢰도 값을 가지는 유사 단어를 상기 사용자 음성 입력에 대한 타겟 단어로 인식하는 것을 특징으로 하는 음성 인식 방법.
제 1 항에 있어서,
상기 실행 명령어를 결정하는 단계는,
상기 유사 단어 리스트에 대한 선택 명령이 입력되면, 상기 선택 명령에 대응되는 유사 단어를 실행 명령어로 결정하는 것을 특징으로 하는 음성 인식 방법.
제 4 항에 있어서,
상기 유사 단어 리스트는,
상기 타겟 단어를 제외한 나머지 유사 단어 및 상기 나머지 유사 단어별로 상이한 기호 문자가 매칭된 리스트이며,
상기 실행 명령어를 결정하는 단계는,
상기 선택 명령이 기호 문자 관련 발화 음성이면, 상기 유사 단어 리스트에 포함된 유사 단어 중 상기 발화 음성과 유사한 기호 문자가 매칭된 유사 단어를 실행 명령어로 결정하는 것을 특징으로 하는 음성 인식 방법.
삭제
제 1 항에 있어서,
상기 조정하는 단계는,
상기 타겟 단어가 실행 명령어로 결정되면, 상기 타겟 단어로 결정된 유사 단어의 임계값을 기설정된 조절값 만큼 감소시키는 것을 특징으로 하는 음성 인식 방법.
제 1 항에 있어서,
상기 조정하는 단계는,
상기 유사 단어 리스트에 포함된 유사 단어가 실행 명령어로 결정되면, 상기 실행 명령어로 결정된 유사 단어의 임계값을 기설정된 제1 조절값 만큼 감소시키고, 상기 타겟 단어로 결정된 유사 단어의 임계값을 기설정된 제2 조절값 만큼 증가시키는 것을 특징으로 하는 음성 인식 방법.
제 1 항에 있어서,
상기 복수의 유사 단어를 획득하는 단계는,
상기 사용자 음성 입력과 유사한 복수의 유사 단어가 획득되면, 상기 획득된 복수의 유사 단어를 유사 단어 그룹으로 그룹핑하는 것을 특징으로 하는 음성 인식 방법.
제 1 항에 있어서,
상기 복수의 유사 단어를 획득하는 단계는,
상기 사용자 음성 입력과 관련하여 획득된 유사 단어가 유사 단어 그룹으로 그룹핑되어 있으면, 상기 유사 단어 그룹 내 모든 단어를 상기 사용자 음성 입력과 관련된 유사 단어로 획득하는 것을 특징으로 하는 음성 인식 방법.
복수의 단어를 저장하는 저장부;
사용자 음성 입력을 수신하는 입력부;
상기 사용자 음성 입력에 대한 음성 인식 결과를 디스플레이하는 디스플레이부;
상기 사용자 음성 입력으로부터 획득된 음성 정보를 상기 복수의 단어에 대한 정보와 비교하여 상기 복수의 단어 각각에 대한 신뢰도를 획득하고, 상기 획득된 신뢰도에 기초하여 상기 복수의 단어 중 상기 사용자 음성 입력과 유사한 복수의 유사 단어를 획득하는 음성 처리부; 및
상기 획득된 복수의 유사 단어 중 기설정된 조건에 대응되는 단어를 상기 사용자 음성 입력에 대한 타겟 단어로 인식하고, 상기 타겟 단어와 상기 타겟 단어를 제외한 유사 단어를 포함하는 유사 단어 리스트 중 적어도 하나를 디스플레이하도록 상기 디스플레이부를 제어하는 제어부;를 를 포함하고,
상기 제어부는,
상기 타겟 단어를 포함하는 복수의 유사 단어 중 실행 명령어로 결정된 유사 단어에 설정된 임계값을 조정하고,
기설정된 임계 시간 동안 상기 사용자의 실행 명령이 입력되지 않거나 또는 상기 타겟 단어에 대한 선택 명령이 입력되면, 상기 타겟 단어를 상기 실행 명령어로 결정하는 디스플레이 장치.
제 11 항에 있어서,
상기 음성 정보는,
상기 사용자 음성 입력에 대한 음성 인식을 통해 변환된 텍스트의 발음열 정보인 것을 특징으로 하는 디스플레이 장치.
제 12 항에 있어서,
상기 음성 처리부는,
상기 복수의 단어별로 정의된 발음열과 상기 사용자 음성 입력에 대한 발음열의 유사도를 바탕으로 획득된 신뢰도 값에 기초하여 상기 사용자 음성 입력과 유사한 복수의 유사 단어를 추출하며,
상기 제어부는,
상기 복수의 유사 단어별로 신뢰도 값과 상기 유사 단어별로 설정된 임계값을 비교하여 상기 유사 단어별로 설정된 임계값 이상의 신뢰도 값을 가지는 유사 단어를 상기 사용자 음성 입력에 대한 타겟 단어로 인식하는 것을 특징으로 하는 디스플레이 장치.
제 11 항에 있어서,
상기 제어부는,
상기 타겟 단어를 실행 명령어로 결정하고, 상기 유사 단어 리스트에 대한 선택 명령이 입력되면, 상기 선택 명령에 대응되는 유사 단어를 상기 실행 명령어로 결정하는 것을 특징으로 하는 디스플레이 장치.
제 14 항에 있어서,
상기 유사 단어 리스트는,
상기 타겟 단어를 제외한 나머지 유사 단어 및 상기 나머지 유사 단어별로 상이한 기호 문자가 매칭된 리스트이며,
상기 제어부는,
상기 선택 명령이 기호 문자 관련 발화 음성이면, 상기 유사 단어 리스트에 포함된 유사 단어 중 상기 발화 음성과 유사한 기호 문자가 매칭된 유사 단어를 실행 명령어로 결정하는 것을 특징으로 하는 디스플레이 장치.
삭제
제 11 항에 있어서,
상기 제어부는,
상기 타겟 단어가 실행 명령어로 결정되면, 상기 타겟 단어로 결정된 유사 단어의 임계값을 기설정된 조절값 만큼 감소시키는 것을 특징으로 하는 디스플레이 장치.
제 11 항에 있어서,
상기 제어부는,
상기 유사 단어 리스트에 포함된 유사 단어가 실행 명령어로 결정되면, 상기 실행 명령어로 결정된 유사 단어의 임계값을 기설정된 제1 조절값 만큼 감소시키고, 상기 타겟 단어로 결정된 유사 단어의 임계값을 기설정된 제2 조절값 만큼 증가시키는 것을 특징으로 하는 디스플레이 장치.
제 11 항에 있어서,
상기 제어부는,
상기 사용자 음성 입력과 유사한 복수의 유사 단어가 획득되면, 상기 획득된 복수의 유사 단어를 유사 단어 그룹으로 그룹핑하는 것을 특징으로 하는 디스플레이 장치.
제 11 항에 있어서,
상기 음성 처리부는,
상기 사용자 음성 입력과 관련하여 획득된 유사 단어가 유사 단어 그룹으로 그룹핑되어 있으면, 상기 유사 단어 그룹 내 모든 단어를 상기 사용자 음성 입력과 관련된 유사 단어로 획득하는 것을 특징으로 하는 디스플레이 장치.