KR20150065521A

KR20150065521A - 발화된 음성의 음성 인식 실패 개선을 위한 방법 및 이를 위한 음성인식 제어장치

Info

Publication number: KR20150065521A
Application number: KR1020130150931A
Authority: KR
Inventors: 권오성; 이영훈; 김종철; 정진수
Original assignee: 주식회사 케이티
Priority date: 2013-12-05
Filing date: 2013-12-05
Publication date: 2015-06-15

Abstract

본 발명은 발화된 음성의 음성 인식 실패 개선을 위한 방법 및 이를 위한 음성인식 제어장치를 개시한다. 본 발명의 일 측면에 따른 음성인식 제어장치에서의 발화된 사용자 음성의 음성 인식 실패 개선을 위한 방법은 서비스 장치의 음성인식 처리시작 시점을 추출하는 음성인식 처리시작 시점 추출 단계; 음성 인식 기능 시작 입력의 수신 시점부터 사용자의 발화 음성을 저장하는 음성 저장 단계; 저장된 음성을 상기 추출된 음성인식 처리시작 시점에 상기 서비스 장치로 전송하는 단계;를 포함할 수 있다.

Description

발화된 음성의 음성 인식 실패 개선을 위한 방법 및 이를 위한 음성인식 제어장치{METHOD FOR SPEECH RECOGNITION FAILURE IMPROVEMENT OF VOICE AND SPEECH RECOGNOTION CONTROL DEVICE THEREFOR}

본 발명은 음성 인식 실패 개선을 위한 방법 및 이를 위한 음성인식 제어장치에 관한 것으로서, 더욱 상세하게는 분리된 음성인식 제어장치와 서비스 장치 예컨대, 리모컨과 스마트 TV 사이에서 상기 리모컨에 입력된 음성을 통해 상기 스마트 TV를 제어함에 따른 음성 인식 실패를 개선하기 위한 발화된 음성의 음성 인식 실패 개선을 위한 방법 및 이를 위한 음성인식 제어장치에 관한 것이다.

스마트 기기를 사용함에 있어서, 사용자의 편의성을 증대시키기 위한 여러 가지 연구들이 진행되고 있다.

하나의 예로, 도 1에 도시된 바와 같이 사용자가 음성인식기능을 구비한 리모컨을 사용하여(버튼의 클릭에 따른 입력을 통한 제어가 아닌) 제어명령을 음성으로 입력함으로써, 상기 음성이 스마트 TV와 같은 스마트 기기로 전송되어 상기 음성에 해당하는 제어명령을 수행하는 것을 들 수 있다.

도 1은 종래기술에 따른 사용자의 발화된 음성이 리모컨에서 스마트 TV로 전송되어 처리되는 절차를 나타낸 도면, 도 2는 종래기술에 따른 사용자의 발화된 음성이 일부 누락됨에 따른 음성인식실패의 상황을 나타낸 도면이다.

도 1의 (a)에 도시된 바와 같이 사용자는 리모컨(100)의 음성인식버튼(103)을 클릭한 후에 스마트 TV(130)의 화면에 “음성을 입력하세요”라는 메시지가 뜨기까지 기다린다. 이때, 상기 메시지가 뜨는 시점은 스마트 TV(130)에서 리모컨(100)으로부터 사용자의 음성을 전송받아 음성인식을 처리할 준비가 되었음을 알리는 시점일 수 있으며, 스마트 TV(130)는 사용자가 리모컨(100)의 음성인식버튼(103)을 클릭한 이후부터 스마트 TV(130)의 화면에 음성인식을 처리할 준비가 되어 있음을 알리는 메시지가 뜨기 이전까지 사용자가 발화한 음성을 처리하기 위한 리소스(예를 들어, 사용자 음성을 저장할 메모리 공간, 처리 프로세서 등)를 확보할 수 있다.

이후, 사용자는 상기와 같이 스마트 TV의 화면에서 음성을 입력하라는 메시지를 확인한 후, 도 1의 (b)에 도시된 바와 같이 리모컨(100)의 일측에 구비되어 음성의 입력을 수행할 수 있는 마이크(101)를 통해 음성(예를 들어, “볼륨을 높여라”)을 발화한다. 이후, 상기 발화된 사용자의 음성은 스마트 TV(130)로 전송되어 상기 음성에 해당하는 명령(예들 들어, 볼륨을 높임)을 수행함으로써 스마트 TV를 제어할 수 있다.

하지만, 도 2에 도시된 바와 같이 사용자가 음성인식버튼을 클릭한 후, 스마트 TV의 화면에서 음성 입력 수행을 위한 메시지를 확인하기 이전(즉, 음성인식 처리시작 시점 이전)에 음성을 발화하면, 상기 사용자 음성이 발화된 시점부터 음성인식 처리시작 시점 사이에 입력된 사용자의 음성은 누락되고 상기 음성인식 처리시작 시점 이후에 입력된 사용자의 음성만 스마트 TV로 전송됨으로써 상기 사용자의 음성은 인식에 실패하게 된다. 또한, 상술한 종래 기술에서의 리모컨과 같은 음성인식 제어장치는 원격지에 떨어져 있는 스마트 TV와 같은 서비스 장치의 음성인식 처리시작 시점을 인지할 수 없는 문제점이 있다.

이에 따라 상기 상술한 종래기술에서의 사용자 음성인식 실패를 개선하기 위한 연구들이 활발히 진행되고 있다.

일본공개특허 제2003-345390호(2003.12.3 공개)

본 발명은 상기와 같은 문제점을 해결하기 위해 제안된 것으로서, 서비스 장치의 음성인식 처리시작 시점을 추출하고, 사용자가 음성인식 제어장치의 음성인식버튼을 클릭한 이후 시점부터 입력되는 사용자의 발화된 음성을 저장하였다가, 상기 추출된 음성처리 시작 시점에 상기 저장된 음성을 서비스 장치로 전송하기 위한 발화된 음성의 음성 인식 실패 개선을 위한 방법 및 이를 위한 음성인식 제어장치를 제공하는데 그 목적이 있다.

본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있으며, 본 발명의 실시 예에 의해 보다 분명하게 알게 될 것이다. 또한, 본 발명의 목적 및 장점들은 특허청구범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.

상기와 같은 목적을 달성하기 위한 본 발명의 일 측면에 따른 음성인식 제어장치에서의 발화된 사용자 음성의 음성 인식 실패 개선을 위한 방법은 서비스 장치의 음성인식 처리시작 시점을 추출하는 음성인식 처리시작 시점 추출 단계; 음성 인식 기능 시작 입력의 수신 시점부터 사용자의 발화 음성을 저장하는 음성 저장 단계; 저장된 음성을 상기 추출된 음성인식 처리시작 시점에 상기 서비스 장치로 전송하는 단계;를 포함할 수 있다.

상기 음성인식 처리시작 시점 추출 단계는, 음성 인식 기능 시작 입력의 수신 시점 이후의 각 시간 구간별로 사용자의 음성 발화 빈도수를 산출하는 단계; 및 음성 발화 빈도수가 가장 높은 시간 구간의 한 시점을 음성인식 처리시작 시점으로 추출하는 단계;를 포함할 수 있다.

상기 빈도수를 산출하는 단계는, 음성 인식에 실패한 것으로 판단된 음성 발화는 빈도수에서 제외할 수 있다.

상기 음성 인식에 실패한 것으로 판단된 음성 발화는, 해당 음성 발화 후 일정한 시간 내 동일한 음성 발화가 발생한 경우일 수 있다.

상기 음성인식 처리시작 시점 추출 단계는, 상기 각 시간 구간별로 음성 인식 실패율을 산출하는 단계;를 더 포함하고, 음성 인식 실패율이 임계값 보다 작으면서 음성 발화 빈도수가 가장 높은 시간 구간의 한 시점을 음성인식 처리시작 시점으로 추출할 수 있다.

상기 음성인식 처리시작 시점 추출 단계는, 음성 인식 기능 시작 입력의 수신 시점을 기준으로 음성 발화들의 발생 시점의 평균을 음성인식 처리시작 시점으로 추출할 수 있다.

상기와 같은 목적을 달성하기 위한 본 발명의 다른 측면에 따른 발화된 사용자의 음성을 서비스 장치로 전송하여 상기 서비스 장치가 상기 전송된 사용자의 음성을 인식하고 서비스를 제공할 수 있게 하는 음성인식 제어장치는, 서비스 장치의 음성인식 처리시작 시점을 추출하는 음성인식 처리시작 추출부; 음성인식 기능시작 입력의 수신 시점부터 사용자의 발화 음성을 저장하는 음성 저장부; 및 저장된 음성을 상기 추출된 음성인식 처리시작 시점에 상기 서비스 장치로 전송하는 음성 전송부;를 포함할 수 있다.

상기 음성인식 처리시작 시점 추출부는, 음성인식 기능시작 입력의 수신 시점 이후의 각 시간 구간별로 사용자의 음성 발화 빈도수를 산출하고, 사용자 음성 발화 빈도수가 가장 높은 구간의 한 시점을 음성인식 처리시작 시점으로 추출할 수 있다.

상기 음성인식 처리시작 시점 추출부는, 빈도수 산출시, 음성 인식에 실패한 것으로 판단된 음성 발화는 빈도수에서 제외할 수 있다.

상기 음성인식에 실패한 것으로 판단된 음성 발화는, 해당 음성 발화 후 일정한 시간 내 동일한 음성 발화가 발생한 경우일 수 있다.

상기 음성인식 처리시작 시점 추출부는, 상기 각 시간 구간별로 음성인식 실패율을 산출하고, 상기 음성인식 실패율이 임계값보다 작으면서 음성발화 빈도수가 가장 높은 시간 구간의 한 시점을 음성인식 처리시작 시점으로 추출할 수 있다.

상기 음성인식 처리시작 시점 추출부는, 음성인식 기능시작 입력의 수신 시점을 기준으로 음성 발화들의 발생 시점의 평균을 음성인식 처리시작 시점으로 추출할 수 있다.

본 발명의 일 측면에 따르면, 서비스 장치의 음성인식 처리시작 시점을 추출하고, 서비스장치의 음성인식처리를 위한 시간이 되기 이전에 사용자가 음성인식 제어장치의 음성인식버튼을 클릭하여 입력한 음성을 상기 음성인식 제어장치에 저장하였다가 상기 추출된 음성인식 처리시작 시점에 상기 저장된 사용자의 음성을 서비스 장치로 전송함으로써 사용자가 발화한 음성의 일부가 누락되어 발생하는 음성 인식 실패를 개선할 수 있는 효과가 있다.

본 명세서에 첨부되는 다음의 도면들은 본 발명의 바람직한 실시 예를 예시하는 것이며, 발명을 실시하기 위한 구체적인 내용들과 함께 본 발명의 기술사상을 더욱 이해시키는 역할을 하는 것이므로, 본 발명은 그러한 도면에 기재된 사항에만 한정되어 해석되어서는 아니 된다.
도 1은 종래기술에 따른 사용자의 발화된 음성이 리모컨에서 스마트 TV로 전송되어 처리되는 절차를 나타낸 도면,
도 2는 종래기술에 따른 사용자의 발화된 음성이 일부 누락됨에 따른 음성인식실패의 상황을 나타낸 도면,
도 3은 본 발명의 일 실시 예에 따른 리모컨의 구성도를 나타낸 도면,
도 4는 본 발명의 일 실시 예에 따른 시간 구간 영역별로 분석된 음성 빈도수를 나타낸 도면,
도 5는 본 발명의 일 실시 예에 따른 시간 구간별 분석된 사용자 음성 빈도수(A) 및 상기 시간 구간에서의 사용자 음성 인식 실패율(B)을 나타낸 도면,
도 6은 본 발명의 일 실시 예에 따른 사용자의 발화된 음성의 음성인식실패 개선을 위한 방법의 흐름도,
도 7은 본 발명의 다른 실시 예에 따른 사용자의 음성 발화 시점을 평균화하여 추출된 음성인식 처리시작 시점을 나타낸 도면이다.

상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일 실시 예를 상세히 설명하기로 한다.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 “포함”한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 “…부” 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

도 3은 본 발명의 일 실시 예에 따른 음성인식 제어장치의 구성도를 나타낸 도면이다.

본 발명의 실시 예에 있어서, 음성인식 제어장치는 리모컨일 수 있으며, 서비스 장치는 스마트 TV일 수 있다.

도 3을 참조하면 본 발명에 따른 음성인식 제어장치(300)는 마이크(301), 음성인식버튼(303), 음성 저장부(305), 음성인식 처리시작 시점 추출부(307), 음성 전송부(309) 및 제어부(311)를 포함할 수 있다.

마이크(301)는 음성인식 제어장치의 일측에 구비되어 사용자가 발화하는 음성을 입력받는 역할을 할 수 있다.

음성인식버튼(303)은 사용자가 음성을 발화하기 이전에 서비스 장치(330)로 음성인식이 발생할 것이라는 메시지를 전송하고 사용자의 발화된 음성을 마이크(301)를 통해 입력받기 위해 눌려지는 구성요소이다. 사용자가 상기 음성인식버튼(303)을 누르면 음성인식 제어장치(300)는 서비스 장치(330)로 음성인식이 발생할 것이라는 메시지를 전송하여 상기 서비스 장치(330)가 이에 대한 리소스(예를 들어, 사용자 음성을 저장할 메모리 저장공간, 처리 프로세스 등)를 확보할 수 있게 한다. 또한, 사용자는 상기 음성인식버튼(303)을 누른 후, 상기 마이크(301)를 통해 음성을 발화하여 후술하는 음성 저장부(305)에 저장할 수 있다.

음성인식버튼(303)은 음성 인식 기능 시작을 입력하는 수단의 한 예로서, 여기에 제한되는 것은 아니며 버튼 이외 음성 인식 기능의 시작을 입력하기 위한 수단이라면 특별한 제한은 없다.

음성 저장부(305)는 사용자가 발화한 음성을 저장하는 역할을 할 수 있다. 이때, 상기 음성 저장부(305)는 사용자가 음성인식버튼(303)을 클릭한 이후부터 입력되는 사용자의 발화된 음성을 저장할 수 있다. 여기서의 저장은 버퍼링인 것이 바람직하다. 음성 저장부(305)는 버퍼링한 사용자의 음성이 서비스 장치(330)로 전송되면 삭제하고, 음성 발화 빈도수 및 음성인식 실패율을 분석하기 위한 정보만을 일정한 기간 동안 저장한다.

음성인식 처리시작 시점 추출부(307)는 상기 음성 저장부(305)에 저장된 사용자의 음성을 서비스 장치(330)로 전송하기 위한 시점을 추출하는 역할을 할 수 있다. 상술한 바와 같이 종래기술에서는 음성인식 제어장치에 음성인식 처리시작 시점을 감지할 수 있는 구성이나 방법이 없을 뿐더러, 사용자가 서비스 장치에 표시되는 사용자 입력 승인 메시지(예를 들어, “음성을 입력하세요”)가 뜨기 전에 음성을 입력하게 되면, 발화된 음성의 일부가 누락되어 상기 사용자 입력 승인 메시지가 표시된 시점(즉, 음성인식 처리시작 시점) 이후에 입력된 사용자의 음성만 음성인식 제어장치를 통해 서비스 장치로 전송됨으로써 사용자의 음성은 인식에 실패하게 된다.

따라서, 본 발명에 따른 음성인식 제어장치(300)의 음성인식 처리시작 시점 추출부(307)는 사용자가 음성인식 제어장치(300)의 음성인식버튼(303)을 누른 후 즉, 음성인식 기능시작 입력의 수신 시점 이후의 음성 발화 빈도를 분석하여 음성인식 처리시작 시점을 추출할 수 있다.

상기 음성 발화 빈도는 음성인식버튼(303)이 눌려진 후의 시간이 분석이 가능한 충분히 작은 시간영역으로 분할되어, 각 시간 구간영역 별로 분석될 수 있으며, 분석된 결과는 도수분포표로 작성될 수 있다. 이때, 음성인식 처리시작 시점 추출부(307)는 음성인식 성공율이 높은 구간에서 음성의 입력이 빈번하게 이루어질 것이라고 판단하여 상기 분석된 도수분포표에서 사용자가 발화한 음성의 빈도수가 가장 높은 구간을 음성인식 처리시작 구간으로 추출하고, 상기 추출된 구간 중 어느 한 시점 예를 들어, 상기 구간의 가장 이른 시점 또는 중간 시점을 음성인식 처리시작 시점으로 추출할 수 있다. 상기 음성인식 처리시작 시점은 음성인식 처리시작 시점 추출부(307)에 의해 추출된 시간 구간의 사이에 존재하면 어느 시점이든 관계없다.

도 4는 본 발명의 일 실시 예에 따른 시간 구간 영역별로 분석된 음성 빈도수를 나타낸 도면이다.

도 4에 도시된 그래프의 가로축은 일정하게 분할된 시간영역을 의미하고 왼쪽 세로축은 사용자가 발화한 음성의 빈도수를 의미한다. 그리고 원점은 음성인식버튼이 눌러진 시점이다.

도 4를 참조하면, 본 발명의 실시 예에 따른 시간 구간 영역별 음성 빈도수는 0 ~ 1.5초 사이에 발생한 사용자 발화 음성의 빈도가 0.1초의 시간 간격 별로 분석되어 있음을 알 수 있다.

즉, 0.1 ~ 0.2초 사이에 발생한 사용자 음성 발화는 8회, 0.2 ~ 0.3 초 사이에 발생한 사용자 음성 발화는 7회, 0.3 ~ 0.4초 사이에 발생한 사용자 음성 발화는 4회인 것을 알 수 있으며, 0.4 ~ 0.5초 사이에 발생한 사용자 음성 발화는 6회, 0.5 ~ 0.6초 사이에 발생한 사용자 음성 발화는 2회, 0.6 ~ 0.7초 사이에 발생한 사용자 음성 발화는 6회, 0.7 ~ 0.8초 사이에 발생한 사용자 음성 발화는 10회, 0.8 ~ 0.9초 사이에 발생한 사용자 음성 발화는 9회, 0.9 ~ 1.0초 사이에 발생한 사용자 음성 발화는 5회 등임을 알 수 있다. 따라서, 본 발명에 따르면 음성인식 처리시작 시점 추출부는 사용자의 음성 발화 빈도수가 10회로 가장 높은 구간인 0.7 ~ 0.8초 구간을 음성인식 처리시작 시간으로 추출할 수 있으며, 상기 구간 중 중간 시점인 0.75초를 음성인식 처리시작 시점으로 추출할 수 있다. 상기 음성인식 처리시작 시점은 음성인식 처리시작 시점 추출부에 의해 추출된 시간 구간의 사이에 존재하면 어느 시점이든 관계없다.

또한, 보다 정확한 음성인식 처리시작 시점의 추출을 위해 음성인식 실패를 추가적으로 고려할 수 있다.

사용자는 음성인식에 실패할 경우 음성인식에 성공할 때까지 같은 음성을 계속적으로 발화할 수 있다. 예를 들어, 발화된 음성의 순번을 K라 할 때, K 번째 음성 발화의 실패시, 사용자는 일정한 시간 내에 K+1번째 동일한 음성을 발화하게 된다. 따라서, K 번째 음성을 발화한 후 일정한 기간 내에 K+1 번째 음성 발화가 K 번째 음성 발화와 동일한 음성 발화인 경우 K 번째 음성 발화는 실패한 것으로 볼 수 있다. 또는 K 번째 음성을 발화한 후 일정한 기간 내에 K+1 번째 음성 발화가 K 번째 음성 발화가 동일한 음성 발화가 아닌 경우 K 번째 음성 발화는 성공한 것으로 판단할 수 있다. 따라서 음성 발화 빈도수를 산출할 때, 실패한 음성 발화는 빈도수 산출시 제외하고, 성공한 음성 발화만을 빈도수 산출시 반영하게 되면, 더욱 정확한 음성인식 처리 시작 시점을 추출할 수 있다.

또 다른 실시 예로, 보다 정확한 음성인식 처리시작 시점의 추출을 위해 음성인식 실패율을 추가적으로 더 고려할 수 있다. 앞서 설명한 바와 같이, 음성인식버튼이 눌려진 후의 시간을 분석이 가능한 충분히 작은 시간영역으로 분할하고, 각 시간 구간영역 별로 음성 발화 빈도수를 산출한다. 여기에 더하여, 각 시간 구간영역에서의 음성인식 실패율을 구할 수 있다.

앞서 설명한 바와 같이, 사용자는 음성을 발화한 후 음성인식에 실패했다고 생각되는 경우 동일한 내용의 음성을 다시 발화한다. 따라서, N 구간에서의 음성인식 실패율은 다음 [수학식 1]과 같이 구할 수 있다.

[수학식 1]

N 구간에서의 음성인식 실패율 = B/A

여기서 A는 N 구간에서의 음성 발화 횟수이고, B는 N 구간에서 음성 발화 후 연속적으로 일정한 시간 내에 동일한 음성을 발화한 횟수이다.

예를 들어, N 구간에서 음성 발화가 3 번 있었고, 이 중 2 번의 음성 발화의 경우 일정한 시간 내에 동일한 음성 발화가 있었던 경우, N 구간의 음성 발화 3 번 중 2 번은 음성 인식에 실패한 것이 되므로, N 구간에서의 음성인식 실패율은 2/3=0.67(소수점 셋째 자리에서 반올림)이 된다.

이와 같은 시간 구간별 음성인식 실패율은 도 5의 B 그래프의 예와 같다.

도 5는 본 발명의 일 실시 예에 따른 시간 구간별 분석된 사용자 음성 빈도수(A) 및 상기 시간 구간에서의 사용자 음성 인식 실패율(B)을 나타낸 도면으로써, 도 5에 도시된 그래프의 가로축은 일정하게 분할된 시간영역을 의미하고 왼쪽 세로축은 사용자가 발화한 음성의 빈도수, 오른쪽 세로축은 음성인식 실패율을 의미한다. 그리고 원점은 음성인식버튼이 눌러진 시점이다.

또한, Ts는 보다 정확한 음성인식 처리시작 시점 판단을 위해 어느 특정한 시간 구간에서의 음성인식 실패율과 비교되는 임의로 미리 정해진 임계값을 의미한다.

예를 들어, 사용자는 음성을 발화하여 서비스 장치를 제어하고자 할 경우, 음성인식 제어장치에 제어를 위한 음성(예를 들어, “볼륨을 줄이세요”)을 입력할 수 있다. 이때, 상기와 같이 발화된 음성이 인식에 실패하게 되면 사용자는 음성인식에 성공할 때까지 똑같은 음성을 다시 음성인식 제어장치에 발화하여 입력할 수 있다. 이와 같이 음성인식 제어장치에 발화된 사용자의 음성은 상기 음성 저장부에 저장되게 되고, 앞서 설명한 바와 같이 이를 분석하여 각 시간 구간별로 음성인식 실패율을 구할 수 있다.

도 5를 참조하면, 본 발명에 따른 음성인식 제어장치의 음성인식 처리시작 시점 추출부는 상술한 바와 같이 각 시간 구간별로 분석된 음성 발화 빈도수(A) 중 음성 발화 빈도수가 가장 높은 0.7 ~ 0.8초 구간을 음성인식 처리시작 구간으로 추출할 수 있으며, 상기 구간 중 한 시점인 중간시점(0.75초)을 음성인식 처리시작 시점으로 추출할 수 있다. 하지만 보다 정확한 시점 추출을 위해 음성인식 실패율을 추가적으로 고려할 수 있으며, 임계값을 적용하여 보다 정확한 시점 추출의 판단을 수행할 수 있다. 본 실시 예에서 상기 임계값은 0.1이다.

여기서, 상기 임계값은 시간 구간 영역별로 분석된 음성인식 실패율과 비교하기 위한 임의의 값으로, 미리 정해질 수 있으며 그 수치가 낮을수록 보다 정확한 시점의 추출을 가능하게 할 수 있다.

본 실시 예에 따르면 어느 시간 구간에서의 음성인식 실패율이 미리 정해진 임계값보다 클 경우, 상기 구간은 음성인식 성공율이 낮다고 판단할 수 있다. 따라서, 음성인식 제어장치는 음성인식 실패율이 임계값보다 작으면서 음성 발화 발생 빈도수가 가장 높은 시점을 음성인식 처리시작 시점으로 추출할 수 있다.

또는, 음성인식 제어장치는, 음성 발화 빈도수가 가장 높은 시간 구간의 음성인식 실패율이 임계값 이상인 경우, 해당 시간 구간은 음성 발화 빈도수가 높더라도 음성인식 성공율이 낮다고 판단하고, 해당 시간 구간 이상의 시간 구간 중에서 음성인식 실패율이 임계값보다 작으면서 음성 발화 빈도수가 높은 시간 구간을 음성인식 처리시작 시점으로 추출할 수 있다.

따라서, 상술한 내용을 바탕으로 도 5를 통해 설명하면, 음성 발화 빈도수가 가장 높은 0.7 ~ 0.8초 구간 중 중간 시점인 0.75초를 음성인식 처리시작 시점으로 추출하였을 경우, 상기 시점에 해당하는 음성인식 실패율은 음성인식 실패율 그래프(B)를 보면 약 0.2로써, 미리 설정된 임계값(Ts)보다 크므로 상기 음성인식 처리시작 시점 추출부는 상기 시점은 음성인식 성공율이 낮다고 인식한다. 따라서, 다음으로 상기 시점 이후의 시간 구간 중 음성 실패율이 임계값보다 작으면서 음성인식 빈도수가 가장 높은 시간 구간을 추출한다. 따라서, 0.75초 시점 이전의 시간 구간은 무시하고 상기 0.75초 시점 다음에서 사용자 음성 발화 빈도수가 높은 구간을 추출하면 사용자 음성 빈도수가 9회인 0.8 ~ 0.9초 시간 구간이 될 수 있다. 상기 구간에서의 음성인식 실패율은 임계값보다 낮은 0으로 모든 조건을 만족하므로, 상기 0.8 ~ 0.9 초 시간 구간을 음성인식 처리시작 구간으로 추출할 수 있으며, 상기 구간에 속하는 어느 한 시점을 음성인식 처리시작 시점으로 추출할 수 있다.

음성 전송부(309)는 상기 음성 저장부(305)에 저장된 사용자의 음성을 상기 추출된 음성인식 처리시작 시점에 서비스 장치(330)로 전송하는 역할을 할 수 있다.

제어부(311)는 상술한 음성인식 제어장치(300)의 구성요소들을 제어하여 본 발명에 따라 사용자의 발화된 음성의 음성 인식 실패를 개선하는 역할을 할 수 있다.

도 6은 본 발명의 일 실시 예에 따른 사용자의 발화된 음성의 음성인식실패 개선을 위한 방법의 흐름도이다.

이하, 도 6을 참조하여 본 발명의 일 실시 예에 따른 사용자의 발화된 음성의 음성인식실패 개선을 위한 방법을 상세히 설명하되, 도 3 내지 도 4를 참조하여 설명한 본 발명의 일 실시 예에 따른 음성인식 제어장치의 설명과 중복되는 내용은 생략한다.

도 6에 도시된 바와 같이, 본 발명의 실시 예에 따르면 사용자는 음성을 서비스 장치로 전송하여 상기 음성에 따른 명령으로 서비스 장치를 제어하기 위해 음성인식 제어장치의 음성인식버튼을 누르고 음성을 발화할 수 있다. 상기 음성인식버튼이 눌려짐과 동시에 서비스 장치로 음성인식이 발생할 것이라는 메시지가 전송될 수 있으며, 상기 메시지가 전송됨에 따라 서비스 장치는 음성인식에 따른 리소스(예를 들어, 사용자 음성을 저장할 메모리 저장공간, 처리 프로세스 등)를 확보할 수 있다.

음성인식 처리시작 시점이 분석되기 전에 음성인식 제어장치는 사용자의 음성을 바로 서비스 장치로 전송한다. 다만, 음성인식 제어장치는 음성 발화 빈도 및 음성 인식 실패율을 분석하기 위한 최소한의 정보를 저장한다. 이와 같이 사용자의 음성인식버튼 누름 그리고 음성 발화에 대한 정보를 일정한 기간 동안 누적한 후, 음성인식 제어 장치는 이를 분석하여 음성인식 처리시작 시점을 분석한다. 구체적으로, 음성인식 제어장치는 음성인식버튼을 누른 후 즉, 음성인식 기능시작 입력의 수신 시점 이후의 음성 발화 빈도를 분석하여 음성인식 처리시작 시점을 추출할 수 있다.

상기 음성 발화 빈도는 음성인식버튼이 눌려진 후의 시간이 분석이 가능한 충분히 작은 시간영역으로 분할되어, 각 시간 구간영역 별로 분석되어질 수 있으며, 분석된 결과는 도수분포표로 작성될 수 있다. 음성인식 처리시작 시점 추출부는 상기 분석된 내용을 기초로 음성인식 처리시작 시점을 추출할 수 있다.(S610, S620)

구체적으로, 본 발명의 일 실시 예에 따른 음성인식 처리시작 시점 추출부는 사용자가 음성인식 제어장치의 음성인식버튼을 누른 시점 즉, 음성인식 기능시작 입력의 수신 시점부터 발생한 사용자의 음성 발화 빈도를 분석하여 음성인식 처리시작 시점을 추출할 수 있다.

이때, 음성인식 처리시작 시점 추출부는 음성인식 성공율이 높은 구간에서 음성의 입력이 빈번하게 이루어질 것이라고 판단하여, 상기 분석된 도수분포표에서 사용자가 발화한 음성의 빈도수가 가장 높은 구간을 음성인식 처리시작 구간으로 추출하고 상기 추출된 구간 중 어느 한 시점 예를 들어, 상기 구간의 가장 이른 시점 또는 중간 시점을 음성인식 처리시작 시점으로 추출할 수 있다. 상기 음성인식 처리시작 시점은 음성인식 처리시작 시점 추출부에 의해 추출된 시간 구간의 사이에 존재하면 어느 시점이든 관계없다.

또한, 보다 정확한 음성인식 처리시작 시점의 추출을 위해 음성인식 실패를 추가적으로 고려할 수 있는데, 음성인식 실패를 적용하여 보다 정확한 음성인식 처리시작 시점을 추출하는 설명은 상기 도 5를 통해 자세하게 설명하였으므로 이하에서는 생략하기로 한다.

상기 음성인식 처리시작 시점이 추출된 이후 발화되는 사용자의 음성은, 상술한 바와 마찬가지로 사용자가 음성인식버튼을 누른 시점 즉, 음성인식 기능시작 입력의 수신 시점부터 발화된 음성이 음성 저장부에 저장될 수 있다.(S630)

이후, 음성 전송부는 상기 추출된 음성인식 처리시작 시점에 상기 음성 저장부에 저장된 사용자의 음성을 서비스 장치로 전송함으로써 상기 음성에 따른 명령으로 서비스 장치를 제어할 수 있다.(S640)

도 7은 본 발명의 다른 실시 예에 따른 사용자의 음성 발화 시점을 평균화하여 추출된 음성인식 처리시작 시점을 나타낸 도면으로써, 가로축은 시간 구간을 세로축은 음성 빈도수를 의미한다.

본 실시 예에 따른 음성인식 제어장치의 음성인식 처리시작 시점 추출부는 사용자가 음성인식 제어장치의 음성인식버튼을 누른 후 입력된 음성의 발화한 시점들을 판단한 후 그 음성 발화의 시점들을 평균한다. 이후, 그 평균한 시점을 음성인식 처리시작 시점으로 추출할 수 있다. 이때 시점은 앞서 설명한 음성 발화 빈도수의 계산과 마찬가지로 일정한 간격의 시간 구간일 수도 있고, 또는 정확한 포인트 시간일 수도 있다. 이하에서는 음성 발화 빈도수와의 통일된 설명을 위해 시간 구간의 예로 설명한다.

도 7을 참조하면, 시간영역은 1초 단위로 분할되어 분석되고 상기 각 시간영역별 음성 빈도수가 표시되어 있다. 상술한 바와 같이 본 발명의 실시 예에 따르면, 음성인식 처리시작 시점 추출부는 각 음성 발화의 시간 구간을 모두 더한 후, 총 음성 발화 횟수로 나눔으로써 사용자의 음성이 발화된 시간영역의 평균 시점을 추출할 수 있다. 즉, (1초 시점에 발생한 음성 빈도수 2회=1*2=2)+(2초 시점에 발생한 음성 빈도수 2회=2*2=4)+(3초 시점에 발생한 음성 빈도수 4회=3*4=12)+(4초 시점 발생한 음성 빈도수 5회=4*5=20)+(5초 시점에 발생한 음성 빈도수 2회=5*2=10)를 더한 총합 48을 상기 각 음성 빈도수의 총합인 15로 나누어 계산하여 3.2초라는 평균된 시점을 얻을 수 있으며, 상기 음성인식 처리시작 시점 추출부는 상기 계산된 시점을 음성인식 처리시작 시점으로 추출할 수 있다.

상술한 바와 같이 본 발명의 실시 예에 따르면, 일정 기간 동안 저장된 사용자의 발화 음성 시점을 분석하여 음성인식 처리시작 시점을 추출하고, 이후 사용자가 음성인식 제어장치의 음성인식버튼을 클릭한 이후 입력된 음성을 상기 음성인식 제어장치에 저장하였다가, 상기 추출된 음성인식 처리시작 시점에 상기 저장된 사용자의 음성을 서비스 장치로 전송함으로써 사용자가 발화한 음성의 일부가 누락되어 발생하는 음성인식실패를 개선할 수 있다.

본 명세서는 많은 특징을 포함하는 반면, 그러한 특징은 본 발명의 범위 또는 특허청구범위를 제한하는 것으로 해석되어서는 아니 된다. 또한, 본 명세서의 개별적인 실시 예에서 설명된 특징들은 단일 실시 예에서 결합되어 구현될 수 있다. 반대로, 본 명세서의 단일 실시 예에서 설명된 다양한 특징들은 개별적으로 다양한 실시 예에서 구현되거나, 적절히 결합되어 구현될 수 있다.

도면에서 동작들이 특정한 순서로 설명되었으나, 그러한 동작들이 도시된 바와 같은 특정한 순서로 수행되는 것으로 또는 일련의 연속된 순서, 또는 원하는 결과를 얻기 위해 모든 설명된 동작이 수행되는 것으로 이해되어서는 안 된다. 특정 환경에서 멀티태스킹 및 병렬 프로세싱이 유리할 수 있다. 아울러, 상술한, 실시 예에서 다양한 시스템 구성요소의 구분은 모든 실시 예에서 그러한 구분을 요구하지 않는 것으로 이해되어야 한다. 상술한 프로그램 구성요소 및 시스템은 일반적으로 단일 소프트웨어 제품 또는 멀티플 소프트웨어 제품에 패키지로 구현될 수 있다.

상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 형태로 기록매체(시디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다. 이러한 과정은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있으므로 더 이상 상세히 설명하지 않기로 한다.

이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시 예 및 첨부된 도면에 의해 한정되는 것은 아니다.

300 : 리모컨
301 : 마이크
303 : 음성인식버튼
305 : 음성 저장부
307 : 음성인식 처리시작 시점 추출부
309 : 음성 전송부
330 : 스마트 TV

Claims

음성인식 제어장치에서의 발화된 사용자 음성의 음성 인식 실패 개선을 위한 방법에 있어서,
서비스 장치의 음성인식 처리시작 시점을 추출하는 음성인식 처리시작 시점 추출 단계;
음성 인식 기능 시작 입력의 수신 시점부터 사용자의 발화 음성을 저장하는 음성 저장 단계;
저장된 음성을 상기 추출된 음성인식 처리시작 시점에 상기 서비스 장치로 전송하는 단계;를 포함하는 것을 특징으로 하는 발화된 음성의 음성 인식 실패 개선을 위한 방법.
제 1 항에 있어서,
상기 음성인식 처리시작 시점 추출 단계는,
음성 인식 기능 시작 입력의 수신 시점 이후의 각 시간 구간별로 사용자의 음성 발화 빈도수를 산출하는 단계; 및
음성 발화 빈도수가 가장 높은 시간 구간의 한 시점을 음성인식 처리시작 시점으로 추출하는 단계;를 포함하는 것을 특징으로 하는 발화된 음성의 음성 인식 실패 개선을 위한 방법.
제 2 항에 있어서,
상기 빈도수를 산출하는 단계는,
음성 인식에 실패한 것으로 판단된 음성 발화는 빈도수에서 제외하는 것을 특징으로 하는 발화된 음성의 음성 인식 실패 개선을 위한 방법.
제 3 항에 있어서,
상기 음성 인식에 실패한 것으로 판단된 음성 발화는,
해당 음성 발화 후 일정한 시간 내 동일한 음성 발화가 발생한 경우인 것을 특징으로 하는 발화된 음성의 음성 인식 실패 개선을 위한 방법.
제 4 항에 있어서,
상기 음성인식 처리시작 시점 추출 단계는,
상기 각 시간 구간별로 음성 인식 실패율을 산출하는 단계;를 더 포함하고,
음성 인식 실패율이 임계값 보다 작으면서 음성 발화 빈도수가 가장 높은 시간 구간의 한 시점을 음성인식 처리시작 시점으로 추출하는 것을 특징으로 하는 발화된 음성의 음성 인식 실패 개선을 위한 방법.
제 1 항에 있어서,
상기 음성인식 처리시작 시점 추출 단계는,
음성 인식 기능 시작 입력의 수신 시점을 기준으로 음성 발화들의 발생 시점의 평균을 음성인식 처리시작 시점으로 추출하는 것을 특징으로 하는 발화된 음성의 음성 인식 실패 개선을 위한 방법.
발화된 사용자의 음성을 서비스 장치로 전송하여 상기 서비스 장치가 상기 전송된 사용자의 음성을 인식하고 서비스를 제공할 수 있게 하는 음성인식 제어장치에 있어서,
서비스 장치의 음성인식 처리시작 시점을 추출하는 음성인식 처리시작 추출부;
음성인식 기능시작 입력의 수신 시점부터 사용자의 발화 음성을 저장하는 음성 저장부; 및
저장된 음성을 상기 추출된 음성인식 처리시작 시점에 상기 서비스 장치로 전송하는 음성 전송부;를 포함하는 것을 특징으로 하는 음성인식 제어장치.
제 7 항에 있어서,
상기 음성인식 처리시작 시점 추출부는,
음성인식 기능시작 입력의 수신 시점 이후의 각 시간 구간별로 사용자의 음성 발화 빈도수를 산출하고, 사용자 음성 발화 빈도수가 가장 높은 구간의 한 시점을 음성인식 처리시작 시점으로 추출하는 것을 특징으로 하는 음성인식 제어장치.
제 8 항에 있어서,
상기 음성인식 처리시작 시점 추출부는,
빈도수 산출시, 음성 인식에 실패한 것으로 판단된 음성 발화는 빈도수에서 제외하는 것을 특징으로 하는 음성인식 제어장치.
제 9 항에 있어서,
상기 음성인식에 실패한 것으로 판단된 음성 발화는,
해당 음성 발화 후 일정한 시간 내 동일한 음성 발화가 발생한 경우인 것을 특징으로 하는 음성인식 제어장치.
제 10 항에 있어서,
상기 음성인식 처리시작 시점 추출부는,
상기 각 시간 구간별로 음성인식 실패율을 산출하고, 상기 음성인식 실패율이 임계값보다 작으면서 음성발화 빈도수가 가장 높은 시간 구간의 한 시점을 음성인식 처리시작 시점으로 추출하는 것을 특징으로 하는 음성인식 제어장치.
제 7 항에 있어서,
상기 음성인식 처리시작 시점 추출부는,
음성인식 기능시작 입력의 수신 시점을 기준으로 음성 발화들의 발생 시점의 평균을 음성인식 처리시작 시점으로 추출하는 것을 특징으로 하는 음성인식 제어장치.