KR102093851B1

KR102093851B1 - 인공지능에 기반하여 음성 인식의 민감도를 환경에 적응적으로 변화시키는 방법 및 이를 구현하는 장치

Info

Publication number: KR102093851B1
Application number: KR1020180152991A
Authority: KR
Inventors: 이종진
Original assignee: 엘지전자 주식회사
Priority date: 2018-11-30
Filing date: 2018-11-30
Publication date: 2020-03-26

Abstract

인공지능에 기반하여 음성 인식의 민감도를 환경에 적응적으로 변화시키는 방법 및 이를 구현하는 장치에 관한 것으로, 본 발명의 일 실시예에 의한 음성 인식을 향상시키는 장치는 사용자의 음성을 입력받는 음성 입력부와, 기동어를 판별하는 기준데이터를 저장하는 기동어 데이터베이스부와, 입력된 음성과 기준데이터를 비교한 스코어와 스코어를 판단하는 기동어 메트릭을 이용하여 음성이 장치의 기능을 제어하는 명령어의 후속을 지시하는 기동어 판단 결과를 생성하며, 음성 입력부에서 누적하여 입력된 음성에 기반하여 기동어 메트릭의 민감도를 조절하는 중앙제어부와 중앙제어부의 제어에 기반하여 장치의 기능을 제어하는 장치기능 제어부를 포함한다.

Description

인공지능에 기반하여 음성 인식의 민감도를 환경에 적응적으로 변화시키는 방법 및 이를 구현하는 장치{METHOD OF INCREASING SPEECH RECOGNITION AND DEVICE OF IMPLEMENTING THEREOF}

본 발명은 인공지능에 기반하여 음성 인식의 민감도를 환경에 적응적으로 변화시키는 방법 및 이를 구현하는 장치에 관한 기술이다.

최근 가전 제품, 가전 기기 등을 제어함에 있어서 음성이 기반하여 제어하는 기술이 다양하게 제시되고 있다. 특히, 가전 제품이나 가전 기기 등의 장치들을 제어함에 있어서 인간의 음성을 빨리 인식시키기 위해서 음성 인식률을 높이도록 마이크를 다양하게 설치하거나 음성 인식 처리 모듈을 새로이 개발하는 등의 연구가 계속되고 있다.

한편, 음성 인식은 다양한 변수가 발생하는 상황에서 이루어져야 하므로, 이러한 변수에 기반하여 장치가 음성 인식의 정확도를 높이도록 대응하여 동작하는 것이 필요하다. 이에, 본 명세서에서는 댁내 혹은 건물의 일정한 사무 공간 등에 배치된 장치들이 정확하게 음성 인식을 수행할 수 있도록 하는 방안에 대해 제시한다. 특히, 음성 인식의 민감도를 음성 인식이 수행되는 환경에 적응적으로 변화시키는 방안에 대해 살펴본다.

본 명세서에서는 전술한 문제점을 해결하기 위한 것으로, 입력된 기동어가 원래의 설정된 음성 모델에서는 기동어로 인식되지 않는 경우에도 기동어에 근접할 경우, 기동어를 인식하는 기동어 메트릭을 조절하여 기동어의 인식률을 높이고자 한다.

본 명세서에서는 사용 환경에 따라 기동어의 인식률을 적응적으로 조절하기 위해 기동어 인식의 민감도를 조절하여 사용 환경에 적합하게 장치가 동작할 수 있는 방법 및 장치를 제공하고자 한다.

본 명세서에서는 인식된 음성이 기동어인지 불확실한 상태에서 사용자가 주변에 있고 사용자가 음성을 발화한 것으로 판단되면, 입력된 음성 데이터가 기동어로 인식될 수 있도록 장치의 기동어 인식 민감도를 조절할 수 있도록 한다.

본 발명의 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있고, 본 발명의 실시예에 의해 보다 분명하게 이해될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.

본 발명의 일 실시예에 의한 음성 인식을 향상시키는 장치는 사용자의 음성을 입력받는 음성 입력부와, 기동어를 판별하는 기준데이터를 저장하는 기동어 데이터베이스부와, 입력된 음성과 기준데이터를 비교한 스코어와 스코어를 판단하는 기동어 메트릭을 이용하여 음성이 장치의 기능을 제어하는 명령어의 후속을 지시하는 기동어 판단 결과를 생성하며, 음성 입력부에서 누적하여 입력된 음성에 기반하여 기동어 메트릭의 민감도를 조절하는 중앙제어부와 중앙제어부의 제어에 기반하여 장치의 기능을 제어하는 장치기능 제어부를 포함한다.

본 발명의 일 실시예에 의한 장치의 음성 인식을 향상시키는 방법은 중앙제어부가 사용자의 음성을 입력받는 음성 입력부에서 입력된 음성과 기동어 데이터베이스부에 저장되어 기동어를 판별하는 기준데이터를 비교하여 스코어를 산출하는 단계와, 스코어에 대해 기동어 메트릭을 이용하여 음성이 장치의 기능을 제어하는 명령어의 후속을 지시하는 기동어 판단 결과를 생성하는 단계와, 음성 입력부에서 누적하여 입력된 음성에 기반하여 기동어 메트릭의 민감도를 조절하는 단계와, 장치기능제어부는 중앙제어부의 제어에 기반하여 장치의 기능을 제어하는 단계를 포함한다.

본 발명을 적용할 경우, 입력된 기동어가 원래의 설정된 음성 모델에서는 기동어로 인식되지 않는 경우에도 기동어에 근접할 경우, 기동어를 인식하는 기동어 메트릭을 조절하여 기동어의 인식률을 높일 수 있다.

또한, 본 발명을 적용할 경우 사용 환경에 따라 기동어의 인식률을 적응적으로 조절하기 위해 기동어 인식의 민감도를 조절하여 사용 환경에 적합하게 장치가 동작할 수 있도록 한다.

또한, 본 발명을 적용할 경우, 인식된 음성이 기동어인지 불확실한 상태에서 사용자가 주변에 있고 사용자가 음성을 발화한 것으로 판단되면, 입력된 음성 데이터가 기동어로 인식될 수 있도록 장치의 기동어 인식 민감도를 조절할 수 있다.

본 발명의 효과는 전술한 효과에 한정되지 않으며, 본 발명의 당업자들은 본 발명의 구성에서 본 발명의 다양한 효과를 쉽게 도출할 수 있다.

도 1은 본 발명의 일 실시예에 의한 장치의 구성을 보여주는 도면이다.
도 2는 본 발명의 일 실시예에 의한 사용자의 음성이 입력될 경우의 장치의 동작 과정을 보여주는 도면이다.
도 3은 본 발명의 일 실시예에 의한 장치가 가질 수 있는 모드를 보여주는 도면이다.
도 4는 본 발명의 일 실시예에 의한 기동어 메트릭과 음성 명령에 대한 스코어를 비교하여 기동어 인식 여부를 판단하는 도면이다.
도 5는 본 발명의 일 실시예에 의한 기동어 메트릭의 민감도를 낮추도록 조절하는 과정을 보여준다.
도 6은 본 발명의 일 실시예에 의한 기동어 메트릭의 민감도를 높이도록 조절하는 과정을 보여준다.
도 7 및 도 8은 본 발명의 일 실시예에 의한 사용자 확인부가 카메라 센서를 포함하는 장치의 동작 과정을 보여주는 도면이다.
도 8은 카메라를 통해서 찍힌 사용자가 발화를 하는 것으로 영상인식되는 경우에 기동어 메트릭을 조절하는 과정을 보여주는 도면이다.
도 9는 본 발명의 일 실시예에 의한 기동어 메트릭을 단계적으로 민감도를 조절하는 과정을 보여주는 도면이다.
도 10은 본 발명의 일 실시예에 의한 타겟 문턱값과 기동어 메트릭의 문턱값의 차이를 조절하는 실시예이다.

이하, 도면을 참조하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다.

본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 동일 또는 유사한 구성요소에 대해서는 동일한 참조 부호를 붙이도록 한다. 또한, 본 발명의 일부 실시예들을 예시적인 도면을 참조하여 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가질 수 있다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략할 수 있다.

본 발명의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질, 차례, 순서 또는 개수 등이 한정되지 않는다. 어떤 구성 요소가 다른 구성요소에 "연결", "결합" 또는 "접속"된다고 기재된 경우, 그 구성 요소는 그 다른 구성요소에 직접적으로 연결되거나 또는 접속될 수 있지만, 각 구성 요소 사이에 다른 구성 요소가 "개재"되거나, 각 구성 요소가 다른 구성 요소를 통해 "연결", "결합" 또는 "접속"될 수도 있다고 이해되어야 할 것이다.

또한, 본 발명을 구현함에 있어서 설명의 편의를 위하여 구성요소를 세분화하여 설명할 수 있으나, 이들 구성요소가 하나의 장치 또는 모듈 내에 구현될 수도 있고, 혹은 하나의 구성요소가 다수의 장치 또는 모듈들에 나뉘어져서 구현될 수도 있다.

본 명세서에서 특정한 공간 내에 배치되어 소정의 기능을 수행하는 가전 제품, 가전 기기 등을 장치라고 통칭한다. 장치들 중에서 음성 인식을 수행하는 장치들을 음성 인식 장치라고 지칭한다. 또한, 특정한 공간 내에 배치되는 둘 이상의 장치들은 통신 기능을 이용하여 제어 메시지를 송수신할 수 있다.

본 명세서에서 사용자가 음성으로 발화하여 장치들이 인식을 필요로 하는 메시지는 두 종류로 구분하여 음성 인식률을 높이고자 한다. 사용자가 발화하는 언어는 기동어와 명령어, 더미어 총 3가지로 구분된다. 이 중 음성 명령은 기동어와 명령어(자연어)로 구분된다. 기동어는 장치에게 자연어인 명령어가 후속한다는 것을 알려주는 기능을 수행한다.

즉, 기동어는 자연어 인식을 트리거(Trigger)하기 위해 부르는 장치의 이름을 일 실시예로 한다. 이후 입력되는 발화 음성이 실제 장치의 제어 명령에 해당한다. 예를 들어 장치의 분류적 명칭("TV", "라디오", "냉장고")가 되거나 장치의 브랜드("휘센", "트롬"), 또는 감탄사나 대화체의 단어("이봐", "여기")가 될 수 있다.

명령어는 장치의 동작을 지시하는 것으로 장치의 분류에 따라 다양하게 구성될 수 있다. 일 실시예로, 명령어는 장치의 온/오프를 제어하거나 장치에 구성된 특정한 기능을 수행하는 것을 지시할 수 있다. 이는 장치 별로 다양하게 구성될 수 있다.

따라서, 사용자가 "LG휘센, 냉방운전 해"라고 발화 할 경우, 기동어인 "LG휘센"이 장치에서 인식되면 자연어 인식 모드(명령어 입력 모드)가 트리거되어, 이후 입력 되는 고객 발화인 "냉방운전 해"가 서버로 전송되어 서버에 의해서 음성인식이 된다.

이때 장치에서 인식되는 기동어는 고객 발화가 정해진 기동어인 "LG휘센"에 얼마나 일치하는가의 정도가 스코어(score)로 매겨지고, 이것이 장치에 설정되어 있는 기동어 인식의 메트릭, 예를 들어 특정한 문턱값(Threshold) 이상일 경우 장치는 사용자가 기동어를 발화 한 것으로 판단한다. 반면 기동어 인식의 메트릭, 예를 들어 특정한 문턱값(Threshold)에 미치지 못할 경우, 장치는 기동어 발화가 되지 않은 것으로 인식한다.

다음으로, 더미어는 장치의 동작과 전혀 무관한 것으로 장치를 제어하지 않는 음성을 의미한다.

이하, 장치 내에 배치되어 사용자의 음성으로 발화한 기동어와 명령어를 구분하여 대응하는 구성 및 방법에 대해 보다 상세히 살펴본다.

도 1은 본 발명의 일 실시예에 의한 장치의 구성을 보여주는 도면이다. 장치(100)를 제어하는 중앙제어부(150)는 장치(100)를 구성하는 다양한 구성요소들을 제어한다. 장치(100)를 구성하는 구성요소들로 음성 입력부(110), 사용자 확인부(120), 장치기능제어부(130), 기동어 데이터베이스부(160), 명령어 데이터베이스부(170), 그리고 통신부(180)가 제시된다. 중앙제어부(150)는 기동어를 인식하거나 인식된 기동어를 승인하며 장치의 동작을 제어할 수 있다. 또한, 기동어의 인식 민감도를 조절하기 위해 기동어 메트릭을 조절할 수 있다.

기동어의 승인이란, 중앙제어부(150)가 입력된 음성(제1음성)에 대해 기동어 판단 결과에 기반하여 기동어 검증 모드로 진입하도록 장치(100)를 제어한 뒤, 음성 입력부(110)가 기동어나 명령어를 포함하는 음성(제2음성)을 입력받으면, 앞서 기동어 검증 모드로 진입하기 전에 입력된 음성(제1음성)을 기동어 데이터베이스부(160)에 저장하여 추후 동일한 제1음성이 기동어로 인식될 수 있도록 한다.

도 1에는 장치(100)가 특정한 기능을 제공하기 위한 구성요소들은 도시하지 않았다. 예를 들어 장치(100)가 TV인 경우 표시패널이나 전원부를 별도로 가질 수 있다. 장치(100)가 에어컨인 경우 공조 기능을 제공하는 구성요소들을 별도로 가질 수 있다. 장치(100)가 세탁기인 경우 세탁 기능을 제공하는 구성요소들을 별도로 가질 수 있다. 장치(100)가 냉장고인 경우, 냉장 및 냉동 기능을 제공하는 구성요소들을 별도로 가질 수 있다.

음성 입력부(110)는 사용자의 음성을 입력받는 모듈로, 마이크를 일 실시예로 한다. 특히, 음성 입력부(110)는 장치(100)에 일체로 배치될 수도 있고 장치 외부에 배치되어 입력된 음성을 파일로 전환하여 장치(100)에게 제공할 수 있다. 음성 입력부(110)는 마이크로부터 음성 데이터를 입력받아 이를 중앙제어부(150)가 음성을 인식할 수 있도록 중앙제어부(150)에게 전달한다.

사용자 확인부(120)는 음성을 발화한 사용자를 확인한다. 사용자를 확인한다는 것은, 사용자가 현재 장치가 배치된 공간 내에 있는지를 확인하는 것을 포함한다. 일 실시예로, 사용자 확인부(120)는 사람이 장치 주변에 위치하는지를 센싱하는 센서가 될 수 있다. 센서의 종류로 장치 주변을 촬영하는 카메라 센서, 혹은 사람이 존재하는지 여부를 감지하는 PIR(Passive Infra Sensor) 센서, 또는 사람의 움직임을 감지하는 움직임 감지 센서 등이 될 수 있다. 본 발명의 사용자 확인부(120)는 특정한 센서에 한정되지 않는다.

또한, 사용자 확인부(120)가 카메라 센서인 경우, 사용자가 제품을 바라보며 발화하는지를 확인할 수 있다. 만약 사용자가 제품을 등진 경우라면 기동어를 발화할 가능성이 낮지만, 사용자가 제품을 바라보는 경우라면 기동어를 발화할 가능성이 높으므로 기동어 인식의 정확도를 높일 수 있다.

또한, 센싱이 아닌 다른 방식으로 사용자 확인부(120)는 사용자가 공간 내에 존재한다는 것을 확인할 수 있다. 일 실시예로, 장치(100)가 배치된 공간 내에서 장치(100) 또는 장치 주변에 배치된 또다른 장치인 피어 장치가 제어된 시간을 사용자 확인부(120)가 확인한다. 그리고, 미리 설정된 시간 내에 장치 또는 피어 장치가 제어된 경우, 사용자 확인부(120)는 사용자가 확인되었다는 정보를 중앙제어부(150)에게 제공할 수 있다. 그 결과 중앙제어부(150)는 사용자가 장치(100) 주변에 확인된 것으로 판단하여 음성 입력부(110)가 입력받은 음성을 판단할 수 있다.

장치기능 제어부(130)는 장치의 기능을 제어한다. 중앙제어부(150)에 의해 제어될 수 있다. 장치의 기능은 장치의 종류에 따라 다양할 수 있다. 장치기능 제어부(130)는 사용자가 리모컨을 이용하여 장치를 제어하는 신호를 수신하거나, 소정의 버튼 형식으로 장치에 배치되어 사용자가 기능을 제어할 수 있도록 인터페이스를 제공하는 제어 인터페이스부(135)를 더 포함한다. 제어 인터페이스부(135)는 외부로 소정의 음성이나 음향을 출력하는 스피커를 더 포함할 수 있다. 또한 제어 인터페이스부(135)는 민감도의 조절 결과, 예를 들어 문턱값의 변화를 외부로 소정의 음성이나 음향이나 이미지 또는 문자로 출력할 수 있으며, 소리는 스피커로, 문자나 이미지는 디스플레이 장치로 출력한다.

기동어 데이터베이스부(160)는 음성 입력부(110)가 입력받은 음성이 기동어인지를 확인하고 비교하는데 필요한 기준이 되는 기준 데이터를 저장한다. 즉, 기동어 데이터베이스부(160)는 기동어를판별하는 기준 데이터를 저장하며, 이 데이터들은 추가 또는 삭제될 수 있다. 또한, 기동어 데이터베이스부(160)는 기동어를 발화한 사용자의 음성의 특성에 따라 동일한 기동어의 상이한 음성이 기동어가 될 수 있도록 데이터를 저장할 수 있다. 명령어 데이터베이스부(170)는 음성 입력부(110)가 입력받은 음성이 명령어인지를 확인하고 비교하는데 필요한 데이터를 저장한다.

기동어 데이터베이스부(160) 또는 명령어 데이터베이스부(170)는 미리 설정된 기동어나 명령어의 음성 파일 데이터 혹은 음성 파일을 확인하는데 필요한 데이터 등을 저장할 수 있고 저장된 데이터는 업데이트 되거나 추가될 수 있다. 또한, 기동어 데이터베이스부(160)는 해당 장치 외에 인접한 다른 장치들의 기동어를 저장할 수 있다. 이는 도 10에서 설명한다.

도면에 미도시 되었으나, 중앙제어부(150)는 메모리 카드나 메모리 칩과 같은 별도의 저장 공간을 포함하여 연산 속도를 높이거나 일정 기간 동안 입력된 음성 파일을 임시로 저장할 수 있다.

정리하면 다음과 같다. 중앙제어부(150)는 입력된 음성과 기준데이터를 비교한 스코어와 스코어를 판단하는 기동어 메트릭을 이용하여 음성이 장치 또는 장치에 인접한 피어 장치의 기능을 제어하는 명령어의 후속을 지시하는 기동어 판단 결과를 생성하며, 음성 입력부(110)에서 누적하여 입력된 음성에 기반하여 기동어 메트릭의 민감도를 조절한다.

또한, 중앙제어부(150)는 음성 입력부(110)에서 입력된 음성뿐만 아니라, 선택적으로 사용자 확인부(120)가 사용자의 존재를 확인한 결과를 분석하여 입력된 음성이 장치(100) 명령어의 후속을 지시하는 기동어인지를 판단하는 결과를 생성한다. 이러한 결과란 입력된 음성이 기동어에 얼마나 일치하는가에 대한 판단 결과이다.

기동어는 명령어의 후속을 지시하여 장치(100)를 명령어 입력 모드로 전환(모드 전환 또는 모드 진입)시키는데, 기동어 판단 결과에 따라 장치(100)는 명령어 입력 모드, 기동어 검증 모드, 또는 일반 모드 중 하나가 될 수 있다. 중앙제어부(150)가 음성 입력부(110)로부터 입력된 음성 데이터는 기동어 데이터베이스부(160)에 저장된 음향 모델과 비교하여 입력된 음성 데이터가 기동어에 해당하는지 여부를 판단할 수 있다.

장치(100)는 명령어 입력 모드로 전환(진입)하면, 사용자에게 명령어를 입력할 준비가 되었다는 것을 내장 스피커 등을 통해 출력하거나 LED 등을 점멸시킬 수 있다. 예를 들어 기동어 확인 후 장치(100)는 "말씀하세요~" 라는 음성을 출력하여 명령어를 수신할 수 있는 모드로 변환함을 사용자가 확인할 수 있도록 한다.

이외에도 LED 등을 점멸하여 일반 모드인 경우에는 꺼진 상태이지만 명령어 입력 모드에서 점멸하여 사용자가 현재 장치(100)의 상태가 명령어를 입력받을 수 있는 상태라는 것을 확인할 수 있도록 한다. 또한, 본 발명의 다른 실시예에 의하면, 기동어 검증 모드에서도 사용자에게 "네?" 와 같이 음성을 출력하여 기동어를 한번 더 입력할 것을 요청할 수 있다.

기동어 판단 결과는 수치적으로 생성될 수 있다. 기동어 데이터베이스부(160)에 저장된 데이터들과 비교하는데 여기에 저장된 기동어 데이터들과 일치하는 정도를 수치적으로 생성하고 이를 일정한 기준(예를 들어 80% 혹은 70%) 이상인 경우 기동어 판단 결과는 기동어 확인성으로 산출할 수 있다.

반면, 기동어 데이터베이스부(160)에 저장된 데이터들과 비교하는데 여기에 저장된 기동어 데이터들과 일치하는 수치가 낮은 경우(예를 들어 40% 또는 50% 이하 등) 기동어 판단 결과는 기동어 불일치성으로 산출할 수 있다.

그런데 기동어 확인성과 기동어 불일치성 사이의 결과에 대해 본 명세서에서는 기동어 모호성으로 판단하여 장치가 기동어 검증 모드로 진입하도록 중앙제어부(150)가 제어한다.

기동어 검증 모드란 음성 입력된 내용이 기동어로 확인되지는 않으나 어느 정도 유사성을 가지는 경우에 장치가 기동어를 보다 잘 입력받을 수 있는 상태로 전환하는 것을 의미한다. 즉, 중앙제어부(150)가 기동어 모호성으로 기동어 판단 결과를 생성한 경우, 미리 설정된 시간 내에 음성 입력도의 음성 인식 파라미터를 제어하여 음성 인식의 민감도를 높이거나, 장치에서 발생하는 소음을 줄이거나 혹은 인접한 피어 장치에서 발생하는 소음을 줄이는 등의 모드로 전환하는 것을 일 실시예로 한다.

중앙제어부(150)는 기 설정된 민감도 파라미터 기준에서 기동어와 유사하지만 기동어는 아닌 것으로 판단할 경우 사용자 확인부(120)가 사용자 존재를 확인하여 사용자가 확인되면 일시적으로 민감도 파라미터를 높이고 운행 중인 기기의 소음을 줄이도록 하여 기동어의 인식율을 높일 수 있다. 이 경우 민감도 파라미터는 일시적으로 높이도록 하는데, 이는 기동어 인식을 위해 민감도 파라미터를 일시적으로 올린 후, 이후 명령어를 입력받을 경우에는 민감도 파라미터를 복원하여 정확하게 명령어를 입력받을 수 있도록 한다.

예를 들어 기동어가 "시작하자" 인 반면 입력된 음성이 "시자카자" 인 경우 재차 발화되는 기동어의 인식을 위해 민감도 파라미터를 높일 경우 기동어 인식률을 높이고 "시자카자" 라는 음성이 기동어로 인식될 수 있다.

그러나, 명령어의 경우에는 정확하게 장치(100)에게 특정한 동작을 지시하는 것이므로, 기동어가 입력된 후 명령어를 입력받기 위해서는 민감도 파라미터를 복원하는 것을 일 실시예로 한다.

또한, 사용자의 발화 습관에 따라, 음성 인식의 민감도를 중앙제어부(150)가 조절할 수 있다. 예를 들어, 장치(100)가 출시될 경우에 음성 인식의 민감도는 중간 레벨로 설정될 수 있다. 그러나, 사용자가 음성을 입력하는 환경이 다양할 수 있으며, 장치가 배치된 공간의 특성, 소음의 특성 등 장치가 배치된 환경이 다양할 수 있으므로, 중앙제어부(150)는 음성인식의 민감도를 조절할 수 있다. 그러나, 이러한 조절이 빈번하게 발생하면 음성 인식의 정확도가 낮아질 수 있다. 이에, 민감도를 인공지능적으로 적용된 기준에 따라 동적으로 증감시켜 음성인식의 정확도를 높이는 것이 필요하다.

또한, 기동어로 "시작하자"의 음성 모델만 기동어 데이터베이스부(160)에 저장된 상태에서 민감도 파라미터를 높여서 "시자카자"라는 음성이 기동어로 계속 인식된다는 것이 중앙제어부(150)에서 확인될 경우(예를 들어 "시자카자"를 기동어로 인식한 후 명령어가 입력되는 등의 경우) 중앙제어부(150)는 "시자카자"라는 음성 모델을 새로운 기동어로 승인하고 이를 기동어 데이터베이스부(160)에 저장한다. 이에 대해 보다 상세히 살펴본다.

도 2는 본 발명의 일 실시예에 의한 사용자의 음성이 입력될 경우의 장치의 동작 과정을 보여주는 도면이다.

기동어나 명령어가 입력되지 않아 대기 상태인 일반 모드에서 시작할 수 있다. 먼저 사용자 음성이 음성 입력부(110)에 입력된다(S1). 입력된 음성에 대응하여 중앙제어부(150)는 입력된 음성이 기동어인지를 인식한다(S2). 기동어인지 여부는 입력된 음성과 기동어 데이터베이스부(160)에 저장된 정보(비교를 위한 음성 파일 혹은 단어 파일 등)를 비교하여 유사도를 측정하여 유사도에 따라 판단할 수 있다.

유사도를 측정한 결과 기동어로 확인되는 경우, 즉 기동어어와 기동어 데이터베이스부(160)에 저장된 정보를 비교한 결과 도출되는 음성 비교 결과인 스코어와 기동어 메트릭을 비교하여 기동어에 해당하는 것으로 판단된 경우 (S3), 중앙제어부(150)는 기동어가 발화된 것으로 확인하고, 명령어 입력 모드를 진행한다.

S2 내지 S3의 과정을 상술하면, 중앙제어부(150)가 사용자의 음성을 입력받는 음성 입력부(110)에서 입력된 음성과 기동어 데이터베이스부(160)에 저장되어 기동어를 판별하는 기준데이터를 비교하여 스코어를 산출한다(S2).

그리고 중앙제어부(150)는 스코어에 대해 기동어 메트릭을 이용하여 음성이 장치의 기능을 제어하는 명령어의 후속을 지시하는 기동어 판단 결과를 생성하여 기동어로 판단한다(S3). 기동어로 판단되면 명령어 입력 모드로 진입하여, 장치기능 제어부(130)는 중앙제어부(150)의 제어에 기반하여 장치의 기능을 제어한다. 이때 장치의 기능은 명령어에서 지시하는 내용에 따라 동작한다. 장치를 끄고 켜는 명령어, 장치의 특정 기능을 수행시키거나 수행의 중단을 지시하는 명령어 등이 모두 명령어에 해당한다.

한편, 명령어가 입력된 후, 또는 명령어가 입력되지 않거나 기동어가 아닌 것으로 판단된 경우, 중앙제어부(150)는 음성 입력부(110)에서 누적하여 입력된 음성에 기반하여 기동어 메트릭의 민감도를 조절한다(S6). 사용자 환경에 적합하도록 기동어 메트릭의 민감도가 조절된다.

또한, 제어 인터페이스부(135)는 기동어 메트릭의 민감도가 조절되면 그 결과를 사용자가 확인할 수 있도록 출력할 수 있다. 예를 들어 민감도를 구성하는 문턱값의 변화를 외부로 소정의 음성이나 음향이나 이미지 또는 문자로 출력할 수 있으며, 소리는 스피커로, 문자나 이미지는 디스플레이 장치로 출력한다. 예를 들어 "음성 인식률을 높이기 위해 시스템 내의 기동어 인식 메커니즘을 변경하였습니다"와 같이 음성이 출력되면 사용자는 음성 인식률의 변화가 발생한 것으로 판단할 수 있다.

도 3은 본 발명의 일 실시예에 의한 장치가 가질 수 있는 모드를 보여주는 도면이다. 장치(100)를 음성 인식의 관점에서 볼 때, 3가지의 모드를 가진다. 별도의 음성이 인식되지 않아 음성의 입력을 대기하는 일반 모드(STATE_N), 기동어가 입력되어 명령어를 입력받는 명령어 입력 모드(STATE_C), 그리고 기동어인지 명확하게 확인되지 않아 기동어가 재차 입력되기를 대기하는 기동어 검증 모드(STATE_R)를 포함하는 것을 일 실시예로 한다.

일반 모드(STATE_N)에서 음성이 입력되면(S31) 기동어인지 확인하고 그 결과(기동어 판단 결과)에 따라 명령어 입력모드(STATE_C)로 진입하는 과정(S32), 기동어 검증 모드(STATE_R)로 진입하는 과정(S33) 또는 기동어가 아닌 것으로 확인되어 일반 모드(STATE_N)로 복귀하는 과정(S34)로 구성된다.

기동어 판단 결과 기동어로 확인되면 중앙제어부(150)는 장치를 명령어 입력 모드로 전환하여 명령어를 입력받도록 할 수 있으며, 이 과정에서 사용자에게 명령어 입력 모드로 진입하였음을 알리기 위해 장치(100)가 "말씀하세요~"라는 음성을 출력할 수 있다.

명령어 입력 모드(STATE_C)에서 명령어 입력이 되면 명령어를 수행한 후 일반 모드(STATE_N)로 진입하고, 일정 시간 내에 명령어가 입력되지 않으면 다시 일반 모드(STATE_N)로 진입한다(S35).

기동어 검증 모드(STATE_R) 역시 기동어가 재차 입력될 경우 명령어 입력 모드(STATE_C)로 진입하고(S36), 일정 시간 내에 명령어가 입력되지 않거나 이후 입력되는 음성이 기동어가 아닌 경우 다시 일반 모드(STATE_N)로 진입한다(S37). 기동어 검증 모드(STATE_R)로 진입하면서 장치(100)는 음성 입력부(110)의 민감도를 증가시고 소음을 줄여서 기동어 입력 가능성을 높일 수 있다.

기동어 검증 모드(STATE_R)은 중앙제어부(150)가 기동어를 판단한 결과가 기동어 모호성인 것으로 판단된 경우, 장치에서 발생하는 소음을 줄이도록 중앙제어부(150)가 장치기능제어부(130)를 제어할 수 있다. 또한, 주변의 장치들 역시 소음을 줄이도록 제어할 수 있다.

도 2 및 도 3에서 살펴본 내용을 정리하면 다음과 같다. 사용자가 음성 입력을 하면 음성 입력부(110)가 이를 중앙제어부(150)에게 제공한다. 중앙제어부(150)는 기동어 데이터베이스부(160)에 저장된 음향 모델과의 유사도를 측정하고 유사도로 산출되는 스코어가 기동어 메트릭과 비교하여 기동어라는 조건을 만족할 경우 기동어로 확인하고 명령어 입력 모드로 진입한다.

반면, 기동어가 아닌 것으로 리젝(reject) 되었으나 그 유사도의 범위가 미리 설정된 범위 내에 있거나, 혹은 사용자가 주변에 있는 것으로 사용자 확인부(120)가 사용자가 존재하는지 확인할 수 있다. 또는 유사도의 범위와 함께 사용자 확인을 진행할 수 있다.

사용자 확인 결과, 예를 들어 카메라나 PIR센서 또는 주변 기기들이 사용자에 의해 제어되는 등으로 인해 사용자가 장치의 주변에 있는 것으로 확인한 경우 특정 시간 동안 타이머를 설정하고 민감도 파라미터를 일시적으로 높이며 동작 중인 기기 또는 주변 기기의 소음을 감소시킬 수 있다. 타이머가 종료되기 전 음성 데이터가 음성 입력부(110)에 다시 들어오면, 높아진 민감도와 줄어든 소음으로 인해 유사 단어까지 기동어로 더 잘 인식되게 되며, 인식이 되면 민감도와 기기 동작을 복원하여 일반적인 음성 인식의 상태로 변경한다. 또한, 타이머가 종료될 경우에도 민감도와 기기 동작을 복원하여 과도한 민감도로 인한 명령어나 기동어 오인식을 방지하고 운행 중이었으나 소음을 줄이기 위해 잠시 중단 혹은 소음 제거 모드였던 기기 및 주변 기기들도 지속하여 동작하도록 제어한다.

또한, 중앙제어부(150)는 기동어의 인식 정확도를 높이기 위해 음성인식 장치(100)에서 기동어 민감도 설정을 조절할 수 있다. 민감도를 조절하는 것은 인식 성능과 오진입(기동어를 발화하지 않았는데도, 기동어가 발화 된 것으로 인식되는 현상) 성능의 트레이드 오프(Trade off) 관계를 조절한다. 예를 들어, 민감도를 너무 높일 경우 기동어 인식율은 좋아지지만 오진입율도 같이 올라가게 되고, 민감도를 너무 낮출 경우 오진입율도 낮아지지만 인식율도 같이 낮아진다.

즉 최적의 설정은 사용자의 사용환경에 맞추어야 한다. 그러나 제품 출하 시에는 사용자의 사용 환경을 확인할 수 없으므로, 기동어 인식의 민감도를 중간 레벨로 설정한다.

그리고 본 발명의 실시예를 적용할 경우, 오진입 성능 및 인식 성능을 비교하여 인공지능에 기반하여 자동으로 기동어 인식의 민감도를 조절한다. 중앙제어부(150)가 민감도를 직접 자동으로 조절할 수 있으므로, 별도의 서비스 기사 방문을 통한 민감도 조절이나 서비스 콜 상담 가이드를 통한 민감도 조절에 따른 번거로움을 방지할 수 있다.

이하, 사용자의 음성 명령에서 기동어 인식의 정확도를 높이기 위해 기동어 메트릭을 조절하는 과정에 대해 살펴본다.

도 4는 본 발명의 일 실시예에 의한 기동어 메트릭과 음성 명령에 대한 스코어를 비교하여 기동어 인식 여부를 판단하는 도면이다.

501a, 501b, 501c, 510d는 사용자가 입력한 음성과 기준 데이터를 비교하여 산출된 스코어가 가질 수 있는 값의 범위이다. 기준 데이터는 기동어로 판단하기 위한 데이터이다. 메트릭(Metric)은 스코어를 판단하기 위한 기준으로, 민감도에 대응한다.

511, 512, 513, 514에서 각각 중간의 점선은 초기에 설정되는 기동어 메트릭의 기준점이다.

사용자가 입력한 음성의 스코어(Score)가 511과 같은 경우, 기동어 메트릭(Metric) 보다 높으므로 이 경우 입력된 음성은 기동어로 인식된다. 반면 512의 경우 스코어가 기동어 메트릭 보다 낮으므로 이 경우 입력된 음성은 기동어로 인식되지 않는다.

이 기동어 인식의 문턱값(Threshold)을 일 실시예로 하는 기동어 메트릭을 조절할 수 있다. 즉, 기동어 메트릭은 입력된 음성과 기준 데이터 간의 비교 결과인 스코어와 비교가능하도록 설정된 문턱값(Threshold)을 가진다. 그리고 중앙제어부(150)는 기동어 메트릭의 문턱값을 변화시켜 기동어 메트릭의 민감도를 조절한다.

예를 들어, 중앙제어부(150)는 513과 같이 메트릭의 높이를 높여서 민감도를 낮출 수 있다. 즉, 스코어가 기동어로 인식될 수 있는 문턱값을 513과 같이 높이면, 기동어 인식에 있어 좀 더 높은 스코어를 필요로 한다.

반대로, 중앙제어부(150)는 514와 같이 메트릭의 높이를 낮추어서 민감도를 높일 수 있다. 즉, 스코어가 기동어로 인식될 수 있는 문턱값(Threshold)을 514와 같이 낮추면 기동어 인식에 있어 더 낮은 스코어를 가진 음성도 기동어로 인식될 수 있다.

기동어 메트릭을 조절한 결과, 문턱값(Threshold)이 낮을 경우(민감도가 높을 경우), 실제 기동어 발화가 아닌 유사한 발음이라 기준 데이터와 비교한 스코어가 높지 않은 경우라도, 문턱값을 넘을 수 있다. 이 경우, 명령어 모드(자연어 인식 모드)로 잘못 진입할 수 있다.

반면, 기동어 메트릭을 조절한 결과, 문턱값(Threshold)이 높을 경우(민감도가 낮을 경우), 사용자가 제대로 기동어를 발화했는데도 불구하고 기동어 인식이 되지 않을 가능성이 있다.

따라서, 사용자의 실생활 환경이나 발화 특성에 따라서는 중간으로 설정된 기동어 메트릭이 기동어 인식의 정확도를 낮출 수 있으므로, 중앙제어부(150)는 기동어 메트릭을 환경에 적응적으로 조절하여 기동어 인식이 이루어지도록 한다.

도 5는 본 발명의 일 실시예에 의한 기동어 메트릭의 민감도를 낮추도록 조절하는 과정을 보여준다.

501e, 501f는 사용자가 입력한 음성과 기준 데이터를 비교하여 산출된 스코어가 가질 수 있는 값의 범위이다. 515a에서 사용자가 입력한 음성의 스코어가 기동어 메트릭(Metric) 보다 높은 위치에 배치됨을 확인할 수 있다.

이는 기동어 메트릭이 기동어 인식의 문턱값을 낮게 설정한 결과, 높은 민감도를 가지는 상황이다. 따라서, 중앙제어부(150)는 문턱값을 변화시켜 기동어 메트릭의 민감도를 조절한다. 보다 상세히, 515b와 같이, 문턱값을 감지된 음성의 스코어에 근접하게, 혹은 감지된 음성의 스코어의 평균 지점에 혹은 감지된 음성의 스코어의 최다 발생 지점에 맞추어 변화시킨다.

그 결과, 기동어 메트릭은 민감도가 낮아져서 기동어를 오인식하여 오진입하는 상황을 막을 수 있다.

중앙제어부(150)가 기동어 메트릭을 변경하기 위한 판단 조건으로, 자연어 인식에 실패한 횟수나 반복, 혹은 빈도를 사용할 수 있다. 즉, 기동어 인식은 성공하였으나 자연어 인식에는 실패한 경우에는 실제 사용자가 발화한 상황이 아닌 주변 소음에 의한 오진입일 가능성이 높다.

따라서, 중앙제어부(150)는 기동어 인식을 성공한 후 자연어 인식에 실패하는 경우가 자주 발생하면, 고객 사용 환경에서 민감도가 너무 높아서 오진입이 발생한 경우로 판단한다.

또한, 중앙제어부(150)는 기동어 인식 성공 후 자연어 인식 실패 발생 횟수나 빈도가 유의미하게 발생하여 민감도가 너무 높다고 판단 될 경우, 오진입 스코어 패턴을 확인하여 기동어 메트릭을 조절한다. 예를 들어 중앙제어부(150)는 기동어 메트릭의 문턱값을 자동으로 조절하여 민감도를 낮출 수 잇다.

이때 변경될 문턱값의 값의 선정은 기동어 인식 성공과 자연어 인식 실패 건들의 스코어 값들 분포를 통해서 산출한다. 분포를 통한 산출 방법은 사용 환경이나 어떤 사용자의 편의에 초점을 맞추느냐에 따라 달라질 수 있다. 중앙제어부(150)는 스코어 값들에 대하여, i) 평균을 통한 산출, ii) 중간값을 통한 산출, iii) 최상값을 통한 산출, iv) 최저값을 통한 산출, v) 식스 시그마(Six Sigma) 적 기법을 통해 평균과 분산을 고려해 스코어 샘플들을 가장 잘 대표할 수 있는 값을 산출하는 방안 등을 적용할 수 있다.

도 5를 정리하면 다음과 같다. 기동어 메트릭과 스코어의 차이가 과인식 마진에 포함되고, 과인식 마진에 해당하는 횟수가 증가하면, 중앙제어부(150)는 기동어 메트릭의 민감도를 낮춘다.

예를 들어, 기동어 메트릭의 문턱값이 53이고, 과인식 마진이 73 이상인 경우를 가정한다. 73 이상의 스코어는 기동어 메트릭과 차이가 큰 경우이다. 따라서, 기동어 메트릭의 문턱값을 기준으로 과인식 마진에 해당하는 기동어 인식 스코어가 입력되면, 중앙제어부(150)는 중앙제어부(150)는 기동어 메트릭의 문턱값을 높여서 기동어 메트릭의 민감도를 낮춘다.

특히, 제1시점에서 마진에 해당하는 스코어의 음성이 입력된 후, 제2시점까지 음성이 입력되지 않은 경우, 이는 제1시점에서 인식된 스코어의 음성이 기동어가 아닐 가능성이 높다. 이러한 상황이 반복되면, 중앙제어부(150)는 제1시점 및 제2시점의 시간적 차이에 따라 마진의 스코어에 맞추어 기동어 메트릭의 민감도를 조절한다.

도 6은 본 발명의 일 실시예에 의한 기동어 메트릭의 민감도를 높이도록 조절하는 과정을 보여준다.

도 6은 기동어 메트릭과 스코어의 차이가 미리 설정된 오인식 마진에 포함되고, 마진에 스코어가 포함되는 횟수가 증가하면, 중앙제어부(150)가 기동어 메트릭의 민감도를 높이는 과정을 보여준다.

설정된 기동어 메트릭의 문턱값이 높은 상황에서, 중앙제어부(150)는 기동어 인식의 민감도가 낮은 상황에서 이를 자동으로 조절할 수 있다.

501h, 501i, 501j는 사용자가 입력한 음성과 기준 데이터를 비교하여 산출된 스코어가 가질 수 있는 값의 범위이다. 517a에 제시된 바와 같이, 중앙제어부(150)는 기동어 메트릭을 기준으로 기동어로 인식되지는 않으나, 기동어에 근사한 발음이라고 판단할 수 있는 마진(M)(오인식 마진)을 설정한다. 즉, 중앙제어부(150)는 기동어 메트릭의 문턱값을 기준으로 아래쪽에 기동어와 유사한 발음이 입력된 것으로 판단할 수 있는 오인식 마진을 설정한다. 이 마진은 기동어 메트릭의 문턱값 아래의 범위로, 상대적인 마진을 정의하거나 미리 설정된 크기의 마진을 정의할 수 있다.

만약, 이 마진 내에 스코어가 가끔 들어올 경우 중앙제어부(150)는 기동어가 아닌, 기동어와 비슷한 소리가 입력됐다고 판단할 수 있다. 기동어와 비슷한 소리란, 이 소리가 입력된 후 후속하여 자연어가 입력되지 않는 경우를 일 실시예로 한다.

이 마진 내에 유의미한 빈도로 스코어들이 들어올 경우, 중앙제어부(150)는 기동어 민감도가 사용자 환경에서 낮다고 판단할 수 있다. 중앙제어부(150)에 의해 마진(M)이 설정되면, 517b에 제시된 바와 같이, 중앙제어부(150)는 마진 내에 유의미한 빈도의 스코어 발화가 발생하는지를 확인한다.

유의미한 빈도의 스코어 발화란, 제1시점에서 오인식 마진에 해당하는 스코어의 음성이 입력된 후, 제2시점에서 기동어 메트릭을 만족시키는 스코어의 음성이 입력되는 경우를 가정한다. 중앙제어부(150)는 제1시점 및 제2시점의 시간적 차이에 따라 마진의 스코어에 맞추어 기동어 메트릭의 민감도를 조절할 수 있다.

예를 들어, 기동어 메트릭의 문턱값이 53이고, 오인식 마진이 43~52인 경우를 가정한다. 여기서 제1시점에서 47의 스코어를 가지는 음성이 입력된 후, 제2시점에서 55의 스코어를 가지는 음성이 입력되면, 앞서 제1시점에서의 47 인 스코어의 음성 역시 기동어일 가능성이 높다. 이 경우 중앙제어부(150)는 기동어 메트릭의 문턱값을 조절한다.

보다 상세히, 유의미한 빈도의 스코어 발화란, 기동어 메트릭을 기준으로 문턱값 보다 낮은 스코어의 음성이 입력되었으나, 이후 사용자가 기동어를 재차 발화하는 경우, 또는 장치의 동작이 리모컨과 같이 직접적으로 제어되는 등 장치의 변화를 추동시키는 상황이 발생하는 경우 등을 의미한다. 전술한 예시들은 기동어 미진입 스코어 패턴을 구성한다.

중앙제어부(150)는 마진 내의 스코어들의 분포나 기동어 미진입 스코어 패턴 등을 통해서 기동어 메트릭을 조절한다. 예를 들어 중앙제어부(150)는 기동어 메트릭의 문턱값을 자동으로 조절하여 민감도를 높일 수 잇다. 중앙제어부(150)는 적정 문턱값의 산출을 통해 조절할 문턱값을 산출할 수 있다.

예를 들어, 517c와 같이 기동어 메트릭의 문턱값을 자동으로 낮춰 민감도를 높일 수 있다. 이때 변경될 문턱값의 선정은 마진 내 스코어 값들 분포를 통해서 산출한다.

분포를 통한 산출 방법은 사용자 환경이나 사용자 편의에 초점을 맞추어 산출할 수 있다. 중앙제어부(150)는 스코어 값들에 대하여, i) 평균을 통한 산출, ii) 중간값을 통한 산출, iii) 최상값을 통한 산출, iv) 최저값을 통한 산출, v) 식스 시그마(Six Sigma) 적 기법을 통해 평균과 분산을 고려해 스코어 샘플들을 가장 잘 대표할 수 있는 값을 산출하는 방안 등을 적용할 수 있다.

도 6의 기동어 메트릭의 조절을 통해, 사용자가 입력한 음성의 스코어가 기동어를 발화한 것에 해당할 경우, 기동어 메트릭(Metric) 보다 높은 위치에 배치될 수 있도록 한다. 또한, 기동어 메트릭 보다 지나치게 높은 스코어로 기동어가 입력되면, 기동어 메트릭의 민감도를 낮추도록 도 5와 같이 기동어 메트릭을 조절할 수 있다.

도 5 및 도 6은 기동어 메트릭이 하나의 문턱값을 가지는 것으로 설명되었으나, 그 외에도 기동어 메트릭이 최소값 또는 최대값 중 어느 하나 이상을 가지도록 구현될 수 있다. 이 경우, 중앙제어부(150)는 최소값 또는 최대값을 변화시켜 기동어 메트릭의 민감도를 조절할 수 있다.

한편, 기동어 메트릭을 조절함에 있어서 정확도를 높이기 위해 사용자가 주변에 있는지를 확인할 수 있다. 이에 대해 보다 상세히 살펴본다.

도 7 및 도 8은 본 발명의 일 실시예에 의한 사용자 확인부가 카메라 센서를 포함하는 장치의 동작 과정을 보여주는 도면이다. 사용자 확인부는 카메라 센서 외에도 PIR 센서를 이용할 수도 있다. 도 7의 100a는 에어컨을 일 실시예로 한다. 사용자 확인부(120a)는 카메라 센서를 포함한다.

도 7와 같이 구성된 경우, 중앙제어부(150)는 사용자 확인부(120b)인 카메라 센서를 제어하여 찍힌 대상이 발화를 하는 것으로 영상 인식 되나, 기동어 인식이 실제 성공하지 않을 경우가 유의미한 수준(빈도, 횟수 등)으로 발생할 경우를 확인한다. 이 경우, 기동어 메트릭의 민감도가 너무 낮아, 실제로는 고객이 음성 명령을 내렸는데, 인식이 안 되는 경우일 가능성이 높다.

따라서, 중앙제어부(150)는 이러한 기동어 미진입 패턴이 반복될 경우 도 6에 도시한 바와 같이, 기동어 인식을 위한 문턱값을 낮춰서 민감도를 높여 인식 성능을 개선할 수 있다. 중앙제어부(150)는 일정 수준의 문턱값을 낮춘 후, 유사한 대상이 발화하는 영상 인식이 되는 경우에 기동어 인식이 되는지를 확인하여, 기동어 메트릭의 민감도를 높일지, 현 상태를 유지할 지 결정 할 수 있다.

상기에서 소개한 3가지 민감도 조절 방법을 복합적으로 적용하여, 동적으로 사용자 환경에 맞게 최적의 민감도 설정이 되도록 한다.

도 8은 카메라를 통해서 찍힌 사용자가 발화를 하는 것으로 영상인식되는 경우에 기동어 메트릭을 조절하는 과정을 보여주는 도면이다.

사용자가 음성으로 "엘지 히센"을 입력한다(S41). 입력된 명령어에 대해 중앙제어부(150)는 기동어 인식을 수행하고 유사도를 측정한다(S42).

S41에서 입력된 음성은 주변 잡음에 의해서 혹은 사용자의 언어 습관 혹은 발음 등으로 인해 "엘지 히센"으로 확인될 수 있다. 혹은 기동어 데이터베이스부(160)에 저장된 음성 모델과 비교한 결과 기동어를 구성하는 4개의 글자들 중에서 3개의 글자만 일치하는 것으로 확인된 경우에 중앙제어부(150)는 "엘지 히센"으로 확인하여 스코어가 문턱값 보다 낮음을 확인한다(S43).

그리고, 이 스코어가 문턱값과 일정한 마진 이내인 경우에, 이는 미진입 패턴일 수 있다. 따라서 정확도를 높이기 위해 중앙제어부(150)는 카메라 센서(120a)로 주변을 확인한다(S44). 확인 후, 사용자가 음성을 발화한 것으로 추정되는지 확인한다(S45). 만약, 사용자가 없거나, 사용자가 멀리 있어서 음성을 입력한 것으로 판단되지 않거나, 호은 사용자가 장치를 등지고 있는 등으로 판단된 경우에는 사용자 발화 상태로 추정하지 않는다.

그 결과 기동어가 발화된 것으로 판단하지 않고, 일반 모드(S53)로 진입하여 음성 인식 대기 상태를 유지한다(S54).

한편, S45에서 사용자가 장치 주변에 있거나, 또는 장치를 바라보며 음성 발화를 한 것으로 판단되면, 사용자 발화 상태로 추정한다. 그리고, 이에 기반하여 앞서 입력된 음성의 스코어와 문턱값을 비교하여 일정한 마진 내에 있는 경우(S46), 중앙제어부(150)는 이전의 미진입 패턴을 확인한다(S47).

즉, 도 6의 517b와 같이, 기동어 메트릭의 문턱값 보다 낮지만, 일정 범위(M) 내에서 스코어가 누적하여 기록된 미진입 패턴의 횟수, 빈도 또는 발생율 등을 확인한다. 그리고 확인 결과 미진입 패턴이 누적된 경우, 도 6의 517c와 같이 기동어 메트릭의 문턱값을 낮춘다(S48).

도 9는 본 발명의 일 실시예에 의한 기동어 메트릭을 단계적으로 민감도를 조절하는 과정을 보여주는 도면이다.

502a, 502b, 502c, 502d, 502e는 사용자가 입력한 음성과 기준 데이터를 비교하여 산출된 스코어가 가질 수 있는 값의 범위이다.

장치 내에 구성된 기동어 메트릭 또는 해당 장치에서 입력된 음성 데이터를 수신하여 기동어 여부를 판단하는 서버는 누적된 사용자의 발화 데이터에 기반하여 현재 설정되어 있는 기동어 메트릭의 민감도를 기준으로 발화 데이터의 스코어가 일정 기준 이상으로 판정될 경우 도 5 또는 도 6에서 살펴본 통계적인 방법 이외에도 단계적으로 기동어 메트릭의 민감도를 조절하여 민감도를 재설정을 할 수 있다.

예를 들어, 502a에서 502e에 이르기까지 단계적으로 기동어 메트릭을 조절할 수 있다. 미리 정의된 민감도 인식률을 조절하기 위해 일정한 문턱값의 증감 스텝(또는 증감 단위)만큼 상승시킬 수 있다. 예를 들어, 502a, 502b. 502c에서 일정한 기간동안 입력된 사용자의 발화 데이터의 스코어 위치에 기반하여 산출된 타겟 문턱값은 Th1으로 계산될 수 있다. 이 경우, 중앙제어부(150)는 기동어 메트릭을 바로 Th1의 수준으로 조절하지 않고, 미리 정한 크기 만큼 기동어 메트릭의 민감도를 조절한다. 502a는 조절전 기동어 메트릭을 h1 만큼 문턱값을 올리는 실시예를 보여준다. 502b는 조절전 기동어 메트릭을 h2 만큼 문턱값을 올리는 실시예를 보여준다. 502c는 조절전 기동어 메트릭을 h3 만큼 문턱값을 올리는 실시예를 보여준다.

여기서 h1, h2, h3는 동일한 값을 가질 수도 있고, h1 > h2 > h3의 관계를 가질 수도 있다. 중앙제어부(150)는 h1, h2, h3이 동일한 값으로 설정할 수 있는데, 이는 중앙제어부(150)가 기동어 메트릭의 문턱값 조절을 일정한 간격으로 조절하는 것을 의미한다.

한편, 중앙제어부(150)는 h1 > h2 > h3 을 만족하도록 기동어 메트릭의 문턱값 조절을 수행할 수 있다. 예를 들어, 타겟 문턱값(Th1)과 조절전 기동어 메트릭의 문턱값의 차이가 클 경우에는 사용자 환경에 적응적으로 h1 값을 크게 한 뒤, 이후 점진적으로 h2, h3 의 값을 줄여 나가면서 기동어 메트릭의 민감도를 조절할 수 있다.

마찬가지로 기동어 메트릭의 문턱값을 낮추는 과정에도 동일하게 적용할 수 있다.

502d 및 502e를 살펴보면, 타겟 문턱값(Th2)가 기동어 메트릭의 문턱값보다 낮은 값을 가진다. 이 경우, 중앙제어부(150)는 기동어 메트릭의 문턱값을 바로 Th2로 조절할 수도 있다. 그러나 502d와 같이 h4 만큼의 크기로 기동어 메트릭의 문턱값을 조절한 후, 이후 502e와 같이 h5 만큼의 크기로 기동어 메트릭의 문턱값을 조절할 수 있다.

도 9와 같이 일정 기간동안 사용자의 발화 데이터의 누적으로 타겟 문턱값이 변동한 경우, 중앙제어부(150)는 기동어 메트릭의 조절 범위를 바로 타겟 문턱값으로 설정하지 않고, 점진적으로 기동어 메트릭의 문턱값을 조절할 수 있다. 그 결과 중앙제어부(150)는 기동어 메트릭의 문턱값을 조절한 이후, 다시 누적되는 데이터에 기반하여 민감도 적절성 여부를 판단할 수 있다. 그리고 중앙제어부(150)는 민감도가 부적합할 경우 적정한 타겟 문턱값에 도달할 때까지 민감도 인식률을 조절하기 위해 기동어 메트릭의 문턱값을 계속 증가 또는 감소시키는 절차를 반복한다.

도 10은 본 발명의 일 실시예에 의한 타겟 문턱값과 기동어 메트릭의 문턱값의 차이를 조절하는 실시예이다.

502i에서 타겟 문턱값(Th3)이 현재 기동어 메트릭의 문턱값의 차이가 큰 경우(예를 들어 증감 단위인 h1 보다 3배 이상 큰 경우) 중앙제어부(150)는 한번에 여러 단계로 기동어 메트릭의 문턱값을 증감시킬 수 있다. 502i에서 4 단계로 기동어 메트릭의 문턱값을 증가시켜 민감도를 낮추었다.

또한, 민감도 인식률의 조절을 위해 기동어 메트릭의 문턱값을 다양한 단위로 증감할 수 있도록 정의할 수 있다. 도 10에 도시된 바와 같이 중앙제어부(150)는 초기에는 큰 크기로 기동어 메트릭의 문턱값을 조절하여 타겟 문턱값 부근에 빠르게 도달한다. 이후 중앙제어부(150)는 미세 조절 가능한 작은 크기의 단위로 타겟 문턱값에 근접하도록 크기로 기동어 메트릭의 문턱값을 조절할 수 있다.

도 9 및 10을 정리하면 다음과 같다. 중앙제어부(150)는 음성 입력부(110)에 누적하여 입력된 음성 데이터를 이용하여 타겟 문턱값을 산출한다. 그리고 타겟 문턱값에 근접하도록 기동어 메트릭의 문턱값을 조절한다.

조절 과정에서 중앙제어부(150)는 \기동어 메트릭의 문턱값을 미리 설정된 단위를 기준으로 조절할 수 있으며, 설정된 단위는 다양하게 설정될 수 있다.

전술한 실시예들을 적용할 경우, 사용자의 사용환경을 장치가 모니터링 하여 기동어 인식의 민감도를 자동으로 조절할 수 있다. 이를 위해 장치는 일정 기간 동안 인식 성능 패턴을 모니터링 하거나 또는 카메라를 통해서 인식된 패턴을 분석한다. 분석 결과, 중앙제어부(150)가 현재 장치에 설정되어 있는 기동어 메트릭의 민감도가 장치의 동작 환경에 적합하지 않음을 판단하면, 적절한 민감도에 맞추어 기동어 메트릭의 문턱값을 조절한다.

그 결과, 장치의 기동어 인식이 사용 환경에 따라 자동으로 조절되므로, 사용자가 장치의 기동어 민감도를 조절하기 위해 서비스 기사 방문을 신청하거나 및 서비스 콜을 요청하는 경우를 줄여 제품의 품질 지표를 향상할 수 있다. 뿐만 아니라, 사용자는 자신의 환경에 맞는 기동어 메트릭의 민감도가 자동으로 설정되므로, 인식률 체감 성능을 개선할 수 있다.

본 발명을 적용할 경우, 입력된 기동어가 원래의 저장된 음성 모델과 일치하지 않거나 최초로 설정된 기동어 메트릭과 차이가 발생하지만, 사용 패턴에 기반하여 기동어에 근접한 경우, 후속하여 발화되는 기동어의 인식률을 높이도록 기동어 메트릭을 조절할 수 있다. 특히 소음이 심한 환경에서는 사용자가 기동어 발화를 크고 정확히 하여도 인식이 불가한 경우가 많은데, 이를 대비하여 기동어 메트릭의 문턱값을 입력된 유사 기동어 음성 데이터에 근접하게 조절하여 기동어 인식률이 높일 수 있다. 또한, 이의 정확도를 높이기 위해 다양한 방식으로 사람이 주변에 존재하는지를 확인할 수 있다. 사람이 주변에 있는 경우에 기동어에 근접하지만 기동어로 인식되지 못하는 상황이 빈번할 경우, 중앙제어부(150)는 기동어 메트릭의 민감도를 조절한다.

또한, 기동어의 검증 모드 방식에 추가하여 기동어의 인식 과정에서 기동어 인식의 민감도를 점진적으로 혹은 환경에 적응적으로 변화시킬 수 있다.

따라서, 장치 별로 기본으로 설정된 민감도에서 기동어 인식률이 낮을 경우, 또는 과인식되는 상황이 발생할 경우, 기동어의 민감도를 자동으로 조절하여 사용자의 사용 편의를 높일 수 있다.

본 발명의 실시예를 구성하는 모든 구성 요소들이 하나로 결합되거나 결합되어 동작하는 것으로 설명되었다고 해서, 본 발명이 반드시 이러한 실시예에 한정되는 것은 아니며, 본 발명의 목적 범위 내에서 모든 구성 요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다. 또한, 그 모든 구성 요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있지만, 각 구성 요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수 개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 그 컴퓨터 프로그램을 구성하는 코드들 및 코드 세그먼트들은 본 발명의 기술 분야의 당업자에 의해 용이하게 추론될 수 있을 것이다. 이러한 컴퓨터 프로그램은 컴퓨터가 읽을 수 있는 저장매체(Computer Readable Media)에 저장되어 컴퓨터에 의하여 읽혀지고 실행됨으로써, 본 발명의 실시예를 구현할 수 있다. 컴퓨터 프로그램의 저장매체로서는 자기 기록매체, 광 기록매체, 반도체 기록소자를 포함하는 저장매체를 포함한다. 또한 본 발명의 실시예를 구현하는 컴퓨터 프로그램은 외부의 장치를 통하여 실시간으로 전송되는 프로그램 모듈을 포함한다.

이상에서는 본 발명의 실시예를 중심으로 설명하였지만, 통상의 기술자의 수준에서 다양한 변경이나 변형을 가할 수 있다. 따라서, 이러한 변경과 변형이 본 발명의 범위를 벗어나지 않는 한 본 발명의 범주 내에 포함되는 것으로 이해할 수 있을 것이다.

100: 장치 110: 음성입력부
120: 사용자 확인부 150: 중앙제어부
160: 기동어 데이터베이스부

Claims

음성 인식을 향상시키는 장치에 있어서,
사용자의 음성을 입력받는 음성 입력부;
기동어를 판별하는 기준데이터를 저장하는 기동어 데이터베이스부;
상기 입력된 음성과 상기 기준데이터를 비교한 스코어와 상기 스코어를 판단하는 기동어 메트릭을 이용하여 상기 음성이 상기 장치의 기능을 제어하는 명령어의 후속을 지시하는 기동어 판단 결과를 생성하며, 상기 음성 입력부에서 누적하여 입력된 음성에 기반하여 상기 기동어 메트릭의 민감도를 조절하는 중앙제어부; 및
상기 중앙제어부의 제어에 기반하여 장치의 기능을 제어하는 장치기능 제어부를 포함하며,
상기 기동어 메트릭과 상기 스코어의 차이가 미리 설정된 오인식 마진에 포함되고, 상기 마진에 스코어가 포함되는 횟수가 증가하면, 상기 중앙제어부는 상기 기동어 메트릭의 민감도를 높이고,
제1시점에서 상기 마진에 해당하는 스코어의 음성이 입력된 후,
제2시점에서 상기 기동어 메트릭을 만족시키는 스코어의 음성이 입력되면,
상기 중앙제어부는 상기 제1시점 및 상기 제2시점의 시간적 차이에 따라 상기 마진의 스코어에 맞추어 상기 기동어 메트릭의 민감도를 조절하는, 음성 인식을 향상시키는 장치.
제1항에 있어서,
상기 기동어 메트릭은 상기 스코어와 비교 가능하도록 설정된 문턱값을 가지며,
상기 중앙제어부는 상기 문턱값을 변화시켜 상기 기동어 메트릭의 민감도를 조절하며,
상기 문턱값의 변화를 외부로 소정의 음성이나 음향이나 이미지 또는 문자로 출력하는 제어 인터페이스부를 더 포함하는, 음성 인식을 향상시키는 장치.
제1항에 있어서,
상기 기동어 메트릭은 최소값 또는 최대값 중 어느 하나 이상을 가지며,
상기 중앙제어부는 상기 최소값 또는 상기 최대값을 변화시켜 상기 기동어 메트릭의 민감도를 조절하는, 음성 인식을 향상시키는 장치.
제1항에 있어서,
상기 중앙제어부는 상기 음성 입력부에 누적하여 입력된 음성 데이터를 이용하여 타겟 문턱값을 산출하여, 상기 타겟 문턱값에 근접하도록 상기 기동어 메트릭의 문턱값을 조절하는, 음성 인식을 향상시키는 장치.
제4항에 있어서,
상기 중앙제어부는 상기 기동어 메트릭의 문턱값을 미리 설정된 단위를 기준으로 조절하는, 음성 인식을 향상시키는 장치.
음성 인식을 향상시키는 장치에 있어서,
사용자의 음성을 입력받는 음성 입력부;
기동어를 판별하는 기준데이터를 저장하는 기동어 데이터베이스부;
상기 입력된 음성과 상기 기준데이터를 비교한 스코어와 상기 스코어를 판단하는 기동어 메트릭을 이용하여 상기 음성이 상기 장치의 기능을 제어하는 명령어의 후속을 지시하는 기동어 판단 결과를 생성하며, 상기 음성 입력부에서 누적하여 입력된 음성에 기반하여 상기 기동어 메트릭의 민감도를 조절하는 중앙제어부; 및
상기 중앙제어부의 제어에 기반하여 장치의 기능을 제어하는 장치기능 제어부를 포함하며,
상기 기동어 메트릭과 상기 스코어의 차이가 과인식 마진에 포함되고, 상기 마진에 해당하는 횟수가 증가하면, 상기 중앙제어부는 상기 기동어 메트릭의 민감도를 낮추며,
제1시점에서 상기 마진에 해당하는 스코어의 음성이 입력된 후, 제2시점까지 음성이 입력되지 않은 경우,
상기 중앙제어부는 상기 제1시점 및 상기 제2시점의 시간적 차이에 따라 상기 마진의 스코어에 맞추어 상기 기동어 메트릭의 민감도를 조절하는, 음성 인식을 향상시키는 장치.
제6항에 있어서,
상기 중앙제어부는 상기 음성 입력부에 누적하여 입력된 음성 데이터를 이용하여 타겟 문턱값을 산출하여, 상기 타겟 문턱값에 근접하도록 상기 기동어 메트릭의 문턱값을 조절하는, 음성 인식을 향상시키는 장치.
제7항에 있어서,
상기 중앙제어부는 상기 기동어 메트릭의 문턱값을 미리 설정된 단위를 기준으로 조절하는, 음성 인식을 향상시키는 장치.
음성 인식을 향상시키는 장치의 중앙제어부가 사용자의 음성을 입력받는 음성 입력부에서 입력된 음성과 기동어 데이터베이스부에 저장되어 기동어를 판별하는 기준데이터를 비교하여 스코어를 산출하는 단계;
상기 스코어에 대해 기동어 메트릭을 이용하여 상기 음성이 상기 장치의 기능을 제어하는 명령어의 후속을 지시하는 기동어 판단 결과를 생성하는 단계;
상기 음성 입력부에서 누적하여 입력된 음성에 기반하여 상기 기동어 메트릭의 민감도를 조절하는 단계; 및
장치기능제어부는 상기 중앙제어부의 제어에 기반하여 장치의 기능을 제어하는 단계를 포함하며,
상기 기동어 메트릭과 상기 스코어의 차이가 미리 설정된 오인식 마진에 포함되고, 상기 마진에 스코어가 포함되는 횟수가 증가하면, 상기 중앙제어부는 상기 기동어 메트릭의 민감도를 높이는 단계; 및
제1시점에서 상기 마진에 해당하는 스코어의 음성이 입력된 후,
제2시점에서 상기 기동어 메트릭을 만족시키는 스코어의 음성이 입력되면,
상기 중앙제어부는 상기 제1시점 및 상기 제2시점의 시간적 차이에 따라 상기 마진의 스코어에 맞추어 상기 기동어 메트릭의 민감도를 조절하는 단계를 더 포함하는, 장치의 음성 인식을 향상시키는 방법.
제9항에 있어서,
상기 기동어 메트릭은 상기 스코어와 비교 가능하도록 설정된 문턱값을 가지며,
상기 중앙제어부가 상기 문턱값을 변화시켜 상기 기동어 메트릭의 민감도를 조절하는 단계; 및
상기 문턱값의 변화를 제어 인터페이스부가 외부로 소정의 음성이나 음향이나 이미지 또는 문자로 출력하는 단계를 더 포함하는, 장치의 음성 인식을 향상시키는 방법.
제9항에 있어서,
상기 기동어 메트릭은 최소값 또는 최대값 중 어느 하나 이상을 가지며,
상기 중앙제어부는 상기 최소값 또는 상기 최대값을 변화시켜 상기 기동어 메트릭의 민감도를 조절하는 단계를 더 포함하는, 장치의 음성 인식을 향상시키는 방법.
제9항에 있어서,
상기 중앙제어부가 상기 음성 입력부에 누적하여 입력된 음성 데이터를 이용하여 타겟 문턱값을 산출하는 단계; 및
상기 중앙제어부가 상기 타겟 문턱값에 근접하도록 상기 기동어 메트릭의 문턱값을 조절하는 단계를 더 포함하는, 장치의 음성 인식을 향상시키는 방법.
음성 인식을 향상시키는 장치의 중앙제어부가 사용자의 음성을 입력받는 음성 입력부에서 입력된 음성과 기동어 데이터베이스부에 저장되어 기동어를 판별하는 기준데이터를 비교하여 스코어를 산출하는 단계;
상기 스코어에 대해 기동어 메트릭을 이용하여 상기 음성이 상기 장치의 기능을 제어하는 명령어의 후속을 지시하는 기동어 판단 결과를 생성하는 단계;
상기 음성 입력부에서 누적하여 입력된 음성에 기반하여 상기 기동어 메트릭의 민감도를 조절하는 단계; 및
장치기능제어부는 상기 중앙제어부의 제어에 기반하여 장치의 기능을 제어하는 단계를 포함하며,
상기 기동어 메트릭과 상기 스코어의 차이가 과인식 마진에 포함되고, 상기 마진에 해당하는 횟수가 증가하면, 상기 중앙제어부가 상기 기동어 메트릭의 민감도를 낮추는 단계; 및
제1시점에서 상기 마진에 해당하는 스코어의 음성이 입력된 후, 제2시점까지 음성이 입력되지 않은 경우,
상기 중앙제어부는 상기 제1시점 및 상기 제2시점의 시간적 차이에 따라 상기 마진의 스코어에 맞추어 상기 기동어 메트릭의 민감도를 조절하는 단계를 더 포함하는, 장치의 음성 인식을 향상시키는 방법.
제13항에 있어서,
상기 중앙제어부가 상기 음성 입력부에 누적하여 입력된 음성 데이터를 이용하여 타겟 문턱값을 산출하는 단계; 및
상기 중앙제어부가 상기 타겟 문턱값에 근접하도록 상기 기동어 메트릭의 문턱값을 조절하는 단계를 더 포함하는, 장치의 음성 인식을 향상시키는 방법.