KR20190065094A

KR20190065094A - 인공지능에 기반하여 음성 인식을 향상시키는 방법 및 이를 구현하는 장치

Info

Publication number: KR20190065094A
Application number: KR1020170164586A
Authority: KR
Inventors: 이재훈; 원재용; 이흥규
Original assignee: 엘지전자 주식회사
Priority date: 2017-12-01
Filing date: 2017-12-01
Publication date: 2019-06-11
Also published as: KR102044526B1

Abstract

본 발명은 음성 인식을 향상시키는 방법 및 이를 구현하는 장치에 관한 것으로, 본 발명의 일 실시예에 의한 음성 인식을 향상시키는 장치는 사용자의 음성을 입력받는 음성 입력부, 음성을 발화한 사용자를 확인하는 사용자 확인부, 입력된 음성 및 사용자 확인부의 확인 결과를 분석하여 음성이 장치 또는 장치에 인접한 피어 장치의 기능을 제어하는 명령어의 후속을 지시하는 기동어 판단 결과를 생성하는 중앙제어부, 및 중앙제어부의 제어에 기반하여 장치의 기능을 제어하는 장치기능 제어부를 포함한다.

Description

음성 인식을 향상시키는 방법 및 이를 구현하는 장치{METHOD OF INCREASING SPEECH RECOGNITION AND DEVICE OF IMPLEMENTING THEREOF}

본 발명은 음성 인식을 향상시키는 방법 및 이를 구현하는 장치에 관한 기술이다.

최근 가전 제품, 가전 기기 등을 제어함에 있어서 음성이 기반하여 제어하는 기술이 다양하게 제시되고 있다. 특히, 가전 제품이나 가전 기기 등의 장치들을 제어함에 있어서 인간의 음성을 빨리 인식시키기 위해서 음성 인식률을 높이도록 마이크를 다양하게 설치하거나 음성 인식 처리 모듈을 새로이 개발하는 등의 연구가 계속되고 있다.

한편, 음성 인식은 다양한 변수가 발생하는 상황에서 이루어져야 하므로, 이러한 변수에 기반하여 장치가 음성 인식의 정확도를 높이도록 대응하여 동작하는 것이 필요하다. 이에, 본 명세서에서는 댁내 혹은 건물의 일정한 사무 공간 등에 배치된 장치들이 정확하게 음성 인식을 수행할 수 있도록 하는 방안에 대해 제시한다.

본 명세서에서는 전술한 문제점을 해결하기 위한 것으로, 명령어를 입력받을 수 있도록 장치의 모드를 변경함에 있어서 주변의 소음이나 불확실한 음성 인식 상태를 조절하는 방법 및 장치를 제공하고자 한다.

본 명세서에서는 명령어 입력 모드의 진입을 위한 기동어 인식의 정확도를 높이기 위해 장치 혹은 인접한 장치들이 사람의 존재를 확인하는 방법 및 장치를 제공하고자 한다.

본 명세서는 명령어 입력 모드의 진입 과정에서 일시적으로 음성 인식의 민감도를 제어하여 기동어 인식의 정확도를 높이면서, 기동어 인식 후 다시 음성 인식의 민감도를 복원하여 일반 명령어의 인식률을 유지하는 방법 및 장치를 제공하고자 한다.

본 발명의 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있고, 본 발명의 실시예에 의해 보다 분명하게 이해될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.

본 발명의 일 실시예에 의한 음성 인식을 향상시키는 장치는 사용자의 음성을 입력받는 음성 입력부, 음성을 발화한 사용자를 확인하는 사용자 확인부, 입력된 음성 및 사용자 확인부의 확인 결과를 분석하여 음성이 장치 또는 장치에 인접한 피어 장치의 기능을 제어하는 명령어의 후속을 지시하는 기동어 판단 결과를 생성하는 중앙제어부, 및 중앙제어부의 제어에 기반하여 장치의 기능을 제어하는 장치기능 제어부를 포함한다.

본 발명의 다른 실시예에 의한 음성 인식을 향상시키는 방법은 음성 인식을 수행하는 장치에 있어서, 음성 입력부가 사용자의 음성을 입력받는 단계, 사용자 확인부가 음성을 발화한 사용자를 확인하는 단계; 및 중앙제어부가 입력된 음성 및 사용자 확인부의 확인 결과를 분석하여 음성이 장치 또는 장치에 인접한 피어 장치의 기능을 제어하는 명령어의 후속을 지시하는 기동어 판단 결과를 생성하는 단계를 포함한다.

본 발명을 적용할 경우, 입력된 기동어가 원래의 저장된 음성 모델과 일치하지 않지만, 민감도 파라미터에 근접한 경우, 장치를 기동어 검증 모드로 진입시켜 후속하여 발화되는 기동어의 인식률을 높일 수 있다.

또한, 본 발명을 적용할 경우 기동어 검증 모드에서 장치들이 소음을 줄이거나 기동어 인식률이 높도록 마이크 등을 제어하여 기동어의 인식률을 높일 수 있다.

또한, 본 발명을 적용할 경우, 인식된 음성이 기동어인지 불확실한 상태에서 사람이 주변에 있는 경우, 특정 시간 동안 민감도 파라미터를 높게 변경하고 기기 소음을 줄여, 한번 더 기동어가 발화될 경우 그 전 수준의 유사도를 가진다 하더라도 두 번째에는 기동어로 억셉트 될 수 있도록 한다.

본 발명의 효과는 전술한 효과에 한정되지 않으며, 본 발명의 당업자들은 본 발명의 구성에서 본 발명의 다양한 효과를 쉽게 도출할 수 있다.

도 1은 본 발명의 일 실시예에 의한 장치의 구성을 보여주는 도면이다.
도 2는 본 발명의 일 실시예에 의한 사용자의 음성이 입력될 경우의 장치의 동작 과정을 보여주는 도면이다.
도 3은 본 발명의 일 실시예에 의한 장치가 가질 수 있는 모드를 보여주는 도면이다.
도 4 및 도 5는 본 발명의 일 실시예에 의한 사용자 확인부가 PIR 센서를 포함하는 장치의 동작 과정을 보여주는 도면이다.
도 6 및 도 7은 본 발명의 다른 실시예에 의한 사용자 확인부가 카메라 센서를 포함하는 장치의 동작 과정을 보여주는 도면이다.
도 8은 본 발명의 일 실시예에 의한 피어 장치들과의 협업으로 기동어를 인식하는 과정을 보여주는 도면이다.
도 9는 본 발명의 일 실시예에 의한 기동어 검증 모드로 진입한 장치의 주변 장치들도 소음을 줄이거나 기동어 입력을 위한 작업을 수행하는 과정을 보여주는 도면이다.
도 10은 본 발명의 다른 실시예에 의한 다수의 장치들이 음성 인식을 수행하는 과정을 보여주는 도면이다.
도 11은 본 발명의 일 실시예에 의한 음성 인식만을 수행하여 인접한 다른 기기들을 명령어 입력 모드로 진입하도록 제어하는 과정을 보여주는 도면이다.

이하, 도면을 참조하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다.

본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 동일 또는 유사한 구성요소에 대해서는 동일한 참조 부호를 붙이도록 한다. 또한, 본 발명의 일부 실시예들을 예시적인 도면을 참조하여 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가질 수 있다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략할 수 있다.

본 발명의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질, 차례, 순서 또는 개수 등이 한정되지 않는다. 어떤 구성 요소가 다른 구성요소에 "연결", "결합" 또는 "접속"된다고 기재된 경우, 그 구성 요소는 그 다른 구성요소에 직접적으로 연결되거나 또는 접속될 수 있지만, 각 구성 요소 사이에 다른 구성 요소가 "개재"되거나, 각 구성 요소가 다른 구성 요소를 통해 "연결", "결합" 또는 "접속"될 수도 있다고 이해되어야 할 것이다.

또한, 본 발명을 구현함에 있어서 설명의 편의를 위하여 구성요소를 세분화하여 설명할 수 있으나, 이들 구성요소가 하나의 장치 또는 모듈 내에 구현될 수도 있고, 혹은 하나의 구성요소가 다수의 장치 또는 모듈들에 나뉘어져서 구현될 수도 있다.

본 명세서에서 특정한 공간 내에 배치되어 소정의 기능을 수행하는 가전 제품, 가전 기기 등을 장치라고 통칭한다. 장치들 중에서 음성 인식을 수행하는 장치들을 음성 인식 장치라고 지칭한다. 또한, 특정한 공간 내에 배치되는 둘 이상의 장치들은 통신 기능을 이용하여 제어 메시지를 송수신할 수 있다.

본 명세서에서 사용자가 음성으로 발화하여 장치들이 인식을 필요로 하는 메시지는 두 종류로 구분하여 음성 인식률을 높이고자 한다. 사용자가 발화하는 언어는 기동어와 명령어, 더미어 총 3가지로 구분된다. 기동어는 장치에게 명령어가 후속한다는 것을 알려주는 기능을 수행한다. 예를 들어 장치의 분류적 명칭("TV", "라디오", "냉장고")가 되거나 장치의 브랜드("휘센", "트롬"), 또는 감탄사나 대화체의 단어("이봐", "여기")가 될 수 있다.

명령어는 장치의 동작을 지시하는 것으로 장치의 분류에 따라 다양하게 구성될 수 있다. 일 실시예로, 명령어는 장치의 온/오프를 제어하거나 장치에 구성된 특정한 기능을 수행하는 것을 지시할 수 있다. 이는 장치 별로 다양하게 구성될 수 있다.

이하, 장치 내에 배치되어 사용자의 음성으로 발화한 기동어와 명령어를 구분하여 대응하는 구성 및 방법에 대해 보다 상세히 살펴본다.

도 1은 본 발명의 일 실시예에 의한 장치의 구성을 보여주는 도면이다. 장치(100)를 제어하는 중앙제어부(150)는 장치(100)를 구성하는 다양한 구성요소들을 제어한다. 장치(100)를 구성하는 구성요소들로 음성 입력부(110), 사용자 확인부(120), 장치기능제어부(130), 기동어 데이터베이스부(160), 명령어 데이터베이스부(170), 그리고 통신부(180)가 제시된다. 중앙제어부(150)는 기동어를 인식하거나 인식된 기동어를 승인하며 장치의 동작을 제어할 수 있다.

기동어의 승인이란, 중앙제어부(150)가 입력된 음성(제1음성)에 대해 기동어 판단 결과에 기반하여 기동어 검증 모드로 진입하도록 장치(100)를 제어한 뒤, 음성 입력부(110)가 기동어나 명령어를 포함하는 음성(제2음성)을 입력받으면, 앞서 기동어 검증 모드로 진입하기 전에 입력된 음성(제1음성)을 기동어 데이터베이스부(160)에 저장하여 추후 동일한 제1음성이 기동어로 인식될 수 있도록 한다. 이에 대해서 도 5 및 도 7의 S60a, S60b에서 상세히 살펴본다.

도 1에는 장치(100)가 특정한 기능을 제공하기 위한 구성요소들은 도시하지 않았다. 예를 들어 장치(100)가 TV인 경우 표시패널이나 전원부를 별도로 가질 수 있다. 장치(100)가 에어컨인 경우 공조 기능을 제공하는 구성요소들을 별도로 가질 수 있다. 장치(100)가 세탁기인 경우 세탁 기능을 제공하는 구성요소들을 별도로 가질 수 있다. 장치(100)가 냉장고인 경우, 냉장 및 냉동 기능을 제공하는 구성요소들을 별도로 가질 수 있다.

음성 입력부(110)는 사용자의 음성을 입력받는 모듈로, 마이크를 일 실시예로 한다. 특히, 음성 입력부(110)는 장치(100)에 일체로 배치될 수도 있고 장치 외부에 배치되어 입력된 음성을 파일로 전환하여 장치(100)에게 제공할 수 있다. 음성 입력부(110)는 마이크로부터 음성 데이터를 입력받아 이를 중앙제어부(150)가 음성을 인식할 수 있도록 중앙제어부(150)에게 전달한다.

사용자 확인부(120)는 음성을 발화한 사용자를 확인한다. 사용자를 확인한다는 것은, 사용자가 현재 장치가 배치된 공간 내에 있는지를 확인하는 것을 포함한다. 일 실시예로, 사용자 확인부(120)는 사람이 장치 주변에 위치하는지를 센싱하는 센서가 될 수 있다. 센서의 종류로 장치 주변을 촬영하는 카메라 센서, 혹은 사람이 존재하는지 여부를 감지하는 PIR(Passive Infra Sensor) 센서, 또는 사람의 움직임을 감지하는 움직임 감지 센서 등이 될 수 있다. 본 발명의 사용자 확인부(120)는 특정한 센서에 한정되지 않는다.

또한, 센싱이 아닌 다른 방식으로 사용자 확인부(120)는 사용자가 공간 내에 존재한다는 것을 확인할 수 있다. 일 실시예로, 장치(100)가 배치된 공간 내에서 장치(100) 또는 장치 주변에 배치된 또다른 장치인 피어 장치가 제어된 시간을 사용자 확인부(120)가 확인한다. 그리고, 미리 설정된 시간 내에 장치 또는 피어 장치가 제어된 경우, 사용자 확인부(120)는 사용자가 확인되었다는 정보를 중앙제어부(150)에게 제공할 수 있다. 그 결과 중앙제어부(150)는 사용자가 장치(100) 주변에 확인된 것으로 판단하여 음성 입력부(110)가 입력받은 음성을 판단할 수 있다.

장치기능 제어부(130)는 장치의 기능을 제어한다. 중앙제어부(150)에 의해 제어될 수 있다. 장치의 기능은 장치의 종류에 따라 다양할 수 있다. 장치기능 제어부(130)는 사용자가 리모컨을 이용하여 장치를 제어하는 신호를 수신하거나, 소정의 버튼 형식으로 장치에 배치되어 사용자가 기능을 제어할 수 있도록 인터페이스를 제공하는 제어 인터페이스부(135)를 더 포함한다. 제어 인터페이스부(135)는 외부로 소정의 음성이나 음향을 출력하는 스피커를 더 포함할 수 있다.

기동어 데이터베이스부(160)는 음성 입력부(110)가 입력받은 음성이 기동어인지를 확인하고 비교하는데 필요한 데이터를 저장한다. 또한, 기동어 데이터베이스부(160)는 기동어를 발화한 사용자의 음성의 특성에 따라 동일한 기동어의 상이한 음성이 기동어가 될 수 있도록 데이터를 저장할 수 있다. 명령어 데이터베이스부(170)는 음성 입력부(110)가 입력받은 음성이 명령어인지를 확인하고 비교하는데 필요한 데이터를 저장한다.

기동어 데이터베이스부(160) 또는 명령어 데이터베이스부(170)는 미리 설정된 기동어나 명령어의 음성 파일 데이터 혹은 음성 파일을 확인하는데 필요한 데이터 등을 저장할 수 있고 저장된 데이터는 업데이트 되거나 추가될 수 있다. 또한, 기동어 데이터베이스부(160)는 해당 장치 외에 인접한 다른 장치들의 기동어를 저장할 수 있다. 이는 도 10에서 설명한다.

도면에 미도시 되었으나, 중앙제어부(150)는 메모리 카드나 메모리 칩과 같은 별도의 저장 공간을 포함하여 연산 속도를 높이거나 일정 기간 동안 입력된 음성 파일을 임시로 저장할 수 있다.

정리하면 다음과 같다. 중앙제어부(150)는 음성 입력부(110)에서 입력된 음성 및 사용자 확인부(120)가 사용자의 존재를 확인한 결과를 분석하여 입력된 음성이 장치(100) 또는 장치(100)에 인접한 피어 장치의 기능을 제어하는 명령어의 후속을 지시하는 기동어 판단 결과를 생성한다. 기동어 판단 결과란 입력된 음성이 기동어에 얼마나 일치하는가에 대한 판단 결과이다.

기동어는 명령어의 후속을 지시하여 장치(100)를 명령어 입력 모드로 전환(모드 전환 또는 모드 진입)시키는데, 기동어 판단 결과에 따라 장치(100)는 명령어 입력 모드, 기동어 검증 모드, 또는 일반 모드 중 하나가 될 수 있다. 중앙제어부(150)가 음성 입력부(110)로부터 입력된 음성 데이터는 기동어 데이터베이스부(160)에 저장된 음향 모델과 비교하여 입력된 음성 데이터가 기동어에 해당하는지 여부를 판단할 수 있다.

장치(100)는 명령어 입력 모드로 전환(진입)하면, 사용자에게 명령어를 입력할 준비가 되었다는 것을 내장 스피커 등을 통해 출력하거나 LED 등을 점멸시킬 수 있다. 예를 들어 기동어 확인 후 장치(100)는 "말씀하세요~" 라는 음성을 출력하여 명령어를 수신할 수 있는 모드로 변환함을 사용자가 확인할 수 있도록 한다.

이외에도 LED 등을 점멸하여 일반 모드인 경우에는 꺼진 상태이지만 명령어 입력 모드에서 점멸하여 사용자가 현재 장치(100)의 상태가 명령어를 입력받을 수 있는 상태라는 것을 확인할 수 있도록 한다. 또한, 본 발명의 다른 실시예에 의하면, 기동어 검증 모드에서도 사용자에게 "네?" 와 같이 음성을 출력하여 기동어를 한번 더 입력할 것을 요청할 수 있다.

기동어 판단 결과는 수치적으로 생성될 수 있다. 기동어 데이터베이스부(160)에 저장된 데이터들과 비교하는데 여기에 저장된 기동어 데이터들과 일치하는 정도를 수치적으로 생성하고 이를 일정한 기준(예를 들어 80% 혹은 70%) 이상인 경우 기동어 판단 결과는 기동어 확인성으로 산출할 수 있다.

반면, 기동어 데이터베이스부(160)에 저장된 데이터들과 비교하는데 여기에 저장된 기동어 데이터들과 일치하는 수치가 낮은 경우(예를 들어 40% 또는 50% 이하 등) 기동어 판단 결과는 기동어 불일치성으로 산출할 수 있다.

그런데 기동어 확인성과 기동어 불일치성 사이의 결과에 대해 본 명세서에서는 기동어 모호성으로 판단하여 장치가 기동어 검증 모드로 진입하도록 중앙제어부(150)가 제어한다.

기동어 검증 모드란 음성 입력된 내용이 기동어로 확인되지는 않으나 어느 정도 유사성을 가지는 경우에 장치가 기동어를 보다 잘 입력받을 수 있는 상태로 전환하는 것을 의미한다. 즉, 중앙제어부(150)가 기동어 모호성으로 기동어 판단 결과를 생성한 경우, 미리 설정된 시간 내에 음성 입력도의 음성 인식 파라미터를 제어하여 음성 인식의 민감도를 높이거나, 장치에서 발생하는 소음을 줄이거나 혹은 인접한 피어 장치에서 발생하는 소음을 줄이는 등의 모드로 전환하는 것을 일 실시예로 한다.

중앙제어부(150)는 기 설정된 민감도 파라미터 기준에서 기동어와 유사하지만 기동어는 아닌 것으로 판단할 경우 사용자 확인부(120)가 사용자 존재를 확인하여 사용자가 확인되면 일시적으로 민감도 파라미터를 높이고 운행 중인 기기의 소음을 줄이도록 하여 기동어의 인식율을 높일 수 있다. 이 경우 민감도 파라미터는 일시적으로 높이도록 하는데, 이는 기동어 인식을 위해 민감도 파라미터를 일시적으로 올린 후, 이후 명령어를 입력받을 경우에는 민감도 파라미터를 복원하여 정확하게 명령어를 입력받을 수 있도록 한다.

예를 들어 기동어가 "시작하자" 인 반면 입력된 음성이 "시자카자" 인 경우 재차 발화되는 기동어의 인식을 위해 민감도 파라미터를 높일 경우 기동어 인식률을 높이고 "시자카자" 라는 음성이 기동어로 인식될 수 있다.

그러나, 명령어의 경우에는 정확하게 장치(100)에게 특정한 동작을 지시하는 것이므로, 기동어가 입력된 후 명령어를 입력받기 위해서는 민감도 파라미터를 복원하는 것을 일 실시예로 한다.

또한, 기동어로 "시작하자"의 음성 모델만 기동어 데이터베이스부(160)에 저장된 상태에서 민감도 파라미터를 높여서 "시자카자"라는 음성이 기동어로 계속 인식된다는 것이 중앙제어부(150)에서 확인될 경우(예를 들어 "시자카자"를 기동어로 인식한 후 명령어가 입력되는 등의 경우) 중앙제어부(150)는 "시자카자"라는 음성 모델을 새로운 기동어로 승인하고 이를 기동어 데이터베이스부(160)에 저장한다. 이에 대해 보다 상세히 살펴본다.

도 2는 본 발명의 일 실시예에 의한 사용자의 음성이 입력될 경우의 장치의 동작 과정을 보여주는 도면이다. 도 2는 두 개의 플로우로 구성되는데, 타이머를 부가하여 기동어 입력을 검증하는 기동어 검증 모드에 적합하게 음성 인식이 일정 기간동안 수행될 수 있도록 한다.

기동어나 명령어가 입력되지 않아 대기 상태인 일반 모드에서 시작할 수 있다. 먼저 사용자 음성이 음성 입력부(110)에 입력된다(S1). 입력된 음성에 대응하여 중앙제어부(150)는 입력된 음성이 기동어인지를 인식한다(S2). 기동어인지 여부는 입력된 음성과 기동어 데이터베이스부(160)에 저장된 정보(비교를 위한 음성 파일 혹은 단어 파일 등)를 비교하여 유사도를 측정하여 유사도에 따라 판단할 수 있다.

유사도를 측정한 결과 기동어로 확인되는 경우, 즉 기동어어와 기동어 데이터베이스부(160)에 저장된 정보를 비교한 결과 도출되는 음성 비교 결과가 미리 설정된 음성 매칭 상태를 지시하는 파라미터를 만족시킬 경우(S3), 중앙제어부(150)는 기동어가 발화된 것으로 확인하고, 명령어 입력 모드를 진행한다.

명령어 입력 모드는 맨 처음 일반 모드에서 시작할 경우에는 타이머가 실행되지 않는 상태이므로(S4), 장치(100)의 구성요소들은 명령어 인식을 수행하고(S6) 종료한다. 종료한다는 것은 장치(100)가 새로운 기동어 또는 명령어 입력을 위한 일반 모드로 진입하는 것을 의미한다. 만약 타이머가 실행된 상태인 경우(S4) 타이머를 해제하고 민감도를 복원하고 동작을 이전 상태로 복원한 후(S5) S6 단계를 진행한다.

한편, S3에서 파라미터를 만족시키지 못한 상태이지만 결과에서 도출되는 음성 비교 결과가 미리 설정된 음성 매칭 상태를 지시하는 파라미터에 근접하거나 유사한 경우(S8), 기동어 검증 모드로 진입할 것인지 여부를 판단할 수 있다. 이를 위해 사용자가 존재하는지를 사용자 확인부(120)가 확인한다(S9). 확인 결과 사용자가 존재하는 것으로 판단되면, 중앙제어부(150)는 기동어 검증 모드로 진입하여 타이머를 설정 또는 재설정한다(S10).

이는 기동어를 검증하기 위해 일정 기간(타이머에 설정된 시간)동안 음성 입력부(110)의 음성 인식 민감도를 증가시키고, 해당 장치 또는 주변의 장치들의 소음을 감소시키도록 제어한다(S20). 이를 위해 장치(100)의 통신부(180)는 주변 장치들에게 소음을 감소시킬 것을 지시하는 메시지를 전송할 수 있다.

S20은 중앙제어부(150)가 판단한 기동어 판단 결과가 기동어가 모호한 상태(기동어 모호성)인 경우, 이러한 기동어 판단 결과에 기반하여 중앙제어부(150)는 기동어 검증 모드로 진입한다. 기동어 모호성은 입력된 음성이 기동어로 억셉되지는 않으나 유사도가 미리 설정된 기준 이상인 경우를 의미한다.

예를 들어 음성의 파형이 80%이상 일치하여야 기동어로 인식하는 경우 60% 내지 79%로 일치하는 경우 기동어 모호성이라고 판단할 수 있다. 또는 기동어의 글자수 N 대비 동일한 것으로 인식된 글자의 수가 K개 이상인 경우 이를 모호성인 상태로 확인하고 기동어 검증 모드로 진입할 수 있다.

중앙제어부(150)는 미리 설정된 시간 내에 음성 입력부(110)의 음성 인식 파라미터를 제어하여 음성 인식의 민감도를 높이는 것을 일 실시예로 한다. 이 과정에서 음성 입력부(110)는 일반 모드인 경우보다 더 작은 소리를 센싱하여 입력받을 수 있다.

또한 S20은 중앙제어부(150)가 판단한 기동어 판단 결과가 기동어 모호성인 경우, 중앙제어부(150)는 기동어 검증 모드로 진입한다. 즉, 주변의 피어 장치들과 메시지를 송수신하는 통신부(180)가 피어 장치에서 발생하는 소음을 줄이도록 지시하는 메시지를 피어장치에게 송신할 수 있다. 이는 에어컨이 기동어를 확인하는 과정에서 인접하게 배치된 피어 장치인 TV의 소리를 줄이도록 메시지를 송신하는 것을 일 실시예로 한다.

S20 이후 사용자의 음성 입력을 대기하도록 다시 S1 단계로 진행한다. 이 과정에서 앞서 설정한 타이머는 지속적으로 동작하는 상태이다. 만약, 타이머가 종료한 경우(S12) 더 이상 기동어가 입력되지 않는 것으로 보고 기동어 검증 모드에서 일반 모드로 진입하기 위해 타이머를 해제하고 민감도를 복원하며 해당 장치 및 다른 기기들이 소음 감소를 위해 중단하였거나 소리 소거 상태였던 상태를 중단하고 이전 동작으로 복원할 수 있다(S13).

S20 이후 사용자로부터 다시 음성이 입력되면(S1) 앞서 민감도가 증가되고 기기 소음이 감소된 상태에서 중앙제어부(150)는 보다 정확하게 기동어를 인식할 수 있으며(S2) 이에 따라 동작할 수 있다.

만약, 재차 음성 입력 모드에서 기동어가 입력되지 않거나, 혹은 타이머로 설정된 시간이 지나기 전까지 별도의 음성이 입력되지 않을 경우 중앙제어부(150)는 타이머 종료와 함께 장치(100)를 일반 모드로 전환될 수 있다.

정리하면, 일반 모드는 기동어를 입력받을 수 있는 장치(100)의 모드를 의미한다. 이 과정에서 기동어가 충분히 인식된 경우 명령어 입력 모드로 장치(100)의 상태가 진입하지만, 기동어가 불완전하게 인식된 경우, 기동어 검증 모드 상태로 장치(100)가 진입하여 기동어 인식을 위해 일정한 시간 동안 기동어 입력을 위해 장치 또는 주변 장치의 소음을 차단할 수 있다.

도 3은 본 발명의 일 실시예에 의한 장치가 가질 수 있는 모드를 보여주는 도면이다. 장치(100)를 음성 인식의 관점에서 볼 때, 3가지의 모드를 가진다. 별도의 음성이 인식되지 않아 음성의 입력을 대기하는 일반 모드(STATE_N), 기동어가 입력되어 명령어를 입력받는 명령어 입력 모드(STATE_C), 그리고 기동어인지 명확하게 확인되지 않아 기동어가 재차 입력되기를 대기하는 기동어 검증 모드(STATE_R)를 포함하는 것을 일 실시예로 한다.

일반 모드(STATE_N)에서 음성이 입력되면(S31) 기동어인지 확인하고 그 결과(기동어 판단 결과)에 따라 명령어 입력모드(STATE_C)로 진입하는 과정(S32), 기동어 검증 모드(STATE_R)로 진입하는 과정(S33) 또는 기동어가 아닌 것으로 확인되어 일반 모드(STATE_N)로 복귀하는 과정(S34)로 구성된다.

기동어 판단 결과 기동어로 확인되면 중앙제어부(150)는 장치를 명령어 입력 모드로 전환하여 명령어를 입력받도록 할 수 있으며, 이 과정에서 사용자에게 명령어 입력 모드로 진입하였음을 알리기 위해 장치(100)가 "말씀하세요~"라는 음성을 출력할 수 있다.

명령어 입력 모드(STATE_C)에서 명령어 입력이 되면 명령어를 수행한 후 일반 모드(STATE_N)로 진입하고, 일정 시간 내에 명령어가 입력되지 않으면 다시 일반 모드(STATE_N)로 진입한다(S35).

기동어 검증 모드(STATE_R) 역시 기동어가 재차 입력될 경우 명령어 입력 모드(STATE_C)로 진입하고(S36), 일정 시간 내에 명령어가 입력되지 않거나 이후 입력되는 음성이 기동어가 아닌 경우 다시 일반 모드(STATE_N)로 진입한다(S37). 기동어 검증 모드(STATE_R)로 진입하면서 장치(100)는 음성 입력부(110)의 민감도를 증가시고 소음을 줄여서 기동어 입력 가능성을 높일 수 있다.

기동어 검증 모드(STATE_R)은 중앙제어부(150)가 기동어를 판단한 결과가 기동어 모호성인 것으로 판단된 경우, 장치에서 발생하는 소음을 줄이도록 중앙제어부(150)가 장치기능제어부(130)를 제어할 수 있다. 또한, 주변의 장치들 역시 소음을 줄이도록 제어할 수 있다.

도 2 및 도 3에서 살펴본 내용을 정리하면 다음과 같다. 사용자가 음성 입력을 하면 음성 입력부(110)가 이를 중앙제어부(150)에게 제공한다. 중앙제어부(150)는 기동어 데이터베이스부(160)에 저장된 음향 모델과의 유사도를 측정하고 설정된 민감도 파라미터를 만족할 경우 기동어로 확인하고 명령어 입력 모드로 진입한다.

반면, 기동어가 아닌 것으로 리젝(reject) 되었으나 그 유사도의 범위가 미리 설정된 범위 내에 있거나, 혹은 사용자가 주변에 있는 것으로 사용자 확인부(120)가 사용자가 존재하는지 확인할 수 있다. 또는 유사도의 범위와 함께 사용자 확인을 진행할 수 있다.

사용자 확인 결과, 예를 들어 카메라나 PIR센서 또는 주변 기기들이 사용자에 의해 제어되는 등으로 인해 사용자가 장치의 주변에 있는 것으로 확인한 경우 특정 시간 동안 타이머를 설정하고 민감도 파라미터를 높이며 동작 중인 기기 또는 주변 기기의 소음을 감소시킨다. 타이머가 종료되기 전 음성 데이터가 음성 입력부(110)에 다시 들어오면, 높아진 민감도와 줄어든 소음으로 인해 유사 단어까지 기동어로 더 잘 인식되게 되며, 인식이 되면 민감도와 기기 동작을 복원하여 일반적인 음성 인식의 상태로 변경한다. 또한, 타이머가 종료될 경우에도 민감도와 기기 동작을 복원하여 과도한 민감도로 인한 명령어나 기동어 오인식을 방지하고 운행 중이었으나 소음을 줄이기 위해 잠시 중단 혹은 소음 제거 모드였던 기기 및 주변 기기들도 지속하여 동작하도록 제어한다.

도 4 및 도 5는 본 발명의 일 실시예에 의한 사용자 확인부가 PIR 센서를 포함하는 장치의 동작 과정을 보여주는 도면이다. 도 4의 100a는 세탁기를 일 실시예로 한다. 사용자 확인부(120a)는 PIR 센서를 포함한다.

도 4와 같이 구성된 경우, 도 5와 같은 과정에 기반하여 세탁기(100a)가 기동어에 대응하여 동작할 수 있다. 세탁기(100a)의 구성은 도 1에서 살펴본 구성요소를 포함할 수 있다.

도 5의 S41a과 같이 사용자가 세탁기(100a)를 동작시키기 위한 기동어로 "엘지 트롬"이라고 발화한다. 세탁기(100a)의 중앙제어부(150)는 마이크 등과 같은 음성 입력부(110)를 통해 입력된 음성 데이터가 기동어인지를 인식하여 유사도를 측정한다(S42). 유사도를 측정한 결과 음성을 인식함에 있어 설정된 민감도 파라미터의 수준에서는 리젝되었으나 기동어에 근접한 정도로 측정될 수 있다(S43a).

예를 들어, 주변 잡음에 의해서 혹은 사용자의 언어 습관 혹은 발음 등으로 인해 "엘지 드롬"으로 확인될 수 있다. 혹은 기동어 데이터베이스부(160)에 저장된 음성 모델과 비교한 결과 기동어를 구성하는 4개의 글자들 중에서 3개의 글자만 일치하는 것으로 확인된 경우에 중앙제어부(150)는 기동어를 억셉트(accept) 또는 리젝(reject) 중 어느 하나로 판단하기에 앞서, 사용자가 주변에 존재하는지 확인할 수 있다.

즉, 사용자확인부(120a), 즉 PIR 센서는 주변을 확인하여 사람이 주변에 있는 것을 확인한다(S44a). 그리고 확인 결과 세탁기(100a) 주변에 사람이 있는 경우(S45), 중앙제어부(150)는 일정한 시간 동안 타이머를 재설정하고(S46), 민감도 파라미터를 높게 변경하고, 세탁기(100a)의 소음을 감소시킨다(S47a).

민감도 파리미터를 높게 변경한다는 것은 보다 작은 소리를 입력받을 수 있도록 하는 것이다. 세탁기(100a)에 설정된 민감도 파라미터는 장치에 적합하게 설정되었지만, 기동어를 추가적으로 입력받기 위해 일시적으로 민감도 파라미터를 높게 변경하여 짧은 시간 내에 기동어가 입력될 경우 이를 잘 인식할 수 있도록 한다.

민감도 파라미터를 높게 변경하면 오인식률도 높아질 수 있으므로, 본 명세서에서는 타이머를 (재)설정하여(S46) 일정한 시간 내에만 민감도 파라미터가 높게 유지되도록 한다. S45에서 사람이 없는 것으로 확인된 경우 일반 모드로 진입하고(S53), 새로운 음성이 인식되도록 대기한다(S54).

또한, 중앙제어부(150)는 세탁기(100a)가 동작중인 경우에는 장치기능제어부(130)를 제어하여 세탁기(100a)가 일시 정지하도록 한다. 물론 중앙제어부(150)는 세탁기(100a)가 동작 중이지 않을 경우에는 소음을 줄이는 단계를 생략할 수 있다. 또는 중앙제어부(150)는 세탁기(100a)가 소음 발생이 크지 않는 동작을 수행 중인 경우에도 소음을 줄이는 단계를 생략할 수 있다.

이는 기동어 검증 모드로 세탁기(100a)가 진입한 것을 의미한다. 이 과정에서 세탁기(100a)는 사용자에게 기동어를 재입력할 것을 요청하도록 "다시 말해주세요" 혹은 "네?" 라는 음성 파일을 출력할 수도 있다. S44a에서 사람이 확인되지 않을 경우 기동어가 입력되지 않은 것으로 판단하고 일반 모드로 진입한다.

이후 다시 사용자가 다시 "엘지 트롬" 혹은 이와 유사하게 판단될 수 있는 단어를 발화한다(S48a). 이는 사용자가 앞서 기동어를 발화하였으나 기기가 명령어를 입력받는 모드로 전환되었음을 통지하지 않은 상태이므로, 사용자가 기동어를 재발화하는 단계를 포함한다. 이때, 사용자가 재발화한 음성 데이터가 처음의 음성 데이터와 유사한 수준으로 측정되더라도, 일시적으로 높여둔 민감도와 비교하기 때문에 기동어로 억셉트(accept)될 확률이 높아진다.

즉, 민감도가 증가된 상태이므로 입력된 음성은 S42 보다 기동어로 인식될 가능성이 높아지며 이에 따라 기동어로 인식한다(S49). 기동어로 인식한 결과 중앙제어부(150)는 타이머를 종료시키고, 이전의 민감도로 복원한 후(S50), 명령어를 입력받을 수 있는 명령어 입력 모드로 진입한다(S51).

중앙제어부(150)는 명령어 입력 모드로의 진입을 사용자에게 알리기 위해 "말씀하세요~" 라는 음성 파일을 스피커로 출력할 수 있다. 명령어의 인식률을 높이기 위해 명령어가 입력된 후 기기 동작을 복원할 수 있다(S52a). 물론, 민감도로 복원하면서 동시에 기기 동작을 복원할 수도 있다.

S52a 단계를 S51 전에 하는 경우의 일 실시예로는 소음을 감소시킨 세탁기(100a)의 동작이 소음이 크지 않는 동작(예를 들어 입수하는 동작이거나 불리는 동작 등인 경우)에 S51 전에 S52a 단계를 수행할 수 있다. 반면, 중앙제어부(150)는 소음이 큰 탈수와 같은 동작에 대해 명령어 입력 모드 이후 명령어가 입력된 후에 동작을 복원하도록 제어할 수 있다.

또한 S47a 이후에 더 이상 기동어가 입력되지 않는 경우 일정한 시간이 지난 후(타이머가 종료할 경우) 일반 모드로 진입할 수 있다.

한편 S52a 이후 앞서 S41a에서 입력된 기동어를 기동어 데이터베이스부(160)에 저장하여 추후 "엘지 드롬"으로 인식될 경우에도 기동어로 인식될 수 있도록 하여 사용자의 편의성을 높일 수 있다. 또는, 기동어를 기동어 데이터베이스부(160)의 기동어로 바로 저장하는 대신, 기동어 후보로 저장하여 기동어 후보가 지속적으로 인식될 경우에 기동어 데이터베이스부(160)에 저장할 수 있다. 즉, 중앙제어부(150)는 S41a 또는 S41b에서 입력받은 제1음성에 대한 기동어 판단 결과에 기반하여 기동어 검증 모드로 진입한 후에, 이후 음성 입력부가 입력받은 제2음성(S48a, S48b 참조)이 기동어 또는 명령어로 확인된 경우, 제1음성을 기동어 데이터베이스부(160)에 저장한다. 즉, 중앙제어부(150)는 기동어 검증 모드로 진입하기 전에 입력된 제1음성을 기동어 데이터베이스부(160)에 저장하여 추후 제1음성과 동일한 음성이 입력되면 이를 기동어로 인식할 수 있도록 한다.

도 4 및 도 5는 세탁기(100a)를 일 실시예로 하지만 그 외에 다양한 가전 제품에 적용할 수 있다. 또한 사용자 확인부의 일 실시예로 인체(동작)감지센서를 제시하여 기동어 입력에서의 임계 조절 상황을 제시하고 있으나 그 외에 다양한 센서를 사용할 수도 있다.

도 6 및 도 7은 본 발명의 다른 실시예에 의한 사용자 확인부가 카메라 센서를 포함하는 장치의 동작 과정을 보여주는 도면이다. 도 6의 100b는 에어컨을 일 실시예로 한다. 사용자 확인부(120b)는 카메라 센서를 포함한다.

도 6와 같이 구성된 경우, 도 7와 같은 과정에 기반하여 에어컨(100b)이 기동어에 대응하여 동작할 수 있다. 에어컨(100b)의 구성은 도 1에서 살펴본 구성요소를 포함할 수 있다. 도 7은 도 5의 과정과 유사하므로, 차이가 있는 부분에 대해서 주로 살펴본다. 도 5와 차이있는 부분은 S41b, S43b, S44b, S47b, S52b, S60b 등이 된다.

도 7의 S41b과 같이 사용자가 에이컨(100b)를 동작시키기 위한 기동어로 "엘지 휘센"이라고 발화한다. 에이컨(100b)의 중앙제어부(150)는 마이크 등과 같은 음성 입력부(110)를 통해 입력된 음성 데이터가 기동어인지를 인식하여 유사도를 측정한다(S42). 유사도를 측정한 결과 음성을 인식함에 있어 설정된 민감도 파라미터의 수준에서는 리젝되었으나 기동어에 근접한 정도로 측정될 수 있다(S43b).

예를 들어, 주변 잡음에 의해서 혹은 사용자의 언어 습관 혹은 발음 등으로 인해 "엘지 히센"으로 확인될 수 있다. 혹은 기동어 데이터베이스부(160)에 저장된 음성 모델과 비교한 결과 기동어를 구성하는 4개의 글자들 중에서 3개의 글자만 일치하는 것으로 확인된 경우에 중앙제어부(150)는 기동어를 억셉트(accept) 또는 리젝(reject) 중 어느 하나로 판단하기에 앞서, 사용자가 주변에 존재하는지 확인할 수 있다.

즉, 사용자확인부(120b), 즉 카메라 센서는 주변을 확인하여 사람이 주변에 있는 것을 확인한다(S44b). 그리고 확인 결과 에이컨(100b) 주변에 사람이 있는 경우(S45), 중앙제어부(150)는 일정한 시간 동안 타이머를 재설정하고(S46), 민감도 파라미터를 높게 변경하고, 에이컨(100b)의 소음을 감소시킨다(S47).

민감도 파리미터를 높게 변경한다는 것은 보다 작은 소리를 입력받을 수 있도록 하는 것이다. 에이컨(100b)에 설정된 민감도 파라미터는 장치에 적합하게 설정되었지만, 기동어를 추가적으로 입력받기 위해 일시적으로 민감도 파라미터를 높게 변경하여 짧은 시간 내에 기동어가 입력될 경우 이를 잘 인식할 수 있도록 한다. 또한 앞서 카메라 센서를 이용하여 사용자의 위치를 확인하였으며, 중앙제어부(150)는 음성 입력부(110)의 마이크가 사용자의 위치를 향하도록 조절할 수도 있다. 한편, S45에서 사람이 없는 것으로 확인된 경우 S53 및 S54로 진행한다.

또한, 중앙제어부(150)는 에이컨(100b)이 동작중인 경우에는 장치기능제어부(130)를 제어하여 에이컨(100b)의 풍량을 줄이거나 간접풍으로 전환한다. 일 실시예로, 중앙제어부(150)는 장치(100b)의 풍량을 제어하여 기동어를 좀더 잘 입력받을 수 있도록 한다. 물론 중앙제어부(150)는 에이컨(100b)이 동작 중이지 않을 경우에는 소음을 줄이는 단계를 생략할 수 있다. 또는 중앙제어부(150)는 에이컨(100b)이 소음 발생이 크지 않는 동작을 수행 중인 경우에도 소음을 줄이는 단계를 생략할 수 있다.

이는 기동어 검증 모드로 에이컨(100b)이 진입한 것을 의미하며 도 5에서 살펴본 바와 같이 S48b 내지 S52b 단계를 진행한다. 이 과정에서 에이컨(100b)는 사용자에게 기동어를 재입력할 것을 요청하도록 "다시 말해주세요" 혹은 "네?" 라는 음성 파일을 출력할 수도 있으며 S44에서 사람이 확인되지 않을 경우 기동어가 입력되지 않은 것으로 판단하고 일반 모드로 진입한다.

이후 다시 사용자가 다시 "엘지 휘센" 혹은 이와 유사하게 판단될 수 있는 단어를 발화한다(S48b). 이는 사용자가 앞서 기동어를 발화하였으나 기기가 명령어를 입력받는 모드로 전환되었음을 통지하지 않은 상태이므로, 사용자가 기동어를 재발화하는 단계를 포함한다. 이때, 사용자가 재발화한 음성 데이터가 처음의 음성 데이터와 유사한 수준으로 측정되더라도, 일시적으로 높여둔 민감도와 비교하기 때문에 기동어로 억셉트될 확률이 높아진다.

즉, 민감도가 증가된 상태이므로 입력된 음성은 S42 보다 기동어로 인식될 가능성이 높아지며 이에 따라 기동어로 인식하고(S49) S50 내지 S52b 단계를 수행한다. S52b에서 앞서 줄였던 풍량을 복원하는 것을 포함한다. 에어컨(100b)의 풍량을 줄임으로써 상대적으로 SNR(Signal To Noise Ratio)가 더 좋아지므로 에어컨(100b)은 기동어를 잘 인식하게 된다.

한편 S52b 이후 앞서 S41b에서 입력된 기동어를 기동어 데이터베이스부(160)에 저장하여 추후 "엘지 히센"으로 인식될 경우에도 기동어로 인식될 수 있도록 하여 사용자의 편의성을 높일 수 있다. 또는, 기동어를 기동어 데이터베이스부(160)의 기동어로 바로 저장하는 대신, 기동어 후보로 저장하여 기동어 후보가 지속적으로 인식될 경우에 기동어 데이터베이스부(160)에 저장할 수 있다. 예를 들어 "엘지 히센"이 미리 설정된 횟수(예를 들어 5회) 이상 입력될 경우에 이를 기동어로 저장할 수 있다.

도 4 내지 도 7에서 기기 소음의 제어는 해당 기기가 운전 중일 경우 특정 시간 동안 약하게, 천천히 혹은 저소음 모드로 동작하거나 일시정지 등을 진행함으로 이뤄질 수 있다. 다양한 장치들은 각각의 장치들의 특성에 맞게 소음을 줄이는 동작을 수행할 수 있는데, 예를 들어 에어컨인 경우 바람을 약하게 하거나 바람 방향을 사용자가 없는 쪽으로 변경하여 음성 인식률을 높일 수 있다. 세탁기의 경우 일시정지 혹은 천천히 동작하도록 할 수 있다. 청소기의 경우 흡입력을 약하게 할 수 있다. 특히 로봇 청소기의 경우 이동을 중단하거나 이동 속도를 줄일 수 있다. 스마트허브와 같이 장치들을 제어하는 경우 볼륨을 감소시킬 수 있다.

또한, 기동어를 검증하기 위해 일시적으로 민감도 파라미터를 높이는 것은 인식률과 함께 오인식률도 함께 증가할 수 있으므로, 기동어 검증 모드는 타이머에 기반하여 짧은 시간 내에서만 유지되도록 하여 오인식률을 낮출 수 있다.

한편, 도 5 및 도 7의 S60a, S60b는 기동어를 새로이 추가하는 과정을 포함한다. 즉, S41a 및 S41b에서 입력된 음성은 기동어와 일치하지는 않는다. 그러나, 기동어 판단 결과에 기반하여 중앙제어부(150)는 기동어 검증 모드로 진입한 뒤, 음성 입력부가 이후 입력받은 음성(기동어 검증 모드에서 입력받은 음성)이 S48a 및 S48b와 같이 기동어인 경우, 중앙제어부(150)는 기동어 검증 모드로 진입을 유발시킨 음성(즉, S41a 및 S41b에서 입력된 음성)을 기동어 데이터베이스부(160)에 저장할 수 있다.

본 발명의 다른 실시예로 기동어 검증 모드에서 명령어가 입력될 경우, 사용자는 이미 기동어를 발화한 것으로 판단하여 명령어를 발화한 경우에 해당한다. 따라서, 명령어가 기동어 검증 모드에서 입력되어도 중앙제어부(150)는 기동어 검증 모드로 진입을 유발시킨 음성(즉, S41a 및 S41b에서 입력된 음성)을 기동어 데이터베이스부(160)에 저장할 수 있다.

도면에 미도시되었으나, 기동어 검증 모드 상태에서 사용자가 장치(100a, 100b)를 제어할 경우에, 즉 장치의 기능이 외부에서 제어된 경우, 사용자의 의도가 장치를 제어하는 것에 있었다는 것으로 확인하여 중앙제어부(150)는 기동어 검증 모드로 진입을 유발시킨 음성(즉, S41a 및 S41b에서 입력된 음성)을 기동어 데이터베이스부(160)에 저장할 수 있다.

도 8은 본 발명의 일 실시예에 의한 피어 장치들과의 협업으로 기동어를 인식하는 과정을 보여주는 도면이다. 본 발명의 일 실시예에 의할 경우, 장치가 기동어 검증 모드로 진입하는 과정에서 인접한 다른 피어 장치들을 이용하여 사용자가 주변에 존재하는지 여부를 확인할 수도 있고 다른 피어 장치들을 일시적으로 소음을 줄이도록 메시지를 송신할 수 있다. 보다 상세히 살펴본다.

음성 인식을 수행하는 장치(100)는 주변에 피어 장치들(100p, 100q)이 배치된다. 장치(100)의 음성 입력부(110)가 음성을 입력받고(S61), 음성을 인식한 결과 기동어 모호성 상태로 확인된다(S62). 앞서 설명한 것과 같이 기동어에 매칭되지는 않지만, 리젝하기에는 매칭율이 일정 기준보다 높은 경우를 포함하며, 기동어 중에서 일부에 대응하거나 유사한 발음으로 확인되는 경우를 포함한다.

기동어 모호성 상태인 경우, 도 4 내지 7의 방식과 같이 주변의 사용자를 확인할 수도 있다. 또한, 도 8과 같이 해당 장치(100) 및 주변의 피어 장치들(100p, 100q)이 사용자가 주변에 있는지 그리고, 사용자에 의해 제어된 히스토리를 확인하여 사용자가 존재하는지를 확인할 수 있다. 즉, 해당 장치(100) 및 주변의 피어 장치들(100p, 100q)이 짧은 시간 내에(예를 들어 1분 혹은 3분 등) 사용자에 의해 제어된 바가 있다면, 사용자가 여전히 주변에 있을 가능성이 있으므로, 이를 확인한다. 장치(100)는 해당 장치에서 사용자가 제어한 히스토리를 확인하고(S63), 인접한 피어 장치들(100p, 100q)에게 사용자 확인 요청 메시지를 전송한다(S64p, S64q).

제1피어장치(100p)는 카메라 센서 또는 PIR 센서를 이용하여 사용자 확인부에서 사용자가 주변에 있는지를 확인한다(S65p). 확인 결과 제1피어장치(100p)가 사용자를 센싱되면 센싱된 결과를 사용자 확인 결과 메시지로 전송한다(S66p). 물론 제1피어장치(100p)에 의해 사용자가 센싱되지 않은 경우 센싱되지 않은 결과를 사용자 확인 결과 메시지로 전송한다(S66p).

한편, 제2피어장치(100q)는 사용자가 제2피어장치(100q)를 제어한 히스토리를 확인한다(S65q). 예를 들어, 제2피어장치(100q)가 티비인 경우, 티비 볼륨을 올리거나 채널을 변경하는 등 사용자가 제2피어장치(100q)를 제어한 히스토리가 있는 경우, 제2피어장치(100q)는 주변에 사용자가 있는 것으로 확인하고 확인된 결과를 사용자 확인 결과 메시지지로 전송한다(S66q).

장치(100)는 S63, S66p, S66q 등의 결과를 조합하여 사용자가 주변에 있는 것으로 확인된 경우 기동어 검증 모드로 진입한다(S67).

도 8을 정리하면 다음과 같다. 장치(100)의 사용자 확인부는 장치(100)가 배치된 공간 내에서 장치가 제어되거나 혹은 피어 장치(100p, 100q)가 제어된 시간을 확인하여 미리 설정된 시간(예를 들어 1분 또는 3분 등) 내에 장치(100) 혹은 피어 장치(100p, 100q)가 제어된 경우에, 사용자가 주변에 있는 것으로 장치(100)가 확인할 수 있다. 그 결과 장치(100)의 중앙제어부(150)는 공간 내에 사용자가 확인된 것에 기반하여 기동어 판단 결과를 생성할 수 있다. 사용자가 있으며 기동어가 유사하게 입력된 경우, 장치(100)는 기동어 검증 모드로 진입할 수 있다.

도 9는 본 발명의 일 실시예에 의한 기동어 검증 모드로 진입한 장치의 주변 장치들도 소음을 줄이거나 기동어 입력을 위한 작업을 수행하는 과정을 보여주는 도면이다.

장치(100)가 기동어 검증 모드로 진입하면(S71), 인접한 피어 장치들(100p, 100q)에게 기동어 검증 모드 요청 메시지를 전송한다(S72p, S72q). 이는 인접한 피어 장치들(100p, 100q)도 소음을 줄이거나 동작을 중단하거나 혹은 음성 입력을 수행할 것을 요청하는 것을 포함한다. 그 결과 제1피어장치(100p)는 기기의 소음을 줄이거나 동작을 중단한다(S73p). 제2피어장치(100q)는 사용자가 발화하는 음성을 잘 입력받을 수 있도록 사용자 입력부의 민감도를 높인다(S73q).

그리고 제2피어장치(100q)는 입력된 음성 파일을 장치(100)에게 전송한다(S74). 이 경우 장치(100)는 기동어를 별도로 입력받을 수 있고 S74와 같이 인접한 제2피어장치(100q)가 입력받은 음성을 수신할 수 있다. 이들을 이용하여 장치(100)는 기동어를 확인한다(S75). 이후 기동어가 발화된 것을 확인한 후 장치(100)는 명령어 입력 모드로 진입한다(S76).

이 과정에서 인접한 피어 장치들(100p, 100q)에게 기동어 검증 모드 종료 메시지를 전송한다(S77p, S77q). S76과 메시지를 전송하는 시점(S77p, S77q)에는 시간적 간격을 둘 수 있는데, 명령어 입력 모드에서 명령어가 보다 정확하게 입력될 수 있도록 S73p 및 S73q를 짧은 시간 동안 유지하기 위함이다. 이후, 각각의 피어 장치들(100p, 100q)은 S73p 및 S73q를 복원하도록 소음 및 동작 복원(S78p) 및 사용자 입력부의 민감도를 복원(S78q)하는 절차를 수행할 수 있다.

도 10은 본 발명의 다른 실시예에 의한 다수의 장치들이 음성 인식을 수행하는 과정을 보여주는 도면이다.

제1장치(100a) 및 제2장치(100b)는 각각의 기동어에 대한 데이터베이스를 구축할 수 있다. 또한, 일 실시예로, 다른 장치에 대한 기동어 데이터베이스 역시 구축할 수 있다. 일 실시예로, 도 4의 경우 세탁기(100a)는 자신에 대한 기동어인 "엘지 트롬"를 기동어로 하고 있으나, 다른 장치인 도 5의 에어컨(100b)에 대한 기동어인 "엘지 휘센"도 함께 기동어로 저장할 수 있다. 그리고 다른 장치의 기동어가 입력되면, 입력된 기동어를 해당 장치로 전송할 수 있다.

제1장치(100a), 예를 들어 세탁기는 일반 모드 상태로 있다(S81). 마찬가지로 제2장치(100b), 예를 들어 에어컨도 일반 모드 상에 있다(S82). 이 상태에서 사용자가 제2장치(100b)의 주변에서 "엘지 트롬"으로 말하고 이는 제2장치(100b)에서 음성 입력된다(S83). 제2장치(100b)의 음성 입력부(110)가 입력받은 "엘지 트롬"은 제2장치(100b)의 중앙제어부(150)가 분석한 결과 제2장치(100b)의 기동어인 "엘지 휘센"과 상이한 것으로 확인하였다.

그러나 제2장치(100b)의 중앙제어부(150)는 제2장치(100b)에 저장된 제1장치(100a)의 기동어와 입력된 음성이 매칭된다는 것을 확인한다. 즉, 제2장치(100b)의 중앙제어부(150)는 음성 인식 결과 입력된 음성이 제1장치의 기동어로 확인하고(S84) 입력된 음성 파일을 제1장치(100a)에게 전송한다(S85). 물론 기동어 인식 결과를 S85에서 전송할 수 있다. 이후 제1장치(100a)는 송신된 음성 파일(혹은 기동어 인식 결과)에 기반하여 기동어로 확인하면(S86), 명령어 입력 모드로 전환한다(S87).

도 8 내지 도 10은 인접한 장치들과 협업으로 기동어를 인식하거나 혹은 기동어 검증 모드로 진입하는 과정을 살펴보았다. 본 발명의 일 실시예에 의하면, 사용자가 발화한 기동어의 음성데이터가 설정된 음성인식 민감도 파라미터 기준으로 기동어와 유사하지만 동일한 것으로 판단되지 않아 리젝될 경우, 해당 장치 혹은 인접한 장치들(피어 장치들)이 사용자가 있음을 확인하여 오인식은 방지하면서 인식률을 높일 수 있다. 사용자 확인 방식은 카메라 센서, PIR 센서를 이용할 수도 있고 사용자가 장치들을 제어한 히스토리를 이용할 수도 있다.

기동어와 유사한 음성데이터가 장치에 입력되면 사용자 확인을 수행한 후, 사람이 있는 경우 특정 시간 동안 해당 장치는 음성인식 민감도 파라미터를 높게 변경함으로써 유사 단어까지 기동어로 인식할 수 있도록 한다. 또한, 해당 장치 및 주변의 피어 장치들은 기기의 소음을 줄임으로써(천천히, 약하게, 저소음 모드 동작, 일시정지 등) SNR을 확보하여 기동어 재 발화시 음성인식률을 높인다.

만약, 사용자를 확인한 결과 감지된 사용자가 없는 경우 기존 값과 동작을 그대로 유지하고, 사용자가 있고 특정 시간 동안 인식률을 높이려 하였음에도 기동어를 감지하지 못할 경우 기존 값과 동작으로 복원하여 음성 인식에서의 오인식을 증가시키지 않는다.

도 11은 본 발명의 일 실시예에 의한 음성 인식만을 수행하여 인접한 다른 기기들을 명령어 입력 모드로 진입하도록 제어하는 과정을 보여주는 도면이다.

도 11은 허브 장치(300)가 일종의 명령어 인식 허브 역할을 하는 것을 일 실시예로 한다. 허브 장치(300)는 도 1의 구성 중에서 선택적으로 장치기능제어부(130)와 제어 인터페이스부(135)를 포함하지 않을 수 있다. 또한, 명령어 데이터베이스부(170)를 포함하지 않을 수 있다.

허브 장치(300)는 음성을 입력받고 음성 인식 결과 기동어가 모호한 것(기동어 모호성 상태)으로 판단한다(S90). 이는 허브 장치(300)가 제어하는 제1장치(100a)의 기동어 및 제2장치(100b)의 기동어와 모두 비교하여 산출된 결과이다. 기동어가 모호하게 인식되었으므로 허브 장치(300), 제1장치(100a), 제2장치(100b) 모두 사용자 확인을 진행한다(S91). 사람을 센싱하거나 혹은 제어 히스토리를 확인하여 사용자 확인을 진행하는 것에 대해 앞서 살펴본 바 있다.

S91 결과 사람이 있는 것으로 판단되면 허브 장치(300)는 기동어 검증 모드로 진입하며(S92) 제1장치(100a) 및 제2장치(100b)에게 기동어 검증 모드 요청 메시지를 전송한다(S93a, S93b). 이는 도 9의 S72p/S72q에서 살펴본 바와 같다. 이후 허브 장치(300), 제1장치(100a), 제2장치(100b) 모두 기동어 검증 모드로 진입하고(S94) 이 상태에서 새로이 음성이 입력되면 허브 장치(300)는 민감도 파라미터가 높아진 상태에서 입력된 기동어가 제1장치(100a)의 기동어라는 것을 확인한다(S95). 그리고, 허브 장치(300)는 기동어 검증 모드가 종료하였음을 통지한다. 즉, 허브 장치(300)는 제1장치(100a) 및 제2장치(100b)에게 기동어 검증 모드 종료 메시지를 전송하고(S96a, S96b) 각 장치들은 기동어 검증 모드를 종료한다(S97). 타이머를 종료시키거나 소음을 제거하거나 사용자 입력부의 민감도 파라미터를 복원하는 등의 작업을 수행함에 대해 앞서 도 9의 S78p, S78q에서 살펴보았다.

허브 장치(300)는 제1장치의 기동어가 확인되었으므로, 제1장치(100a)에게 명령어 입력 모드로 전환할 것을 지시하는 메시지를 전송한다(S98). 그 결과 제1장치는 명령어 입력 모드(S99)로 진입할 수 있다.

물론, 본 발명의 다른 실시예에 의하면, 명령어까지 입력받은 후, 허브 장치(300)가 제1장치(100a)에게 특정한 명령어에 대응하는 기능을 수행할 것을 지시하는 메시지를 전송할 수 있다. 이는 구현 방식에 따라 다양하게 구성될 수 있다.

본 발명을 적용할 경우, 입력된 기동어가 원래의 저장된 음성 모델과 일치하지 않지만, 민감도 파라미터에 근접한 경우, 후속하여 발화되는 기동어의 인식률을 높일 수 있다. 특히 소음이 심한 환경에서는 사용자가 기동어 발화를 크고 정확히 하여도 인식이 불가한 경우가 많은데, 이를 대비하여 장치들이 소음을 줄이거나 기동어 인식률이 높도록 마이크 등을 제어할 수 있다. 또한, 이의 정확도를 높이기 위해 다양한 방식으로 사람이 주변에 존재하는지를 확인할 수 있다. 사람이 주변에 있는 경우, 특정 시간 동안 민감도 파라미터를 높게 변경하고 기기 소음을 줄여, 한번 더 기동어가 발화될 경우 그 전 수준의 유사도를 가진다 하더라도 두 번째에는 억셉트 될 수 있도록 한다.

따라서, 도 3에서 살펴본 바와 같이 동일한 기동어라 하여도 일반 모드에서는 리젝되지만 기동어 검증 모드에서는 억셉트 될 수 있다. 그리고 기동어의 인식율은 일정한 시간 내에만 높이므로, 다른 명령어를 인식함에 있어서 오인식률이 증가하는 것을 방지할 수 있다.

또한, 기동어 검증 모드에서 장치나 주변의 소음을 방지하기 위해 장치들의 동작을 짧은 시간 동안 제어할 수 있다. 이는 음성 인식률을 높이면서 기기의 동작에 영향을 주지 않으므로 장치의 기동어 대응 가능성을 높인다. 특히, 기동어를 2차례 이상 발화할 경우 인식률을 높임으로써 사용자가 음성으로 장치를 쉽게 제어할 수 있도록 한다. 뿐만 아니라, 기동어 데이터베이스에 저장되지 않은 음성 파일이라도 일정 기간동안 기동어 검증 모드로 진입을 발생시킨 음성 데이터는 다시 기동어로 저장하여 다양한 발음 성향을 가진 사용자 편의성에 대응하여 기동어 데이터베이스를 구성할 수 있다.

본 발명의 실시예를 구성하는 모든 구성 요소들이 하나로 결합되거나 결합되어 동작하는 것으로 설명되었다고 해서, 본 발명이 반드시 이러한 실시예에 한정되는 것은 아니며, 본 발명의 목적 범위 내에서 모든 구성 요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다. 또한, 그 모든 구성 요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있지만, 각 구성 요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수 개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 그 컴퓨터 프로그램을 구성하는 코드들 및 코드 세그먼트들은 본 발명의 기술 분야의 당업자에 의해 용이하게 추론될 수 있을 것이다. 이러한 컴퓨터 프로그램은 컴퓨터가 읽을 수 있는 저장매체(Computer Readable Media)에 저장되어 컴퓨터에 의하여 읽혀지고 실행됨으로써, 본 발명의 실시예를 구현할 수 있다. 컴퓨터 프로그램의 저장매체로서는 자기 기록매체, 광 기록매체, 반도체 기록소자를 포함하는 저장매체를 포함한다. 또한 본 발명의 실시예를 구현하는 컴퓨터 프로그램은 외부의 장치를 통하여 실시간으로 전송되는 프로그램 모듈을 포함한다.

이상에서는 본 발명의 실시예를 중심으로 설명하였지만, 통상의 기술자의 수준에서 다양한 변경이나 변형을 가할 수 있다. 따라서, 이러한 변경과 변형이 본 발명의 범위를 벗어나지 않는 한 본 발명의 범주 내에 포함되는 것으로 이해할 수 있을 것이다.

100: 장치 110: 음성입력부
120: 사용자 확인부 150: 중앙제어부
160: 기동어 데이터베이스부

Claims

사용자의 음성을 입력받는 음성 입력부;
상기 음성을 발화한 사용자를 확인하는 사용자 확인부;
상기 입력된 음성 및 상기 사용자 확인부의 확인 결과를 분석하여 상기 음성이 상기 장치 또는 상기 장치에 인접한 피어 장치의 기능을 제어하는 명령어의 후속을 지시하는 기동어 판단 결과를 생성하는 중앙제어부; 및
상기 중앙제어부의 제어에 기반하여 장치의 기능을 제어하는 장치기능 제어부를 포함하는, 음성 인식을 향상시키는 장치.
제1항에 있어서,
상기 기동어 판단 결과에 기반하여 상기 중앙제어부는 기동어 검증 모드로 진입하며 상기 중앙제어부는 미리 설정된 시간 내에 상기 음성 입력부의 음성 인식 파라미터를 제어하여 음성 인식의 민감도를 높이는, 음성 인식을 향상시키는 장치.
제1항에 있어서,
상기 기동어 판단 결과에 기반하여 상기 중앙제어부는 기동어 검증 모드로 진입하며 상기 중앙제어부는 장치 기능 제어부를 제어하여 상기 장치에서 발생하는 소음을 줄이는, 음성 인식을 향상시키는 장치.
제1항에 있어서,
상기 장치와 상기 피어 장치 사이에 메시지를 송수신하는 통신부를 더 포함하며,
상기 기동어 판단 결과에 기반하여 상기 중앙제어부는 기동어 검증 모드로 진입하며, 상기 통신부는 상기 피어 장치에서 발생하는 소음을 줄이도록 지시하는 메시지를 상기 피어 장치에게 송신하는, 음성 인식을 향상시키는 장치.
제1항에 있어서,
상기 사용자 확인부는 사람이 상기 장치 주변에 위치하는지를 센싱하는 센서를 더 포함하는, 음성 인식을 향상시키는 장치.
제1항에 있어서,
상기 사용자 확인부는 상기 장치가 배치된 공간 내에서 상기 장치 또는 상기 피어 장치가 제어된 시간을 확인하여 미리 설정된 시간 내에 상기 장치 또는 상기 피어 장치가 제어된 경우
상기 중앙제어부는 상기 공간 내에 사용자가 확인된 것에 기반하여 상기 기동어 판단 결과를 생성하는, 음성 인식을 향상시키는 장치.
제1항에 있어서,
상기 기동어 판단 결과에 기반하여 상기 중앙제어부는 상기 장치를 명령어 입력 모드로 전환하는, 음성 인식을 향상시키는 장치.
제1항에 있어서,
기동어를 저장하는 기동어 데이터베이스부를 더 포함하며,
상기 중앙제어부는 입력받은 제1음성에 대한 기동어 판단 결과에 기반하여 기동어 검증 모드로 진입하며, 상기 음성 입력부가 이후 입력받은 제2음성이 기동어 또는 명령어인 경우, 상기 중앙제어부는 상기 기동어 검증 모드로 진입하기 전에 입력된 상기 제1음성을 상기 기동어 데이터베이스부에 저장하는, 음성 인식을 향상시키는 장치.
음성 인식을 수행하는 장치에 있어서,
음성 입력부가 사용자의 음성을 입력받는 단계;
사용자 확인부가 상기 음성을 발화한 사용자를 확인하는 단계; 및
중앙제어부가 상기 입력된 음성 및 상기 사용자 확인부의 확인 결과를 분석하여 상기 음성이 상기 장치 또는 상기 장치에 인접한 피어 장치의 기능을 제어하는 명령어의 후속을 지시하는 기동어 판단 결과를 생성하는 단계를 포함하는, 음성 인식을 향상시키는 방법.
제9항에 있어서,
상기 기동어 판단 결과에 기반하여 상기 중앙제어부는 기동어 검증 모드로 진입하도록 상기 장치를 제어하는 단계; 및
상기 중앙제어부가 미리 설정된 시간 내에 상기 음성 입력부의 음성 인식 파라미터를 제어하여 음성 인식의 민감도를 높이는 단계를 더 포함하는, 음성 인식을 향상시키는 방법.
제9항에 있어서,
상기 기동어 판단 결과에 기반하여 상기 중앙제어부는 상기 중앙제어부는 기동어 검증 모드로 진입하도록 상기 장치를 제어하는 단계; 및
상기 중앙제어부는 장치의 기능을 제어하는 장치 기능 제어부를 제어하여 상기 장치에서 발생하는 소음을 줄이는 단계를 더 포함하는, 음성 인식을 향상시키는 방법.
제9항에 있어서,
상기 장치는 상기 장치와 상기 피어 장치 사이에 메시지를 송수신하는 통신부를 더 포함하며,
상기 기동어 판단 결과에 기반하여 상기 중앙제어부는 상기 중앙제어부는 기동어 검증 모드로 진입하도록 상기 장치를 제어하는 단계; 및
상기 통신부는 상기 피어 장치에서 발생하는 소음을 줄이도록 지시하는 메시지를 상기 피어 장치에게 송신하는, 음성 인식을 향상시키는 방법.
제9항에 있어서,
상기 사용자 확인부는 센서를 이용하여 상기 장치 주변에 사람이 위치하는지를 센싱하는 단계를 더 포함하는, 음성 인식을 향상시키는 방법.
제9항에 있어서,
상기 사용자 확인부는 상기 장치가 배치된 공간 내에서 상기 장치 또는 상기 피어 장치가 제어된 시간을 확인하는 단계;
상기 중앙제어부는 상기 확인된 결과에 기반하여 미리 설정된 시간 내에 상기 장치 또는 상기 피어 장치가 제어된 것을 확인하는 단계; 및
상기 중앙제어부는 기동어 검증 모드로 진입하도록 상기 장치를 제어하는 단계를 포함하는, 음성 인식을 향상시키는 방법.
제9항에 있어서,
상기 기동어 판단 결과에 기반하여 상기 중앙제어부는 상기 장치를 명령어 입력 모드로 전환하는 단계를 포함하는, 음성 인식을 향상시키는 방법.
제9항에 있어서,
기동어를 저장하는 기동어 데이터베이스부를 더 포함하며,
상기 중앙제어부는 상기 음성 입력부가 입력받은 제1음성에 대한 상기 기동어 판단 결과에 기반하여 기동어 검증 모드로 진입하도록 상기 장치를 제어하는 단계;
상기 음성 입력부가 기동어 또는 명령어를 포함하는 음성을 입력받는 단계; 및
상기 중앙제어부는 상기 기동어 검증 모드로 진입하기 전에 입력된 상기 제1음성을 상기 기동어 데이터베이스부에 저장하는 단계를 더 포함하는, 음성 인식을 향상시키는 방법.