KR20190092333A

KR20190092333A - 음성 인식 디바이스와 통신하는 장치, 음성 인식 능력을 가진 장치 및 음성 인식 능력을 가진 장치를 제어하는 방법

Info

Publication number: KR20190092333A
Application number: KR1020190087783A
Authority: KR
Inventors: 맹지찬
Original assignee: 엘지전자 주식회사
Priority date: 2019-07-19
Filing date: 2019-07-19
Publication date: 2019-08-07
Also published as: US20200043494A1; US11189284B2

Abstract

본 발명은 5G 통신 네트워크를 통해 구성된 사물 인터넷 환경에서 동작할 수 있는 음성 인식 디바이스와 통신하는 장치, 음성 인식 능력을 가진 장치 및 음성 인식 능력을 가진 장치를 제어하는 방법에 관한 것이다. 본 발명의 실시예에 따른 음성 인식 음성 인식 능력을 가진 장치는, 일면이 개방되고 내부에 물품을 수용하기 위한 컨테이너, 컨테이너를 개폐하기 위한 도어, 도어의 개폐 상태를 감지하기 위한 센서, 외부 음성을 수신하기 위한 마이크, 마이크로부터 수신된 음성 명령을 인식하기 위한 음성 인식 모듈, 음성 인식 모듈의 활성화 상태 및 비활성화 상태를 제어하는 제어부를 포함할 수 있고, 제어부는, 머신 러닝을 통해 학습된 심층 신경망 모델을 이용하여 음성 인식 모듈이 활성화되어야할지에 대해 예측할 수 있다.

Description

음성 인식 디바이스와 통신하는 장치, 음성 인식 능력을 가진 장치 및 음성 인식 능력을 가진 장치를 제어하는 방법{APPARATUS FOR COMMUNICATING WITH VOICE RECOGNITION DEVICE, APPARATUS WITH VOICE RECOGNITION CAPABILITY AND CONTROLLING METHOD THEREOF}

본 발명은 음성 인식 디바이스와 통신하는 장치, 음성 인식 능력을 가진 장치 및 음성 인식 능력을 가진 장치를 제어하는 방법에 관한 것이다. 보다 상세하게는, 장치에 대한 사용자의 조작에 따라 기동어를 생략하고 음성 인식 기능이 활성화되어 사용자와 상호작용을 보다 용이하게 할 수 있는 장치 및 방법에 관한 것이다.

기술이 발달함에 따라 많은 분야에서 음성 인식 기술을 적용한 각종 서비스들이 소개되고 있다. 음성 인식 기술은 사람이 발성하는 음성을 기계 장치가 이해하여 사람이 원하는 서비스를 제공할 수 있도록 하는 기술로서, 사용자와 기계 장치의 상호작용을 보다 원활하게 할 수 있다.

이러한 음성 인식 기술이 적용되는 음성 인식 장치는 특정 명령어가 입력될 때에만 음성 인식이 시작된다. 이는 음성 명령 인식을 위한 기능이 상시적으로 활성화되는 경우 과도하게 전력 및 프로세싱 리소스가 소비되는 것을 방지하고, 사용자가 의도하지 않은 음성 인식이 일어나는 것을 방지하기 위한 것이다.

음성 인식을 시작하는 특정 명령어를 기동어(wake-up word)라 하며, 기동어 인식과 관련된 구성은 연산량이 많지 않으므로 음성 인식 장치에서 항상 작동한다. 즉, 기동어는 음성 인식 장치에 미리 등록된 단어로 사용자의 발화 음성에 기동어가 포함되어 있을 경우, 음성 인식 장치는 기동어를 인식하여 음성 신호를 연동된 서버로 전송하거나 지정된 동작을 수행하도록 할 수 있다.

미국등록특허공보 제9,779,732호는 "음성 인식 방법 및 그 전자 장치"에 관한 발명으로, 전자장치를 이용하여 사용자의 음성 신호를 인식하고 사용자의 음성 신호가 사전에 설정된 키워드(기동어)인 경우 음성 인식 동작을 수행하는 기술을 개시하고 있다.

그러나, 상술된 문헌의 기술에 따르면 사용자가 기동어를 발화해야만 기계 장치의 음성 인식이 시작되기 때문에, 자연스러운 대화와는 달리, 사용자가 특정한 기동어를 발화하지 않으면 사용자가 기계 장치에 대해 음성 명령을 의도한 경우에도 기계 장치와 상호작용이 불가능하게 된다.

또한, 미국등록특허공보 제9,275,637호는 "웨이크 단어 평가"에 관한 발명으로, 복수의 기동어 후보 단어들을 수신하여 전체적인 스코어가 가장 높은 단어를 기동어로 선택하는 기술에 대해 개시하고 있다.

상술된 문헌의 기술은 좀 더 쉽게 기동어를 선택하고 사용할 수 있도록 하나, 여전히 기계 장치와 소통하기 위해 기동어가 필수적이라는 한계가 있다.

이에 따라, 기동어를 사용하지 않더라도 사용자가 기계 장치와 음성으로 상호작용하기 원하는 경우를 이해하고 기계 장치의 음성 인식 기능이 활성화되도록 할 수 있는 기술에 대한 필요가 있다.

한편, 전술한 선행기술은 발명자가 본 발명의 도출을 위해 보유하고 있었거나, 본 발명의 도출 과정에서 습득한 기술 정보로서, 반드시 본 발명의 출원 전에 일반 공중에게 공개된 공지기술이라 할 수는 없다.

본 발명의 실시예는 기동어를 사용하지 않고서는 사용자가 기계 장치와 음성으로 상호작용하기 원하는 경우에도 기계 장치의 음성 인식 기능이 활성화되지 않아 기계의 음성 인식이 불가능하다는 문제점을 해결하고자 한다.

또한, 본 발명의 실시예는 기동어 없이 기계 장치가 사용자의 음성 명령을 인식하기 위해서는 음성 인식 기능이 항상 활성화되어 있어야 하고, 이러한 경우 전력 소비 및 프로세싱 리소스 소비가 과도하게 된다는 문제점을 해결하고자 한다.

또한, 본 발명의 실시예는 음성 인식 기능이 항상 활성화되어 있는 경우 사용자가 기계 장치와의 음성 상호작용을 의도하지 않는 경우에도 사용자의 음성에 반응할 수 있다는 문제점을 해결하고자 한다.

또한, 본 발명의 실시예는, 별도의 기동어를 발화하지 않는 경우, 사용자가 기계 장치와의 상호작용을 원하는 경우에도 기계 장치가 자연스럽게 사용자의 의도를 파악하여 음성 인식 기능을 활성화하지 못한다는 문제점을 해결하고자 한다.

본 발명의 일 실시예에 따른 음성 인식 능력을 가진 디바이스와 통신하는 장치, 음성 인식 능력을 가진 장치 및 이를 제어하는 방법은, 사용자가 장치를 조작하는 경우, 사용자가 장치와 음성 명령을 발화할 수 있는 상황을 인식하여 음성 인식 기능을 활성화하여 사용자의 음성 명령을 기동어 없이도 인식할 수 있도록 할 수 있다.

본 발명의 일 실시예에 따른 음성 인식 능력을 가진 장치는 평소에는 음성 인식 기능이 비활성화되어 있다가 사용자가 도어가 있는 장치의 도어를 열거나 닫는 행위를 하면 사용자가 음성 명령을 할 수 있는 상황으로 판단하여 음성 인식 기능을 활성화할 수 있다.

본 발명의 일 실시예에 따른 음성 인식 능력을 가진 장치는 사용자가 도어를 열거나 닫는 상황에 더하여 물건을 보관하는 장치 내의 물건들의 배치를 변화시키는 경우에 사용자가 음성 명령을 할 수 있는 상황으로 판단하여 음성 인식 기능을 활성화할 수 있다. 또한, 이러한 경우, 장치는 사용자로부터 음성 명령을 수신할 준비가 되어 있다는 것을 인디케이터를 통해 사용자에게 알릴 수 있다.

본 발명의 일 실시예에 따른 음성 인식 능력을 가진 디바이스와 통신하는 장치는, 사용자가 도어가 있는 장치의 도어를 열거나 닫는 행위를 하면 사용자가 음성 명령을 할 수 있는 상황으로 판단하여 장치와 통신하는 음성 인식 능력을 가진 디바이스의 음성 인식 기능을 활성화할 수 있다.

본 발명의 일 실시예에 따른 음성 인식 능력을 가진 디바이스와 통신하는 장치는, 사용자가 도어를 열거나 닫는 상황에 더하여 물건을 보관하는 장치 내의 물건들의 배치를 변화시키는 경우에 사용자가 음성 명령을 할 수 있는 상황으로 판단하여 음성 인식 능력을 가진 디바이스의 음성 인식 기능을 활성화할 수 있다. 또한, 이러한 경우, 장치는 사용자로부터 음성 명령을 수신할 준비가 되어 있다는 것을 인디케이터를 통해 사용자에게 알릴 수 있다.

본 발명의 일 실시예에 따른 음성 인식 능력을 가진 장치는, 일면이 개방되고 내부에 물품을 수용하기 위한 컨테이너, 컨테이너를 개폐하기 위한 도어, 도어의 개폐 상태를 감지하기 위한 센서, 외부 음성을 수신하기 위한 마이크, 마이크로부터 수신된 음성 명령을 인식하기 위한 음성 인식 모듈, 음성 인식 모듈의 활성화 상태 및 비활성화 상태를 제어하는 제어부를 포함할 수 있다.

여기서, 제어부는, 도어가 닫힘 상태에서 열림 상태로 변화되는 경우 또는 도어가 열림 상태에서 닫힘 상태로 변화되는 경우에 상기 음성 인식 모듈을 활성화시키도록 구성될 수 있다.

또한, 컨테이너는, 컨테이너 내부를 촬영하는 카메라를 포함하고, 제어부는, 카메라로 촬영된 영상에 기초하여 도어가 열린 이후 컨테이너 내부의 물품 배치에 변화가 있는지 판단하고, 변화가 있는 경우, 음성 인식 모듈을 활성화시키도록 추가로 구성될 수 있다.

또한, 컨테이너는, 컨테이너에 배치되는 물품의 무게를 감지할 수 있는 무게 센서를 포함하고, 제어부는, 무게 센서에 의해 감지된 컨테이너에 배치되는 물품의 무게 정보에 기초하여 도어가 열린 이후 컨테이너 내부의 물품에 변화가 있는지 판단하고, 변화가 있는 경우, 음성 인식 모듈을 활성화시키도록 추가로 구성될 수도 있다.

본 발명의 다른 실시예에 따른 음성 인식 능력을 가진 장치는 일정 조건에서 동작하도록 구성되는 인디케이터를 더 포함하고, 제어부는, 음성 인식 모듈을 활성화하는 경우 상기 인디케이터를 동작시키도록 추가로 구성될 수 있다.

본 발명의 또 다른 실시예에 따른 음성 인식 능력을 가진 장치는, 장치로의 인체의 접근 여부를 판단하기 위한 근접 센서를 더 포함하고, 제어부는, 도어가 열림 상태에서 닫힘 상태로 변경된 후, 근접 센서에 의해 장치로부터 일정 범위 내에 일정 시간 이상 인체가 머무는 것이 감지되는 경우, 음성 인식 모듈을 활성화시키도록 추가로 구성될 수 있다.

본 발명의 일 실시예에 따른 음성 인식 디바이스와 통신하는 장치는, 일면이 개방되고 내부에 물품을 수용하기 위한 컨테이너, 컨테이너를 개폐하기 위한 도어, 도어의 개폐 상태를 감지하기 위한 센서, 외부의 음성 인식 디바이스와 통신하기 위한 통신부, 센서로부터 감지되는 신호에 따라 상기 통신부를 통해 음성 인식 디바이스로 일정 신호를 송신하도록 통신부를 제어하는 제어부를 포함할 수 있다.

여기서, 제어부는, 도어가 닫힘 상태에서 열림 상태로 변화되는 경우 또는 도어가 열림 상태에서 닫힘 상태로 변화되는 경우에 음성 인식 디바이스의 음성 인식 모듈을 활성화시키기 위한 신호를 통신부를 통해 음성 인식 디바이스로 송신하도록 구성될 수 있다.

또한, 컨테이너는, 컨테이너 내부를 촬영하는 카메라를 포함하고, 제어부는,

카메라로 촬영된 영상에 기초하여 도어가 열린 이후 컨테이너 내부의 물품 배치에 변화가 있는지 판단하고, 변화가 있는 경우, 음성 인식 장치의 음성 인식 모듈을 활성화시키기 위한 신호를 통신부를 통해 음성 인식 장치로 송신하도록 추가로 구성될 수 있다.

또한, 컨테이너는, 컨테이너에 배치되는 물품의 무게를 감지할 수 있는 무게 센서를 포함하고, 제어부는, 무게 센서에 의해 감지된 컨테이너에 배치되는 물품의 무게 정보에 기초하여 도어가 열린 이후 컨테이너 내부의 물품에 변화가 있는지 판단하고, 변화가 있는 경우, 음성 인식 장치의 음성 인식 모듈을 활성화시키기 위한 신호를 통신부를 통해 음성 인식 장치로 송신하도록 추가로 구성될 수 있다.

본 발명의 다른 실시예에 따른 음성 인식 능력을 가진 디바이스와 통신하는 장치는 일정 조건에서 동작하도록 구성되는 인디케이터를 더 포함하고, 제어부는 음성 인식 장치의 음성 인식 모듈을 활성화시키기 위한 신호를 통신부를 통해 음성 인식 장치로 송신하는 경우 인디케이터를 동작시키도록 추가로 구성될 수 있다.

본 발명의 또 다른 실시예에 따른 음성 인식 능력을 가진 디바이스와 통신하는 장치는, 장치로의 인체의 접근 여부를 판단하기 위한 근접 센서를 더 포함하고, 제어부는, 도어가 열림 상태에서 닫힘 상태로 변경된 후, 근접 센서에 의해 장치로부터 일정 범위 내에 일정 시간 이상 인체가 머무는 것이 감지되는 경우, 음성 인식 장치의 음성 인식 모듈을 활성화시키기 위한 신호를 통신부를 통해 음성 인식 장치로 송신하도록 추가로 구성될 수 있다.

본 발명의 일 실시예에 따른 음성 인식 능력을 가진 장치를 제어하는 방법은, 장치의 도어가 개방되는지 감지하는 단계, 장치의 컨테이너로 물품이 추가되는지 또는 장치의 컨테이너로부터 물품이 제거되는지를 판단하는 단계, 도어가 개방된 후 장치 내부로 물품이 추가되거나 장치 내부로부터 물품이 제거되는 경우, 음성 인식 모듈을 활성화하는 단계, 음성 인식 모듈이 활성화된 후 일정 시간 이내에 음성 명령이 수신되면 음성 명령을 분석하여 수행하는 단계, 및 음성 인식 모듈이 활성화된 후 일정 시간 이내에 음성 명령이 수신되지 않으면, 음성 인식 모듈을 비활성화하는 단계를 포함할 수 있다.

여기서, 컨테이너는, 컨테이너 내부를 촬영하는 카메라를 포함하고, 판단하는 단계는, 카메라로 촬영된 영상에 기초하여 도어가 열린 이후 컨테이너 내부의 물품 배치에 변화가 있는지 판단할 수 있다.

또한, 컨테이너는, 컨테이너에 배치되는 물품의 무게를 감지할 수 있는 무게 센서를 포함하고, 판단하는 단계는, 무게 센서에 의해 감지된 컨테이너에 배치되는 물품의 무게 정보에 기초하여 도어가 열린 이후 컨테이너 내부의 물품에 변화가 있는지 판단할 수 있다.

본 발명의 다른 실시예에 따른 음성 인식 능력을 가진 장치는, 일정 조건에서 동작하도록 구성되는 인디케이터를 더 포함하고, 음성 인식 능력을 가진 장치를 제어하는 방법에서 음성 인식 모듈을 활성화하는 단계는, 인디케이터를 동작시키는 단계를 포함할 수 있다.

본 발명의 또 다른 실시예에 따른 음성 인식 능력을 가진 장치는, 장치로의 인체의 접근 여부를 판단하기 위한 근접 센서를 더 포함하고, 음성 인식 능력을 가진 장치를 제어하는 방법은, 도어가 열림 상태에서 닫힘 상태로 변경된 후, 상기 근접 센서에 의해 장치로부터 일정 범위 내에 일정 시간 이상 인체가 머무는 것이 감지되는 경우, 음성 인식 모듈을 활성화시키는 단계를 더 포함할 수 있다.

전술한 것 외의 다른 측면, 특징, 이점이 이하의 도면, 특허청구범위 및 발명의 상세한 설명으로부터 명확해질 것이다.

본 발명의 실시예는 기동어를 사용하지 않으면서도, 사용자가 장치와 음성으로 상호작용하기 원하는 경우를 기계 장치가 적합하게 판단하여 음성 인식 기능을 활성화하도록 함으로써, 사용자가 보다 자연스럽게 장치와 음성으로 상호작용할 수 있는 환경을 제공할 수 있다.

또한, 본 발명의 실시예는 평소에는 장치의 음성 인식 기능이 비활성화되도록 하면서도, 사용자가 음성으로 장치와 상호작용하기 원하는 경우에는 자연스럽게 장치의 음성 인식 기능이 활성화되도록 하여, 전력 절감 및 프로세싱 리소스 절감을 달성하면서도 장치에 의한 음성 인식 서비스를 제공할 수 있도록 한다.

또한, 본 발명의 실시예는 음성 인식 기능이 평소에는 비활성화되어 있고 사용자가 장치와의 음성 상호작용을 의도한 경우에만 장치의 음성 인식 기능이 활성화되도록 하여, 사용자가 장치와의 음성 상호작용을 의도하지 않는 경우에 오작동하는 것을 방지할 수 있다.

또한, 본 발명의 실시예는, 별도의 기동어를 발화하지 않는 경우에도, 사용자가 기계 장치와의 상호작용을 원하는 경우를 판단하여 사용자와 기계 장치가 자연스럽게 음성으로 상호작용할 수 있도록 할 수 있다.

본 발명의 효과는 이상에서 언급된 것들에 한정되지 않으며, 언급되지 아니한 다른 효과들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 발명의 일 실시예에 따른 음성 인식 능력을 가진 장치가 동작하는 환경에 대해 설명하기 위한 도면이다.
도 2는 본 발명의 일 실시예에 따른 음성 인식 능력을 가진 장치의 도어가 열리는 경우에 음성 인식 기능의 동작을 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따른 음성 인식 능력을 가진 장치의 도어가 닫히는 경우에 음성 인식 기능의 동작을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 음성 인식 능력을 가진 장치의 블록도를 도시한다.
도 5는 본 발명의 다른 실시예에 따른 음성 인식 능력을 가진 장치가 사용자의 음성 명령을 인식하는 경우를 설명하기 위한 도면이다.
도 6은 본 발명의 또 다른 실시예에 따른 음성 인식 능력을 가진 장치들이 네트워크를 통해 외부 서버와 연동하여 동작하는 경우를 설명하기 위한 도면이다.
도 7은 본 발명의 다른 실시예에 따른 음성 인식 능력을 가진 장치의 동작을 설명하기 위한 순서도이다.
도 8은 본 발명의 일 실시예에 따른 음성 인식 능력을 가진 장치에서 음성 인식 기능 활성화 여부를 결정하는 방식에 대해 설명하기 위한 도면이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 설명되는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 아래에서 제시되는 실시 예들로 한정되는 것이 아니라, 서로 다른 다양한 형태로 구현될 수 있고, 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 아래에 제시되는 실시 예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. 제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.

이하, 본 발명에 따른 실시 예들을 첨부된 도면을 참조하여 상세히 설명하기로 하며, 첨부 도면을 참조하여 설명함에 있어, 동일하거나 대응하는 구성 요소는 동일한 도면번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.

도 1은 본 발명의 일 실시예에 따른 음성 인식 능력을 가진 장치가 동작하는 환경에 대해 설명하기 위한 도면이다.

음성 인식 능력을 가진 장치는 다양한 전자 장치 및 가전 장치들을 수 있으나, 여기서는 설명의 편의를 위해 오븐 및 인공지능 스피커를 예로 들어 설명한다.

음성 인식 능력을 가진 오븐(100)은 인공지능 스피커(400) 및 홈 서버(800)와 통신할 수 있다. 오븐(100)과 인공지능 스피커(4000) 및 홈 서버(800)는 단거리/장거리 무선/유선 통신방식을 사용해서 서로 통신할 수 있다.

음성 인식 능력을 가진 오븐(100)은 마이크 및 음성 인식 모듈을 포함할 수 있다. 오븐(100)은 평소에는 음성 인식 모듈을 활성화하지 않고, 외부 음성을 수신하여 기동어와 일치하는 음성이 발생하였을 때 음성 인식 모듈을 활성화할 수 있다. 아울러, 오븐(100)은 사용자가 특정한 동작, 예를 들어, 오븐(100)의 도어를 열거나 오븐(100)에 음식을 넣거나, 음식을 빼거나, 오븐(100)의 도어를 닫는 등의 동작을 수행하면, 이를 감지하여 사용자와의 음성 상호작용이 일어날 수 있다고 판단할 수 있다.

이러한 경우, 오븐(100)은 기동어가 입력되지 않은 경우에도, 음성 인식 모듈을 활성화시켜 사용자로부터 음성 명령을 수신할 수 있는 음성 인식 대기모드에 진입할 수 있다.

오븐(100)은 음성 인식 모듈이 활성화되면 인디케이터를 통해 음성 인식 모듈이 활성화되었음을 알릴 수 있다. 예를 들어, 인디케이터는 LED일 수 있고, LED가 발광함으로써 음성 인식 모듈이 활성화되었음을 사용자에게 알릴 수 있다. 다른 예로는, 인디케이터는 스피커일 수 있고, 스피커를 통해 "무엇이 필요하신가요?" 등의 음성이 발생하여 사용자에게 음성으로 상호작용할 준비가 되었음을 알릴 수 있다.

오븐(100)이 음성 명령을 수신하면, 오븐(100) 자체의 음성 처리 프로세서를 활용하여 음성 명령을 분석하고, 그에 따른 동작을 수행할 수 있다. 다른 실시예로, 오븐(100)은 자연어 처리 기능을 가진 홈 서버(800)나 인공지능 스피커(400)로 음성 명령을 전달하고, 홈 서버(800)나 인공지능 스피커(400)로부터 자연어 처리를 통해 파악된 음성 명령에 적합한 응답을 수신할 수 있다.

오븐(100)은 수신된 응답에 기초하여 사용자의 음성 명령에 적합한 동작을 수행할 수 있다.

한편, 오븐(100)이 음성 인식 능력을 가지지 못한 경우에, 사용자가 특정한 동작, 예를 들어, 오븐(100)의 도어를 열거나 오븐(100)에 음식을 넣거나, 음식을 빼거나, 오븐(100)의 도어를 닫는 등의 동작을 수행하고, 오븐(100)이 이를 감지하여 사용자와의 음성 상호작용이 일어날 수 있다고 판단하면, 오븐(100)은 인공지능 스피커(400)로 음성 인식 기능 활성화 신호를 송신할 수 있다.

음성 인식 기능 활성화 신호를 수신한 인공지능 스피커(400)는 기동어의 입력 없이도 음성 인식 기능을 활성화하여 사용자로부터 음성 명령을 수신할 수 있는 음성 인식 대기모드에 진입할 수 있다.

오븐(100)은 인공지능 스피커(400)에 음성 인식 기능 활성화 신호를 송신한 후, 오븐(100)에 배치된 인디케이터를 통해 인공지능 스피커(400)의 음성 인식 기능이 활성화되었음을 사용자에게 알릴 수 있다.

다른 예에서, 인공지능 스피커(400)의 음성 인식 기능이 활성화되면, 인공지능 스피커(400)에 포함된 인디케이터를 통해 인공지능 스피커(400)의 음성 인식 기능이 활성화되었음을 사용자에게 알릴 수 있다.

홈 서버(800)는 5G 통신 환경에서 사물 인터넷을 구현하도록 홈의 가전들과 통신할 수 있도록 구성될 수 있다. 여기서, 홈 서버(800)는 오븐(100) 및 인공지능 스피커(400)와 통신하여 사용자의 음성 명령을 수신하고 이를 위해 필요한 동작이 무엇인지 결정해서 오븐(100) 및 인공지능 스피커(400)에게 알려줄 수 있다.

홈 서버(800)는 각종 인공지능 알고리즘을 적용하는데 필요한 빅데이터 및 음성 인식에 관한 데이터를 제공하는 데이터베이스 서버와 연동될 수 있다. 그 밖에 서버(800)는 사용자 단말기에 설치된 애플리케이션 또는 웹 브라우저를 이용하여 오븐(100) 및 인공지능 스피커(400)를 원격에서 제어할 수 있도록 하는 웹 서버 또는 애플리케이션 서버를 포함할 수 있다.

도 2는 본 발명의 일 실시예에 따른 음성 인식 능력을 가진 장치의 도어가 열리는 경우에 음성 인식 기능의 동작을 설명하기 위한 도면이다.

도 2에서 오븐(100)은 컨테이너(110), 음성 인식 표시부(120), 마이크(130), 디스플레이(140), 인터페이스(150), 근접 센서(160) 및 도어(170)를 포함할 수 있다.

컨테이너(110)는 일면이 개방될 수 있고, 내부에는 음식 및 식재료를 담음 그릇을 수용할 수 있다. 도어(170)는 컨테이너(110)와 결합하여 컨테이너(110)의 일면을 개폐할 수 있다.

음성 인식 표시부(130)는 오븐(100) 또는 오븐(100)과 연동된 인공지능 스피커(400)에서 음성 인식 모듈이 활성화되었는지를 표시하는 인디케이터로서 기능을 할 수 있다. 음성 인식 표시부(130)는 LED일 수 있고, 사용자의 특정 동작에 따라 음성 상호작용이 필요하다고 판단되면, LED가 발광하여 음성 명령을 수신할 준비가 되었음을 사용자에게 알릴 수 있다.

오븐(100)의 마이크(130)는 사용자가 발화하는 음성을 수신할 수 있다. 마이크(130)를 향해 사용자가 기동어를 발화하면, 기동어 판단 모듈은 미리 정해진 기동어가 사용자의 발화에 포함되었는지 판단하여, 음성 인식 모듈의 활성화를 결정할 수 있다.

디스플레이(140)는 오븐(100)의 동작에 대한 정보를 시각적으로 사용자에게 제공할 수 있다.

사용자는 인터페이스(150)를 조작하여 오븐(100)의 동작을 결정하거나 동작 조건을 설정할 수 있다. 도 2와 같이 사용자 인터페이스(150)는 조정 다이얼일 수 있다.

근접 센서(160)는 오븐(100)에 접근하는 인체를 감지하여 사용자가 오븐(100)을 사용하기 위해 가까이 왔는지를 판단하기 위한 정보를 제공할 수 있다. 근접 센서(160)에 의해 사용자가 오븐(100)에 접근하는 것이 판단되면 오븐(100)은 사용자가 음성 명령을 내릴 수 있다고 판단하여 음성 인식 모듈을 활성화하도록 구성될 수도 있다.

도 2에서 도시되지는 않았지만, 오븐(100)은 도어(170)의 개폐 상태를 감지할 수 있는 도어 센서를 포함할 수 있다. 도어 센서는 도어가 열리고 닫히는 것을 인지하여 오븐(100)의 제어부로 전달함으로써 사용자가 오븐(100)에 대해 수행하는 동작을 판단할 수 있게 한다.

사용자가 오븐(100)에 접근하여 오븐(100)의 도어(170)를 연다면 사용자가 오븐(100)에게 어떤 동작을 수행하려한다는 것이 예측될 수 있다. 따라서, 오븐(100)의 도어가 열리는 것이 감지되면, 음성 인식 모듈이 자동으로 활성화되고 오븐(100)은 사용자의 음성 명령을 수신할 준비를 할 수 있다.

또한, 음성 인식 표시부(120)가 발광하여 사용자에게 음성 인식 기능이 활성화되었음을 알릴 수 있다.

아울러, 도 2에서 도시되지는 않았지만, 오븐(100)은 외부 카메라를 더 포함할 수도 있다. 외부 카메라는 오븐(100)에 인접한 사용자가 어떤 활동을 하는지 시각적으로 감지할 수 있다. 외부 카메라가 수집한 영상은 사용자가 음성으로 오븐(100)에 어떤 동작을 명령할지를 판단하는데 보조적으로 사용될 수 있다.

도 3은 본 발명의 일 실시예에 따른 음성 인식 능력을 가진 장치의 도어가 닫히는 경우에 음성 인식 기능의 동작을 설명하기 위한 도면이다.

사용자가 오븐(100)의 도어(170)를 열고 음식을 넣은 후 도어(170)를 닫으면, 오븐(100)이 가열동작을 하도록 하는 등의 조작을 할 것임이 예상될 수 있다. 따라서, 오븐(100)은 사용자가 도어(170)를 닫으면 음성 인식 기능을 활성화시킬 수 있다.

한편, 사용자가 도어(170)를 닫은 후 오븐(100)으로부터 떠나지 않고, 오븐(100)으로부터 일정 범위 내(예를 들어, 30cm 내)에 일정 시간 이상(예를 들어, 15초 이상) 머무는 것이 근접 센서(160)에 의해 감지된다면, 오븐(100)은 사용자가 음성 명령을 내릴 것이라고 예상할 수 있고, 음성 인식 모듈을 활성화할 수 있다.

도 4는 본 발명의 일 실시예에 따른 음성 인식 능력을 가진 장치의 블록도를 도시한다.

본 발명의 일 실시예에 따른 오븐(100)은 도어(170)의 동작을 감지하기 위한 도어 감지 센서(115), 음성 인식 모듈이 활성화되었음을 표시하기 위한 음성 인식 표시부(120), 외부 음성을 수집하기 위한 마이크(130), 사용자에게 정보를 표시하기 위한 디스플레이(140), 사용자의 조작을 위한 인터페이스(150), 사용자가 오븐(100)에 접근했는지 판단하기 위한 근접 센서(160), 오븐(100)의 내부의 변화를 감지하기 위한 내부 센서(165), 외부 기기와 통신하기 위한 통신부(180) 및 이들을 제어하기 위한 제어부(190)를 포함할 수 있다.

아울러, 도 4에서는 미도시되었지만, 오븐(100)이 자체적으로 음성 인식 기능을 가지는 경우, 오븐(100)은 음성 인식 모듈을 더 포함할 수 있다. 이러한 음성 인식 모듈은 평소에는 비활성화 상태를 유지하지만, 사용자가 오븐(100)에 음성으로 명령을 내릴 수 있는 상황이라고 판단되는 경우 활성화될 수 있다.

통신부(180)는 센서들(160 및 165)의 신호에 기초한 제어부(190)의 판단에 따라 일정 신호를 외부 기기로 송신할 수 있다. 외부 기기는 인공지능 스피커(400), 외부 서버(800) 또는 다른 전자기기들일 수 있다.

도어 감지 센서(115)는 도어(170)의 개폐를 감지하여 사용자가 오븐(100)을 사용하고 있는지에 대한 판단을 할 수 있도록 한다. 제어부(190)는 도어(170)가 닫힘 상태에서 열림 상태로 변화되거나, 도어(170)가 열림 상태에서 닫힘 상태로 변화되는 경우에 음성 인식 모듈을 활성화시킬 수 있다.

오븐(100)이 자체적인 음성 인식 기능이 있는 경우에 제어부(190)는 음성 인식 모듈을 활성화하고, 오븐(100)이 자체적인 음성 인식 기능이 없는 경우에 제어부(190)는 통신부(180)를 통해 음성 인식 기능을 가진 디바이스로 음성 인식 활성화 신호를 송신할 수 있다. 예를 들어, 음성 인식 활성화 신호를 받는 디바이스는 오븐(100)에 가깝게 배치된 인공지능 스피커(400)일 수 있다.

오븐(100)은 컨테이너(110) 내부의 변화를 감지할 수 있는 내부 센서(165)를 포함할 수 있고, 내부 센서(165)는 컨테이너 내부를 촬영하는 내부 카메라일 수 있다. 내부 카메라는 상시적으로 컨테이너 내부를 촬영할 수도 있으나, 전력 절감을 고려하여 컨테이너 내부의 변화가 있을 수 있는 경우에만 동작하도록 구성될 수도 있다. 예를 들어, 내부 카메라는 오븐(100)의 도어(170)가 열리는 동작이 시작될 때 및 열린 이후의 컨테이너 내부를 촬영하여 내부의 물품 배치에 변화가 있는지를 감지할 수 있다. 보다 구체적으로, 내부 카메라는 도어 감지 센서(115)의 신호에 기초하여 도어(170)가 열리는 동작이 시작될 때 및 도어(170)가 열린 후 일정 시간 이후부터 도어(170)가 닫힐 때까지 내부를 주기적으로 촬영하여 내부의 물품 배치에 변화가 있는지를 감지하도록 구성될 수 있다. 다른 예로, 내부 카메라는 도어 감지 센서(1150)의 신호에 기초하여 도어(170)가 열리는 동작이 시작될 때 및 도어(170)가 닫히는 동작이 시작될 때 또는 도어(170)가 닫힌 후에 내부를 촬영하여 내부의 물품 배치에 변화가 있는지를 감지하도록 구성될 수도 있다.

한편, 내부 센서(165)는 컨테이너(110) 내에 배치되는 물품의 무게를 감지할 수 있는 무게 센서일 수도 있다. 제어부(190)는 무게 센서에 의해 감지된 컨테이너(110) 내부에 배치되는 물품의 무게 정보에 기초하여 도어(170)가 열린 이후 컨테이너(110) 내부의 물품 배치에 변화가 있는지 판단할 수 있다. 무게 센서는 상시적으로 컨테이너(110) 내부의 무게를 감지할 수도 있으나, 전력 절감을 고려하여 컨테이너 내부의 변화가 있을 수 있는 경우에만 동작하도록 구성될 수도 있다. 예를 들어, 무게 센서는 오븐(100)의 도어(170)가 열리는 동작이 시작될 때 및 열린 이후의 컨테이너 내부의 무게를 감지하여 내부의 물품 배치에 변화가 있는지를 감지할 수 있다. 보다 구체적으로, 무게 센서는 도어 감지 센서(115)의 신호에 기초하여 도어(170)가 열리는 동작이 시작될 때 및 도어(170)가 열린 후 일정 시간 이후부터 도어(170)가 닫힐 때까지 내부의 무게를 주기적으로 감지하여 내부의 물품 배치에 변화가 있는지를 감지하도록 구성될 수 있다. 다른 예로, 무게 센서는 도어 감지 센서(1150)의 신호에 기초하여 도어(170)가 열리는 동작이 시작될 때 및 도어(170)가 닫히는 동작이 시작될 때 또는 도어(170)가 닫힌 후에 내부의 무게를 감지하여 내부의 물품 배치에 변화가 있는지를 감지하도록 구성될 수도 있다.

상술된 바와 같은 내부 센서(165)의 감지에 따라 오븐(100)은 사용자가 오븐(100) 내에 음식을 넣었을 때, 오븐(100)으로부터 음식을 제거했을 때 등의 상황을 감지할 수 있다. 이러한 상황은 오븐(100)의 후속 동작이 요구될 수 있는 경우이므로, 오븐(100)의 제어부(190)는 사용자가 음성 명령을 내릴 수 있는 경우라고 판단하여 음성 인식 모듈을 활성화시키는 신호를 생성할 수 있다.

생성된 신호는 오븐(100) 자체의 음성 인식 기능을 활성화시키거나 오븐(100)과 통신하는 음성 인식 능력을 가진 디바이스, 예를 들어, 인공지능 스피커(400)의 음성 인식 기능을 활성화시킬 수 있다.

한편, 사용자는 오븐(100)에 음식을 넣고 도어(170)를 닫은 후, 조리 절차를 알아보고 오븐(100)으로 하여금 특정 조리 절차를 수행하도록 명령할 수 있다. 이에 따라, 제어부(190)는 도어(170)가 열림 상태에서 닫힘 상태로 변경된 후, 상기 근접 센서에 의해 상기 장치로부터 일정 범위 내에 일정 시간 이상(예를 들어, 15초 이상) 인체가 머무는 것이 감지되는 경우, 상기 음성 인식 모듈을 활성화시키도록 추가로 구성될 수 있다.

한편, 도 4에서는 미도시되었지만, 오븐(100)은 각종 동작 정보 등이 저장된 메모리를 포함할 수 있다.

메모리는 오븐(100)의 동작에 필요한 각종 정보들을 기록하는 것으로, 휘발성 또는 비휘발성 기록 매체를 포함할 수 있다. 기록 매체는 제어부(190)에 의해 읽힐 수 있는 데이터를 저장한 것으로, HDD(hard disk drive), SSD(solid state disk), SDD(silicon disk drive), ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등을 포함할 수 있다.

한편, 메모리에는 음성 인식을 위한 데이터가 저장될 수 있고, 제어부(190)는 마이크(130)를 통하여 수신되는 사용자의 발화 음성 신호를 처리하고 음성 인식 과정을 수행할 수 있다.

도 5는 본 발명의 다른 실시예에 따른 음성 인식 능력을 가진 장치가 사용자의 음성 명령을 인식하는 경우를 설명하기 위한 도면이다.

도 5에서 음성 인식 능력을 가진 장치는 세탁기(200)이다. 세탁기(200)는 세탁기 본체(240), 세탁물을 담을 수 있는 컨테이너인 세탁조(210), 사용자의 접근을 감지하기 위한 근접 센서(220), 사용자의 음성을 수집하기 위한 마이크(230), 세탁기(200)의 동작을 설정하기 위한 조정 다이얼(250) 및 도어(270)를 포함할 수 있다.

세탁기(200)는 도어(270)가 닫힘 상태에서 열림 상태로 바뀌거나, 열림 상태에서 닫힘 상태로 변화하면, 음성 인식 모듈을 활성화시키도록 구성될 수 있다.

사용자가 세탁기(200)에 접근하여 도어(270)를 열고 세탁물을 세탁조(210)에 넣으면 세탁기(200)에 특정 설정을 하거나 특정 동작을 하도록 명령할 수 있다. 따라서, 별도의 기동어 사용 없이도, 사용자와 세탁기(200) 사이의 음성 상호작용이 자연스럽게 일어나도록 도어(270)의 움직임에 따라 세탁기(200)는 음성 인식 모듈을 활성화시키도록 구성될 수 있다.

아울러, 세탁기(200)는 자체적으로 음성 인식 모듈이 없는 경우, 세탁기(200)와 가깝게 배치된 음성 인식 기능을 갖는 디바이스와 통신할 수 있다. 여기서, 음성 인식 기능을 갖는 디바이스는 스마트폰, 태블릿, 인공지능 스피커(400) 등 다양한 사용자 단말일 수 있다

사용자 단말은 컴퓨팅 장치의 기능을 수행할 수 있는 통신 단말기를 포함할 수 있으며, 사용자가 조작하는 데스크 탑 컴퓨터, 스마트폰, 노트북, 태블릿 PC, 스마트 TV, 휴대폰, PDA(personal digital assistant), 랩톱, 미디어 플레이어, 마이크로 서버, GPS(global positioning system) 장치, 전자책 단말기, 디지털방송용 단말기, 네비게이션, 키오스크, MP3 플레이어, 디지털 카메라, 가전기기 및 기타 모바일 또는 비모바일 컴퓨팅 장치일 수 있으나, 이에 제한되지 않는다.

또한, 사용자 단말은 통신 기능 및 데이터 프로세싱 기능을 구비한 시계, 안경, 헤어 밴드 및 반지 등의 웨어러블 단말기 일 수 있다. 이러한 사용자 단말은 상술한 내용에 제한되지 아니하며, 음성 인식이 가능한 단말기는 제한 없이 차용될 수 있다.

세탁기(200)가 사용자의 음성 명령에 준비되도록 음성 인식 모듈을 활성화시키거나 음성 인식 모듈 활성화 신호를 사용자 단말로 송신하는 동작은 도 3 및 4에서 설명된 바와 유사하게 이루어질 수 있다.

도 6은 본 발명의 또 다른 실시예에 따른 음성 인식 능력을 가진 장치들이 네트워크를 통해 외부 서버와 연동하여 동작하는 경우를 설명하기 위한 도면이다.

오븐(100a), 세탁기(100b), 및 냉장고(100c)는 5G 통신 환경에서 네트워크(600)를 통해 홈 네트워킹 서버(810)에 연결될 수 있다.

홈 네트워킹 서버(810)는 가정에 설치된 각종 가전 기기들 및 조명 등의 실내 시설을 제어할 수 있다. 아울러, 홈 네트워킹 서버(810)는 가전 기기들이 각각 독립적으로 동작하도록 하지 않고, 가전 기기들 각각의 동작 정보에 기초하여 일 가전 기기의 동작이 다른 가전 기기의 동작에 따라 조절되도록 할 수 있다.

또한, 홈 네트워킹 서버(810)는 각각의 음성 인식 능력을 가진 장치들(100a, 100b, 100c)로부터 수집되는 사용자의 조작 동작 및 사용자의 음성 명령을 수신하여 사용정보 데이터베이스(820)에 정보를 축적할 수 있다.

사용정보 데이터베이스(820)에 축적된 일 사용자의 사용 정보를 기록한 데이터는 사용자의 특징을 반영하는 정보가 되어 홈 네트워킹 서버(810)에 의해 제어되는 가전 기기들이 사용자 맞춤형으로 동작하도록 할 수 있다.

각 가전 기기에서 음성 인식 모듈을 활성화시킬지에 여부에 대해서도 사용정보 데이터베이스(820)에 기초한 학습 모델 업데이트가 이루어질 수 있고, 이에 따라, 불필요하게 음성 인식 모듈이 활성화되는 경우를 줄이고, 사용자가 음성 명령을 수행할 확률이 높은 경우에만 음성 인식 모듈이 활성화되도록 할 수 있다.

네트워크(600)는 음성 인식 장치들(100)과 사용자 단말을 연결하는 역할을 수행할 수 있다. 이러한 네트워크(600)는 예컨대 LANs(local area networks), WANs(wide area networks), MANs(metropolitan area networks), ISDNs(integrated service digital networks) 등의 유선 네트워크나, 무선 LANs, CDMA, 블루투스, 위성 통신 등의 무선 네트워크를 망라할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.

또한, 네트워크(600)는 근거리 통신 및/또는 원거리 통신을 이용하여 정보를 송수신할 수 있다. 여기서 근거리 통신은 블루투스(bluetooth), RFID(radio frequency identification), 적외선 통신(IrDA, infrared data association), UWB(ultra-wideband), ZigBee, Wi-Fi (wireless fidelity) 기술을 포함할 수 있고, 원거리 통신은 CDMA(code division multiple access), FDMA(frequency division multiple access), TDMA(time division multiple access), OFDMA(orthogonal frequency division multiple access), SC-FDMA(single carrier frequency division multiple access) 기술을 포함할 수 있다.

네트워크(600)는 허브, 브리지, 라우터, 스위치 및 게이트웨이와 같은 네트워크 요소들의 연결을 포함할 수 있다. 네트워크(600)는 인터넷과 같은 공용 네트워크 및 안전한 기업 사설 네트워크와 같은 사설 네트워크를 비롯한 하나 이상의 연결된 네트워크들, 예컨대 다중 네트워크 환경을 포함할 수 있다. 네트워크(600)에의 액세스는 하나 이상의 유선 또는 무선 액세스 네트워크들을 통해 제공될 수 있다.

도 7은 본 발명의 다른 실시예에 따른 음성 인식 능력을 가진 장치의 동작을 설명하기 위한 순서도이다.

사용자가 음성 인식 능력을 가진 장치로 접근하면 음성 인식 장치의 근접 센서는 이를 감지하고(S710), 도어의 개폐 동작을 감지하기 위한 센서를 활성화시킬 수 있다. 이후, 사용자가 도어를 열면 도어 동작이 감지되고(S720), 내부 내용물 변화를 감지하기 위한 센서가 활성화될 수 있다. 사용자가 음성 인식 장치의 내부에 물건을 넣거나 내부로부터 물건을 제거하면 상술된 무게 센서 또는 내부 카메라를 통해 이를 감지할 수 있다(S730).

이러한 경우, 사용자가 음성 인식 장치에게 특정 동작을 수행하도록 할 수 있는 확률이 매우 높으므로, 음성 인식 장치는 음성 명령 인식을 시동시키고, 음성 인식을 대기하고 있다는 신호를 생성하여 사용자에게 알릴 수 있다(S740).

음성 명령 인식 기능이 활성화된 후 일정 시간 이내에 음성 명령이 수신되면(S750), 음성 인식 장치는 수신된 음성 명령에 따라 대응 동작을 수행할 수 있다(S770). 예를 들어, 사용자는 세탁기의 도어를 열고 세탁물을 넣은 후(이 경우 세탁기는 음성 인식 모듈을 자동으로 활성화함) "세제 양 확인해줘"라는 음성 명령을 내릴 수 있다. 세탁기는 해당 명령에 따라 무게 센서를 통해 세탁물의 양을 확인한 후 적절한 세제 양에 대한 정보를 제공할 수 있다.

음성 명령 인식 기능이 활성화된 후 일정 시간 이내에 음성 명령이 수신되지 않는다면(S750), 전력 절감 및 음성 인식 오동작 방지를 위해 음성 명령 인식 대기 상태는 종료되어 음성 인식 기능은 비활성화될 수 있다(S760).

상술된 순서도는 본 발명의 실시예 중 하나의 방식을 설명한 것으로, 구체적인 음성 인식 모듈 활성화 조건 및 이에 따른 음성 인식 장치의 동작은 실시예의 목적에 따라 다양하게 채택될 수 있음은 물론이다.

도 8은 본 발명의 일 실시예에 따른 음성 인식 능력을 가진 장치에서 음성 인식 기능 활성화 여부를 결정하는 방식에 대해 설명하기 위한 도면이다.

음성 인식 장치에서 기동어 없이도 자동으로 사용자가 음성 명령을 내릴 수 있는 경우를 판단하여 음성 인식 모듈을 활성화시키는 동작을 수행하기 위해서 인공지능 학습 모델이 이용될 수 있다.

여기서, 인공 지능(artificial intelligence, AI)은 인간의 지능으로 할 수 있는 사고, 학습, 자기계발 등을 컴퓨터가 할 수 있도록 하는 방법을 연구하는 컴퓨터 공학 및 정보기술의 한 분야로, 컴퓨터가 인간의 지능적인 행동을 모방할 수 있도록 하는 것을 의미한다.

또한, 인공지능은 그 자체로 존재하는 것이 아니라, 컴퓨터 과학의 다른 분야와 직간접으로 많은 관련을 맺고 있다. 특히 현대에는 정보기술의 여러 분야에서 인공지능적 요소를 도입하여, 그 분야의 문제 풀이에 활용하려는 시도가 매우 활발하게 이루어지고 있다.

머신 러닝(machine learning)은 인공지능의 한 분야로, 컴퓨터에 명시적인 프로그램 없이 배울 수 있는 능력을 부여하는 연구 분야이다.

구체적으로 머신 러닝은, 경험적 데이터를 기반으로 학습을 하고 예측을 수행하고 스스로의 성능을 향상시키는 시스템과 이를 위한 알고리즘을 연구하고 구축하는 기술이라 할 수 있다. 머신 러닝의 알고리즘들은 엄격하게 정해진 정적인 프로그램 명령들을 수행하는 것이라기보다, 입력 데이터를 기반으로 예측이나 결정을 이끌어내기 위해 특정한 모델을 구축하는 방식을 취한다.

용어 '머신 러닝'은 용어 '기계 학습'과 혼용되어 사용될 수 있다.

기계 학습에서 데이터를 어떻게 분류할 것인가를 놓고, 많은 기계 학습 알고리즘이 개발되었다. 의사결정나무(Decision Tree)나 베이지안 망(Bayesian network), 서포트벡터머신(SVM: support vector machine), 그리고 인공 신경망(ANN: Artificial Neural Network) 등이 대표적이다.

의사결정나무는 의사결정규칙(Decision Rule)을 나무구조로 도표화하여 분류와 예측을 수행하는 분석방법이다.

베이지안 망은 다수의 변수들 사이의 확률적 관계(조건부독립성: conditional independence)를 그래프 구조로 표현하는 모델이다. 베이지안 망은 비지도 학습(unsupervised learning)을 통한 데이터마이닝(data mining)에 적합하다.

서포트벡터머신은 패턴인식과 자료분석을 위한 지도 학습(supervised learning)의 모델이며, 주로 분류와 회귀분석을 위해 사용한다.

인공신경망은 생물학적 뉴런의 동작원리와 뉴런간의 연결 관계를 모델링한 것으로 노드(node) 또는 처리 요소(processing element)라고 하는 다수의 뉴런들이 레이어(layer) 구조의 형태로 연결된 정보처리 시스템이다.

인공 신경망은 기계 학습에서 사용되는 모델로써, 기계학습과 인지과학에서 생물학의 신경망(동물의 중추신경계 중 특히 뇌)에서 영감을 얻은 통계학적 학습 알고리즘이다.

구체적으로 인공신경망은 시냅스(synapse)의 결합으로 네트워크를 형성한 인공 뉴런(노드)이 학습을 통해 시냅스의 결합 세기를 변화시켜, 문제 해결 능력을 가지는 모델 전반을 의미할 수 있다.

용어 인공신경망은 용어 뉴럴 네트워크(Neural Network)와 혼용되어 사용될 수 있다.

인공신경망은 복수의 레이어(layer)를 포함할 수 있고, 레이어들 각각은 복수의 뉴런(neuron)을 포함할 수 있다. 또한 인공신경망은 뉴런과 뉴런을 연결하는 시냅스를 포함할 수 있다.

인공 신경망은 일반적으로 다음의 세가지 인자, 즉 (1) 다른 레이어의 뉴런들 사이의 연결 패턴 (2) 연결의 가중치를 갱신하는 학습 과정 (3) 이전 레이어로부터 수신되는 입력에 대한 가중 합으로부터 출력값을 생성하는 활성화 함수에 의해 정의될 수 있다.

인공 신경망은, DNN(Deep Neural Network), RNN(Recurrent Neural Network), BRDNN(Bidirectional Recurrent Deep Neural Network), MLP(Multilayer Perceptron), CNN(Convolutional Neural Network)와 같은 방식의 네트워크 모델들을 포함할 수 있으나, 이에 한정되지 않는다.

본 명세서에서 용어 '레이어'는 용어 '계층'과 혼용되어 사용될 수 있다.

인공신경망은 계층 수에 따라 단층 신경망(Single-Layer Neural Networks)과 다층 신경망(Multi-Layer Neural Networks)으로 구분된다.

일반적인 단층 신경망은, 입력층과 출력층으로 구성된다.

또한 일반적인 다층 신경망은 입력층(Input Layer)과 하나 이상의 은닉층(Hidden Layer), 출력층(Output Layer)으로 구성된다.

입력층은 외부의 자료들을 받아들이는 층으로서, 입력층의 뉴런 수는 입력되는 변수의 수와 동일하며, 은닉층은 입력층과 출력층 사이에 위치하며 입력층으로부터 신호를 받아 특성을 추출하여 출력층으로 전달한다. 출력층은 은닉층으로부터 신호를 받고, 수신한 신호에 기반한 출력 값을 출력한다. 뉴런간의 입력신호는 각각의 연결강도(가중치)와 곱해진 후 합산되며 이 합이 뉴런의 임계치보다 크면 뉴런이 활성화되어 활성화 함수를 통하여 획득한 출력값을 출력한다.

한편 입력층과 출력 층 사이에 복수의 은닉층을 포함하는 심층 신경망은, 기계 학습 기술의 한 종류인 딥 러닝을 구현하는 대표적인 인공 신경망일 수 있다.

한편 용어 '딥 러닝'은 용어 '심층 학습'과 혼용되어 사용될 수 있다.

인공 신경망은 훈련 데이터(training data)를 이용하여 학습(training)될 수 있다. 여기서 학습이란, 입력 데이터를 분류(classification)하거나 회귀분석(regression)하거나 군집화(clustering)하는 등의 목적을 달성하기 위하여, 학습 데이터를 이용하여 인공 신경망의 파라미터(parameter)를 결정하는 과정을 의미할 수 있다. 인공 신경망의 파라미터의 대표적인 예시로써, 시냅스에 부여되는 가중치(weight)나 뉴런에 적용되는 편향(bias)을 들 수 있다.

훈련 데이터에 의하여 학습된 인공 신경망은, 입력 데이터를 입력 데이터가 가지는 패턴에 따라 분류하거나 군집화 할 수 있다.

한편 훈련 데이터를 이용하여 학습된 인공 신경망을, 본 명세서에서는 학습 모델(a trained model)이라 명칭 할 수 있다.

다음은 인공 신경망의 학습 방식에 대하여 설명한다.

인공 신경망의 학습 방식은 크게, 지도 학습, 비 지도 학습, 준 지도 학습(Semi-Supervised Learning), 강화 학습(Reinforcement Learning)으로 분류될 수 있다.

지도 학습은 훈련 데이터로부터 하나의 함수를 유추해내기 위한 기계 학습의 한 방법이다.

그리고 이렇게 유추되는 함수 중, 연속 적인 값을 출력하는 것을 회귀분석(Regression)이라 하고, 입력 벡터의 클래스(class)를 예측하여 출력하는 것을 분류(Classification)라고 할 수 있다.

지도 학습에서는, 훈련 데이터에 대한 레이블(label)이 주어진 상태에서 인공 신경망을 학습시킨다.

여기서 레이블이란, 훈련 데이터가 인공 신경망에 입력되는 경우 인공 신경망이 추론해 내야 하는 정답(또는 결과 값)을 의미할 수 있다.

본 명세서에서는 훈련 데이터가 입력되는 경우 인공 신경망이 추론해 내야 하는 정답(또는 결과값)을 레이블 또는 레이블링 데이터(labeling data)이라 명칭 한다.

또한 본 명세서에서는, 인공 신경망의 학습을 위하여 훈련 데이터에 레이블을 설정하는 것을, 훈련 데이터에 레이블링 데이터를 레이블링(labeling) 한다고 명칭 한다.

이 경우 훈련 데이터와 훈련 데이터에 대응하는 레이블)은 하나의 트레이닝 셋(training set)을 구성하고, 인공 신경망에는 트레이닝 셋의 형태로 입력될 수 있다.

한편 훈련 데이터는 복수의 특징(feature)을 나타내고, 훈련 데이터에 레이블이 레이블링 된다는 것은 훈련 데이터가 나타내는 특징에 레이블이 달린다는 것을 의미할 수 있다. 이 경우 훈련 데이터는 입력 객체의 특징을 벡터 형태로 나타낼 수 있다.

인공 신경망은 훈련 데이터와 레이블링 데이터를 이용하여, 훈련 데이터와 레이블링 데이터의 연관 관계에 대한 함수를 유추할 수 있다. 그리고, 인공 신경망에서 유추된 함수에 대한 평가를 통해 인공 신경망의 파라미터가 결정(최적화)될 수 있다.

비 지도 학습은 기계 학습의 일종으로, 훈련 데이터에 대한 레이블이 주어지지 않는다.

구체적으로, 비 지도 학습은, 훈련 데이터 및 훈련 데이터에 대응하는 레이블의 연관 관계 보다는, 훈련 데이터 자체에서 패턴을 찾아 분류하도록 인공 신경망을 학습시키는 학습 방법일 수 있다.

비 지도 학습의 예로는, 군집화 또는 독립 성분 분석(Independent Component Analysis)을 들 수 있다.

본 명세서에서 용어 '군집화'는 용어 '클러스터링'과 혼용되어 사용될 수 있다.

비지도 학습을 이용하는 인공 신경망의 일례로 생성적 적대 신경망(GAN: Generative Adversarial Network), 오토 인코더(AE: Autoencoder)를 들 수 있다.

생성적 적대 신경망이란, 생성기(generator)와 판별기(discriminator), 두 개의 서로 다른 인공지능이 경쟁하며 성능을 개선하는 머신 러닝 방법이다.

이 경우 생성기는 새로운 데이터를 창조하는 모형으로, 원본 데이터를 기반으로 새로운 데이터를 생성할 수 있다.

또한 판별기는 데이터의 패턴을 인식하는 모형으로, 입력된 데이터가 원본 데이터인지 또는 생성기에서 생성한 새로운 데이터인지 여부를 감별하는 역할을 수행할 수 있다.

그리고 생성기는 판별기를 속이지 못한 데이터를 입력 받아 학습하며, 판별기는 생성기로부터 속은 데이터를 입력 받아 학습할 수 있다. 이에 따라 생성기는 판별기를 최대한 잘 속이도록 진화할 수 있고, 판별기는 원본 데이터와 생성기에 의해 생성된 데이터를 잘 구분하도록 진화할 수 있다.

오토 인코더는 입력 자체를 출력으로 재현하는 것을 목표로 하는 신경망이다.

오토 인코더는 입력층, 적어도 하나의 은닉층 및 출력층을 포함한다.

이 경우 은닉 계층의 노드 수가 입력 계층의 노드 수보다 적으므로 데이터의 차원이 줄어들게 되며, 이에 따라 압축 또는 인코딩이 수행되게 된다.

또한 은닉 계층에서 출력한 데이터는 출력 계층으로 들어간다. 이 경우 출력 계층의 노드 수는 은닉 계층의 노드 수보다 많으므로, 데이터의 차원이 늘어나게 되며, 이에 따라 압축 해제 또는 디코딩이 수행되게 된다.

한편 오토 인코더는 학습을 통해 뉴런의 연결 강도를 조절함으로써 입력 데이터가 은닉층 데이터로 표현된다. 은닉층에서는 입력층보다 적은 수의 뉴런으로 정보를 표현하는데 입력 데이터를 출력으로 재현할 수 있다는 것은, 은닉층이 입력 데이터로부터 숨은 패턴을 발견하여 표현했다는 것을 의미할 수 있다.

준 지도 학습은 기계 학습의 일종으로, 레이블이 주어진 훈련 데이터와 레이블이 주어지지 않은 훈련 데이터를 모두 사용하는 학습 방법을 의미할 수 있다.

준 지도 학습의 기법 중 하나로, 레이블이 주어지지 않은 훈련 데이터의 레이블을 추론한 후 추론된 라벨을 이용하여 학습을 수행하는 기법이 있으며, 이러한 기법은 레이블링에 소요되는 비용이 큰 경우에 유용하게 사용될 수 있다.

강화 학습은, 에이전트(Agent)가 매 순간 어떤 행동을 해야 좋을지 판단할 수 있는 환경이 주어진다면, 데이터 없이 경험으로 가장 좋을 길을 찾을 수 있다는 이론이다.

강화 학습은 주로 마르코프 결정 과정(MDP: Markov Decision Process)에 의하여 수행될 수 있다.

마르코프 결정 과정을 설명하면, 첫 번째로 에이전트가 다음 행동을 하기 위해 필요한 정보들이 구성된 환경이 주어지며, 두 번째로 그 환경에서 에이전트가 어떻게 행동할지 정의하고, 세 번째로 에이전트가 무엇을 잘하면 보상(reward)를 주고 무엇을 못하면 벌점(penalty)을 줄지 정의하며, 네 번째로 미래의 보상이 최고점에 이를 때까지 반복 경험하여 최적의 정책(policy)을 도출하게 된다.

인공 신경망은 모델의 구성, 활성 함수(Activation Function), 손실 함수(Loss Function) 또는 비용 함수(Cost Function), 학습 알고리즘, 최적화 알고리즘 등에 의해 그 구조가 특정되며, 학습 전에 하이퍼파라미터(Hyperparameter)가 미리 설정되고, 이후에 학습을 통해 모델 파라미터(Model Parameter)가 설정되어 내용이 특정될 수 있다.

예컨대, 인공 신경망의 구조를 결정하는 요소에는 은닉층의 개수, 각 은닉층에 포함된 은닉 노드의 개수, 입력 특징 벡터(Input Feature Vector), 대상 특징 벡터(Target Feature Vector) 등이 포함될 수 있다.

하이퍼파라미터는 모델 파라미터의 초기값 등과 같이 학습을 위하여 초기에 설정하여야 하는 여러 파라미터들을 포함한다. 그리고, 모델 파라미터는 학습을 통하여 결정하고자 하는 여러 파라미터들을 포함한다.

예컨대, 하이퍼파라미터에는 노드 간 가중치 초기값, 노드 간 편향 초기값, 미니 배치(Mini-batch) 크기, 학습 반복 횟수, 학습률(Learning Rate) 등이 포함될 수 있다. 그리고, 모델 파라미터에는 노드 간 가중치, 노드 간 편향 등이 포함될 수 있다.

손실 함수는 인공 신경망의 학습 과정에서 최적의 모델 파라미터를 결정하기 위한 지표(기준)로 이용될 수 있다. 인공 신경망에서 학습은 손실 함수를 줄이기 위하여 모델 파라미터들을 조작하는 과정을 의미하며, 학습의 목적은 손실 함수를 최소화하는 모델 파라미터를 결정하는 것으로 볼 수 있다.

손실 함수는 주로 평균 제곱 오차(MSE: Mean Squared Error) 또는 교차 엔트로피 오차(CEE, Cross Entropy Error)를 사용할 수 있으며, 본 발명이 이에 한정되지는 않는다.

교차 엔트로피 오차는 정답 레이블이 원 핫 인코딩(one-hot encoding)된 경우에 사용될 수 있다. 원 핫 인코딩은 정답에 해당하는 뉴런에 대하여만 정답 레이블 값을 1로, 정답이 아닌 뉴런은 정답 레이블 값이 0으로 설정하는 인코딩 방법이다.

머신 러닝 또는 딥 러닝에서는 손실 함수를 최소화하기 위하여 학습 최적화 알고리즘을 이용할 수 있으며, 학습 최적화 알고리즘에는 경사 하강법(GD: Gradient Descent), 확률적 경사 하강법(SGD: Stochastic Gradient Descent), 모멘텀(Momentum), NAG(Nesterov Accelerate Gradient), Adagrad, AdaDelta, RMSProp, Adam, Nadam 등이 있다.

경사 하강법은 현재 상태에서 손실 함수의 기울기를 고려하여 손실 함수값을 줄이는 방향으로 모델 파라미터를 조정하는 기법이다.

모델 파라미터를 조정하는 방향은 스텝(step) 방향, 조정하는 크기는 스텝 사이즈(size)라고 칭한다.

이때, 스텝 사이즈는 학습률을 의미할 수 있다.

경사 하강법은 손실 함수를 각 모델 파라미터들로 편미분하여 기울기를 획득하고, 모델 파라미터들을 획득한 기울기 방향으로 학습률만큼 변경하여 갱신할 수 있다.

확률적 경사 하강법은 학습 데이터를 미니 배치로 나누고, 각 미니 배치마다 경사 하강법을 수행하여 경사 하강의 빈도를 높인 기법이다.

Adagrad, AdaDelta 및 RMSProp는 SGD에서 스텝 사이즈를 조절하여 최적화 정확도를 높이는 기법이다. SGD에서 모멘텀 및 NAG는 스텝 방향을 조절하여 최적화 정확도를 높이는 기법이다. Adam은 모멘텀과 RMSProp를 조합하여 스텝 사이즈와 스텝 방향을 조절하여 최적화 정확도를 높이는 기법이다. Nadam은 NAG와 RMSProp를 조합하여 스텝 사이즈와 스텝 방향을 조절하여 최적화 정확도를 높이는 기법이다.

인공 신경망의 학습 속도와 정확도는 인공 신경망의 구조와 학습 최적화 알고리즘의 종류뿐만 아니라, 하이퍼파라미터에 크게 좌우되는 특징이 있다. 따라서, 좋은 학습 모델을 획득하기 위하여는 적당한 인공 신경망의 구조와 학습 알고리즘을 결정하는 것뿐만 아니라, 적당한 하이퍼파라미터를 설정하는 것이 중요하다.

통상적으로 하이퍼파라미터는 실험적으로 다양한 값으로 설정해가며 인공 신경망을 학습시켜보고, 학습 결과 안정적인 학습 속도와 정확도를 제공하는 최적의 값으로 설정한다.

본 발명의 실시예에서 이용될 수 있는 음성 인식 모듈 활성화 여부를 판단하기 위해 사용되는 학습 모델을 생성하기 위해 사용자가 음성 인식 능력을 가진 장치에 음성 명령을 내리기 전에 수행하는 동작들에 대한 데이터(예를 들어, 음성 인식 능력을 가진 장치에 접근하는 동작, 도어를 조작하는 동작, 장치 내부에 물건을 투입하거나 장치 내부에서 물건을 빼내는 동작, 이외에 주변 상황 정보)가 준비되고 이러한 데이터에 음성 명령을 내리는지 여부가 레이블링(labeled)된다.

레이블링된 데이터를 이용하여 심층 신경망 모델은 지도학습되고, 충분한 데이터를 통해 학습된 모델은 장치가 감지하는 사용자의 동작에 따라 음성 명령이 뒤따를지에 대한 예측을 할 수 있게 된다.

훈련된 학습 모델에는 사용자의 동작을 알려주도록 근접 센서에 의해 감지된 정보, 도어 센서에 의해 감지된 도어 동작 정보, 내부 센서에 의해 감지되는 내부 투입물 정보, 및 기탕 외부 센서들(온도 센서, 모션 센서 등) 에 의해 감지되는 상황 정보가 입력될 수 있고, 이에 따라 음성 인식 모듈이 활성화되어야할지 여부가 출력될 수 있다.

위와 같은 방식으로 학습된 심층 신경망 모델을 이용하여 음성 인식 모듈이 활성화되어야할 상황에 대한 추정이 더욱 정교해질 수 있다.

이러한 심층 신경망 모델은 음성 인식 능력을 갖춘 장치 또는 음성 인식 모듈 활성화 신호를 생성하는 장치 등에서 사용될 수 있다.

이상 설명된 본 발명에 따른 실시 예는 컴퓨터 상에서 다양한 구성요소를 통하여 실행될 수 있는 컴퓨터 프로그램의 형태로 구현될 수 있으며, 이와 같은 컴퓨터 프로그램은 컴퓨터로 판독 가능한 매체에 기록될 수 있다. 이때, 매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등과 같은, 프로그램 명령어를 저장하고 실행하도록 특별히 구성된 하드웨어 장치를 포함할 수 있다.

한편, 상기 컴퓨터 프로그램은 본 발명을 위하여 특별히 설계되고 구성된 것이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수 있다. 컴퓨터 프로그램의 예에는, 컴파일러에 의하여 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용하여 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함될 수 있다.

본 발명의 명세서(특히 특허청구범위에서)에서 "상기"의 용어 및 이와 유사한 지시 용어의 사용은 단수 및 복수 모두에 해당하는 것일 수 있다. 또한, 본 발명에서 범위(range)를 기재한 경우 상기 범위에 속하는 개별적인 값을 적용한 발명을 포함하는 것으로서(이에 반하는 기재가 없다면), 발명의 상세한 설명에 상기 범위를 구성하는 각 개별적인 값을 기재한 것과 같다.

본 발명에 따른 방법을 구성하는 단계들에 대하여 명백하게 순서를 기재하거나 반하는 기재가 없다면, 상기 단계들은 적당한 순서로 행해질 수 있다. 반드시 상기 단계들의 기재 순서에 따라 본 발명이 한정되는 것은 아니다. 본 발명에서 모든 예들 또는 예시적인 용어(예들 들어, 등등)의 사용은 단순히 본 발명을 상세히 설명하기 위한 것으로서 특허청구범위에 의해 한정되지 않는 이상 상기 예들 또는 예시적인 용어로 인해 본 발명의 범위가 한정되는 것은 아니다. 또한, 당업자는 다양한 수정, 조합 및 변경이 부가된 특허청구범위 또는 그 균등물의 범주 내에서 설계 조건 및 팩터에 따라 구성될 수 있음을 알 수 있다.

따라서, 본 발명의 사상은 상기 설명된 실시 예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 또는 이로부터 등가적으로 변경된 모든 범위는 본 발명의 사상의 범주에 속한다고 할 것이다.

Claims

음성 인식 능력을 가진 장치로서,
일면이 개방되고 내부에 물품을 수용하기 위한 컨테이너;
상기 컨테이너를 개폐하기 위한 도어;
상기 도어의 개폐 상태를 감지하기 위한 센서;
외부 음성을 수신하기 위한 마이크;
마이크로부터 수신된 음성 명령을 인식하기 위한 음성 인식 모듈;
상기 음성 인식 모듈의 활성화 상태 및 비활성화 상태를 제어하는 제어부를 포함하고,
상기 제어부는, 상기 도어가 닫힘 상태에서 열림 상태로 변화되는 경우 또는 상기 도어가 열림 상태에서 닫힘 상태로 변화되는 경우에 상기 음성 인식 모듈을 활성화시키도록 구성되는,
음성 인식 능력을 가진 장치.
제 1 항에 있어서,
상기 컨테이너는, 상기 컨테이너 내부를 촬영하는 카메라를 포함하고,
상기 제어부는,
상기 카메라로 촬영된 영상에 기초하여 상기 도어가 열린 이후 상기 컨테이너 내부의 물품 배치에 변화가 있는지 판단하고, 변화가 있는 경우, 상기 음성 인식 모듈을 활성화시키도록 추가로 구성되는,
음성 인식 능력을 가진 장치.
제 1 항에 있어서,
상기 컨테이너는, 상기 컨테이너에 배치되는 물품의 무게를 감지할 수 있는 무게 센서를 포함하고,
상기 제어부는,
상기 무게 센서에 의해 감지된 상기 컨테이너에 배치되는 물품의 무게 정보에 기초하여 상기 도어가 열린 이후 상기 컨테이너 내부의 물품에 변화가 있는지 판단하고, 변화가 있는 경우, 상기 음성 인식 모듈을 활성화시키도록 추가로 구성되는,
음성 인식 능력을 가진 장치.
제 1 항에 있어서,
일정 조건에서 동작하도록 구성되는 인디케이터를 더 포함하고,
상기 제어부는,
상기 음성 인식 모듈을 활성화하는 경우 상기 인디케이터를 동작시키도록 추가로 구성되는,
음성 인식 능력을 가진 장치.
제 1 항에 있어서,
상기 장치로의 인체의 접근 여부를 판단하기 위한 근접 센서를 더 포함하고,
상기 제어부는,
상기 도어가 열림 상태에서 닫힘 상태로 변경된 후, 상기 근접 센서에 의해 상기 장치로부터 일정 범위 내에 일정 시간 이상 인체가 머무는 것이 감지되는 경우, 상기 음성 인식 모듈을 활성화시키도록 추가로 구성되는,
음성 인식 능력을 가진 장치.
음성 인식 디바이스와 통신하는 장치로서,
일면이 개방되고 내부에 물품을 수용하기 위한 컨테이너;
상기 컨테이너를 개폐하기 위한 도어;
상기 도어의 개폐 상태를 감지하기 위한 센서;
외부의 음성 인식 디바이스와 통신하기 위한 통신부;
상기 센서로부터 감지되는 신호에 따라 상기 통신부를 통해 상기 음성 인식 디바이스로 일정 신호를 송신하도록 상기 통신부를 제어하는 제어부를 포함하고,
상기 제어부는,
상기 도어가 닫힘 상태에서 열림 상태로 변화되는 경우 또는 상기 도어가 열림 상태에서 닫힘 상태로 변화되는 경우에 상기 음성 인식 디바이스의 음성 인식 모듈을 활성화시키기 위한 신호를 상기 통신부를 통해 상기 음성 인식 디바이스로 송신하도록 구성되는,
음성 인식 디바이스와 통신하는 장치.
제 6 항에 있어서,
상기 컨테이너는, 상기 컨테이너 내부를 촬영하는 카메라를 포함하고,
상기 제어부는,
상기 카메라로 촬영된 영상에 기초하여 상기 도어가 열린 이후 상기 컨테이너 내부의 물품 배치에 변화가 있는지 판단하고, 변화가 있는 경우, 상기 음성 인식 장치의 음성 인식 모듈을 활성화시키기 위한 신호를 상기 통신부를 통해 상기 음성 인식 장치로 송신하도록 추가로 구성되는,
음성 인식 디바이스와 통신하는 장치.
제 6 항에 있어서,
상기 컨테이너는, 상기 컨테이너에 배치되는 물품의 무게를 감지할 수 있는 무게 센서를 포함하고,
상기 제어부는,
상기 무게 센서에 의해 감지된 상기 컨테이너에 배치되는 물품의 무게 정보에 기초하여 상기 도어가 열린 이후 상기 컨테이너 내부의 물품에 변화가 있는지 판단하고, 변화가 있는 경우, 상기 음성 인식 장치의 음성 인식 모듈을 활성화시키기 위한 신호를 상기 통신부를 통해 상기 음성 인식 장치로 송신하도록 추가로 구성되는,
음성 인식 디바이스와 통신하는 장치.
제 6 항에 있어서,
일정 조건에서 동작하도록 구성되는 인디케이터를 더 포함하고,
상기 제어부는,
상기 음성 인식 장치의 음성 인식 모듈을 활성화시키기 위한 신호를 상기 통신부를 통해 상기 음성 인식 장치로 송신하는 경우 상기 인디케이터를 동작시키도록 추가로 구성되는,
음성 인식 디바이스와 통신하는 장치.
제 6 항에 있어서,
상기 장치로의 인체의 접근 여부를 판단하기 위한 근접 센서를 더 포함하고,
상기 제어부는,
상기 도어가 열림 상태에서 닫힘 상태로 변경된 후, 상기 근접 센서에 의해 상기 장치로부터 일정 범위 내에 일정 시간 이상 인체가 머무는 것이 감지되는 경우, 상기 음성 인식 장치의 음성 인식 모듈을 활성화시키기 위한 신호를 상기 통신부를 통해 상기 음성 인식 장치로 송신하도록 추가로 구성되는,
음성 인식 디바이스와 통신하는 장치.
음성 인식 능력을 가진 장치를 제어하는 방법으로서,
상기 장치의 도어가 개방되는지 감지하는 단계;
상기 장치의 컨테이너로 물품이 추가되는지 또는 상기 장치의 컨테이너로부터 물품이 제거되는지를 판단하는 단계;
상기 도어가 개방된 후 상기 장치 내부로 물품이 추가되거나 상기 장치 내부로부터 물품이 제거되는 경우, 음성 인식 모듈을 활성화하는 단계;
상기 음성 인식 모듈이 활성화된 후 일정 시간 이내에 음성 명령이 수신되면 상기 음성 명령을 분석하여 수행하는 단계; 및
상기 음성 인식 모듈이 활성화된 후 일정 시간 이내에 음성 명령이 수신되지 않으면, 음성 인식 모듈을 비활성화하는 단계를 포함하는,
음성 인식 능력을 가진 장치를 제어하는 방법.
제 11 항에 있어서,
상기 컨테이너는, 상기 컨테이너 내부를 촬영하는 카메라를 포함하고,
상기 판단하는 단계는,
상기 카메라로 촬영된 영상에 기초하여 상기 도어가 열린 이후 상기 컨테이너 내부의 물품 배치에 변화가 있는지 판단하는,
음성 인식 능력을 가진 장치를 제어하는 방법.
제 11 항에 있어서,
상기 컨테이너는, 상기 컨테이너에 배치되는 물품의 무게를 감지할 수 있는 무게 센서를 포함하고,
상기 판단하는 단계는,
상기 무게 센서에 의해 감지된 상기 컨테이너에 배치되는 물품의 무게 정보에 기초하여 상기 도어가 열린 이후 상기 컨테이너 내부의 물품에 변화가 있는지 판단하는,
음성 인식 능력을 가진 장치를 제어하는 방법.
제 11 항에 있어서,
상기 장치는, 일정 조건에서 동작하도록 구성되는 인디케이터를 더 포함하고,
음성 인식 모듈을 활성화하는 단계는, 상기 인디케이터를 동작시키는 단계를 포함하는,
음성 인식 능력을 가진 장치를 제어하는 방법.
제 11 항에 있어서,
상기 장치는, 상기 장치로의 인체의 접근 여부를 판단하기 위한 근접 센서를 더 포함하고,
상기 방법은,
상기 도어가 열림 상태에서 닫힘 상태로 변경된 후, 상기 근접 센서에 의해 상기 장치로부터 일정 범위 내에 일정 시간 이상 인체가 머무는 것이 감지되는 경우, 상기 음성 인식 모듈을 활성화시키는 단계를 더 포함하는,
음성 인식 능력을 가진 장치를 제어하는 방법.