KR20180107637A

KR20180107637A - 전자 장치 및 전자 장치의 제어 방법

Info

Publication number: KR20180107637A
Application number: KR1020170036242A
Authority: KR
Inventors: 김민석; 이민호
Original assignee: 삼성전자주식회사
Priority date: 2017-03-22
Filing date: 2017-03-22
Publication date: 2018-10-02
Also published as: EP3552201A1; CN110431623B; WO2018174437A1; EP4235653A3; CN117594042A; CN110431623A; US10916244B2; EP3552201B1; EP3552201C0; US20180277112A1; US11721341B2; KR102398390B1; US20210134291A1; EP4235653A2; US20230352021A1; EP3552201A4

Abstract

전자 장치가 개시된다. 본 전자 장치는 적어도 하나의 마이크, 적어도 하나의 외부 기기와 통신을 수행하는 통신부 및 마이크를 통해 기설정된 사용자 음성에 대응되는 오디오 신호가 수신되면, 외부 기기 중 오디오 기기에서 출력되는 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령을 오디오 기기로 전송하도록 통신부를 제어하고, 기설정된 사용자 음성에 따라 전자 장치가 사용자 음성에 의해 제어되는 음성 제어 모드로 진입하도록 전자 장치를 제어하는 프로세서를 포함한다.

Description

전자 장치 및 전자 장치의 제어 방법{ELECTRONIC DEVICE AND CONTROLLING METHOD THEREOF}

본 개시는 전자 장치 및 전자 장치의 제어 방법에 관한 것으로, 보다 상세하게는, 사용자 음성에 대응되는 동작을 수행하는 전자 장치 및 전자 장치의 제어 방법에 관한 것이다.

최근 네트워크 통신 기술 및 음성 인식 기술이 발달함에 따라 사용자는 음성을 통해 네트워크를 통해 연결된 각종 전자 기기들의 동작을 제어할 수 있게 되었다. 예를 들어, 사용자는 IoT(Internet of Things) 환경이나 홈 네트워크 환경에서 음성 인식 기능을 구비한 전자 장치에 음성 명령을 발화함으로써 해당 전자 장치 또는 해당 전자 장치와 연결된 각종 기기들의 동작을 제어할 수 있다.

이때, 음성 인식 기능을 구비한 전자 장치 주변에서 스피커나 TV 등과 같은 오디오 기기가 오디오를 출력하고 있는 경우, 음성 인식률의 저하가 발생하며, 이는 사용자 음성을 통한 기기들의 원활한 제어에 방해가 된다.

이러한 문제점을 해결하기 위해, 마이크 어레이를 이용한 빔포밍 기술 등이 개발되어 적용되고 있으나, 주변 기기들로 인한 잡음이 많은 상황에서 음성 인식 성능 확보에는 한계가 있다.

이에 따라, 사용자가 가정 또는 사무실 내의 IoT 환경이나 홈네트워크 환경에서 제공되는 음성 기반 서비스를 이용하고자 할 때, 다양한 오디오 소스들로 인해 발생하는 음성 인식 성능 저하 문제를 개선할 수 있는 기술에 대한 필요성이 대두된다.

본 개시는 상술한 문제점을 해결하기 위해 안출된 것으로, 본 개시의 목적은 오디오 기기가 오디오를 출력 중인 상태에서 사용자가 음성 기반 서비스를 이용하고자 하는 경우 음성 인식 성능을 개선할 수 있는 전자 장치 및 전자 장치의 제어 방법을 제공함에 있다.

상술한 목적을 달성하기 위한 본 개시의 일 실시 예에 따른 전자 장치는 적어도 하나의 마이크, 적어도 하나의 외부 기기와 통신을 수행하는 통신부 및 상기 마이크를 통해 기설정된 사용자 음성에 대응되는 오디오 신호가 수신되면, 상기 외부 기기 중 오디오 기기에서 출력되는 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령을 상기 오디오 기기로 전송하도록 상기 통신부를 제어하고, 상기 기설정된 사용자 음성에 따라 상기 전자 장치가 사용자 음성에 의해 제어되는 음성 제어 모드로 동작하도록 상기 전자 장치를 제어하는 프로세서를 포함한다.

또한, 상기 프로세서는, 상기 음성 제어 모드에서 상기 마이크를 통해 상기 전자 장치 또는 상기 외부 기기를 제어하기 위한 사용자 음성에 대응되는 오디오 신호가 수신되면, 상기 사용자 음성에 대응되는 오디오 신호에 기초하여 상기 전자 장치를 제어하고, 상기 오디오 기기에서 출력되는 오디오 신호의 출력 레벨을 높이기 위한 제어 명령을 상기 오디오 기기로 전송하도록 상기 통신부를 제어할 수 있다.

또한, 상기 프로세서는, 상기 마이크를 통해 수신되는 복수의 오디오 기기의 오디오 신호 또는 상기 통신부를 통해 수신되는 상기 복수의 오디오 기기의 출력 레벨 정보에 기초하여 상기 복수의 오디오 기기 중 상기 출력 레벨을 낮추기 위한 제어 명령을 전송할 적어도 하나의 오디오 기기를 판단하고, 상기 판단된 오디오 기기로 상기 출력 레벨을 낮추기 위한 제어 명령을 전송하도록 상기 통신부를 제어할 수 있다.

또한, 상기 프로세서는, 복수의 오디오 기기 중 상기 출력 레벨이 기설정된 레벨 이상인 오디오 기기로 상기 출력 레벨을 낮추기 위한 제어 명령을 전송하도록 상기 통신부를 제어할 수 있다.

또한, 디스플레이;를 더 포함하고, 상기 프로세서는, 상기 기설정 사용자 음성에 따라 상기 전자 장치가 상기 음성 제어 모드로 진입한 이후, 상기 전자 장치 또는 상기 외부 기기를 제어하기 위한 사용자 음성을 발화할 것을 안내하는 안내 GUI를 디스플레이하도록 상기 디스플레이를 제어할 수 있다.

또한, 오디오 신호를 출력하는 스피커;를 더 포함하고, 상기 프로세서는, 상기 스피커를 통해 상기 오디오 신호를 출력하고 있는 상태에서, 상기 마이크를 통해 상기 기설정된 사용자 음성에 대응되는 오디오 신호가 수신되면, 상기 스피커를 통해 출력되는 상기 오디오 신호의 출력 레벨을 낮출 수 있다.

또한, 상기 통신부는, 적어도 하나의 다른 외부 기기와 통신하는 다른 전자 장치와 통신을 수행하고, 상기 프로세서는, 상기 마이크를 통해 상기 기설정된 사용자 음성에 대응되는 오디오 신호가 수신되면, 상기 다른 전자 장치와 통신하는 상기 다른 외부 기기 중 오디오 기기에서 출력되는 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령을 상기 다른 전자 장치로 전송하도록 상기 통신부를 제어할 수 있다.

또한, 상기 통신부는, 제1 마이크를 구비하며, 적어도 하나의 다른 외부 기기와 통신하는 다른 전자 장치와 통신을 수행하고, 상기 프로세서는, 상기 다른 전자 장치가 상기 제1 마이크를 통해 수신한 상기 기설정된 사용자 음성에 대한 음성 인식 정확도를 상기 다른 전자 장치로부터 수신하고, 상기 수신된 음성 인식 정확도를 상기 전자 장치의 제2 마이크를 통해 수신한 상기 기설정된 사용자 음성에 대한 음성 인식 정확도와 비교하고, 비교 결과에 따라 상기 제2 마이크를 통해 수신된 상기 기설정된 사용자 음성에 대한 음성 인식 정확도가 높은 경우, 상기 외부 기기 중 오디오 기기에서 출력되는 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령을 상기 오디오 기기로 전송하도록 상기 통신부를 제어할 수 있다.

또한, 상기 통신부는, 상기 전자 장치를 제어하는 원격 제어 장치와 통신을 수행하고, 상기 프로세서는, 상기 원격 제어 장치에 구비된 기설정된 버튼이 선택됨에 따라 상기 원격 제어 장치로부터 기설정된 신호가 수신되면, 상기 외부 기기 중 오디오 기기에서 출력되는 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령을 상기 오디오 기기로 전송하도록 상기 통신부를 제어할 수 있다.

한편, 본 개시의 일 실시 예에 다른 전자 장치의 제어 방법은, 적어도 하나의 마이크를 통해 기설정된 사용자 음성에 대응되는 오디오 신호가 수신되면, 적어도 하나의 외부 기기 중 오디오 기기에서 출력되는 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령을 상기 오디오 기기로 전송하는 단계 및 상기 전자 장치가 사용자 음성에 의해 제어되는 음성 제어 모드로 동작하는 단계를 포함한다.

또한, 상기 음성 제어 모드에서 상기 마이크를 통해 상기 전자 장치 또는 상기 외부 기기를 제어하기 위한 사용자 음성에 대응되는 오디오 신호가 수신되면, 상기 사용자 음성에 대응되는 오디오 신호에 기초하여 상기 전자 장치를 제어하는 단계 및 상기 오디오 기기에서 출력되는 오디오 신호의 출력 레벨을 높이기 위한 제어 명령을 상기 오디오 기기로 전송하는 단계를 더 포함할 수 있다.

또한, 상기 오디오 기기로 전송하는 단계는, 상기 마이크를 통해 수신되는 복수의 오디오 기기의 오디오 신호 또는 상기 복수의 오디오 기기에서 수신되는 상기 오디오 신호의 출력 레벨 정보에 기초하여 상기 복수의 오디오 기기 중 상기 출력 레벨을 낮추기 위한 제어 명령을 전송할 적어도 하나의 오디오 기기를 판단하는 단계 및 상기 판단된 오디오 기기로 상기 출력 레벨을 낮추기 위한 제어 명령을 전송하는 단계를 포함할 수 있다.

또한, 상기 오디오 기기로 전송하는 단계는, 복수의 오디오 기기 중 상기 출력 레벨이 기설정된 레벨 이상인 오디오 기기로 상기 출력 레벨을 낮추기 위한 제어 명령을 전송할 수 있다.

또한, 상기 기설정 사용자 음성에 따라 상기 전자 장치가 상기 음성 제어 모드로 진입한 이후, 상기 전자 장치 또는 상기 외부 기기를 제어하기 위한 사용자 음성을 발화할 것을 안내하는 안내 GUI를 디스플레이하는 단계를 더 포함할 수 있다.

또한, 상기 전자 장치가 오디오 신호를 출력하고 있는 상태에서, 상기 마이크를 통해 상기 기설정된 사용자 음성에 대응되는 오디오 신호가 수신되면, 상기 전자 장치의 오디오 신호의 출력 레벨을 낮추는 단계를 더 포함할 수 있다.

또한, 상기 전자 장치는, 적어도 하나의 다른 외부 기기와 통신하는 다른 전자 장치와 통신을 수행하고, 상기 마이크를 통해 상기 기설정된 사용자 음성에 대응되는 오디오 신호가 수신되면, 상기 다른 전자 장치와 통신하는 상기 다른 외부 기기 중 오디오 기기에서 출력되는 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령을 상기 다른 전자 장치로 전송하는 단계를 더 포함할 수 있다.

또한, 상기 전자 장치는, 제1 마이크를 구비하며, 적어도 하나의 다른 외부 기기와 통신하는 다른 전자 장치와 통신을 수행하고, 상기 다른 전자 장치가 상기 제1 마이크를 통해 수신한 상기 기설정된 사용자 음성에 대한 음성 인식 정확도를 상기 다른 전자 장치로부터 수신하는 단계 및 상기 수신된 음성 인식 정확도를 상기 전자 장치의 제2 마이크를 통해 수신한 상기 기설정된 사용자 음성에 대한 음성 인식 정확도와 비교하는 단계를 더 포함하고, 상기 오디오 기기로 전송하는 단계는, 비교 결과에 따라 상기 제2 마이크를 통해 수신된 상기 기설정된 사용자 음성에 대한 음성 인식 정확도가 높은 경우, 상기 외부 기기 중 오디오 기기에서 출력되는 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령을 상기 오디오 기기로 전송할 수 있다.

또한, 상기 전자 장치는, 상기 전자 장치를 제어하는 원격 제어 장치와 통신을 수행하고, 상기 오디오 기기로 전송하는 단계는, 상기 원격 제어 장치에 구비된 기설정된 버튼이 선택됨에 따라 상기 원격 제어 장치로부터 기설정된 신호가 수신되면, 상기 외부 기기 중 오디오 기기에서 출력되는 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령을 상기 오디오 기기로 전송하는 단계를 더 포함할 수 있다.

이상과 같은 본 개시의 다양한 실시 예들에 따르면, 오디오 기기가 오디오를 출력하고 있는 경우라도 최적의 음성 기반 서비스를 제공할 수 있다.

도 1은 본 개시의 일 실시 예에 따른 전자 장치를 통한 음성 인식 환경을 나타내는 예시도,
도 2는 본 개시의 일 실시 예에 따른 전자 장치의 구성을 나타내는 블럭도,
도 3은 본 개시의 일 실시 예에 따른 전자 장치의 동작을 나타내는 예시도,
도 4는 본 개시의 다른 일 실시 예에 따른 전자 장치의 구성을 나타내는 블럭도,
도 5는 본 개시의 일 실시 예에 따른 복수의 전자 장치를 포함하는 음성 인식 환경을 나타내는 예시도,
도 6은 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 나타내는 흐름도, 및
도 7은 본 개시의 일 실시 예에 따른 음성 제어 시스템의 동작을 나타내는 절차도이다.

본 개시를 설명함에 있어, 관련된 공지 기술에 대한 구체적인 설명이 본 개시의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 이하의 설명에서 사용되는 구성요소에 대한 접미사 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다.

본 명세서에서 사용한 용어는 실시 예를 설명하기 위해 사용된 것으로, 본 개시를 제한 및/또는 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 용어들에 의해 한정되어서는 안 된다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.

본 명세서에서, '포함하다' 또는 '가지다' 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

본 개시의 실시 예에서 "모듈", "유닛", "부(part)" 등과 같은 용어는 적어도 하나의 기능이나 동작을 수행하는 구성요소를 지칭하기 위한 용어이며, 이러한 구성요소는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의 "모듈", "유닛", "부(part)" 등은 각각이 개별적인 특정한 하드웨어로 구현될 필요가 있는 경우를 제외하고는, 적어도 하나의 모듈이나 칩으로 일체화되어 적어도 하나의 프로세서(미도시)로 구현될 수도 있다.

도 1은 본 개시의 일 실시 예에 따른 전자 장치(100)를 통한 음성 인식 환경(1)을 나타내는 예시도이다. 도 1에 따르면, 음성 인식 환경(1)은 전자 장치(100) 및 복수의 외부 기기(20 내지 50)를 포함할 수 있다.

전자 장치(100)는 각종 통신 방식을 통해 복수의 외부 기기(20 내지 50)와 연결되어 외부 기기(20 내지 50)의 동작을 제어할 수 있다. 특히, 전자 장치(100)는 음성 인식 기능을 구비하여 사용자(10)의 음성에 따라 자신의 동작을 제어하거나 외부 기기(20 내지 50)의 동작을 제어할 수 있다.

여기서, 전자 장치(100)가 음성 인식 기능을 구비한다고 함은, 반드시 전자 장치(100)가 음성 인식을 위한 모든 구성을 구비하고 있어야 한다는 것을 의미하는 것은 아니다. 예를 들어, 전자 장치(100)는 마이크(미도시)를 통해 수신되는 오디오 신호에 잡음 제거 등의 전처리만을 수행하고, 음성 인식을 위한 나머지 처리는 외부의 음성 인식 서버(200)와의 통신을 통해 수행되는 경우라도, 전자 장치(100)는 음성 인식 기능을 구비하고 있는 것이다.

이와 같은 전자 장치(100)는 다양한 종류의 장치로 구현될 수 있다. 예를 들어, 전자 장치(100)는 스마트 TV, 스마트 냉장고, 스마트폰, 액세스 포인트, 차량의 OBU(On-Borad Unit) 장치, 스마트 스피커, 노트북, 데스크탑 PC, 태블릿 등으로 구현될 수 있으나, 이에 한정되는 것은 아니다.

외부 기기 각각(20 내지 50)은 전자 장치(100)와 각종 통신 방식으로 연결되어 전자 장치(100)를 통해 그 동작이 제어될 수 있으며, 가정이나 사무실 내에서 전자 장치(100)와 함께 사물 인터넷 환경 내지 홈 네트워크 환경을 구성할 수 있다. 이때, 복수의 외부 기기(20 내지 50)는 오디오 신호를 출력하는 오디오 기기(30, 50)를 하나 이상 포함할 수 있다.

사물 인터넷 환경에서 사물의 종류에는 제한이 없으므로, 외부 기기의 종류 역시 제한이 없다. 예를 들어, 도 1에 도시된 바와 같이, 에어컨(20), 360도 스피커(30), 스마트 조명(40), MP3 스피커(50)일 수도 있고, 그 밖에 선풍기, 세탁기, 전자 렌지, 도어락, 사운드 바, 홈시어터, 스마트폰, TV, 냉장고 등 전자 장치(100)와 통신 연결되어 전자 장치(100)를 통해 동작이 제어될 수 있는 기기이면 그 종류에 제한이 없다.

도 1은 가정 내의 거실에 구성된 음성 인식 환경(1)을 도시하고 있다. 전자 장치(100)는 음성 인식 기능을 구비하고 있으므로, 사용자(10)는 음성 명령을 발화하여 전자 장치(100)의 동작을 제어하거나 전자 장치(100)를 통해 외부 기기(20 내지 50)의 동작을 제어할 수 있다.

구체적으로, 전자 장치(100)는 사용자(10)의 기설정된 음성이 수신되면, 음성 제어 모드로 동작할 수 있다. 도 1에서는 기설정된 음성이 "Hi, S-Voice"인 경우를 예로 들었다. 따라서, 사용자가 "Hi, S-Voice"를 발화하여 기설정된 음성이 수신되면, 전자 장치(100)는 음성 제어 모드로 동작하게 된다.

음성 제어 모드에서 사용자 음성이 수신되면, 전자 장치(100)는 수신된 사용자 음성을 인식하고, 인식된 음성에 대응되는 제어 명령을 수행하게 된다. 따라서, 사용자(10)는 전자 장치(100)가 음성 제어 모드로 진입한 상태에서, 전자 장치(100)나 복수의 외부 기기(20 내지 50) 중 적어도 하나의 동작을 제어하기 위한 사용자 음성을 발화하여 해당 기기의 동작을 제어할 수 있다. 도 1의 예에서, 사용자(10)가 "불을 켜"와 같은 문장을 발화하면, 전자 장치(100)는 사용자의 음성을 수신하여 인식하고, 스마트 조명(40)을 턴-온시키는 제어 명령을 스마트 조명(40)으로 전송하여 사용자 음성에 대응되는 동작을 수행할 수 있다.

한편, 음성 인식 환경(1)에서, 외부 기기들(20 내지 50) 중 오디오 기기(30, 50)가 오디오 신호를 출력하고 있는 상태에서 전자 장치(100)가 음성 제어 모드로 진입하는 경우가 있을 수 있다. 전자 장치(100)의 음성 인식 기능은 주변의 소음에 영향을 받게 되는데, 위와 같이, 전자 장치(100)가 음성 제어 모드로 동작할 때, 주변의 오디오 기기(30, 50)의 오디오 신호가 출력 중인 경우라면, 오디오 기기(30, 50)가 오디오 신호를 출력하지 않고 있는 경우보다 전자 장치(100)의 음성 인식률이 낮아지게 된다.

즉, 오디오 기기(30, 50)에서 출력되는 오디오 신호로 인해 사용자가 전자 장치(100)나 외부 기기(20 내지 50)를 제어하기 위한 제어 명령을 발화하더라도 전자 장치(100)가 사용자의 음성 제어 명령을 제대로 인식하지 못할 확률이 높아진다.

이러한 문제점을 해결하기 위해, 본 개시의 일 실시 예에 따른 전자 장치(100)는 기설정된 사용자 음성에 대응되는 오디오 신호가 수신되면, 전자 장치(100)와 통신 연결된 외부 기기들(20 내지 50) 중 오디오 기기(30, 50)에서 출력되는 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령을 오디오 기기(30, 50)로 전송한 후 음성 제어 모드로 동작함으로써, 전자 장치(100) 주변에서 오디오 기기(30, 50)가 오디오를 출력하고 있는 경우라도 최적의 음성 기반 서비스를 제공할 수 있게 된다.

도 1의 예에서, 스마트 TV(100)와 연결된 360도 스피커(30), MP3 스피커(50)가 스마트 TV(100) 주변 또는 사용자(10) 주변에서 높은 레벨로 음악을 출력 중인 경우, 사용자(10)가 발화한 "Hi, S-Voice"라는 트리거 단어를 인식한 스마트 TV(100)는 볼륨-다운 명령 또는 음소거 명령 등과 같이 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령을 360도 스피커(30) 및 MP3 스피커(50)로 전송하여 출력 중인 음악의 볼륨을 낮춘 후 음성 제어 모드로 동작하게 된다.

이에 따라, 이후 사용자가 전자 장치(100)나 외부 기기(20 내지 50)를 제어하기 위해 제어 명령을 발화하는 경우, 오디오 기기들(30, 50)의 출력으로 인한 음성 인식의 성능 저하 없이 최적의 상황에서 사용자의 음성 제어 명령을 인식할 수 있게 된다.

도 2는 본 개시의 일 실시 예에 따른 전자 장치의 구성을 나타내는 블럭도이다. 도 2에 따르면, 전자 장치(100)는 마이크(110), 프로세서(120) 및 통신부(130)를 포함할 수 있다.

마이크(110)는 음파 형태의 각종 오디오 신호를 외부로부터 수신하여 전기적 신호로 변환한 후 변환된 오디오 신호를 프로세서(120)로 전달한다. 이때, 마이크(110)를 통해 수신되는 오디오 신호에는 사용자(10)의 음성, 전자 장치(100) 주변의 오디오 기기에서 출력되는 각종 오디오 신호, 주변 잡음 등이 포함될 수 있다.

마이크(100)는 하나 이상의 마이크로폰으로 구현될 수 있으며, 전자 장치(100)와 일체형으로 구현될 수도 있고, 분리형으로 구현될 수도 있다. 여기서, 분리형 마이크는 마이크로폰이 전자 장치(100)의 본체에 포함되지 않고 따로 떨어져서 유선 또는 무선으로 전자 장치(100)와 연결되는 형태를 의미한다.

통신부(130)는 프로세서(120)의 제어를 받아 외부의 각종 서버나 단말과 각종 통신 방식으로 통신을 수행할 수 있다. 예를 들어, 통신부(110)는 사용자(10)의 음성을 인식하기 위한 음성 인식 서버(200)와 통신을 수행할 수 있다. 이때, 음성 인식 서버(200)는 클라우드 서버일 수 있으나 이에 한정되는 것은 아니다.

또한, 통신부(110)는 전자 장치(100) 주변의 각종 단말 즉, 외부 기기(20 내지 50)들과 통신을 수행하여 각종 제어 명령이나 정보를 송, 수신할 수 있다. 이때, 통신부(110)는 전자 장치(100) 주변의 외부 기기들(20 내지 50)과 통신을 수행하여 IoT 환경이나 홈네트워크 환경을 구성할 수 있으나, 이에 한정되는 것은 아니다.

프로세서(120)는 전자 장치(100)의 전반적인 동작을 제어한다. 특히, 프로세서(120)는 마이크(110)를 통해 사용자(10)의 기설정된 음성에 대응되는 오디오 신호가 수신되면, 전자 장치(100)와 통신하는 적어도 하나의 외부 기기(20 내지 50) 중 오디오 기기(30, 50)에서 출력되는 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령을 오디오 기기로 전송하도록 통신부(110)를 제어하고, 음성 제어 모드로 동작할 수 있다.

구체적으로, 프로세서(120)는 마이크(110)를 통해 수신되는 오디오 신호가 기설정된 음성에 대응되는 오디오 신호인지 여부를 판단할 수 있다. 예를 들어, 프로세서(120)는 마이크(110)를 통해 수신되는 오디오 신호를 처리하여 음성 인식을 수행하고, 인식된 음성이 기설정된 음성인지 여부를 판단할 수 있다. 이때, 음성 인식은 프로세서(120)에 의해 수행될 수도 있고, 음성 인식 서버(200)를 통해 수행될 수도 있다. 음성 인식 서버(200)를 통해 음성 인식을 수행하는 경우, 프로세서(120)는 마이크(110)를 통해 수신된 오디오 신호에 잡음 제거 등의 전처리만을 수행하고, 전처리된 오디오 신호를 음성 인식 서버(300)로 전송하도록 통신부(110)를 제어하고, 통신부(110)를 통해 음성 인식 서버(200)로부터 음성 인식 수행 결과를 수신할 수 있다.

여기서, 기설정된 음성은 전자 장치(100)가 음성 제어 모드로 진입하도록 하는 사용자의 음성으로, 전자 장치(100)의 제조자 또는 사용자가 설정한 단어 또는 문장을 사용자가 발화한 것일 수 있다. 기설정된 음성은 전자 장치(100)의 음성 제어 모드를 트리거하므로, 다른 말로 트리거 명령이라고 불릴 수도 있다.

음성 인식 결과, 기설정된 음성에 대응되는 오디오 신호가 수신된 것으로 판단되면, 프로세서(120)는 전자 장치(100) 주변의 오디오 기기(30, 50)에서 출력되는 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령을 오디오 기기(30, 50)로 전송하고, 음성 제어 모드로 동작할 수 있다.

구체적으로, 프로세서(120)는 마이크(100)를 통해 사용자(10)의 기설정된 음성이 수신된 경우, 전자 장치(100)와 연결된 외부 기기들(20 내지 50) 중 오디오 기기(30, 50)를 판단할 수 있다. 예를 들어, 프로세서(120)는 IoT 환경이나 홈네트워크 환경을 구성하기 위한 외부 기기(20 내지 50)와의 통신 연결 과정에서 외부 기기(20 내지 50) 각각에 관한 정보를 수신할 수 있다. 이때, 외부 기기(20 내지 50)에 관한 정보는 외부 기기의 종류, 명칭, 형상, MAC 주소 등과 같은 식별 정보를 포함할 수 있으며, 프로세서(120)는 이와 같은 식별 정보에 기초하여 외부 기기들(20 내지 30) 중 어떤 기기가 오디오 신호를 출력할 수 있는 오디오 기기인지 판단할 수 있다. 다른 예로, 프로세서(120)는 사용자(10)의 기설정된 음성이 수신된 경우, 근거리 통신 방식을 통해 전자 장치(100) 주변의 외부 기기(20 내지 50)로 기기의 식별 정보를 요청하고, 이에 응답하여 기기에 관한 정보가 수신되면, 수신된 정보에 기초하여 외부 기기들(20 내지 50) 중 어떤 기기가 오디오 기기(30, 50)인지 판단할 수도 있다.

이에 따라, 프로세서(120)는 외부 기기들(20 내지 50) 중 오디오 기기(30, 50)로 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령을 전송할 수 있다.

이때, 프로세서(120)는 마이크(110)를 통해 수신되는 복수의 오디오 기기(30, 50)의 오디오 신호 또는 통신부(110)를 통해 수신되는 복수의 오디오 기기(30, 50)의 출력 레벨 정보에 기초하여 복수의 오디오 기기(30, 50) 중 출력 레벨을 낮추기 위한 제어 명령을 전송할 적어도 하나의 오디오 기기를 판단하고, 판단된 오디오 기기로 출력 레벨을 낮추기 위한 제어 명령을 전송하도록 통신부(110)를 제어할 수 있다.

예를 들어, 프로세서(120)는 현재 오디오 기기(30, 50)가 출력하고 있는 오디오 신호의 출력 레벨에 관한 정보의 전송을 각 오디오 기기(30, 50)로 요청하도록 통신부(110)를 제어할 수 있다. 이에 따라, 각 오디오 기기(30, 50)로부터 오디오 신호 출력 레벨에 관한 정보가 수신되면, 프로세서(120)는 각 오디오 기기(30, 50)가 출력 중인 오디오 신호의 출력 레벨을 알 수 있다. 그러나, 실시 예가 이에 한정되는 것은 아니며, 프로세서(120)는 기설정된 주기로 각 오디오 기기(30, 50)로 오디오 신호의 출력 레벨에 관한 정보의 전송을 요청하여 각 오디오 기기(30, 50)의 오디오 신호 출력 레벨을 알 수도 있을 것이다. 여기서, 오디오 신호의 출력 레벨에 관한 정보는 오디오 기기(30, 50)가 출력하고 있는 오디오 신호의 볼륨 정보일 수 있으나, 이에 한정되는 것은 아니다.

이와 같이, 프로세서(120)는 전자 장치(100) 주변의 각 오디오 기기(30, 50)의 오디오 신호 출력 레벨을 판단할 수 있으므로, 복수의 오디오 기기(30, 50) 중 오디오 신호 출력 레벨이 기설정된 레벨 이상인 오디오 기기를, 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령을 전송할 오디오 기기로 판단하고, 해당 오디오 기기로 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령을 전송할 수 있다. 사용자(10)의 음성 인식에 방해가 되지 않을 정도의 낮은 레벨로 오디오 신호를 출력하고 있거나 오디오 신호를 출력하고 있지 않은 오디오 기기의 출력 레벨을 낮출 필요는 없기 때문이다.

한편, 프로세서(120)는 마이크(110)를 통해 복수의 오디오 기기(30, 50)가 출력하는 오디오 신호가 수신되면, 수신된 오디오 신호에 기초하여 오디오 신호가 수신되는 방향 정보 및 오디오 신호의 세기 정보를 판단할 수 있다. 예를 들어, 마이크(110)가 어레이-마이크인 경우, 프로세서(120)는 각 마이크를 통해 수신되는 오디오 신호의 위상을 분석하고 세기를 측정하여, 각 오디오 신호가 도래하는 방향 및 각 방향의 오디오 신호의 세기를 판단할 수 있다.

이에 따라, 프로세서(120)는 기설정된 세기 이상으로 오디오 신호를 출력하는 오디오 기기를, 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령을 전송할 오디오 기기로 판단하고, 해당 오디오 기기로 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령을 전송할 수 있다. 이때, 프로세서(120)는 전자 장치(100)를 기준으로 한 오디오 기기(30, 50)의 위치 또는 방향에 관한 기저장된 정보를 이용하거나 지향성 통신 방식을 이용하여 기설정된 세기 이상으로 오디오 신호를 출력하는 오디오 기기로 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령을 전송할 수 있을 것이다.

한편, 실시 예에 따라, 프로세서(120)는 복수의 오디오 기기(30, 50) 중 기설정된 사용자 음성을 발화한 사용자(10)와의 거리가 기설정된 거리보다 가까운 오디오 기기로 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령을 전송할 수도 있을 것이다. 이 경우, 예를 들어, 프로세서(120)는 카메라(미도시)를 이용하여 기설정된 사용자 음성이 수신된 때 사용자(10)의 위치 및 그 사용자(10)의 위치로부터 기설정된 거리 이내에 존재하는 오디오 기기를 특정하고, 기저장된 오디오 기기(30, 50)의 식별 정보, 위치 정보, 방향 정보 등을 이용하여 상기 특정된 오디오 기기로 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령을 전송할 수 있을 것이다. 또한, 도 4 및 도 5에서 후술할 바와 같이, 프로세서(120)는 다른 전자 장치와 기설정된 사용자 음성에 대한 음성 인식 정확도를 교환하고, 전자 장치(120)의 음성 인식 정확도가 다른 전자 장치의 음성 인식 정확도보다 높은 경우, 전자 장치(120)가 다른 전자 장치보다 사용자(10)와의 거리가 가깝다고 판단하고, 전자 장치(100)와 연결된 오디오 기기(30, 50)로 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령을 전송하도록 통신부(130)를 제어할 수도 있을 것이다.

또한, 실시 예에 따라, 프로세서(120)는 상술한 오디오 기기(30, 50)의 오디오 신호 출력 레벨 정보 및 기설정된 사용자 음성을 발화한 사용자(10)와의 거리 정보를 조합하여 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령을 전송할 오디오 기기를 판단할 수도 있음은 물론이다. 예를 들어, 프로세서(120)는 오디오 신호의 출력 레벨이 기설정된 레벨 이상이고, 사용자(10)와의 거리가 기설정된 거리 이내에 존재하는 오디오 기기로 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령을 전송할 수 있다.

한편, 이상에서, 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령은 오디오 기기(30, 50)가 현재 출력하고 있는 오디오 신호의 레벨보다 기설정된 레벨만큼 출력 레벨을 낮추기 위한 제어 명령일 수 있다. 예를 들어, 볼륨 레벨을 3만큼 낮추는 제어 명령일 수도 있고, 음소거 명령일 수도 있으나, 이에 한정되는 것은 아니다.

이와 같이, 오디오 기기(30, 50)로 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령을 전송한 프로세서(120)는 전자 장치(100)가 음성 제어 모드로 동작하도록 전자 장치(100)를 제어할 수 있다.

이때, 프로세서(120)는 오디오 기기(30, 50)로 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령을 전송한 후 즉시 음성 제어 모드로 동작하도록 전자 장치(100)를 제어할 수도 있고, 실시 예에 따라, 제어 명령 전송에 따라 오디오 기기(30, 50)의 오디오 신호의 출력 레벨이 낮아진 이후에 음성 제어 모드로 동작하도록 전자 장치(100)를 제어할 수도 있다. 후자의 경우, 프로세서(120)는, 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령에 대한 응답으로, 오디오 기기(30, 50)로부터 변경된 오디오 신호 출력 레벨 정보가 수신된 이후에 전자 장치(100)가 음성 제어 모드로 동작하도록 제어할 수 있을 것이다.

한편, 여기서, 음성 제어 모드는 전자 장치(100)가 사용자의 음성에 따라 전자 장치(100) 또는 전자 장치(100)와 연결된 외부 기기(20 내지 50)의 동작을 제어하는 모드이다. 따라서, 프로세서(120)는 음성 제어 모드에서 마이크(110)를 통해 전자 장치를 제어하기 위한 사용자 음성에 대응되는 오디오 신호 또는 외부 기기(20 내지 50)를 제어하기 위한 사용자 음성에 대응되는 오디오 신호가 수신되면, 사용자 음성에 대응되는 오디오 신호에 기초하여 전자 장치(100)의 동작을 제어할 수 있다.

구체적으로, 프로세서(120)는 전자 장치(100) 또는 외부 기기(20 내지 50)를 제어하기 위한 사용자 음성에 대응되는 오디오 신호가 수신되면, 수신된 오디오 신호를 처리하여 음성 인식을 수행하고, 인식된 사용자 음성에 대응되는 제어 명령을 수행할 수 있다. 예를 들어, 전자 장치(100)가 TV인 경우, "채널 올려"와 같은 사용자 음성에 대응되는 오디오 신호가 수신되면, 프로세서(120)는 음성 인식을 통해 "채널 올려"에 대응되는 제어 명령인 채널 업 동작을 수행할 수 있다. 다른 예로, 사용자가 "360도 스피커(30)를 꺼줘"라고 발화한 경우, 프로세서(120)는 음성 인식을 수행하여 제어 대상 기기 및 제어 명령을 판단하고, 360도 스피커(30)로 턴-오프 명령을 전송하여 360도 스피커(30)의 전원을 오프시킬 수 있다. 이 경우 역시, 음성 인식은, 프로세서(120)에 의해 수행될 수도 있고, 실시 예에 따라 음성 인식 서버(200)를 통해 수행될 수도 있음은 물론이다.

한편, 상술한 내용을 볼 때, 전자 장치(100)는 음성 제어 모드로 동작하기 전에도 음성 인식 기능 자체는 활성화되어 있는 것을 알 수 있다. 즉, 음성 제어 모드로 동작하기 전에도 기설정된 사용자 음성은 전자 장치(100)에 의해 인식될 수 있다. 다만, 이때는 기설정된 사용자 음성을 제외한 다른 사용자 음성, 예를 들어, 전자 장치(100)나 외부 기기(20 내지 50)를 제어하기 위한 사용자 음성이 수신되더라도 그에 따른 동작이 수행되지 않는다.

한편, 본 개시의 일 실시 예에 따르면, 프로세서(120)는, 상술한 바와 같이 음성 제어 모드에서 사용자 음성에 따른 동작을 수행한 후, 오디오 기기(30, 50)에서 출력되는 오디오 신호의 출력 레벨을 높이기 위한 제어 명령을 오디오 기기(30, 50)로 전송하도록 통신부(110)를 제어할 수 있다.

즉, 사용자 음성에 따른 동작이 완료된 이후에는, 음성 제어 모드에서의 최적의 사용자 음성 인식을 위해 낮아졌던 오디오 기기(30, 50)의 오디오 신호 출력 레벨이, 다시 이전의 출력 레벨로 복원될 수 있다. 그러나, 실시 예가 반드시 출력 레벨이 낮아지기 이전의 레벨로 동일하게 복원되는 것에 한정되는 것은 아니다.

한편, 본 개시의 다른 일 실시 예에 따르면, 전자 장치(100)가 음성 제어 모드로 진입한 이후 기설정된 시간 동안 사용자의 음성(예를 들어, 전자 장치(100) 또는 외부 기기(20 내지 50)를 제어하기 위한 사용자 음성)이 마이크(110)를 통해 수신되지 않는 경우에도, 프로세서(120)는 오디오 기기(30, 50)에서 출력되는 오디오 신호의 출력 레벨을 높이기 위한 제어 명령을 오디오 기기(30, 50)로 전송하도록 통신부(110)를 제어할 수 있다.

이때, "360도 스피커(30)를 꺼줘" 등과 같이 오디오 기기의 동작을 제어하기 위한 사용자 음성에 따라 제어 명령이 수행된 경우에는, 이후에 프로세서(120)가 오디오 신호의 출력 레벨을 높이기 위한 제어 명령을 360도 스피커(30)로 전송하더라도 그에 대응되는 동작이 수행되지 않을 수 있음은 물론이다. 즉, 음성 제어 모드에서 사용자가 음성을 통해 오디오 기기(30, 50)의 전원이나 볼륨을 조작한 경우, 프로세서(120)는 음성 제어 모드에서 사용자 음성에 따라 전원이나 볼륨이 조작된 오디오 기기(30, 50)로는 오디오 신호의 출력 레벨을 높이기 위한 제어 명령을 전송하지 않을 수 있다. 또는, 실시 예에 따라, 프로세서(120)가 오디오 신호의 출력 레벨을 높이기 위한 제어 명령을 전송하더라도 해당 오디오 기기(30, 50)는 그에 대응되는 동작을 수행하지 않을 수도 있다.

도 3은 본 개시의 일 실시 예에 따른 전자 장치(100)의 동작을 나타내는 예시도이다. 도 3에서 전자 장치(100)와 외부 기기들(20 내지 50)은 IoT 환경을 구성하고 있으며, 360도 스피커(30) 및 MP3 스피커(50)가 현재 오디오 신호를 출력 중인 상태이다. 이때, 360도 스피커(30)는 기설정된 레벨 미만으로 오디오 신호를 출력 중이고, MP3 스피커(50)는 기설정된 레벨 이상으로 오디오 신호를 출력 중인 것을 가정한다. 한편, 도 3에서 ① 내지 ⑤는 사용자(10)의 음성 발화 및 이에 따른 전자 장치(100)의 동작의 순서를 나타내다.

도 3에 도시된 바와 같이, 사용자(10)가 기설정된 사용자 음성인 "Hi, S-Voice"를 발화하면, 전자 장치(100)의 마이크(110)를 통해 "Hi, S-Voice"에 대응되는 오디오 신호가 수신될 수 있다. 이에 따라, 프로세서(120)는 수신된 오디오 신호에 각종 전처리 및 음성 인식을 수행하고, 인식된 음성이 기설정된 사용자 음성인지 여부를 판단할 수 있다.

"Hi, S-Voice"는 기설정된 사용자 음성이므로, 프로세서(120)는 오디오 기기(30, 50)로 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령을 전송하고, 음성 제어 모드로 동작하도록 전자 장치(100)를 제어한다. 한편, 실시 예에 따라, 프로세서(120)는 기설정된 레벨 이상의 오디오 신호를 출력하는 MP3 스피커(50)로만 출력 레벨을 낮추기 위한 제어 명령이나 음소거 명령을 전송한 후 음성 제어 모드로 동작하도록 전자 장치(100)를 제어할 수도 있다.

이에 따라, 오디오 기기들(30, 50)의 오디오 신호 출력 레벨이 낮아지거나 사라지게 되며, 사용자(10)는 음성 인식을 위한 최적의 상황에서 "에어컨을 켜줘"와 같이 에어컨(20)의 동작을 제어하기 위한 사용자 음성을 발화할 수 있다.

마이크(100)를 통해 "에어컨을 켜줘"라는 사용자 음성에 대응되는 오디오 신호가 수신되면, 프로세서(120)는 수신된 오디오 신호를 음성 인식하여 "에어컨을 켜줘"를 인식하고, 이에 따라, 에어컨(20)의 전원을 온시키는 제어 명령을 에어컨(20)으로 전송하도록 통신부(110)를 제어할 수 있다.

이에 따라, 에어컨(20)의 전원이 켜지게 되며, 본 개시의 일 실시 예에 따를 때, 프로세서(120)는 오디오 기기(30, 50)의 출력 레벨을 높이기 위한 제어 명령을 오디오 기기(30, 50)로 전송하여, 오디오 기기(30, 50)가 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령에 따라 오디오 신호의 출력 레벨을 낮추기 이전의 출력 레벨로 오디오 신호의 출력 레벨을 복원하도록 제어할 수 있다.

한편, 이상에서 기설정된 사용자의 음성이나 전자 장치(100) 또는 외부 기기들(20 내지 50) 중 적어도 하나를 제어하기 위한 사용자 음성의 인식은, 전자 장치(100)에 의해 또는 전자 장치(100)와 음성 인식 서버(200)의 조합을 통해 수행될 수 있음은 물론이다.

도 4는 본 개시의 다른 일 실시 예에 따른 전자 장치의 구성을 나타내는 블럭도이다. 도 4에 따르면, 전자 장치(400)는 마이크(410), 프로세서(420), 통신부(430), 디스플레이(440), 스피커(450), 저장부(460) 및 카메라부(470)를 포함할 수 있다. 도 4의 전자 장치(400)를 설명함에 있어, 도 2에서 설명한 전자 장치(100)의 구성과 동일한 구성에 관한 중복되는 설명은 생략한다.

마이크(410)는 외부에 존재하는 각종 음원에서 발생하는 오디오 신호를 수집한다. 이때, 마이크(410)는 제 1 마이크(410-1), 제 2 마이크(410-2) 및 제 N 마이크(410-N)와 같이 복수 개의 마이크로 구성될 수 있으며, 실시 예에 따라, 어레이-마이크(다른 말로, 마이크-어레이, 멀티채널 마이크, 다중 마이크 등과 같은 용어로 불리울 수도 있다.)를 구성할 수 있다.

한편, 마이크(410)는 예를 들어, 다이내믹 마이크와 콘덴서 마이크, 압전 현상을 이용한 압전 마이크, 탄소 입자의 접촉 저항을 이용한 카본 마이크, 음압에 비례하는 출력을 발생하는(무지향성) 압력 마이크 및 음의 입자 속도에 비례하는 출력을 발생하는 양지향성 마이크 중 적어도 하나의 마이크로폰으로 구성될 수 있으나, 이에 한정되는 것은 아니다.

통신부(430)는 프로세서(120)의 제어를 받아 각종 통신 방식으로 음성 인식 서버(200) 및 외부 기기들(20 내지 50)과 통신을 수행한다. 또한, 통신부(430)는 실시 예에 따라 적어도 하나의 다른 외부 기기와 통신하는 다른 전자 장치와 통신을 수행할 수도 있으며, 전자 장치(100)를 제어하는 원격 제어 장치(미도시)와 통신을 수행할 수도 있다.

이를 위해, 통신부(110)는 근거리 무선 통신 모듈(미도시) 및 무선랜 통신 모듈(미도시) 중 적어도 하나의 통신 모듈을 포함할 수 있다. 근거리 무선 통신 모듈(미도시)은 근거리에 위치한 외부 기기와 무선으로 데이터 통신을 수행하는 통신 모듈로써, 예를 들어, 블루투스(Bluetooth) 모듈, 지그비(ZigBee) 모듈, NFC(Near Field Communication) 모듈, 적외선 통신 모듈 등이 될 수 있다. 또한, 무선랜 통신 모듈(미도시)은 와이파이(WiFi), IEEE 등과 같은 무선 통신 프로토콜에 따라 외부 네트워크에 연결되어 외부 서버 또는 외부 기기와 통신을 수행하는 모듈이다.

이 밖에 통신부(110)는 실시 예에 따라 3G(3rd Generation), 3GPP(3rd Generation Partnership Project), LTE(Long Term Evoloution) 등과 같은 다양한 이동 통신 규격에 따라 이동 통신망에 접속하여 통신을 수행하는 이동 통신 모듈을 더 포함할 수도 있으며, HDMI(High-Definition Multimedia Interface), USB(Universal Serial Bus), IEEE(Institute of Electrical and Eletronics Engineers) 1394, RS-232, RS-422, RS-485, Ethernet 등과 같은 통신 규격에 따른유선 통신 모듈(미도시)을 더 포함할 수도 있다.

저장부(460)는 전자 장치(400)의 동작을 위해 O/S, 각종 프로그램 및 데이터를 저장할 수 있다. 예를 들어, 저장부(460)는 음성 인식을 위한 STT(Speech To Text) 엔진을 포함할 수 있다. STT 엔진은 사용자의 음성에 대응되는 오디오 신호를 텍스트로 변환하기 위한 모듈로서, 종래 개시되어 있는 다양한 STT 알고리즘을 이용하여 음성 신호를 텍스트로 변환할 수 있다.

예를 들어, STT 엔진은 마이크(410)를 통해 수집된 오디오 신호에서 사용자의 음성 구간을 검출하고, 선형 예측 계수(Linear Predictive Coefficient) 기술, 켑스트럼(Cepstrum) 기술, 주파수 대역별 에너지(Filter Bank Energy) 기술, MFCC(Mel Frequency Cepstral Coefficient) 기술 등을 통해 특징 벡터를 추출한다. 이때, 추출되는 특징 벡터는 에너지, 영교차율(ZCR), 피치(Pitch), 포먼트(Formant) 등을 포함할 수 있으나, 이에 한정되는 것은 아니다. 이에 따라, STT 엔진은 추출된 특징 벡터를 VQ(Vector Quantization) 기술, HMM(Hidden Markov Mdel) 기술, DTW(Dynamic Time Warping) 기술 등을 통해 생성된 각종 참조 모델에 적용하여 사용자의 음성을 텍스트로 변환할 수 있다. 이때, STT 엔진은 추출된 특징 벡터의 기준 음향 모델과의 유사도를 측정해 패턴을 분류하고, 언어 모델을 기반으로 언어로 처리하는 과정을 거치게 된다.

또한, 저장부(460)는 본 개시의 다양한 실시 예들에 따라 전자 장치(400)가 동작하기 위한 각종 프로그램 및 데이터를 저장할 수 있다. 예를 들어, 저장부(460)는 전자 장치(400) 주변에 존재하는 외부 기기(20 내지 50) 각각의 식별 정보, 위치 정보 및 방향 정보를 저장할 수 있다. 또한, 저장부(460)는 주기적으로 업데이트되는 오디오 기기(30, 50)의 오디오 신호 출력 레벨에 관해 정보를 저장할 수 있다.

이를 위해, 저장부(460)는 내장 메모리 또는 외장 메모리를 포함할 수 있다. 내장 메모리는, 휘발성 메모리 또는 비휘발성 메모리(non-volatile Memory) 중 적어도 하나를 포함할 수 있다. 휘발성 메모리는, 예를 들어 DRAM(dynamic RAM), SRAM(static RAM), SDRAM(synchronous dynamic RAM) 등일 수 있다. 비휘발성 메모리는 예를 들어 OTPROM(one time programmable ROM), PROM(programmable ROM), EPROM(erasable and programmable ROM), EEPROM(electrically erasable and programmable ROM), mask ROM, flash ROM, NAN flash memory, NOR flash memory 등일 수 있다. 또한, 내장 메모리는 Solid State Drive(SSD)일 수 있다. 외장 메모리는 flash drive, CF(compact flash), SD(secure digital), Micro-SD(micro secure digital), Mini-SD(mini secure digital), xD(extreme digital) 또는 Memory Stick 등을 포함할 수 있다. 외장 메모리는 다양한 인터페이스를 통하여 전자 장치(300)와 기능적으로 연결될 수 있다. 또한, 전자 장치(400)는 하드 드라이브와 같은 저장 장치를 더 포함할 수도 있다.

디스플레이(440)는 화면을 디스플레이한다. 여기에서, 화면은 이미지, 동영상, 텍스트, 음악 등과 같은 다양한 컨텐츠 재생 화면, 다양한 컨텐츠를 포함하는 애플리케이션 실행 화면, 각종 GUI(Graphic User Interface) 화면 등을 포함할 수 있다. 특히, 디스플레이(440)는 후술할 바와 같이, 프로세서(420)의 제어를 받아 전자 장치(400) 또는 외부 기기(20 내지 50)를 제어하기 위한 사용자 음성을 발화할 것을 안내하는 GUI를 디스플레이할 수 있다.

이를 위해, 디스플레이(440)는 액정 디스플레이(liquid crystal display), 박막 트랜지스터 액정 디스플레이(thin film transistor-liquid crystal display), 유기 발광 다이오드(organic light-emitting diode), 플렉시블 디스플레이(flexible display), 3차원 디스플레이(3D display) 등과 같은 다양한 디스플레이로 구현될 수 있다. 또한, 디스플레이(440)는 터치 스크린으로 구현될 수도 있다.

스피커(450)는 전기적 오디오 신호를 소리로 변환하여 출력한다. 즉, 구현 예에 따라, 전자 장치(400)가 오디오 신호를 출력하는 오디오 기기로 구현되는 경우, 전자 장치(400)는 스피커(450)를 포함할 수 있다.

카메라부(470)는 프로세서(420)의 제어에 따라 전자 장치(400) 외부의 영상을 촬영한다. 특히, 카메라부(470)는 프로세서(420)의 제어를 받아 기설정된 사용자 음성이 수신된 때 사용자(10)를 포함하는 영상을 촬영할 수 있다. 이를 위해, 카메라부(470)는 각종 이미지 센서 및 렌즈 등을 포함할 수 있다.

프로세서(420)는 전자 장치(400)의 전반적인 동작을 제어한다. 특히, 프로세서(420)는 저장부(460)에 저장된 각종 프로그램이나 데이터를 읽어, 본 개시의 다양한 실시 예들에 따른 전자 장치(400)의 동작을 수행할 수 있다. 이를 위해, 프로세서(120)는 중앙처리장치(central processing unit(CPU)), controller, 어플리케이션 프로세서(application processor(AP)), 또는 커뮤니케이션 프로세서(communication processor(CP)), ARM 프로세서 중 하나 또는 그 이상을 포함할 수 있다.

본 개시의 일 실시 예에 따르면, 프로세서(420)는 기설정 사용자 음성에 따라 전자 장치(100)가 음성 제어 모드로 진입한 이후, 전자 장치(100) 또는 외부 기기(20 내지 50) 중 적어도 하나를 제어하기 위한 사용자 음성을 발화할 것을 안내하는 안내 GUI를 디스플레이하도록 디스플레이(440)를 제어할 수 있다.

즉, 기설정된 사용자 음성이 인식됨에 따라 오디오 기기(30, 50)에서 출력되는 오디오 신호의 출력 레벨이 낮아지고, 전자 장치(100)가 음성 제어 모드로 동작하는 경우, 사용자의 음성 명령을 인식하기 위한 최적의 상태가 조성된 것이므로, 프로세서(420)는 안내 GUI를 디스플레이(440)에 디스플레이하여 사용자(10)에게 음성 명령 발화를 안내할 수 있다. 이때, 프로세서(420)는 예를 들어, "말하세요", "음성 명령을 발화하세요" 등과 같은 텍스트 형태의 안내 GUI 또는 마이크가 점멸되는 이미지 등과 같은 이미지 형태의 안내 GUI를 디스플레이할 수 있으나, 이에 한정되는 것은 아니다.

실시 예에 따라, 프로세서(420)는, 기설정 사용자 음성에 따라 전자 장치(100)가 음성 제어 모드로 진입한 이후, 전자 장치(100) 또는 외부 기기(20 내지 50) 중 적어도 하나를 제어하기 위한 사용자 음성을 발화할 것을 안내하는 안내 음성을 출력하도록 스피커(450)를 제어할 수도 있을 것이다.

한편, 도 1 내지 도 3을 통해서는, 기설정된 사용자 음성에 대응되는 오디오 신호가 수신된 경우, 외부 기기(20 내지 50) 중 오디오 기기(30, 50)가 출력하는 오디오 신호의 출력 레벨을 낮추는 경우만을 예로 들었으나, 이에 한정되는 것은 아니다. 즉, 상술한 바와 같이, 구현 예에 따라 전자 장치(400)도 오디오 기기로 구현될 수 있으며, 이 경우, 전자 장치(100)도 스피커(450)를 통해 오디오 신호를 출력할 수 있다.

따라서, 본 개시의 일 실시 예에 따르면, 프로세서(420)는 스피커(450)를 통해 오디오 신호가 출력되고 있는 상태에서, 마이크(410)를 통해 기설정된 사용자 음성에 대응되는 오디오 신호가 수신되는 경우, 스피커(450)를 통해 출력되는 오디오 신호의 출력 레벨을 낮추도록 전자 장치(400)를 제어할 수 있다.

한편, 도 2에서 전술한 바와 같이, 프로세서(420)는 복수의 오디오 기기(30, 50) 중 기설정된 사용자 음성을 발화한 사용자(10)와의 거리가 기설정된 거리보다 가까운 오디오 기기로 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령을 전송할 수 있다. 이 경우, 프로세서(420)는 마이크(410)로 기설정된 사용자 음성이 수신되면, 사용자(10)를 포함하는 영상을 획득하도록 카메라부(470)를 제어할 수 있다.

사용자(10)를 포함하는 사용자 주변 영상이 획득되면, 프로세서(420)는 획득된 영상을 분석하여 사용자(10)의 위치 및 그 사용자(10)의 위치로부터 기설정된 거리 이내에 존재하는 오디오 기기를 판단하고, 판단된 오디오 기기로 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령을 전송할 수 있다.

구체적으로, 저장부(460)에는 오디오 기기(30, 50)의 식별 정보, 위치 정보 및 방향 정보가 저장될 수 있으며, 이때, 식별 정보는 해당 오디오 기기(30, 50)의 사진 등과 같은 형상 정보를 포함할 수 있으므로, 프로세서(420)는 저장부(460)에 저장된 상기 정보들에 기초하여, 영상 분석을 통해 판단된 오디오 기기를 식별할 수 있고, 이에 따라, 식별된 오디오 기기로 제어 명령을 전송할 수 있다.

한편, 본 개시의 일 실시 예에 따르면, 프로세서(420)는 적어도 하나의 다른 외부 기기와 통신하는 다른 전자 장치와 통신을 수행하도록 통신부(430)를 제어할 수 있다. 이때, 프로세서(420)는 마이크(410)를 통해 기설정된 사용자 음성이 수신되면, 다른 전자 장치와 통신하는 다른 외부 기기 중 오디오 기기에서 출력되는 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령을 다른 전자 장치로 전송하도록 통신부(430)를 제어할 수 있다.

다른 전자 장치와 연결된 다른 외부 기기는 전자 장치(400)가 그 동작을 제어할 수 없으므로, 프로세서(420)는 다른 외부 기기와 연결되어 그 동작을 제어할 수 있는 다른 전자 장치로 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령을 전송함으로써, 다른 외부 기기 중 오디오 기기에서 출력되는 오디오 신호의 출력 레벨을 낮출 수 있다.

한편, 실시 예에 따라 프로세서(420)는 오디오 출력 레벨이 기설정된 레벨 이상인 오디오 기기로만 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령을 전송할 수 있는데, 이는 다른 전자 장치에 연결된 다른 오디오 기기에 대하여도 마찬가지이다.

구체적으로, 프로세서(420)는 전자 장치(400)와 연결된 외부 기기에 관한 정보를 다른 전자 장치로 전송하고, 다른 전자 장치로부터 다른 전자 장치와 연결된 외부 기기에 관한 정보를 수신할 수 있다. 이때, 서로 교환되는 외부 기기에 관한 정보에는 외부 기기의 식별 정보가 포함될 수 있다. 이에 따라, 프로세서(420)는 다른 전자 장치와 연결된 외부 기기(특히, 오디오 기기)를 식별할 수 있다.

또한, 프로세서(420)는 마이크(410)를 통해 기설정된 사용자 음성이 수신되면, 다른 전자 장치로 다른 전자 장치와 연결된 외부 기기 중 오디오 기기가 출력하는 오디오 신호의 출력 레벨에 관한 정보를 전송할 것을 요청할 수 있다. 이에 따라, 다른 전자 장치는 자신과 연결된 오디오 기기로 오디오 신호 출력 레벨에 관한 정보를 요청하여 이를 수신한 후, 전자 장치(400)로 전송할 수 있다.

따라서, 프로세서(420)는 다른 전자 장치와 연결된 오디오 기기의 오디오 신호 출력 레벨을 알 수 있으므로, 이에 기초하여 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령을 전송할 기기로, 다른 전자 장치와 연결된 오디오 기기를 판단할 수 있다. 이 경우, 프로세서(420)는 상기 판단된 오디오 기기에 관한 정보와 함께 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령을 다른 전자 장치로 전송함으로써, 다른 전자 장치와 연결된 오디오 기기의 오디오 신호 출력 레벨을 낮출 수 있다.

한편, 본 개시의 다른 일 실시 예에 따르면, 프로세서(420)는 다른 전자 장치가 다른 전자 장치에 구비된 마이크를 통해 수신한 기설정된 사용자 음성에 대한 음성 인식 정확도를 다른 전자 장치로부터 수신하고, 수신된 음성 인식 정확도를 전자 장치(400)의 마이크(410)를 통해 수신한 기설정된 사용자 음성에 대한 음성 인식 정확도와 비교하며, 비교 결과에 따라 마이크(410)를 통해 수신된 기설정된 사용자 음성에 대한 음성 인식 정확도가 높은 경우, 외부 기기(20 내지 50) 중 오디오 기기(30, 50)에서 출력되는 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령을 오디오 기기(30, 50)로 전송하도록 통신부(430)를 제어할 수 있다.

즉, 프로세서(420)는 다른 전자 장치와 기설정된 사용자 음성에 대한 음성 인식 정확도를 교환하고, 다른 전자 장치로부터 수신된 음성 인식 정확도보다 전자 장치(400)의 음성 인식 정확도가 더 높은 경우에, 오디오 신호의 출력 레벨을 낮추기 위한 제어 신호를 전자 장치(400)와 연결된 오디오 기기(30, 50)로 전송하도록 통신부(430)를 제어할 수 있다.

예를 들어, 각자 연결된 외부 기기를 갖는 복수의 전자 장치가 한 공간(예를 들어, 한 가정 또는 한 사무실)에 존재하는 경우, 사용자(10)가 그 공간에서 기설정된 사용자 음성을 발화하면, 복수의 전자 장치 각각은 각각에 구비된 마이크를 통해 사용자가 발화한 기설정된 사용자 음성을 수신하고, 기설정된 사용자 음성에 대응되는 오디오 신호에 음성 인식을 각각 수행할 수 있다. 이때, 각 전자 장치는 공지의 방법을 이용하여, 인식된 음성의 품질을 평가할 수 있으며, 이를 음성 인식 정확도 내지 음성 인식 신뢰도로 산출할 수 있다. 이에 관한 구체적인 내용은 본 개시와 무관하므로, 자세한 설명은 생략한다.

본 개시의 일 실시 예에 따르면, 외부 기기들은 전자 장치와 근거리 통신을 통해 연결될 수 있으므로, 각 전자 장치에 연결된 외부 기기는 다른 전자 장치와의 거리에 비해 자신이 연결된 전자 장치와의 거리가 가까울 수 있다. 한편, 사용자(10)와 전자 장치와의 거리가 가까울수록 음성 인식의 정확도가 높아지는 것이 일반적이므로, 동일한 기설정된 사용자 음성에 대한 음성 인식 정확도가 높은 전자 장치일수록 사용자(10)와의 거리가 더 가깝다고 판단할 수 있다.

따라서, 사용자와의 거리가 가까운 전자 장치에 연결된 오디오 기기들이 다른 전자 장치에 연결된 다른 오디오 기기들보다 사용자와의 거리가 더 가깝다고 추정할 수 있으며, 사용자와의 거리가 가까운 오디오 기기가 오디오 신호를 출력하는 것이 사용자와의 거리가 먼 오디오 기기가 오디오 신호를 출력하는 것보다 음성 인식에 더 방해가 되므로, 상술한 본 개시의 일 실시 예와 같이, 다른 전자 장치에 비해 음성 인식 정확도가 높은 전자 장치가 자신과 연결된 오디오 기기의 오디오 신호의 출력 레벨을 낮추는 것이, 음성 인식 정확도가 낮은 다른 전자 장치가 다른 전자 장치에 연결된 오디오 기기의 오디오 출력 신호를 낮추는 것보다 음성 인식 성능 개선에 효과적이다.

한편, 본 개시의 또 다른 일 실시 예에 따르면, 프로세서(420)는 전자 장치(100)를 제어하는 원격 제어 장치(미도시)에 구비된 기설정된 버튼이 선택됨에 따라 원격 제어 장치로부터 기설정된 신호가 수신되면, 외부 기기들(20 내지 50) 중 오디오 기기(30, 50)에서 출력되는 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령을 오디오 기기(30, 50)로 전송할 수도 있다.

즉, 전술한 예들에서는 전자 장치(100)가 오디오 기기(30, 50)로 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령을 전송하고, 음성 제어 모드로 동작하기 위해, 기설정된 사용자 음성에 대응되는 오디오 신호가 마이크(410)를 통해 수신되는 경우를 예로 들었으나, 실시 예에 따라 위와 같이, 통신부(430)를 통해 전자 장치와 통신하는 원격 제어 장치(미도시)로부터 기설정된 신호가 수신되는 경우에도 이와 같이 동작할 수 있다.

이때, 원격 제어 장치는 예를 들어, 리모컨 또는 스마트폰 등으로 구현될 수 있다. 원격 제어 장치가 리모컨인 경우, 리모컨에 구비된 기설정된 버튼이 사용자에 의해 선택됨에 따라 기설정된 신호가 적외선 통신 방식을 통해 통신부(430)로 수신될 수 있으며, 원격 제어 장치가 스마트폰인 경우, 스마트폰에 설치된 원격 제어 애플리케이션의 실행 화면에 디스플레이된 기설정된 오브젝트를 사용자가 선택함에 따라 기설정된 신호가 블루투스 통신 방식 등을 통해 통신부(430)로 수신될 수 있을 것이다.

도 5는 본 개시의 일 실시 예에 따른 복수의 전자 장치(400-1, 400-2)를 포함하는 음성 인식 환경을 나타내는 예시이다. 도 5에서는, 스마트 냉장고(400-1)가 도 4의 전자 장치(400)이고, 스마트 TV(400-2)가 다른 전자 장치인 경우를 가정하여 설명한다.

도 5를 참조하면, 스마트 냉장고(400-1)가 부엌에 함께 배치된 오디오 기기인 MP3 스피커(50) 및 방 1에 배치된 오디오 기기인 보틀형 스피커(70)와 연결되고, 다른 전자 장치인 스마트 TV(400-2)가 거실에 함께 배치된 360도 스피커(30) 및 홈 씨어터(80)와 연결되어 가정 내에서 IoT 환경을 구성하고 있다. 한편, 각 오디오 기기들(50, 70, 30, 80)은 오디오 신호를 출력하고 있다.

이때, 사용자(10)가 부엌에서 기설정된 사용자 음성("Hi, S-Voice")을 발화하는 경우가 있을 수 있다. 거실과 부엌은 공간적으로 열려있으므로, 스마트 냉장고(400-1) 및 스마트 TV(400-2)는 각자 구비된 마이크를 통해 사용자가 발화한 기설정된 사용자 음성에 대응되는 오디오 신호를 수신하고, 수신된 오디오 신호를 처리하여 음성 인식을 수행할 수 있다. 이때, 본 개시의 일 실시 예에 따르면, 스마트 냉장고(400-1) 및 스마트 TV(400-2)는 각자가 인식한 기설정된 사용자 음성에 대한 음성 인식 정확도를 산출하고, 산출된 음성 인식 정확도를 서로 교환할 수 있다. 도 5의 예에서, 사용자(10)와의 거리는 스마트 냉장고(400-1)가 스마트 TV(400-2)보다 가까우므로, 스마트 냉장고(400-1)의 음성 인식 정확도가 더 높을 것이다.

스마트 TV(400-2)로부터 음성 인식 정확도를 수신한 스마트 냉장고(400-1)는 자신이 인식한 기설정된 사용자 음성에 대한 음성 인식 정확도가 더 높으므로, 자신과 연결된 오디오 기기인 MP3 스피커(50) 및 보틀형 스피커(70)로 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령을 전송하고, 음성 제어 모드로 동작할 수 있다. 이후, 실시 예에 따라, 스마트 냉장고(400-1)는 사용자 음성 명령을 발화할 것을 안내하는 안내 GUI를 디스플레이하거나 안내 음성을 출력할 수 있으며, 이에 따라, 사용자는 스마트 냉장고(400-1), 스마트 TV(400-2) 및 각 오디오 기기들(50, 70, 30, 80) 중 적어도 하나의 동작을 제어하기 위한 음성 명령을 발화하여 해당 기기의 동작을 제어할 수 있다.

한편, 실시 예에 따라, 스마트 냉장고(400-1)는 스마트 TV(400-2)로 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령을 전송하여 스마트 TV(400-2)가 출력 중인 오디오 신호의 출력 레벨을 낮출 수도 있고, 스마트 TV(400-2)로 360도 스피커(30)나 홈씨어터(80)에 관한 정보와 함께 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령을 전송하여 스마트 TV(400-2)와 연결된 오디오 기기(30, 80)의 오디오 신호 출력 레벨을 낮출 수도 있음은 물론이다.

한편, 이상과 같은 본 개시의 다양한 실시 예들은 상술한 예외에 다양한 상황에 적용될 수 있다. 예를 들어, 사용자는 차량을 운전 중에 휴대폰으로 음악 스트리밍 서비스에 접속하여 음악을 감상할 수 있다. 이때, 스트리밍되는 음악은 블루투스 통신 등을 통해 차량의 스피커를 통해 출력될 수 있다.

이와 같은 상황에서, 사용자가 음성으로 차량의 동작을 제어하기 위해, 음성 인식 기능을 트리거하기 위한 기설정된 사용자 음성을 발화하는 경우, 음성 인식 기능을 탑재한 차량의 OBU(On-Board Unit)는, 기설정된 사용자 음성을 인식하고 음악을 스트리밍 중인 휴대폰으로 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령 (예를 들어, 음소거 명령)을 전송한 후 음성 제어 모드로 동작할 수 있다. 이에 따라, 휴대폰의 스트리밍 서비스는 일시적으로 정지(pause)되며, 사용자는 음성 명령을 통해 차량의 동작을 제어할 수 있다. 음성을 통한 차량의 동작 제어가 완료된 이후 OBU는 휴대폰으로 오디오 신호의 출력 레벨을 높이기 위한 제어 명령(예를 들어, Come-Back 명령)을 전송할 수 있으며, 이에 따라 휴대폰은 정지되었던 스트리밍 서비스를 차량의 스피커를 통해 재개할 수 있다.

다른 예로, 사용자가 거실에서 음성 인식 기능을 탑재한 TV를 통해 영화를 감상할 때 영화의 사운드는 TV와 연결된 홈씨어터를 통해 재생하도록 할 수가 있다. 이때, 사용자가 TV와 연결된 각종 기기들을 TV를 통해 음성으로 제어하고자 하더라도, TV와 사용자 간에는 짧지 않은 거리가 있고, TV 근처에서 홈씨어터가 영화의 사운드를 출력하고 있으므로, TV에 탑재된 음성 인식 기능은 정상적으로 동작하지 않을 수 있다.

이 경우, 사용자는 자신과 가까이 있는 휴대폰에 탑재된 음성 인식 기능을 이용할 수 있다. 즉, 사용자가 기설정된 사용자 음성을 발화하면, 휴대폰은 이를 인식하고, 홈씨어터에 대한 볼륨 다운 명령 또는 음소거 명령을 TV로 전송하여 홈씨어터가 출력 중인 사운드의 볼륨을 줄이거나 음소거시킬 수 있다. 이후 사용자의 음성 명령에 따른 동작을 수행한 휴대폰은 홈씨어터에 대한 볼륨 업 명령을 TV로 전송하여 영화의 사운드를 다시 복원할 수 있다.

도 6은 본 개시의 일 실시 예에 다른 전자 장치의 제어 방법을 나타내는 흐름도이다. 도 6을 설명함에 있어, 전술한 것과 중복되는 내용의 설명은 생략한다.

도 6에 따르면, 전자 장치(100, 400)는 적어도 하나의 마이크를 통해 기설정된 사용자 음성에 대응되는 오디오 신호가 수신되면, 적어도 하나의 외부 기기 중 오디오 기기에서 출력되는 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령을 오디오 기기로 전송할 수 있다(S610).

예를 들어, 전자 장치(100, 400)는 마이크를 통해 수신되는 복수의 오디오 기기의 오디오 신호 또는 복수의 오디오 기기에서 수신되는 오디오 신호의 출력 레벨 정보에 기초하여 복수의 오디오 기기 중 출력 레벨을 낮추기 위한 제어 명령을 전송할 적어도 하나의 오디오 기기를 판단하고, 판단된 오디오 기기로 출력 레벨을 낮추기 위한 제어 명령을 전송할 수 있다.

이때, 전자 장치(100, 400)는 복수의 오디오 기기 중 상기 출력 레벨이 기설정된 레벨 이상인 오디오 기기로 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령을 전송할 수 있다.

또한, 전자 장치(100, 400)는, 전자 장치(100, 400)가 오디오 신호를 출력하고 있는 상태에서 마이크를 통해 기설정된 사용자 음성에 대응되는 오디오 신호가 수신되면, 전자 장치(100, 400)가 출력하는 오디오 신호의 출력 레벨을 낮출 수 있다.

한편, 전자 장치(100, 400)는 전자 장치를 제어하는 원격 제어 장치와 통신을 수행하고, 원격 제어 장치에 구비된 기설정된 버튼이 선택됨에 따라 원격 제어 장치로부터 기설정된 신호가 수신되면, 외부 기기 중 오디오 기기에서 출력되는 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령을 오디오 기기로 전송할 수도 있다.

위와 같이, 오디오 기기의 오디오 신호 출력 레벨을 낮추기 위한 제어 명령을 오디오 기기로 전송한 이후, 전자 장치(100, 400)는 사용자 음성에 의해 제어되는 음성 제어 모드로 동작할 수 있다(S620). 이때, 전자 장치(100, 400)는 기설정 사용자 음성에 따라 전자 장치가 음성 제어 모드로 진입한 이후, 전자 장치 또는 외부 기기를 제어하기 위한 사용자 음성을 발화할 것을 안내하는 안내 GUI를 디스플레이할 수 있다.

한편, 음성 제어 모드에서 마이크를 통해 전자 장치(100, 400) 또는 외부 기기를 제어하기 위한 사용자 음성에 대응되는 오디오 신호가 수신되면, 전자 장치(100, 400)는 사용자 음성에 대응되는 오디오 신호에 기초하여 전자 장치를 제어하고, 오디오 기기에서 출력되는 오디오 신호의 출력 레벨을 높이기 위한 제어 명령을 오디오 기기로 전송함으로써, 오디오 기기의 출력 레벨을 복원할 수 있다.

한편, 본 개시의 일 실시 예에 따르면, 전자 장치(100, 400)는 적어도 하나의 다른 외부 기기와 통신하는 다른 전자 장치와 통신을 수행하고, 마이크를 통해 기설정된 사용자 음성에 대응되는 오디오 신호가 수신되면, 다른 전자 장치와 통신하는 다른 외부 기기 중 오디오 기기에서 출력되는 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령을 다른 전자 장치로 전송할 수 있다.

또한, 전자 장치(100, 400)는 제1 마이크를 구비하며, 적어도 하나의 다른 외부 기기와 통신하는 다른 전자 장치와 통신을 수행하고, 다른 전자 장치가 제1 마이크를 통해 수신한 기설정된 사용자 음성에 대한 음성 인식 정확도가 다른 전자 장치로부터 수신되면, 수신된 음성 인식 정확도를 전자 장치의 제2 마이크를 통해 수신한 기설정된 사용자 음성에 대한 음성 인식 정확도와 비교하고, 비교 결과에 따라 제2 마이크를 통해 수신된 기설정된 사용자 음성에 대한 음성 인식 정확도가 높은 경우, 외부 기기 중 오디오 기기에서 출력되는 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령을 오디오 기기로 전송할 수도 있다.

도 7은 본 개시의 일 실시 예에 따른 음성 제어 시스템의 동작을 나타내는 절차도이다. 도 7에서 전자 장치 1(400-1)은 오디오 기기 1(50)과 연결되고 전자 장치 2(400-2)는 오디오 기기 2(30)과 연결되어 있으며, 각 오디오 기기(50, 30)는 오디오 신호를 출력 중이다. 한편, 도시하지는 않았으나 각 전자 장치(400-1, 400-2)에는 다른 외부 기기들이 더 연결되어 있을 수도 있음은 물론이다.

도 7에 따르면, 사용자가 전자 장치 1 및 2(400-1, 400-2)를 통해 각 전자 장치(400-1, 400-2) 또는 각 전자 장치(400-1, 400-2)에 연결된 기기들의 동작을 제어하기 위해 기설정된 사용자 음성을 발화하면, 전자 장치 1(400-1) 및 전자 장치 2(400-2)는 각 전자 장치(400-1, 400-2)에 구비된 마이크를 통해 기설정된 사용자 음성을 수신하고, 수신된 사용자 음성에 대한 음성 인식을 수행하고(S700), 인식된 음성에 대한 음성 인식 정확도를 측정한 후(S705), 측정된 음성 인식 정확도를 서로 교환할 수 있다(S710).

이때, 전자 장치 1(400-1)가 측정한 기설정된 사용자 음성에 대한 음성 인식 정확도가 전자 장치 2(400-2)가 측정한 기설정된 사용자 음성에 대한 음성 인식 정확도보다 높은 경우, 전자 장치 1(400-1)은 오디오 기기 1(50)로 오디오 출력 레벨 정보를 요청하여(S715), 오디오 기기 1(50)이 출력 중인 오디오 신호의 오디오 출력 레벨 정보를 오디오 기기 1(50)으로부터 수신할 수 있다(S720).

한편, 전자 장치 1(400-1)은 전자 장치 2(400-2)와 연결된 오디오 기기 2(30)의 오디오 출력 레벨 정보를 획득하기 위해, 전자 장치 2(400-2)로 오디오 출력 레벨 정보 전송을 요청할 수 있다(S725). 이에 따라, 전자 장치 2(400-2)는 오디오 기기 2(30)로 오디오 출력 레벨 정보를 요청하여(S730), 오디오 기기 2(30)로부터 출력 중인 오디오 신호의 오디오 출력 레벨 정보가 수신되면(S735), 수신된 오디오 기기 2(30)의 오디오 출력 레벨 정보를 전자 기기 1(400-1)로 전송할 수 있다(S740).

이에 따라, 전자 장치 1(400-1)은 현재 음성 인식 환경에서 오디오 신호를 출력 중인 오디오 기기들(50, 30)의 오디오 신호 출력 레벨 정보를 알 수 있으며, 이에 기초하여 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령을 전송할 오디오 기기를 판단할 수 있다.

오디오 기기 1 및 2(50, 30)의 오디오 신호 출력 레벨을 모두 낮출 필요가 있다고 판단되는 경우, 전자 장치 1(400-1)은 도 7에 도시된 바와 같이, 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령을 자신과 연결된 오디오 기기 1(50) 및 오디오 기기 2(30)와 연결된 전자 장치 2(400-2)로 전송할 수 있다(S745, S750). 이때, 전자 장치 2(400-2)로 전송되는 제어 명령에는 오디오 기기 2(30)의 식별 정보가 포함될 수 있다. 따라서, 전자 장치 1(400-1)로부터 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령을 수신한 전자 장치 2(400-2)는 오디오 기기 2(30)로 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령을 전송할 수 있다(S755).

한편, 전자 장치 1(400-1)은 각 오디오 기기(50, 30)로 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령을 전송한 후 음성 제어 모드로 동작할 수 있다(S760). 이때, 실시 예에 따라, 전자 장치 1(400-1)이 사용자 음성 명령을 발화할 것을 안내하는 알림을 사용자에게 제공할 수 있음은 물론이다.

음성 제어 모드로 동작 중에 오디오 기기 2(30)의 동작을 제어하기 위한 사용자 음성 명령이 수신되면(S765), 전자 장치 1(400-1)은 수신된 사용자 음성 명령을 인식하고(S770), 사용자 음성에 대응되는 제어 명령을 오디오 기기 2(30)의 동작 제어가 가능한 전자 장치 2(400-2)로 전송하다(S775). 이때, 사용자 음성에 대응되는 제어 명령에는 제어 대상 기기인 오디오 기기 2(30)의 식별 정보가 포함될 수 있다. 이에 따라, 전자 장치 2(400-2)는 사용자 음성에 대응되는 제어 명령을 오디오 기기 2(30)로 전송하고(S780), 오디오 기기 2(30)는 사용자 음성에 대응되는 제어 명령에 따라 동작하게 된다.

이후, 전자 장치 1(400-1)은 오디오 신호 출력 레벨을 높이기 위한 제어 명령을 오디오 기기 1(50) 및 전자 장치 2(400-2)로 전송하고(S785, S790), 이에 따라, 전자 장치 2(400-2)가 오디오 기기 출력 레벨을 높이기 위한 제어 명령을 오디오 기기 2(30)로 전송함으로써(S795), 전자 장치 1(400-1)은 오디오 기기들(50, 30)의 오디오 신호 출력 레벨을 복원할 수 있다.

한편, 이상에서는 전자 장치(100, 400)가 연결된 외부 기기들의 동작을 직접 제어하는 것을 예로 들어 설명하였으나, 실시 예가 이에 한정되는 것은 아니다. 즉, 실시 예에 따라, 외부 기기들이 인터넷 등과 같은 네트워크를 통해 음성 인식 서버(200)와 직접 연결될 수 있으며, 이 경우 음성 인식 서버(200)가, 인식된 사용자의 음성에 기초하여, 네트워크를 통해 연결된 외부 기기들의 동작을 직접 제어할 수 도 있으며, 이 경우 역시 본 개시의 기술적 사상에 포함될 수 있을 것이다.

이상과 같은 본 개시의 다양한 실시 예들에 따르면, 사용자 또는 전자 장치 주변에서 오디오 기기가 오디오를 출력 중이더라도 전자 장치를 통한 음성 인식 성능을 개선할 수 있다.

한편, 상술한 다양한 실시 예들에 따른 전자 장치(100, 400)의 프로세서(120, 420)의 동작이나 전자 장치(100, 400)의 제어 방법은 소프트웨어로 생성되어 서버(100)에 탑재될 수 있다.

예를 들어, 적어도 하나의 마이크를 통해 기설정된 사용자 음성에 대응되는 오디오 신호가 수신되면, 적어도 하나의 외부 기기 중 오디오 기기에서 출력되는 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령을 오디오 기기로 전송하는 단계 및 전자 장치가 사용자 음성에 의해 제어되는 음성 제어 모드로 동작하는 단계를 포함하는 전자 장치(100, 400)의 제어 방법 또는 이에 더하여 음성 제어 모드에서 마이크를 통해 전자 장치 또는 외부 기기를 제어하기 위한 사용자 음성에 대응되는 오디오 신호가 수신되면, 사용자 음성에 대응되는 오디오 신호에 기초하여 전자 장치를 제어하는 단계 및 오디오 기기에서 출력되는 오디오 신호의 출력 레벨을 높이기 위한 제어 명령을 오디오 기기로 전송하는 단계를 더 포함하는 전자 장치(100, 400)의 제어 방법을 수행하는 프로그램이 저장된 비일시적 판독 가능 매체(non-transitory computer readable medium)가 전자 장치(100, 400)에 설치될 수 있다.

여기서, 비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 미들웨어 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 또한, 본 발명에 개시된 실시 예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 한 것이고, 이러한 실시 예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 따라서, 본 발명의 호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

110: 마이크 120: 프로세서
130: 통신부

Claims

전자 장치에 있어서,
적어도 하나의 마이크;
적어도 하나의 외부 기기와 통신을 수행하는 통신부; 및
상기 마이크를 통해 기설정된 사용자 음성에 대응되는 오디오 신호가 수신되면, 상기 외부 기기 중 오디오 기기에서 출력되는 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령을 상기 오디오 기기로 전송하도록 상기 통신부를 제어하고, 상기 기설정된 사용자 음성에 따라 상기 전자 장치가 사용자 음성에 의해 제어되는 음성 제어 모드로 동작하도록 상기 전자 장치를 제어하는 프로세서;를 포함하는 전자 장치.
제 1 항에 있어서,
상기 프로세서는,
상기 음성 제어 모드에서 상기 마이크를 통해 상기 전자 장치 또는 상기 외부 기기를 제어하기 위한 사용자 음성에 대응되는 오디오 신호가 수신되면, 상기 사용자 음성에 대응되는 오디오 신호에 기초하여 상기 전자 장치를 제어하고, 상기 오디오 기기에서 출력되는 오디오 신호의 출력 레벨을 높이기 위한 제어 명령을 상기 오디오 기기로 전송하도록 상기 통신부를 제어하는 전자 장치.
제 1 항에 있어서,
상기 프로세서는,
상기 마이크를 통해 수신되는 복수의 오디오 기기의 오디오 신호 또는 상기 통신부를 통해 수신되는 상기 복수의 오디오 기기의 출력 레벨 정보에 기초하여 상기 복수의 오디오 기기 중 상기 출력 레벨을 낮추기 위한 제어 명령을 전송할 적어도 하나의 오디오 기기를 판단하고, 상기 판단된 오디오 기기로 상기 출력 레벨을 낮추기 위한 제어 명령을 전송하도록 상기 통신부를 제어하는 것을 특징으로 하는 전자 장치.
제 1 항에 있어서,
상기 프로세서는,
복수의 오디오 기기 중 상기 출력 레벨이 기설정된 레벨 이상인 오디오 기기로 상기 출력 레벨을 낮추기 위한 제어 명령을 전송하도록 상기 통신부를 제어하는 것을 특징으로 하는 전자 장치.
제 1 항에 있어서,
디스플레이;를 더 포함하고,
상기 프로세서는,
상기 기설정 사용자 음성에 따라 상기 전자 장치가 상기 음성 제어 모드로 진입한 이후, 상기 전자 장치 또는 상기 외부 기기를 제어하기 위한 사용자 음성을 발화할 것을 안내하는 안내 GUI를 디스플레이하도록 상기 디스플레이를 제어하는 것을 특징으로 하는 전자 장치.
제 1 항에 있어서,
오디오 신호를 출력하는 스피커;를 더 포함하고,
상기 프로세서는,
상기 스피커를 통해 상기 오디오 신호를 출력하고 있는 상태에서, 상기 마이크를 통해 상기 기설정된 사용자 음성에 대응되는 오디오 신호가 수신되면, 상기 스피커를 통해 출력되는 상기 오디오 신호의 출력 레벨을 낮추는 것을 특징으로 하는 전자 장치.
제 1 항에 있어서,
상기 통신부는,
적어도 하나의 다른 외부 기기와 통신하는 다른 전자 장치와 통신을 수행하고,
상기 프로세서는,
상기 마이크를 통해 상기 기설정된 사용자 음성에 대응되는 오디오 신호가 수신되면, 상기 다른 전자 장치와 통신하는 상기 다른 외부 기기 중 오디오 기기에서 출력되는 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령을 상기 다른 전자 장치로 전송하도록 상기 통신부를 제어하는 것을 특징으로 하는 전자 장치.
제 1 항에 있어서,
상기 통신부는,
제1 마이크를 구비하며, 적어도 하나의 다른 외부 기기와 통신하는 다른 전자 장치와 통신을 수행하고,
상기 프로세서는,
상기 다른 전자 장치가 상기 제1 마이크를 통해 수신한 상기 기설정된 사용자 음성에 대한 음성 인식 정확도를 상기 다른 전자 장치로부터 수신하고, 상기 수신된 음성 인식 정확도를 상기 전자 장치의 제2 마이크를 통해 수신한 상기 기설정된 사용자 음성에 대한 음성 인식 정확도와 비교하고, 비교 결과에 따라 상기 제2 마이크를 통해 수신된 상기 기설정된 사용자 음성에 대한 음성 인식 정확도가 높은 경우, 상기 외부 기기 중 오디오 기기에서 출력되는 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령을 상기 오디오 기기로 전송하도록 상기 통신부를 제어하는 것을 특징으로 하는 전자 장치.
제 1 항에 있어서,
상기 통신부는,
상기 전자 장치를 제어하는 원격 제어 장치와 통신을 수행하고,
상기 프로세서는,
상기 원격 제어 장치에 구비된 기설정된 버튼이 선택됨에 따라 상기 원격 제어 장치로부터 기설정된 신호가 수신되면, 상기 외부 기기 중 오디오 기기에서 출력되는 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령을 상기 오디오 기기로 전송하도록 상기 통신부를 제어하는 것을 특징으로 하는 전자 장치.
전자 장치의 제어 방법에 있어서,
적어도 하나의 마이크를 통해 기설정된 사용자 음성에 대응되는 오디오 신호가 수신되면, 적어도 하나의 외부 기기 중 오디오 기기에서 출력되는 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령을 상기 오디오 기기로 전송하는 단계; 및
상기 전자 장치가 사용자 음성에 의해 제어되는 음성 제어 모드로 동작하는 단계;를 포함하는 제어 방법.
제 10 항에 있어서,
상기 음성 제어 모드에서 상기 마이크를 통해 상기 전자 장치 또는 상기 외부 기기를 제어하기 위한 사용자 음성에 대응되는 오디오 신호가 수신되면, 상기 사용자 음성에 대응되는 오디오 신호에 기초하여 상기 전자 장치를 제어하는 단계; 및
상기 오디오 기기에서 출력되는 오디오 신호의 출력 레벨을 높이기 위한 제어 명령을 상기 오디오 기기로 전송하는 단계;를 더 포함하는 것을 특징으로 하는 제어 방법.
제 10 항에 있어서,
상기 오디오 기기로 전송하는 단계는,
상기 마이크를 통해 수신되는 복수의 오디오 기기의 오디오 신호 또는 상기 복수의 오디오 기기에서 수신되는 상기 오디오 신호의 출력 레벨 정보에 기초하여 상기 복수의 오디오 기기 중 상기 출력 레벨을 낮추기 위한 제어 명령을 전송할 적어도 하나의 오디오 기기를 판단하는 단계; 및
상기 판단된 오디오 기기로 상기 출력 레벨을 낮추기 위한 제어 명령을 전송하는 단계;를 포함하는 것을 특징으로 하는 제어 방법.
제 10 항에 있어서,
상기 오디오 기기로 전송하는 단계는,
복수의 오디오 기기 중 상기 출력 레벨이 기설정된 레벨 이상인 오디오 기기로 상기 출력 레벨을 낮추기 위한 제어 명령을 전송하는 것을 특징으로 하는 제어 방법.
제 10 항에 있어서,
상기 기설정 사용자 음성에 따라 상기 전자 장치가 상기 음성 제어 모드로 진입한 이후, 상기 전자 장치 또는 상기 외부 기기를 제어하기 위한 사용자 음성을 발화할 것을 안내하는 안내 GUI를 디스플레이하는 단계;를 더 포함하는 것을 특징으로 하는 제어 방법.
제 10 항에 있어서,
상기 전자 장치가 오디오 신호를 출력하고 있는 상태에서, 상기 마이크를 통해 상기 기설정된 사용자 음성에 대응되는 오디오 신호가 수신되면, 상기 전자 장치의 오디오 신호의 출력 레벨을 낮추는 단계;를 더 포함하는 것을 특징으로 하는 제어 방법.
제 10 항에 있어서,
상기 전자 장치는,
적어도 하나의 다른 외부 기기와 통신하는 다른 전자 장치와 통신을 수행하고,
상기 마이크를 통해 상기 기설정된 사용자 음성에 대응되는 오디오 신호가 수신되면, 상기 다른 전자 장치와 통신하는 상기 다른 외부 기기 중 오디오 기기에서 출력되는 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령을 상기 다른 전자 장치로 전송하는 단계;를 더 포함하는 것을 특징으로 하는 제어 방법.
제 10 항에 있어서,
상기 전자 장치는,
제1 마이크를 구비하며, 적어도 하나의 다른 외부 기기와 통신하는 다른 전자 장치와 통신을 수행하고,
상기 다른 전자 장치가 상기 제1 마이크를 통해 수신한 상기 기설정된 사용자 음성에 대한 음성 인식 정확도를 상기 다른 전자 장치로부터 수신하는 단계; 및
상기 수신된 음성 인식 정확도를 상기 전자 장치의 제2 마이크를 통해 수신한 상기 기설정된 사용자 음성에 대한 음성 인식 정확도와 비교하는 단계;를 더 포함하고,
상기 오디오 기기로 전송하는 단계는,
비교 결과에 따라 상기 제2 마이크를 통해 수신된 상기 기설정된 사용자 음성에 대한 음성 인식 정확도가 높은 경우, 상기 외부 기기 중 오디오 기기에서 출력되는 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령을 상기 오디오 기기로 전송하는 것을 특징으로 하는 제어 방법.
제 10 항에 있어서,
상기 전자 장치는,
상기 전자 장치를 제어하는 원격 제어 장치와 통신을 수행하고,
상기 오디오 기기로 전송하는 단계는,
상기 원격 제어 장치에 구비된 기설정된 버튼이 선택됨에 따라 상기 원격 제어 장치로부터 기설정된 신호가 수신되면, 상기 외부 기기 중 오디오 기기에서 출력되는 오디오 신호의 출력 레벨을 낮추기 위한 제어 명령을 상기 오디오 기기로 전송하는 단계;를 더 포함하는 것을 특징으로 하는 제어 방법.