KR102208496B1

KR102208496B1 - 연속 음성 명령에 기반하여 서비스를 제공하는 인공지능 음성단말장치 및 음성서비스시스템

Info

Publication number: KR102208496B1
Application number: KR1020180127944A
Authority: KR
Inventors: 박광민; 김준호
Original assignee: 현대오토에버 주식회사
Priority date: 2018-10-25
Filing date: 2018-10-25
Publication date: 2021-01-27
Also published as: KR20200047853A

Abstract

일 실시예는, 트리거음성 및 명령음성을 순차로 연속적으로 포함하는 사용자 음성을 음성신호로 변환하는 마이크; 상기 음성신호에서 상기 트리거음성을 감지하는 트리거감시부; 제1 모드에서 상기 트리거음성이 감지되면, 상기 제1 모드를 제2 모드로 전환하고 상기 제2 모드에서 다른 명령음성을 수신하기 위해 대기하는 제어부; 및 서버로 상기 사용자 음성을 송신하는 통신부;를 포함하는 단말장치를 제공한다.

Description

연속 음성 명령에 기반하여 서비스를 제공하는 인공지능 음성단말장치 및 음성서비스시스템{ARTIFICIAL INTELLIGENT VOICE TERMINAL DEVICE AND VOICE SERVICE SYSTEM THAT PROVIDE SERVICE BASED ON CONTINUOUS VOICE COMMAND}

본 실시예는 인공지능 음성단말장치 및 그 서비스 기술에 관한 것이다.

사용자의 음성을 인식하고, 인공지능을 이용하여 그 음성을 분석한 후 그에 대한 적절한 반응(서비스)을 제공하는 인공지능 스피커가 다수 개발되고 있다. 종래의 서비스 장치는 키보드, 마우스, 터치패드 등의 손을 이용한 입력장치를 포함하고 있으면서, 사용자가 입력장치를 통해 입력한 명령에 따라 서비스를 제공하였다. 그런데, 인공지능 스피커는 사용자의 명령을 확인함에 있어서, 사용자의 움직임-손의 움직임-을 요구하지 않기 때문에 사용자 편의성이 증대된 장치로 인식되고 있다.

인공지능 스피커는 일반적으로 대기모드로 작동하고 있다가 자신에 대한 호출음성-트리거음성이라고도 함-이 인식되면 명령수신모드로 전환한다. 사용자가 주변 사람에게 명령을 내리는지 자신에게 명령을 내리는지 구분하기 어렵기 때문에 현재의 기술수준에서 이러한 트리거음성은 필수적인 요소로 인식되고 있다.

트리거음성이 필수적인 이상, 사용자는 인공지능 스피커에 명령을 내리기 위하여 먼저 트리거음성을 발화하고 인공지능 스피커가 명령수신모드로 전환한 것을 확인한 이후에만 명령음성을 발화할 수 있다. 하지만 이런 과정은 비효율적이고 불편하다. 명령음성을 내리기까지 긴 시간이 필요하고 사용자는 그 동안 대기해야 하기 때문이다.

최근, 이러한 문제를 해결하고자 하는 기술에 대한 수요가 증가하고 있다.

이러한 배경에서, 본 실시예의 목적은, 트리거를 위한 별도의 대기시간이 소요되지 않는 음성서비스 기술을 제공하는 것이다.

또한 본 실시예의 목적은, 연속적으로 발화된 트리거음성과 명령음성을 한 번에 처리하는 음성서비스 기술을 제공하는 것이다.

전술한 목적을 달성하기 위하여, 일 실시예는, 트리거음성 및 명령음성을 순차로 연속적으로 포함하는 사용자 음성을 음성신호로 변환하는 마이크; 상기 음성신호에서 상기 트리거음성을 감지하는 트리거감시부; 제1 모드에서 상기 트리거음성이 감지되면, 상기 제1 모드를 제2 모드로 전환하고 상기 제2 모드에서 다른 명령음성을 수신하기 위해 대기하는 제어부; 및 서버로 상기 사용자 음성을 송신하는 통신부;를 포함하는 단말장치를 제공한다.

상기 단말장치에서, 상기 통신부는, 상기 서버로부터 상기 제2 모드로 전환하는 트리거확인신호 및 상기 명령음성에 대한 처리결과데이터 중 적어도 하나를 수신하고, 상기 제어부는, 상기 트리거확인신호 및 상기 처리결과데이터 중 적어도 하나를 수신하면, 상기 제2 모드로 전환할 수 있다.

상기 단말장치에서, 상기 제어부는, 상기 서버로부터 상기 트리거확인신호 및 상기 처리결과데이터가 수신되지 않으면, 상기 제1 모드로 전환할 수 있다.

상기 단말장치에서, 상기 통신부는, 상기 서버로부터 상기 제1 모드로 전환하는 트리거미확인신호를 수신하고, 상기 제어부는, 상기 트리거미확인신호가 수신되면, 상기 제1 모드로 전환할 수 있다.

상기 단말장치에서, 상기 서버로부터 수신되는 서비스데이터 또는 상기 처리결과데이터를 음향으로 출력하는 스피커;를 포함할 수 있다.

다른 실시예는, 트리거음성 및 명령음성을 순차로 연속적으로 포함하는 사용자 음성을 음성신호로 변환하고, 제1 모드에서 상기 트리거음성이 감지되면, 상기 제1 모드를 제2 모드로 전환하고 상기 제2 모드에서 다른 명령음성을 수신하기 위해 대기하는 단말장치; 및 상기 단말장치로부터 상기 음성신호를 수신하고, 상기 음성신호에서 트리거음성을 감지하고, 상기 트리거음성이 감지되면 상기 단말장치를 상기 제2 모드로 전환하도록 제어하고, 상기 명령음성에 대한 서비스를 실행하는 서버;를 포함하는 시스템을 제공한다.

상기 시스템에서, 상기 서버는, 상기 제2 모드로 전환하는 트리거확인신호 및 상기 명령음성에 대한 처리결과데이터 중 적어도 하나를 상기 단말장치로 송신하고, 상기 단말장치는, 상기 트리거확인신호 및 상기 처리결과데이터 중 적어도 하나를 수신하면, 상기 제2 모드로 전환할 수 있다.

상기 시스템에서, 상기 서버는, 상기 트리거음성이 감지되지 않으면, 상기 트리거확인신호 및 처리결과데이터를 상기 단말장치로 송신하지 않고, 상기 단말장치는, 상기 제1 모드로 전환할 수 있다.

상기 시스템에서, 상기 서버는, 상기 트리거음성이 감지되지 않으면, 상기 제1 모드로 전환하는 트리거미확인신호를 상기 단말장치로 송신하고, 상기 단말장치는, 상기 제1 모드로 전환할 수 있다.

상기 시스템에서, 상기 서버는, 상기 트리거음성이 감지되지 않으면, 다른 사용자 음성을 요청하는 메시지를 상기 단말장치로 송신하고, 상기 단말장치는, 상기 메시지를 출력할 수 있다.

상기 시스템에서, 상기 단말장치는, 제1 방법으로 상기 트리거음성을 감지하고, 상기 서버는, 상기 제1 방법과 상이한 제2 방법으로 상기 트리거음성을 감지할 수 있다.

이상에서 설명한 바와 같이 본 실시예에 의하면, 음성서비스시스템은 트리거음성과 명령음성을 한 번에 처리할 수 있다. 이를 통해, 트리거를 위한 대기시간이 없어짐으로써, 명령을 내리는 시간이 단축된다.

또한 본 실시예에 의하면, 사용자가 한 번에 트리거음성과 명령음성을 발화하여 명령을 내릴 수 있다. 이를 통해, 사용자는 트리거를 위한 시간동안 대기할 필요가 없어짐으로써, 사용자 편의성이 증대된다.

도 1은 일 실시예에 따른 음성서비스시스템의 구성도이다.
도 2는 일 실시예에 따른 음성단말장치의 구성도이다.
도 3은 일 실시예에 따른 서버의 구성도이다.
도 4는 일 실시예에 따른 사용자 음성의 여러 형태를 나타내는 도면이다.
도 5는 일 실시예에 따른 버퍼에 저장된 사용자 음성을 나타내는 도면이다.
도 6은 일 실시예에 따른 음성서비스시스템의 제어방법에 대한 흐름도이다.
도 7은 다른 실시예에 따른 음성서비스시스템의 제어방법에 대한 흐름도이다.
도 8은 다른 실시예에 따른 음성서비스시스템의 제어방법에 대한 흐름도이다.
도 9는 다른 실시예에 따른 음성서비스시스템의 제어방법에 대한 흐름도이다.
도 10은 또 다른 실시예에 따른 음성서비스시스템의 구성도이다.
도 11은 또 다른 실시예에 따른 음성서비스시스템의 제어방법에 대한 흐름도이다.
도 12는 또 다른 실시예에 따른 단말장치가 에너지 측정값을 생성할 때의 에너지 측정 단위를 나타내는 도면이다.
도 13은 또 다른 실시예에 따른 단말장치가 송신하는 에너지 측정데이터의 구성을 나타내는 도면이다.
도 14는 또 다른 실시예에 따른 단말장치가 에너지를 측정하는 트리거음성데이터를 나타내는 도면이다.
도 15는 또 다른 실시예에 따른 중계장치의 제어방법에 대한 흐름도이다.
도 16은 또 다른 실시예에 따른 음성서비스시스템의 제어방법에 대한 흐름도이다.

이하, 본 발명의 일부 실시예들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

또한, 본 발명의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 어떤 구성 요소가 다른 구성요소에 "연결", "결합" 또는 "접속"된다고 기재된 경우, 그 구성 요소는 그 다른 구성요소에 직접적으로 연결되거나 또는 접속될 수 있지만, 각 구성 요소 사이에 또 다른 구성 요소가 "연결", "결합" 또는 "접속"될 수도 있다고 이해되어야 할 것이다.

도 1은 일 실시예에 따른 음성서비스시스템의 구성도이다.

도 1을 참조하면, 음성서비스시스템(이하 '시스템'이라 함, 100)은 음성단말장치(이하 '단말장치'라 함, 110), 및 서버(130)를 포함할 수 있다. 도 1에서, 사용자(20)는 웨이크업을 위한 명령과 서비스를 위한 명령이 포함된 사용자 음성을 한 번에 발화할 수 있다. 단말장치(110)는 웨이크업과 동시에 상기 서비스를 위한 명령을 서버(130)로 송신할 수 있다. 서버(130)는 상기 서비스를 전자장치(140)에 대하여 실행할 수 있다. 즉, 단말장치(110)는 사용자(20)로부터 상기 웨이크업을 위한 명령을 수신한 뒤에 상기 서비스를 위한 명령을 수신하는 것이 아니라, 상기 웨이크업을 위한 명령과 상기 서비스를 위한 명령을 동시에 사용자(20)로부터 수신할 수 있다. 사용자(20)도 상기 웨이크업을 위한 명령을 한 후 단말장치(110)가 웨이크업 할 때까지 대기하는 것이 아니라, 상기 웨이크업을 위한 명령과 상기 서비스를 위한 명령을 연속적으로 발화할 수 있다. 따라서 단말장치(110)의 웨이크업과 명령의 입력 사이의 대기시간이 없어지는 효과가 나타날 수 있다.

여기서, 상기 웨이크업을 위한 명령에 대한 음성을 트리거음성으로 명명할 수 있다. 상기 서비스를 위한 명령에 대한 음성을 명령음성으로 명명할 수 있다. 사용자(20)로부터 발화되고 상기 트리거음성과 상기 명령음성으로 구성된 음성을 사용자 음성으로 명명할 수 있다.

예를 들어, 사용자(20)는 "알라딘, 불 켜줘"라는 사용자 음성을 발화할 수 있다. 여기서, '알라딘'은 트리거음성으로서, 단말장치(110)를 웨이크업 하기 위한 명령일 수 있다. '불 켜줘'는 명령음성으로서, 서버(130)가 실행하는 서비스를 위한 명령일 수 있다. 사용자(20)가 상기 사용자 음성을 발화하면, 단말장치(110)는 별도의 명령음성을 수신하지 않고 곧바로 상기 사용자 음성을 서버(130)로 송신하고, 서버(130)는 불이 켜지도록 전자장치(140)에 대하여 서비스를 실행할 수 있다.

단말장치(110)는 단일 건물(10) 내부의 어느 한 구역(11)에 배치될 수 있다. 예를 들어, 단말장치(110)는 일반 가정집의 구역-방, 화장실, 부엌, 거실 등-에 배치될 수 있다.

단말장치(110)는 제1 모드-예를 들어, 대기모드-로 작동하면서, 사용자(20)의 트리거음성을 감지할 수 있다. 구체적으로, 단말장치(110)는 상기 제1 모드에서 사용자 음성을 입력받고, 상기 사용자 음성 중에서 상기 트리거음성을 감지할 수 있다. 이때, 단일 건물(10)에 배치되는 단말장치(110)가 트리거음성을 감지할 수 있다.

단말장치(110)가 상기 트리거음성을 감지하면, 단말장치(110)가 제2 모드-예를 들어, 명령수신모드-로 전환하여 사용자(20)의 명령음성을 감지하고 처리할 수 있다. 구체적으로, 단말장치(110)는 상기 제2 모드에서 사용자 음성을 입력받고, 상기 사용자 음성 중에서 상기 명령음성을 감지할 수 있다.

단말장치(110)는 제1 모드에서 트리거음성을 감지하면, 제2 모드로 전환하고, 상기 트리거음성과 상기 명령음성을 포함하는 상기 사용자 음성을 서버(130)로 송신할 수 있다. 동시에 단말장치(110)는 다른 명령음성을 포함하는 다른 사용자 음성을 수신하기 위하여 제2 모드에서 대기할 수 있다.

단말장치(110)는 서버(130)로부터 트리거확인신호 및 처리결과데이터 중 적어도 하나를 수신하면, 상기 제2 모드로 전환하거나 상기 제2 모드를 유지할 수 있다.

단말장치(110)는 서버(130)로부터 트리거확인신호 및 처리결과데이터 중 어느 하나도 수신하지 못하면, 상기 제1 모드로 전환하거나 상기 제1 모드를 유지할 수 있다.

단말장치(110)는 서버(130)로부터 트리거미확인신호를 수신하면, 상기 제1 모드로 전환하거나 상기 제1 모드를 유지할 수 있다.

단말장치(110)는 서버(130)에 의한 서비스 실행의 결과를 출력부(미도시)를 통해 사용자에게 출력할 수 있다. 상기 출력부(미도시)는 청각적 및/또는 시각적 형태로 상기 서비스 실행의 결과를 알릴 수 있으며, 스피커 또는 디스플레이를 포함할 수 있다.

한편, 서버(130)는 단말장치(110)와 유무선 네트워크(30)를 통해 연결될 수 있다. 서버(130)는 단일 건물(10)의 내부 또는 외부에 배치될 수 있다.

서버(130)는 사용자 음성으로부터 상기 트리거음성을 감지할 수 있다. 서버(130)는 단말장치(110)로부터 상기 사용자 음성을 수신하고, 상기 수신된 사용자 음성으로부터 트리거음성을 감지할 수 있다. 서버(130)가 상기 트리거음성을 감지하면, 서버(130)는 트리거확인신호를 생성하여 단말장치(110)로 송신할 수 있다. 상기 트리거확인신호는 단말장치(110)의 모드에 대한 정보를 포함함으로써, 단말장치(110)를 제2 모드로 전환하거나 상기 제2 모드를 유지시킬 수 있다. 단말장치(110)가 다른 모드(예를 들어, 제1 모드)에 있다면, 단말장치(110)를 상기 제2 모드로 전환할 수 있다. 단말장치(110)가 상기 제2 모드에 있다면, 단말장치(110)를 상기 제2 모드로 계속 유지할 수 있다.

서버(130)는 사용자 음성에 대한 서비스를 실행할 수 있다. 서버(130)는 상기 사용자 음성으로부터 상기 명령음성을 감지할 수 있다. 서버(130)는 단말장치(110)로부터 상기 사용자 음성을 수신하고, 상기 명령음성을 감지하며, 상기 감지된 명령음성에 대한 서비스를 실행할 수 있다. 서버(130)가 상기 서비스를 실행하면, 서버(130)는 처리결과데이터를 생성하여 단말장치(110)로 송신할 수 있다. 상기 처리결과데이터는 서비스가 실행되었는지 여부에 대한 정보를 포함함으로써, 단말장치(110)의 출력부(미도시)를 통해 사용자(20)가 처리 결과를 알 수 있도록 한다. 또한 상기 처리결과데이터는 단말장치(110)의 모드에 대한 정보를 포함함으로써, 단말장치(110)를 제2 모드로 전환하거나 상기 제2 모드를 유지시킬 수 있다. 단말장치(110)가 다른 모드(예를 들어, 제1 모드)에 있다면, 단말장치(110)를 상기 제2 모드로 전환할 수 있다. 단말장치(110)가 상기 제2 모드에 있다면, 단말장치(110)를 상기 제2 모드로 계속 유지할 수 있다.

서버(130)는 사용자 음성으로부터 상기 트리거음성을 감지하지 못할 수 있다. 서버(130)가 상기 트리거음성을 감지하지 못하면, 서버(130)는 단말장치(110)로 상기 트리거확인신호와 상기 처리결과데이터를 송신하지 않을 수 있다.

서버(130)가 단말장치(110)로 상기 트리거확인신호와 상기 처리결과데이터를 송신하지 않으면, 단말장치(110)는 상기 트리거확인신호 및 처리결과데이터 중 어느 하나도 수신할 수 없다. 이 경우, 단말장치(110)는 제1 모드로 전환하거나 상기 제1 모드를 유지할 수 있다. 단말장치(110)가 다른 모드(예를 들어, 제2 모드)에 있다면, 단말장치(110)를 상기 제1 모드로 전환할 수 있다. 단말장치(110)가 제1 모드에 있다면, 상기 제1 모드를 계속 유지할 수 있다.

또한 서버(130)가 상기 트리거음성을 감지하지 못하면, 서버(130)는 트리거미확인신호를 생성하여 단말장치(110)로 송신할 수 있다. 상기 트리거미확인신호는 단말장치(110)의 모드에 대한 정보를 포함함으로써, 단말장치(110)를 제1 모드로 전환하거나 상기 제1 모드를 유지시킬 수 있다. 단말장치(110)가 다른 모드(예를 들어, 제2 모드)에 있다면, 단말장치(110)를 상기 제1 모드로 전환할 수 있다. 단말장치(110)가 상기 제1 모드에 있다면, 상기 제1 모드를 계속 유지할 수 있다.

서버(130)는 명령음성에 대한 서비스를 단말장치(110)에 대하여 직접 실행할 수 있다. 서버(130)는 단말장치(110)에 실행할 서비스를 포함하는 서비스데이터를 단말장치(110)로 송신할 수 있다. 예를 들어, 서버(130)는 단말장치(110)로 서비스데이터를 송신함으로써, 단말장치(110)가 동작하도록 제어할 수 있다.

상술한 바와 같이, 서버(130)는 단말장치(110)가 아닌 다른 대상에 대하여 서비스를 실행하고, 실행의 결과를 나타내는 상기 처리결과데이터를 단말장치(110)로 송신할 수 있다. 예를 들어, 서버(130)는 전자장치(140)에 명령음성에 따른 서비스를 실행하고, 그 실행 결과에 대한 정보를 포함하는 상기 처리결과데이터를 단말장치(110)로 송신할 수 있다.

단말장치(110)의 제2 모드 전환 즉, 웨이크업 상태로의 전환은 서버(130)에 의하여 제어될 수 있다. 서버(130)는 단말장치(110)의 상기 제2 모드로의 전환이 적절한지 검사할 수 있다. 단말장치(110)가 트리거음성을 감지함에도 불구하고, 서버(130)가 한 번 더 상기 트리거음성을 감지하기 때문이다. 단말장치(110)가 상기 트리거음성을 감지하였다고 판단하였어도, 서버(130)가 상기 트리거음성을 다시 감지하지 못하면, 서버(130)는 단말장치(110)를 제2 모드로 전환하지 즉, 웨이크업시키지 않을 수 있다. 또한 단말장치(110)가 상기 트리거음성을 감지하지 못하였다고 판단하였어도, 서버(130)가 상기 트리거음성을 감지한다면, 서버(130)는 단말장치(110)를 제2 모드로 전환하지 즉, 웨이크업할 수 있다.

시스템(100)은 트리거음성 감지를 단말장치(110)와 서버(130)에서 이중적으로 수행하고, 단말장치(110)가 트리거음성을 제대로 감지하지 못하여 잘못 웨이크업하는 것을 사전에 차단할 수 있다. 즉, 단말장치(110)의 웨이크업 오류를 예방할 수 있다.

도 2는 일 실시예에 따른 음성단말장치의 구성도이다.

도 2를 참조하면, 단말장치(110)는 마이크(111), 아날로그디지털변환부(112), 버퍼(113), 트리거감시부(114), 제어부(115) 및 통신부(116) 등을 포함할 수 있다.

마이크(111)는 사용자의 음성을 음성신호로 변환할 수 있다.

아날로그디지털변환부(112)는 아날로그신호 형태의 음성신호를 디지털데이터의 형태의 음성신호로 변환할 수 있다. 설명의 편의를 위해 아날로그디지털변환부(112)에 입력되는 음성신호를 아날로그 음성신호로 명명하고, 아날로그디지털변환부(112)에 의해 변환된 음성신호를 디지털 음성신호로 명명한다.

단말장치(110)는 필터(미도시)를 더 포함하고 있으면서 필터(미도시)를 통해 음성신호에서의 노이즈 성분을 제거할 수 있다. 필터(미도시)는 아날로그 음성신호에서 노이즈를 제거하는 아날로그필터일 수 있고, 디지털 음성신호에서 노이즈를 제거하는 디지털필터일 수 있다. 단말장치(110)는 아날로그필터와 디지털필터를 모두 포함할 수 있다.

버퍼(113)는 디지털 음성신호를 저장할 수 있다. 버퍼(113)를 구성하는 각 저장셀(113-1)은 순환형의 링구조를 가질 수 있다. 순환형의 링구조에서 일정한 데이터가 버퍼(113)로 유입되면 이전에 저장된 데이터는 삭제될 수 있다. 새로운 데이터가 이전의 데이터를 덮어 쓰는 형식으로 버퍼(113)가 사용될 수 있다.

트리거감시부(114)는 음성신호에서 트리거음성을 감지하고 트리거신호를 발생시킬 수 있다.

트리거감시부(114)는 버퍼(113)을 감시하고 있으면서 버퍼(113)에 저장된 디지털 음성신호에서 트리거음성에 대응되는 음성신호가 발견되면 트리거신호를 발생시킬 수 있다.

트리거감시부(114)는 사용자 음성 중 명령음성을 제외한 트리거음성만을 감지할 수 있다. 트리거감시부(114)가 버퍼(113)에서 트리거음성을 감지하는 동작은 도 5에서 후술한다.

제어부(115)는 제1 모드-예를 들어, 대기모드-에서 트리거음성의 수신을 대기할 수 있다. 그리고, 제어부(115)는 제2 모드-예를 들어, 명령수신모드-에서 명령음성을 처리할 수 있다.

제어부(115)는 트리거감시부(114)로부터 트리거신호를 수신하면, 제2 모드로 전환하고 다른 명령음성의 입력을 대기할 수 있다. 그리고 서버(130)에 의한 서비스 실행을 위하여, 제어부(115)는 트리거음성과 명령음성을 포함하는 사용자 음성을 서버(130)로 송신할 수 있다.

제어부(115)는 서버(130)로부터 트리거확인신호 및 처리결과데이터 중 적어도 하나를 수신하면, 제2 모드로 전환하거나 상기 제2 모드를 유지할 수 있다.

제어부(115)는 서버(130)로부터 트리거확인신호 및 처리결과데이터 중 어느 하나도 수신하지 못하면, 제1 모드로 전환하거나 상기 제1 모드를 유지할 수 있다.

제어부(115)는 서버(130)로부터 트리거미확인신호를 수신하면, 제1 모드로 전환하거나 상기 제1 모드를 유지할 수 있다.

통신부(116)는 서버(130)와 신호 및 데이트를 송수신할 수 있다. 통신부(116)는 서버(130)로 트리거음성 및 명령음성을 포함하는 사용자 음성을 송신할 수 있다. 통신부(116)는 서버(130)로부터 트리거확인신호, 처리결과데이터 및 트리거미확인신호 중 적어도 하나를 수신할 수 있다.

도 3은 일 실시예에 따른 서버의 구성도이다.

도 3을 참조하면, 서버(130)는 통신부(131), 트리거검증부(132), 제어부(133), 및 저장부(134) 등을 포함할 수 있다.

통신부(131)는 단말장치(110)와 신호 및 데이터를 송수신할 수 있다. 통신부(131)는 단말장치(110)로부터 트리거음성 및 명령음성을 포함하는 사용자 음성을 수신할 수 있다. 통신부(131)는 단말장치(110)로 트리거확인신호, 처리결과데이터 및 트리거미확인신호 중 적어도 하나를 송신할 수 있다.

트리거검증부(132)는 사용자 음성으로부터 트리거음성을 감지할 수 있다. 단말장치(110)의 트리거감시부(114)처럼, 트리거검증부(132)도 트리거음성 감지 동작을 수행할 수 있다. 예를 들어, 트리거검증부(132)는 사용자 음성 중 트리거음성과 명령음성을 분리할 수 있다. 여기서 음성은 음소 또는 음절 단위로 분리될 수 있고, 음성의 분리를 위하여, 공지된 음성인식기술이 사용될 수 있다.

하지만 트리거검증부(132)가 트리거음성을 감지하는 방식은 트리거감시부(114)의 방식과 상이할 수 있다. 예를 들어, 트리거검증부(132)는 사용자 음성으로부터 트리거음성과 명령음성을 분리한 후, 트리거음성을 식별하는 제1 방법을 사용할 수 있다. 이 경우, 트리거감시부(114)는 트리거음성에 해당하는 신호의 파형에 대한 미리 입력된 데이터를 버퍼(113)에 저장된 트리거음성데이터와 비교하는 제2 방법을 사용할 수 있다.

트리거검증부(132)가 중복하여 트리거음성을 감지하는데 있어서, 트리거검증부(132)의 감지 방식은 트리거감시부(114)의 감지 방식과 상이할 필요가 있다. 서로 다른 방식으로 감지하는 것이 단일의 방식으로 여러 번 하는 것보다 효과적이다. 동일한 방식으로 여러 번 감지하더라도 트리거음성의 감지 오류를 발견할 수 없는 경우가 있기 때문이다.

트리거검증부(132)가 사용자 음성으로부터 트리거음성을 감지하면, 제어부(133)는 상기 사용자 음성의 명령음성에 대한 서비스를 실행할 수 있다. 제어부(133)는 상기 서비스의 실행의 결과에 대한 처리결과데이터를 생성하거나 트리거확인신호를 생성할 수 있다. 제어부(133)는 처리결과데이터 및 트리거확인신호 중 적어도 하나를 통신부(131)를 통해 단말장치(110)로 송신할 수 있다.

트리거검증부(132)가 사용자 음성으로부터 트리거음성을 감지하지 못하면, 제어부(133)는 명령음성에 대한 서비스를 실행하지 않을 수 있다. 제어부(133)는 단말장치(110)로 어떠한 신호도 송신하지 않을 수 있다. 대신에, 제어부(133)는 트리거미확인신호를 생성할 수 있다. 제어부(133)는 상기 트리거미확인신호를 통신부(131)를 통해 단말장치(110)로 송신할 수 있다.

트리거검증부(132)가 사용자 음성으로부터 트리거음성을 감지하지 못하면, 제어부(133)는 다른 사용자 음성을 요청하는 메시지를 생성할 수 있다. 제어부(133)는 상기 메시지를 통신부(131)를 통해 단말장치(110)로 송신할 수 있다. 단말장치(110)는 상기 메시지를 출력부(미도시)를 통해 사용자(20)에게 알릴 수 있다.

저장부(134)에는 각종 신호 및 데이터가 저장될 수 있다. 예를 들어, 트리거검증부(132)가 트리거음성 감지를 위하여 음성을 분리할 때 필요한 알고리즘, 트리거확인신호, 트리거미확인신호, 처리결과데이터 및/또는 메시지가 저장될 수 있다.

도 4는 일 실시예에 따른 사용자 음성의 여러 형태를 나타내는 도면이다.

도 4a를 참조하면, 기존에 사용자(20)는 트리거음성(401)을 발화하고, 대기시간(403) 동안 단말장치(110)가 웨이크업한 이후에만 명령음성(402)을 발화해야 했다. 예를 들어, 사용자(20)는 "알라딘"이라는 트리거음성(401)을 말하고, 대기시간(403)이 흐르고, "불 켜줘"라는 명령음성(402)을 말할 수 있다.

도 4b를 참조하면, 본 발명에서 사용자(20)는 트리거음성(401)과 명령음성(402)을 한 번에 연이어 발화할 수 있다. 사용자(20)는 단말장치(110)가 웨이크업하는 것을 기다릴 필요가 없다. 예를 들어, 사용자(20)는 "알라딘, 불 켜줘"라는 '트리거음성(401) 및 명령음성(402)'을 순차로 연속적으로 말할 수 있다.

도 5는 일 실시예에 따른 버퍼에 저장된 사용자 음성을 나타내는 도면이다.

도 5를 참조하면, 트리거음성 및 명령음성이 저장된 버퍼(113)가 도시된다. 버퍼(113)에는 트리거음성에 관한 데이터 이외에 명령음성에 관한 데이터가 저장될 수 있다. 예를 들어, 도 1의 경우에 있어서, "알라딘"이 트리거음성데이터에 해당하고, "불 켜줘"가 명령음성데이터에 해당할 수 있다.

버퍼(113)에서는, 원형의 순서를 따라 사용자음성데이터 즉, 트리거음성데이터 및 명령음성데이터가 순차로 저장될 수 있다. 실제로 트리거음성데이터 및 명령음성데이터가 버퍼(113)에 저장된 형태는 다음과 같을 수 있다. 도 5a와 같이, 사용자(20)가 트리거음성과 명령음성을 별도로 발화하면 트리거음성과 명령음성이 간격을 두고 저장될 수 있다. 도 5b와 같이, 사용자(20)가 트리거음성과 명령음성을 연속적으로 발화하면 트리거음성과 명령음성이 간격없이 연이어 저장될 수 있다. 데이터들의 저장 순서는 이와 같은 방식에 한정되지 않으며, 사용자(20)의 발화 방식에 따라 달라지므로 다양한 순서와 방식으로 조합되어 저장될 수 있다.

트리거감시부(114)는 버퍼(113)에 저장된 상기 사용자음성데이터 중에서 트리거음성데이터를 식별함으로써, 트리거음성을 감지할 수 있다. 예를 들어, 트리거감시부(114)가 트리거음성에 해당하는 신호의 파형에 대한 미리 입력된 데이터를 버퍼(113)에 저장된 트리거음성데이터와 비교함으로써, 사용자 음성 중 트리거음성이 존재하는지를 파악할 수 있다. 트리거감시부(114)는 버퍼(113)의 원형셀을 돌려가면서 저장된 트리거음성데이터와 트리거음성에 해당하는 신호의 파형에 대한 미리 입력된 데이터를 순차적으로 비교할 수 있다.

도 6은 일 실시예에 따른 음성서비스시스템의 제어방법에 대한 흐름도이다.

도 6을 참조하면, 서버(130)가 트리거음성을 감지할 때의 동작이 도시되어 있다.

단말장치(110)는 제1 모드로 전환되어 상기 제1 모드를 유지할 수 있다(S602). 단말장치(110)는 상기 제1 모드에서 웨이크업하기 위하여 트리거음성을 수신하도록 대기할 수 있다.

단말장치(110)는 사용자 음성을 수신하고, 트리거감시부(114)를 통해 상기 사용자 음성으로부터 트리거음성을 감지할 수 있다(S604).

단말장치(110)가 상기 트리거음성을 감지하면, 제2 모드로 전환할 수 있다(S606). 단말장치(110)는 상기 제2 모드 즉, 웨이크업한 상태에서 다른 명령음성을 수신하도록 대기할 수 있다.

동시에, 단말장치(110)는 트리거음성 및 명령음성을 포함하는 상기 사용자 음성을 음성신호로 변환하고, 상기 음성신호를 서버(130)로 송신할 수 있다(S608).

서버(130)는 상기 사용자 음성을 수신하고, 트리거검증부(132)를 통해 상기 사용자 음성으로부터 트리거음성을 감지할 수 있다(S610). 단말장치(110)가 감지한 방식과 다른 방식으로, 서버(130)는 트리거음성을 중복적으로 감지할 수 있다. 즉, 서버(130)는 단말장치(110)의 트리거음성 감지 동작을 검증할 수 있다.

서버(130)가 트리거음성을 감지하면, 트리거확인신호를 생성하여 단말장치(110)로 송신할 수 있다(S612).

서버(130)는 상기 사용자 음성으로부터 명령음성을 식별하고, 상기 명령음성에 대한 서비스를 실행할 수 있다(S614).

서버(130)는 상기 서비스 실행에 대한 결과를 단말장치(110)로 송신할 수 있다(S616).

도 7은 다른 실시예에 따른 음성서비스시스템의 제어방법에 대한 흐름도이다.

도 7을 참조하면, 서버(130)가 트리거음성을 감지하는 것을 실패할 때의 동작이 도시되어 있다. S702 단계 내지 S708 단계는 S602 단계 내지 S608 단계와 동일하다.

서버(130)는 상기 사용자 음성을 수신하고, 트리거검증부(132)를 통해 상기 사용자 음성으로부터 트리거음성을 감지하지 못할 수 있다(S710).

서버(130)가 트리거음성을 감지하지 못하면, 트리거미확인신호를 생성하여 단말장치(110)로 송신할 수 있다(S712).

단말장치(110)는 제2 모드에서 제1 모드로 전환하고(S714-1), 서버(130)는 사용자 음성의 재송신을 요청하는 메시지를 생성할 수 있다(S714-2).

서버(130)는 상기 메시지를 단말장치(110)로 송신할 수 있다(S716).

도 8은 다른 실시예에 따른 음성서비스시스템의 제어방법에 대한 흐름도이다.

도 8을 참조하면, 서버(130)가 트리거음성을 감지하는 것을 실패할 때의 동작이 도시되어 있다. 도 7과 달리, 서버(130)는 단말장치(110)로 어떠한 신호나 데이터를 송신하지 않을 수 있다. S802 단계 내지 S810 단계는 S702 단계 내지 S710 단계와 동일하다.

서버(130)가 트리거음성을 감지하지 못하면, 트리거확인신호, 트리거미확인신호, 처리결과데이터 및 메시지 중 어느 하나도 생성하지 않고, 단말장치(110)로 송신하지 않을 수 있다.

단말장치(110)는 서버(130)로부터의 응답을 기다릴 수 있다(S812). 일정 시간이 경과하였음에도, 단말장치(110)가 서버(130)로부터 어떠한 신호나 데이터를 수신하지 못한다면, 단말장치(110)는 제2 모드에서 제1 모드로 전환할 수 있다(S814).

도 9는 다른 실시예에 따른 음성서비스시스템의 제어방법에 대한 흐름도이다.

도 9를 참조하면, 서버(130)가 트리거음성을 감지할 때의 동작이 도시되어 있다. 도 6과 달리, 단말장치(110)는 자체적으로 트리거음성을 감지하고 바로 제2 모드로 전환하지 않는다. 단말장치(110)는 서버(130)가 트리거음성을 감지한 뒤에 비로소 상기 제2 모드로 전환할 수 있다. 즉, 서버(130)가 검증을 완료해야만 단말장치(110)는 상기 제2 모드로 전환할 수 있다.

단말장치(110)는 제1 모드로 전환되어 상기 제1 모드를 유지할 수 있다(S902). 단말장치(110)는 상기 제1 모드에서 웨이크업하기 위하여 트리거음성을 수신하도록 대기할 수 있다.

단말장치(110)는 사용자 음성을 수신하고, 트리거감시부(114)를 통해 상기 사용자 음성으로부터 트리거음성을 감지할 수 있다(S904).

단말장치(110)가 상기 트리거음성을 감지하면, 단말장치(110)는 트리거음성 및 명령음성을 포함하는 상기 사용자 음성을 음성신호로 변환하고, 상기 음성신호를 서버(130)로 송신할 수 있다(S906). 또는 상기 트리거음성의 감지여부와 무관하게, 단말장치(110)는 상기 음성신호를 서버(130)로 송신할 수 있다

서버(130)는 상기 사용자 음성을 수신하고, 트리거검증부(132)를 통해 상기 사용자 음성으로부터 트리거음성을 감지할 수 있다(S908). 단말장치(110)가 감지한 방식과 다른 방식으로, 서버(130)는 트리거음성을 중복적으로 감지할 수 있다. 즉, 서버(130)는 단말장치(110)의 트리거음성 감지 동작을 검증할 수 있다.

서버(130)가 트리거음성을 감지하면, 트리거확인신호를 생성하여 단말장치(110)로 송신할 수 있다(S910).

단말장치(110)는 제2 모드로 전환할 수 있다(S912). 단말장치(110)는 상기 제2 모드 즉, 웨이크업한 상태에서 다른 명령음성을 수신하도록 대기할 수 있다.

서버(130)는 상기 사용자 음성으로부터 명령음성을 식별하고, 상기 명령음성에 대한 서비스를 실행할 수 있다(S914).

서버(130)는 상기 서비스 실행에 대한 결과를 단말장치(110)로 송신할 수 있다(S916).

도 10은 또 다른 실시예에 따른 음성서비스시스템의 구성도이다.

도 10을 참조하면, 시스템(100)은 복수의 단말장치(110a ~ 110c), 중계장치(120) 및 서버(130)를 포함할 수 있다. 시스템(100)은 사용자(20)의 음성에 대한 에너지를 측정하고 상기 측정된 에너지 값을 통하여 하나의 단말장치를 선택하여 웨이크업할 수 있다. 중계장치(120)가 단말장치를 선택하는 동작은 사용자(20)가 트리거음성만 포함하는 사용자 음성을 발화한 경우뿐만 아니라 트리거음성 및 명령음성을 연속적으로 포함하는 사용자 음성을 발화한 경우에도 적용될 수 있다. 이하에서는, 사용자(20)가 트리거음성만을 포함하는 사용자 음성을 중심으로 설명한다.

복수의 단말장치(110a ~ 110c)는 단일 건물(10)에서 벽을 통해 구획된 서로 다른 구역(11a ~ 11c)에 배치될 수 있다. 예를 들어, 일반 가정집이 복수의 구역-방, 화장실, 부엌, 거실 등-으로 나뉘어져 있을 때, 복수의 단말장치(110a ~ 110c)는 서로 다른 구역에 배치될 수 있다. 제1 단말장치(110a)는 제1 방(11a)에 배치될 수 있고, 제2 단말장치(110b)는 거실(11b)에 배치될 수 있고, 제3 단말장치(110c)는 제2 방(11c)에 배치될 수 있다.

사용자(20)는 건물(10)의 임의의 위치에서 트리거음성을 발화할 수 있다. 그리고, 복수의 단말장치(110a ~ 110c) 중 적어도 하나 이상의 단말장치는 사용자(20)의 음성을 수신할 수 있다.

복수의 단말장치(110a ~ 110c)는 제1 모드-예를 들어, 대기모드-로 작동하면서, 사용자(20)의 트리거음성을 감지할 수 있다. 이때, 단일 건물(10)에 배치되는 복수의 단말장치(110a ~ 110c) 중 적어도 하나 이상의 단말장치가 트리거음성을 감지할 수 있다. 이때, 어떤 단말장치가 제2모드-예를 들어, 명령수신모드-로 전환하여 사용자(20)의 명령음성을 감지하고 처리할 것인지 문제될 수 있다.

일 실시예에 따른 복수의 단말장치(110a ~ 110c)는 제1 모드에서 트리거음성을 감지하면, 트리거음성에 대한 에너지 측정값을 생성한 후 중계장치(120)로 송신할 수 있다. 그리고, 중계장치(120)는 트리거음성을 감지한 단말장치(110a ~ 110c) 중에서 에너지 측정값이 가장 큰 단말장치가 제1 모드에서 제2 모드로 전환하도록 해당 단말장치로 트리거실행 제어신호를 송신할 수 있다. 그리고, 중계장치(120)는 트리거음성을 감지한 단말장치(110a ~ 110c) 중 나머지 단말장치로 트리거비실행 제어신호를 송신할 수 있다.

복수의 단말장치(110a ~ 110c) 중에서 트리거실행 제어신호를 수신한 단말장치는 제1 모드에서 제2 모드로 전환하여 사용자(20)로부터 명령음성을 감지할 수 있다. 그리고, 트리거비실행 제어신호를 수신한 단말장치는 제1 모드를 유지하면서 트리거음성의 감지를 대기할 수 있다.

제2 모드로 전환한 단말장치는 사용자(20)로부터 명령음성을 감지하고, 명령음성을 중계장치(120)를 통해 서버(130)로 송신할 수 있다.

그리고, 서버(130)는 명령음성에 대한 서비스를 실행할 수 있다. 명령음성이 예를 들어, "동요를 들려줘"일 때, 서버(130)는 동요에 대한 음향데이터를 스트리밍으로 중계장치(120)로 송신할 수 있고, 중계장치(120)는 스트리밍을 다시 제2 모드로 전환된 단말장치로 전달할 수 있다. 그리고, 제2 모드로 전환된 단말장치는 스트리밍을 수신하고 스피커를 통해 음향데이터를 소리로 출력할 수 있다.

중계장치(120)는 일종의 홈허브 장치일 수 있다. 중계장치(120)는 건물(10) 내에 배치되는 통신기기들을 외부의 다른 통신망과 연결시키는 게이트웨이로 기능할 수 있다. 중계장치(120)는 유선통신기기 및 무선통신기기와 연결되고, 이러한 통신기기와 외부의 통신서버를 연결시켜줄 수 있다. 유선통신기기는 예를 들어, 컴퓨터, 스마트TV 등일 수 있고, 무선통신기기는 예를 들어, 전술한 단말장치(110a ~ 110c), 스마트폰, 노트북, 세탁기 등일 수 있다.

복수의 단말장치(110a ~ 110c)의 모든 송신데이터는 중계장치(120)를 통해 외부로 송신되거나 중계장치(120)로 송신될 수 있다. 전술한 트리거음성에 대한 에너지 측정값을 포함하는 에너지 측정데이터는 모두 단말장치(110a ~ 110c)로부터 중계장치(120)로 송신될 수 있다. 그리고, 중계장치(120)는 각각의 단말장치(110a ~ 110c)로부터 수신되는 에너지 측정값을 비교하고, 그 크기가 가장 큰 에너지 측정값을 송신한 단말장치를 트리거실행 단말장치로 선택할 수 있다.

여기서, 복수의 단말장치(110a ~ 110c)에 의하여 측정되는 에너지는 사용자(20)로부터 발화된 사용자 음성에 대한 것일 수 있다. 복수의 단말장치(110a ~ 110c)는 사용자(20)가 트리거음성만 발화할 경우뿐만 아니라, 트리거음성 및 명령음성을 발화한 경우에도 에너지 측정데이터를 생성하여 중계장치(120)로 송신할 수 있다.

예를 들어, 사용자(20)가 "알라딘"이라고 트리거음성만을 포함한 사용자 음성을 발화하거나 "알라딘, 불 켜줘"라고 '트리거음성 및 명령음성'을 조합한 사용자 음성을 발화할 수 있다. 모든 경우에 있어서, 복수의 단말장치(110a ~ 110c)는 상기 사용자 음성으로부터 트리거음성을 감지하고, 상기 트리거음성에 대한 에너지 측정데이터를 생성하여 중계장치(120)로 송신할 수 있다. 또한 복수의 단말장치(110a ~ 110c)는 상기 사용자 음성으로부터 트리거음성을 감지하고, 상기 사용자 음성 전체에 대한 에너지 측정데이터를 생성하여 중계장치(120)로 송신할 수 있다. 중계장치(120)는 상기 에너지 측정데이터에 기반하여 복수의 단말장치(110a ~ 110c) 중 어느 하나의 단말장치를 선택할 수 있다.

도 2를 다시 참조하면, 제어부(115)는 제1 모드에서 트리거신호가 발생되면 트리거음성에 대한 에너지를 측정하고 에너지 측정값이 중계장치로 송신되도록 제어할 수 있다. 제어부(115)는 트리거감시부(114)로부터 트리거신호를 수신하면, 버퍼(113)에 저장된 디지털 음성신호에서 일정 시구간에 해당되는 음성신호에 대하여 에너지값을 계산할 수 있다. 에너지값은 예를 들어, 음성신호의 값을 제곱하고 상용로그를 취하는 형태로 계산될 수 있다. 제어부(115)는 연속되는 복수의 시구간 각각에 대하여 에너지값을 계산하고 그 에너지값을 평균하는 방식으로 트리거음성에 대한 에너지 측정값을 생성할 수 있다.

여기서, 제어부(115)는 트리거음성에 해당되는 디지털 음성신호에 대해서 에너지 측정값을 생성할 수 있다. 트리거감시부(114)는 버퍼(113)에서 트리거음성이 저장된 위치에 대한 정보를 제어부(115)로 송신할 수 있다. 제어부(115)는 그 정보에 따라 트리거음성이 저장된 부분을 확인하고 해당 부분의 음성신호를 이용하여 에너지 측정값을 생성할 수 있다.

그리고, 에너지 측정값이 생성되는 트리거음성은 필터-예를 들어, 노이즈 캔슬링 장치-를 통해 노이즈가 제거된 음성신호일 수 있다. 제어부(115)는 이러한 노이즈가 제거된 트리거음성을 통해 사용자가 발화한 트리거음성이 마이크(111)에 도달했을 때의 에너지 크기를 정확하게 측정할 수 있게 된다.

통신부(116)는 트리거음성에 대한 에너지 측정값을 중계장치로 송신할 수 있다. 그리고, 통신부(260)는 중계장치(120)로부터 트리거실행 제어신호 혹은 트리거비실행 제어신호를 수신하여 제어부(115)로 전달할 수 있다. 통신부(116)는 에너지 측정데이터를 중계장치(120)로 송신할 수 있는데, 에너지 측정데이터에는 통신주소값-예를 들어, IP(internet protocol) 주소-, 단말아이디값, 시간값 및 에너지 측정값이 포함될 수 있다.

중계장치(120)는 복수의 단말장치(110a ~ 110c)로부터 트리거음성에 대한 에너지 측정값을 수신하고, 가장 큰 에너지 측정값을 송신한 단말장치로 트리거실행 제어신호를 송신하고 나머지 단말장치로 트리거비실행 제어신호를 송신할 수 있다. 사용자(20)의 동일한 트리거음성에 대해 그 수신한 에너지값이 가장 큰 경우는, 사용자(20)가 해당 단말장치에 근접하여 있거나 사용자(20)가 해당 단말장치를 지향하여 음성을 발화했을 때 발생할 수 있다. 이러한 원리에 따라, 중계장치(120)는 각 단말장치(110a ~ 110c)로부터 수신되는 에너지 측정값 중 가장 큰 에너지 측정값을 송신하는 단말장치로 트리거실행 제어신호를 송신하고 나머지 단말장치로 트리거비실행 제어신호를 송신할 수 있다.

그리고, 제어부(115)는 중계장치(120)로부터 트리거실행 제어신호를 수신하면 제1 모드-예를 들어, 대기모드-를 제2 모드-예를 들어, 명령수신모드-로 전환시킬 수 있다. 그리고, 제어부(115)는 중계장치(120)로부터 트리거비실행 제어신호를 수신하면 제1 모드를 유지할 수 있다.

제어부(115)는 제2 모드에서 명령음성을 수신하고 이러한 명령음성을 통신부(116) 및 중계장치(120)를 통해 서버(130)로 송신할 수 있다. 그리고, 제어부(115)는 서버(130)로부터 수신되는 서비스데이터 혹은 명령음성에 대한 처리결과데이터를 출력부(미도시)를 통해 음향으로 출력할 수 있다.

도 11은 또 다른 실시예에 따른 음성서비스시스템의 제어방법에 대한 흐름도이다.

도 11을 참조하면, 단말장치(110)는 제1 모드로 작동하고 있으면서 사용자의 트리거음성을 감지할 수 있다(S1102).

단말장치(110)는 트리거음성을 감지하면, 트리거음성에 대한 에너지 측정값을 포함하는 에너지 측정데이터를 중계장치(120)로 송신할 수 있다(S1104).

중계장치(120)는 복수의 단말장치(110)로부터 에너지 측정데이터를 수신하고, 각 단말장치(110a ~ 110c)에서 생성한 에너지 측정값을 비교할 수 있다(S1106).

그리고, 중계장치(120)는 에너지 측정데이터의 수신에 응답하여 트리거 제어신호를 각 단말장치로 송신할 수 있다(S1108). 중계장치(120)는 하나의 트리거실행 단말장치를 선택하고, 트리거실행 단말장치로 트리거실행 제어신호를 송신하고 나머지 단말장치로 트리거비실행 제어신호를 송신할 수 있다(S1108).

중계장치(120)는 에너지 측정값이 일정 범위를 벗어난 경우, 해당 에너지 측정값을 송신한 단말장치를 트리거비실행 단말장치로 결정할 수 있다. 중계장치(120)가 모든 단말장치(110a ~ 110c)로부터 수신한 에너지 측정값이 일정 범위를 벗어나는 경우, 모든 단말장치(110a ~ 110c)를 트리거비실행 단말장치로 결정할 수 있다. 일정 범위는 예를 들어, 미리 설정한 기준값 이상의 범위일 수 있다. 중계장치(120)는 에너지 측정값이 이러한 기준값보다 작은 경우, 해당 단말장치를 트리거비실행 단말장치로 결정할 수 있다.

중계장치(120)는 에너지 측정값의 크기로 각 단말장치(110a ~ 110c)의 순서를 결정하고, 에너지 측정값이 가장 큰 단말장치를 트리거실행 단말장치로 결정할 수 있다. 그리고, 중계장치(120)는 나머지 단말장치를 트리거비실행 단말장치로 결정할 수 있다.

크기 순서로 최상위의 복수의 에너지 측정값이 오차범위 이내로 근접한 경우, 중계장치(120)는 이러한 복수의 에너지 측정값이 수신된 시간을 기준으로 가장 빠르게 수신된 에너지 측정값에 대응되는 단말장치를 트리거실행 단말장치로 결정할 수 있다. 혹은 중계장치(120)는 이러한 복수의 측정값이 생성된 시간을 기준으로 가장 빠르게 생성된 에너지 측정값에 대응되는 단말장치를 트리거실행 단말장치로 결정할 수 있다. 단말장치(110)로부터 수신되는 에너지 측정데이터에는 에너지 측정값과 더불어 시간값이 포함될 수 있는데, 중계장치(120)는 최상위에 해당되고 오차범위 이내로 근접한 에너지 측정값을 송신한 복수의 단말장치(110a ~ 110c) 중에서 이러한 시간값이 가장 빠른 단말장치(110)를 트리거실행 단말장치로 선택할 수 있다. 여기서, 시간값은 에너지 측정값이 생성된 시간이거나 에너지 측정값을 송신한 시간일 수 있다.

단말장치(110)는 중계장치(120)로부터 트리거 제어신호를 수신하고, 자신이 트리거실행 단말장치로 결정되었는지 여부를 판단할 수 있다(S1110).

트리거 제어신호는 플래그의 형태로 송신될 수 있는데, 트리거 제어신호의 플래그 값이 트루(true)로 설정되어 있으면 해당 트리거 제어신호를 수신한 단말장치는 트리거실행 단말장치로 결정될 수 있고, 트리거 제어신호의 플래그 값이 폴스(false)로 설정되어 있으면 해당 트리거 제어신호를 수신한 단말장치는 트리거비실행 단말장치로 결정될 수 있다.

단말장치(110)가 트리거비실행 제어신호를 수신하면(S1110에서 NO), 단말장치(110)는 다음 트리거음성을 감지하기 위해 제1 모드를 유지할 수 있다.

그리고, 단말장치(110)가 트리거실행 제어신호를 수신하면(S1110에서 YES), 단말장치(110)는 제2모드로 전환하여 작동하고, 제2모드에서 사용자의 명령음성을 감지할 수 있다(S1112).

그리고, 단말장치(110)는 감지된 명령음성을 명령음성데이터에 포함시켜 서버(132, 134)로 송신할 수 있다.

서버(132, 134)는 기능상으로 두 개로 구분될 수 있다. 하나는 음성처리서버(132)이고, 다른 하나는 서비스제공서버(134)일 수 있다.

단말장치(110)가 송신한 명령음성데이터는 음성처리서버(132)로 송신될 수 있다(S1114). 이때, 명령음성데이터는 중계장치(120)를 경유하여 음성처리서버(132)로 송신될 수 있다. 중계장치(120)는 일종의 게이트웨이로 기능할 수 있다.

음성처리서버(132)는 학습을 통해 발전되는 인공지능망을 통해 명령음성데이터에서 사용자의 명령을 인지할 수 있다. 그리고, 음성처리서버(132)는 인지된 사용자의 명령을 서비스제공서버(134)로 송신할 수 있다(S1116).

그리고, 서비스제공서버(134)는 사용자의 명령을 수행하고, 그 처리결과를 처리결과데이터에 포함시켜 단말장치(110)로 송신할 수 있다(S1116). 이때, 처리결과데이터는 중계장치(120)를 경유하여 단말장치(110)로 송신되고, 단말장치(110)는 처리결과데이터를 출력부(미도시)를 통해 음향으로 출력할 수 있다.

종래에는 단일 건물-예를 들어, 한 가정-에서 벽을 통해 구획된 서로 다른 구역에 복수의 인공지능스피커가 설치되면 단일한 트리거음성에 대해 복수의 인공지능스피커가 웨이크업되는 문제가 있었다. 그런데, 일 실시예에 따른 음성서비스시스템에 의하면, 동시에 트리거음성을 인식한 복수의 단말장치에 대해 중계장치가 하나의 단말장치만 트리거실행 단말장치로 결정하고 나머지는 트리거비실행 단말장치로 결정해 줌으로써 전술한 다중 웨이크업의 문제는 발생하지 않게 된다.

도 12는 또 다른 실시예에 따른 단말장치가 에너지 측정값을 생성할 때의 에너지 측정 단위를 나타내는 도면이고, 도 13은 또 다른 실시예에 따른 단말장치가 송신하는 에너지 측정데이터의 구성을 나타내는 도면이고, 도 14는 또 다른 실시예에 따른 단말장치가 에너지를 측정하는 트리거음성데이터를 나타내는 도면이다.

도 12 내지 도 14를 참조하면, 단말장치(110)는 버퍼(113)의 각 셀(113-1)에 저장되는 트리거음성데이터(TVDT)에 대해서 에너지를 측정하고, 에너지 측정값(EGV)을 에너지 측정데이터(EGDT)에 포함시켜 중계장치(120)로 송신할 수 있다.

단말장치(110)에서 버퍼(113)는 각 저장셀(113-1)이 순환형의 링구조로 구성될 수 있다. 버퍼(113)로 인입되는 데이터는 어느 하나의 저장셀(113-1)부터 원형으로 순차적으로 저장될 수 있고, 원형의 순서를 따라 한 바퀴를 다 돌면 이전에 저장된 데이터를 덮어씌우면서 새로운 데이터가 저장될 수 있다.

단말장치(110)는 이러한 버퍼(113)를 모니터링하고 있으면서 미리 설정된 트리거음성특성과 매칭되는 트리거음성데이터(TVDT)를 감지할 수 있다.

그리고, 단말장치(110)는 트리거음성데이터(TVDT)를 에너지 측정의 단위 시간(T)별로 구분하고, 트리거음성데이터 중 N(N은 2 이상의 자연수)개의 단위 시간(NxT)에 해당되는 데이터에 대해 에너지를 측정할 수 있다. 예를 들어, 단말장치(110)는 트리거음성 중 N개의 단위 시간별로 에너지를 측정하여 N개의 단위 시간 에너지 측정값을 생성하고, 이렇게 생성된 N개의 단위 시간 에너지 측정값을 평균하여 에너지 측정값을 생성할 수 있다.

복수의 단말장치(110a ~ 110c)는 에너지 측정값(EGV)을 에너지 측정데이터(EGDT)에 포함시켜 송신할 수 있는데, 에너지 측정데이터(EGDT)에는 통신주소값(IPV), 단말아이디값(IDV), 시간값(TIV) 및 에너지 측정값(EGV) 등이 포함될 수 있다.

통신주소값(IPV)은 데이터를 송수신하기 위한 통신의 주소값으로서 IP 주소값이 이에 해당될 수 있다.

단말아이디값(IDV)은 중계장치(120)에 연결되는 단말장치를 구분하기 위해 지정되는 값으로서 각 단말장치(110a ~ 110c)는 서로 다른 아이디값을 가질 수 있다.

시간값(TIV)은 에너지 측정값(EGV)이 생성된 시간이거나 에너지 측정데이터(EGDT)를 송신하는 시간일 수 있다. 중계장치(120)는 이러한 시간값(TIV)을 확인하여 동일한 수준의 에너지 측정값을 가지는 단말장치(110)들 중에서 트리거실행 단말장치(110)를 선택할 수 있다.

도 15는 또 다른 실시예에 따른 중계장치의 제어방법에 대한 흐름도이다.

도 15를 참조하면, 중계장치(120)는 복수의 단말장치(110a ~ 110c)로부터 에너지 측정값을 포함하는 에너지 측정데이터를 수신할 수 있다(S1502).

그리고, 중계장치(120)는 일정 범위-미리 설정된 적정 범위-를 벗어난 에너지 측정값을 제거할 수 있다(S1504). 이렇게 제거된 에너지 측정값을 송신한 단말장치는 트리거비실행 단말장치로 지정될 수 있다.

그리고, 중계장치(120)는 에너지 측정값을 송신한 복수의 단말장치(110a ~ 110c) 중에서 하나의 단말장치를 트리거실행 단말장치로 선택할 수 있다(S1506). 중계장치(120)는 가장 큰 에너지 측정값을 송신한 단말장치를 트리거실행 단말장치로 선택하되, 최상위의 에너지 측정값을 송신한 복수의 단말장치(110a ~ 110c)가 오차범위 이내의 에너지 측정값을 가지는 경우, 에너지 측정데이터에 포함된 시간값이 가장 빠른 단말장치를 트리거실행 단말장치로 선택할 수 있다. 그리고, 중계장치(120)는 S1504 단계에서 모든 단말장치가 적정 범위를 벗어나는 에너지 측정값을 송신하여 모든 단말장치를 트리거비실행 단말장치로 지정한 경우, S1506 단계에서 트리거실행 단말장치를 하나도 선택하지 않을 수 있다.

트리거실행 단말장치와 트리거비실행 단말장치가 결정되면, 중계장치(120)는 트리거 제어신호를 각 단말장치로 송신할 수 있다(S1508). 중계장치(120)는 트리거실행 단말장치로 트리거실행 제어신호를 송신하고, 트리거비실행 단말장치로 트리거비실행 제어신호를 송신할 수 있다. 경우에 따라서는 중계장치(120)는 트리거비실행 제어신호는 송신하지 않을 수도 있다.

도 16은 또 다른 실시예에 따른 음성서비스시스템의 제어방법에 대한 흐름도이다.

도 16을 참조하면, 복수의 단말장치(110a ~ 110c) 중 하나의 단말장치(110)가 선택되고 서버(130)에 의한 이중 트리거음성 감지가 수행되는 동작의 흐름이 도시되어 있다. S1602 단계 내지 S1610 단계는 S1102 단계 내지 S1110 단계와 동일하다.

단말장치(110)가 트리거실행 제어신호를 수신하면(S1610에서 YES), 단말장치(110)는 제2 모드로 전환하여 작동하고, 제2 모드에서 트리거음성 및 명령음성을 포함하는 사용자 음성을 서버(130)로 송신할 수 있다(S1612).

서버(130)는 상기 사용자 음성을 수신하고, 트리거검증부(132)를 통해 상기 사용자 음성으로부터 트리거음성을 감지할 수 있다(S1614). 단말장치(110)가 감지한 방식과 다른 방식으로, 서버(130)는 트리거음성을 중복적으로 감지할 수 있다. 즉, 서버(130)는 단말장치(110)의 트리거음성 감지 동작을 검증할 수 있다.

서버(130)가 트리거음성을 감지하면, 트리거확인신호를 생성하여 단말장치(110)로 송신할 수 있다(S1616). 서버(130)는 상기 사용자 음성으로부터 명령음성을 식별하고, 상기 명령음성에 대한 서비스를 실행할 수 있다. 서버(130)는 상기 서비스 실행에 대한 결과를 단말장치(110)로 송신할 수 있다.

단말장치(110)는 트리거확인신호를 수신하고, 원래의 제2 모드를 그대로 유지할 수 있다(S1618).

이상에서 기재된 "포함하다", "구성하다" 또는 "가지다" 등의 용어는, 특별히 반대되는 기재가 없는 한, 해당 구성 요소가 내재될 수 있음을 의미하는 것이므로, 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것으로 해석되어야 한다. 기술적이거나 과학적인 용어를 포함한 모든 용어들은, 다르게 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 사전에 정의된 용어와 같이 일반적으로 사용되는 용어들은 관련 기술의 문맥 상의 의미와 일치하는 것으로 해석되어야 하며, 본 발명에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

사용자로부터 한 번에 순차로 연이어 발화되는 트리거음성 및 명령음성을 포함하는 사용자 음성을 음성신호로 변환하는 마이크;
상기 음성신호를 아날로그신호 형태에서 디지털데이터 형태로 변환하는 아날로그디지털변환부;
상기 음성신호가 상기 디지털데이터 형태로 저장되고, 상기 트리거음성에 대한 데이터, 상기 명령음성에 대한 데이터 및 상기 트리거음성 및 상기 명령음성 사이의 대기기간에 대한 데이터가 시간의 순서로 순차로 저장되는 복수의 셀을 포함하는 버퍼;
상기 저장된 트리거음성을 감지하는 트리거감시부;
제1 모드에서 상기 트리거음성이 감지되면, 상기 제1 모드를 제2 모드로 전환하고 상기 제2 모드에서 다른 명령음성을 수신하기 위해 대기하는 제어부; 및
서버로 상기 사용자 음성을 송신하는 통신부를 포함하고,
상기 트리거음성은, 상기 명령음성보다 먼저 상기 마이크로 수신되고,
상기 명령음성은, 상기 트리거음성에 연이어 순차로 상기 마이크로 수신되고,
상기 버퍼에는, 상기 대기기간에 대한 데이터를 제외한 상기 트리거음성에 대한 데이터 및 상기 명령음성에 대한 데이터가 연이어 순차로 상기 복수의 셀에 저장되며,
상기 트리거감시부는, 상기 복수의 셀에 저장된 트리거음성에 대한 데이터와 미리 입력된 트리거음성에 대한 데이터를 비교함으로써 상기 트리거음성을 감지하는 단말장치.
제1항에 있어서,
상기 통신부는, 상기 서버로부터 상기 제2 모드로 전환하는 트리거확인신호 및 상기 명령음성에 대한 처리결과데이터 중 적어도 하나를 수신하고,
상기 제어부는, 상기 트리거확인신호 및 상기 처리결과데이터 중 적어도 하나를 수신하면, 상기 제2 모드로 전환하는 단말장치.
제1항에 있어서,
상기 제어부는, 상기 서버로부터 트리거확인신호 및 처리결과데이터가 수신되지 않으면, 상기 제1 모드로 전환하는 단말장치.
제1항에 있어서,
상기 통신부는, 상기 서버로부터 상기 제1 모드로 전환하는 트리거미확인신호를 수신하고,
상기 제어부는, 상기 트리거미확인신호가 수신되면, 상기 제1 모드로 전환하는 단말장치.
제1항에 있어서,
상기 서버로부터 수신되는 서비스데이터 또는 처리결과데이터를 음향으로 출력하는 스피커를 포함하는 단말장치.
제1항에 따른 단말장치; 및
상기 단말장치로부터 상기 음성신호를 수신하고, 상기 음성신호에서 트리거음성을 감지하고, 상기 트리거음성이 감지되면 상기 단말장치를 상기 제2 모드로 전환하도록 제어하고, 상기 명령음성에 대한 서비스를 실행하는 서버를 포함하는 시스템.
제6항에 있어서,
상기 서버는, 상기 제2 모드로 전환하는 트리거확인신호 및 상기 명령음성에 대한 처리결과데이터 중 적어도 하나를 상기 단말장치로 송신하고,
상기 단말장치는, 상기 트리거확인신호 및 상기 처리결과데이터 중 적어도 하나를 수신하면, 상기 제2 모드로 전환하는 시스템.
제6항에 있어서,
상기 서버는, 상기 트리거음성이 감지되지 않으면, 트리거확인신호 및 처리결과데이터를 상기 단말장치로 송신하지 않고,
상기 단말장치는, 상기 제1 모드로 전환하는 시스템.
제6항에 있어서,
상기 서버는, 상기 트리거음성이 감지되지 않으면, 상기 제1 모드로 전환하는 트리거미확인신호를 상기 단말장치로 송신하고,
상기 단말장치는, 상기 제1 모드로 전환하는 시스템.
제6항에 있어서,
상기 서버는, 상기 트리거음성이 감지되지 않으면, 다른 사용자 음성을 요청하는 메시지를 상기 단말장치로 송신하고,
상기 단말장치는, 상기 메시지를 출력하는 시스템.
제6항에 있어서,
상기 단말장치는, 제1 방법으로 상기 트리거음성을 감지하고,
상기 서버는, 상기 제1 방법과 상이한 제2 방법으로 상기 트리거음성을 감지하는 시스템.