KR20210103208A

KR20210103208A - 다중 에이전트 제어 방법 및 장치

Info

Publication number: KR20210103208A
Application number: KR1020200017660A
Authority: KR
Inventors: 백두산; 조광배; 김형준; 최수민
Original assignee: 주식회사 케이티
Priority date: 2020-02-13
Filing date: 2020-02-13
Publication date: 2021-08-23

Abstract

복수의 대화형 에이전트를 제어하는 다중 에이전트 제어 방법은, 복수의 대화형 에이전트에 각 에이전트의 동작을 트리거하는 음성 키워드를 학습시키는 키워드 학습 단계를 포함한다. 키워드 학습 단계는, 레퍼런스 에이전트 및 타겟 에이전트를 통해 소정의 기간 동안 음성 데이터를 수집하는 단계; 레퍼런스 에이전트 및 타겟 에이전트를 통해 수집된 상기 음성 데이터를 이용하여 레퍼런스 모델을 생성하는 단계; 레퍼런스 에이전트를 통해 학습 대상 사용자의 음성 키워드를 학습하는 단계; 및 레퍼런스 에이전트를 통해 학습된 소정의 음성 키워드와, 레퍼런스 모델에 기초하여, 타겟 에이전트에 적용될 학습 대상 사용자의 음성 키워드를 생성하는 단계를 포함한다.

Description

다중 에이전트 제어 방법 및 장치{MULTIPLE AGENTS CONTROL METHOD AND APPARATUS}

본 발명은 복수의 기기가 각각 VUI(Voice User Interface)를 갖는 분산식 대화형 에이전트 환경에서의 다중 에이전트 제어 방법 및 장치에 관한 것이다.

VUI(Voice User Interface)를 통해 사용자의 음성을 인식하여 기기를 제어하는 기술이 복수 사용되고 있다. 마이크 및 스피커의 단가가 높았던 이유로, 음성 인식 처리를 위한 프로세싱 처리와 관련된 추가 비용이 많이 소요되었기 때문에, 마이크 및 스피커를 탑재하여 VUI를 담당하는 별도의 기기인 대화형 에이전트가 존재하고 다른 기기들은 대화형 에이전트로부터 제어 신호를 받아 처리되는 방식인 중앙 집중식 대화형 에이전트가 많이 사용되었다. 그러나, 물리적 한계로 인하여 대화형 에이전트의 마이크와 사용자간의 거리가 멀어지면 음성 인식의 인식률이 낮아지는 문제점이 존재하였다.

이러한 문제를 해결하고 보다 넓은 VUI 커버리지 환경을 구축하기 위해, 복수의 대화형 에이전트를 배치하는 방안이 제안되었으며, 마이크 및 하드웨어 모듈의 단가 하락에 따라 이러한 분산식 다중 대화형 에이전트 사용 구조로 점차 변모해나갈 것으로 예상되고 있다. 그러나 이러한 분산식 다중 대화형 에이전트를 사용하는 경우 복수의 에이전트들 간에 상호 간섭이 일어나고, 각각의 에이전트에 별도의 키워드 학습을 수행하여야 하는 등 불편함이 존재한다.

한국공개특허 2018-0128838

본 발명은 전술한 문제점을 해결하기 위한 것으로, 분산식 다중 대화형 에이전트 사용 환경에서 발생하는 복잡성을 해결하는 것을 일 목적으로 한다.

또한, 분산식 다중 대화형 에이전트 사용 환경에서 각 기기에 사용자별 키워드를 학습시키는 데 있어서 편리성을 제공하는 것을 일 목적으로 한다.

또한, 분산식 다중 대화형 에이전트 사용 환경에서 사용자의 발화를 통해 키워드를 인식하거나 사용자를 식별할 때, 네트워킹의 오버헤드를 줄이는 것을 일 목적으로 한다.

또한, 분산식 다중 대화형 에이전트 사용 환경에서 사용자에게 알림을 제공할 때, 상호 간섭 및 사용성이 떨어지는 문제를 해결하는 것을 일 목적으로 한다.

본 발명이 해결하고자 하는 과제가 상술한 과제로 한정되는 것은 아니며, 언급되지 아니한 과제들은 본 명세서 및 첨부된 도면으로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

본 발명의 일 실시예에 따른 방법은, 복수의 대화형 에이전트를 제어하는 다중 에이전트 제어 방법으로, 상기 다중 에이전트 제어 방법은, 상기 복수의 대화형 에이전트에 각 에이전트의 동작을 트리거하는 음성 키워드를 학습시키는 키워드 학습 단계를 포함하며, 상기 키워드 학습 단계는, 상기 복수의 대화형 에이전트 중 레퍼런스 에이전트 및 타겟 에이전트를 결정하고, 상기 레퍼런스 에이전트 및 상기 타겟 에이전트를 통해 소정의 기간동안 음성 데이터를 수집하는 단계; 상기 레퍼런스 에이전트 및 상기 타겟 에이전트에 수집된 음성 데이터를 이용하여 레퍼런스 모델을 생성하는 단계; 상기 레퍼런스 에이전트를 통해 학습 대상 사용자의 음성 키워드를 학습하는 단계; 및 상기 레퍼런스 에이전트를 통해 학습된 상기 음성 키워드와 상기 레퍼런스 모델에 기초하여, 상기 타겟 에이전트에 적용될 상기 학습 대상 사용자의 음성 키워드를 생성하는 단계를 포함한다.

본 발명의 일 실시예에 따르면, 복수의 대화형 에이전트를 제어하는 다중 에이전트 제어 장치가 제공되며, 상기 장치는, 각각의 에이전트와 통신하여 데이터를 수신하고 송신하는 통신 모듈; 수신한 데이터를 저장하는 데이터베이스; 및 수신한 데이터를 처리하는 처리부를 포함할 수 있다. 상기 처리부는, 전술한 본 발명의 실시예들에 따른 다중 에이전트 제어 방법을 수행할 수 있다. 또한, 본 발명의 일 실시예에 따른 상기 방법은, 상기 방법을 제어 장치가 수행하도록 하는 일련의 명령어가 컴퓨터로 읽을 수 있는 기록 매체에 저장될 수 있다.

본 발명의 일 실시예에 따르면, 분산식 다중 대화형 에이전트 사용 환경에서 발생하는 복잡성을 해결할 수 있다.

또한, 본 발명의 일 실시예에 따르면, 분산식 다중 대화형 에이전트 사용 환경에서 각 기기에 사용자별 키워드를 학습시키기 보다 편리한 방법을 제공할 수 있다.

또한, 본 발명의 일 실시예에 따르면, 분산식 다중 대화형 에이전트 사용 환경에서 사용자의 발화를 통해 키워드를 인식하거나 사용자를 식별할 때, 네트워킹의 오버헤드를 줄일 수 있다.

또한, 본 발명의 일 실시예에 따르면, 분산식 다중 대화형 에이전트 사용 환경에서 사용자에게 알림을 제공할 때, 상호 간섭 및 사용성이 떨어지는 문제를 해결할 수 있다.

본 발명의 효과가 상술한 효과들로 한정되는 것은 아니며, 언급되지 아니한 효과들은 본 명세서 및 첨부된 도면으로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확히 이해될 수 있을 것이다.

도 1은 대화형 에이전트의 사용 시나리오를 설명하기 위한 도면이다.
도 2는 분산식 다중 대화형 에이전트를 예시적으로 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따른 키워드 학습 방법에 있어서 레퍼런스 모델 생성 과정을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 키워드 학습 방법에 있어서 레퍼런스 모델을 이용하여 키워드를 학습하는 과정을 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른 키워드 인식 방법을 예시적으로 설명하기 위한 도면이다.
도 6은 본 발명의 일 실시예에 따른 키워드 인식 알림 방법을 예시적으로 설명하기 위한 도면이다.
도 7은 본 발명의 일 실시예에 따른 다중 에이전트 제어 방법을 설명하기 위한 예시적인 흐름도이다.
도 8은 본 발명의 일 실시예에 따른 다중 에이전트 제어 방법에 있어서, 키워드 학습 방법을 설명하기 위한 예시적인 흐름도이다.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미하며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1개의 유닛이 2개 이상의 하드웨어를 이용하여 실현되어도 되고, 2개 이상의 유닛이 1개의 하드웨어에 의해 실현되어도 된다.

본 명세서에 있어서 단말 또는 디바이스가 수행하는 것으로 기술된 동작이나 기능 중 일부는 해당 단말 또는 디바이스와 연결된 서버에서 대신 수행될 수도 있다. 이와 마찬가지로, 서버가 수행하는 것으로 기술된 동작이나 기능 중 일부도 해당 서버와 연결된 단말 또는 디바이스에서 수행될 수도 있다.

본 발명은, 소수의 특정 대화형 에이전트가 사용자의 발화를 인식하고 해석하여 사용자의 의도에 맞는 기능을 수행하는 기기를 선택적으로 제어하는 중앙 집중식 대화형 에이전트 사용 환경과 달리, 사용자 의도에 맞는 기능을 수행하는 기기 각각이 VUI를 탑재하여 대화형 에이전트로서의 기능을 갖는 분산식 다중 대화형 에이전트 사용 환경에서 발생하는 문제점들을 해결하기 위한 방법에 관한 것이다. 본 발명의 일 실시예에 따르면, 다중 대화형 에이전트 각각에 사용자가 키워드 학습을 수행시키지 않고, 레퍼런스 에이전트에만 학습을 수행하여도 모든 에이전트에 키워드 학습이 가능하도록 할 수 있다. 또한, 본 발명의 일 실시예에 따르면 다중 대화형 에이전트 사용 환경에서, 에이전트끼리 상호 협력하여 키워드 인식을 수행함으로써, 네트워크 오버헤드를 감소시킬 수 있다. 또한, 사용자에게 키워드 인식 알림을 통지할 때 에이전트 간의 상호 간섭 문제를 해결할 수 있다.

이하, 첨부되는 도면들을 참조하여 본 발명의 실시예들을 구체적으로 설명한다.

도 1은 중앙 집중식 에이전트 제어 방식에 있어서, VUI(Voice User Interface)를 탑재한 대화형 에이전트(12)의 키워드 인식 과정(S10) 및 음성 명령 인식 과정(S20)을 설명하기 위한 예시적인 흐름도(10)이다. 마이크 및 스피커를 탑재하여 VUI를 담당할 수 있는 기기가 VUI를 포함하지 않는 다른 타겟 기기들을 제어하는 방식을 중앙 집중식 에이전트 제어 방식이라고 한다. 도 1에 도시된 바와 같이, VUI를 탑재한 대화형 에이전트(12)는 타겟 기기(13), 예를 들어 선풍기를 제어할 수 있다.

대화형 에이전트(12)는 사용자(1)의 발화에서 키워드를 인식할 수 있다. 키워드는 대화형 에이전트(12)의 동작을 트리거하도록 미리 설정된 음성 키워드로, 예를 들어, 도 1 에 도시된 바와 같이 “지니야”와 같은 키워드가 사용될 수 있다. 대화형 에이전트(12)는 사용자(1)의 일상적인 발화와 사용자(1)가 대화형 에이전트(12)에게 명령하기 위한 발화를 구분하기 위해서 키워드를 사용하는 것이며, 이를 KWS(Keyword Spotting)라고 지칭한다. 사용자(1)가 “지니야”라고 발화한 경우, 대화형 에이전트(12)는 마이크를 통해 키워드를 인식하고, 스피커를 통해 “네?”와 같은 소리를 출력함으로써, 사용자(1)에게 키워드가 인식되어 동작이 트리거되었음을 알릴 수 있다. 키워드 인식 과정(S10)이 끝나면, 대화형 에이전트(12)는 사용자(1)의 음성 명령을 인식할 준비 상태에 있게 된다.

따라서, 음성 명령 인식 과정(S20)이 진행될 수 있다. 대화형 에이전트(12)의 답변, 예를 들어 “네?”를 들은 사용자(1)는 키워드가 인식된 것을 확인하고, 타겟 기기(13)를 식별할 수 있는 식별자와 함께 제어 명령을 발화할 수 있다. 사용자(1)는 예를 들어, “선풍기 틀어줘”와 같이 타겟 기기(13)를 식별할 수 있는 “선풍기”를 포함하는 제어 명령을 발화할 수 있다. 대화형 에이전트(12)는 사용자(1)의 발화를 해석하고, 타겟 기기(13)인 선풍기에 제어 명령을 전달하고, 타겟 기기(13)로부터 제어가 시작되었다는 응답을 수신할 수 있다. 응답을 수신한 대화형 에이전트(12)는, 스피커로 “명령을 수행했습니다”와 같은 음성을 발생시켜 제어 결과를 사용자(1)에게 알릴 수 있다.

그러나, 도 1에 도시된 바와 같이 하나의 대화형 에이전트(12)가 키워드를 인식하고 타겟 기기(13)를 제어하는 경우, 사용자(1)가 넓은 공간에서 대화형 에이전트(12)를 찾아 접근하여 발화하여야 하는 불편함이 있다. 따라서, 도 2에 도시된 바와 같이 각 기기마다 VUI를 탑재하여 각각이 대화형 에이전트로 동작하는 분산식 다중 대화형 에이전트가 사용된다.

도 2는 분산형 다중 대화형 에이전트 환경을 설명하기 위한 예시적인 도면이다. 분산식 다중 대화형 에이전트 환경에서는 일반적으로 각 기기에 종속한 키워드가 사용된다. 예를 들어, 도 2에 도시된 바와 같은 환경에서, 사용자(1)는 각각의 기기, 세탁기(21), TV(22), 냉장고(23), 전구(24), 컴퓨터(25)의 동작을 트리거하기 위해 각 기기에 종속된 키워드를 사용할 수 있다. 이러한 방식에서는, 사용자(1)가 “세탁기, 빨래 돌려줘”, “전구, 전구 켜줘”와 같이 각 기기의 키워드를 모두 암기하여 발화하여야 하는 불편함이 존재한다. 따라서, 본 발명의 일 실시예에 따른 다중 에이전트 제어 방법에서는 기기(21, 22, 23, 24, 25)가 아닌 사용자(1)에 종속된 키워드를 사용하는 방법을 제안하여, 다중 에이전트의 사용성을 높인다. 일 실시예에 따르면, 사용자(1)는 하나의 키워드, 예를 들어 “지니야”라는 키워드를 통해 모든 기기(21, 22, 23, 24, 25)에 음성 인식을 트리거할 수 있다.

이러한 사용자 종속 키워드를 생성하기 위해, 사용자(1)가 각각의 대화형 에이전트(21, 22, 23, 24, 25)마다 발화하여 키워드를 학습시키는 방법이 사용될 수 있다. 기기(21, 22, 23, 24, 25)마다 형상이나 마이크의 위치 등이 상이하기 때문에, 기기마다 개별적으로 키워드를 학습시키는 방법이 키워드 인식의 정확도를 높이는 측면에서는 바람직하다. 한편, 이러한 방법으로는 정확도가 높은 키워드 학습을 진행할 수는 있으나, 사용자(1)가 대화형 에이전트(21, 22, 23, 24, 25)의 수만큼 학습 과정을 반복하여야 하며, 키워드를 변경할 다시 모든 대화형 에이전트(21, 22, 23, 24, 25)마다 학습을 진행하여야 하는 번거로움이 있다. 따라서, 본 발명의 일 실시예에 따른 다중 에이전트 제어 방법에서는, 상술한 문제점을 해소할 수 있는 키워드 학습 방법을 제공한다.

이하, 도 3 및 4를 참조하여 본 발명의 일 실시예에 따른 다중 에이전트 제어 방법의 키워드 학습 단계를 구체적으로 설명한다.

도 3에 도시된 바와 같이, 복수의 대화형 에이전트 중 레퍼런스 에이전트와 타겟 에이전트가 존재한다. 본 발명의 일 실시예에 따른 키워드 학습 방법에 있어서, 레퍼런스 에이전트와 타겟 에이전트가 다양한 음성 데이터(모델 생성용 음성 데이터)를 수집하여 축적하는 단계가 선행된다. 이 때, 추후 학습시키고자 하는 키워드를 사용하여 다양한 음성 데이터를 수집할 수 있다. 이러한 음성 데이터 수집 과정은 소정의 기간 동안 수행될 수 있다. 또한, 이러한 음성 데이터 수집 과정은 복수의 사용자로부터 음성 데이터를 수집함으로써 이루어질 수 있다.

소정의 기간 동안 음성 데이터가 수집되고 나면, 레퍼런스 에이전트 및 타겟 에이전트를 통해 수집된 음성 데이터를 이용하여 레퍼런스 모델을 생성할 수 있다. 구체적으로, 레퍼런스 에이전트 및 타겟 에이전트를 통해 수집된 각각의 음성 데이터 간의 차이를 나타내는 레퍼런스 모델을 추출할 수 있다. 전술한 바와 같이, 각 기기마다 물리적 형태에 차이가 있고, 기기의 크기, 기기별 마이크의 위치 등이 모두 상이하기 때문에, 사용자가 같은 음성을 발화하더라도 기기에 수집되는 음성 데이터는 기기마다 상이할 수 있다. 또한, 키워드 인식에서 나아가 사용자를 식별하는 기술의 경우 더욱 높은 정확도의 음성 인식을 요구하므로, 물리적 특성이 다른 기기별로 별도의 키워드가 요구된다. 레퍼런스 모델은 이와 같이 레퍼런스 에이전트와 타겟 에이전트의 물리적 형상의 차이에 기초하여 생성되는 것이다.

구체적으로, 레퍼런스 에이전트 및 타겟 에이전트가 동일한 환경에서 음성 데이터를 인식했을 때, 레퍼런스 에이전트가 인식한 음성 데이터에서 음성 특징 벡터를 추출하고, 타겟 에이전트가 인식한 음성 데이터에서 음성 특징 벡터를 추출하면, 음성 특징 벡터는 레퍼런스 에이전트와 타겟 에이전트에서 서로 다른 값을 가진다. 이러한 음성 특징 벡터값의 차이를 레퍼런스 모델로 결정할 수 있다.

일 실시예에 따른 음성 데이터 수집 단계에 있어서, 복수의 사용자로부터 음성 데이터가 수집될 수 있다. 이에 따라, 레퍼런스 모델 추출 단계에서는 복수의 사용자로부터 수집된 모델 생성용 음성 데이터의 평균값을 이용하여, 레퍼런스 에이전트와 타겟 에이전트의 음성 데이터의 차이를 나타내는 레퍼런스 모델을 생성할 수 있다. 또 다른 실시예에 따르면, 레퍼런스 모델 추출 단계에서는 데이터가 수집된 사용자별로 상이한 레퍼런스 모델을 생성할 수 있다. 즉, 사용자 A로부터 모델 생성용 음성 데이터가 수집되었고, 사용자 B로부터 모델 생성용 음성 데이터가 수집되었다면, 사용자 A에 대응하는 레퍼런스 모델과 사용자 B에 대응하는 레퍼런스 모델을 각각 생성할 수 있다.

레퍼런스 에이전트와 타겟 에이전트에 대한 레퍼런스 모델이 생성되고 나면, 이제 레퍼런스 에이전트와 타겟 에이전트 모두에 키워드를 학습시키고자 하는 사용자는, 레퍼런스 에이전트에만 키워드 학습을 진행하여도 모든 에이전트에 키워드를 학습시킬 수 있다.

도 4에 도시된 바와 같이, 키워드 학습을 진행하고자 하는 사용자 학습대상 사용자는 레퍼런스 에이전트에 키워드 학습을 진행한다. 학습 대상 사용자는 레퍼런스 에이전트의 마이크에 “지니야”와 같이 원하는 키워드를 발화하고, 레퍼런스 에이전트는 학습 대상 사용자가 발화한 키워드를 학습할 수 있다. 레퍼런스 에이전트에 키워드 학습이 완료되면, 레퍼런스 에이전트에 학습된 키워드와, 레퍼런스 에이전트와 타겟 에이전트 간의 레퍼런스 모델을 기반으로 타겟 에이전트에 대응하는 키워드가 생성될 수 있다. 이로써, 학습 대상 사용자는 타겟 에이전트에 대해 별도의 키워드 학습을 진행하지 않아도, 타겟 에이전트에 맞는 키워드가 생성되어 타겟 에이전트에 적용되게 되므로, 학습 대상 사용자가 본인의 키워드를 발화할 경우 타겟 에이전트는 키워드 인식 및 사용자 식별을 수행할 수 있다.

전술한 바와 같이, 레퍼런스 모델은 다수의 사용자로부터 수집된 데이터의 평균값을 이용하는 방법과, 사용자별로 레퍼런스 모델을 별도로 추출하는 방법이 존재할 수 있다. 따라서, 학습 대상 사용자가 타겟 에이전트에 레퍼런스 모델을 이용하여 키워드 학습을 진행할 때, 평균값에 해당하는 레퍼런스 모델을 이용하여 학습이 진행될 수 있다. 또는, 레퍼런스 에이전트에 키워드 학습을 진행하고자 하는 학습 대상 사용자의 발화가 입력되면, 사용자별로 추출되어 저장된 복수의 레퍼런스 모델 중에서 하나의 모델을 선택하여 이용할 수도 있다. 구체적으로, 수집된 다수의 사용자의 음성 데이터와, 학습 대상 사용자의 음성 데이터를 비교하여, 다수의 사용자 중 학습 대상 사용자와 음성 특징 벡터 유사도가 가장 높은 사용자를 선택하고, 선택된 사용자로부터 추출된 레퍼런스 모델을 이용하여 학습 대상 사용자의 타겟 에이전트용 음성 키워드를 생성할 수 있다.

전술한 바와 같이, 분산형 다중 대화형 에이전트 환경에서는 사용자에 종속된 키워드를 사용하는 것이 바람직하며, 도 3 및 4를 참조하여 설명된 바와 같이 본 발명의 일 실시예에 따라 사용자 종속 키워드를 편리하게 모든 에이전트에 학습시킬 수 있다.

도 5는 다중 대화형 에이전트가 존재하는 환경을 나타내는 예시적인 도면이다.

복수의 대화형 에이전트에 사용자 종속 키워드가 학습되고 나면, 사용자가 키워드를 발화하면 복수의 대화형 에이전트가 키워드를 인식할 수 있다. 키워드 인식 과정에 있어서, 키워드 매칭을 위해 필요한 컴퓨팅 리소스의 유무에 따라 키워드 인식을 대화형 에이전트에서 모두 처리하는 방법과, 음성 수신 후 레코딩한 음성 파일을 네트워크를 통해 다른 기기에 전달하여 처리된 데이터를 수신하는 방법, 즉 오프로딩 방법 두 가지를 고려할 수 있다. 분산형 다중 대화형 에이전트 환경에서는, 높은 컴퓨팅 리소스를 가지기 어려운 대화형 에이전트가 존재할 확률이 높다. 따라서 오프로딩 방법이 고려되는데, 이 경우 네트워크 오버헤드 문제가 발생한다.

본 발명의 일 실시예에 따른 다중 에이전트 제어 방법은, 네트워크 오버헤드를 줄일 수 있는 키워드 인식 방법을 제공한다. 예를 들어, 도 5에 도시된 바와 같은 분산형 다중 대화형 에이전트 환경이 존재한다고 가정한다. 즉, 레퍼런스 에이전트(50), 세탁기(51), TV(52), 냉장고(53), 전구(54), 컴퓨터(55) 각각이 VUI를 탑재한 대화형 에이전트로 동작할 수 있다.

일 실시예에 따른 다중 에이전트 제어 방법은, 도 5에 도시된 바와 같은 복수의 대화형 에이전트(50, 51, 52, 53, 54, 55)들이 키워드를 인식하는 단계를 포함하며, 이 때 네트워크 오버헤드를 줄이기 위해서 일부의 에이전트만 키워드 인식을 수행할 수 있다. 키워드 인식을 수행한 일부의 에이전트는 키워드 인식을 수행하지 않은 나머지 에이전트에게 키워드 인식을 통지함으로써, 모든 대화형 에이전트들이 키워드 인식을 수행한 것으로 될 수 있다. 예를 들어, 도 5의 예시에서, 레퍼런스 에이전트(50)만 키워드 인식을 수행한 뒤, TV(52) 등의 다른 에이전트에게 키워드 인식 결과를 알려, TV(52)도 키워드를 인식한 것으로 인지하여 TV(52)의 동작이 트리거되도록 할 수 있다. 따라서, 모든 대화형 에이전트 들이 키워드 인식 과정을 수행할 필요가 없게 되므로, 키워드 인식 과정에서 발생하는 네트워크 오버헤드 문제를 해결할 수 있다.

또한, 일 실시예에 따른 키워드 인식 방법에 있어서, 복수의 대화형 에이전트 중 일부의 에이전트만 키워드 인식에 성공한 경우, 키워드 인식에 성공한 에이전트가 키워드 인식에 실패한 에이전트에게 키워드 인식을 통지할 수도 있다.

또한, 일 실시예에 따르면, 복수의 대화형 에이전트 중 소정의 임계값보다 큰 크기의 음성을 수신한 에이전트들의 키워드 인식 결과를 수집하고, 이 중에서 소정의 비율 이상, 예를 들어 50% 이상이 키워드 인식에 성공하였는지 여부를 판단하고, 소정의 비율 이상이 성공한 것으로, 키워드가 인식된 것으로 결정할 수 있다. 이와 같이 여러 에이전트가 상호 협력하여 키워드 인식 여부를 결정함으로써 키워드 인식에 있어서 보다 정확도를 높일 수 있다.

예를 들면, 도 5에 도시된 환경에서, 사용자가 “지니야”와 같이 키워드를 발화하였을 때, 모든 에이전트가 소정의 크기 이상의 음성을 수신하지 못할 수 있으며, 그 중 일부인 레퍼런스 에이전트(50), 전구(54) 및 컴퓨터(55)만이 소정의 크기 이상의 음성을 수신할 수 있다. 이 경우, 레퍼런스 에이전트(50), 전구(54) 및 컴퓨터(55)가 키워드 인식에 성공하였는지 여부를 판단한다. 판단 결과, 레퍼런스 에이전트(50) 및 전구(54)는 키워드 인식에 성공하였으며, 컴퓨터(55)는 키워드 인식에 실패하였다고 판단된 경우, 소정의 비율 50% 이상이 키워드 인식에 성공하였으므로, 키워드가 인식된 것으로 판단한고 모든 에이전트간에 키워드가 인식되었음을 공유할 수 있다. 상기 소정의 비율 50%는 예시적인 것이며, 다중 에이전트 환경이 존재하는 공간 등 여러가지 요소에 따라 결정될 수 있다.

상술한 바와 같은 키워드 인식 방법이, 사용자 식별에도 적용될 수 있다. 본 발명의 일 실시예에 따른 다중 에이전트 제어 방법은, 다수의 에이전트가 사용자, 즉 키워드를 발화한 화자를 식별하는 단계를 포함한다. 사용자 식별 과정에 있어서도, 전술한 바와 같이 네트워크 오버헤드를 감소시키기 위해, 복수의 대화형 에이전트 중 일부의 에이전트만 사용자 식별을 수행하고, 사용자 식별을 수행한 일부의 에이전트는 나머지 에이전트에게 사용자 식별 결과를 통지하는 방식을 사용할 수 있다. 또한, 복수의 대화형 에이전트 중 일부의 에이전트만 사용자 식별에 성공한 경우에도, 사용자 식별에 성공한 에이전트가 사용자 식별에 실패한 에이전트에 결과를 통지하는 방식을 사용할 수 있다. 마찬가지로, 복수의 대화형 에이전트 중 소정의 임계값보다 큰 크기의 음성을 수신한 에이전트들의 사용자 식별 결과를 수집하고, 그 중 소정의 비율 이상이 사용자 식별에 성공하였는지 여부를 판단하고, 소정의 비율 이상이 성공한 것으로 판단된 경우 사용자가 식별되었음을 모든 에이전트에 공유할 수 있다.

또한, 사용자 식별의 경우, 복수의 대화형 에이전트 중 2 이상의 에이전트가 서로 다른 사용자 식별 결과를 가질 경우, 이 중 더 높은 정확도를 갖는 에이전트의 결과를 최종 사용자 식별 결과로 결정할 수 있다. 에이전트별 정확도는 각 에이전트의 추론 값 리스트를 확보하여 정규화를 통해 결정할 수 있다. 또는, 더 많은 수의 에이전트가 식별한 결과를 최종 사용자 식별 결과로 결정할 수 있다. 예를 들어, 도 5의 환경에서 컴퓨터(55)는 사용자 A로 화자 식별을 하였고, 레퍼런스 에이전트(50) 및 세탁기(51)는 사용자 B로 화자 식별을 한 경우, 사용자 A 보다 사용자 B에 대해 더 많은 수의 에이전트가 사용자 식별을 하였으므로, 사용자 B를 최종 식별 결과로 결정할 수 있다.

도 6 또한 다중 대화형 에이전트 환경을 나타내는 예시적인 도면이다. 본 발명의 일 실시예에 따른 다중 에이전트 제어 방법은, 사용자의 발화에서 키워드가 인식된 경우, 키워드 인식 결과를 사용자에게 통지하는 키워드 인식 알림 단계에 있어서, 에이전트끼리 상호 간섭 문제를 방지할 수 있는 방법을 제공한다. 복수의 대화형 에이전트가 존재하는 환경에서, 키워드를 인식한 모든 에이전트가 사용자에게 스피커를 통해 알림을 통지할 경우, 상호 간섭 문제가 발생할 수 있다.

따라서, 본 발명의 일 실시예에 따르면, 소정의 방식에 의해 다수의 에이전트 중 하나의 에이전트를 선택하여, 선택된 에이전트가 키워드 인식 알림을 스피커로 출력할 수 있다. 이 경우, 선택되지 않은 다른 에이전트들은 스피커가 아닌 LED 표시등 등으로 음성에 의한 상호 간섭이 발생하지 않는 방법으로 키워드 인식 알림을 표시할 수 있다.

다수의 에이전트 중 키워드 인식 알림을 통지할 에이전트를 결정하는 소정의 방식으로는, 랜덤 추출 방식, 충돌 회피(Collision Avoidance) 알고리즘에 기초한 방식, 에이전트가 수신한 음성 크기를 비교하여 가장 큰 크기의 음성을 수신한 에이전트를 선택하는 방식 등이 사용될 수 있다. 충돌 회피 알고리즘에 기초한 방식은, 예를 들어, 비가청 주파수를 사용하는 환경에서 랜덤 백 오프(random back off) 기간 후 각 에이전트에서 답변 권한을 경쟁 입찰하여 답변 권한을 얻은 대화형 에이전트가 키워드 인식 알림을 스피커로 출력하는 방식일 수 있다.

또한, 복수의 에이전트가 마이크 빔포밍을 수행하거나, 복수의 에이전트가 존재하는 공간의 영상을 수집하여 분석함으로써 사용자에게 가장 가까운 에이전트를 선택할 수도 있다. 예를 들어, 도 6에 도시된 바와 같이 사용자(1)가 존재하는 공간에 에이전트 1(61), 에이전트 2(62), 에이전트 3(63)이 존재한다고 가정한다. 이 경우, 에이전트 1 내지 3(61, 62, 63)이 모두 키워드를 인식하였어도, 각 에이전트의 마이크 빔포밍 또는 영상 분석을 통해 사용자(1)와 가장 가까이 위치한 에이전트를 결정하고, 해당 에이전트 1(61)만이 스피커를 통해 키워드 인식 알림을 출력할 수 있다. 이로써, 사용자(1)에게 가장 정확하게 키워드 인식 알림을 통지하면서도, 에이전트간의 상호 간섭 문제를 방지할 수 있다.

도 7은 본 발명의 일 실시예에 따른 다중 에이전트 제어 방법을 설명하기 위한 예시적인 흐름도(700)다. 도 7에 도시된 바와 같이, 일 실시예에 따른 다중 에이전트 제어 방법에서는 상술한 바와 같은 키워드 학습 단계(S710), 키워드 인식 단계(S720) 및 키워드 인식 알림 단계(S730)가 수행될 수 있다.

키워드 학습 단계(S710)는 복수의 대화형 에이전트에 각 에이전트의 동작을 트리거하는 음성 키워드를 학습시키는 단계이다. 키워드 학습 단계(S710)는 도 8에 도시된 바와 같은 구체적인 단계들을 더 포함한다.

도 8을 참조하면, 키워드 학습 단계는 모델 생성용 음성 데이터를 수집하는 단계(S810), 레퍼런스 모델을 추출하는 단계(S820), 레퍼런스 에이전트에 음성 키워드를 학습시키는 단계(S830) 및 타겟 에이전트에 적용될 음성 키워드를 생성하는 단계(S840)를 포함한다.

모델 생성용 음성 데이터를 수집하는 단계(S810)에서는, 복수의 대화형 에이전트 중 레퍼런스 에이전트 및 타겟 에이전트를 결정하고, 레퍼런스 에이전트 및 타겟 에이전트에 소정의 기간 동안 음성 데이터를 수집할 수 있다. 이 때, 다수의 사용자로부터 음성 데이터를 수집할 수 있다. 또한, 특정 키워드에 관한 음성 데이터를 수집할 수 있다.

레퍼런스 모델을 추출하는 단계(S820)에서는, 상기 모델 생성용 음성 데이터를 수집하는 단계(S810)에서 수집된 음성 데이터를 이용하여, 레퍼런스 에이전트에 수집된 음성 데이터 및 타겟 에이전트에 수집된 음성 데이터 간의 차이를 나타내는 레퍼런스 모델을 추출할 수 있다. 이 때, 다수의 사용자로부터 수집된 음성 데이터의 평균값을 이용할 수도 있고, 각 사용자별로 레퍼런스 모델을 별도로 추출할 수도 있다.

레퍼런스 에이전트에 음성 키워드를 학습시키는 단계(S830)에서는 키워드 학습을 진행하고자 하는 학습 대상 사용자가 키워드를 발화하여 레퍼런스 에이전트에 음성 키워드를 학습시킬 수 있다. 레퍼런스 에이전트에 음성 키워드가 학습되고 나면, 레퍼런스 에이전트에 학습된 소정의 음성 키워드와, 레퍼런스 모델에 기초하여, 타겟 에이전트에 적용될 학습 대상 사용자의 음성 키워드를 생성하는 단계(S840)가 수행될 수 있다.

키워드 인식 단계(S720) 및 키워드 인식 알림 단계(S730)에서는, 전술한 바와 같이 네트워크 오버헤드를 줄이고, 상호 간섭 문제를 방지하기 위한 본 발명의 일 실시예에 따른 방법들이 사용될 수 있다.

상술한 바와 같은 다중 에이전트 제어 방법은, 본 발명의 일 실시예에 따라 제공되는 장치에서 수행될 수 있다. 상기 장치는, 각각의 에이전트와 통신하여 데이터를 수신하고 송신하는 통신 모듈, 수신한 데이터를 저장하는 데이터베이스 및 수신한 데이터를 처리하는 처리부를 포함할 수 있다. 상기 장치는, 다수의 에이전트와 별도의 기기로 제공될 수도 있으며, 그 중 하나의 에이전트에 탑재될 수도 있다. 예를 들면, 도 5에 도시된 바와 같은 다중 대화형 에이전트 환경에서, 상기 장치는 레퍼런스 에이전트에 탑재되어, 본 발명의 일 실시예에 따른 다중 에이전트 제어 방법을 수행할 수 있다. 상기 통신 모듈은 네트워크(TCP/IP, 블루투스, 지그비 등)를 통하여 다수의 에이전트와 통신할 수 있다. 또한, 상기 통신 모듈은 비가청 주파수를 통하여 다수의 에이전트와 통신할 수 있다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 청구범위에 의하여 나타내어지며, 청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims

복수의 대화형 에이전트를 제어하는 다중 에이전트 제어 방법에 있어서,
상기 다중 에이전트 제어 방법은, 상기 복수의 대화형 에이전트에 각 에이전트의 동작을 트리거하는 음성 키워드를 학습시키는 키워드 학습 단계를 포함하며,
상기 키워드 학습 단계는,
상기 복수의 대화형 에이전트 중 레퍼런스 에이전트 및 타겟 에이전트를 결정하고, 상기 레퍼런스 에이전트 및 상기 타겟 에이전트를 통해 소정의 기간 동안 음성 데이터를 수집하는 단계;
상기 레퍼런스 에이전트 및 타켓 에이전트를 통해 수집된 음성 데이터를 이용하여 레퍼런스 모델을 생성하는 단계;
상기 레퍼런스 에이전트를 통해 학습 대상 사용자의 음성 키워드를 학습하는 단계; 및
상기 레퍼런스 에이전트를 통해 학습된 상기 음성 키워드와 상기 레퍼런스 모델에 기초하여, 상기 타겟 에이전트에 적용될 상기 학습 대상 사용자의 음성 키워드를 생성하는 단계를 포함하는, 다중 에이전트 제어 방법.
제 1 항에 있어서,
상기 음성 데이터를 수집하는 단계는,
상기 소정의 기간 동안 복수의 사용자로부터 모델 생성용 음성 데이터를 수집하는 단계를 포함하는, 다중 에이전트 제어 방법.
제 2 항에 있어서,
상기 레퍼런스 모델을 생성하는 단계는,
상기 복수의 사용자로부터 수집된 모델 생성용 음성 데이터의 평균값을 이용하는 단계를 포함하는, 다중 에이전트 제어 방법.
제 2 항에 있어서,
상기 레퍼런스 모델을 생성하는 단계는,
상기 복수의 사용자로부터 수집된 모델 생성용 음성 데이터에 대하여 각 사용자별로 레퍼런스 모델을 생성하는 단계를 포함하는, 다중 에이전트 제어 방법.
제 4 항에 있어서,
상기 타겟 에이전트에 적용될 상기 학습 대상 사용자의 음성 키워드를 생성하는 단계는,
상기 복수의 사용자의 음성 데이터와 상기 학습 대상 사용자의 음성 데이터를 비교하여, 상기 복수의 사용자 중 상기 학습 대상 사용자와 음성 특징 벡터 유사도가 가장 높은 사용자를 선택하고, 선택된 사용자의 레퍼런스 모델을 이용하여 상기 학습 대상 사용자의 음성 키워드를 생성하는 단계를 포함하는, 다중 에이전트 제어 방법.
제 1 항에 있어서,
상기 다중 에이전트 제어 방법은, 상기 복수의 대화형 에이전트의 키워드 인식 단계를 더 포함하며,
상기 키워드 인식 단계는,
상기 복수의 대화형 에이전트 중 일부의 에이전트만 키워드 인식에 성공한 경우, 키워드 인식에 성공한 에이전트가 키워드 인식에 실패한 에이전트에게 키워드 인식되었음을 통지하는 단계를 포함하는, 다중 에이전트 제어 방법.
제 1 항에 있어서,
상기 다중 에이전트 제어 방법은, 상기 복수의 대화형 에이전트의 사용자 식별 단계를 더 포함하며,
상기 사용자 식별 단계는,
상기 복수의 대화형 에이전트 중 일부의 에이전트만 사용자 식별에 성공한 경우, 사용자 식별에 성공한 에이전트가 사용자 식별에 실패한 에이전트에게 사용자 식별 결과를 통지하는 단계를 포함하는, 다중 에이전트 제어 방법.
제 1 항에 있어서,
상기 다중 에이전트 제어 방법은, 상기 복수의 대화형 에이전트의 사용자 식별 단계를 더 포함하며,
상기 사용자 식별 단계는,
상기 복수의 대화형 에이전트 중 2개 이상의 에이전트가 서로 다른 사용자 식별 결과를 가질 경우, 상기 2개 이상의 에이전트가 수신한 음성의 크기 값을 비교하여, 가장 큰 음성 크기 값을 갖는 에이전트의 사용자 식별 결과를 최종 사용자 식별 결과로 결정하는, 다중 에이전트 제어 방법.
제 1 항에 있어서,
상기 다중 에이전트 제어 방법은, 상기 복수의 대화형 에이전트의 사용자 식별 단계를 더 포함하며,
상기 사용자 식별 단계는,
상기 복수의 대화형 에이전트 중 2개 이상의 에이전트가 서로 다른 사용자 식별 결과를 가질 경우, 상기 2개 이상의 에이전트의 사용자 식별 결과 중 더 높은 정확도를 산출한 결과를 최종 사용자 식별 결과로 결정하는, 다중 에이전트 제어 방법.
제 1 항에 있어서,
상기 다중 에이전트 제어 방법은, 사용자의 발화에서 키워드가 인식된 경우, 상기 복수의 대화형 에이전트 중 소정의 방식에 의해 하나의 에이전트를 선택하여, 선택된 에이전트가 키워드 인식 알림을 스피커로 출력하는 키워드 인식 알림 단계를 더 포함하는, 다중 에이전트 제어 방법.
제 10 항에 있어서,
상기 소정의 방식은, 랜덤 추출 방식; 충돌 회피(Collision Avoidance) 알고리즘에 기초한 방식; 에이전트가 수신한 음성 크기를 비교하여 가장 큰 음성 크기값의 에이전트를 선택하는 방식; 및 상기 복수의 대화형 에이전트의 마이크 빔포밍 또는 상기 복수의 대화형 에이전트가 존재하는 공간의 영상을 수집하여 분석함으로써 사용자에게 가장 가까운 에이전트를 선택하는 방식 중 선택되는, 다중 에이전트 제어 방법.
복수의 대화형 에이전트를 제어하는 다중 에이전트 제어 장치에 있어서,
상기 장치는,
각각의 에이전트와 통신하여 데이터를 수신하고 송신하는 통신 모듈;
수신한 데이터를 저장하는 데이터베이스; 및
수신한 데이터를 처리하는 처리부를 포함하며,
상기 처리부는,
상기 복수의 대화형 에이전트 중 레퍼런스 에이전트 및 타겟 에이전트를 결정하고, 상기 레퍼런스 에이전트 및 상기 타겟 에이전트를 통해 소정의 기간동안 입력되는 음성 데이터를 수집하고, 상기 레퍼런스 에이전트 및 타겟 에이전트를 통해 입력된 음성 데이터를 이용하여 레퍼런스 모델을 생성하고, 상기 레퍼런스 에이전트에 학습 대상 사용자의 음성 키워드를 학습하고, 상기 레퍼런스 에이전트에 학습된 상기 소정의 음성 키워드와, 상기 레퍼런스 모델에 기초하여, 상기 타겟 에이전트에 적용될 상기 학습 대상 사용자의 음성 키워드를 생성하는 처리를 수행하는, 다중 에이전트 제어 장치.