KR102445779B1

KR102445779B1 - 대화형 서비스 장치 및 대화형 서비스 장치의 제어 방법

Info

Publication number: KR102445779B1
Application number: KR1020170147070A
Authority: KR
Inventors: 황민웅; 김지황
Original assignee: 주식회사 엘지유플러스
Priority date: 2017-11-07
Filing date: 2017-11-07
Publication date: 2022-09-21
Also published as: KR20190051425A

Abstract

본 발명은 대화형 서비스 장치 및 방법에 관한 것이다. 본 발명의 일 실시예에 따른 대화형 서비스 장치는, 자연어를 입력 받는 입력부; 상기 입력된 자연어에서 제1 플랫폼에 대응되는 제1 기동어 및 제2 플랫폼에 대응되는 제2 기동어 중 어느 하나를 식별하는 제어부; 및 상기 제1 플랫폼 또는 상기 제2 플랫폼과 상기 자연어에 포함되는 명령어를 전송하는 통신부; 를 포함하며, 상기 제어부는, 상기 제1 기동어가 식별되는 경우, 상기 입력된 자연어에 포함되는 명령어에 상기 제1 기동어에 대응하는 프리픽스가 합성된 명령어를 상기 제1 플랫폼을 통해 상기 프리픽스에 대응되는 서비스 서버로 전송하도록 하며, 상기 제2 기동어가 식별되는 경우, 상기 입력된 자연어에 포함되는 명령어를 상기 제2 플랫폼으로 전송하도록 할 수 있다.

Description

대화형 서비스 장치 및 대화형 서비스 장치의 제어 방법{A method for controlling a conversational service device and a conversational service device}

본 발명은 대화형 서비스 장치 및 대화형 서비스 장치의 제어 방법에 관한 것으로서, 보다 상세하게는 자연어 처리가 가능한 대화형 서비스 장치의 명령어 가공 방법에 관한 것이다.

자연어 처리(Natural Language Processing, NLP)는 인간의 언어를 컴퓨터가 이해할 수 있도록 다양한 분석 방법을 통해 기계적인 형태로 변환하는 기술을 의미한다. 또한 이를 다시 인간이 해석할 수 있는 형태소 만드는 기술도 포함한다. 자연어 처리는 인공지능의 하위 분야로 1960년대의 인공지능을 만들려던 시도가 실패한 후에 인간의 언어를 분석하고 이해하는 기술이 세분화되면서 파생된 기술 분야이다. 자연어 처리는 언어공학, 인공지능, 전산언어학의 연구 분야를 포함할 수 있다.

자연어(Natural Language)는 프로그래밍 언어처럼 사람이 인공적으로 만든 언어가 아닌 과거에 오랜 시간을 거쳐 자연스럽게 발생한 의사소통을 위해 사용해 온 한국어나 영어 같은 언어를 의미한다. 일반적으로 공학에서 언어라고 하면 C나 JAVA와 같은 프로그래밍 언어를 떠오르기 때문에 사람이 사용하는 자연어를 구분하여 부르고 있다.

한편, 자연어 처리가 가능한 대화형 서비스 장치는 인간의 언어를 완벽하게 이해하는 데에 어려움을 갖는다. 최근에는 확률과 통계 기법을 사용하여 수준 높은 자연어 처리 기술들이 정해진 명령어를 통해 구글, 아마존, 애플 등에서 판매하는 대화형 서비스 장치에 적용되어 판매되고 있다. 정해진 명령어는 각 제조사에 따라 구조를 달리할 수 있으며, 사용자는 정해진 명령어의 구조에 적합한 자연어를 입력해야 한다. 정해진 명령어의 구조만으로 대화형 서비스 장치를 사용하는 것은 사용자에게 불편함을 발생시킬 수 있다.

따라서, 정해진 명령어는 인간이 실제 사용하는 언어와 유사한 형태를 갖는 것이 바람직하며, 대화형 서비스 장치는 짧은 구조의 명령어에 담긴 사용자의 의도를 이해할 필요가 있다.

대화형 서비스 장치와 관련하여, 짧은 형태의 명령어에서 사용자의 의도를 반영할 수 있는 방법이 필요하다.

일 실시예는 상술한 종래 기술의 문제점을 해결하기 위해 고안된 것으로, 본 발명의 목적은 대화형 서비스 장치 및 대화형 서비스 장치의 제어 방법을 제공하는 것이다.

상세하게, 일 실시예는 복수의 기동어(wake word)를 각각 식별하고, 식별된 기동어 각각에 따라 구분되는 서비스를 지시하는 프리픽스를 합성하는 대화형 서비스 장치를 제공한다.

본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

상기와 같은 기술적 과제를 해결하기 위하여, 본 발명의 일 실시예에 따른 대화형 서비스 장치의 자연어 가공 방법은, 자연어를 입력 받는 단계; 기 저장된 복수의 기동어(wake word) 중 하나가 상기 자연어에 포함되는지 확인하는 단계; 상기 자연어에 포함된 명령어와 확인된 제1 기동어에 대응하는 프리픽스(prefix)를 합성하는 단계; 상기 프리픽스가 합성된 명령어를 플랫폼을 통해 상기 프리픽스에 대응되는 서비스 서버로 전송시키는 단계; 를 포함할 수 있다.

실시예에 따라, 상기 합성하는 단계는, 상기 제1 기동어의 입력 이후 기 설정된 시간 이내 입력되는 명령어에 상기 서비스 서버를 지시하는 프리픽스를 합성하는 단계; 를 포함할 수 있다.

실시예에 따라, 상기 합성하는 단계는, 상기 프리픽스를 상기 제1 기동어와 상기 제1 기동어 다음 입력된 명령어 사이에 합성하는 단계; 를 포함할 수 있다.

실시예에 따라, 상기 저장된 복수의 기동어 중 어느 하나가 인식되면 상기 입력된 기동어의 입력 이후 기 설정된 시간 이내 입력되는 명령어를 저장하는 단계; 를 더 포함할 수 있다.

실시예에 따라, 상기 프리픽스는, 상기 서비스 서버를 지시하는 호출구문, 상기 서비스 서버가 수행할 동작을 지시하는 실행구문 및 상기 호출구문과 상기 실행구문을 연결하는 연결구문을 포함할 수 있다.

실시예에 따라, 상기 호출구문은, 상기 기동어 및 상기 실행구문과 상이하며, 상기 연결구문과 상이한 두 단어 이상으로 이루어진 복합어일 수 있다.

실시예에 따라, 상기 합성하는 단계는, 상기 제1 기동어에 따라 상기 프리픽스를 상기 자연어에 포함된 명령어에 합성할지 여부를 판단하는 단계; 를 포함할 수 있다.

실시예에 따라, 상기 서비스 서버로 상기 프리픽스가 합성된 명령어를 전송한 후, 상기 서비스 서버로부터 상기 명령어에 포함된 응답 신호를 수신하여 상기 응답 신호에 대응되는 자연어로 출력하는 단계; 를 더 포함할 수 있다.

실시예에 따라, 본 발명은 상기 기재된 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.

또한, 본 발명의 일 실시예에 따른 대화형 서비스 장치는, 자연어를 입력 받는 입력부; 상기 입력된 자연어에서 제1 플랫폼에 대응되는 제1 기동어 및 제2 플랫폼에 대응되는 제2 기동어 중 어느 하나를 식별하는 제어부; 및 상기 제1 플랫폼 또는 상기 제2 플랫폼과 상기 자연어에 포함되는 명령어를 전송하는 통신부; 를 포함하며, 상기 제어부는, 상기 제1 기동어가 식별되는 경우, 상기 입력된 자연어에 포함되는 명령어에 상기 제1 기동어에 대응하는 프리픽스가 합성된 명령어를 상기 제1 플랫폼을 통해 상기 프리픽스에 대응되는 서비스 서버로 전송하도록 하며, 상기 제2 기동어가 식별되는 경우, 상기 입력된 자연어에 포함되는 명령어를 상기 제2 플랫폼으로 전송하도록 할 수 있다.

실시예에 따라, 상기 제어부는, 상기 제1 기동어의 입력 이후 기 설정된 시간 이내 입력되는 명령어에 상기 서비스 서버를 지시하는 프리픽스를 합성할 수 있다.

실시예에 따라, 상기 제어부는, 상기 프리픽스를 상기 제1 기동어와 상기 제1 기동어 다음 입력된 명령어 사이에 합성할 수 있다.

실시예에 따라, 상기 자연어를 저장하는 녹음부; 를 더 포함하며, 상기 제어부는, 상기 제1 기동어 및 상기 제2 기동어 중 어느 하나가 인식되면 상기 인식된 기동어의 입력 이후 기 설정된 시간 이내 입력되는 명령어를 저장시킬 수 있다.

실시예에 따라, 상기 제어부는, 상기 제1 기동어에 따라 상기 프리픽스를 상기 자연어에 포함된 명령어에 합성할지 여부를 판단할 수 있다.

실시예에 따라, 상기 통신부는, 상기 서비스 서버로 상기 프리픽스가 합성된 명령어를 전송한 후, 상기 서비스 서버로부터 상기 명령어에 포함된 응답 신호를 수신할 수 있다.

실시예에 따라, 음성 신호를 출력하는 출력부; 를 더 포함하며, 상기 제어부는, 상기 서비스 서버로부터 수신한 상기 명령어에 포함된 응답 신호를 대응되는 자연어로 출력시킬 수 있다.

상기 본 발명의 양태들은 본 발명의 바람직한 실시예들 중 일부에 불과하며, 본원 발명의 기술적 특징들이 반영된 다양한 실시예들이 당해 기술분야의 통상적인 지식을 가진 자에 의해 이하 상술할 본 발명의 상세한 설명을 기반으로 도출되고 이해될 수 있다.

본 발명에 따른 대화형 서비스 장치 및 대화형 서비스 제어 방법에 대한 효과에 대해 설명하면 다음과 같다.

본 발명은 대화형 서비스 장치가 복수의 기동어를 식별할 수 있어 기동어에 포함된 사용자의 의도가 용이하게 전달될 수 있다.

본 발명은 정해진 형식의 발화만으로 제한되지 않는 대화형 서비스 장치를 통해 사용자가 보다 자연스런 발화를 통해 서비스를 사용할 수 있다.

본 발명은 복수의 기동어를 식별할 수 있고 기동어 각각에 대응되는 상이한 플랫폼을 통해, 다양한 서비스 제공 메커니즘을 제공할 수 있다.

본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

이하에 첨부되는 도면들은 본 발명에 관한 이해를 돕기 위한 것으로, 상세한 설명과 함께 본 발명에 대한 실시예들을 제공한다. 다만, 본 발명의 기술적 특징이 특정 도면에 한정되는 것은 아니며, 각 도면에서 개시하는 특징들은 서로 조합되어 새로운 실시예로 구성될 수 있다.
도 1은 본 발명의 일 실시예에 따른 대화형 서비스 장치의 제어 방법을 설명하기 위한 순서도이다.
도 2는 본 발명의 일 실시예에 따른 기동어에 따라 동작을 달리하는 대화형 서비스 장치를 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따른 2개의 기동어를 식별하는 대화형 서비스 장치의 제어 방법을 설명하기 위한 순서도이다.
도 4는 본 발명의 일 실시예에 따른 대화형 서비스 장치를 설명하기 위한 구조도이다.

이하, 본 발명의 실시예들이 적용되는 장치 및 다양한 방법들에 대하여 도면을 참조하여 보다 상세하게 설명한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다.

이상에서, 본 발명의 실시예를 구성하는 모든 구성 요소들이 하나로 결합되거나 결합되어 동작하는 것으로 설명되었다고 해서, 본 발명이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성 요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다. 또한, 그 모든 구성 요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있지만, 각 구성 요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수 개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 그 컴퓨터 프로그램을 구성하는 코드들 및 코드 세그먼트들은 본 발명의 기술 분야의 당업자에 의해 용이하게 추론될 수 있을 것이다. 이러한 컴퓨터 프로그램은 컴퓨터가 읽을 수 있는 저장매체(Computer Readable Media)에 저장되어 컴퓨터에 의하여 읽혀지고 실행됨으로써, 본 발명의 실시예를 구현할 수 있다. 컴퓨터 프로그램의 저장매체로서는 자기 기록매체, 광 기록매체 등이 포함될 수 있다.

실시예의 설명에 있어서, 각 구성 요소의 " 상(위) 또는 하(아래)", “전(앞) 또는 후(뒤)”에 형성되는 것으로 기재되는 경우에 있어, “상(위) 또는 하(아래)” 및“전(앞) 또는 후(뒤)”는 두 개의 구성 요소들이 서로 직접 접촉되거나 하나 이상의 또 다른 구성 요소가 두 개의 구성 요소들 사이에 배치되어 형성되는 것을 모두 포함한다.

또한, 이상에서 기재된 "포함하다", "구성하다" 또는 "가지다" 등의 용어는, 특별히 반대되는 기재가 없는 한, 해당 구성 요소가 내재될 수 있음을 의미하는 것이므로, 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것으로 해석되어야 한다. 기술적이거나 과학적인 용어를 포함한 모든 용어들은, 다르게 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 사전에 정의된 용어와 같이 일반적으로 사용되는 용어들은 관련 기술의 문맥 상의 의미와 일치하는 것으로 해석되어야 하며, 본 발명에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

또한, 본 발명의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 어떤 구성 요소가 다른 구성 요소에 "연결", "결합" 또는 "접속"된다고 기재된 경우, 그 구성 요소는 그 다른 구성 요소에 직접적으로 연결되거나 또는 접속될 수 있지만, 각 구성 요소 사이에 또 다른 구성 요소가 "연결", "결합" 또는 "접속"될 수도 있다고 이해되어야 할 것이다.

그리고 본 발명을 설명함에 있어서 관련된 공지기술에 대하여 이 분야의 기술자에게 자명한 사항으로서 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.

자연어 처리가 가능한 대화형 서비스 장치는 통상 음성 인식 스피커라고도 지칭되며, 이외에도 인공지능 스피커, AI 스피커, 인공지능 비서 등으로 지칭될 수 있다.

대화형 서비스 장치의 일 실시예로 챗봇(Chat Bot)을 들 수 있다. 챗봇(Chat bot)은 말 그대로 '채팅(Chatting)'과 '로봇(Robot)'의 합성어로써 사람처럼 대화(채팅)하는 로봇을 의미할 수 있다. 챗봇은 구글, 아마존, 애플 등에서 제조하여 판매하고 있는 구글홈, 아마존 에코(echo), 시리 등의 가정용 기기일 수 있으며, 고객 응대 등을 하는 기업형 기기일 수도 있다.

대화형 서비스 장치에서 사용자로부터 발화된 음성을 인식하는 기술은 상당 수준에 이르렀다고 평가되고 있으나, 단순히 음성을 인식하는 것 이상으로 사용자의 의도를 파악하고 발화된 음성에 대응되는 해답을 제공하는 것에는 한계가 있다.

이와 관련하여, 대화형 서비스 장치는 자연어가 정해진 약속에 적용되는 경우에 한하여 음성 인식이 가능하다. 예를 들어, 아마존 에코는 라운치구문(launch phrase), 인보케이션네임(invocation name), 커넥팅구문(connecting phrase)가 포함된 발화를 입력 받아야 인보케이션네임이 지시하는 스킬서버(skill server)에 접속하여 특정 서비스를 제공 할 수 있다. 다시 말해서, 아마존 에코는 “ask Greeter to”라는 발화를 입력 받아야 “Greeter”에 대응되는 스킬 서버에 접속할 수 있다.

다만, 일반적으로 사람은 동일한 의도를 표현하기 위해 수많은 상이한 표현 방법으로 발화할 수 있다. 이에 따라, 대화형 서비스 장치를 사용하는 사용자 역시 정해진 발화 방법만으로 말하지 않을 수 있다. 예를 들어, 아마존 에코의 경우, 사용자는 특정 서비스를 요청할 의도가 있음에도 불구하고, 상기 의도에 대응되는 라운치구문, 인보케이션네임, 커넥팅구문이 포함되는 발화를 대화형 서비스 장치에 입력하지 않을 수 있다. 사용자는 특정 서비스를 제공 받기 위해 발화해야 하는 인보케이션네임을 모를 수 있고, 발화를 짧게 줄여 말할 수 있기 때문이다.

따라서, 본 발명은 특정 서비스를 제공 받기 위해 발화해야 하는 정해진 약속 이외에 기동어의 발화만으로 사용자가 제공 받길 의도하는 서비스를 받을 수 있도록 사용자의 의도를 반영하는 자연어 처리 방법을 제공할 수 있다. 이에 따라, 사용자는 기동어의 사용만으로 자신의 의도를 전달할 수 있어 대화형 서비스 장치를 편리하게 사용할 수 있다.

도 1은 본 발명의 일 실시예에 따른 대화형 서비스 장치의 제어 방법을 설명하기 위한 순서도이다.

도 1을 참조하면, 대화형 서비스 장치는 사용자로부터 자연어를 입력 받을 수 있다(S110).

대화형 서비스 장치는 사용자로부터 자연어를 입력 받기 않으면 동작하지 않으며, 특히 기동어를 입력받지 않으면 대화형 서비스 장치는 활성화(wake up)되지 않는다.

대화형 서비스 장치는 명령을 입력 받으면 그에 대한 응답 구조를 가지고 있으며, 기동어 등에 의해 활성화되면 입력되는 음성 명령을 녹음할 수 있다.

대화형 서비스 장치는 자연어에 기 저장된 복수의 기동어 중 하나가 포함되는지 확인할 수 있다(S120).

기동어(wake word)는 대화형 서비스 장치를 부르는 호출 명령 또는 호칭일 수 있다. 기동어는 대화형 서비스 장치가 사용자의 발화를 입력 받도록 하는 형태소이다. 대화형 서비스 장치는 기동어가 입력되지 않으면 이후 입력되는 명령어를 입력 받지 못한다. 다시 말해서, 대화형 서비스 장치는 기동어를 입력 받아야만 이후 명령어를 입력 받을 수 있다.

대화형 서비스 장치는 기 저장된 복수의 기동어를 구분할 수 있고, 구분하여 식별된 각각의 기동어에 따라 다른 동작을 수행할 수 있다. 예를 들어, 대화형 서비스 장치는 기동어로서 “지황” 및 “민웅”을 입력된 자연어에서 인식할 수 있고, 각각을 식별할 수 있다.

대화형 서비스 장치는 자연어에 포함된 명령어와 확인된 제1 기동어에 대응하는 프리픽스(prefix)를 합성할 수 있다(S130).

입력된 명령어는 오디오(audio) 데이터일 수 있으며, 프리픽스 또한 오디오 데이터일 수 있다. 입력된 명령어는 음성 데이터로서 아날로그 데이터일 수 있다. 입력된 음성 명령어는 디지털 형태로 변환된 후, 동일한 디지털 변환 형식의 프리픽스가 합성될 수 있다.

대화형 서비스 장치는 식별된 각각의 기동어에 따라 다른 동작을 수행할 수 있고, 복수의 기동어 중 식별된 기동어가 제1 기동어일 경우, 제1 기동어에 대응되는 프리픽스를 합성할 수 있다.

예를 들어, 식별된 기동어가 “지황”일 경우, 기동어 입력 이후 발화된 명령어에 특정 프리픽스를 합성할 수 있다.

프리픽스는 사용자가 제공 받기를 의도하는 특정 서비스를 제공할 수 있는 서비스 서버와 대응될 수 있다.

실시예에 따라, 프리픽스는 서비스 서버를 지시하는 호출구문, 서비스 서버가 수행할 동작을 지시하는 실행구문 및 호출구문과 실행구문을 연결하는 연결구문을 포함할 수 있다.

호출구문은 서비스 서버를 지시하는 형태소로서, 실시예에 따라, 특정 서비스를 제공할 수 있는 어플리케이션(application)일 수 있다. 예를 들어, 서비스 서버가 노래 정보를 제공하는 경우, 호출구문은 노래 정보를 제공하는 어플리케이션의 호칭인 “노래방”일 수 있다.

실행구문은 서비스 서버가 수행하는 동작을 지시하는 형태소로서, 실시예에 따라 동사일 수 있다. 예를 들어, 실행구문은 “요청해”, “재생해”, “입력해”, “저장해”, “주문해” 등 일 수 있다.

연결구문은 호출구문과 실행구문을 연결하는 형태소로서, 실시예에 따라 조사일 수 있다. 예를 들어, 연결구문은 “~에게”, “~로” 등 일 수 있다.

대화형 서비스 장치는 프리픽스가 합성된 명령어를 플랫폼을 통해 프리픽스에 대응되는 서비스 서버로 전송할 수 있다(S140).

대화형 서비스 장치가 복수의 플랫폼과 네트워크를 형성할 수 있다. 대화형 서비스 장치는 복수의 플랫폼 중 프리픽스가 합성된 명령어를 특정 플랫폼으로 전송할 수 있다.

플랫폼은 음성인식을 수행할 수 있다. 플랫폼은 대화형 서비스 장치로부터 수신한 명령어를 인식하고, 해석하여 사용자의 명령을 수행하고 피드백할 수 있다.

프리픽스가 합성된 명령어를 수신한 플랫폼은 명령어(음성)를 프리픽스와 대응되는 서비스 서버로 전달할 수 있다.

서비스 서버는 불특정 다수의 서드파티(thirdparty)에 의해 개발될 수 있으며, 서비스 서버는 명령어에 따라 특정 서비스를 직접 또는 간접적으로 처리할 수 있다.

대화형 서비스 장치는 서비스 서버로부터 명령어에 대응되는 응답 신호를 수신하여 응답신호에 대응되는 자연어로 출력할 수 있다(S150).

서비스 서버는 명령어를 전달 받고, 명령어에 대응되는 동작을 직접 또는 간접적으로 처리할 수 있다.

서비스 서버는 명령어에 대응되는 응답 신호를 플랫폼을 통해 다시 대화형 서비스 장치로 전송할 수 있고, 이를 수신한 대화형 서비스 장치는 응답 신호에 대응되는 자연어를 출력할 수 있다.

도 2는 본 발명의 일 실시예에 따른 기동어에 따라 동작을 달리하는 대화형 서비스 장치를 설명하기 위한 도면이다.

도 2를 참조하면, 대화형 서비스 장치(110)는 제1 플랫폼(120) 및 제2 플랫폼(140) 중 어느 하나로 자연어에 포함되는 명령어를 전송할 수 있다.

대화형 서비스 장치(110)는 기동어에 따라 동작을 달리할 수 있다. 대화형 서비스 장치(110)는 입력되는 기동어에 따라 명령어를 전송할 플랫폼을 결정할 수 있다.

예를 들어, 대화형 서비스 장치는 사용자에게 단순히 음악을 재생하거나 뉴스를 읽어주는 단순한 정보를 제공하는 기능을 제공할 수 있다. 반면, 대화형 서비스 장치는 음식을 제공하거나 택시를 예약하거나, 전등을 켜고 끄는 등의 복잡한 서비스를 제공할 수 있다.

이 때, 대화형 플랫폼은 복잡한 특정 서비스를 제공하기 위한 서비스 서버(130)와 연동되는 제1 플랫폼(120)으로 명령어를 전송할 수 있다. 반면, 사용자로부터 단순한 정보 제공을 요청 받은 경우, 대화형 서비스 서버는 단순한 정보 제공을 처리하는 제2 플랫폼으로 명령어를 전송할 수 있다.

서비스 서버(130)는 처리하는 서비스의 종류에 따라 다양할 수 있으며, 각각의 서비스 서버로 접근할 수 있는 사용자 인터페이스로서 각각의 어플리케이션을 포함할 수 있다.

대화형 서비스 장치는 기동어에 따라 상이한 플랫폼으로 명령어를 전송하여 상이한 동작을 수행하도록 할 수 있다.

예를 들어, 대화형 서비스 장치에 미리 설정 및 저장된 기동어는 “지황” 및 “민웅”일 수 있다.

대화형 서비스 장치가 “민웅”을 기동어로 입력 받은 경우, 대화형 서비스 장치는 제2 플랫폼(140)으로 입력된 아날로그 명령어를 디지털 명령어로 변환만 수행하고 디지털 명령어를 그대로 제2 플랫폼(140)으로 전송할 수 있다.

대화형 서비스 장치는 사용자로부터 입력된 음성 발화인 아날로그 명령어를 디지털 변조 방식을 통해 디지털 명령어로 변환할 수 있고, 실시예에 따라, 디지털 변조 방식은 펄스부호변조(pulse code modulation, PCM)일 수 있으나, 변조 방식에 대해 이에 한정되지 않는다.

디지털 명령어를 수신한 제2 플랫폼은 디지털 명령어를 해석하여 디지털 명령어에 따라 요청된 서비스를 처리할 수 있다. 요청된 서비스를 처리하기 이전에 제2 플랫폼은 수신한 디지털 명령어에 대응되는 디지털 형태의 응답 신호를 대화형 서비스 장치(110)로 전송할 수 있다. 예를 들어, “노래를 틀어줘”인 경우, 제2 플랫폼(140)은 미리 설정된 노래 정보를 대화형 서비스 장치(110)로 제공할 수 있다.

응답 신호를 수신한 대화형 서비스 장치(110)는 응답 신호를 복조(de-modulation)한 후, 자연어로 출력할 수 있다. 예를 들어, 대화형 서비스 장치(110)는 “노래를 틀어드리겠습니다”라고 출력할 수 있다.

한편, 대화형 서비스 장치(110)가 “지황”을 기동어로 입력 받은 경우, 대화형 서비스 장치는 제1 플랫폼(120)으로 입력된 아날로그 명령어를 디지털 명령어로 변환하고 디지털 명령어에 “지황”에 대응되는 프리픽스를 합성할 수 있다. 프리픽스는 대화형 서비스 장치(110)에 디지털 변조되어 저장되어 있을 수 있다. 제1 플랫폼(120)은 프리픽스가 합성된 디지털 명령어를 제1 플랫폼(120)으로 전송할 수 있다.

디지털 명령어를 수신한 제1 플랫폼(120)은 프리픽스에 대응되는 서비스 서버(130)를 특정할 수 있다. 제1 플랫폼(120)은 프리픽스가 합성된 명령어에서 프리픽스를 제거하고, 명령어를 텍스트(text) 형태로 변환하여 프리픽스가 지시하는 서비스 서버(130)로 텍스트 형태의 명령어를 전송할 수 있다.

텍스트 형태의 명령어를 수신한 서비스 서버(130)는 명령어에 따라 특정 서비스를 수행할 수 있으며, 서비스를 수행하기 이전에 텍스트 형태의 명령어에 대응한 텍스트 형태의 응답 신호를 제1 플랫폼(120)을 거쳐 대화형 서비스 장치(110)로 전송할 수 있다.

도 3은 본 발명의 일 실시예에 따른 2개의 기동어를 식별하는 대화형 서비스 장치의 제어 방법을 설명하기 위한 순서도이다.

도 3을 참조하면, 대화형 서비스 장치는 자연어를 입력 받은 후(S310), 입력 받은 자연어에 제1 기동어가 포함되어 있는지 판단할 수 있다(S320).

자연어 중 제1 기동어가 식별되면(S320의 “예”), 대화형 서비스 장치는 제1 기동어에 대응하는 프리픽스를 합성할 수 있다(S321).

자연어 중 제1 기동어가 식별되지 않으면(S320의 “아니오”), 입력된 자연어 중에서 제2 기동어가 식별되는지 판단할 수 있다(S330). 입력된 자연어 중에 제1 기동어 및 제2 기동어 어느 기동어도 식별되지 않으면, 대화형 서비스 장치에 이전에 설정되어 있는 기동어가 입력될 때까지 대기할 수 있다(S330의 “아니오”).

한편, 대화형 서비스 장치는 기동어를 입력 받은 후, 기 설정된 시간 이내 입력되는 명령어만을 입력 받을 수 있다. 실시예에 따라, 기동어가 입력될 때, 대화형 서비스 장치는 웨이크업(wake up)할 수 있고, 웨이크업한 이후 7초 내지 10초 내에 음성 명령을 입력 받지 않으면 자동으로 기동어가 입력될 때까지 대기할 수 있다. 물론, 대화형 서비스 장치를 활서화시키기 위해서는 사용자가 다시 기동어를 발화해야 한다.

실시에에 따라, 대화형 서비스 장치가 기동어를 입력 받으면, 상기 기동어의 입력 이후 기 설정된 시간 이내 입력되는 명령어를 녹음하여 메모리에 저장할 수 있다.

대화형 서비스 장치는 제1 기동어가 입력된 후 기 설정된 시간 이내 입력되는 명령어를 메모리에 저장할 수 있고, 입력된 음성인 아날로그 명령어를 디지털 명령어로 변환할 수 있다.

이후, 대화형 서비스 장치는 디지털 명령어에 제1 기동어에 대응되는 프리픽스를 합성할 수 있다. 프리픽스는 아날로그 명령어를 디지털 명령어로 변환할 때 사용된 디지털 변환 형식과 동일한 형식으로 메모리에 미리 저장되어 있을 수 있다.

대화형 서비스 장치는 프리픽스가 합성된 명령어를 제1 플랫폼을 통해 프리픽스에 대응되는 서비스 서버로 전송할 수 있다(S323).

제1 플랫폼은 수신한 디지털 명령어를 이용하여 음성 인식 절차를 수행할 수 있다. 본 발명은 제1 플랫폼에 의한 음성 인식을 수행하는 구체적인 방법에 제한되지 않는다.

제1 플랫폼은 디지털 형식의 명령어를 음성 인식을 통해 텍스트 형식으로 변환할 수 있고, 명령어에 포함된 프리픽스에 대응되는 서비스 서버로 텍스트 형식의 명령어를 전송할 수 있다.

대화형 서비스 장치는 서비스 서버로부터 전송한 명령어에 대응되는 응답 신호를 수신할 수 있고, 디지털 형식의 응답 신호를 아날로그 형식으로 복조시켜 자연어를 출력할 수 있다(S325).

자연어 중 제2 기동어가 식별되면(S330의 “예”), 대화형 서비스 장치는 프리픽스를 합성하지 않고, 디지털 형식의 음성 명령어를 제2 플랫폼으로 전송할 수 있다(S331).

디지털 형식의 음성 명령어를 수신한 제2 플랫폼은 수신한 명령어에 대응되는 응답 신호를 다시 대화형 서비스 장치로 전송할 수 있다. 대화형 서비스 장치는 디지털 형식의 응답 신호를 복조하여 아날로그 형식의 응답 신호를 자연어로 출력할 수 있다(S333).

도 4은 본 발명의 일 실시예에 따른 대화형 서비스 장치를 설명하기 위한 구조도이다.

도 4를 참조하면, 대화형 서비스 장치(400)는 입력부(410), 녹음부(420), 제어부(430), 통신부(440), 출력부(450) 및 전원부(460)를 포함할 수 있다. 도 4에 도시된 구성요소들이 필수적인 것은 아니어서, 그보다 많은 구성요소들을 갖거나 그보다 적은 구성 요소들을 갖는 대화형 서비스 장치(400) 장치가 구현될 수도 있다.

이하, 상기 구성 요소들에 대해 상세히 살펴보기로 한다.

입력부(410)는 사용자의 음성 발화를 입력할 수 있는 복수의 마이크(microphone)를 포함할 수 있다. 입력부(410)는 발화되는 기동어의 입력이 없더라도, 대화형 서비스 장치(100)를 웨이크업시킬 수 있는 버튼을 포함할 수 있다. 입력부(410)는 사용자의 제어 명령를 입력할 수 있는 추가적인 버튼을 입력할 수 있고, 이러한 버튼은 홈버튼, 음량버튼, 작동버튼과 잠금버튼을 포함할 수 있지만 이에 한정되지는 않는다.

녹음부(420)는 기동어의 입력 등에 의해 대화형 서비스 장치(400)가 웨이크업 된 이후 입력되는 명령어를 녹음할 수 있고, 녹음된 음성 명령어를 저장할 수 있다. 녹음부(420)는 상기 명령어를 저장할 수 있는 메모리를 포함할 수 있다. 또한, 음성 명령에 합성되는 프리픽스를 저장할 수 있으며, 상기 프리픽스의 형태는 디지털 형식의 프리픽스일 수 있다.

녹음부에 포함되는 메모리는 대화형 서비스 장치(400)의 작동을 지원하도록 각종 유형의 데이터를 저장하도록 구성될 수 있다. 이러한 데이터의 예시는 대화형 서비스 장치(400)에서 작동되는 임의의 응용 프로그램(application) 또는 방법의 인스트럭션 등을 포함한다. 메모리는 스태틱 랜덤 액세스 메모리(SRAM), 전기적 소거 가능한 프로그램 가능 판독전용 메모리(EEPROM), 소거 및 프로그램 가능 판독전용 메모리(EPROM), 프로그램 가능 판독전용 메모리(PROM), 판독 전용 메모리(ROM), 자기 메모리, 플래시 메모리, 디스크 또는 CD와 같은 모든 유형의 휘발성 또는 비휘발성 메모리 기기 또는 그들의 조합으로 이루어질 수 있다.

제어부(430)는 통상적으로 입력, 출력, 데이터 통신 및 데이터 저장과 관련한 대화형 서비스 장치(400)의 전체 동작을 제어한다. 대화형 서비스 장치(400)는 대화형 서비스 장치의 제어 방법의 전부 또는 일부 단계를 완성하도록 하나 또는 다수의 프로세서를 포함하여 인스트럭션을 실행할 수 있다. 또한 제어부(430)는 입력부(410), 녹음부(420), 통신부(440), 출력부(450) 및 전원부(460) 사이의 상호 작용을 제공하기 위해 데이터 통신의 송수신을 중개할 수 있다.

통신부(440)는 음성 인식을 수행하는 플랫폼과 명령어 기타 데이터를 수신할 수 있다. 통신부(440)는 대화형 서비스 장치(400)와 이외 기타 기기 사이의 유선 또는 무선방식의 통신이 편리하도록 구성된다. 대화형 서비스 장치(400)는 통신표준에 의한 무선 네트워크, 예를 들어 WiFi, 2G 또는 3G 또는 이들의 조합을 수행할 수 있다. 일 실시예에서, 통신부(440)는 방송신호를 거쳐 외부 방송관리 시스템의 방송신호 또는 방송과 관련한 정보를 수신할 수 있다. 또한, 일 실시예에서, 통신부(440)는 근거리 통신을 촉진하도록 근거리 자기장 통신(NFC) 모듈을 더 포함한다. 예를 들어 NFC모듈은 무선주파수 인식(RFID)기 술, 적외선 통신규격(IrDA) 기술, 초광대역(UWB) 기술, 블루투스(BT) 기술과 기타 기술에 기반하여 실현할 수 있다. 이에 따라, 대화형 서비스 장치(400)는 상당 거리 내에 위치하는 휴대 장치(예를 들어, 스마트폰)와 근거리 통신을 수행할 수 있다.

출력부(450)는 플랫폼을 통해 수신한 응답 신호를 자연어로 출력시킬 수 있는 스피커를 포함할 수 있다. 스피커는 오디오 신호를 출력 및/또는 입력할 수 있다. 이외, 출력부(450)는 자연어 이외 시각 정보를 제공하기 위한 출력 인터페이스로서 디스플레이를 포함할 수 있다. 디스플레이는 액정디스플레이(LCD)와 터치패널(TP)을 포함할 수 있다. 스크린이 터치패널을 포함하면, 스크린은 사용자가 입력한 신호를 수신하도록 터치스크린으로 실현될 수 있다. 터치패널은 터치, 슬라이딩과 터치패널의 손동작을 감지하도록 하나 또는 다수의 터치센서를 포함한다. 상기 터치센서는 터치 또는 슬라이딩 동작의 경계를 감지할 수 있을 뿐만 아니라 상기 터치 또는 슬라이딩 동작과 관련한 지속시간과 압력도 검출할 수 있다.

전원부(460)는 대화형 서비스 장치(400)에 포함되는 구성에 전력을 제공할 수 있다. 전원부(460)는 전원관리시스템, 하나 또는 다수의 전원에 의한 전력을 생성, 관리 및 분배하는 것과 관련되는 기타 구성을 포함할 수 있다.

실시예에서 대화형 서비스 장치(400)는 하나 또는 복수의 응용 주문형 직접회로(ASIC), 디지털신호 프로세서(DSP), 디지털신호 처리기기(DSPD), 프로그램 가능 논리 소자(PLD), 필드 프로그램 가능 게이트 어레이(FPGA), 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서 또는 기타 전자 부품에 의해 실현될 수 있다.

상술한 실시예에 따른 방법은 컴퓨터에서 실행되기 위한 프로그램으로 제작되어 컴퓨터가 읽을 수 있는 기록 매체에 저장될 수 있으며, 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 포함될 수 있다.

컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고, 상술한 방법을 구현하기 위한 기능적인(function) 프로그램, 코드 및 코드 세그먼트들은 실시예가 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.

본 발명은 본 발명의 정신 및 필수적 특징을 벗어나지 않는 범위에서 다른 특정한 형태로 구체화될 수 있음은 당업자에게 자명하다.

따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.

Claims

자연어를 입력 받는 단계;
기 저장된 복수의 기동어(wake word) 중 하나가 상기 자연어에 포함되는지 확인하는 단계;
상기 자연어에 포함된 명령어와 확인된 제1 기동어에 대응하여 제1 플랫폼을 결정하는 프리픽스(prefix)를 합성하고, 제2 기동어에 대응하여서는 제2 플랫폼을 결정하는 다른 프리픽스를 합성하는 단계;
상기 각 프리픽스가 합성된 명령어를 각 플랫폼을 통해 상기 각 프리픽스에 대응되는 서비스 서버로 전송시키는 단계;
를 포함하는,
대화형 서비스 장치의 자연어 가공 방법.
제1항에 있어서,
상기 합성하는 단계는,
상기 제1 기동어의 입력 이후 기 설정된 시간 이내 입력되는 명령어에 상기 서비스 서버를 지시하는 프리픽스를 합성하는 단계;
를 포함하는,
대화형 서비스 장치의 자연어 가공 방법.
제1항에 있어서,
상기 합성하는 단계는,
상기 프리픽스를 상기 제1 기동어와 상기 제1 기동어 다음 입력된 명령어 사이에 합성하는 단계;
를 포함하는,
대화형 서비스 장치의 자연어 가공 방법.
제1항에 있어서,
상기 저장된 복수의 기동어 중 어느 하나가 인식되면 상기 입력된 기동어의 입력 이후 기 설정된 시간 이내 입력되는 명령어를 저장하는 단계;
를 더 포함하는,
대화형 서비스 장치의 자연어 가공 방법.
제1항에 있어서,
상기 프리픽스는,
상기 서비스 서버를 지시하는 호출구문, 상기 서비스 서버가 수행할 동작을 지시하는 실행구문 및 상기 호출구문과 상기 실행구문을 연결하는 연결구문을 포함하는,
대화형 서비스 장치의 자연어 가공 방법.
제5항에 있어서,
상기 호출구문은,
상기 기동어 및 상기 실행구문과 상이하며, 상기 연결구문과 상이한 두 단어 이상으로 이루어진 복합어인,
대화형 서비스 장치의 자연어 가공 방법.
제5항에 있어서,
상기 합성하는 단계는,
상기 제1 기동어에 따라 상기 프리픽스를 상기 자연어에 포함된 명령어에 합성할지 여부를 판단하는 단계;
를 포함하는,
대화형 서비스 장치의 자연어 가공 방법.
제1항에 있어서,
상기 서비스 서버로 상기 프리픽스가 합성된 명령어를 전송한 후, 상기 서비스 서버로부터 상기 명령어에 대응된 응답 신호를 수신하여 상기 응답 신호가 변환된 자연어를 출력하는 단계;
를 더 포함하는,
대화형 서비스 장치의 자연어 가공 방법.
제1항 내지 제8 중 어느 한 항에 기재된 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
자연어를 입력 받는 입력부;
상기 입력된 자연어에서 제1 플랫폼에 대응되는 제1 기동어 및 제2 플랫폼에 대응되는 제2 기동어 중 어느 하나를 식별하는 제어부; 및
상기 제1 플랫폼 또는 상기 제2 플랫폼과 상기 자연어에 포함되는 명령어를 전송하는 통신부;
를 포함하며,
상기 제어부는,
상기 제1 기동어가 식별되는 경우, 상기 입력된 자연어에 포함되는 명령어에 상기 제1 기동어에 대응하여 상기 제1 플랫폼을 결정하는 프리픽스가 합성된 명령어를 생성한 후 상기 제1 플랫폼을 통해 상기 프리픽스에 대응되는 서비스 서버로 전송하도록 하며,
상기 제2 기동어가 식별되는 경우, 상기 입력된 자연어에 포함되는 명령어에 상기 제2 기동어에 대응하여 상기 제2 플랫폼을 결정하는 프리픽스가 합성된 명령어를 생성한 후 상기 제2 플랫폼으로 전송하도록 하는,
대화형 서비스 장치.
제10항에 있어서,
상기 제어부는,
상기 제1 기동어의 입력 이후 기 설정된 시간 이내 입력되는 명령어에 상기 서비스 서버를 지시하는 프리픽스를 합성하는,
대화형 서비스 장치.
제10항에 있어서,
상기 제어부는,
상기 프리픽스를 상기 제1 기동어와 상기 제1 기동어 다음 입력된 명령어 사이에 합성하는,
대화형 서비스 장치.
제10항에 있어서,
상기 자연어를 저장하는 녹음부;
를 더 포함하며,
상기 제어부는,
상기 제1 기동어 및 상기 제2 기동어 중 어느 하나가 인식되면 상기 인식된 기동어의 입력 이후 기 설정된 시간 이내 입력되는 명령어를 저장시키는,
대화형 서비스 장치.
제10항에 있어서,
상기 프리픽스는,
상기 서비스 서버를 지시하는 호출구문, 상기 서비스 서버가 수행할 동작을 지시하는 실행구문 및 상기 호출구문과 상기 실행구문을 연결하는 연결구문을 포함하는,
대화형 서비스 장치.
제14항에 있어서,
상기 호출구문은,
상기 기동어 및 상기 실행구문과 상이하며, 상기 연결구문과 상이한 두 단어 이상으로 이루어진 복합어인,
대화형 서비스 장치.
제14항에 있어서,
상기 제어부는,
상기 제1 기동어에 따라 상기 프리픽스를 상기 자연어에 포함된 명령어에 합성할지 여부를 판단하는,
대화형 서비스 장치.
제10항에 있어서,
상기 통신부는,
상기 서비스 서버로 상기 프리픽스가 합성된 명령어를 전송한 후, 상기 서비스 서버로부터 상기 명령어에 포함된 응답 신호를 수신하는,
대화형 서비스 장치.
제17항에 있어서,
음성 신호를 출력하는 출력부;
를 더 포함하며,
상기 제어부는,
상기 서비스 서버로부터 수신한 상기 응답 신호가 변환된 자연어로 출력시키는,
대화형 서비스 장치.