KR20210095569A

KR20210095569A - 에이전트 시스템, 서버 및 컴퓨터 판독 가능한 기록 매체

Info

Publication number: KR20210095569A
Application number: KR1020210007163A
Authority: KR
Inventors: 고오키 다케시타
Original assignee: 도요타지도샤가부시키가이샤
Priority date: 2020-01-23
Filing date: 2021-01-19
Publication date: 2021-08-02
Also published as: EP3855305A1; JP2021117302A; CN113160811A; BR102021000524A2; US20210233516A1

Abstract

복수의 음성 대화 에이전트의 서비스가 이용 가능한 경우에, 유저가 요구하는 기능을 갖는 음성 대화 에이전트를 정밀도 높게 호출할 수 있는 에이전트 시스템, 에이전트 서버 및 에이전트 프로그램을 제공한다.
에이전트 시스템은, 하드웨어를 갖는 제1 프로세서이며, 복수의 음성 대화 에이전트 중의 어느 음성 대화 에이전트의 기능을 실현하는 에이전트 서버에 대하여 유저의 발화 음성을 전송하는 제1 프로세서를 구비하는 단말 장치와, 하드웨어를 갖는 제2 프로세서이며, 단말 장치로부터 전송된 유저의 발화 음성을 인식하여, 유저의 발화 음성에 포함되는 지시가, 복수의 음성 대화 에이전트 중의 어느 음성 대화 에이전트에 대한 지시인 것인지를 판정하는 제2 프로세서를 구비하는 에이전트 서버를 구비한다.

Description

에이전트 시스템, 서버 및 컴퓨터 판독 가능한 기록 매체{AGENT SYSTEM, SERVER, AND COMPUTER READABLE RECORDING MEDIUM}

본 개시는 에이전트 시스템, 에이전트 서버 및 에이전트 프로그램에 관한 것이다.

특허문헌 1에는, 다른 기능을 갖는 복수의 음성 대화 에이전트의 서비스를 이용하기 위한 음성 대화 방법이 개시되어 있다. 이 음성 대화 방법에서는, 음성 인식 처리의 결과 및 에이전트 정보에 기초하여, 입력 음성 신호에 기초하는 처리를 어느 음성 대화 에이전트에 실행시킬 것인지를 결정한다.

일본 특허 공개 제2018-189984호 공보

복수의 음성 대화 에이전트의 서비스가 이용 가능한 경우에, 유저가 요구하는 기능을 갖는 음성 대화 에이전트를 정밀도 높게 호출할 수 있는 기술이 요구되고 있었다.

본 개시는 상기를 감안하여 이루어진 것이며, 복수의 음성 대화 에이전트의 서비스가 이용 가능한 경우에, 유저가 요구하는 기능을 갖는 음성 대화 에이전트를 정밀도 높게 호출할 수 있는 에이전트 시스템, 에이전트 서버 및 에이전트 프로그램을 제공하는 것을 목적으로 한다.

본 개시에 관한 에이전트 시스템은, 하드웨어를 갖는 제1 프로세서이며, 복수의 음성 대화 에이전트 중의 어느 음성 대화 에이전트의 기능을 실현하는 에이전트 서버에 대하여 유저의 발화 음성을 전송하는 제1 프로세서를 구비하는 단말 장치와, 하드웨어를 갖는 제2 프로세서이며, 상기 단말 장치로부터 전송된 상기 유저의 발화 음성을 인식하여, 상기 유저의 발화 음성에 포함되는 지시가, 복수의 음성 대화 에이전트 중의 어느 음성 대화 에이전트에 대한 지시인 것인지를 판정하는 제2 프로세서를 구비하는 에이전트 서버를 구비한다.

본 개시에 관한 에이전트 서버는, 하드웨어를 갖는 프로세서를 구비하고, 상기 프로세서는, 단말 장치로부터 전송된 유저의 발화 음성을 인식하여, 상기 유저의 발화 음성에 포함되는 지시가, 복수의 음성 대화 에이전트 중의 어느 음성 대화 에이전트에 대한 지시인 것인지를 판정한다.

본 개시에 관한 에이전트 프로그램은, 하드웨어를 갖는 프로세서에, 단말 장치로부터 전송된 유저의 발화 음성을 인식하여, 상기 유저의 발화 음성에 포함되는 지시가, 복수의 음성 대화 에이전트 중의 어느 음성 대화 에이전트에 대한 지시인 것인지를 판정하는 것을 실행시킨다.

본 개시에 따르면, 다른 기능을 갖는 복수의 음성 대화 에이전트의 서비스를 이용할 때, 유저가 요구하는 기능을 갖는 음성 대화 에이전트를 정밀도 높게 호출할 수 있다.

도 1은 실시 형태 1, 2에 관한 에이전트 시스템, 단말 장치 및 에이전트 서버를 개략적으로 도시하는 도면이다.
도 2는 실시 형태 1에 관한 에이전트 시스템 및 단말 장치의 구성을 개략적으로 도시하는 블록도이다.
도 3은 실시 형태 1에 관한 에이전트 시스템, 단말 장치 및 에이전트 프로그램이 실행하는 음성 대화 방법의 처리 수순의 일례를 도시하는 흐름도이다.
도 4는 실시 형태 2에 관한 에이전트 시스템 및 에이전트 서버의 구성을 개략적으로 도시하는 블록도이다.
도 5는 실시 형태에 관한 에이전트 시스템, 에이전트 서버 및 에이전트 프로그램이 실행하는 음성 대화 방법의 처리 수순의 일례를 도시하는 흐름도이다.
도 6은 실시 형태에 관한 에이전트 시스템, 에이전트 서버 및 에이전트 프로그램이 실행하는 음성 대화 방법의 처리 수순의 일례를 도시하는 흐름도이다.

본 개시의 실시 형태에 관한 에이전트 시스템, 단말 장치, 에이전트 서버 및 에이전트 프로그램에 대하여 도면을 참조하면서 설명한다. 또한 하기 실시 형태에 있어서의 구성 요소에는, 당업자가 용이하게 치환 가능한 것, 혹은 실질적으로 동일한 것이 포함된다.

[실시 형태 1]

(에이전트 시스템/단말 장치)

본 실시 형태에 관한 에이전트 시스템 및 단말 장치의 구성에 대하여 도 1 및 도 2를 참조하면서 설명한다. 본 실시 형태에 관한 에이전트 시스템, 단말 장치 및 에이전트 프로그램은, 유저에 대하여 복수의 음성 대화 에이전트(이하, 「에이전트」라 함)의 서비스를 제공하기 위한 것이다.

여기서 「유저」란, 단말 장치를 통해 복수의 에이전트의 서비스를 이용하는 사람이다. 본 실시 형태에 있어서의 단말 장치는, 차량에 탑재되어 있는 차량 탑재 장치를 상정하고 있다. 그 때문에 유저는, 예를 들어 차량의 운전자를 포함하는 탑승자이다. 또한 단말 장치는, 차량에 탑재되어 있는 차량 탑재 장치에 한정되지는 않으며, 예를 들어 유저가 소지하는 정보 단말 장치여도 된다. 이 정보 단말 장치로서는, 예를 들어 휴대 전화, 태블릿 단말기, 웨어러블 컴퓨터, 퍼스널 컴퓨터 등을 들 수 있다.

에이전트 시스템(1)은 도 1에 도시한 바와 같이, 차량 탑재 장치(11)를 구비하는 차량(10)과, 제1 VPA(Virtual Personal Assistant: 버추얼 퍼스널 어시스턴트) 서버(20)와, 제2 VPA 서버(30)를 갖고 있다. 본 실시 형태에 관한 단말 장치는, 구체적으로는 차량 탑재 장치(11)에 의하여 실현된다. 차량(10), 제1 VPA 서버(20) 및 제2 VPA 서버(30)는 네트워크 NW를 통해 상호 통신 가능하게 구성되어 있다. 이 네트워크 NW는, 예를 들어 인터넷 회선망, 휴대 전화 회선망 등으로 구성된다.

본 실시 형태에 있어서의 에이전트 시스템(1)은 2개의 VPA 서버를 이용하고 있지만, VPA 서버의 수는 3개 이상이어도 된다. 또한 본 실시 형태에 있어서, 제1 VPA 서버(20)는, 에이전트 A의 기능을 실현하기 위한 서버 장치이고, 제2 VPA 서버(30)는, 에이전트 B의 기능을 실현하기 위한 서버 장치이다. 이 에이전트 A 및 에이전트 B는, 동일한 종류의 서비스(예를 들어 음악 스트리밍 서비스)를 제공하는 것이어도 되고, 혹은 다른 종류의 서비스(예를 들어 에이전트 A는 음악 스트리밍 서비스, 에이전트 B는 날씨 정보 서비스)를 제공하는 것이어도 된다. 또한 본 실시 형태에 있어서, 에이전트 A, B를 총칭하는 경우에는 「에이전트」라 표기하고, 제1 VPA 서버(20) 및 제2 VPA 서버(30)를 총칭하는 경우에는 「VPA 서버」 또는 「에이전트 서버」라 표기한다.

(차량)

차량(10)은, 도 2에 도시한 바와 같이 차량 탑재 장치(11)와 통신부(12)와 기억부(13)를 구비하고 있다. 차량 탑재 장치(11)는, 예를 들어 차량(10)에 탑재되는 카 내비게이션 장치이다. 차량 탑재 장치(11)는 제어부(111)와 표시부(디스플레이)(112)와 버튼(113)과 마이크(114)와 스피커(115)를 구비하고 있다.

제어부(111)는, 구체적으로는 CPU(Central Processing Unit), DSP(Digital Signal Processor), FPGA(Field-Programmable Gate Array) 등으로 이루어지는 프로세서와, RAM(Random Access Memory), ROM(Read Only Memory) 등으로 이루어지는 메모리(주 기억부)를 구비하고 있다.

제어부(111)는, 기억부(13)에 저장된 프로그램을 주 기억부의 작업 영역에 로드하여 실행하고, 프로그램의 실행을 통해 각 구성부 등을 제어함으로써, 소정의 목적에 합치한 기능을 실현한다. 제어부(111)는, 기억부(13)에 저장된 프로그램의 실행을 통해 표시 제어부(111a) 및 음성 인식부(111b)로서 기능한다.

표시 제어부(111a)는 표시부(112)의 표시 내용을 제어한다. 표시 제어부(111a)는 유저의 조작에 기초하여, 조작에 대응하는 화면을 표시부(112)에 표시시킨다. 또한 표시 제어부(111a)는, 제1 VPA 서버(20), 제2 VPA 서버(30)로부터 입력되는 소정의 정보를 표시부(112)에 표시시킨다. 「소정의 정보」로서는, 예를 들어 유저의 발화 음성의 인식 결과, 유저의 지시에 기초하는 처리에 관한 응답 데이터를 들 수 있다.

여기서 「유저의 지시에 기초하는 처리」란, 예를 들어 유저가 에이전트(VPA 서버)에 대하여 「음악을 재생해」라고 지시한 경우, VPA 서버가, 음악 스트리밍 서비스를 제공하는 서버(이하, 「서비스 서버」라 함)로부터 음악 스트리밍 데이터를 취득하여 차량 탑재 장치(11)에 송신하는 처리를 나타내고 있다. 또한 그때 VPA 서버로부터 차량 탑재 장치(11)에 송신되는 「응답 데이터」는 음악 스트리밍 데이터이다.

표시 제어부(111a)는, 음성 인식부(111b)에 의하여, 유저의 발화 음성에 포함되는 지시가, 복수의 에이전트 A, B 중의 어느 에이전트에 대한 지시인 것인지가 판정된 때, 판정된 에이전트의 명칭을 표시부(112)에 표시시켜도 된다. 이것에 의하여, 유저가 어느 에이전트에 지시를 행한 것인지를 확인할 수 있다. 또한 유저의 의도와는 다른 에이전트에 지시가 전해져 버린 경우에도, 지시를 정정하는 등의 대처를 행할 수 있기 때문에 편리성이 향상된다.

음성 인식부(111b)는, 자동 음성 인식(Automatic Speech Recognition: ASR) 처리 및 자연 언어 이해(Natural language understanding: NLU)를 행하는 음성 인식 엔진이다.

음성 인식부(111b)는, 마이크(114)로부터 입력된 유저의 발화 음성을 인식하여, 유저의 발화 음성에 포함되는 지시가, 복수의 에이전트 A, B 중 어느 에이전트에 대한 지시인 것인지를 판정한다. 다음으로, 음성 인식부(111b)는, 판정한 에이전트의 기능을 실현하는 에이전트 서버(제1 VPA 서버(20) 또는 제2 VPA 서버(30))에 대하여 유저의 발화 음성을 전송한다. 다음으로, 음성 인식부(111b)는 에이전트 서버로부터 소정의 정보(음성 인식 결과, 응답 데이터)를 취득한다.

음성 인식부(111b)는, 구체적으로는 유저의 발화 음성을 텍스트 데이터로 변환하고, 당해 텍스트 데이터에, 에이전트를 특정하는 프레이즈가 포함되는 경우, 그 에이전트에 대한 지시라고 판정한다. 여기서 「에이전트를 특정하는 프레이즈」란, 에이전트를 호출하기 위한 웨이크 업 프레이즈(Wake up Phrase: WuP라 함)를 나타내고 있다. 또한 웨이크 업 프레이즈는 「웨이크 워드(Wake Word)」라고도 칭해진다.

음성 인식부(111b)는 음성 인식 처리의 결과를 그대로 에이전트 서버(제1 VPA 서버(20) 또는 제2 VPA 서버(30))에 출력해도 된다. 이 경우, 음성 인식부(111b)는 에이전트 서버에 대하여 유저의 발화 음성 대신, 당해 유저의 발화 음성의 인식 결과를 출력한다. 다음으로, 음성 인식부(111b)는 에이전트 서버로부터 소정의 정보(응답 데이터 등)를 취득한다. 이것에 의하여, 에이전트 서버에 있어서의 음성 인식 처리를 생략할 수 있기 때문에 에이전트 서버의 응답 속도가 향상된다.

표시부(112)는, 예를 들어 LCD(액정 디스플레이), OLED(유기 EL 디스플레이) 등으로 구성되며, 표시 제어부(111a)의 제어에 기초하여 정보를 표시한다. 버튼(113)은, 발화 시에 유저가 누르는 버튼이다. 버튼(113)은, 예를 들어 차량(10)의 핸들 등에 마련되는 푸시식의 물리적인 누름 버튼, 또는 표시부(112)에 표시되는 가상적인 누름 버튼으로 구성된다.

여기서, 본 실시 형태에 있어서의 에이전트에는 복수의 호출 방법(기동 방법)이 있다. 예를 들어 에이전트 B(제2 VPA 서버(30))에 대하여 날씨 정보의 제공을 지시하는 경우, 유저는 이하의 (1), (2)와 같이 발화한다.

(1) 「에이전트 B, 오늘 날씨를 알려 줘」라고 발화

(2) 버튼(113)을 눌러 「오늘 날씨를 알려 줘」라고 발화

(1)은, 웨이크 업 프레이즈를 이용한 방법이며, 유저는, 에이전트 B를 특정하는 프레이즈와, 에이전트 B에 대한 지시를 포함하는 프레이즈를 발화한다.

(2)는, 웨이크 업 프레이즈 대신 버튼(113)을 이용한 방법이다. 또한 「버튼(113)을 눌러 발화」에는, 버튼(113)을 누르고 떼고 나서 발화하는 경우(Push-to-Talk/Tap-to-Talk)와, 버튼(113)을 누른 채로의 상태에서 발화하고, 발화가 완료되면 버튼(113)에서 떼는 경우(Hold-to-Talk)의 2패턴이 포함된다. 이와 같이, 버튼(113)을 눌러 발화함으로써 웨이크 업 프레이즈를 생략할 수 있다.

또한 에이전트를 이용할 때, 특정 에이전트를 통해 그 외의 에이전트를 호출할 수도 있다. 예를 들어 에이전트 A(제1 VPA 서버(20))를 통해 에이전트 B(제2 VPA 서버(30))에 대하여 날씨 정보의 제공을 지시하는 경우, 유저는 이하의 (3)과 같이 발화한다.

(3) 「에이전트 A, 에이전트 B, 오늘 날씨를 알려 줘」라고 발화

여기서 (3)의 경우, 유저의 발화 음성에 복수의 에이전트의 웨이크 업 프레이즈가 포함되어 있다. 그 때문에, (1), (2)과 비교하여 유저가 의도하지 않는 에이전트가 호출될 가능성이 높아진다. 그래서 본 실시 형태에 관한 에이전트 시스템(1), 단말 장치 및 에이전트 프로그램에서는, 유저의 지시가 어느 에이전트에 대한 지시인지를 차량 탑재 장치(11)측에서 판정하고, 그 판정 결과에 기초하여 유저의 발화 음성을 VPA 서버에 전송한다.

마이크(114)는, 유저로부터의 음성 입력을 접수하는 입력부이다. 마이크(114)는, 예를 들어 유저가 에이전트(VPA 서버)에 대하여 지시를 행할 때 이용된다. 스피커(115)는, 유저에 대하여 음성을 출력하는 출력부이다. 스피커(115)는, 예를 들어 유저의 지시에 기초하여 에이전트가 유저에 대하여 응답을 행할 때 이용된다.

통신부(12)는, 예를 들어 DCM(Data Communication Module) 등으로 구성되며, 네트워크 NW를 통한 무선 통신에 의하여 제1 VPA 서버(20) 및 제2 VPA 서버(30)와의 사이에서 통신을 행한다.

기억부(13)는, EPROM(Erasable Programmable ROM), 하드 디스크 드라이브(Hard Disk Drive: HDD) 및 리무버블 미디어 등의 기록 매체로 구성된다. 리무버블 미디어로서는, 예를 들어 USB(Universal Serial Bus) 메모리, CD(Compact Disc), DVD(Digital Versatile Disc), BD(Blu-ray(등록 상표) Disc)와 같은 디스크 기록 매체를 들 수 있다. 또한 기억부(13)에는 오퍼레이팅 시스템(Operating System: OS), 각종 프로그램, 각종 테이블, 각종 데이터베이스 등이 저장 가능하다. 기억부(13)에는 필요에 따라, 예를 들어 유저의 대화 내용의 데이터, 유저의 발화 음성의 인식 결과의 데이터 등이 저장된다.

(제1 VPA 서버)

제1 VPA 서버(20)는 제어부(21)와 통신부(22)와 기억부(23)를 구비하고 있다. 통신부(22) 및 기억부(23)의 물리적인 구성은 통신부(12) 및 기억부(13)와 마찬가지이다.

제어부(21)는, 구체적으로는 CPU(Central Processing Unit), DSP(Digital Signal Processor), FPGA(Field-Programmable Gate Array) 등으로 이루어지는 프로세서와, RAM(Random Access Memory), ROM(Read Only Memory) 등으로 이루어지는 메모리(주 기억부)를 구비하고 있다. 제어부(21)는, 기억부(23)에 저장된 음성 대화 에이전트의 프로그램의 실행을 통해 음성 대화 에이전트의 기능을 실현한다. 또한 제어부(21)는, 기억부(23)에 저장된 프로그램의 실행을 통해 음성 인식부(211)로서 기능한다.

음성 인식부(211)는 음성 인식부(111b)와 마찬가지의 기능을 갖고 있으며, 차량 탑재 장치(11)로부터 전송된 유저의 발화 음성을 인식하여 소정의 정보(음성 인식 결과, 응답 데이터)를 차량 탑재 장치(11)에 출력한다.

음성 인식부(211)는, 유저와의 대화 내용을 당해 유저의 기호 정보로서 기억부(23)에 축적하여, 차량 탑재 장치(11)로부터 전송된 유저의 발화 음성의 인식 결과에 기초하는 처리를 행할 때, 유저의 기호 정보를 고려한 처리를 행해도 된다. 예를 들어 유저가 에이전트 A에 대하여 특정 장르(예를 들어 클래식)의 음악의 재생을 빈번히 지시하고 있는 경우, 음성 인식부(211)는 「유저가 좋아하는 음악의 장르: 클래식」이라는 정보를 기호 정보로서 기억부(23)에 축적한다. 그리고 음성 인식부(211)는, 유저로부터 에이전트 A에 대하여 「음악의 재생」의 지시가 이루어진 경우, 서비스 서버로부터 클래식의 음악 스트리밍 데이터를 취득하여 차량 탑재 장치(11)에 송신한다. 이것에 의하여, 유저의 기호를 따른 서비스를 받을 수 있기 때문에 편리성이 향상된다.

기억부(23)에는, 제1 VPA 서버(20)가 실현하는 음성 대화 에이전트의 프로그램이 저장되어 있다. 또한 기억부(23)에는 필요에 따라, 예를 들어 유저의 대화 내용의 데이터, 유저의 발화 음성의 인식 결과의 데이터 등이 저장된다. 또한 이들 정보는 프라이버시 보호의 관점에서, 이용 후에 기억부(23)로부터 삭제해도 된다.

(제2 VPA 서버)

제2 VPA 서버(30)는 제어부(31)와 통신부(32)와 기억부(33)를 구비하고 있다. 제어부(31), 통신부(32) 및 기억부(33)의 물리적인 구성은 제어부(21), 통신부(12) 및 기억부(13)와 마찬가지이다. 제어부(31)는, 기억부(33)에 저장된 음성 대화 에이전트의 프로그램의 실행을 통해 음성 대화 에이전트의 기능을 실현한다. 또한 제어부(31)는, 기억부(33)에 저장된 프로그램의 실행을 통해 음성 인식부(311)로서 기능한다.

음성 인식부(311)는 음성 인식부(111b)와 마찬가지의 기능을 갖고 있으며, 차량 탑재 장치(11)로부터 전송된 유저의 발화 음성을 인식하여 소정의 정보(음성 인식 결과, 응답 데이터)를 차량 탑재 장치(11)에 출력한다. 음성 인식부(311)는 음성 인식부(211)과 마찬가지로, 유저와의 대화 내용을 당해 유저의 기호 정보로서 기억부(33)에 축적하여, 차량 탑재 장치(11)로부터 전송된 유저의 발화 음성의 인식 결과에 기초하는 처리를 행할 때, 유저의 기호 정보를 고려한 처리를 행해도 된다. 이것에 의하여, 유저의 기호를 따른 서비스를 받을 수 있기 때문에 편리성이 향상된다.

기억부(33)에는, 제2 VPA 서버(30)가 실현하는 음성 대화 에이전트의 프로그램이 저장되어 있다. 또한 기억부(33)에는 필요에 따라, 예를 들어 유저의 대화 내용의 데이터, 유저의 발화 음성의 인식 결과의 데이터 등이 저장된다. 또한 이들 정보는 프라이버시 보호의 관점에서, 이용 후에 기억부(33)로부터 삭제해도 된다.

(음성 대화 방법)

본 실시 형태에 관한 에이전트 시스템(1) 및 단말 장치가 실행하는 음성 대화 방법의 처리 수순에 대하여 도 3을 참조하면서 설명한다. 이하에서는, 유저가 특정 에이전트를 통해 그 외의 에이전트를 호출하는 경우의 음성 대화 방법에 대하여 설명한다. 또한 도 3에서는 설명의 편의상, 유저가 발화하는 스텝에 대해서도 음성 대화 방법의 흐름도 내에 도시하고 있다.

먼저, 유저가 「에이전트 A, 에이전트 B, ○○해」라고 발화하면(스텝 S1), 그 발화 음성의 데이터가 마이크(114)를 통해 차량 탑재 장치(11)에 입력된다. 계속해서, 차량 탑재 장치(11)의 음성 인식부(111b)는 유저의 발화를 검지하고(스텝 S2), 음성 인식 처리 및 의도 이해 처리를 행한다(스텝 S3).

음성 인식부(111b)는, 에이전트 B 앞으로의 지시라고 판정하고(스텝 S4), 유저의 발화 음성을 제2 VPA 서버(30)에 전송한다(스텝 S5). 계속해서, 제2 VPA 서버(30)의 음성 인식부(311)는 음성 인식 처리 및 의도 이해 처리를 행하고(스텝 S6), 그 인식 결과를 차량 탑재 장치(11)에 출력한다(스텝 S7).

또한, 예를 들어 스텝 S1에 있어서, 유저가 「에이전트 B, 에이전트 A, ○○해」라고 발화한 경우에는 다음과 같은 처리를 행한다. 음성 인식부(111b)는 스텝 S2에서 유저의 발화를 검지하고, 스텝 S3에서 음성 인식 처리 및 의도 이해 처리를 행한다. 계속해서, 음성 인식부(111b)는 스텝 S4에서 에이전트 A 앞으로의 지시라고 판정하고, 스텝 S5에서 유저의 발화 음성을 제1 VPA 서버(20)에 전송한다. 계속해서, 제1 VPA 서버(20)의 음성 인식부(211)는 스텝 S6에서 음성 인식 처리 및 의도 이해 처리를 행하고, 스텝 S7에서 인식 결과를 차량 탑재 장치(11)에 출력한다.

이상 설명한 실시 형태에 관한 에이전트 시스템(1), 단말 장치 및 에이전트 프로그램에 따르면, 유저의 지시가 어느 에이전트에 대한 지시인지를 차량 탑재 장치(11)측에서 판정하고, 그 판정 결과에 기초하여 유저의 발화 음성을 VPA 서버에 전송한다. 이것에 의하여, 다른 기능을 갖는 복수의 에이전트의 서비스를 이용할 때, 유저가 요구하는 기능을 갖는 에이전트를 정밀도 높게 호출할 수 있기 때문에, 유저가 기대하는 서비스를 받을 수 있다.

[실시 형태 2]

(에이전트 시스템/에이전트 서버)

본 실시 형태에 관한 에이전트 시스템 및 에이전트 서버의 구성에 대하여 도 4 및 도 5를 참조하면서 설명한다. 본 실시 형태에 관한 에이전트 시스템(1A)의 구성은, 차량(10A)의 차량 탑재 장치(11A)의 구성을 제외하고 에이전트 시스템(1)과 마찬가지이다. 실시 형태 1에 관한 에이전트 시스템(1)에서는, 유저의 지시가 어느 에이전트에 대한 지시인지를 차량 탑재 장치(11)측에서 판정하고 있었지만, 본 실시 형태에 관한 에이전트 시스템(1A)에서는, 유저의 지시가 어느 에이전트에 대한 지시인지를 에이전트 서버(제1 VPA 서버(20) 또는 제2 VPA 서버(30))에서 판정한다. 이하에서는 에이전트 시스템(1A)에 대하여, 에이전트 시스템(1)과 다른 부분에 대하여 주로 설명한다.

(차량)

차량(10A)은, 도 4에 도시한 바와 같이 차량 탑재 장치(11A)와 통신부(12)와 기억부(13)를 구비하고 있다. 차량 탑재 장치(11A)는 제어부(111A)와 표시부(디스플레이)(112)와 버튼(113)과 마이크(114)와 스피커(115)를 구비하고 있다. 제어부(111A)는, 기억부(13)에 저장된 프로그램의 실행을 통해 표시 제어부(111a)로서 기능한다.

표시 제어부(111a)는, 음성 인식부(211, 311)에 의하여, 유저의 발화 음성에 포함되는 지시가, 복수의 에이전트 A, B 중의 어느 에이전트에 대한 지시인 것인지가 판정되고 그 판정 결과가 전송된 때, 판정된 에이전트의 명칭을 표시부(112)에 표시시켜도 된다. 이것에 의하여, 유저가 어느 에이전트에 지시를 행한 것인지를 확인할 수 있다. 또한 유저의 의도와는 다른 에이전트에 지시가 전해져 버린 경우에도, 지시를 정정하는 등의 대처를 행할 수 있기 때문에 편리성이 향상된다.

(제1 VPA 서버)

제1 VPA 서버(20)의 음성 인식부(211)는, 차량 탑재 장치(11A)로부터 전송된 유저의 발화 음성을 인식하여, 유저의 발화 음성에 포함되는 지시가, 복수의 에이전트 A, B 중의 어느 에이전트에 대한 지시인 것인지를 판정한다. 그리고 음성 인식부(211)는, 유저의 발화 음성에 포함되는 지시가, 다른 에이전트 B에 대한 지시라고 판정한 경우, 그 판정 결과를 차량 탑재 장치(11A)에 출력한다.

이를 받아서 차량 탑재 장치(11A)의 제어부(111A)는, 판정된 에이전트 B의 기능을 실현하는 제2 VPA 서버(30)에 대하여 유저의 발화 음성을 전송하고, 당해 제2 VPA 서버(30)로부터 소정의 정보(음성 인식 결과, 응답 데이터)를 취득한다. 또한 음성 인식부(211)는, 유저의 발화 음성에 포함되는 지시가, 자 에이전트(에이전트 A)에 대한 지시라고 판정한 경우, 소정의 정보(음성 인식 결과, 응답 데이터)를 차량 탑재 장치(11)에 출력한다.

또한 음성 인식부(211)는, 유저의 발화 음성에 포함되는 지시가, 다른 에이전트 B에 대한 지시라고 판정한 경우, 그 판정 결과를 차량 탑재 장치(11A)에 출력하는 것이 아니라, 판정된 에이전트 B의 기능을 실현하는 제2 VPA 서버(30)에 대하여 유저의 발화 음성을 직접 전송해도 된다. 이것에 의하여, 차량 탑재 장치(11A)에 있어서의 발화 음성의 전송 처리를 생략할 수 있기 때문에 에이전트 시스템(1A) 전체의 응답 속도가 향상된다.

기억부(23)에는 필요에 따라, 예를 들어 유저의 대화 내용의 데이터, 유저의 발화 음성의 인식 결과의 데이터 등이 저장된다. 또한 이들 정보는 프라이버시 보호의 관점에서, 이용 후에 기억부(23)로부터 삭제해도 된다. 이 경우, 음성 인식부(211)는, 차량 탑재 장치(11A)로부터 전송된 유저의 발화 음성을 인식한 후에, 기억부(23)에 저장된 유저의 발화 음성 및 그 인식 결과를 삭제한다.

(제2 VPA 서버)

제2 VPA 서버(30)의 음성 인식부(311)는, 차량 탑재 장치(11A)로부터 전송된 유저의 발화 음성을 인식하여, 유저의 발화 음성에 포함되는 지시가, 복수의 에이전트 A, B 중의 어느 에이전트에 대한 지시인 것인지를 판정한다. 그리고 음성 인식부(311)는, 유저의 발화 음성에 포함되는 지시가, 다른 에이전트 A에 대한 지시라고 판정한 경우, 그 판정 결과를 차량 탑재 장치(11A)에 출력한다.

이를 받아서 차량 탑재 장치(11A)의 제어부(111A)는, 판정된 에이전트 A의 기능을 실현하는 제1 VPA 서버(20)에 대하여 유저의 발화 음성을 전송하고, 당해 제1 VPA 서버(20)로부터 소정의 정보(음성 인식 결과, 응답 데이터)를 취득한다. 또한 음성 인식부(311)는, 유저의 발화 음성에 포함되는 지시가, 자 에이전트(에이전트 B)에 대한 지시라고 판정한 경우, 소정의 정보(음성 인식 결과, 응답 데이터)를 차량 탑재 장치(11)에 출력한다.

또한 음성 인식부(311)는, 유저의 발화 음성에 포함되는 지시가, 다른 에이전트 A에 대한 지시라고 판정한 경우, 그 판정 결과를 차량 탑재 장치(11A)에 출력하는 것이 아니라, 판정된 에이전트 A의 기능을 실현하는 제1 VPA 서버(20)에 대하여 유저의 발화 음성을 직접 전송해도 된다. 이것에 의하여, 차량 탑재 장치(11A)에 있어서의 발화 음성의 전송 처리를 생략할 수 있기 때문에 에이전트 시스템(1A) 전체의 응답 속도가 향상된다.

기억부(33)에는 필요에 따라, 예를 들어 유저의 대화 내용의 데이터, 유저의 발화 음성의 인식 결과의 데이터 등이 저장된다. 또한 이들 정보는 프라이버시 보호의 관점에서, 이용 후에 기억부(33)로부터 삭제해도 된다. 이 경우, 음성 인식부(311)는, 차량 탑재 장치(11A)로부터 전송된 유저의 발화 음성을 인식한 후에, 기억부(33)에 저장된 유저의 발화 음성 및 그 인식 결과를 삭제한다.

(음성 대화 방법(제1 양태))

본 실시 형태에 관한 에이전트 시스템(1A) 및 에이전트 서버가 실행하는 음성 대화 방법의 처리 수순의 제1 양태에 대하여 도 5를 참조하면서 설명한다. 이하에서는, 유저가 특정 에이전트를 통해 그 외의 에이전트를 호출하는 경우의 음성 대화 방법에 대하여 설명한다. 또한 도 5에서는 설명의 편의상, 유저가 발화하는 스텝에 대해서도 음성 대화 방법의 흐름도 내에 도시하고 있다.

먼저, 유저가 「에이전트 A, 에이전트 B, ○○해」라고 발화하면(스텝 S11), 그 발화 음성의 데이터가 마이크(114)를 통해 차량 탑재 장치(11A)에 입력된다. 계속해서, 차량 탑재 장치(11A)의 제어부(111A)는 유저의 발화를 검지하고(스텝 S12), 유저의 발화 음성을, 예를 들어 제1 VPA 서버(20)에 전송한다(스텝 S13). 계속해서, 제1 VPA 서버(20)의 음성 인식부(211)는 음성 인식 처리 및 의도 이해 처리를 행한다(스텝 S14).

음성 인식부(211)는, 에이전트 B 앞으로의 지시라고 판정하고, 그 판정 결과를 차량 탑재 장치(11A)에 출력한다(스텝 S15). 계속해서, 음성 인식부(211)는, 유저의 발화 내용 및 인식 결과를 포함하는 발화 정보를 기억부(23)로부터 삭제한다(스텝 S16).

계속해서, 제어부(111A)는 유저의 발화 음성을 제2 VPA 서버(30)에 전송한다(스텝 S17). 계속해서, 제2 VPA 서버(30)의 음성 인식부(311)는 음성 인식 처리 및 의도 이해 처리를 행하고(스텝 S18), 그 인식 결과를 차량 탑재 장치(11A)에 출력한다(스텝 S19).

또한, 예를 들어 스텝 S11에 있어서, 유저가 「에이전트 B, 에이전트 A, ○○해」라고 발화한 경우에는 다음과 같은 처리를 행한다. 제어부(111A)는 스텝 S12에서 유저의 발화를 검지하고, 스텝 S13에서 유저의 발화 음성을, 예를 들어 제2 VPA 서버(30)에 전송한다. 계속해서, 음성 인식부(311)는 스텝 S14에서 음성 인식 처리 및 의도 이해 처리를 행한다. 계속해서, 음성 인식부(311)는 스텝 S15에서 에이전트 A 앞으로의 지시라고 판정하고, 그 판정 결과를 차량 탑재 장치(11A)에 출력한다. 계속해서, 음성 인식부(311)는 스텝 S16에서 유저의 발화 내용 및 인식 결과를 포함하는 발화 정보를 기억부(33)로부터 삭제한다. 계속해서, 제어부(111A)는 스텝 S17에서 유저의 발화 음성을 제1 VPA 서버(20)에 전송한다. 계속해서, 음성 인식부(211)는 스텝 S18에서 음성 인식 처리 및 의도 이해 처리를 행하고, 스텝 S19에서 인식 결과를 차량 탑재 장치(11A)에 출력한다.

(음성 대화 방법(제2 양태))

본 실시 형태에 관한 에이전트 시스템(1A) 및 에이전트 서버가 실행하는 음성 대화 방법의 처리 수순의 제2 양태에 대하여 도 6을 참조하면서 설명한다. 이하에서는, 유저가 특정 에이전트를 통해 그 외의 에이전트를 호출하는 경우의 음성 대화 방법에 대하여 설명한다. 또한 도 6에서는 설명의 편의상, 유저가 발화하는 스텝에 대해서도 음성 대화 방법의 흐름도 내에 도시하고 있다.

먼저, 유저가 「에이전트 A, 에이전트 B, ○○해」라고 발화하면(스텝 S21), 그 발화 음성의 데이터가 마이크(114)를 통해 차량 탑재 장치(11A)에 입력된다. 계속해서, 차량 탑재 장치(11A)의 제어부(111A)는 유저의 발화를 검지하고(스텝 S22), 유저의 발화 음성을, 예를 들어 제1 VPA 서버(20)에 전송한다(스텝 S23). 계속해서, 제1 VPA 서버(20)의 음성 인식부(211)는 음성 인식 처리 및 의도 이해 처리를 행한다(스텝 S24).

음성 인식부(211)는, 에이전트 B 앞으로의 지시라고 판정하고(스텝 S25), 유저의 발화 음성을 제2 VPA 서버(30)에 전송한다(스텝 S26). 계속해서, 음성 인식부(211)는 유저의 발화 내용 및 인식 결과를 포함하는 발화 정보를 기억부(23)로부터 삭제한다(스텝 S27). 계속해서, 제2 VPA 서버(30)의 음성 인식부(311)는 음성 인식 처리 및 의도 이해 처리를 행하고(스텝 S28), 그 인식 결과를 차량 탑재 장치(11A)에 출력한다(스텝 S29).

또한, 예를 들어 스텝 S21에 있어서, 유저가 「에이전트 B, 에이전트 A, ○○해」라고 발화한 경우에는 다음과 같은 처리를 행한다. 제어부(111A)는 스텝 S22에서 유저의 발화를 검지하고, 스텝 S23에서 유저의 발화 음성을, 예를 들어 제2 VPA 서버(30)에 전송한다. 계속해서, 음성 인식부(311)는 스텝 S24에서 음성 인식 처리 및 의도 이해 처리를 행한다. 계속해서, 음성 인식부(311)는 스텝 S25에서 에이전트 A 앞으로의 지시라고 판정하고, 스텝 S26에서 유저의 발화 음성을 제1 VPA 서버(20)에 출력한다. 계속해서, 음성 인식부(311)는 스텝 S27에서 유저의 발화 내용 및 인식 결과를 포함하는 발화 정보를 기억부(23)로부터 삭제한다. 계속해서, 음성 인식부(211)는 스텝 S28에서 음성 인식 처리 및 의도 이해 처리를 행하고, 스텝 S29에서 인식 결과를 차량 탑재 장치(11A)에 출력한다.

이상 설명한 실시 형태에 관한 에이전트 시스템(1A), 에이전트 서버 및 에이전트 프로그램에 따르면, 유저의 지시가 어느 에이전트에 대한 지시인지를 에이전트 서버측에서 판정하고, 그 판정 결과에 기초하여 유저의 발화 음성을 VPA 서버에 전송한다. 이것에 의하여, 다른 기능을 갖는 복수의 에이전트의 서비스를 이용할 때, 유저가 요구하는 기능을 갖는 에이전트를 정밀도 높게 호출할 수 있기 때문에, 유저가 기대하는 서비스를 받을 수 있다.

추가적인 효과나 변형예는 당업자에 의하여 용이하게 도출할 수 있다. 따라서 본 발명의 더 광범위한 양태는, 이상과 같이 나타내고 또한 기술한 특정 상세 및 대표적인 실시 형태에 한정되는 것은 아니다. 따라서 첨부된 클레임 및 그 균등물에 의하여 정의되는 총괄적인 발명의 개념의 정신 또는 범위로부터 일탈하는 일 없이 다양한 변경이 가능하다.

예를 들어 실시 형태에 관한 에이전트 시스템(1, 1A), 단말 장치, 에이전트 서버 및 에이전트 프로그램에서는, 유저로부터 「음악의 재생」의 지시가 있은 경우, VPA 서버(제1 VPA 서버(20) 및 제2 VPA 서버(30))가 서비스 서버로부터 음악 스트리밍 데이터를 취득하여 차량 탑재 장치(11, 11A)에 송신하고 있었다. 이 방법 대신, VPA 서버가 서비스 서버를 제어하여 서비스 서버로부터 차량 탑재 장치(11, 11A)에 음악 스트리밍 데이터를 직접 송신시켜도 된다.

1, 1A: 에이전트 시스템
10, 10A: 차량
11, 11A: 차량 탑재 장치
111, 111A: 제어부
111a: 표시 제어부
111b: 음성 인식부
112: 표시부
113: 버튼
114: 마이크
115: 스피커
12: 통신부
13: 기억부
20: 제1 VPA 서버
21: 제어부
211: 음성 인식부
22: 통신부
23: 기억부
30: 제2 VPA 서버
31: 제어부
311: 음성 인식부
32: 통신부
33: 기억부
NW: 네트워크

Claims

하드웨어를 갖는 제1 프로세서이며, 복수의 음성 대화 에이전트 중의 어느 음성 대화 에이전트의 기능을 실현하는 서버에 대하여 유저의 발화 음성을 전송하는 제1 프로세서를 구비하는 단말 장치와,
하드웨어를 갖는 제2 프로세서이며,
상기 단말 장치로부터 전송된 상기 유저의 발화 음성을 인식하여, 상기 유저의 발화 음성에 포함되는 지시가, 복수의 음성 대화 에이전트 중의 어느 음성 대화 에이전트에 대한 지시인 것인지를 판정하는 제2 프로세서를 구비하는 서버를
구비하는, 에이전트 시스템.
제1항에 있어서,
상기 제2 프로세서는, 상기 유저의 발화 음성에 포함되는 지시가, 다른 음성 대화 에이전트에 대한 지시라고 판정한 경우, 그 판정 결과를 상기 단말 장치에 출력하고,
상기 제1 프로세서는,
판정된 음성 대화 에이전트의 기능을 실현하는 서버에 대하여 상기 유저의 발화 음성을 전송하고,
상기 유저의 발화 음성을 전송한 서버로부터 상기 유저의 발화 음성의 인식 결과를 취득하는,
에이전트 시스템.
제1항에 있어서,
상기 제2 프로세서는, 판정한 음성 대화 에이전트의 기능을 실현하는 서버에 대하여 상기 유저의 발화 음성을 전송하고,
상기 제1 프로세서는, 상기 유저의 발화 음성이 전송된 서버로부터 상기 유저의 발화 음성의 인식 결과를 취득하는,
에이전트 시스템.
제1항에 있어서,
상기 제2 프로세서는, 판정한 음성 대화 에이전트의 기능을 실현하는 서버에 대하여 상기 유저의 발화 음성을 전송하고,
상기 제1 프로세서는, 상기 유저의 발화 음성이 전송된 서버로부터, 상기 유저의 발화 음성의 인식 결과에 기초하는 처리에 관한 응답 데이터를 취득하는,
에이전트 시스템.
제1항 내지 제4항 중 어느 한 항에 있어서,
상기 제2 프로세서는, 상기 단말 장치로부터 전송된 상기 유저의 발화 음성을 인식한 후에, 기억부에 저장된 상기 유저의 발화 음성 및 그 인식 결과를 삭제하는,
에이전트 시스템.
제1항 또는 제2항에 있어서,
상기 단말 장치는 디스플레이를 구비하고,
상기 제1 프로세서는, 상기 서버가 판정한 음성 대화 에이전트의 명칭을 상기 디스플레이에 표시시키는,
에이전트 시스템.
제1항 내지 제4항 중 어느 한 항에 있어서,
상기 제2 프로세서는,
상기 유저의 발화 음성을 텍스트 데이터로 변환하고,
상기 텍스트 데이터에, 음성 대화 에이전트를 특정하는 프레이즈가 포함되는 경우, 그 음성 대화 에이전트에 대한 지시라고 판정하는,
에이전트 시스템.
제1항 내지 제4항 중 어느 한 항에 있어서,
상기 유저의 발화 음성은, 음성 대화 에이전트를 특정하는 프레이즈와, 상기 음성 대화 에이전트에 대한 지시를 포함하는,
에이전트 시스템.
제8항에 있어서,
상기 단말 장치는, 발화 시에 상기 유저가 누르는 버튼을 구비하는,
에이전트 시스템.
제1항 내지 제4항 중 어느 한 항에 있어서,
상기 단말 장치는, 차량에 탑재되어 있는 차량 탑재 장치인,
에이전트 시스템.
제1항 내지 제4항 중 어느 한 항에 있어서,
상기 단말 장치는, 상기 유저가 소지하는 정보 단말 장치인,
에이전트 시스템.
하드웨어를 갖는 프로세서를 구비하고,
상기 프로세서는, 단말 장치로부터 전송된 유저의 발화 음성을 인식하여, 상기 유저의 발화 음성에 포함되는 지시가, 복수의 음성 대화 에이전트 중의 어느 음성 대화 에이전트에 대한 지시인 것인지를 판정하는,
서버.
제12항에 있어서,
상기 프로세서는, 상기 유저의 발화 음성에 포함되는 지시가, 다른 음성 대화 에이전트에 대한 지시라고 판정한 경우, 그 판정 결과를 상기 단말 장치에 출력하는,
서버.
제12항에 있어서,
상기 프로세서는, 판정한 음성 대화 에이전트의 기능을 실현하는 서버에 대하여 상기 유저의 발화 음성을 전송하는,
서버.
제12항 내지 제14항 중 어느 한 항에 있어서,
상기 프로세서는,
상기 유저의 발화 음성을 텍스트 데이터로 변환하고,
상기 텍스트 데이터에, 음성 대화 에이전트를 특정하는 프레이즈가 포함되는 경우, 그 음성 대화 에이전트에 대한 지시라고 판정하는,
서버.
제12항 내지 제14항 중 어느 한 항에 있어서,
상기 유저의 발화 음성은, 음성 대화 에이전트를 특정하는 프레이즈와, 상기 음성 대화 에이전트에 대한 지시를 포함하는,
서버.
컴퓨터의 프로세서에,
단말 장치로부터 전송된 유저의 발화 음성을 인식하여, 상기 유저의 발화 음성에 포함되는 지시가, 복수의 음성 대화 에이전트 중의 어느 음성 대화 에이전트에 대한 지시인 것인지를 판정하는
것을 실행시키는 에이전트 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체.
제17항에 있어서,
상기 프로세서에,
상기 유저의 발화 음성에 포함되는 지시가, 다른 음성 대화 에이전트에 대한 지시라고 판정한 경우, 그 판정 결과를 상기 단말 장치에 출력하는
것을 실행시키는 에이전트 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체.
제17항에 있어서,
상기 프로세서에,
판정한 음성 대화 에이전트의 기능을 실현하는 서버에 대하여 상기 유저의 발화 음성을 전송하는
것을 실행시키는 에이전트 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체.
제17항 내지 제19항 중 어느 한 항에 있어서,
상기 프로세서에,
상기 유저의 발화 음성을 텍스트 데이터로 변환하고,
상기 텍스트 데이터에, 음성 대화 에이전트를 특정하는 프레이즈가 포함되는 경우, 그 음성 대화 에이전트에 대한 지시라고 판정하는
것을 실행시키는 에이전트 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체.