WO2014020835A1 - Agent control system, method, and program - Google Patents

Agent control system, method, and program Download PDF

Info

Publication number
WO2014020835A1
WO2014020835A1 PCT/JP2013/004243 JP2013004243W WO2014020835A1 WO 2014020835 A1 WO2014020835 A1 WO 2014020835A1 JP 2013004243 W JP2013004243 W JP 2013004243W WO 2014020835 A1 WO2014020835 A1 WO 2014020835A1
Authority
WO
WIPO (PCT)
Prior art keywords
agent
processing means
processing
user
dialog
Prior art date
Application number
PCT/JP2013/004243
Other languages
French (fr)
Japanese (ja)
Inventor
康行 三井
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Publication of WO2014020835A1 publication Critical patent/WO2014020835A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Abstract

A plurality of interaction processing means (81) carries out processing for interacting with a user by generating response information in response to input information from the user. The plurality of interaction processing means (81) includes at least one interaction processing means with interaction processing performance different from the other interaction processing means. A processing means determination means (82) determines one interaction processing means from the plurality of interaction processing means according to the situation in which interaction processing is carried out. An agent setting means (83) sets an agent corresponding to the one interaction processing means that has been determined. An agent control means (84) notifies the user of the response information via the agent that has been set.

Description

エージェント制御システム、方法およびプログラムAgent control system, method and program
 本発明は、利用者との対話を行うエージェントを制御するエージェント制御システム、エージェント制御方法およびエージェント制御プログラムに関する。 The present invention relates to an agent control system, an agent control method, and an agent control program for controlling an agent that interacts with a user.
 パーソナルコンピュータや、携帯電話機等を操作する入力装置として、キーボードやマウス、タッチパネルといった機器が普及してきた。一方、前述のような機器を用いず、マイクロフォンやスピーカを備え、音声による対話型ユーザインターフェース(以下、音声対話UI)により機器を操作する方法も研究されてきた。 Devices such as keyboards, mice, and touch panels have become widespread as input devices for operating personal computers, mobile phones, and the like. On the other hand, a method of operating a device by a voice interactive user interface (hereinafter referred to as a voice interaction UI) without using the device as described above and having a microphone and a speaker has been studied.
 特に、近年、スマートフォン等の携帯電話機が急速に普及してきている。このような携帯電話機に代表されるモバイル端末では、機器の可搬性の問題から、キーボード等の装置を装備することが難しい。そのため、音声対話UIによる機器操作に注目が集まっている。 In particular, in recent years, mobile phones such as smartphones are rapidly spreading. In a mobile terminal typified by such a mobile phone, it is difficult to equip a device such as a keyboard because of the problem of portability of the device. For this reason, attention has been focused on device operations using the voice dialogue UI.
 音声対話UIでは主に、マイクロフォンから入力された利用者の音声が自動音声認識処理によって認識される。そして、その音声をコマンドとして認識した上でシナリオに沿って応答が生成される。生成された応答が、モニタ等の画面に映し出されることによって、または、スピーカから合成音声で出力されることによって、対話を行いながら機器を操作することが可能になる。 In the voice interaction UI, the user's voice input from the microphone is mainly recognized by the automatic voice recognition process. Then, after recognizing the voice as a command, a response is generated according to the scenario. By displaying the generated response on a screen of a monitor or the like, or outputting the synthesized voice from a speaker, it becomes possible to operate the device while performing a dialogue.
 また、近年では、モバイル端末の通信速度の向上に伴って、音声認識や音声合成といった処理がサーバで行われる。このような構成によって音声認識の精度や合成音声の音質を向上させている機器やサービスも増加している(分散型音声認識)。 In recent years, with the improvement of the communication speed of mobile terminals, processing such as speech recognition and speech synthesis is performed by a server. With such a configuration, the number of devices and services that improve the accuracy of speech recognition and the quality of synthesized speech are increasing (distributed speech recognition).
 さらに、特許文献1には、サーバだけでなく、端末にも簡易的な音声認識装置を搭載した音声認識システムが記載されている。特許文献1に記載された音声認識システムは、通信状態を考慮して、サーバから音声認識結果が得られない場合は、端末で音声認識処理を行う。 Furthermore, Patent Document 1 describes a voice recognition system in which a simple voice recognition device is mounted not only on a server but also on a terminal. The speech recognition system described in Patent Document 1 performs speech recognition processing at a terminal when a speech recognition result cannot be obtained from a server in consideration of a communication state.
 一方、例えば、特許文献1に開示されているように、音声対話UIによる機器操作をより楽しく、親しみやすくするために、エージェント機能を備えた技術も知られている。エージェント機能とは、擬人化されたキャラクタ(エージェント)を画面に表示して、応答の内容や利用者からの入力内容によって動作や表情を変更させることによって、エージェントとの対話を疑似的に演出する機能のことである。 On the other hand, as disclosed in Patent Document 1, for example, a technique having an agent function is also known in order to make device operation using a voice dialogue UI more enjoyable and friendly. The agent function is to create an anthropomorphic character (agent) on the screen and change the action and facial expression according to the contents of the response and the input from the user, thereby producing a simulated interaction with the agent. It is a function.
 このような機能を用いることで、利用者は、あたかもエージェントと人間的なコミュニケーションを取りつつ機器が操作されているように感じることができる。 By using such a function, the user can feel as if the device is being operated while performing human communication with the agent.
 さらに、特許文献2には、エージェントと音声対話UIと組み合わせて、より人間的なコミュニケーションを行う方法が記載されている。 Furthermore, Patent Document 2 describes a method of performing more human communication in combination with an agent and a voice dialogue UI.
 また、特許文献3には、エージェントを用いた情報検索方法が記載されている。特許文献3に記載された情報検索方法では、個々に固有の情報検索条件が設定された複数のエージェントが利用者に提示され、利用者が欲する情報検索条件をもとにエージェントが選択されると、その利用者の欲する情報検索が行われる。 Patent Document 3 describes an information search method using an agent. In the information search method described in Patent Literature 3, when a plurality of agents each having a unique information search condition set are presented to the user and the agent is selected based on the information search condition desired by the user. Information retrieval desired by the user is performed.
特許4554285号公報Japanese Patent No. 4554285 特許3016350号公報Japanese Patent No. 3016350 特開2004-118856号公報JP 2004-118856 A
 特許文献1に開示されているように、サーバとモバイル端末との回線が切断されている、または、回線状態が良好でない場合、モバイル端末側で音声認識および音声合成処理を含む音声対話処理が実行されることが望ましい。 As disclosed in Patent Document 1, when the line between the server and the mobile terminal is disconnected or when the line state is not good, voice interaction processing including voice recognition and voice synthesis processing is executed on the mobile terminal side It is desirable that
 この場合、回線接続状態では、サーバとの間で音声対話処理が行われ、回線非接続状態では、モバイル端末で音声対話処理が行われることになる。しかし、モバイル端末の処理能力は、サーバに劣る場合が一般的である。したがって、一般に、モバイル端末で音声対話処理した場合の精度は、サーバで処理した場合に劣る。 In this case, voice conversation processing is performed with the server when the line is connected, and voice conversation processing is performed with the mobile terminal when the line is not connected. However, the processing capability of a mobile terminal is generally inferior to that of a server. Therefore, in general, the accuracy when voice dialogue processing is performed on a mobile terminal is inferior to that when processing is performed on a server.
 そのため、サーバで処理されていた場合には正しく認識されていたキーワード(コマンド)が、回線非接続状態となって端末処理に切り替わった場合に、正しく認識されなくなるといった問題が起こる可能性がある。もし、利用者がこの切り替わりを把握していない場合、利用者は、先ほどまで正常に認識していたキーワードが、急に認識されなくなったと感じてしまう。そのため、音声対話UIに対する不満が増大してしまうという問題がある。 Therefore, there is a possibility that a keyword (command) that has been correctly recognized when processed by the server will not be correctly recognized when the terminal processing is switched to the line disconnected state. If the user does not grasp the switching, the user feels that the keyword that has been recognized normally is suddenly no longer recognized. Therefore, there is a problem that dissatisfaction with the voice dialogue UI increases.
 また、特許文献3に記載された情報検索方法では、利用者が欲する情報検索条件をもとにエージェントが選択されるため、利用者にとって親しみやすいUIを提供することは可能である。しかし、上述するように、サーバで行われていた情報検索処理が、端末処理に切り替わるような場合、情報検索の能力が劣ることが一般的である。このような場合、利用者は、どのような処理が行われているか分からず情報検索処理を行うため、利用者に親しみやすいUIを提供しても、情報検索処理に対する不満が増大してしまうという問題がある。 In the information search method described in Patent Document 3, since an agent is selected based on information search conditions desired by the user, it is possible to provide a user-friendly UI. However, as described above, when the information search process performed on the server is switched to the terminal process, the information search capability is generally inferior. In such a case, since the user performs the information search process without knowing what process is being performed, dissatisfaction with the information search process increases even if a user-friendly UI is provided. There's a problem.
 そこで、本発明は、利用者にとって親しみやすい対話処理を提供できるとともに、現在の処理状況を利用者に一目で認識させることができるエージェント制御システム、エージェント制御方法およびエージェント制御プログラムを提供することを目的とする。 Accordingly, an object of the present invention is to provide an agent control system, an agent control method, and an agent control program that can provide user-friendly dialogue processing and also allow the user to recognize the current processing status at a glance. And
 本発明によるエージェント制御システムは、利用者からの入力情報に対する応答情報を生成することで利用者との対話処理を行う複数の対話処理手段と、複数の対話処理手段から一の対話処理手段を決定する処理手段決定手段と、決定された一の対話処理手段に応じたエージェントを設定するエージェント設定手段と、設定されたエージェントを介して、応答情報を利用者に通知するエージェント制御手段とを備え、複数の対話処理手段が、他の対話処理手段と対話処理性能の異なる少なくとも1つ以上の対話処理手段を含み、処理手段決定手段が、対話処理が行われている状況に応じて、複数の対話処理手段から一の対話処理手段を決定することを特徴とする。 The agent control system according to the present invention determines a plurality of dialogue processing means for performing dialogue processing with a user by generating response information for input information from the user, and one dialogue processing means from the plurality of dialogue processing means. Processing means determining means, agent setting means for setting an agent according to the determined one dialog processing means, and agent control means for notifying the user of response information via the set agent, The plurality of dialog processing means include at least one dialog processing means having different dialog processing performance from other dialog processing means, and the processing means determining means has a plurality of dialogs depending on the situation in which the dialog processing is performed. One dialogue processing means is determined from the processing means.
 本発明によるエージェント制御方法は、利用者からの入力情報に対する応答情報を生成することで利用者との対話処理を行う複数の対話処理手段から、一の対話処理手段を決定し、決定された一の対話処理手段に応じたエージェントを設定し、設定されたエージェントを介して、応答情報を利用者に通知し、一の対話処理手段を決定する際、対話処理が行われている状況に応じて、他の対話処理手段と対話処理性能の異なる少なくとも1つ以上の対話処理手段を含む複数の対話処理手段から一の対話処理手段を決定することを特徴とする。 The agent control method according to the present invention determines one dialogue processing means from a plurality of dialogue processing means that perform dialogue processing with a user by generating response information with respect to input information from the user. Set the agent according to the interactive processing means, notify the user of the response information through the set agent, and determine the one interactive processing means according to the situation where the interactive processing is being performed One dialog processing means is determined from a plurality of dialog processing means including at least one dialog processing means having different dialog processing performance from other dialog processing means.
 本発明によるエージェント制御プログラムは、コンピュータに、利用者からの入力情報に対する応答情報を生成することで利用者との対話処理を行う複数の対話処理手段から、一の対話処理手段を決定する処理手段決定処理、決定された一の対話処理手段に応じたエージェントを設定するエージェント設定処理、および、設定されたエージェントを介して、応答情報を利用者に通知するエージェント制御処理を実行させ、処理手段決定処理で、対話処理が行われている状況に応じて、他の対話処理手段と対話処理性能の異なる少なくとも1つ以上の対話処理手段を含む複数の対話処理手段から一の対話処理手段を決定させることを特徴とする。 The agent control program according to the present invention is a processing means for determining one interaction processing means from a plurality of interaction processing means for performing interaction processing with a user by generating response information for input information from the user in a computer. Determine processing means by executing determination processing, agent setting processing for setting an agent corresponding to the determined one dialog processing means, and agent control processing for notifying the user of response information via the set agent. In the process, one dialog processing means is determined from a plurality of dialog processing means including at least one dialog processing means having different dialog processing performance from other dialog processing means depending on the situation in which the dialog processing is performed. It is characterized by that.
 本発明によれば、利用者にとって親しみやすい対話処理を提供できるとともに、現在の処理状況を利用者に一目で認識させることができる。 According to the present invention, it is possible to provide a user-friendly dialogue process and make the user recognize the current processing status at a glance.
本発明によるエージェント制御システムの第1の実施形態の構成例を示すブロック図である。It is a block diagram which shows the structural example of 1st Embodiment of the agent control system by this invention. 第1の実施形態の動作の一例を示すフローチャートである。It is a flowchart which shows an example of operation | movement of 1st Embodiment. 本発明によるエージェント制御システムの第2の実施形態の構成例を示すブロック図である。It is a block diagram which shows the structural example of 2nd Embodiment of the agent control system by this invention. 第2の実施形態の動作の一例を示すフローチャートである。It is a flowchart which shows an example of operation | movement of 2nd Embodiment. 応答情報生成処理を行う構成例を示すブロック図である。It is a block diagram which shows the structural example which performs a response information generation process. 本発明によるエージェント制御システムの第3の実施形態の構成例を示すブロック図である。It is a block diagram which shows the structural example of 3rd Embodiment of the agent control system by this invention. 本発明によるエージェント制御システムの第1の実施例の構成例を示すブロック図である。It is a block diagram which shows the structural example of the 1st Example of the agent control system by this invention. 本発明によるエージェント制御システムの第3の実施例の構成例を示すブロック図である。It is a block diagram which shows the structural example of the 3rd Example of the agent control system by this invention. 本発明によるエージェント制御システムの概要を示すブロック図である。It is a block diagram which shows the outline | summary of the agent control system by this invention.
 以下、本発明の実施形態を図面を参照して説明する。なお、各実施形態において、同様の構成要素には同じ符号を付し、適宜説明を省略する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. Note that, in each embodiment, the same constituent elements are denoted by the same reference numerals, and description thereof will be omitted as appropriate.
実施形態1.
 図1は、本発明によるエージェント制御システムの第1の実施形態の構成例を示すブロック図である。図1を参照すると、本実施形態のエージェント制御システムは、処理手段決定部101と、エージェント設定部102と、対話処理部104Aと、対話処理部104Bと、エージェント制御部105とを備えている。
Embodiment 1. FIG.
FIG. 1 is a block diagram showing a configuration example of a first embodiment of an agent control system according to the present invention. Referring to FIG. 1, the agent control system of the present embodiment includes a processing means determination unit 101, an agent setting unit 102, a dialogue processing unit 104A, a dialogue processing unit 104B, and an agent control unit 105.
 対話処理部104Aおよび対話処理部104Bは、利用者からの入力情報に対する応答情報を生成することで、利用者との対話処理を行う。利用者からの入力情報とは、利用者がシステムとの対話に用いる情報であり、例えば、テキストや音声、音声合成結果などである。また、対話処理とは、入力内容に対する応答を生成する処理であり、その応答として応答情報が生成される。 The dialogue processing unit 104A and the dialogue processing unit 104B perform dialogue processing with the user by generating response information with respect to input information from the user. The input information from the user is information used by the user to interact with the system, such as text, speech, speech synthesis results, and the like. The interactive process is a process for generating a response to the input content, and response information is generated as the response.
 また、応答情報とは、本発明によるエージェント制御システム(以下、単にシステムと記すこともある)と、システムの利用者との音声対話における、システムからの応答に関する情報である。応答情報も、入力情報と同様に、テキストや音声、音声合成結果などで表わされる。 Further, the response information is information relating to a response from the system in a voice dialogue between the agent control system according to the present invention (hereinafter sometimes simply referred to as a system) and a user of the system. The response information is also expressed by text, speech, speech synthesis result, etc., like the input information.
 対話処理部104Aと対話処理部104Bは、処理方式、有する辞書やデータベース等が異なる。したがって、対話処理部104Aと対話処理部104Bとでは、処理性能が異なる。対話処理の性能とは、処理にかかる速度、処理の複雑さ、処理結果に関する精度等を指す。なお、対話処理部104Aと対話処理部104Bとの処理性能の違いは、純粋な処理性能の違いに限定されない。対話処理部104Aと対話処理部104Bの基本性能が同等で、特定の利用形態における処理性能が異なるものも含まれる。 The dialogue processing unit 104A and the dialogue processing unit 104B differ in processing method, dictionaries, databases, and the like. Therefore, the processing performance differs between the dialogue processing unit 104A and the dialogue processing unit 104B. The performance of interactive processing refers to processing speed, processing complexity, accuracy regarding processing results, and the like. Note that the difference in processing performance between the dialog processing unit 104A and the dialog processing unit 104B is not limited to the difference in pure processing performance. The conversation processing unit 104A and the conversation processing unit 104B have the same basic performance, but include processing performances different in a specific usage form.
 特定の利用形態で処理性能が異なるとは、利用する形態やシーン、または領域によって、対話処理に関する機能に得意不得意があり、例えば、得意な利用形態においては高い性能を発揮することを意味する。ここでは、具体例として、対話処理の中の一機能である音声認識を例に説明する。 The difference in processing performance in a specific usage form means that the function related to the interactive processing is not good at the form, scene, or area to be used, for example, it shows high performance in a good usage form. . Here, as a specific example, speech recognition, which is one function in the dialogue processing, will be described as an example.
 音声認識では、辞書等のデータベースが大きい方が高い性能を発揮する。しかし、全ての領域において高い性能を達成するために大規模な辞書を持ってしまうと、平均的な性能は向上する一方で、類似する発声が多数登録されることによる部分的な性能劣化が生じるおそれがある。これを避けるため、利用形態が特定されている場合には、その利用形態に関する単語を多く登録し、逆に関連しない単語を削除することによって、その利用形態における性能を向上させることがある。このような場合、対話処理に関する基本性能が同等であっても、特定の利用形態における処理性能が異なる場合が生じることになる。 In speech recognition, a larger database such as a dictionary performs better. However, if you have a large dictionary to achieve high performance in all areas, the average performance will improve, but partial performance degradation will occur due to the registration of many similar utterances. There is a fear. In order to avoid this, when a usage pattern is specified, a number of words related to the usage pattern are registered, and conversely, a word that is not related may be deleted to improve the performance of the usage pattern. In such a case, even if the basic performance related to the dialogue processing is equivalent, the processing performance in a specific usage mode may be different.
 例えば、天気に関連する単語が多く登録されている辞書を用いて対話処理を行うとする。この場合、「天気予報」を利用するシーンであれば、高い音声認識性能を発揮する。一方、「ニュース」や「渋滞情報」といったその他の利用シーンでは、平均的な性能しか発揮できないことになる。 Suppose, for example, that dialogue processing is performed using a dictionary in which many words related to the weather are registered. In this case, if the scene uses “weather forecast”, high speech recognition performance is exhibited. On the other hand, in other usage scenes such as “news” and “congestion information”, only average performance can be exhibited.
 また、処理性能の差異は、辞書のサイズに限定されない。辞書のサイズ以外の性能差として、例えば、文発声に強いまたは単語発声に強いなどの性能差も考えられる。 Also, the difference in processing performance is not limited to the dictionary size. As the performance difference other than the size of the dictionary, for example, a performance difference such as strong against sentence utterance or strong against word utterance may be considered.
 処理手段決定部101は、複数の対話処理部から一の対話処理部を決定する。具体的には、処理手段決定部101は、対話処理が行われている状況に応じて、複数の対話処理部から一の対話処理部を決定する。対話処理が行われている状況とは、例えば、システム負荷の状況や、ネットワーク負荷の状況などであるが、これらの状況に限定されない。 The processing means determination unit 101 determines one dialogue processing unit from a plurality of dialogue processing units. Specifically, the processing means determination unit 101 determines one dialogue processing unit from a plurality of dialogue processing units according to the situation where the dialogue processing is being performed. The situation in which the dialogue processing is performed includes, for example, a system load situation and a network load situation, but is not limited to these situations.
 エージェント設定部102は、決定された一の対話処理部に応じたエージェントを設定する。なお、対話処理部に応じたエージェントは、予め定められる。 The agent setting unit 102 sets an agent corresponding to the determined one dialog processing unit. The agent corresponding to the dialogue processing unit is determined in advance.
 エージェント制御部105は、設定されたエージェントを介して、応答情報を利用者に通知する。エージェント制御部105は、例えば、応答情報の内容に応じてエージェントを変化させてもよく、エージェントに応じて応答情報の内容を編集してもよい。具体的な制御方法は、後述される。 The agent control unit 105 notifies the response information to the user via the set agent. For example, the agent control unit 105 may change the agent according to the content of the response information, or may edit the content of the response information according to the agent. A specific control method will be described later.
 処理手段決定部101と、エージェント設定部102と、エージェント制御部105とは、プログラム(エージェント制御プログラム)に従って動作するコンピュータのCPUによって実現される。例えば、プログラムは、端末100の記憶部(図示せず)に記憶され、CPUは、そのプログラムを読み込み、プログラムに従って、処理手段決定部101、エージェント設定部102およびエージェント制御部105として動作してもよい。 The processing means determination unit 101, the agent setting unit 102, and the agent control unit 105 are realized by a CPU of a computer that operates according to a program (agent control program). For example, the program is stored in a storage unit (not shown) of the terminal 100, and the CPU reads the program and operates as the processing means determination unit 101, the agent setting unit 102, and the agent control unit 105 according to the program. Good.
 また、対話処理部104Aおよび対話処理部104Bも、プログラムに従って動作するコンピュータのCPUによって実現されていてもよい。例えば、プログラムは、端末100の記憶部(図示せず)に記憶され、CPUは、そのプログラムを読み込み、プログラムに従って、対話処理部104Aおよび対話処理部104Bとして動作してもよい。 Further, the dialogue processing unit 104A and the dialogue processing unit 104B may also be realized by a CPU of a computer that operates according to a program. For example, the program may be stored in a storage unit (not shown) of the terminal 100, and the CPU may read the program and operate as the dialogue processing unit 104A and the dialogue processing unit 104B according to the program.
 また、処理手段決定部101と、エージェント設定部102と、対話処理部104Aと、対話処理部104Bと、エージェント制御部105とは、それぞれが専用のハードウェアで実現されていてもよい。また、対話処理部104Aと、対話処理部104Bとは、他の処理部と同一の装置に含まれていてもよいし、異なる装置に含まれていてもよい。 Further, each of the processing means determination unit 101, the agent setting unit 102, the dialogue processing unit 104A, the dialogue processing unit 104B, and the agent control unit 105 may be realized by dedicated hardware. Further, the dialogue processing unit 104A and the dialogue processing unit 104B may be included in the same device as other processing units, or may be included in different devices.
 次に、本実施形態の動作を説明する。図2は、本実施形態の動作の一例を示すフローチャートである。 Next, the operation of this embodiment will be described. FIG. 2 is a flowchart showing an example of the operation of the present embodiment.
 処理手段決定部101は、用いる対話処理部を決定する(ステップS101)。処理手段決定部101は、例えば、現在のシステムの負荷状況に応じて手段を決定してもよい。具体的には、処理手段決定部101は、システム全体の負荷が高い場合は、低負荷(つまり、低性能)の対話処理部を選択し、システム全体の負荷が低い場合は、高負荷(つまり、高性能)の対話処理部を選択してもよい。なお、用いる対話処理部を予め利用者が指定しておいてもよい。ただし、対話処理が行われている状況に応じて対話処理部を決定する方が、より好ましい。 The processing means determination unit 101 determines a dialogue processing unit to be used (step S101). For example, the processing means determination unit 101 may determine means according to the current system load status. Specifically, the processing means determination unit 101 selects a low-load (that is, low performance) dialogue processing unit when the load on the entire system is high, and high-load (that is, when the overall system load is low). (High performance) dialog processing unit may be selected. Note that the user may designate in advance the dialog processing unit to be used. However, it is more preferable to determine the dialogue processing unit according to the situation where the dialogue processing is performed.
 一方、利用者から、入力情報としてテキストが入力される(ステップS102)。 On the other hand, text is input as input information from the user (step S102).
 エージェント設定部102は、処理手段決定部101が決定した結果に応じて、使用すべきエージェントを決定する(ステップS103)。使用されるエージェントの姿態や動作は、予め定義されており、エージェント設定部102は、画像や動作情報などを記憶する。なお、エージェント設定部102は、画像や動作情報の代わりに、エージェントの姿態および動作などを制御するパラメータを記憶しておいてもよい。 The agent setting unit 102 determines an agent to be used in accordance with the result determined by the processing means determination unit 101 (step S103). The form and operation of the agent to be used are defined in advance, and the agent setting unit 102 stores images, operation information, and the like. The agent setting unit 102 may store parameters for controlling the appearance and operation of the agent instead of the image and the operation information.
 エージェントには、利用者にとって現在の処理が対話処理部104Aと対話処理部104Bのどちらで行われているかが明確に分かるようなキャラクタが用いられる。具体的には、エージェントには、性能の高低や、最も得意とする利用シーンが明確に分かるような特徴を持つキャラクタが用いられる。 For the agent, a character is used that clearly indicates to the user whether the current processing is performed by the dialog processing unit 104A or the dialog processing unit 104B. Specifically, for the agent, a character having a characteristic that clearly shows the level of performance and the usage scene that is best used.
 性能の高低や、得意とする利用シーンが明確に分かる特徴として、例えば、年齢、性別もしくは職業などが挙げられる。また、他の特徴として、人間、動物もしくは機械であることが想起できるキャラクタの体型、表情、服装などの見た目が挙げられる。また、他の特徴として、動きが早い(遅い)、元気(疲れている)、頭がさえている(呆然としている)などが想起できるキャラクタの動作などが挙げられる。 Features that clearly show the level of performance and the usage scenes that you are good at include, for example, age, sex, or occupation. Another feature is the appearance of the character's body shape, facial expression, clothes, etc. that can be recalled as a human being, an animal, or a machine. Another feature is the action of a character that can be recalled as being fast (slow), cheerful (tired), or having a head (stunned).
 エージェント設定部102は、決定された一の対話処理手段の対話処理性能に応じた年齢を利用者に想起させる特徴を有する擬人化されたエージェントを設定してもよい。例えば、低性能の対話処理が行われる場合、低年齢を表す幼児のキャラクタをエージェントに設定してもよい。このように擬人化されたエージェントを設定することによって、より親しみやすい対話処理を利用者に提供できる。 The agent setting unit 102 may set an anthropomorphic agent having a feature that reminds the user of the age corresponding to the determined dialog processing performance of the one dialog processing means. For example, when a low-performance dialogue process is performed, an infant character representing a young age may be set as an agent. By setting an anthropomorphic agent in this way, it is possible to provide a user with a friendly interaction process.
 対話処理部104Aは、処理手段決定部101が対話処理部Aを選択した場合(ステップS301における「A」)、入力されたテキストに対する対話応答に関する情報(応答情報)を生成する処理を行う(ステップS104A)。入力テキストは、言語解析処理が行われ、キーワード等が抽出される。次に、対話処理部104Aは、キーワードに応じた応答情報を生成する。 When the processing means determination unit 101 selects the dialogue processing unit A (“A” in step S301), the dialogue processing unit 104A performs processing for generating information (response information) related to the dialogue response to the input text (step S301). S104A). The input text is subjected to language analysis processing, and keywords and the like are extracted. Next, the dialogue processing unit 104A generates response information corresponding to the keyword.
 同様に、対話処理部104Bは、処理手段決定部101が対話処理部Bを選択した場合(ステップS301における「B」)、応答情報を生成する処理を行う(ステップS104B)。 Similarly, when the processing means determination unit 101 selects the dialogue processing unit B (“B” in step S301), the dialogue processing unit 104B performs a process of generating response information (step S104B).
 エージェント制御部105は、対話処理部104Aまたは対話処理部104Bが生成する応答情報に基づいて、ディスプレイ等の表示機器を用いて、エージェント設定部102が選択したエージェントの応答表示を行う(ステップS105)。また、端末100が備える装置およびソフトウェアの制御情報が応答情報に含まれる場合、エージェント制御部105は、これらの制御も同時に行う。 Based on the response information generated by the dialog processing unit 104A or the dialog processing unit 104B, the agent control unit 105 displays the response of the agent selected by the agent setting unit 102 using a display device such as a display (step S105). . In addition, when the control information of the device and software included in the terminal 100 is included in the response information, the agent control unit 105 also performs these controls at the same time.
 なお、本実施形態では、2種類の対話処理部(対話処理部104A、対話処理部104B)を備える場合を例示したが、対話処理部の数は、2つに限定されず、3つ以上であってもよい。また、各対話処理部は、同一の装置に備えられていてもよく、複数の装置に分散して配置されていてもよい。 In the present embodiment, the case where two types of dialogue processing units (the dialogue processing unit 104A and the dialogue processing unit 104B) are provided is illustrated, but the number of dialogue processing units is not limited to two, and may be three or more. There may be. In addition, each dialogue processing unit may be provided in the same device, or may be distributed in a plurality of devices.
 以上のように、本実施形態によれば、処理手段決定部101が、対話処理が行われている状況(例えば、通信回線の接続状況、通信電波の状況、システム全体の負荷状況)に応じて、複数の対話処理部(例えば、対話処理部104A、対話処理部104B)から、一の対話処理部を決定する。なお、複数の対話処理部には、他の対話処理部と対話処理性能の異なる少なくとも1つ以上の対話処理部が含まれる。そして、エージェント設定部102が、決定された一の対話処理部に応じたエージェントを設定し、エージェント制御部105が、設定されたエージェントを介して、応答情報を利用者に通知する。 As described above, according to the present embodiment, the processing means determination unit 101 responds to a situation in which a dialogue process is being performed (for example, communication line connection status, communication radio wave status, overall system load status). One dialogue processing unit is determined from a plurality of dialogue processing units (for example, the dialogue processing unit 104A and the dialogue processing unit 104B). Note that the plurality of dialogue processing units include at least one dialogue processing unit having different dialogue processing performance from other dialogue processing units. Then, the agent setting unit 102 sets an agent corresponding to the determined one dialog processing unit, and the agent control unit 105 notifies the user of response information via the set agent.
 以上のような構成により、利用者にとって親しみやすい対話処理を提供できるとともに、現在の処理状況を利用者に一目で認識させることができる。 With the configuration as described above, it is possible to provide a user-friendly dialogue process and make the user recognize the current processing status at a glance.
 すなわち、本実施形態によれば、対話処理の性能の違いによってエージェントの姿態や動作が変更されるため、利用者にとって親しみやすく、さらに現在の処理が一目で分かるエージェントを提供できる。言い換えると、音声対話UIによる対話処理性能の高低をエージェントの表示を変更することによって明確に示しているので、利用者に快適な音声対話UIを提供できる。 That is, according to the present embodiment, since the appearance and operation of the agent are changed due to the difference in the performance of the interactive processing, it is possible to provide an agent that is easy for the user to understand and can easily understand the current processing at a glance. In other words, since the level of dialogue processing performance by the voice dialogue UI is clearly indicated by changing the display of the agent, a comfortable voice dialogue UI can be provided to the user.
実施形態2.
 図3は、本発明によるエージェント制御システムの第2の実施形態の構成例を示すブロック図である。なお、第1の実施形態と同様の構成については、図1と同一の符号を付し、説明を省略する。
Embodiment 2. FIG.
FIG. 3 is a block diagram showing a configuration example of the second embodiment of the agent control system according to the present invention. In addition, about the structure similar to 1st Embodiment, the code | symbol same as FIG. 1 is attached | subjected and description is abbreviate | omitted.
 図3を参照すると、本実施形態のエージェント制御システムは、端末100とサーバ200とを備えている。端末100とサーバ200とは、通信ネットワーク網を介して相互に接続される。 Referring to FIG. 3, the agent control system of this embodiment includes a terminal 100 and a server 200. The terminal 100 and the server 200 are connected to each other via a communication network.
 端末100は、処理手段決定部101と、エージェント設定部102と、音声入力部103と、対話処理部(端末)104と、エージェント制御部105とを含む。なお、対話処理部(端末)104の内容は、第1の実施形態における対話処理部104Aまたは対話処理部104Bの内容と同様である。 The terminal 100 includes a processing means determination unit 101, an agent setting unit 102, a voice input unit 103, a dialogue processing unit (terminal) 104, and an agent control unit 105. Note that the content of the dialog processing unit (terminal) 104 is the same as the content of the dialog processing unit 104A or the dialog processing unit 104B in the first embodiment.
 音声入力部103は、音声信号を入力する。音声入力部103は、例えば、マイクロフォン等の音響入力機器により実現される。また、音声入力部103は、他の装置から入力される音声信号を受信するインタフェースにより実現されていてもよい。 The voice input unit 103 inputs a voice signal. The voice input unit 103 is realized by an acoustic input device such as a microphone, for example. The audio input unit 103 may be realized by an interface that receives an audio signal input from another device.
 サーバ200は、対話処理部(サーバ)204を含む。なお、対話処理部(サーバ)204の内容は、第1の実施形態における対話処理部104Aまたは対話処理部104Bの内容と同様である。 The server 200 includes a dialogue processing unit (server) 204. Note that the content of the dialog processing unit (server) 204 is the same as the content of the dialog processing unit 104A or the dialog processing unit 104B in the first embodiment.
 このように、本実施形態では、2つの対話処理部のうちの一つは、端末100に備えられ、他の対話処理部は、サーバ200に備えられる。また、本実施形態では、対話処理部が2つの場合を例示しているが、対話処理部の数は、3つ以上であってもよい。このとき、複数の対話処理部のうち、少なくとも一つの対話処理部が、通信ネットワーク網を介して接続される他の装置(例えば、サーバ200)に備えられていてもよい。 Thus, in the present embodiment, one of the two dialogue processing units is provided in the terminal 100, and the other dialogue processing unit is provided in the server 200. In the present embodiment, the case where there are two dialogue processing units is illustrated, but the number of dialogue processing units may be three or more. At this time, at least one dialogue processing unit among the plurality of dialogue processing units may be provided in another device (for example, the server 200) connected via the communication network.
 次に、本実施形態の動作を説明する。図4は、本実施形態の動作の一例を示すフローチャートである。 Next, the operation of this embodiment will be described. FIG. 4 is a flowchart showing an example of the operation of this embodiment.
 処理手段決定部101は、対話処理をサーバ200または端末100のどちらで行うかを判定する(ステップS101a)。処理手段決定部101は、例えば、通信回線の接続/非接続、通信電波の強弱、端末100およびサーバ200のシステム全体の負荷状況に応じて対話処理を行う対象を判定してもよい。また、処理手段決定部101は、これらの条件を単数または複数組み合わせて、対話処理を行う対象を判定してもよい。 The processing means determination unit 101 determines whether the server 200 or the terminal 100 performs the interactive process (Step S101a). For example, the processing means determination unit 101 may determine a target to be interactively processed according to connection / disconnection of a communication line, the strength of communication radio waves, and the load status of the entire system of the terminal 100 and the server 200. Further, the processing means determination unit 101 may determine a target for performing the interactive processing by combining one or more of these conditions.
 エージェント設定部102は、処理手段決定部101が判定した結果に応じて、使用すべきエージェントを決定する(ステップS103)。使用されるエージェントの姿態や動作は、予め定義されており、端末処理用のエージェントと、サーバ処理用のエージェントが別のエージェントとして保存されている。 The agent setting unit 102 determines an agent to be used in accordance with the result determined by the processing means determination unit 101 (step S103). The form and operation of the agent used are defined in advance, and the agent for terminal processing and the agent for server processing are stored as separate agents.
 エージェントとしては、利用者にとって現在の処理が端末100とサーバ200のどちらで行われているかが明確に分かるようなキャラクタが用いられる。例えば、サーバ処理の場合、成人のキャラクタをエージェントとしてもよいし、端末処理の場合、子供のキャラクタをエージェントとしてもよい。 As the agent, a character is used that clearly indicates to the user whether the current process is being performed by the terminal 100 or the server 200. For example, in the case of server processing, an adult character may be an agent, and in the case of terminal processing, a child character may be an agent.
 音声入力部103は、マイクロフォン等の音響入力機器を用いて音声信号を受信し、処理手段決定部101が判定した結果に応じて、サーバ200の対話処理部204または端末100の対話処理部104に音声信号を入力する(ステップS102a)。 The voice input unit 103 receives a voice signal using an acoustic input device such as a microphone, and sends it to the dialogue processing unit 204 of the server 200 or the dialogue processing unit 104 of the terminal 100 according to the result determined by the processing means determination unit 101. An audio signal is input (step S102a).
 具体的には、サーバ200で対話処理を行う場合(ステップS302における「サーバ」)、音声入力部103は、インターネットに代表されるネットワークを介して音声信号をサーバ200に送信する。 Specifically, when interactive processing is performed by the server 200 (“server” in step S302), the voice input unit 103 transmits a voice signal to the server 200 via a network represented by the Internet.
 一方、端末100で対話処理を行う場合(ステップS302における「端末」)、対話処理部(端末)104は、入力された音声信号に対する対話応答に関する情報(応答情報)を生成する処理(応答情報生成処理)を行う(ステップS104)。 On the other hand, when the dialog processing is performed on the terminal 100 (“terminal” in step S302), the dialog processing unit (terminal) 104 generates information (response information) related to the dialog response to the input voice signal (response information generation). Process) (step S104).
 以下、応答情報生成処理の具体例を、図5を用いて説明する。図5は、応答情報生成処理を行う構成例を示すブロック図である。図5に示す例では、応答情報生成処理は、音声認識部1041、応答生成部1042および音声合成部1043により実現される。音声認識部1041と、応答生成部1042と、音声合成部1043とは、例えば、対話処理部104に含まれる。 Hereinafter, a specific example of the response information generation process will be described with reference to FIG. FIG. 5 is a block diagram illustrating a configuration example for performing response information generation processing. In the example illustrated in FIG. 5, the response information generation process is realized by a voice recognition unit 1041, a response generation unit 1042, and a voice synthesis unit 1043. The speech recognition unit 1041, the response generation unit 1042, and the speech synthesis unit 1043 are included in the dialogue processing unit 104, for example.
 音声認識部1041は、音声入力部103で入力された音声信号を音声認識処理する。具体的には、音声認識部1041は、例えば、音声認識用データベース1044(以下、音声認識用DB1044と記す。)を利用し、入力音声を言語的および音響的に分析し、音声認識処理を行う。音声認識方法としては、例えば、HMM(Hidden Markov Model )のような統計的確率モデルを用いた方法が考えられる。 The voice recognition unit 1041 performs voice recognition processing on the voice signal input by the voice input unit 103. Specifically, the voice recognition unit 1041 uses, for example, a voice recognition database 1044 (hereinafter referred to as a voice recognition DB 1044), analyzes the input voice linguistically and acoustically, and performs voice recognition processing. . As a speech recognition method, for example, a method using a statistical probability model such as HMM (Hidden Markov Model) can be considered.
 応答生成部1042は、音声認識部1041による音声認識処理の結果に基づいて、応答情報を生成する。応答情報には、例えば、エージェントの動作や姿態、表情等の表示情報、エージェントが発声すべき音声に関するテキスト情報、画面に表示されるテキスト情報、機器やソフトウェア等の操作情報等が含まれる。 The response generation unit 1042 generates response information based on the result of the voice recognition processing by the voice recognition unit 1041. The response information includes, for example, display information such as the agent's action, appearance, and facial expression, text information related to the voice to be uttered by the agent, text information displayed on the screen, operation information of devices and software, and the like.
 音声合成部1043は、例えば、音声合成用データベース1045(以下、音声合成用DB1045と記す。)を利用し、応答生成部1042が生成した応答情報のうち、エージェントが発声すべきテキスト情報に基づいて合成音声を生成する。テキスト情報には、感情や意図といった非言語的な情報が含まれていてもよい。この場合、音声合成部1043は、感情や意図を含めて合成音声を生成してもよい。音声合成部1043は、生成された合成音声を応答情報に含めてもよく、別々の情報として扱ってもよい。 The voice synthesis unit 1043 uses, for example, a voice synthesis database 1045 (hereinafter referred to as a voice synthesis DB 1045), and is based on text information to be uttered by the agent among the response information generated by the response generation unit 1042. Generate synthesized speech. The text information may include non-linguistic information such as emotions and intentions. In this case, the speech synthesizer 1043 may generate synthesized speech including emotions and intentions. The speech synthesizer 1043 may include the generated synthesized speech in the response information or may handle it as separate information.
 対話処理部(サーバ)204は、ステップS302における切替判定でサーバ処理が選択された場合、ステップS102aで入力された音声信号に対する応答情報を生成する処理(応答情報生成処理)を行う(ステップS204)。対話処理部(サーバ)204は、インターネットに代表されるネットワークを介して端末100に応答情報を送信する。 When the server processing is selected in the switching determination in step S302, the dialogue processing unit (server) 204 performs processing (response information generation processing) for generating response information for the audio signal input in step S102a (step S204). . The dialogue processing unit (server) 204 transmits response information to the terminal 100 via a network represented by the Internet.
 対話処理部(サーバ)204が行う応答情報生成処理は、対話処理部(端末)204と同一であってもよく、異なっていてもよい。具体的には、対話処理部(サーバ)204が行う音声認識、応答生成および音声合成の各処理については、方式が異なっていてもよい。サーバ200は、例えば、処理能力の都合で、端末100に搭載できないような大規模なデータベースを、音声認識および音声合成処理に用いてもよい。 The response information generation process performed by the dialog processing unit (server) 204 may be the same as or different from that of the dialog processing unit (terminal) 204. Specifically, the methods for speech recognition, response generation, and speech synthesis performed by the dialogue processing unit (server) 204 may be different. The server 200 may use, for example, a large-scale database that cannot be installed in the terminal 100 for speech recognition and speech synthesis processing due to processing power.
 エージェント制御部105は、設定されたエージェントを介して、合成音声を利用者に通知する。具体的には、エージェント制御部105は、対話処理部(端末)104または対話処理部(サーバ)204が生成した応答情報に基づいて、ディスプレイ等の表示機器や、スピーカ等の音響出力機器を用いて、エージェント設定部102が選択したエージェントの画像表示および音声出力を行う(ステップS105a)。 The agent control unit 105 notifies the user of the synthesized voice via the set agent. Specifically, the agent control unit 105 uses a display device such as a display or a sound output device such as a speaker based on the response information generated by the dialogue processing unit (terminal) 104 or the dialogue processing unit (server) 204. Then, the agent setting unit 102 performs image display and audio output of the selected agent (step S105a).
 また、端末100が備える装置およびソフトウェアの制御情報が応答情報に含まれる場合、エージェント制御部105は、これらの制御も同時に行う。 If the response information includes device and software control information included in the terminal 100, the agent control unit 105 also performs these controls simultaneously.
 以上のように、本実施形態によれば、端末100とサーバ200のどちらで音声対話処理を行うかによってエージェントの姿態や動作が変更される。よって、利用者にとって親しみやすく、さらに現在の処理が一目で分かるエージェントを提供できる。 As described above, according to the present embodiment, the appearance and operation of the agent are changed depending on whether the terminal 100 or the server 200 performs the voice conversation processing. Therefore, it is possible to provide an agent that is familiar to the user and that can understand the current processing at a glance.
実施形態3.
 図6は、本発明によるエージェント制御システムの第3の実施形態の構成例を示すブロック図である。なお、第1の実施形態と同様の構成については、図1と同一の符号を付し、説明を省略する。
Embodiment 3. FIG.
FIG. 6 is a block diagram showing a configuration example of the third embodiment of the agent control system according to the present invention. In addition, about the structure similar to 1st Embodiment, the code | symbol same as FIG. 1 is attached | subjected and description is abbreviate | omitted.
 図6を参照すると、本実施形態のエージェント制御システムは、端末100とサーバ200とを備えている。すなわち、図6に示す通り、本実施形態のエージェント制御システムの構成は、第2の実施形態と同一である。ただし、エージェント設定部102、対話処理部(端末)104および対話処理部(サーバ)204の動作が異なる。 Referring to FIG. 6, the agent control system of this embodiment includes a terminal 100 and a server 200. That is, as shown in FIG. 6, the configuration of the agent control system of this embodiment is the same as that of the second embodiment. However, the operations of the agent setting unit 102, the dialogue processing unit (terminal) 104, and the dialogue processing unit (server) 204 are different.
 エージェント設定部102は、処理手段決定部101が判定した結果に応じて、使用すべきエージェントを決定する。端末100で対話処理を行う場合、エージェント設定部102は、対話処理部(端末)104にエージェント設定情報を送信する。一方、サーバ200で対話処理を行う場合、エージェント設定部102は、インターネットに代表されるネットワークを介して、エージェント設定情報を対話処理部(サーバ)204に送信する。 The agent setting unit 102 determines an agent to be used according to the result determined by the processing means determination unit 101. When the dialog processing is performed at the terminal 100, the agent setting unit 102 transmits agent setting information to the dialog processing unit (terminal) 104. On the other hand, when the server 200 performs dialogue processing, the agent setting unit 102 transmits agent setting information to the dialogue processing unit (server) 204 via a network represented by the Internet.
 エージェント設定情報は、エージェントが有する属性に応じて設定される情報である。例えば、エージェント設定情報には、キャラクタの性格、応答情報として作成する言語や、その口調などが指定される。ただし、エージェント設定情報の内容は、上記内容に限定されない。 Agent setting information is information set according to the attributes of the agent. For example, the character of the character, the language created as response information, its tone, etc. are specified in the agent setting information. However, the contents of the agent setting information are not limited to the above contents.
 対話処理部(端末)104または対話処理部(サーバ)204は、第2の実施形態で説明した方法に加えて、エージェント設定情報も利用する。具体的には、対話処理部(端末)104および対話処理部(サーバ)204は、それぞれのエージェント固有の動作や姿態等に応じて、生成する応答情報を変更する。 The dialogue processing unit (terminal) 104 or the dialogue processing unit (server) 204 uses agent setting information in addition to the method described in the second embodiment. Specifically, the dialogue processing unit (terminal) 104 and the dialogue processing unit (server) 204 change the response information to be generated according to the operation and appearance specific to each agent.
 以上のように、本実施形態によれば、それぞれのエージェント固有の制御が可能になる。よって、第2の実施形態の効果に加え、エージェントごとの差異をより明確にすることができる。よって、利用者が現在の処理をさらに分かり易くなるという効果が得られる。 As described above, according to the present embodiment, control specific to each agent becomes possible. Therefore, in addition to the effect of the second embodiment, the difference for each agent can be made clearer. Therefore, an effect that the user can more easily understand the current process can be obtained.
 以下、具体的な実施例により本発明を説明するが、本発明の範囲は以下に説明する内容に限定されない。 Hereinafter, the present invention will be described with reference to specific examples, but the scope of the present invention is not limited to the contents described below.
 図7は、本発明によるエージェント制御システムの第1の実施例の構成例を示すブロック図である。本実施例のエージェント制御システムは、端末100およびサーバ200を備えている。 FIG. 7 is a block diagram showing a configuration example of the first embodiment of the agent control system according to the present invention. The agent control system according to this embodiment includes a terminal 100 and a server 200.
 具体的には、端末100は、無線LAN(Local Area Network)や3G(3rd Generation)回線などの携帯電話向けネットワークを利用する無線ネットワーク接続機能を備えたモバイル端末により実現される。モバイル端末の具体例として、例えば、スマートフォンなどの携帯電話機や、タブレット端末などを想定する。 Specifically, the terminal 100 is realized by a mobile terminal having a wireless network connection function using a network for mobile phones such as a wireless LAN (Local Area Network) or a 3G (3rd Generation) line. As a specific example of the mobile terminal, for example, a mobile phone such as a smartphone or a tablet terminal is assumed.
 サーバ200は、電話回線等を通じてインターネットに接続され、インターネットサービスプロバイダ等を介して端末100に接続されるものとする。また、端末100は、電話機が有する通話機能や、音楽再生機能、テレビジョン視聴機能および録画機能を具備しているものとする。 The server 200 is connected to the Internet through a telephone line or the like, and is connected to the terminal 100 through an Internet service provider or the like. The terminal 100 is assumed to have a telephone call function, a music playback function, a television viewing function, and a recording function that the telephone has.
 端末100とサーバ200とは、第3の実施形態とほぼ同じ構成を備えている。端末100は、音声認識部1041、音声認識用データベース1044、音声合成部1043および音声合成用データベース1045を備えている。なお、音声認識部1041、音声認識用データベース1044、音声合成部1043および音声合成用データベース1045は、端末100の処理能力および記憶容量の制限から、計算規模やデータベースの規模が小さく、または、低性能なものになっている。 The terminal 100 and the server 200 have substantially the same configuration as that of the third embodiment. The terminal 100 includes a speech recognition unit 1041, a speech recognition database 1044, a speech synthesis unit 1043, and a speech synthesis database 1045. Note that the speech recognition unit 1041, the speech recognition database 1044, the speech synthesis unit 1043, and the speech synthesis database 1045 have a small calculation scale or database scale or low performance due to limitations on processing capacity and storage capacity of the terminal 100. It has become a thing.
 これに対し、サーバ200は、音声認識部2041、音声認識用データベース2044、音声合成部2043および音声合成用データベース2045を備えている。サーバ200の処理能力および記憶容量の制限は、端末100に比べて大幅に緩和される。そのため、音声認識部2041、音声認識用データベース2044、音声合成部2043および音声合成用データベース2045は、端末100に比べて、計算規模やデータベースの規模が大きく、または、高性能なものになっている。 On the other hand, the server 200 includes a speech recognition unit 2041, a speech recognition database 2044, a speech synthesis unit 2043, and a speech synthesis database 2045. The processing capacity and storage capacity limitations of the server 200 are greatly relaxed compared to the terminal 100. Therefore, the speech recognition unit 2041, the speech recognition database 2044, the speech synthesis unit 2043, and the speech synthesis database 2045 have a larger calculation scale or database size or higher performance than the terminal 100. .
 通常、端末100とサーバ200とは通信回線で接続されている。本実施例では、音声対話の応答情報生成に関する処理は、サーバ200で行われるものとする。はじめに、この場合の処理の流れを、以下説明する。 Usually, the terminal 100 and the server 200 are connected by a communication line. In this embodiment, it is assumed that the server 200 performs processing related to generation of response information for voice conversation. First, the flow of processing in this case will be described below.
 この場合、通信回線が接続されている状態にあるため、通信状況判定部106は、回線が「接続されている」という情報を処理手段決定部101に送信する。処理手段決定部101は、「接続されている場合は、サーバによる処理を、接続されていない場合は、端末による処理を行う」という規則を記憶している。したがって、ここでは、処理手段決定部101は、サーバで処理を行うと決定する。「サーバで処理を行う」という情報は、エージェント設定部102に送信され、使用されるエージェントが決定される。 In this case, since the communication line is in a connected state, the communication status determination unit 106 transmits information that the line is “connected” to the processing means determination unit 101. The processing means determination unit 101 stores a rule that “if connected, the process by the server is performed, and if not connected, the process by the terminal is performed”. Therefore, here, the processing means determination unit 101 determines to perform processing on the server. Information that “processing is performed by the server” is transmitted to the agent setting unit 102, and an agent to be used is determined.
 エージェントとしては、サーバ200と端末100のどちらで処理が行われているのかが明確に判別できるキャラクタを設定することが望ましい。ここでは、エージェントとして、カンガルーの親子を想定する。サーバ200で処理が行われる場合は、カンガルーの親(子供は袋に入っている)がエージェントとして対話を行うものとし、端末100で処理が行われる場合は、カンガルーの子供(親は表示されない)がエージェントして対話を行うものとする。 As the agent, it is desirable to set a character that can clearly determine whether the server 200 or the terminal 100 is processing. Here, kangaroo parents and children are assumed as agents. When processing is performed by the server 200, the parent of the kangaroo (the child is in the bag) shall interact as an agent, and when processing is performed by the terminal 100, the child of the kangaroo (the parent is not displayed). Assume that the agent acts as a dialogue.
 このようなエージェントを設定すると、処理が高性能である(すなわち、サーバで処理が行われている)場合は、親エージェントが対応し、処理が低性能である(すなわち、端末で処理が行われている)場合は、子エージェントが対応することになる。よって、利用者は、直感的にどちらで処理が行われているかが明確に分かるようになる。 When such an agent is set, if the processing is high-performance (that is, processing is performed on the server), the parent agent is supported, and processing is low-performance (that is, processing is performed on the terminal). The child agent will respond. Therefore, the user can clearly understand which process is being performed intuitively.
 さらに、子エージェントを設定した場合、子エージェントは、たどたどしく対応するようにしてもよい。この場合、利用者があえて精度の高い結果を要求したり、困難なキーワードを入力したりすることを避けるようになるという効果も期待できる。 Furthermore, when a child agent is set, the child agent may respond steadily. In this case, it is also possible to expect an effect that the user avoids requesting a highly accurate result or inputting a difficult keyword.
 以降、カンガルーの親をエージェントAと記し、カンガルーの子供をエージェントBと記す。エージェントAおよびエージェントBの表示の変更は、それぞれの画像およびその動作を制御するパラメータを用意しておいて、画像とパラメータを差し替えることによって行われる。 Hereinafter, the parent of kangaroo will be referred to as Agent A, and the child of Kangaroo will be referred to as Agent B. The change of the display of agent A and agent B is performed by preparing each image and a parameter for controlling the operation and replacing the image and the parameter.
 したがって、ここでは、端末100が備えるモニタ110にエージェントAが表示されており、端末100は、対話の待機状態、つまり利用者の音声入力を待ち受ける状態にある。 Therefore, here, the agent A is displayed on the monitor 110 provided in the terminal 100, and the terminal 100 is in a waiting state for dialogue, that is, in a state waiting for a user's voice input.
 利用者は、端末100に表示されているエージェントAに対し、マイクロフォン108等の音響入力機器を用いて音声を入力する。音声入力部103は、音声信号を受信し、ネットワークを通じてサーバ200の音声認識部2041に音声信号を送信する。 The user inputs sound to the agent A displayed on the terminal 100 using an acoustic input device such as the microphone 108. The voice input unit 103 receives the voice signal and transmits the voice signal to the voice recognition unit 2041 of the server 200 through the network.
 例えば、「明日の山田太郎が出ているドラマを録画しておいて」という発話(発話U1とする)が利用者によりなされたものとする。その発話の音声信号は、音声入力部103を経て、サーバ200の音声認識部2041に送信され、音声認識処理が行われる。 For example, it is assumed that an utterance (referred to as utterance U1) is made by the user, “record the drama that Taro Yamada will appear tomorrow”. The voice signal of the utterance is transmitted to the voice recognition unit 2041 of the server 200 via the voice input unit 103, and voice recognition processing is performed.
 音声認識部2041は、音声認識用データベース2044に接続されており、端末100の音声認識部2041と比較して精度の高い音声認識処理が可能になっている。音声認識部2041は、発話U1を、「明日の山田太郎が出ているドラマを録画しておいて」というテキスト情報に変換し、応答生成部2042に送信する。 The speech recognition unit 2041 is connected to the speech recognition database 2044, and can perform speech recognition processing with higher accuracy than the speech recognition unit 2041 of the terminal 100. The voice recognition unit 2041 converts the utterance U1 into text information “Record a drama in which Tomorrow's Taro Yamada appears”, and transmits it to the response generation unit 2042.
 応答生成部2042は、音声認識結果のテキスト情報から、「明日」「山田太郎」「ドラマ」「録画」という4つのキーワードを抽出し、応答情報を生成する。ここでは、翌日の「山田太郎」という俳優が出演するドラマがあるか否かをサーバ200または端末100内に保存された番組表から検索し、21時から「春の風」というタイトルのドラマが検索によりヒットしたものとする。この場合、応答生成部2042は、例えば、「ドラマ『春の風』を21時から予約します。」というテキスト情報T1と、エージェントがテレビを操作している画像情報P1情報を生成する。 The response generation unit 2042 extracts four keywords “Tomorrow”, “Taro Yamada”, “Drama”, and “Recording” from the text information of the speech recognition result, and generates response information. Here, whether there is a drama in which the actor “Taro Yamada” appears on the next day is searched from the program table stored in the server 200 or the terminal 100, and the drama titled “Spring Wind” is searched from 21:00. It is assumed that it was hit by. In this case, the response generation unit 2042 generates, for example, text information T1 “Drama“ Spring Wind ”is reserved from 21:00” and image information P1 information that the agent is operating the television.
 応答生成部2042は、テキスト情報T1を、音声合成部2043に送信すると、音声合成部2043は、テキスト情報T1に基づいて合成音声V1を生成する。音声合成部2043は、音声合成用データベース2045に接続されており、端末100上の音声合成部1043と比較して品質の高い音声合成処理が可能になっている。 When the response generation unit 2042 transmits the text information T1 to the speech synthesis unit 2043, the speech synthesis unit 2043 generates a synthesized speech V1 based on the text information T1. The voice synthesizer 2043 is connected to the voice synthesizer database 2045, and can perform voice synthesizer with higher quality than the voice synthesizer 1043 on the terminal 100.
 音声合成部2043は、合成音声V1および画像情報P1を、ネットワークを介して端末100のエージェント制御部105に送信すると、端末100側でエージェントが表示される。結果的に、端末100では、モニタ110等の表示装置を用いてエージェントAがテレビを操作する様子を映し出しつつ、スピーカ109等の音響出力装置を用いて「ドラマ『春の風』を21時から予約します」という発声を行う、という応答がなされることになる。 When the voice synthesis unit 2043 transmits the synthesized voice V1 and the image information P1 to the agent control unit 105 of the terminal 100 via the network, the agent is displayed on the terminal 100 side. As a result, the terminal 100 uses the display device such as the monitor 110 to show the agent A operating the TV, and uses the sound output device such as the speaker 109 to reserve “Drama“ Spring Wind ”from 21:00. A response is made to say "I will do it".
 続いて、端末100とサーバ200との通信回線通信回線が接続されておらず、端末100とサーバ200が通信できない状況を想定する。この場合、通信状況判定部106は、回線が「接続されていない」という情報を処理手段決定部101に送信する。処理手段決定部101は、端末で処理を行うと決定し、エージェント設定部102は、使用されるエージェントをエージェントBに設定する。 Subsequently, a situation is assumed in which the communication line between the terminal 100 and the server 200 is not connected and the terminal 100 and the server 200 cannot communicate. In this case, the communication status determination unit 106 transmits information that the line is “not connected” to the processing means determination unit 101. The processing means determination unit 101 determines that processing is to be performed at the terminal, and the agent setting unit 102 sets the agent to be used in the agent B.
 端末100上で音声対話処理を行う場合の処理を説明する。この場合、端末100は、画面にエージェントBを表示した状態で待機している。 Processing when voice dialogue processing is performed on the terminal 100 will be described. In this case, the terminal 100 stands by with the agent B displayed on the screen.
 ここで、先ほどと同様に、発話U1(「明日の山田太郎が出ているドラマを録画しておいて」)が利用者によりなされたものとする。この場合も、サーバ処理の場合と同様に、発話U1の音声信号は、音声入力部103を経て、端末100の音声認識部1041に送信される。 Here, it is assumed that the utterance U1 (“Record the drama of Tomorrow Yamada tomorrow”) was made by the user as before. Also in this case, as in the case of the server processing, the voice signal of the utterance U1 is transmitted to the voice recognition unit 1041 of the terminal 100 via the voice input unit 103.
 音声認識部1041は、音声認識用データベース1044に接続されているが、前述の通り、音声認識用データベース1044は、サーバ200の音声認識用データベース2044に比べて小規模である。 The speech recognition unit 1041 is connected to the speech recognition database 1044. As described above, the speech recognition database 1044 is smaller than the speech recognition database 2044 of the server 200.
 この場合、サーバ処理に比べて音声認識処理の精度は低くなってしまい、人名などの固有名詞に対する音声認識率は低下する恐れがある。また、音声合成用データベース1045は、音声合成部1043に接続されているが、これも同様に、サーバ200の音声合成用データベース2045に比べて小規模である。この場合、サーバ処理に比べて合成音声の品質が劣化する。 In this case, the accuracy of the speech recognition process is lower than that of the server process, and the speech recognition rate for proper nouns such as personal names may be reduced. The speech synthesis database 1045 is connected to the speech synthesis unit 1043, which is also smaller than the speech synthesis database 2045 of the server 200. In this case, the quality of the synthesized speech is deteriorated as compared with the server processing.
 そこで、エージェントBを表示することで、高度な処理ができない状態であることを明示する。また、高度な処理を要求しない発話をするように利用者に促すような応答情報を生成することで、端末100で高度な処理を無理にさせないように利用者を誘導する。具体的には、上記の録画の例であれば、発話U1を受け付けた後、「時刻とチャンネルを指定してください」のように、自由発話を制限する方法等が考えられる。 Therefore, by displaying Agent B, it is clearly indicated that advanced processing is not possible. Also, by generating response information that prompts the user to utter without requiring advanced processing, the user is guided so as not to force advanced processing at the terminal 100. Specifically, in the case of the above-described recording, after receiving the utterance U1, a method of limiting free utterances such as “Please specify time and channel” can be considered.
 回線非接続状態から、回線接続状態に移行した場合は、エージェントBに代わりエージェントAを端末100のモニタ110に表示するようにすればよい。このようにすることで、利用者は、サーバ200による高度な処理を再び利用できるようになったことを把握できる。 When the line connection state is changed to the line connection state, the agent A may be displayed on the monitor 110 of the terminal 100 instead of the agent B. By doing so, the user can grasp that the advanced processing by the server 200 can be used again.
 本実施例では、音声入力部103が入力された音声信号をそのまま音声認識部1041または音声認識部2041に送信する。なお、音声入力部103が音響特徴量を分析する手段を備えていてもよい。そして、音声入力部103は、音声信号の音響特徴量のみを音声認識部1041または音声認識部2041に送信してもよい。この場合、通信量を低減できる効果が得られる可能性がある。 In this embodiment, the voice signal input by the voice input unit 103 is transmitted to the voice recognition unit 1041 or the voice recognition unit 2041 as it is. Note that the voice input unit 103 may include means for analyzing the acoustic feature amount. Then, the voice input unit 103 may transmit only the acoustic feature amount of the voice signal to the voice recognition unit 1041 or the voice recognition unit 2041. In this case, there is a possibility that an effect of reducing the communication amount can be obtained.
 また、音声入力部103は、サーバ200の音声認識部2041に送信する場合のみ、音響特徴量のみを送信し、端末100の音声認識部1041に送信する場合は、音声信号をそのまま送信してもよい。 In addition, the voice input unit 103 transmits only the acoustic feature amount only when transmitting to the voice recognition unit 2041 of the server 200, and when transmitting to the voice recognition unit 1041 of the terminal 100, the voice signal may be transmitted as it is. Good.
 本実施例では、音声認識と合成処理の双方とも端末100またはサーバ200で行うようにした。他にも、回線の接続/非接続に関わらず端末100が音声認識処理を行い、回線接続時に、端末100がその結果をサーバ200に送信し、サーバ200が音声合成処理を実行するようにしてもよい。もちろん、逆に、音声合成処理のみを端末100が実行するようにしてもよい。このようにすることで、処理速度の向上を図ることができる。 In this embodiment, both voice recognition and synthesis processing are performed by the terminal 100 or the server 200. In addition, the terminal 100 performs voice recognition processing regardless of connection / disconnection of the line, and when the line is connected, the terminal 100 transmits the result to the server 200, and the server 200 executes the voice synthesis process. Also good. Of course, conversely, the terminal 100 may execute only the speech synthesis process. By doing so, the processing speed can be improved.
 本実施例では、サーバ処理または端末処理の別を利用者に示すために、親子のキャラクタエージェントが用いられた。また、エージェントを変更する方法として、親子2種類の画像およびその動作を制御するパラメータを用意しておいて、画像とパラメータを差し替える方法が用いられた。他にも、1つの画像を用意しておき、体型を変更するパラメータを制御することにより、2種類のキャラクタエージェントを表現する方法が考えられる。 In this embodiment, a parent / child character agent is used to indicate to the user whether the server process or the terminal process is different. In addition, as a method for changing the agent, a method of preparing two types of images of parent and child and parameters for controlling the operation thereof and replacing the images with the parameters was used. In addition, a method of expressing two types of character agents by preparing one image and controlling parameters for changing the body shape is conceivable.
 また、本実施例では、音声合成用データベースを端末100とサーバ200で2種類用意したが、端末100のみ音声合成部1043を備えるようにしてもよい。この場合、音声合成用のパラメータ(例えば、声の高さ、大きさ、話速等)を変更することで、キャラクタの変更を表現してもよい。 In this embodiment, two types of databases for speech synthesis are prepared for the terminal 100 and the server 200, but only the terminal 100 may include the speech synthesis unit 1043. In this case, the change of the character may be expressed by changing parameters for speech synthesis (eg, voice pitch, loudness, speech speed, etc.).
 続いて、本発明の第2の実施例を説明する。本実施例のエージェント制御システムは、第1の実施例と同一の構成を備えている。ただし、本実施例では、通信状況判定部106、処理手段決定部101およびエージェント設定部102の動作が第1の実施例と異なる。本実施例では、通信の混雑状況に応じて、エージェントのキャラクタを変更したり、エージェントの姿態や動作を変更したりする動作を説明する。 Subsequently, a second embodiment of the present invention will be described. The agent control system of this embodiment has the same configuration as that of the first embodiment. However, in this embodiment, the operations of the communication status determination unit 106, the processing means determination unit 101, and the agent setting unit 102 are different from those in the first embodiment. In the present embodiment, an operation for changing an agent character or changing an agent's appearance and operation according to a communication congestion state will be described.
 通信状況判定部106は、第1の実施例のように通信回線の接続/非接続の状況を判定する。さらに、本実施例の通信状況判定部106は、接続時の通信回線の状況も判定する。通信回線の状況を示す指標としては、無線端末における電波強度や通信回線の混雑度合等が考えられる。 The communication status determination unit 106 determines the communication line connection / disconnection status as in the first embodiment. Furthermore, the communication status determination unit 106 of this embodiment also determines the status of the communication line at the time of connection. As an index indicating the state of the communication line, radio wave intensity at the wireless terminal, the degree of congestion of the communication line, and the like can be considered.
 通信状況判定部106は、通信状況に関する情報を処理手段決定部101に送信する。ここでは、電波強度が50%(つまり、最も電波が強い状態の半分程度の通信速度しか出ない状況)であるとし、通信状況判定部106は、通信状況に関する情報として、「電波強度:50%」という情報を送信するものとする。 The communication status determination unit 106 transmits information on the communication status to the processing means determination unit 101. Here, it is assumed that the radio wave intensity is 50% (that is, a situation in which the communication speed is only about half that of the strongest radio wave), and the communication status determining unit 106 uses “radio wave intensity: 50%” as information on the communication status. ”Is transmitted.
 処理手段決定部101は、「電波強度:50%」という情報を元に、対話処理部を決定する。ここでは、サーバでの高性能な処理が行えるものの、電波強度が弱く、対話の応答が返ってくるまでにかかる時間が長いことを利用者に想起させるような動作や姿態をエージェントによって表現する。 The processing means determination unit 101 determines a dialogue processing unit based on the information “radio wave intensity: 50%”. Here, the agent expresses an action and a state that reminds the user that although the server can perform high-performance processing, but the radio wave intensity is weak and it takes a long time to return the response of the dialogue.
 具体的には、端末100は、第1の実施例で説明した親カンガルーのエージェントAを小さく表示する等して、キャラクタが遠ざかったように演出する。また、電波強度が強くなった際には、再びキャラクタエージェントを大きく表示することによって、応答速度が回復したことを利用者が認識できるようにする。 Specifically, the terminal 100 produces an effect as if the character has moved away, such as by displaying the agent A of the parent kangaroo described in the first embodiment in a small size. In addition, when the radio wave intensity becomes strong, the character agent is displayed again in a large size so that the user can recognize that the response speed has been recovered.
 また、通信回線が混雑している場合は、カンガルーのとは別の動物等のキャラクタを多数画面に表示することで、回線が混雑していることを利用者に想起させるといった方法が考えられる。エージェント設定部102は、接続される通信回線の状況を利用者に想起させる特徴を有するエージェントを設定してもよい。 Also, when the communication line is congested, a method may be considered in which the user is reminded that the line is congested by displaying many characters such as animals other than kangaroos on the screen. The agent setting unit 102 may set an agent having a feature that reminds the user of the status of the connected communication line.
 本実施例では、電波強度が弱いことを利用者に想起させるような動作や姿態をエージェントよって表現した。他にも、電波強度が一定の閾値を下回った、または混雑度合が一定の閾値を上回った場合に、端末100による処理からサーバ200による処理に切り替える。そのとき、第1の実施例で示したように、端末処理が実行中であることを利用者に想起させるキャラクタをエージェントとして用いてもよい。 In this embodiment, the agent expresses actions and appearances that remind the user that the signal strength is weak. In addition, when the radio field intensity falls below a certain threshold value or the degree of congestion exceeds a certain threshold value, the processing by the terminal 100 is switched to the processing by the server 200. At that time, as shown in the first embodiment, a character that reminds the user that the terminal process is being executed may be used as the agent.
 続いて、本発明の第3の実施例を説明する。図8は、本発明によるエージェント制御システムの第3の実施例の構成例を示すブロック図である。本実施例のエージェント制御システムは、第1の実施例の構成に加え、サーバ200がサーバ負荷状況判定部107を備えている。本実施例では、サーバ負荷状況に応じて、エージェントのキャラクタを変更したり、エージェントの姿態や動作を変更したりする動作を説明する。 Subsequently, a third embodiment of the present invention will be described. FIG. 8 is a block diagram showing a configuration example of the third embodiment of the agent control system according to the present invention. In the agent control system of the present embodiment, the server 200 includes a server load status determination unit 107 in addition to the configuration of the first embodiment. In the present embodiment, an operation for changing an agent character or changing an agent's appearance and operation according to a server load situation will be described.
 サーバ負荷状況判定部107は、サーバ200の負荷状況を判定し、負荷状況を示すサーバ負荷情報を処理手段決定部101に送信する。ここでは、多数の端末からの対話処理要求が同時に送信され、サーバ負荷状況判定部107が、「サーバ負荷率:80%」という情報を送信するものとする。 The server load status determination unit 107 determines the load status of the server 200, and transmits server load information indicating the load status to the processing means determination unit 101. Here, it is assumed that interactive processing requests from a large number of terminals are transmitted at the same time, and the server load status determination unit 107 transmits information “server load factor: 80%”.
 処理手段決定部101は、「サーバ負荷率:80%」という情報を元に、対話処理部を決定する。ここでは、サーバ負荷が高く、サーバでの高性能な処理が行えるものの、対話の応答が返ってくるまでにかかる時間が長いことを利用者に想起させるような動作や姿態をエージェントによって表現する。 The processing means determination unit 101 determines the dialogue processing unit based on the information “server load factor: 80%”. Here, the agent expresses an action and a state that reminds the user that the server load is high and the server can perform high-performance processing, but takes a long time to return a response to the dialogue.
 具体的には、端末100は、第1の実施例で説明したエージェントAとは別の色で塗り分けられたカンガルーのキャラクタを多数表示して、混雑していることを演出する。また、サーバ負荷率が低下した際、端末100は、再びエージェントAを単独で表示する。エージェント設定部102は、サーバ200の負荷状況を利用者に想起させる特徴を有するエージェントを設定することで、利用者は、応答速度が回復したことを認識できる。 Specifically, the terminal 100 displays a large number of kangaroo characters that are painted differently from the color of the agent A described in the first embodiment, thereby producing a congestion. Further, when the server load factor decreases, the terminal 100 again displays the agent A alone. The agent setting unit 102 sets an agent having a feature that reminds the user of the load status of the server 200, so that the user can recognize that the response speed has been recovered.
 次に、本発明の概要を説明する。図9は、本発明によるエージェント制御システムの概要を示すブロック図である。本発明によるエージェント制御システムは、利用者からの入力情報(例えば、テキスト、音声、音声合成結果など)に対する応答情報を生成することで利用者との対話処理を行う複数の対話処理手段81(例えば、対話処理部104A,対話処理部104B)と、複数の対話処理手段81から一の対話処理手段を決定する処理手段決定手段82(例えば、処理手段決定部101)と、決定された一の対話処理手段に応じたエージェントを設定するエージェント設定手段83(例えば、エージェント設定部102)と、設定されたエージェントを介して、応答情報を利用者に通知するエージェント制御手段84(例えば、エージェント制御部105)とを備えている。 Next, the outline of the present invention will be described. FIG. 9 is a block diagram showing an outline of the agent control system according to the present invention. The agent control system according to the present invention includes a plurality of dialogue processing means 81 (for example, a dialogue process with a user by generating response information for input information (for example, text, speech, speech synthesis result, etc.) from the user. , Dialog processing unit 104A, dialog processing unit 104B), processing unit determining unit 82 (for example, processing unit determining unit 101) for determining one dialog processing unit from a plurality of dialog processing units 81, and one determined dialog Agent setting means 83 (for example, agent setting section 102) for setting an agent according to the processing means, and agent control means 84 (for example, agent control section 105) for notifying the user of response information via the set agent. ).
 複数の対話処理手段81は、他の対話処理手段と対話処理性能の異なる少なくとも1つ以上の対話処理手段を含む。 The plurality of dialogue processing means 81 includes at least one dialogue processing means having different dialogue processing performance from other dialogue processing means.
 処理手段決定手段82は、対話処理が行われている状況(例えば、システム負荷、ネットワーク負荷など)に応じて、複数の対話処理手段から一の対話処理手段を決定する。 The processing means determining means 82 determines one dialog processing means from a plurality of dialog processing means according to the situation (for example, system load, network load, etc.) in which the dialog processing is being performed.
 そのような構成により、利用者にとって親しみやすい対話処理を提供できるとともに、現在の処理状況を利用者に一目で認識させることができる。 With such a configuration, it is possible to provide a user-friendly dialogue process and make the user recognize the current processing status at a glance.
 また、エージェント制御システムは、音声信号を入力する音声入力手段(例えば、音声入力部103)を備えていてもよい。また、対話処理手段81は、音声入力手段で入力された音声信号を音声認識処理する音声認識手段(例えば、音声認識部1041)と、音声認識処理の結果に基づいて、エージェントが発声すべきテキスト情報を含む応答情報を生成する応答生成手段(例えば、応答生成部1042)と、応答情報に含まれるテキスト情報に基づいて合成音声を生成する音声合成手段(例えば、音声合成部1043)とを含んでいてもよい。そして、エージェント制御手段84は、設定されたエージェントを介して、合成音声を利用者に通知してもよい。そのような構成により、実際の対話に近い状況を作ることができる。 Further, the agent control system may include voice input means (for example, voice input unit 103) for inputting a voice signal. In addition, the dialogue processing unit 81 includes a voice recognition unit (for example, a voice recognition unit 1041) that performs voice recognition processing on the voice signal input by the voice input unit, and text to be uttered by the agent based on the result of the voice recognition processing. Response generation means (for example, response generation section 1042) for generating response information including information, and speech synthesis means (for example, speech synthesis section 1043) for generating synthesized speech based on text information included in the response information. You may go out. Then, the agent control means 84 may notify the user of the synthesized voice via the set agent. With such a configuration, a situation close to an actual dialogue can be created.
 また、複数の対話処理手段81のうち、少なくとも一つの対話処理手段は、通信ネットワーク網を介して接続される他の装置(例えば、サーバ200)に備えられていてもよい。そのような構成により、処理能力および記憶容量の制限が緩和された環境で対話処理を実現できる。 Moreover, at least one of the plurality of dialogue processing means 81 may be provided in another device (for example, the server 200) connected via the communication network. With such a configuration, interactive processing can be realized in an environment where restrictions on processing capacity and storage capacity are relaxed.
 また、エージェント設定手段83は、他の装置の負荷状況を利用者に想起させる特徴を有するエージェントを設定してもよい。そのような構成により、現在の処理状況を利用者により明確に認識させることができる。 Also, the agent setting means 83 may set an agent having a feature that reminds the user of the load status of other devices. With such a configuration, the current processing status can be clearly recognized by the user.
 また、複数の対話処理手段81は、特定の利用形態(例えば、利用する形態やシーン、または領域など)において他の対話処理手段と対話処理性能の異なる少なくとも1つ以上の対話処理手段を含んでいてもよい。 The plurality of dialogue processing means 81 include at least one or more dialogue processing means having different dialogue processing performance from other dialogue processing means in a specific usage pattern (for example, a usage pattern, a scene, or an area). May be.
 また、エージェント設定手段83は、決定された一の対話処理手段の対話処理性能に応じた年齢を利用者に想起させる特徴を有する擬人化されたエージェントを設定してもよい。そのような構成により、例えば、低性能の処理が行われる場合、利用者があえて精度の高い結果を要求したり、困難なキーワードを入力したりすることを避ける効果が期待できる。 Further, the agent setting means 83 may set an anthropomorphic agent having a feature that reminds the user of the age according to the dialogue processing performance of the decided one dialogue processing means. With such a configuration, for example, when low-performance processing is performed, it can be expected to prevent the user from requesting a highly accurate result or inputting a difficult keyword.
 また、エージェント設定手段83は、接続される通信回線の状況を利用者に想起させる特徴を有するエージェントを設定してもよい。そのような構成により、現在の処理状況を利用者により明確に認識させることができる。 Also, the agent setting means 83 may set an agent having a feature that reminds the user of the status of the connected communication line. With such a configuration, the current processing status can be clearly recognized by the user.
 以上、実施形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施形態及び実施例に限定されるものではない。例えば、端末100およびサーバ200の機器の種類や接続方式等に関して、本願発明の構成や詳細を、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。 As mentioned above, although this invention was demonstrated with reference to embodiment and an Example, this invention is not limited to the said embodiment and Example. For example, regarding the types and connection methods of the devices of the terminal 100 and the server 200, the configuration and details of the present invention can be changed in various ways that can be understood by those skilled in the art within the scope of the present invention.
 この出願は、2012年7月31日に出願された日本特許出願2012-169985を基礎とする優先権を主張し、その開示の全てをここに取り込む。 This application claims priority based on Japanese Patent Application No. 2012-169985 filed on July 31, 2012, the entire disclosure of which is incorporated herein.
 本発明は、モバイル端末を用いて音声対話を行うエージェント制御システムに好適に適用可能である。本発明は、例えば、音声対話を用いて機器操作や情報検索を行うエージェント制御システムに好適に適用される。 The present invention can be suitably applied to an agent control system that performs voice conversation using a mobile terminal. The present invention is preferably applied to, for example, an agent control system that performs device operation and information search using voice interaction.
 100 端末
 101 処理手段決定部
 102 エージェント設定部
 103 音声入力部
 104,104A,104B,204 対話処理部
 105 エージェント制御部
 106 通信状況判定部
 107 サーバ負荷状況判定部
 108 マイクロフォン
 109 スピーカ
 110 モニタ
 200 サーバ
 1041 音声認識部
 1042 応答生成部
 1043 音声合成部
 1044,2044 音声認識用データベース
 1045,2045 音声合成用データベース
DESCRIPTION OF SYMBOLS 100 Terminal 101 Processing means determination part 102 Agent setting part 103 Voice input part 104,104A, 104B, 204 Dialogue processing part 105 Agent control part 106 Communication condition determination part 107 Server load condition determination part 108 Microphone 109 Speaker 110 Monitor 200 Server 1041 Voice Recognition unit 1042 Response generation unit 1043 Speech synthesis unit 1044, 2044 Speech recognition database 1045, 2045 Speech synthesis database

Claims (10)

  1.  利用者からの入力情報に対する応答情報を生成することで利用者との対話処理を行う複数の対話処理手段と、
     前記複数の対話処理手段から一の対話処理手段を決定する処理手段決定手段と、
     決定された一の対話処理手段に応じたエージェントを設定するエージェント設定手段と、
     設定されたエージェントを介して、前記応答情報を利用者に通知するエージェント制御手段とを備え、
     前記複数の対話処理手段は、他の対話処理手段と対話処理性能の異なる少なくとも1つ以上の対話処理手段を含み、
     前記処理手段決定手段は、対話処理が行われている状況に応じて、前記複数の対話処理手段から一の対話処理手段を決定する
     ことを特徴とするエージェント制御システム。
    A plurality of interactive processing means for performing interactive processing with the user by generating response information for the input information from the user;
    Processing means determining means for determining one dialog processing means from the plurality of dialog processing means;
    Agent setting means for setting an agent according to the determined one dialog processing means;
    Agent control means for notifying the user of the response information via a set agent,
    The plurality of interaction processing means includes at least one interaction processing means having different interaction processing performance from other interaction processing means,
    The agent control system, wherein the processing means determining means determines one dialogue processing means from the plurality of dialogue processing means according to a situation where the dialogue processing is being performed.
  2.  音声信号を入力する音声入力手段を備え、
     前記対話処理手段は、
     前記音声入力手段で入力された音声信号を音声認識処理する音声認識手段と、
     前記音声認識処理の結果に基づいて、エージェントが発声すべきテキスト情報を含む応答情報を生成する応答生成手段と、
     前記応答情報に含まれるテキスト情報に基づいて合成音声を生成する音声合成手段とを含み、
     エージェント制御手段は、設定されたエージェントを介して、前記合成音声を利用者に通知する
     請求項1記載のエージェント制御システム。
    A voice input means for inputting a voice signal;
    The dialog processing means includes:
    Voice recognition means for performing voice recognition processing on the voice signal input by the voice input means;
    Response generating means for generating response information including text information to be uttered by the agent based on the result of the voice recognition processing;
    Speech synthesis means for generating synthesized speech based on text information included in the response information,
    The agent control system according to claim 1, wherein the agent control means notifies the user of the synthesized voice through a set agent.
  3.  複数の対話処理手段のうち、少なくとも一つの対話処理手段は、通信ネットワーク網を介して接続される他の装置に備えられる
     請求項1または請求項2記載のエージェント制御システム。
    The agent control system according to claim 1 or 2, wherein at least one of the plurality of dialogue processing means is provided in another device connected via a communication network.
  4.  エージェント設定手段は、他の装置の負荷状況を利用者に想起させる特徴を有するエージェントを設定する
     請求項3記載のエージェント制御システム。
    The agent control system according to claim 3, wherein the agent setting means sets an agent having a feature that reminds a user of a load status of another device.
  5.  複数の対話処理手段は、特定の利用形態において他の対話処理手段と対話処理性能の異なる少なくとも1つ以上の対話処理手段を含む
     請求項1から請求項4のうちのいずれか1項に記載のエージェント制御システム。
    5. The plurality of interaction processing means includes at least one interaction processing means having different interaction processing performance from other interaction processing means in a specific usage form. Agent control system.
  6.  エージェント設定手段は、決定された一の対話処理手段の対話処理性能に応じた年齢を利用者に想起させる特徴を有する擬人化されたエージェントを設定する
     請求項1から請求項5のうちのいずれか1項に記載のエージェント制御システム。
    The agent setting means sets an anthropomorphized agent having a feature that reminds the user of the age according to the dialog processing performance of the determined one dialog processing means. The agent control system according to item 1.
  7.  エージェント設定手段は、接続される通信回線の状況を利用者に想起させる特徴を有するエージェントを設定する
     請求項1から請求項6のうちのいずれか1項に記載のエージェント制御システム。
    The agent control system according to any one of claims 1 to 6, wherein the agent setting means sets an agent having a feature that reminds the user of the status of the connected communication line.
  8.  利用者からの入力情報に対する応答情報を生成することで利用者との対話処理を行う複数の対話処理手段から、一の対話処理手段を決定し、
     決定された一の対話処理手段に応じたエージェントを設定し、
     設定されたエージェントを介して、前記応答情報を利用者に通知し、
     前記一の対話処理手段を決定する際、対話処理が行われている状況に応じて、他の対話処理手段と対話処理性能の異なる少なくとも1つ以上の対話処理手段を含む前記複数の対話処理手段から一の対話処理手段を決定する
     ことを特徴とするエージェント制御方法。
    One interaction processing means is determined from a plurality of interaction processing means that perform interaction processing with the user by generating response information to input information from the user,
    Set an agent according to the determined one interaction processing means,
    Notifying the user of the response information through the set agent,
    The plurality of dialog processing means including at least one or more dialog processing means having different dialog processing performance from other dialog processing means according to a situation in which the dialog processing is performed when determining the one dialog processing means. An agent control method characterized in that one dialogue processing means is determined.
  9.  入力された音声信号を音声認識処理し、
     前記音声認識処理の結果に基づいて、エージェントが発声すべきテキスト情報を含む応答情報を生成し、
     前記応答情報に含まれるテキスト情報に基づいて合成音声を生成し、
     設定されたエージェントを介して、前記合成音声を利用者に通知する
     請求項8記載のエージェント制御方法。
    Voice recognition processing is performed on the input audio signal,
    Based on the result of the speech recognition process, generating response information including text information to be uttered by the agent,
    Generating synthesized speech based on the text information included in the response information;
    The agent control method according to claim 8, wherein the synthesized voice is notified to a user via a set agent.
  10.  コンピュータに、
     利用者からの入力情報に対する応答情報を生成することで利用者との対話処理を行う複数の対話処理手段から、一の対話処理手段を決定する処理手段決定処理、
     決定された一の対話処理手段に応じたエージェントを設定するエージェント設定処理、および、
     設定されたエージェントを介して、前記応答情報を利用者に通知するエージェント制御処理を実行させ、
     前記処理手段決定処理で、対話処理が行われている状況に応じて、他の対話処理手段と対話処理性能の異なる少なくとも1つ以上の対話処理手段を含む前記複数の対話処理手段から一の対話処理手段を決定させる
     ためのエージェント制御プログラム。
    On the computer,
    Processing means determination processing for determining one dialogue processing means from a plurality of dialogue processing means for performing dialogue processing with the user by generating response information to input information from the user;
    An agent setting process for setting an agent according to the determined one dialog processing means; and
    Via the set agent, the agent control process for notifying the user of the response information is executed,
    In the processing means determination process, one dialog from the plurality of dialog processing means including at least one dialog processing means having different dialog processing performance from other dialog processing means according to a situation in which the dialog processing is performed. Agent control program for determining processing means.
PCT/JP2013/004243 2012-07-31 2013-07-09 Agent control system, method, and program WO2014020835A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2012169985 2012-07-31
JP2012-169985 2012-07-31

Publications (1)

Publication Number Publication Date
WO2014020835A1 true WO2014020835A1 (en) 2014-02-06

Family

ID=50027549

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/004243 WO2014020835A1 (en) 2012-07-31 2013-07-09 Agent control system, method, and program

Country Status (1)

Country Link
WO (1) WO2014020835A1 (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017527837A (en) * 2015-07-15 2017-09-21 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド Speech synthesis method and apparatus
CN110741362A (en) * 2018-05-03 2020-01-31 谷歌有限责任公司 Coordination of overlapping processing of audio queries
JP2020067785A (en) * 2018-10-24 2020-04-30 本田技研工業株式会社 Control device, agent apparatus, and program
JP2020160135A (en) * 2019-03-25 2020-10-01 本田技研工業株式会社 Agent device, agent device control method and program
JP2021117296A (en) * 2020-01-23 2021-08-10 トヨタ自動車株式会社 Agent system, terminal device, and agent program
CN113689849A (en) * 2020-05-18 2021-11-23 丰田自动车株式会社 Agent control device, agent control method, and recording medium having program recorded thereon

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003295890A (en) * 2002-04-04 2003-10-15 Nec Corp Apparatus, system, and method for speech recognition interactive selection, and program
JP2005148724A (en) * 2003-10-21 2005-06-09 Zenrin Datacom Co Ltd Information processor accompanied by information input using voice recognition
JP2005149481A (en) * 2003-10-21 2005-06-09 Zenrin Datacom Co Ltd Information processor accompanied by information input using voice recognition
JP2005301017A (en) * 2004-04-14 2005-10-27 Sony Corp Apparatus and method for information processing, and program
JP2006127077A (en) * 2004-10-28 2006-05-18 Sony Corp Information processing apparatus ane method, recording medium and program
JP2006268428A (en) * 2005-03-24 2006-10-05 Kenwood Corp Information presenting device, information presentation method and information-presenting program
JP2007079397A (en) * 2005-09-16 2007-03-29 Nippon Telegr & Teleph Corp <Ntt> Interaction method, interaction device, interaction program, and recording medium
JP2008290714A (en) * 1997-07-22 2008-12-04 Equos Research Co Ltd On-vehicle apparatus
JP2010073192A (en) * 2008-08-20 2010-04-02 Universal Entertainment Corp Conversation scenario editing device, user terminal device, and automatic answering system

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008290714A (en) * 1997-07-22 2008-12-04 Equos Research Co Ltd On-vehicle apparatus
JP2003295890A (en) * 2002-04-04 2003-10-15 Nec Corp Apparatus, system, and method for speech recognition interactive selection, and program
JP2005148724A (en) * 2003-10-21 2005-06-09 Zenrin Datacom Co Ltd Information processor accompanied by information input using voice recognition
JP2005149481A (en) * 2003-10-21 2005-06-09 Zenrin Datacom Co Ltd Information processor accompanied by information input using voice recognition
JP2005301017A (en) * 2004-04-14 2005-10-27 Sony Corp Apparatus and method for information processing, and program
JP2006127077A (en) * 2004-10-28 2006-05-18 Sony Corp Information processing apparatus ane method, recording medium and program
JP2006268428A (en) * 2005-03-24 2006-10-05 Kenwood Corp Information presenting device, information presentation method and information-presenting program
JP2007079397A (en) * 2005-09-16 2007-03-29 Nippon Telegr & Teleph Corp <Ntt> Interaction method, interaction device, interaction program, and recording medium
JP2010073192A (en) * 2008-08-20 2010-04-02 Universal Entertainment Corp Conversation scenario editing device, user terminal device, and automatic answering system

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017527837A (en) * 2015-07-15 2017-09-21 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド Speech synthesis method and apparatus
CN110741362A (en) * 2018-05-03 2020-01-31 谷歌有限责任公司 Coordination of overlapping processing of audio queries
JP7439186B2 (en) 2018-05-03 2024-02-27 グーグル エルエルシー Coordinating overlapping audio queries
JP2020067785A (en) * 2018-10-24 2020-04-30 本田技研工業株式会社 Control device, agent apparatus, and program
JP2020160135A (en) * 2019-03-25 2020-10-01 本田技研工業株式会社 Agent device, agent device control method and program
JP7274903B2 (en) 2019-03-25 2023-05-17 本田技研工業株式会社 AGENT DEVICE, CONTROL METHOD OF AGENT DEVICE, AND PROGRAM
JP2021117296A (en) * 2020-01-23 2021-08-10 トヨタ自動車株式会社 Agent system, terminal device, and agent program
CN113689849A (en) * 2020-05-18 2021-11-23 丰田自动车株式会社 Agent control device, agent control method, and recording medium having program recorded thereon
CN113689849B (en) * 2020-05-18 2023-11-17 丰田自动车株式会社 Agent control device, agent control method, and recording medium having program recorded thereon

Similar Documents

Publication Publication Date Title
US11302302B2 (en) Method, apparatus, device and storage medium for switching voice role
CN109447234B (en) Model training method, method for synthesizing speaking expression and related device
US9479911B2 (en) Method and system for supporting a translation-based communication service and terminal supporting the service
WO2014020835A1 (en) Agent control system, method, and program
CN110634483B (en) Man-machine interaction method and device, electronic equipment and storage medium
CN107112014B (en) Application focus in speech-based systems
KR100679043B1 (en) Apparatus and method for spoken dialogue interface with task-structured frames
US9087520B1 (en) Altering audio based on non-speech commands
KR20190075800A (en) Intelligent personal assistant interface system
CN102292766B (en) Method and apparatus for providing compound models for speech recognition adaptation
CN109243444B (en) Voice interaction method, device and computer-readable storage medium
KR20190042918A (en) Electronic device and operating method thereof
CN111880645A (en) Server for determining and controlling target device based on voice input of user and operating method thereof
CN105793923A (en) Local and remote speech processing
KR102056330B1 (en) Apparatus for interpreting and method thereof
JPWO2017168936A1 (en) Information processing apparatus, information processing method, and program
CN110493123B (en) Instant messaging method, device, equipment and storage medium
KR102628211B1 (en) Electronic apparatus and thereof control method
CN111862940A (en) Earphone-based translation method, device, system, equipment and storage medium
JP2019533181A (en) Interpretation device and method (DEVICE AND METHOD OF TRANSLATING A LANGUAGE)
CN109256116A (en) Pass through the method for speech recognition keypad function, system, equipment and storage medium
JP2000207170A (en) Device and method for processing information
CN111966257A (en) Information processing method and device and electronic equipment
US10002611B1 (en) Asynchronous audio messaging
KR101959439B1 (en) Method for interpreting

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13826175

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13826175

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP