WO2023248289A1 - 対話装置、対話方法および対話プログラム - Google Patents

対話装置、対話方法および対話プログラム Download PDF

Info

Publication number
WO2023248289A1
WO2023248289A1 PCT/JP2022/024520 JP2022024520W WO2023248289A1 WO 2023248289 A1 WO2023248289 A1 WO 2023248289A1 JP 2022024520 W JP2022024520 W JP 2022024520W WO 2023248289 A1 WO2023248289 A1 WO 2023248289A1
Authority
WO
WIPO (PCT)
Prior art keywords
dialogue
utterance
model
unit
interaction
Prior art date
Application number
PCT/JP2022/024520
Other languages
English (en)
French (fr)
Inventor
淳史 大塚
亮 石井
済央 野本
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2022/024520 priority Critical patent/WO2023248289A1/ja
Publication of WO2023248289A1 publication Critical patent/WO2023248289A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types

Definitions

  • the present invention relates to a dialogue device, a dialogue method, and a dialogue program.
  • chatbots have been known that use dialogue models to allow humans and computers to interact through text or voice, and have been introduced into various services.
  • dialogue models have been constructed that are capable of carrying out natural dialogues at the same level as humans (see Non-Patent Document 1).
  • chatbot interaction models do not communicate with each other. This is because the value of conversation logs between chatbots has not been found.
  • the dialogue model itself is a black box, even if multiple dialogue models are prepared, it is unclear what kind of individuality each dialogue model will have, and the results of dialogue between the dialogue models cannot be analyzed quantitatively or qualitatively. It is difficult to evaluate it objectively.
  • the present invention has been made in view of the above, and an object of the present invention is to enable conversation between chatbot conversation models with defined personalities.
  • the dialogue device includes an acquisition unit that acquires persona information representing the individuality of each dialogue model to be interacted with, and selects a dialogue model corresponding to the persona information.
  • a selection unit that generates an initial utterance that starts a dialogue; and a dialogue generation unit that generates a response utterance to the generated initial utterance using the selected dialogue model. shall be.
  • FIG. 1 is a schematic diagram illustrating a schematic configuration of an interaction device according to this embodiment.
  • FIG. 2 is a diagram for explaining the processing of the dialogue device.
  • FIG. 3 is a diagram showing an example of a screen display of the dialogue device.
  • FIG. 4 is a flowchart showing the dialog processing procedure.
  • FIG. 5 is a diagram showing an example of a computer that executes an interactive program.
  • FIG. 1 is a schematic diagram illustrating a schematic configuration of an interaction device according to this embodiment.
  • FIG. 2 is a diagram for explaining the processing of the dialogue device.
  • FIG. 3 is a diagram showing an example of a screen display of the dialogue device.
  • the dialogue device 10 of this embodiment is realized by a general-purpose computer such as a personal computer, and includes an input section 11, an output section 12, a communication control section 13, a storage section 14, and a control section 15. Be prepared.
  • the input unit 11 is realized using an input device such as a keyboard or a mouse, and inputs various instruction information such as starting processing to the control unit 15 in response to an input operation by an operator.
  • the output unit 12 is realized by a display device such as a liquid crystal display, a printing device such as a printer, and the like. For example, the output unit 12 displays the results of an interactive process, which will be described later.
  • the communication control unit 13 is realized by a NIC (Network Interface Card) or the like, and controls communication between an external device and the control unit 15 via a telecommunication line such as a LAN (Local Area Network) or the Internet.
  • a telecommunication line such as a LAN (Local Area Network) or the Internet.
  • the communication control unit 13 controls communication between the control unit 15 and a user terminal used by a user who performs interaction processing, which will be described later.
  • the storage unit 14 is realized by a semiconductor memory element such as a RAM (Random Access Memory) or a flash memory, or a storage device such as a hard disk or an optical disk.
  • a processing program for operating the dialog device 10 data used during execution of the processing program, and the like are stored in advance, or are temporarily stored each time processing is performed.
  • the storage unit 14 may be configured to communicate with the control unit 15 via the communication control unit 13.
  • the storage unit 14 stores a dialogue model 14a used in dialogue processing to be described later.
  • the control unit 15 is realized using a CPU (Central Processing Unit) or the like, and executes a processing program stored in a memory. Thereby, the control unit 15 functions as an acquisition unit 15a, a selection unit 15b, a generation unit 15c, a dialogue generation unit 15d, and a determination unit 15e to execute dialogue processing, as illustrated in FIG. Note that each or a part of these functional units may be implemented in different hardware. For example, the dialogue generation unit 15d may be implemented in hardware different from other functional units. Further, the control unit 15 may include other functional units.
  • a CPU Central Processing Unit
  • the acquisition unit 15a acquires persona information representing the individuality of each interaction model with which the model interacts.
  • the persona information is information representing individuality such as "gender - male” and “hobby - fishing", and is information written in, for example, key-value text.
  • the acquisition unit 15a acquires persona information (PA, PB) defined by the user for each of the two interaction models that the user wants to interact with. Specifically, the acquisition unit 15a acquires persona information (PA, PB) via the input unit 11 or from the user terminal operated by the user via the communication control unit 13.
  • FIG. 3 shows an example of a screen presented to the user on the output unit 12 or the user terminal.
  • persona information is defined by the user inputting persona A definition and persona B definition.
  • the acquisition unit 15a may acquire randomly determined persona information. For example, when the user presses the "random persona button" illustrated in FIGS. 2 and 3, the acquisition unit 15a acquires persona information randomly determined from definable persona information.
  • the determining unit 15e may use a list of key candidates created in advance to determine a value corresponding to a randomly determined key as persona information.
  • the determining unit 15e may determine persona information for a freely written value by utilizing a model or algorithm that generates a character string based on a given random seed.
  • the acquisition unit 15a acquires topic information that specifies a topic.
  • the topic information is information that specifies the content of the topic that the dialog model wants to interact with, and is, for example, arbitrary character string information written in text.
  • the acquisition unit 15a acquires topic information T via the input unit 11 or from a user terminal operated by a user via the communication control unit 13, as shown in FIG. 2, for example. Further, in the example shown in FIG. 3, the topic information is specified by the user as a topic definition.
  • the selection unit 15b selects a dialogue model corresponding to the persona information.
  • the dialogue model 14a may be generated in advance in correspondence with each persona information or combination of persona information that can be acquired by the acquisition unit 15a. In that case, the selection unit 15b selects a dialogue model corresponding to the persona information or a combination of a plurality of persona information acquired by the acquisition unit 15a.
  • the dialogue model 14a may be generated in advance corresponding to each value of the key-value of the persona information that the acquisition unit 15a can acquire.
  • the selection unit 15b selects and integrates dialogue models corresponding to each piece of persona information, thereby selecting a dialogue model corresponding to the combination of the plurality of persona information. may be generated.
  • a dialogue model corresponding to the persona information may be generated by converting the persona information such as a character string acquired by the acquisition unit 15a into a predetermined format by the selection unit 15b and inputting it to the dialogue model 14a.
  • the generation unit 15c generates an initial utterance that starts a dialogue. Specifically, the generation unit 15c generates the first utterance in response to topic information specifying a topic. For example, if the topic information is the word ⁇ , a template for the first utterance, which is the first utterance of a dialogue, such as "What do you think about ⁇ ?" is prepared in advance. Thereby, the generation unit 15c generates the first utterance in accordance with the topic information. Alternatively, if the topic information is input in the form of an utterance, the generation unit 15c may directly use the input topic information as the first utterance.
  • the dialogue generation unit 15d uses the selected dialogue model to generate a response utterance to the generated initial utterance. For example, when generating dialogue between dialogue models A and B, and when the first utterance of dialogue model A is generated, the dialogue generation unit 15d generates a dialogue between dialogue models A and B, which is selected as a dialogue partner of dialogue model A. By inputting the initial utterance, a response utterance is output.
  • the dialogue generation unit 15d further generates a response utterance to the generated response utterance using the selected dialogue model. That is, as illustrated in FIG. 2, the dialogue generation unit 15d receives as input the response utterance generated in response to the initial utterance, and uses dialogue model A to generate a response utterance to the input utterance. Furthermore, the dialogue generation unit 15d receives the response utterance generated in response to the response utterance as input, and uses dialogue model B to generate a response utterance to the input utterance. The dialogue generation unit 15d repeats this process to generate dialogue between the dialogue models.
  • the dialog generation unit 15d terminates the dialog when a predetermined termination condition is met. For example, the dialogue generation unit 15d ends dialogue generation when a predetermined number of utterances set by the hyperparameter is reached. Alternatively, as illustrated in FIG. 3, a "dialogue end button" may be set, and when the user presses the "dialogue end button", the dialogue generation unit 15d may end the generation of the dialogue. . Alternatively, the dialogue generation unit 15d may evaluate the continuity of the topic using a topic continuity determination model that has been constructed in advance, and terminate the generation of the dialogue when determining that the topic has ended.
  • the dialogue generation unit 15d outputs the generated dialogue to the output unit 12 and presents it to the user.
  • the information is output in a chat format.
  • the dialog generation unit 15d may output the dialog results in a file format including topic information and persona information. This makes it possible to simulate interactions between interaction models with defined personalities.
  • FIG. 4 is a flowchart showing the dialog processing procedure.
  • the flowchart in FIG. 4 is started, for example, at the timing when the user performs an operation input instructing to start.
  • the acquisition unit 15a acquires persona information representing the individuality of each interaction model to be interacted with (step S1). For example, the acquisition unit 15a acquires persona information defined by the user for each of the two interaction models that the user wants to interact with. Alternatively, the acquisition unit 15a acquires randomly determined persona information.
  • the acquisition unit 15a acquires topic information that specifies a topic.
  • the selection unit 15b selects a dialogue model corresponding to the persona information (step S2). For example, the selection unit 15b selects a dialogue model corresponding to the acquired persona information from the dialogue models 14a generated in advance in accordance with persona information or a combination of a plurality of persona information.
  • the generation unit 15c generates the first utterance in response to the topic information (step S3).
  • the dialogue generation unit 15d uses the selected dialogue model to generate a response utterance to the input utterance (step S4).
  • the dialogue generation unit 15d receives the generated initial utterance as input and generates a response utterance to the initial utterance using the selected dialogue model.
  • the dialogue generation unit 15d receives the generated response utterance as input and repeats the process of generating a response utterance to the input response utterance using the selected dialogue model until a predetermined termination condition is satisfied (step S5 , No ⁇ Step S4), generate a dialogue. Then, when the predetermined termination condition is satisfied (step S5, Yes), the dialogue generation unit 15d outputs the generated dialogue to the output unit 12 (step S6), and ends the series of dialogue processing.
  • the acquisition unit 15a acquires persona information representing the individuality of each dialogue model to be interacted with.
  • the selection unit 15b selects a dialogue model corresponding to the persona information.
  • the generation unit 15c generates an initial utterance that starts a dialogue.
  • the dialogue generation unit 15d uses the selected dialogue model to generate a response utterance to the generated initial utterance.
  • the acquisition unit 15a further acquires topic information that specifies the topic.
  • the generation unit 15c generates the first utterance in accordance with the topic information.
  • the dialogue generation unit 15d further generates a response utterance to the generated response utterance using the selected dialogue model.
  • Dialogue between such dialogue models can be used as a communication simulation. For example, by setting a target persona and having them interact with a certain topic, it becomes possible to check the reaction to that topic, which can be used for marketing, user recommendations, etc.
  • the acquisition unit 15a may acquire randomly determined persona information. This makes it easier to collect interaction data of even more patterns.
  • the interaction device 10 can be implemented by installing an interaction program that executes the above-mentioned interaction processing into a desired computer as packaged software or online software.
  • the information processing device can be made to function as the dialog device 10.
  • the information processing device referred to here includes a desktop or notebook personal computer.
  • information processing devices include mobile communication terminals such as smartphones, mobile phones, and PHSs (Personal Handyphone Systems), as well as slate terminals such as PDAs (Personal Digital Assistants).
  • the functions of the dialogue device 10 may be implemented in a cloud server.
  • FIG. 5 is a diagram showing an example of a computer that executes an interactive program.
  • Computer 1000 includes, for example, memory 1010, CPU 1020, hard disk drive interface 1030, disk drive interface 1040, serial port interface 1050, video adapter 1060, and network interface 1070. These parts are connected by a bus 1080.
  • the memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM 1012.
  • the ROM 1011 stores, for example, a boot program such as BIOS (Basic Input Output System).
  • Hard disk drive interface 1030 is connected to hard disk drive 1031.
  • Disk drive interface 1040 is connected to disk drive 1041.
  • a removable storage medium such as a magnetic disk or an optical disk is inserted into the disk drive 1041, for example.
  • a mouse 1051 and a keyboard 1052 are connected to the serial port interface 1050.
  • a display 1061 is connected to the video adapter 1060.
  • the hard disk drive 1031 stores, for example, an OS 1091, an application program 1092, a program module 1093, and program data 1094. Each piece of information described in the above embodiments is stored in, for example, the hard disk drive 1031 or the memory 1010.
  • the dialog program is stored in the hard disk drive 1031, for example, as a program module 1093 in which commands to be executed by the computer 1000 are written.
  • a program module 1093 in which each process executed by the interaction device 10 described in the above embodiment is described is stored in the hard disk drive 1031.
  • program data 1094 data used for information processing by the interactive program is stored as program data 1094 in, for example, the hard disk drive 1031.
  • the CPU 1020 reads out the program module 1093 and program data 1094 stored in the hard disk drive 1031 to the RAM 1012 as necessary, and executes each of the above-described procedures.
  • program module 1093 and program data 1094 related to the dialogue program are not limited to being stored in the hard disk drive 1031; for example, they may be stored in a removable storage medium and read by the CPU 1020 via the disk drive 1041 or the like. may be done.
  • the program module 1093 and program data 1094 related to the dialogue program are stored in another computer connected via a network such as a LAN or WAN (Wide Area Network), and read out by the CPU 1020 via the network interface 1070. You can.

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

取得部(15a)が、対話させる各対話モデルの個性を表すペルソナ情報を取得する。選択部(15b)が、ペルソナ情報に対応する対話モデルを選択する。生成部(15c)が、対話を開始させる初発話を生成する。対話生成部(15d)が、選択された対話モデルを用いて、生成された初発話対する応答発話を生成する。

Description

対話装置、対話方法および対話プログラム
 本発明は、対話装置、対話方法および対話プログラムに関する。
 従来、対話モデルを用いて、テキストまたは音声を通して人と計算機が対話を行うチャットボットが知られており、様々なサービスに導入されている。近年は、深層学習技術の発達により、人と同等の水準で違和感のない対話を実行可能な対話モデルが構築されている(非特許文献1参照)。
Hiroaki Sugiyama, Masahiro Mizukami, Tsunehiro Arimoto, Hiromi Narimatsu, Yuya Chiba, Hideharu Nakajima, Toyomi Meguro, "Empirical Analysis of Training Strategies of Transformer-based Japanese Chit-chat Systems", 2021、[online], 2021年, [2022年5月24日検索]、インターネット<URL:https://arxiv.org/abs/2109.05217>
 しかしながら、従来技術では、チャットボットの対話モデル同士で対話を行ってはいない。なぜならば、チャットボット同士が対話を行った対話ログの価値が見いだされていない。また、対話モデル自体がブラックボックスであるため、複数の対話モデルを用意しても、その対話モデルがどのような個性を持つかが不明であり、対話モデル同士で対話した結果を定量的、定性的に評価することが困難である。
 本発明は、上記に鑑みてなされたものであって、個性が定義されたチャットボットの対話モデル同士で対話を行うことを目的とする。
 上述した課題を解決し、目的を達成するために、本発明に係る対話装置は、対話させる各対話モデルの個性を表すペルソナ情報を取得する取得部と、前記ペルソナ情報に対応する対話モデルを選択する選択部と、対話を開始させる初発話を生成する生成部と、選択された前記対話モデルを用いて、生成された前記初発話に対する応答発話を生成する対話生成部と、を有することを特徴とする。
 本発明によれば、個性が定義されたチャットボットの対話モデル同士で対話を行うことが可能となる。
図1は、本実施形態の対話装置の概略構成を例示する模式図である。 図2は、対話装置の処理を説明するための図である。 図3は、対話装置の画面表示例を示す図である。 図4は、対話処理手順を示すフローチャートである。 図5は、対話プログラムを実行するコンピュータの一例を示す図である。
 以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。
[対話装置の構成]
 図1は、本実施形態の対話装置の概略構成を例示する模式図である。また、図2は、対話装置の処理を説明するための図である。また、図3は、対話装置の画面表示例を示す図である。まず、図1に例示するように、本実施形態の対話装置10は、パソコン等の汎用コンピュータで実現され、入力部11、出力部12、通信制御部13、記憶部14、および制御部15を備える。
 入力部11は、キーボードやマウス等の入力デバイスを用いて実現され、操作者による入力操作に対応して、制御部15に対して処理開始などの各種指示情報を入力する。出力部12は、液晶ディスプレイなどの表示装置、プリンター等の印刷装置等によって実現される。例えば、出力部12には、後述する対話処理の結果が表示される。
 通信制御部13は、NIC(Network Interface Card)等で実現され、LAN(Local Area Network)やインターネットなどの電気通信回線を介した外部の装置と制御部15との通信を制御する。例えば、通信制御部13は、後述する対話処理を行うユーザが使用するユーザ端末等と制御部15との通信を制御する。
 記憶部14は、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部14には、対話装置10を動作させる処理プログラムや、処理プログラムの実行中に使用されるデータなどが予め記憶され、あるいは処理の都度一時的に記憶される。なお、記憶部14は、通信制御部13を介して制御部15と通信する構成でもよい。本実施形態において、記憶部14は、後述する対話処理に用いられる対話モデル14aを記憶する。
 制御部15は、CPU(Central Processing Unit)等を用いて実現され、メモリに記憶された処理プログラムを実行する。これにより、制御部15は、図1に例示するように、取得部15a、選択部15b、生成部15c、対話生成部15dおよび決定部15eとして機能して、対話処理を実行する。なお、これらの機能部は、それぞれ、あるいは一部が異なるハードウェアに実装されてもよい。例えば、対話生成部15dは、他の機能部とは異なるハードウェアに実装されてもよい。また、制御部15は、その他の機能部を備えてもよい。
 取得部15aは、対話させる各対話モデルの個性を表すペルソナ情報を取得する。ここで、ペルソナ情報とは、「性別-男性」「趣味-釣り」というような個性を表す情報であって、例えば、key-value方式のテキストで記述された情報である。
 取得部15aは、例えば図2に示すように、対話させたい2つの対話モデルのそれぞれについて、ユーザが定義したペルソナ情報(PA、PB)を取得する。具体的には、取得部15aは、入力部11を介して、あるいはユーザが操作するユーザ端末から通信制御部13を介して、ペルソナ情報(PA、PB)を取得する。
 また、図3には、出力部12またはユーザ端末において、ユーザに提示される画面が例示されている。図3に示す例では、ペルソナA定義、ペルソナB定義としてユーザが入力することにより、ペルソナ情報が定義されている。
 また、取得部15aは、ランダムに決定されたペルソナ情報を取得してもよい。例えば、図2および図3に例示する「ランダムペルソナボタン」をユーザが押下した場合に、取得部15aは、定義可能なペルソナ情報の中からランダムに決定されたペルソナ情報を取得する。
 この場合には、例えば、決定部15eが、予め作成されたkeyの候補のリストを用いて、ランダムに決定したkeyに対応するvalueをペルソナ情報として決定すればよい。あるいは、決定部15eは、自由記述のvalueに対しては、与えられたランダムシードに対して文字列を生成するモデルやアルゴリズムを活用してペルソナ情報を決定してもよい。
 また、取得部15aは、話題を指定する話題情報を取得する。ここで、話題情報とは、対話モデルに対話させたい話題の内容を指定する情報であって、例えば、テキストで記述された任意の文字列情報である。取得部15aは、例えば図2に示すように、入力部11を介して、あるいはユーザが操作するユーザ端末から通信制御部13を介して、話題情報Tを取得する。また、図3に示す例では、話題情報は、話題定義としてユーザにより指定されている。
 図1の説明に戻る。選択部15bは、ペルソナ情報に対応する対話モデルを選択する。例えば、対話モデル14aは、取得部15aが取得し得るペルソナ情報あるいはペルソナ情報の組み合わせのそれぞれに対応して予め生成されていればよい。その場合に、選択部15bは、取得部15aが取得したペルソナ情報あるいは複数のペルソナ情報の組み合わせに対応した対話モデルを選択する。
 あるいは、対話モデル14aは、取得部15aが取得し得るペルソナ情報のkey-valueの各値に対応して予め生成されていれてもよい。そして、取得部15aが複数のペルソナ情報を取得した場合には、選択部15bは、各ペルソナ情報に対応する対話モデルを選択して統合することにより、複数のペルソナ情報の組み合わせに対応する対話モデルを生成してもよい。
 あるいは、取得部15aが取得した文字列等のペルソナ情報を、選択部15bが所定のフォーマットに変換して対話モデル14aに入力することにより、ペルソナ情報に対応する対話モデルを生成してもよい。
 生成部15cは、対話を開始させる初発話を生成する。具体的には、生成部15cは、話題を指定する話題情報に対応して初発話を生成する。例えば、話題情報が単語〇〇である場合には、「〇〇についてどう思いますか」というような対話の最初の発話である初発話のテンプレートを予め用意しておく。これにより、生成部15cが話題情報に対応して初発話を生成する。あるいは、話題情報が発話形式で入力される場合には、生成部15cは、入力された話題情報をそのまま初発話としてもよい。
 対話生成部15dは、選択された対話モデルを用いて、生成された初発話に対する応答発話を生成する。例えば、対話モデルA,Bの対話を生成する場合であって、対話モデルAの初発話が生成された場合に、対話生成部15dは、対話モデルAの対話相手として選択された対話モデルBに初発話を入力することにより、応答発話を出力する。
 対話生成部15dは、選択された対話モデルを用いて、生成した応答発話に対する応答発話をさらに生成する。つまり、対話生成部15dは、図2に例示したように、初発話に対して生成した応答発話を入力として、対話モデルAを用いて、入力された発話に対する応答発話を生成する。また、対話生成部15dは、応答発話に対して生成した応答発話を入力として、対話モデルBを用いて、入力された発話に対する応答発話を生成する。対話生成部15dがこの処理を繰り返すことにより、対話モデル同士の対話が生成される。
 対話生成部15dは、所定の終了条件を満たした場合に、対話を終了させる。例えば、対話生成部15dは、ハイパーパラメータで設定された所定の発話数に達した場合に、対話の生成を終了する。あるいは、図3に例示したように、「対話終了ボタン」を設定しておき、ユーザが「対話終了ボタン」を押下した場合に、対話生成部15dが対話の生成を終了するようにしてもよい。あるいは、対話生成部15dは、予め構築しておいた話題継続判定モデルを用いて話題の継続性を評価して、話題が終了したと判定した場合に、対話の生成を終了してもよい。
 また、対話生成部15dは、生成した対話を出力部12に出力してユーザに提示する。例えば、図3に例示したように、チャットの形式で出力される。あるいは、対話生成部15dは、話題情報およびペルソナ情報を含めてファイル形式で対話の結果を出力してもよい。これにより、個性が定義された対話モデル同士の対話のシミュレーションが可能となる。
[対話処理]
 次に、図4を参照して、本実施形態に係る対話装置10による対話処理について説明する。図4は、対話処理手順を示すフローチャートである。図4のフローチャートは、例えば、ユーザが開始を指示する操作入力を行ったタイミングで開始される。
 まず、取得部15aが、対話させる各対話モデルの個性を表すペルソナ情報を取得する(ステップS1)。例えば、取得部15aは、対話させたい2つの対話モデルのそれぞれについて、ユーザが定義したペルソナ情報を取得する。あるいは、取得部15aは、ランダムに決定されたペルソナ情報を取得する。
 また、取得部15aは、話題を指定する話題情報を取得する。
 次に、選択部15bが、ペルソナ情報に対応する対話モデルを選択する(ステップS2)。例えば、選択部15bは、予めペルソナ情報あるいは複数のペルソナ情報の組み合わせに対応して生成された対話モデル14aから、取得されたペルソナ情報に対応する対話モデルを選択する。
 また、生成部15cが、話題情報に対応して初発話を生成する(ステップS3)。
 そして、対話生成部15dが、選択された対話モデルを用いて、入力された発話に対する応答発話を生成する(ステップS4)。まず、対話生成部15dは、生成された初発話を入力として、選択された対話モデルを用いて、初発話に対する応答発話を生成する。
 また、対話生成部15dは、生成した応答発話を入力として、選択された対話モデルを用いて、入力された応答発話に対する応答発話を生成する処理を、所定の終了条件を満たすまで繰り返し(ステップS5、No→ステップS4)、対話を生成する。そして、対話生成部15dは、所定の終了条件満たした場合に(ステップS5、Yes)、生成した対話を出力部12に出力し(ステップS6)、一連の対話処理を終了させる。
[効果]
 以上、説明したように、本実施形態の対話装置10において、取得部15aが、対話させる各対話モデルの個性を表すペルソナ情報を取得する。選択部15bが、ペルソナ情報に対応する対話モデルを選択する。生成部15cが、対話を開始させる初発話を生成する。対話生成部15dが、選択された対話モデルを用いて、生成された初発話に対する応答発話を生成する。
 具体的には、取得部15aは、話題を指定する話題情報をさらに取得する。この場合には、生成部15cは、話題情報に対応して初発話を生成する。
 また、対話生成部15dは、選択された対話モデルを用いて、生成した応答発話に対する応答発話をさらに生成する。
 これにより、様々に個性が定義されたチャットボットの対話モデル同士の対話が可能となる。このような対話モデル同士の対話は、コミュニケーションのシミュレーションとして活用することが可能となる。例えば、ある話題に対して、ターゲットとなるペルソナ像を設定して対話させることで、その話題に対する反応を確認することが可能となり、マーケティングやユーザレコメンド等に活用可能となる。
 また、ペルソナ像を自動で切り替えることにより、同一の話題に対して多数のパターンの会話を収集することが可能となる。したがって、実際の対話として収集することなく、対話データの収集コストを削減することが可能となる。このように、対話装置10によれば、チャットボットの対話モデル同士で対話した結果を評価することが可能となる。
 また、取得部15aは、ランダムに決定されたペルソナ情報を取得してもよい。これにより、さらに多数のパターンの対話データを収集することが容易に可能となる。
[プログラム]
 上記実施形態に係る対話装置10が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。一実施形態として、対話装置10は、パッケージソフトウェアやオンラインソフトウェアとして上記の対話処理を実行する対話プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の対話プログラムを情報処理装置に実行させることにより、情報処理装置を対話装置10として機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)などの移動体通信端末、さらには、PDA(Personal Digital Assistant)などのスレート端末などがその範疇に含まれる。また、対話装置10の機能を、クラウドサーバに実装してもよい。
 図5は、対話プログラムを実行するコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有する。これらの各部は、バス1080によって接続される。
 メモリ1010は、ROM(Read Only Memory)1011およびRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1031に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1041に接続される。ディスクドライブ1041には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース1050には、例えば、マウス1051およびキーボード1052が接続される。ビデオアダプタ1060には、例えば、ディスプレイ1061が接続される。
 ここで、ハードディスクドライブ1031は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093およびプログラムデータ1094を記憶する。上記実施形態で説明した各情報は、例えばハードディスクドライブ1031やメモリ1010に記憶される。
 また、対話プログラムは、例えば、コンピュータ1000によって実行される指令が記述されたプログラムモジュール1093として、ハードディスクドライブ1031に記憶される。具体的には、上記実施形態で説明した対話装置10が実行する各処理が記述されたプログラムモジュール1093が、ハードディスクドライブ1031に記憶される。
 また、対話プログラムによる情報処理に用いられるデータは、プログラムデータ1094として、例えば、ハードディスクドライブ1031に記憶される。そして、CPU1020が、ハードディスクドライブ1031に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した各手順を実行する。
 なお、対話プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1031に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ1041等を介してCPU1020によって読み出されてもよい。あるいは、対話プログラムに係るプログラムモジュール1093やプログラムデータ1094は、LANやWAN(Wide Area Network)等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
 以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述および図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例および運用技術等は全て本発明の範疇に含まれる。
 10 対話装置
 11 入力部
 12 出力部
 13 通信制御部
 14 記憶部
 14a 対話モデル
 15 制御部
 15a 取得部
 15b 選択部
 15c 生成部
 15d 対話生成部
 15e 決定部

Claims (6)

  1.  対話させる各対話モデルの個性を表すペルソナ情報を取得する取得部と、
     前記ペルソナ情報に対応する対話モデルを選択する選択部と、
     対話を開始させる初発話を生成する生成部と、
     選択された前記対話モデルを用いて、生成された前記初発話に対する応答発話を生成する対話生成部と、
     を有することを特徴とする対話装置。
  2.  前記取得部は、話題を指定する情報をさらに取得し、
     前記生成部は、前記話題を指定する情報に対応して前記初発話を生成する、
     ことを特徴とする請求項1に記載の対話装置。
  3.  前記対話生成部は、前記対話モデルを用いて、生成した前記応答発話に対する応答発話をさらに生成することを特徴とする請求項1に記載の対話装置。
  4.  前記取得部は、ランダムに決定された前記ペルソナ情報を取得することを特徴とする請求項1に記載の対話装置。
  5.  対話装置が実行する対話方法であって、
     対話させる各対話モデルの個性を表すペルソナ情報を取得する取得工程と、
     前記ペルソナ情報に対応する対話モデルを選択する選択工程と、
     対話を開始させる初発話を生成する生成工程と、
     選択された前記対話モデルを用いて、生成された前記初発話に対する応答発話を生成する対話生成工程と、
     を含んだことを特徴とする対話方法。
  6.  対話させる各対話モデルの個性を表すペルソナ情報を取得する取得ステップと、
     前記ペルソナ情報に対応する対話モデルを選択する選択ステップと、
     対話を開始させる初発話を生成する生成ステップと、
     選択された前記対話モデルを用いて、生成された前記初発話に対する応答発話を生成する対話生成ステップと、
     をコンピュータに実行させるための対話プログラム。
PCT/JP2022/024520 2022-06-20 2022-06-20 対話装置、対話方法および対話プログラム WO2023248289A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/024520 WO2023248289A1 (ja) 2022-06-20 2022-06-20 対話装置、対話方法および対話プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/024520 WO2023248289A1 (ja) 2022-06-20 2022-06-20 対話装置、対話方法および対話プログラム

Publications (1)

Publication Number Publication Date
WO2023248289A1 true WO2023248289A1 (ja) 2023-12-28

Family

ID=89379479

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/024520 WO2023248289A1 (ja) 2022-06-20 2022-06-20 対話装置、対話方法および対話プログラム

Country Status (1)

Country Link
WO (1) WO2023248289A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003323388A (ja) * 2002-05-01 2003-11-14 Omron Corp 情報提供方法および情報提供システム
US20190354594A1 (en) * 2018-05-20 2019-11-21 Microsoft Technology Licensing, Llc Building and deploying persona-based language generation models
WO2020070923A1 (ja) * 2018-10-05 2020-04-09 日本電信電話株式会社 対話装置、その方法、およびプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003323388A (ja) * 2002-05-01 2003-11-14 Omron Corp 情報提供方法および情報提供システム
US20190354594A1 (en) * 2018-05-20 2019-11-21 Microsoft Technology Licensing, Llc Building and deploying persona-based language generation models
WO2020070923A1 (ja) * 2018-10-05 2020-04-09 日本電信電話株式会社 対話装置、その方法、およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TETSUYA SAITO; KENICHI HIROTA; JUNICHI HOSHINO: "Utterance and small talk model between characters by using Web information", IPSJ SIG TECHNICAL REPORTS, INFORMATION PROCESSING SOCIETY OF JAPAN, JP, vol. 2007, no. 94 (NL-181), 25 September 2007 (2007-09-25), JP, pages 53 - 58, XP009551772, ISSN: 0919-6072 *

Similar Documents

Publication Publication Date Title
US11113475B2 (en) Chatbot generator platform
JP6850805B2 (ja) コンピューティングデバイスにおけるユーザ対話動作の自動実行
US10109264B2 (en) Composing music using foresight and planning
US10255265B2 (en) Process flow diagramming based on natural language processing
EP3095113B1 (en) Digital personal assistant interaction with impersonations and rich multimedia in responses
US9996532B2 (en) Systems and methods for building state specific multi-turn contextual language understanding systems
TWI519968B (zh) 輸入方法編輯器使用者資料檔
JP2019102063A (ja) ページ制御方法および装置
US11380213B2 (en) Customer care training with situational feedback generation
MXPA03011916A (es) Asistente de contenido activo: ejecucion de tareas y contenido estructurado.
WO2016176004A1 (en) Confidence estimation and bug prediction for machine translation
CN116521841B (zh) 用于生成回复信息的方法、装置、设备及介质
US20200233865A1 (en) User action sequence recognition using action models
US11650834B1 (en) Leveraging digital footprints in software development life cycle
CN103177724A (zh) 语音控制文本操作的方法、装置及终端
JP2024514069A (ja) 電子メッセージング方法
Kumar et al. Enabling the rapid development and adoption of speech-user interfaces
WO2023142451A1 (zh) 工作流生成方法、装置、电子设备
AU2008287331B2 (en) Voice enabled telnet interface
KR20220009338A (ko) 모델링 매개 변수의 설정 방법, 장치, 전자 기기 및 기록 매체
WO2023248289A1 (ja) 対話装置、対話方法および対話プログラム
CN112416769A (zh) 云桌面场景下批量模拟用户操作的自动化测试方法及系统
CN117540805A (zh) 数据处理方法、装置、电子设备及存储介质
CN111240787A (zh) 一种基于实景语义理解的互动帮助方法及其系统
WO2023206327A1 (en) Custom display post processing in speech recognition

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22947853

Country of ref document: EP

Kind code of ref document: A1