WO2023276088A1 - 対話装置、対話制御方法及び対話プログラム - Google Patents

対話装置、対話制御方法及び対話プログラム Download PDF

Info

Publication number
WO2023276088A1
WO2023276088A1 PCT/JP2021/024875 JP2021024875W WO2023276088A1 WO 2023276088 A1 WO2023276088 A1 WO 2023276088A1 JP 2021024875 W JP2021024875 W JP 2021024875W WO 2023276088 A1 WO2023276088 A1 WO 2023276088A1
Authority
WO
WIPO (PCT)
Prior art keywords
dialogue
information
utterance
work
result
Prior art date
Application number
PCT/JP2021/024875
Other languages
English (en)
French (fr)
Inventor
航 光田
竜一郎 東中
哲也 杵渕
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2021/024875 priority Critical patent/WO2023276088A1/ja
Priority to JP2023531273A priority patent/JPWO2023276088A1/ja
Publication of WO2023276088A1 publication Critical patent/WO2023276088A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems

Definitions

  • the present invention relates to a dialogue device, a dialogue control method, and a dialogue program.
  • chat dialogue systems do not have information on the state constructed by previous dialogues, and are predominantly one-question-one-answer systems that select and generate system utterances based on the information of the previous user utterance.
  • it is difficult to have a conversation that goes beyond a complicated one-and-one-answer conversation.
  • a common basis is information such as knowledge and beliefs shared among participants in a dialogue, and is also called mutual belief.
  • a common base is one of the important concepts in modeling dialogue, but at present there are few studies that analyze the process of building a common base. For example, as an attempt to model common infrastructure construction, there is research that collects and analyzes spoken dialogues in which two workers achieve a task.
  • the present invention has been made in view of the above, and aims to realize advanced conversation with the user.
  • the utterance information acquisition unit acquires utterance information of collaborators who perform collaborative work to achieve the tasks through dialogue.
  • the dialog control unit acquires information on the intermediate process until the task is achieved by the plurality of workers performing the joint work through dialog, and the utterance information acquired by the utterance information acquisition unit
  • a system utterance is generated using an estimation model based on process information and subjective result information indicating an intermediate result of the collaborative work by its own device.
  • the output unit outputs the system utterance generated by the dialogue control unit to the collaborators.
  • FIG. 1 is a block diagram of an interactive device according to an embodiment.
  • FIG. 2 is a diagram showing an example of dialogue registered in the collaborative work corpus.
  • FIG. 3 is a diagram showing a work example of joint figure placement work.
  • FIG. 4 is a diagram showing an output example of the speech information acquisition unit.
  • FIG. 5 is a block diagram relating to the learning function of the dialog control unit using the collaborative work corpus.
  • FIG. 6 is a flowchart of estimation model learning processing by the interactive device according to the embodiment.
  • FIG. 7 is a flowchart of dialogue control processing by the dialogue device according to the embodiment.
  • FIG. 8 is a diagram showing an example of a computer that executes a dialogue program for dialogue control processing.
  • dialog device dialog control method, and dialog program disclosed in the present application will be described in detail below with reference to the drawings.
  • the dialog device, dialog control method, and dialog program disclosed in the present application are not limited to the following embodiments.
  • FIG. 1 is a block diagram of an interactive device according to an embodiment.
  • the dialogue device 1 has an utterance information acquisition unit 11, a dialogue intention management unit 12, a dialogue control unit 13, an output unit 14, and an information storage unit 15, as shown in FIG.
  • the dialogue device 1 performs joint and independent work through dialogue with a user who is a collaborator to solve a given problem.
  • a work jointly performed by the interactive device 1 through dialogue with a user is called a joint work.
  • a dialogue device 1 is connected to a spoken text output device 2 and a work terminal device 3 .
  • the utterance text output device 2 is, for example, a device that recognizes voice utterances input to a microphone, converts them into text, and outputs the text to the dialogue device 1 . Further, the speech text output device 2 may output text information of speech input by a user operating an input device such as a keyboard.
  • the work terminal device 3 is a terminal used by a plurality of other workers when the interactive device 1 jointly performs a joint work with the user.
  • the work terminal device 3 outputs, to the dialogue device 1, information on dialogues exchanged by a plurality of other workers when performing joint work and information on work progress.
  • the information storage unit 15 is a storage device such as a hard disk that stores various information used for dialogue.
  • the information storage unit 15 holds a collaborative work corpus 51 , dialogue intention information 52 , subjective result information 53 and common base information 54 .
  • the collaborative work corpus 51 is information that summarizes the texts and work progress of each worker when multiple workers independently solve a problem through dialogue.
  • the joint work corpus is information on the intermediate process until a task is achieved by a plurality of workers performing joint work through dialogue.
  • work progress is linked to specific sentences together with sentences representing dialogues. That is, the collaborative work corpus 51 indicates what kind of work was done when a specific dialogue took place.
  • the information indicating what kind of work has been done is, for example, in the case of work to move a figure on the xy coordinate plane, it is represented as which figure was moved to which xy coordinate position.
  • the joint work corpus 51 acquires and stores information on conversations and work progress that are exchanged by a plurality of other workers during joint work transmitted from the work terminal device 3 .
  • FIG. 2 is a diagram showing an example of dialogue registered in the collaborative work corpus.
  • ID is an identification number of each utterance.
  • S represents an operator.
  • the utterance is information indicating the content of the utterance made by the worker.
  • the dialogues shown in FIG. 2 represent dialogues collected when workers A and B jointly perform figure placement work.
  • a joint figure placement task is a task in which two workers place figures independently while exchanging dialogues.
  • some of the sentences shown in FIG. 2 are associated with work progress.
  • FIG. 3 is a diagram showing an example of joint figure placement work.
  • a screen 101 in FIG. 3 is a work screen for worker A.
  • the screen 102 is the work screen of the worker B.
  • Screens 101 and 102 are displayed on the work terminal device 3 operated by worker A and the work terminal device 3 operated by worker B, respectively.
  • Worker A does not check the screen 102
  • worker B does not check the screen 101 .
  • the worker A and the worker B work together to complete their own picture while imagining the working state of each other through dialogue.
  • the figure placement screens 111 and 112 are work spaces for figure placement.
  • the chat screens 121 and 122 are spaces in which each worker's speech is displayed as text. At the top of the screen, there are buttons to start and finish work, and the remaining work time, such as a maximum of 10 minutes, is displayed. Workers A and B are provided with the same set of figures arranged at random, so they use chat screens 121 and 122 to discuss how to arrange them, and mutually decide on a common arrangement.
  • the graphics layout screens 111 and 121 the rotation, enlargement/reduction, and deletion of the graphics cannot be performed, and the plane movement operation using the mouse is enabled.
  • the work terminal device 3 records, as an operation log, the start and end times of the drag-and-drop of the figure and the respective coordinates.
  • the work terminal device 3 stores this operation log in the joint work corpus 51 as work progress information.
  • the common base can be quantitatively recorded by recording the figure layout during work and regarding a part of the figure layout as the common base.
  • FIG. 1 In this embodiment, two types of figures are prepared as figures to be arranged: a simple figure, which is the simplest figure, and a building figure, for which it is thought that prior knowledge about the figure can be used.
  • the simple graphics and building graphics are composed of 10 types of graphics, respectively.
  • the initial layout was created by setting the number of figures in each type to 5 or 7, with overlapping, and random sizes and positions.
  • the dialogue device 1 uses the collaborative work corpus 51 to learn how to generate utterances and to estimate the results of independent work and the work results of coworkers. We will build a system that can accomplish joint figure placement tasks with users.
  • the dialogue intention information 52 is information that serves as a basis for determining how to proceed with the dialogue, and is information that is set according to the purpose of the dialogue.
  • an initial value is registered in advance by the user.
  • the dialogue intention information 52 is managed as a list of natural sentences.
  • the dialog intention information 52 includes the sentence "Match the other's and your own pictures through dialog” as an initial value because of the conditions of the task. Further, through the dialogue, intentions such as “create a beautiful arrangement” and “make a Pinocchio face” are added and updated as the dialogue intention information 52 by the dialogue intention management unit 12, which will be described later.
  • the subjective result information 53 is information on the results of work performed mainly by the interactive device 1 .
  • the subjective result information 53 is information indicating an interim result of the joint work by its own device.
  • the subjective result information 53 is a picture in which figures created by the interactive device 1 are arranged.
  • the subjective result information 53 reflects the content of the most recent dialogue, and can be regarded as the understanding result of the dialogue apparatus 1 . That is, the subjective result information 53 is the result of estimation by the dialogue control unit 13 .
  • the subjective result information 53 holds graphic types and coordinates as text or numerical values.
  • the common base information 54 is information that indicates the common part between the work result of the dialogue partner and the subjective result information 53 that is the work result of the dialogue device 1 .
  • a picture created by a dialogue partner or the dialogue apparatus 1 in a joint figure placement work can be regarded as a work result reflecting how each person understands the contents of the dialogue. Therefore, by introducing a scale for quantitatively measuring the common base as the common base information 54, it is possible to determine to what extent the common base has been constructed, for example, which figure is regarded as the common base in the case of joint figure placement work. It is possible to mechanically handle information such as whether it is possible. In this embodiment, the distance of the difference between the vectors defined between any two figures is used as a scale for quantitatively measuring the common base.
  • the difference between vectors v A, ij defined between figures i and j in the figure arrangement of worker A and vectors v B, ij similarly defined for worker B is Used as a measure of whether a figure is grounded or not. Then, the sum of the distances between the figures is used as a measure of how well the common base is constructed for the entire picture. The lower this value, which is used as a measure of how well a common base has been constructed for the entire picture, the more the common base has been constructed.
  • the common base information 54 it is possible to determine to what extent the common base with the work partner has been established. Therefore, when the common base information 54 exceeds a certain value, it is possible to add control to proceed in the direction of ending the dialogue. In addition, by presenting this common base information 54 to the partner of the joint work, it becomes possible to share an understanding of what percentage of the work matches.
  • the speech information acquisition unit 11 receives user speech represented by text from the speech text output device 2 . That is, the utterance information acquisition unit 11 acquires utterance information of co-workers who perform collaborative work to achieve a task through dialogue. Next, the speech information acquisition unit 11 performs language analysis on the received user speech. After that, the utterance information acquisition unit 11 outputs the analysis result to the dialogue intention management unit 12 and the dialogue control unit 13 .
  • the utterance information acquisition unit 11 performs morphological analysis, focal word extraction for extracting keywords representing topics, proper noun extraction, evaluative expression extraction, modality extraction for extracting the presence or absence of negative expressions, and dialogue act estimation.
  • FIG. 4 is a diagram showing an output example of the speech information acquisition unit.
  • a line in the output example 130 represents an input sentence. forms and poses are results of morphological analysis by the speech information acquisition unit 11 .
  • names represents the result of proper noun extraction by the utterance information acquisition unit 11 .
  • sems represents the result of modality extraction by the utterance information acquisition unit 11 .
  • evals represents the result of evaluation expression extraction by the utterance information acquisition unit 11 .
  • cents represents the result of focus word extraction by the utterance information acquisition unit 11 .
  • da represents an estimation result of dialogue act estimation by the utterance information acquisition unit 11 .
  • the dialogue intention management unit 12 refers to the dialogue texts of the collaborative work corpus 51 and identifies utterances related to "suggestions" in dialogue acts as candidates for extracting dialogue intentions.
  • the dialogue act is, for example, ⁇ Toyomi Meguro, Ryuichiro Higashinaka, Koji Dosaka, Yasuhiro Minami, Analysis of Listening Dialogue and Construction of a Dialogue Control Unit Based on Analysis, Transactions of Information Processing Society of Japan, Vol. 53, No. 12, pp.2787. -2801" is obtained as information estimated using an estimator based on the system disclosed in ".
  • the dialogue intention management unit 12 extracts from the utterances specified as candidates whose degree of matching with the user's utterance is equal to or greater than a threshold in the degree of matching of character strings using the Levenshtein distance or the like.
  • the matching degree threshold can be set to 0.8, for example, when using the Reberstein distance.
  • the dialogue intention management unit 12 updates the dialogue intention information 52 by adding the extracted words or sentences to the dialogue intention information 52 .
  • the dialogue intention management unit 12 is based on the utterance information acquired by the utterance information acquisition unit 11 and information on the intermediate process until the task is achieved by a plurality of workers working together through dialogue. , to identify the interaction intent of interactions between users who are collaborators.
  • FIG. 5 is a block diagram relating to the learning function of the dialog control unit using the collaborative work corpus.
  • the interaction control unit 13 performs learning using multitask learning, in which learning for a plurality of different outputs is performed in parallel.
  • the dialog control unit 13 has a language feature extractor 31, an image feature extractor 32, a feature extractor 33, a parameter updating unit 34, and an estimation model 35, as shown in FIG.
  • the dialog control unit 13 receives input of dialog intention information 52, subjective work result information, and dialog context information.
  • the dialog control unit 13 extracts the subjective work result information and the dialog context information from the collaborative work corpus 51 and inputs them.
  • the dialogue control unit 13 selects one of the workers. Then, the dialog control unit 13 selects sentences uttered by the selected worker at a specific stage of the dialog from among the dialog texts. Then, the dialogue control unit 13 acquires the previous utterance of the other party for the selected sentence as the dialogue context. Further, the dialogue control unit 13 acquires the work result of the selected worker linked to the end of the selected sentence or sentences before it as a subjective work result.
  • the linguistic feature extractor 31 converts the input dialogue intention information 52 into a vector representation into a format that can be processed by the estimation model 35 .
  • the linguistic feature extractor 31 can be realized, for example, by converting a sentence into a vector using BERT (Bidirectional Encoder Representations from Transformers).
  • the image feature extractor 32 converts the input subjective result information 53 into a vector representation and converts it into a format that can be processed by the estimation model 35 .
  • the image feature extractor 32 can be realized, for example, by converting an image into a vector using ResNet.
  • the feature extractor 33 converts the input dialogue context into a vector representation and converts it into a format that can be processed by the estimation model 35 .
  • the feature extractor 33 and the estimation model 35 can be collectively learned as a single deep learning model.
  • the estimation model 35 can be implemented by using a deep learning framework such as PyTorch Lightning for multitask learning. It is preferable that the estimation model 35 be prepared so that the output layers are matched to a plurality of pieces of information to be output. For example, in this embodiment, as the output layer of the estimation model 35, three layers are prepared: the next subjective work result, the next partner's work result, and the next system utterance.
  • a deep learning framework such as PyTorch Lightning for multitask learning. It is preferable that the estimation model 35 be prepared so that the output layers are matched to a plurality of pieces of information to be output. For example, in this embodiment, as the output layer of the estimation model 35, three layers are prepared: the next subjective work result, the next partner's work result, and the next system utterance.
  • the parameter updating unit 34 acquires from the estimation model 35 the estimation result, which is the output of each output layer of the estimation model 35 . Also, the parameter updating unit 34 analyzes the joint work corpus 51 and acquires correct labels corresponding to the estimation results. Specifically, the parameter updating unit 34 acquires the correct label of the next system utterance from the dialogue sentences included in the collaborative work corpus 51 . Also, the parameter updating unit 34 acquires the correct label of the next subjective work result and the next partner's work result by using the work progress linked to the sentences included in the collaborative work corpus 51 . Then, the parameter updating unit 34 calculates the error between the estimation result output from the estimation model 35 and the correct label.
  • the parameter updating unit 34 acquires the next subjective work result 201, the next partner's work result 202, and the next system utterance 203 shown in FIG. Next, the parameter updating unit 34 analyzes the joint work corpus 51 and sets the correct label of each estimation result as the correct label 211 for the next subjective work result, the correct label 212 for the next partner's work result, and the correct label 212 for the next partner's work result. obtains the correct answer 213 of the system utterance of . Then, the parameter updating unit 34 determines the difference between the next subjective work result 201 and the correct answer 211 for the next subjective work result, and the difference between the next partner's work result 202 and the correct answer 212 for the next partner's work result. Calculate the error and the error between the next system utterance 203 and the correct answer 213 of the next system utterance.
  • the parameter updating unit 34 adjusts and updates the parameters so that each error is minimized. After that, the parameter updating unit 34 feeds back the updated parameter information to the estimation model 35 .
  • the dialog control unit 13 repeats updating the parameters of the estimation model 35 until a predetermined learning end condition is reached.
  • the learning end condition may be, for example, when a predetermined number of updates is exceeded, or when an error reaches a predetermined error threshold.
  • the interaction control unit 13 can advance learning so that appropriate values are output in all output layers of the estimation model 35 .
  • the dialogue control unit 13 updates the estimation model 35 based on the information on the intermediate process and the subjective result information 53 until a plurality of workers perform the joint work through dialogue to achieve the task. do.
  • the dialogue control unit 13 updates the subjective result information 53, estimates the partner's work result, and generates a system utterance. Specifically, the dialogue control unit 13 receives input of text information of user's speech from the speech text output device 2 . Further, the dialogue control unit 13 acquires the dialogue intention information 52 from the information storage unit 15 . Furthermore, the dialogue control unit 13 acquires subjective result information 53 from the information storage unit 15 .
  • the dialogue control unit 13 estimates the next subjective work result, It estimates the work result of the other party and estimates the next system utterance, which is the utterance from its own device.
  • the dialogue control unit 13 stores the estimation result of the next subjective work in the information storage unit 15 as the subjective result information 53 .
  • the subjective result information 53 is an expression of a picture
  • the dialogue control section 13 holds figure types and coordinates as text or numerical values.
  • the dialogue control unit 13 outputs to the output unit 14 the estimation result of the next system utterance, which is the next utterance from its own device.
  • the matching part between the estimation result of the next partner's work and the subjective result information 53 can be regarded as the common base information 54.
  • the dialogue apparatus 1 and the user, who is the work partner can generate system utterances based on the estimation model, thereby forming a common platform. It is possible to have a dialogue based on In other words, it is possible to realize a system that allows the user to jointly accomplish the figure placement task.
  • the dialogue control unit 13 extracts a common part between the estimation result of the next subjective work result and the estimation result of the next partner's work result. Then, the dialogue control unit 13 updates the common base information 54 to the information of the extracted common part. That is, the dialogue control unit 13 uses the estimation model based on the utterance information, the information on the intermediate process until the task is achieved by a plurality of workers working together through dialogue, and the subjective result information 53. The next subjective result information 53 and the work result of the next partner are estimated, and a common basis with the user who is a collaborator is specified based on the estimation result.
  • the dialog control unit 13 controls the vector v A, ij defined between figures i and j in the figure placement of worker A, and the vector v A, ij similarly defined by worker B Compute the difference from vB,ij . Then, the dialogue control unit 13 uses the distance as a measure of whether or not the figure is based, and the sum of the distances as a measure showing how much common base is constructed for the entire picture as common base information 54. ⁇
  • the dialogue control unit 13 refers to the common base information 54 and determines to what extent the common base has been completed between the work partner and the work. For example, when the common base information 54 exceeds a predetermined value, the dialogue control unit 13 determines that a common base sufficient to solve the problem has been obtained, and controls the dialogue to end. good. Specifically, the dialog control unit 13 may generate a system utterance that leads to the end of the dialog. That is, the dialogue control unit 13 generates system utterances based on a common basis with the collaborators. Further, the dialogue control unit 13 may output the common base information 54 to the output unit 14 .
  • the dialogue control unit 13 acquires information on the intermediate process until a task is achieved by a plurality of workers performing joint work through dialogue, and the utterance information acquired by the utterance information acquisition unit 11, A system using an estimation model based on subjective result information 53 that indicates the intermediate results of the joint work by the own device and information on the intermediate process until a task is achieved by a plurality of workers performing joint work through dialogue. Generate utterances. More specifically, the dialogue control unit 13 generates a system utterance based on the dialogue intention information 52 indicating the dialogue intention specified by the dialogue intention management unit 12, the utterance information, and the subjective result information 53.
  • the output unit 14 receives the input of the next system utterance from the dialog control unit 13 . Then, the output unit 14 outputs the acquired system utterance. Here, when there are a plurality of utterance candidates, the output unit 14 selects one utterance based on a predetermined priority such as dictionary order, and outputs the selected utterance as a system utterance. If there are multiple system utterances, the output unit 14 collectively outputs them as one system utterance. In addition, the output unit 14 may add character to the system utterance or perform processing to improve the fluency of the system utterance. For example, characterization is performed by converting all endings to "gozaru". The fluency improvement process is a process such as lexically deleting unnatural expressions or inappropriate expressions.
  • the output unit 14 may receive input of the common base information 54 from the dialogue control unit 13 . In this case, the output unit 14 outputs the acquired common base information 54 to the work partner with whom the worker is having a dialogue. As a result, the dialogue apparatus 1 and the user who is the work partner can maintain a common recognition of what percentage of the common base has been established until the work is completed.
  • FIG. 6 is a flowchart of an estimation model learning processing procedure by the interactive device according to the embodiment. Next, the flow of dialogue control processing by the dialogue device 1 according to this embodiment will be described with reference to FIG.
  • the dialog control unit 13 acquires the dialog intention information 52 from the information storage unit 15 (step S11).
  • the dialogue control unit 13 acquires subjective work results and dialogue context from the collaborative work corpus 51 (step S12).
  • the linguistic feature extractor 31 converts the acquired dialogue intention information 52 into a vector representation into a format that can be processed by the estimation model 35 .
  • the image feature extractor 32 converts the acquired subjective work result into a vector representation into a format that can be processed by the estimation model 35 .
  • the feature extractor 33 also converts the acquired dialogue context into a vector representation into a format that can be processed by the estimation model 35 (step S13).
  • the dialogue control unit 13 inputs the dialogue intention information 52 converted into vector representation, the subjective work result, and the dialogue context to the estimation model 35 (step S14).
  • the parameter update unit 34 acquires the next subjective work result, the next partner's work result, and the next estimation result of the system utterance, which are outputs of each output layer of the estimation model 35 (step S15).
  • the parameter updating unit 34 analyzes the joint work corpus 51 and acquires the correct label corresponding to the estimation result (step S16).
  • the parameter updating unit 34 calculates the error between the estimation result output from the estimation model 35 and the correct label. After that, the parameter updating unit 34 adjusts the parameters of the estimation model using the calculated error (step S17).
  • the parameter updating unit 34 feeds back information on the adjusted parameters to the estimation model 35 to update the estimation model 35 (step S18).
  • step S19 determines whether or not the learning end condition is reached. If the learning end condition is not met (step S19: No), the dialogue control unit 13 returns to step S12. On the other hand, when the learning end condition is reached (step S19: affirmative), the dialogue control unit 13 ends the learning process of the estimation model 35. FIG.
  • FIG. 7 is a flowchart of dialogue control processing by the dialogue device according to the embodiment. Next, the flow of dialogue control processing by the dialogue device 1 according to this embodiment will be described with reference to FIG.
  • the utterance information acquisition unit 11 and the dialogue control unit 13 receive input of user utterance information (step S21).
  • the utterance information acquisition unit 11 performs language analysis on the acquired user utterance (step S22). After that, the utterance information acquisition unit 11 outputs the analysis result of the user utterance to the dialogue intention management unit 12 .
  • the dialogue control unit 13 acquires the dialogue intention information 52 and subjective result information 53 from the information storage unit 15 (step S23).
  • the dialog control unit 13 inputs the user utterance, the dialog intention information 52 and the subjective result information 53 into the estimation model (step S24).
  • the dialog control unit 13 uses the output from the estimation model and the common base information 54 to acquire the next subjective work result, the next partner's work result, and the next estimation result of the system utterance (step S25).
  • the dialogue control unit 13 updates the subjective result information 53 with the estimated next subjective work result (step S26).
  • the dialogue control unit 13 updates the common base information 54 (step S27).
  • the dialog control unit 13 outputs the estimation result of the next system utterance to the output unit 14.
  • the output unit 14 outputs the estimated system utterance to the terminal of the conversation partner or the like (step S28).
  • the dialogue control unit 13 determines whether or not the common base information 54 has exceeded a predetermined value for the first time (step S29). When the common base information 54 exceeds the predetermined value for the first time (step S29: affirmative), the dialogue control unit 13 adds dialogue end control for leading the dialogue to end (step S30). Thereafter, the dialogue control process proceeds to step S31.
  • step S29: No the dialogue control process proceeds to step S31.
  • step S31 determines whether or not the joint work has ended. If the joint work has not ended (step S31: No), the dialogue control process returns to step S21. On the other hand, if the joint work has ended (step S31: affirmative), the dialogue control unit 13 ends the dialogue control process.
  • the dialogue device 1 grasps the dialogue intention, estimates and updates the next subjective work result from the subjective work result and the user's utterance, and updates the next subjective work result. Estimate system utterances and conduct dialogues. As a result, it becomes possible to accomplish the task together with the user through collaborative work using dialogue. In other words, it is possible to construct a common base together with the user through dialogue, and to appropriately build an estimation model that conducts dialogue based on that. In addition, it is preferable to build up an understanding of the content of dialogues involving complicated content.
  • the interactive device 1 can build up a common base while accumulating subjective work results for understanding by the device itself, and can be used for advanced communication with users such as education, discussion, or negotiation. It is possible to realize a system that allows for meaningful dialogue.
  • the joint figure placement work of two people has been described as an example, but other processes may be used as long as they work together through dialogue to solve a specific problem.
  • the interactive device 1 according to the present embodiment can achieve the same effect in determining the layout of furniture.
  • each component of each device illustrated is functionally conceptual, and does not necessarily need to be physically configured as illustrated.
  • the specific form of distribution and integration of each device is not limited to the illustrated one, and all or part of them can be functionally or physically distributed or Can be integrated and configured.
  • all or any part of each processing function performed by each device is realized by a CPU (Central Processing Unit) and a program analyzed and executed by the CPU, or hardware by wired logic can be realized as
  • the information processing device can function as the interactive device 1 by causing the information processing device to execute the above program provided as package software or online software.
  • the information processing apparatus referred to here includes a desktop or notebook personal computer.
  • information processing devices include smart phones, mobile communication terminals such as mobile phones and PHSs (Personal Handyphone Systems), and PDAs (Personal Digital Assistants).
  • the alert verification device 10 may be implemented in a cloud server.
  • FIG. 8 is a diagram showing an example of a computer that executes a dialogue program for dialogue control processing.
  • computer 1000 includes memory 1010, CPU 1020, hard disk drive interface 1030, disk drive interface 1040, serial port interface 1050, video adapter 1060, and network interface 1070, for example. These units are connected by a bus 1080 .
  • the memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM (Random Access Memory) 1012 .
  • the ROM 1011 stores a boot program such as BIOS (Basic Input Output System).
  • BIOS Basic Input Output System
  • Hard disk drive interface 1030 is connected to hard disk drive 1090 .
  • a disk drive interface 1040 is connected to the disk drive 1100 .
  • a removable storage medium such as a magnetic disk or an optical disk is inserted into the disk drive 1100, for example.
  • a mouse 1110 and a keyboard 1120 are connected to the serial port interface 1050, for example.
  • a display 1130 is connected to the video adapter 1060 .
  • the hard disk drive 1090 stores, for example, an OS 1091, application programs 1092, program modules 1093, and program data 1094. That is, an alert verification program defining each process of the dialog device 1 having functions equivalent to those of the dialog device 1 is implemented as a program module 1093 in which computer-executable code is described.
  • Program modules 1093 are stored, for example, on hard disk drive 1090 .
  • the hard disk drive 1090 stores a program module 1093 for executing processing similar to the functional configuration in the interactive device 1 .
  • the hard disk drive 1090 may be replaced by an SSD (Solid State Drive).
  • the setting data used in the processing of the above-described embodiment is stored as program data 1094 in the memory 1010 or the hard disk drive 1090, for example. Then, the CPU 1020 reads the program modules 1093 and program data 1094 stored in the memory 1010 and the hard disk drive 1090 to the RAM 1012 as necessary, and executes the processes of the above-described embodiments.
  • the program modules 1093 and program data 1094 are not limited to being stored in the hard disk drive 1090, but may be stored in a removable storage medium, for example, and read by the CPU 1020 via the disk drive 1100 or the like. Alternatively, the program modules 1093 and program data 1094 may be stored in another computer connected via a network (LAN (Local Area Network), WAN (Wide Area Network), etc.). Program modules 1093 and program data 1094 may then be read by CPU 1020 through network interface 1070 from other computers.
  • LAN Local Area Network
  • WAN Wide Area Network

Abstract

発話情報取得部(11)は、対話を通じて課題を達成するための共同作業を行う共同作業者の発話情報を取得する。対話制御部(13)は、複数名の作業者が対話を通じて共同作業を行うことで課題を達成するまでの途中過程の情報を取得し、発話情報取得部(11)により取得された発話情報、途中過程の情報及び共同作業の自装置による中間結果を示す主体的結果情報を基に、推定モデルを用いてシステム発話を生成する。出力部(14)は、対話制御部(13)により生成されたシステム発話を共同作業者に対して出力する。

Description

対話装置、対話制御方法及び対話プログラム
 本発明は、対話装置、対話制御方法及び対話プログラムに関する。
 対話システムにおいて、人間はコンピュータと対話を行い、種々の情報の収集や要望の充足を実現する。また、所定のタスクを達成するだけではなく、日常会話を行う対話システムも存在する。このような日常会話を行う対話システムにより、人間は精神的な安定の確保や、承認欲の充足や、信頼関係の構築を行う。このように、対話システムには様々な類型が存在する。
 現在の雑談対話システムは、それまでの対話により構築された状態の情報を持たず、直前のユーザ発話の情報に基づいてシステム発話を選択・生成する一問一答のものが主流である。一問一答の雑談対話システムは、複雑な一問一答を越える対話が難しいため、複雑なやり取りを必要とする雑談の場合、利用者の満足度が低くなるという問題がある。この問題を解決するための手段として、共通基盤と呼ばれる情報をシステムに持たせる方法がある。共通基盤とは、対話において、対話の参加者の間で共有される知識や信念などの情報であり、相互信念とも呼ばれる。
 対話をモデル化する上で共通基盤は重要な概念の一つであるが、現時点では、共通基盤が構築される過程を分析した研究は少ない。例えば、共通基盤構築をモデル化するための試みとして、二名の作業者が課題を達成する音声対話を収集し分析した研究が存在する。
Takuma Udagawa and Akiko Aizawa, A natural language corpus of common grounding under continuous and partially-observable context, In Proc. AAAI, pp. 7120-7127, 2019.
 従来の共通基盤を用いた研究では、作業者が実施した課題の成果を共通基盤とみなし、対話と共通基盤の関係の分析が行われる。しかしながら、課題が達成されるまでの過程は定量的に記録されていない。そのため、対話を通じてどのように共通基盤が構築されていったのかを捉えることが困難であり、共通基盤に基づく対話システムの構築が難しい。
 本発明は、上記に鑑みてなされたものであって、利用者との高度な会話を実現することを目的とする。
 上述した課題を解決し、目的を達成するために、発話情報取得部は、対話を通じて課題を達成するための共同作業を行う共同作業者の発話情報を取得する。対話制御部は、複数名の作業者が対話を通じて前記共同作業を行うことで前記課題を達成するまでの途中過程の情報を取得し、前記発話情報取得部により取得された前記発話情報、前記途中過程の情報及び前記共同作業の自装置による中間結果を示す主体的結果情報を基に、推定モデルを用いてシステム発話を生成する。出力部は、前記対話制御部により生成された前記システム発話を前記共同作業者に対して出力する。
 本発明によれば、利用者との高度な会話を実現することができる。
図1は、実施形態に係る対話装置のブロック図である。 図2は、共同作業コーパスに登録された対話例を示す図である。 図3は、共同図形配置作業の作業例を示す図である。 図4は、発話情報取得部の出力例を示す図ある。 図5は、共同作業コーパスを利用した対話制御部の学習機能に関するブロック図である。 図6は、実施形態に係る対話装置による推定モデルの学習処理のフローチャートである。 図7は、実施形態に係る対話装置による対話制御処理のフローチャートである。 図8は、対話制御処理のための対話プログラムを実行するコンピュータの一例を示す図である。
 以下に、本願の開示する対話装置、対話制御方法及び対話プログラムの一実施形態を図面に基づいて詳細に説明する。なお、以下の実施形態により本願の開示する対話装置、対話制御方法及び対話プログラムが限定されるものではない。
[実施形態]
[装置構成]
 図1は、実施形態に係る対話装置のブロック図である。対話装置1は、図1に示すように、発話情報取得部11、対話意図管理部12、対話制御部13、出力部14及び情報格納部15を有する。対話装置1は、共同作業者であるユーザとの対話を通して共同で独立した作業を行って、与えられた課題を解決する。対話装置1がユーザと対話を通して共同で行う作業のことを共同作業と呼ぶ。対話装置1は、発話テキスト出力装置2及び作業端末装置3に接続される。
 発話テキスト出力装置2は、例えば、マイクに入力された音声発話を認識してテキストに変換して対話装置1へ出力する装置である。また、発話テキスト出力装置2は、ユーザがキーボードなどの入力装置を操作することで入力された発話のテキスト情報を出力してもよい。
 作業端末装置3は、対話装置1がユーザとともに行う共同作業を、他の複数の作業者が共同して実行した際に、その複数の作業者が用いた端末である。作業端末装置3は、他の複数の作業者が共同作業を行う際に交わした対話の情報及び作業経過の情報を対話装置1へ出力する。
 情報格納部15は、対話に用いる各種情報を格納するハードディスクなどの記憶装置である。情報格納部15は、共同作業コーパス51、対話意図情報52、主体的結果情報53及び共通基盤情報54を保持する。
 共同作業コーパス51は、複数の作業者が対話を通して独立して課題を解決する際のそれぞれの作業者の対話を表す文章及び作業経過をまとめた情報である。すなわち、共同作業コーパスは、複数名の作業者が対話を通じて共同作業を行うことで課題を達成するまでの途中過程の情報である。共同作業コーパス51は、対話を表す文章とともに特定の文章に作業経過が紐づけられている。すなわち、共同作業コーパス51は、特定の対話が行われたときにどのような作業が行われたかを示す。どのような作業が行われたかを示す情報は、例えば、xy座標平面で図形を動かす作業であれば、どの図形をxy座標のどの位置に動かしたかなどとして表される。
 共同作業コーパス51は、作業端末装置3から送信された他の複数の作業者が共同作業を行う際に交わした対話の情報及び作業経過の情報を取得して格納する。図2は、共同作業コーパスに登録された対話例を示す図である。本実施形態では、2名の作業者が共同作業を行った場合の共同作業コーパス51を例に説明する。IDは、各発話の識別番号である。Sは作業者を表す。発話は、作業者が行った発話の内容を示す情報である。
 図2に記載された対話は、具体的には、作業者A及びBが共同図形配置作業を行った場合に収集された対話を表す。共同図形配置作業とは、二名の作業者が対話を交わしながら独立に図形を配置する課題である。また、図2には記載していないが、共同作業コーパス51では、上述したように図2に記載された文章のいくつかに作業経過が紐づけられる。
 図3は、共同図形配置作業の作業例を示す図である。図3における画面101は、作業者Aの作業画面である。また、画面102は、作業者Bの作業画面である。画面101及び102は、それぞれ、作業者Aが操作する作業端末装置3及び作業者Bが操作する作業端末装置3に表示される。作業者Aは画面102を確認することはなく、逆に、作業者Bは画面101を確認することはない。作業者Aと作業者Bとは、互いに対話によって相手の作業状態を想像しつつ自分の絵を完成させる作業を共同で行う。
 図形配置画面111及び112は、図形配置の作業スペースである。チャット画面121及び122は、各作業者の発話がテキストで表示されるスペースである。また、画面上部には作業開始と終了のボタンが配置され、さらに、最大10分などと決められた作業の残り時間が表示される。作業者A及びBは、同じ図形の集合がそれぞれランダムな配置で与えられるため、どの様な配置にするかをチャット画面121及び122を用いて話し合い、互いの間で共通の配置を決定する。ここで、図形配置画面111及び121では、図形の回転、拡大縮小及び削除は行えず、マウスを用いた平面移動の操作を可能とした。作業端末装置3は、操作のログとして、図形のドラッグアンドドロップの開始及び終了時刻とそれぞれの座標を記録する。作業端末装置3は、この操作ログを作業経過の情報として共同作業コーパス51に格納させる。
 例えば、作業者Aは、チャット画面121に表示される作業者Bとの対話を基に、図形配置画面111に示された各図形の配置位置を変更して、それぞれの図形の自己のイメージに基づく配置を決定する。作業者Bは、図形配置画面112に示された各図形の配置位置を変更して、それぞれの図形の自己のイメージに基づく配置を決定する。作業者Aと作業者Bとは、それぞれのイメージにしたがい図形の配置を決定するので、同一の絵になる可能性は低いが、図形が配置された絵の中で一致する部分が存在する可能性は高い。このとき、作業中の図形配置を記録し、図形配置の一部分を共通基盤とみなすことで、共通基盤を定量的に記録することができる。
 本実施形態では、配置対象の図形として、最も単純な図形である単純図形及び図形に関する前提知識を利用できると考えられる建物図形の二種類を用意した。単純図形及び建物図形は、それぞれ10種類の図形で構成される。各種類における図形の個数は5個または7個として、重複ありでランダムな大きさ及び位置に設定して初期配置を作成した。
 例えば、図2に示すように共同図形配置作業が進んだ場合、作業者Aと作業者BとはU15までで最終的な配置イメージを合意する。そして、作業者Aと作業者Bとは、U16以降で相談しながら図形の配置を行う。この中には、U21のようにお互いの配置を確認する発話など、共通基盤構築に関係する発話が確認できる。そこで、対話装置1は、共同作業コーパス51を用いて、発話の生成、並びに、自主的な作業結果及び共同作業者の作業結果の推測の方法を学習することで、対話による共同作業者であるユーザと共に共同図形配置課題を達成可能なシステムを構築する。
 図1に戻って説明を続ける。対話意図情報52は、対話をどう進めるかということを決定するための元となる情報であり、対話の目的に合わせて設定される情報である。対話意図情報52は、利用者により予め初期値が登録される。本実施形態では,対話意図情報52は自然文のリストとして管理される。
 例えば、共同図形配置作業の場合、課題の条件から、対話意図情報52には初期値として「相手と自分の絵を、対話を通じて揃える」という文が含まれる。また、対話を通じて、例えば「美しい配置を作る」や「ピノキオの顔を作る」といった意図が対話意図情報52として、後述する対話意図管理部12により追加され更新される。
 主体的結果情報53は、対話装置1が主体となって行った作業結果の情報である。主体的結果情報53は、共同作業の自装置による中間結果を示す情報である。例えば、共同図形配置作業の場合、主体的結果情報53は、対話装置1が作成した図形が配置された絵である。主体的結果情報53は、直近の対話内容を反映したものであり、対話装置1の理解結果とみなすことができる。すなわち、主体的結果情報53は、対話制御部13による推定結果である。例えば、共同図形配置作業の場合、主体的結果情報53は、図形種別や座標をテキストまたは数値として保持される。
 共通基盤情報54は、対話の相手の作業結果と対話装置1の作業結果である主体的結果情報53との共通部分を示す情報である。例えば、共同図形配置作業における対話の相手や対話装置1が作成した絵は、それぞれが対話内容をどのように理解しているかを反映した作業結果とみなすことができる。そこで、共通基盤を定量的に測る尺度を共通基盤情報54として導入することで、どの程度共通基盤が構築できているか、例えば、共同図形配置作業であれば、どの図形が共通基盤とみなすことができるかといった情報を機械的に扱うことができる。本実施形態では、任意の2つの図形間で定義されるベクトルの差の距離を、共通基盤を定量的に図る尺度として利用する。
 本実施形態では、作業者Aの図形配置における図形iとjとの間で定義されるベクトルvA,ijと、作業者Bで同様に定義されるベクトルvB,ijとの差が、各図形が基盤化されているか否かの尺度として用いられる。そして、各図形間の距離の総和が、絵全体として共通基盤がどの程度構築できているかの尺度として用いられる。絵全体として共通基盤がどの程度構築できているかの尺度とするこの値が低いほど、共通基盤が構築されていることが表わされる。
 例えば、共通基盤情報54により、どの程度作業相手との共通基盤が確立されたかを判定することができる。そこで、この共通基盤情報54がある一定値を超えた場合に、対話を終わらす方向に進める制御を加えるなどすることが可能となる。また、この共通基盤情報54を共同作業の相手に提示することで、作業の何割くらいが一致しているかとの理解を共有することが可能となる。
 発話情報取得部11は、テキストで表されるユーザ発話を発話テキスト出力装置2から受け付ける。すなわち、発話情報取得部11は、対話を通じて課題を達成するための共同作業を行う共同作業者の発話情報を取得する。次に、発話情報取得部11は、受け付けたユーザ発話に対して言語解析を行う。その後、発話情報取得部11は、解析結果を対話意図管理部12及び対話制御部13へ出力する。
 例えば、発話情報取得部11は、形態素解析、話題を表すキーワードの抽出を行う焦点語抽出、固有名詞抽出、評価表現抽出、否定表現の有無などを抽出するモダリティ抽出及び対話行為推定を行う。図4は、発話情報取得部の出力例を示す図である。出力例130におけるlineは、入力文を表す。forms及びposesは、発話情報取得部11による形態素解析の結果である。namesは、発話情報取得部11による固有名詞抽出の結果を表す。semsは、発話情報取得部11によるモダリティ抽出の結果を表す。evalsは、発話情報取得部11による評価表現抽出の結果を表す。centsは、発話情報取得部11による焦点語抽出の結果を表す。daは、発話情報取得部11による対話行為推定による推定結果を表す。
 対話意図管理部12は、例えば、共同作業コーパス51の対話テキストを参照し、対話行為で「提案」に関する発話を、対話意図を抽出するための候補として特定する。ここで、対話行為は、例えば、「目黒豊美、東中竜一郎、堂坂浩二、南泰浩,聞き役対話の分析および分析に基づいた対話制御部の構築,情報処理学会論文誌53巻12号 pp.2787-2801」に開示された体系に基づく推定機を利用して推定した情報として得られる。そして、対話意図管理部12は、レーベンシュタイン距離などを用いて文字列の一致度でユーザの発話との一致度が閾値以上のもの候補として特定した発話の中から抽出する。一致度の閾値は、例えば、レーベルシュタイン距離を用いる場合、0.8とすることができる。そして、対話意図管理部12は、抽出した言葉もしくは文章を、対話意図情報52に追加することで対話意図情報52を更新する。
 このように、対話意図管理部12は、発話情報取得部11により取得された発話情報及び複数名の作業者が対話を通じて共同作業を行うことで課題を達成するまでの途中過程の情報を基に、共同作業者であるユーザとの間の対話の対話意図を特定する。
(推定モデルの学習処理)
 対話制御部13は、共同作業コーパス51を基に推定に用いる推定モデルの学習を行う。図5は、共同作業コーパスを利用した対話制御部の学習機能に関するブロック図である。本実施形態では、対話制御部13は、複数の異なる出力についての学習を並行して同時に行うマルチタスク学習を用いて学習を実行する。
 対話制御部13は、図5に示すように、言語特徴抽出器31、画像特徴抽出器32、特徴抽出器33、パラメータ更新部34及び推定モデル35を有する。対話制御部13は、対話意図情報52、主体的な作業結果の情報及び対話文脈の情報の入力を受ける。ここで、対話制御部13は、主体的な作業結果の情報及び対話文脈の情報を共同作業コーパス51から抽出して入力とする。
 例えば、対話制御部13は、2人の作業者が共同作業を行った共同作業コーパス51の場合、いずれかの作業者を選択する。そして、対話制御部13は、対話テキストの中から、ある特定の対話の段階における選択した作業者の発話の文章を選択する。そして、対話制御部13は、その選択した文章に対する前の相手の発話を対話文脈として取得する。また、対話制御部13は、その選択した文章もしくはそれ以前の文章のうちの最後に紐づけられた選択した作業者の作業結果を、主体的な作業結果として取得する。
 言語特徴抽出器31は、入力された対話意図情報52をベクトル表現に変換して推定モデル35が処理可能な形式に変換する。言語特徴抽出器31は、例えば、BERT(Bidirectional Encoder Representations from Transformers)を用いて文をベクトルに変換することで実現可能である。
 画像特徴抽出器32は、入力された主体的結果情報53をベクトル表現に変換して推定モデル35が処理可能な形式に変換する。画像特徴抽出器32は、例えば、ResNetを用いて画像をベクトルに変換することで実現可能である。
 特徴抽出器33は、入力された対話文脈をベクトル表現に変換して推定モデル35が処理可能な形式に変換する。ここで、特徴抽出器33及び推定モデル35は単一の深層学習モデルとしてまとめて学習が可能である。
 推定モデル35は、マルチタスク学習としてPyTorch Lightningなどの深層学習フレームワークを用いることで実装可能である。推定モデル35は、出力層を複数の出力する情報に合わせて用意することが好ましい。例えば、本実施形態では、推定モデル35の出力層として、次の主体的な作業結果、次の相手の作業結果、及び、次のシステム発話の3つが用意される。
 パラメータ更新部34は、推定モデル35の各出力層の出力である推定結果を推定モデル35から取得する。また、パラメータ更新部34は、共同作業コーパス51を解析して、推定結果に対応する正解ラベルを取得する。具体的には、パラメータ更新部34は、共同作業コーパス51に含まれる対話の文章から次のシステム発話の正解ラベルを取得する。また、パラメータ更新部34は、共同作業コーパス51に含まれる文章に紐づけられた作業経過を用いて次の主体的な作業結果及び次の相手の作業結果の正解ラベルを取得する。そして、パラメータ更新部34は、推定モデル35から出力された推定結果と正解ラベルとの誤差を計算する。
 例えば、パラメータ更新部34は、推定モデル35から出力された各推定結果として、図5に示す次の主体的な作業結果201、次の相手の作業結果202及び次のシステム発話203を取得する。次に、パラメータ更新部34は、共同作業コーパス51を解析して、各推定結果の正解ラベルとして、次の主体的な作業結果の正解211、次の相手の作業結果の正解212、及び、次のシステム発話の正解213を取得する。そして、パラメータ更新部34は、次の主体的な作業結果201と次の主体的な作業結果の正解211との誤差、次の相手の作業結果202と次の相手の作業結果の正解212との誤差、及び、次のシステム発話203と次のシステム発話の正解213との誤差を算出する。
 次に、パラメータ更新部34は、それぞれの誤差が最小となるようにパラメータを調整して更新する。その後、パラメータ更新部34は、更新したパラメータの情報を推定モデル35にフィードバックする。
 対話制御部13は、予め決められた学習終了条件に達するまで、推定モデル35のパラメータの更新を繰り返す。学習終了条件は、例えば、予め決められた更新回数を超えた場合でもよいし、誤差が予め決められた誤差閾値に達した場合でもよい。このようなマルチタスク学習を行うことで、対話制御部13は、推定モデル35の出力層の全てで適切な値が出力されるように学習を進めることができる。このように、対話制御部13は、複数名の作業者が対話を通じて前記共同作業を行うことで課題を達成するまでの途中過程の情報及び主体的結果情報53を基に、推定モデル35を更新する。
(推定処理)
 対話制御部13は、入力されたユーザ発話を基に、主体的結果情報53の更新、相手の作業結果の推定及びシステム発話の生成を行う。具体的には、対話制御部13は、ユーザ発話のテキスト情報の入力を発話テキスト出力装置2から受ける。また、対話制御部13は、対話意図情報52を情報格納部15から取得する。さらに、対話制御部13は、主体的結果情報53を情報格納部15から取得する。
 そして、対話制御部13は、取得したユーザ発話、対話意図情報52及び主体的結果情報53を基に、保持する学習済みの推定モデルを用いて、次の主体的な作業結果の推定、次の相手の作業結果の推定、及び、次の自装置からの発話であるシステム発話の推定を行う。
 そして、対話制御部13は、次の主体的な作業の推定結果を主体的結果情報53として情報格納部15に格納する。例えば、共同図形配置作業の場合、主体的結果情報53は絵の表現であり、対話制御部13は、図形種別や座標をテキストまたは数値として保持する。また、対話制御部13は、次の自装置からの発話である次のシステム発話の推定結果を出力部14へ出力する。
 ここで、次の相手の作業の推定結果と主体的結果情報53との一致部分は共通基盤情報54とみなすことができる。つまり、相手の結果を適切に想像することができる機能を有する推定モデルが存在すれば、対話装置1と作業相手であるユーザとは、その推定モデルに基づいてシステム発話を生成することで共通基盤をふまえた対話が可能となる。すなわち、共同図形配置課題をユーザと共に達成可能なシステムが実現できる。
 そこで、対話制御部13は、次の主体的な作業結果の推定結果と次の相手の作業結果の推定結果との共通部分を抽出する。そして、対話制御部13は、抽出した共通部分の情報に共通基盤情報54を更新する。すなわち、対話制御部13は、発話情報、複数名の作業者が対話を通じて共同作業を行うことで課題を達成するまでの途中過程の情報及び主体的結果情報53を基に、推定モデルを用いて次の主体的結果情報53及び次の相手の作業結果を推定し、推定結果を基に共同作業者であるユーザとの共通基盤を特定する。
 例えば、共同図形配置作業の場合、対話制御部13は、作業者Aの図形配置における図形iとjとの間で定義されるベクトルvA,ijと、作業者Bで同様に定義されるベクトルvB,ijとの差を計算する。そして、対話制御部13は、その距離を図形が基盤化されているか否かの尺度とし、その総和を絵全体として共通基盤がどの程度構築できているかを表す尺度を共通基盤情報54とする。
 そして、対話制御部13は、共通基盤情報54を参照して、作業相手と作業においてどの程度の共通基盤ができ上がっているかを判定する。例えば、対話制御部13は、共通基盤情報54が所定値を超えた場合に、課題を解決できる程度の共通基盤が得られていると判定して、対話を終わりに向かわせる制御を行ってもよい。具体的には、対話制御部13は、対話を終わりに導くシステム発話を生成してもよい。すなわち、対話制御部13は、共同作業者との共通基盤を基に、システム発話を生成する。また、対話制御部13は、共通基盤情報54を出力部14へ出力してもよい。
 このように、対話制御部13は、複数名の作業者が対話を通じて共同作業を行うことで課題を達成するまでの途中過程の情報を取得し、発話情報取得部11により取得された発話情報、複数名の作業者が対話を通じて共同作業を行うことで課題を達成するまでの途中過程の情報及び共同作業の自装置による中間結果を示す主体的結果情報53を基に、推定モデルを用いてシステム発話を生成する。より詳しくは、対話制御部13は、対話意図管理部12により特定された対話意図を示す対話意図情報52、発話情報及び主体的結果情報53を基に、システム発話を生成する。
 図1に戻って説明を続ける。出力部14は、次のシステム発話の入力を対話制御部13から受ける。そして、出力部14は、取得したシステム発話を出力する。ここで、発話候補が複数存在する場合、出力部14は、辞書順などの予め決められた優先順位に基づいて発話を1つ選択して、システム発話として選択した発話を出力する。複数のシステム発話が存在する場合は、出力部14は、それらを1つのシステム発話としてまとめて出力する。また、出力部14は、システム発話に対するキャラクタ性の付与やシステム発話の流暢性の向上処理を施してもよい。キャラクタ性の付与は、例えば、語尾を全て「ござる」に変換するなどである。流暢性の向上処理は、不自然な表現や不適切な表現を辞書的に削除するなどの処理である。
 また、出力部14は、共通基盤情報54の入力を対話制御部13から受けてもよい。その場合、出力部14は、対話をしている作業相手などに対して、取得した共通基盤情報54を出力する。これにより、対話装置1と作業相手であるユーザとは、作業完了までの何割程度の共通基盤が確立したかの共通認識を保持することができる。
[推定モデルの学習処理手順]
 図6は、実施形態に係る対話装置による推定モデルの学習処理手順のフローチャートである。次に、図6を参照して、本実施形態に係る対話装置1による対話制御処理の流れを説明する。
 対話制御部13は、対話意図情報52を情報格納部15から取得する(ステップS11)。
 次に、対話制御部13は、共同作業コーパス51から主体的な作業結果及び対話文脈を取得する(ステップS12)。
 言語特徴抽出器31は、取得した対話意図情報52をベクトル表現に変換して推定モデル35が処理可能な形式に変換する。また、画像特徴抽出器32は、取得した主体的な作業結果をベクトル表現に変換して推定モデル35が処理可能な形式に変換する。また、特徴抽出器33は、取得した対話文脈をベクトル表現に変換して推定モデル35が処理可能な形式に変換する(ステップS13)。
 次に、対話制御部13は、ベクトル表現に変換された対話意図情報52、主体的な作業結果及び対話文脈を推定モデル35へ入力する(ステップS14)。
 パラメータ更新部34は、推定モデル35の各出力層の出力である、次の主体的な作業結果、次の相手の作業結果及び次のシステム発話の推定結果を取得する(ステップS15)。
 次に、パラメータ更新部34は、共同作業コーパス51を解析して、推定結果に対応する正解ラベルを取得する(ステップS16)。
 そして、パラメータ更新部34は、推定モデル35から出力された推定結果と正解ラベルとの誤差を計算する。その後、パラメータ更新部34は、算出した誤差を用いて推定モデルのパラメータを調整する(ステップS17)。
 次に、パラメータ更新部34は、調整したパラメータの情報を推定モデル35にフィードバックして、推定モデル35を更新する(ステップS18)。
 その後、対話制御部13は、学習終了条件に達したか否かを判定する(ステップS19)。学習終了条件に達していない場合(ステップS19:否定)、対話制御部13は、ステップS12へ戻る。これに対して、学習終了条件に達した場合(ステップS19:肯定)、対話制御部13は、推定モデル35の学習処理を終了する。
[対話制御処理手順]
 図7は、実施形態に係る対話装置による対話制御処理のフローチャートである。次に、図7を参照して、本実施形態に係る対話装置1による対話制御処理の流れを説明する。
 発話情報取得部11及び対話制御部13は、ユーザ発話の情報の入力を受ける(ステップS21)。
 次に、発話情報取得部11は、取得したユーザ発話に対して言語解析を実行する(ステップS22)。その後、発話情報取得部11は、ユーザ発話の解析結果を対話意図管理部12へ出力する。
 対話制御部13は、対話意図情報52及び主体的結果情報53を情報格納部15から取得する(ステップS23)。
 次に、対話制御部13は、ユーザ発話、対話意図情報52及び主体的結果情報53推定モデルに入力する(ステップS24)。
 次に、対話制御部13は、推定モデルからの出力及び共通基盤情報54を用いて、次の主体的な作業結果、次の相手の作業結果及び次のシステム発話の推定結果を取得する(ステップS25)。
 そして、対話制御部13は、推定された次の主体的な作業結果で主体的結果情報53を更新する(ステップS26)。
 次に、対話制御部13は、共通基盤情報54を更新する(ステップS27)。
 次に、対話制御部13は、次のシステム発話の推定結果を出力部14へ出力する。出力部14は、推定されたシステム発話を対話の相手の端末などに出力する(ステップS28)。
 また、対話制御部13は、共通基盤情報54が初めて所定値を超えたか否かを判定する(ステップS29)。共通基盤情報54が初めて所定値を超えた場合(ステップS29:肯定)、対話制御部13は、対話を終了する方向へ導くための対話終了制御を追加する(ステップS30)。その後、対話制御処理はステップS31へ進む。
 これに対して、共通基盤情報54が所定値を超えていないもしくは以前に所定値を超えていた場合(ステップS29:否定)、対話制御処理はステップS31へ進む。
 次に、対話制御部13は、共同作業が終了したか否かを判定する(ステップS31)。共同作業が終了していない場合(ステップS31:否定)、対話制御処理は、ステップS21へ戻る。これに対して、共同作業が終了した場合(ステップS31:肯定)、対話制御部13は、対話制御処理を終了する。
[対話制御処理による効果]
 以上に説明したように、本実施形態に係る対話装置1は、対話意図を把握し、主体的な作業結果及びユーザの発話から次の主体的な作業結果を推定して更新するとともに、次のシステム発話を推定して対話を行う。これにより、対話を用いた共同作業による課題をユーザと共に達成することが可能となる。すなわち、対話を通じてユーザとともに共通基盤を構築していき、それに基づいて対話を行う推定モデルの適切な構築が実現可能となる。また、複雑な内容を伴う対話は、その内容の理解を積み上げていくことが好ましい。この点、本実施形態に係る対話装置1は、共通基盤を構築しつつ自装置による理解にあたる主体的な作業結果を積み上げていくことができ、教育、議論又は交渉などといった種類のユーザとの高度な対話が可能なシステムを実現することが可能となる。
 ここで、本実施例では、2人の共同図形配置作業を例に説明したが、対話を通して共同して作業を行い特定の課題を解決する処理であれば、他の処理であってもよい。例えば、家具のレイアウトの決定処理などでも、本実施例に係る対話装置1により同様の効果を得ることが可能である。
[システム構成等]
 図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散及び統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU(Central Processing Unit)及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
 また、実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[プログラム]
 また、上記の実施形態で述べた対話装置1の機能を実現するプログラムを所望の情報処理装置(コンピュータ)にインストールすることによって実装できる。例えば、パッケージソフトウェアやオンラインソフトウェアとして提供される上記のプログラムを情報処理装置に実行させることにより、情報処理装置を対話装置1として機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistants)等がその範疇に含まれる。また、アラート検証装置10を、クラウドサーバに実装してもよい。
 図8は、対話制御処理のための対話プログラムを実行するコンピュータの一例を示す図である。図8に示すように、コンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有する。これらの各部は、バス1080によって接続される。
 メモリ1010は、ROM(Read Only Memory)1011およびRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。ディスクドライブ1100には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース1050には、例えば、マウス1110およびキーボード1120が接続される。ビデオアダプタ1060には、例えば、ディスプレイ1130が接続される。
 ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、対話装置1と同等の機能を持つ対話装置1の各処理を規定するアラート検証プログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、対話装置1における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSD(Solid State Drive)により代替されてもよい。
 また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020は、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した実施形態の処理を実行する。
 なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN(Local Area Network)やWAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
 1 対話装置
 2 発話テキスト出力装置
 3 作業端末装置
 11 発話情報取得部
 12 対話意図管理部
 13 対話制御部
 14 出力部
 15 情報格納部
 51 共同作業コーパス
 52 対話意図情報
 53 主体的結果情報
 54 共通基盤情報

Claims (7)

  1.  対話を通じて課題を達成するための共同作業を行う共同作業者の発話情報を取得する発話情報取得部と、
     複数名の作業者が対話を通じて前記共同作業を行うことで前記課題を達成するまでの途中過程の情報を取得し、前記発話情報取得部により取得された前記発話情報、前記途中過程の情報及び前記共同作業の自装置による中間結果を示す主体的結果情報を基に、推定モデルを用いてシステム発話を生成する対話制御部と、
     前記対話制御部により生成された前記システム発話を前記共同作業者に対して出力する出力部と
     を備えたことを特徴とする対話装置。
  2.  前記途中過程の情報を基に、前記共同作業者との間の対話の対話意図を特定する対話意図管理部をさらに備え、
     前記対話制御部は、前記発話情報、前記対話意図管理部により特定された対話意図、及び前記主体的結果情報を基に、前記システム発話を生成する
     ことを特徴とする請求項1に記載の対話装置。
  3.  前記対話制御部は、前記途中過程の情報を基に、前記発話情報及び前記主体的結果情報の訓練データを取得し、前記対話意図及び前記訓練データを用いて前記推定モデルを更新することを特徴とする請求項2に記載の対話装置。
  4.  前記対話制御部は、前記発話情報、前記途中過程の情報及び前記主体的結果情報を基に、前記推定モデルを用いて次の主体的結果情報及び次の前記共同作業者の作業結果を推定し、推定結果を基に前記共同作業者との共通基盤を特定することを特徴とする請求項1~3のいずれか一つに記載の対話装置。
  5.  前記対話制御部は、前記共同作業者との前記共通基盤を基に、前記システム発話を生成することを特徴とする請求項4に記載の対話装置。
  6.  対話を通じて課題を達成するための共同作業を行う共同作業者の発話情報を取得する工程と、
     複数名の作業者が対話を通じて前記共同作業を行うことで前記課題を達成するまでの途中過程の情報を取得する工程と、
     前記発話情報、前記途中過程の情報及び前記共同作業の自装置による中間結果を示す主体的結果情報を基に、推定モデルを用いてシステム発話を生成する工程と、
     生成した前記システム発話を前記共同作業者に対して出力する工程と
     を備えたことを特徴とする対話制御方法。
  7.  対話を通じて課題を達成するための共同作業を行う共同作業者の発話情報を取得し、
     複数名の作業者が対話を通じて前記共同作業を行うことで前記課題を達成するまでの途中過程の情報を取得し、
     前記発話情報、前記途中過程の情報及び前記共同作業の自装置による中間結果を示す主体的結果情報を基に、推定モデルを用いてシステム発話を生成し、
     生成した前記システム発話を前記共同作業者に対して出力する
     処理をコンピュータ実行させることを特徴とする対話プログラム。
PCT/JP2021/024875 2021-06-30 2021-06-30 対話装置、対話制御方法及び対話プログラム WO2023276088A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2021/024875 WO2023276088A1 (ja) 2021-06-30 2021-06-30 対話装置、対話制御方法及び対話プログラム
JP2023531273A JPWO2023276088A1 (ja) 2021-06-30 2021-06-30

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/024875 WO2023276088A1 (ja) 2021-06-30 2021-06-30 対話装置、対話制御方法及び対話プログラム

Publications (1)

Publication Number Publication Date
WO2023276088A1 true WO2023276088A1 (ja) 2023-01-05

Family

ID=84690772

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/024875 WO2023276088A1 (ja) 2021-06-30 2021-06-30 対話装置、対話制御方法及び対話プログラム

Country Status (2)

Country Link
JP (1) JPWO2023276088A1 (ja)
WO (1) WO2023276088A1 (ja)

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
CHAI JOYCE Y.; SHE LANBO; FANG RUI; OTTARSON SPENCER; LITTLEY CODY; LIU CHANGSONG; HANSON KENNETH: "Collaborative Effort towards Common Ground in Situated Human-Robot Dialogue", 2014 9TH ACM/IEEE INTERNATIONAL CONFERENCE ON HUMAN-ROBOT INTERACTION (HRI), ACM, 3 March 2014 (2014-03-03), pages 33 - 40, XP033450943 *
HIGASHINAKA, RYUCHIRO: "Language processing technology in chat-oriented dialogue systems", PROCEEDINGS OF THE 2016 SPRING MEETING OF THE ACOUSTICAL SOCIETY OF JAPAN; YOKOHAMA, JAPAN; MARCH 9-11, 2016, 24 February 2016 (2016-02-24) - 11 March 2016 (2016-03-11), pages 1479 - 1480, XP009542512 *
IWAHASHI, NAOTO: "Robots and language - Machine learning of verbal communication ability", JOURNAL OF THE JAPANESE SOCIETY FOR ARTIFICIAL INTELLIGENCE, vol. 27, no. 6, 1 November 2012 (2012-11-01), pages 563 - 568 *
MITSUDA, KOH ET AL.: "Analysis of Building Common Ground for dialogue in a joint figure placement task", PROCEEDINGS OF THE 27TH ANNUAL MEETING OF THE ASSOCIATION FOR NATURAL LANGUAGE PROCESSING; KITAKYUSHU, JAPAN; MARCH 15-19, 2021, JP, vol. 27, 18 March 2021 (2021-03-18) - 19 March 2021 (2021-03-19), JP, pages 1697 - 1701, XP009542522 *
SUGIYAMA, SATOSHI ET AL.: "Collaborative response generation using dialogue history", PROCEEDINGS OF THE 6TH ANNUAL MEETING OF THE ASSOCIATION FOR NATURAL LANGUAGE PROCESSING; MARCH 7-9, 2000, JP, vol. 6, 7 March 2000 (2000-03-07) - 9 March 2000 (2000-03-09), JP, pages 227 - 230, XP009542523 *

Also Published As

Publication number Publication date
JPWO2023276088A1 (ja) 2023-01-05

Similar Documents

Publication Publication Date Title
CN107680019B (zh) 一种考试方案的实现方法、装置、设备及存储介质
US7860705B2 (en) Methods and apparatus for context adaptation of speech-to-speech translation systems
RU2672176C2 (ru) Способ обработки естественного выражения, способ, устройство и система обработки и ответа
De Vries et al. A smartphone-based ASR data collection tool for under-resourced languages
WO2022095380A1 (zh) 基于ai的虚拟交互模型生成方法、装置、计算机设备及存储介质
US20190156822A1 (en) Multiple turn conversational task assistance
WO2021000497A1 (zh) 检索方法、装置、计算机设备和存储介质
JP2022130635A (ja) 会議支援システム、会議支援装置、会議支援方法及びプログラム
JP2017215931A (ja) 会議支援システム、会議支援装置、会議支援方法及びプログラム
JP6980411B2 (ja) 情報処理装置、対話処理方法、及び対話処理プログラム
JP2013167985A (ja) 談話要約生成システムおよび談話要約生成プログラム
CN113536007A (zh) 一种虚拟形象生成方法、装置、设备以及存储介质
CN112632244A (zh) 一种人机通话的优化方法、装置、计算机设备及存储介质
KR20220081120A (ko) 인공 지능 콜센터 시스템 및 그 시스템 기반의 서비스 제공 방법
WO2022267322A1 (zh) 会议纪要的生成方法、装置、终端设备及计算机存储介质
CN114974253A (zh) 一种基于人物画像的自然语言解释方法、装置及存储介质
US11947894B2 (en) Contextual real-time content highlighting on shared screens
JP2018205945A (ja) 対話応答文書自動作成人工知能装置
Smith et al. Multimodal input for computer access and augmentative communication
WO2023276088A1 (ja) 対話装置、対話制御方法及び対話プログラム
DeVault et al. Interpreting vague utterances in context
CN111556096B (zh) 信息推送方法、装置、介质及电子设备
CN114708849A (zh) 语音处理方法、装置、计算机设备及计算机可读存储介质
JP6821542B2 (ja) 複数種の対話を続けて実施可能な対話制御装置、プログラム及び方法
KR20220080401A (ko) 외국인을 위한 ai 면접 수행 방법 및 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21948392

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023531273

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE