WO2023119671A1 - 推定方法、推定装置及び推定プログラム - Google Patents

推定方法、推定装置及び推定プログラム Download PDF

Info

Publication number
WO2023119671A1
WO2023119671A1 PCT/JP2021/048419 JP2021048419W WO2023119671A1 WO 2023119671 A1 WO2023119671 A1 WO 2023119671A1 JP 2021048419 W JP2021048419 W JP 2021048419W WO 2023119671 A1 WO2023119671 A1 WO 2023119671A1
Authority
WO
WIPO (PCT)
Prior art keywords
dialogue
estimation
feature
feature quantity
data
Prior art date
Application number
PCT/JP2021/048419
Other languages
English (en)
French (fr)
Inventor
伸克 北条
哲 小橋川
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2021/048419 priority Critical patent/WO2023119671A1/ja
Publication of WO2023119671A1 publication Critical patent/WO2023119671A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management

Definitions

  • the present invention relates to an estimation method, an estimation device, and an estimation program.
  • Non-Patent Document 1 there is known a technique for quantifying the impressions of participants in dialogue regarding satisfaction, trust, persuasiveness, etc., and estimating them as impression scores (see, for example, Non-Patent Document 1).
  • the customer's impression of the salesperson can be expressed in five stages, for example, 5: Satisfied, 4: Somewhat satisfied, 3: Neutral, 2: Somewhat dissatisfied, 1: Dissatisfied.
  • a numerical value representing such an impression is used as an impression score.
  • the technique of Non-Patent Document 1 uses statistics such as the average and variance of the time series for the feature values extracted at each time. For this reason, the technique of Non-Patent Document 1 cannot take into account the difference in the meaning and importance of the feature value depending on the scene of the conversation, and therefore the impression score estimation accuracy may not be sufficient.
  • the estimation method is a computer-implemented estimation method, wherein the dialogue for each time interval is based on data related to a dialogue in which a plurality of participants participate, estimating which of a plurality of predetermined dialogue acts is suitable, and based on the data, the characteristics of the dialogue in the time interval estimated to be suitable for a specific dialogue act out of the plurality of dialogue acts; and an estimation step of inputting the feature amount into a model and estimating a score representing the impression of the participant in the dialogue.
  • FIG. 1 is a diagram showing a configuration example of a learning device.
  • FIG. 2 is a diagram illustrating a method of extracting a dialogue feature quantity set.
  • FIG. 3 is a diagram for explaining a method of extracting dialogue features.
  • FIG. 4 is a diagram illustrating a configuration example of an estimation device.
  • FIG. 5 is a diagram illustrating a method for extracting dialogue feature amounts according to the first embodiment.
  • FIG. 6 is a diagram explaining a method for extracting a sequence of conversation scenes according to the first embodiment.
  • FIG. 7 is a diagram for explaining the relationship between conversation scenes and dialogue acts.
  • FIG. 8 is a diagram illustrating a method for extracting dialogue feature amounts according to the second embodiment.
  • FIG. 9 is a diagram illustrating a method of extracting a conversation scene posterior probability sequence according to the second embodiment.
  • FIG. 10 is a diagram illustrating an example of a computer that executes an estimation program;
  • FIG. 1 Basic form of learning device and estimation device
  • a learning device and an estimating device that form the basis of each embodiment will be described with reference to FIGS. 1, 2, 3 and 4.
  • FIG. Each embodiment may be realized by adding a function to the basic form of the learning device and the estimation device described here, or by changing a part of the function.
  • the estimating device quantifies the impression of the participants' satisfaction, trust, persuasiveness, etc. in the dialogue based on the dialogue data, and estimates it as an impression score.
  • the estimation device estimates an impression score using a trained impression score estimation model.
  • learning of the impression score estimation model is performed by a learning device.
  • the estimating device and the learning device may be realized by the same device or by different devices.
  • the customer's impression score of the seller is estimated in the dialogue in which the salesperson and the customer participate.
  • the dialogue participants whose impression scores are to be estimated by the estimating device are not limited to the salesperson and the customer, and may be, for example, friends, parents and children, superiors and subordinates, co-workers, and the like.
  • FIG. 1 is a diagram showing a configuration example of a learning device.
  • the learning device 10 stores a dialogue/impression score database 11 and impression score estimation model information 14 .
  • the learning device 10 also has a dialogue feature quantity set extraction unit 12 and a model learning unit 13 .
  • the dialogue/impression score database 11 contains a set of dialogue data (video, audio, etc.) by participants (dialogue data set), and the result that a participant (for example, a customer) had with another participant (for example, a salesperson). It holds an impression score data set that quantifies impressions.
  • N the number of dialogue data contained in the dialogue/impression score database 11
  • d n be each dialogue data
  • salesperson's dialogue data may be referred to as salesperson data.
  • customer dialogue data may be referred to as customer data.
  • dn is video data of recorded conversations, voice data of recorded conversations, and the like.
  • the impression score is a five-level evaluation score (for example, 5: Satisfied, 4: Somewhat satisfied, 3: Neither, 2: Somewhat dissatisfied, 1: Dissatisfied) regarding satisfaction, trust, and the like.
  • a dialogue data set is a set of dialogue data contained in the dialogue/impression score database 11 and is denoted by ⁇ d n ⁇ .
  • the impression score data set is a set of impression scores contained in the dialogue/impression score database 11, and is denoted by ⁇ s n ⁇ .
  • the dialogue feature quantity set extraction unit 12 performs dialogue feature quantity extraction for each dialogue in the dialogue data set to obtain a dialogue feature quantity set.
  • FIG. 2 is a diagram illustrating a method of extracting a dialogue feature quantity set. Note that M is the number of participants.
  • FIG. 3 is a diagram for explaining a method of extracting dialogue feature quantities.
  • the dialogue feature quantity set extraction unit 12 executes participant feature quantity extraction on the salesperson data to extract a salesperson participant feature quantity sequence (step S101).
  • the dialogue feature quantity set extraction unit 12 executes participant feature quantity extraction on the customer data to extract a customer participant feature quantity series (step S102).
  • the dialogue feature quantity set extraction unit 12 calculates statistics from the salesperson participant feature quantity series to obtain salesperson feature statistics (step S103).
  • the dialogue feature quantity set extraction unit 12 calculates a statistic from the customer participant feature quantity sequence to obtain a customer feature statistic (step S104).
  • the dialogue feature set extraction unit 12 obtains the dialogue feature by integrating the salesperson feature statistics and the customer feature statistics (for example, concatenating vectors).
  • the dialogue feature quantity set extraction unit 12 extracts, in the same manner as the method described in Non-Patent Document 1, the utterance time, average Extraction of voice features such as speech speed variance, or image features such as average and variance of optical flow, average and variance of Weighted Motion Energy Images (WMEI), as customer feature statistics and salesperson feature statistics. can be done.
  • voice features such as speech speed variance
  • image features such as average and variance of optical flow
  • WMEI Weighted Motion Energy Images
  • the dialogue feature set extraction unit 12 performs voice recognition on the voice data in the same manner as the method described in Reference 1, and pre-
  • the linguistic feature quantity obtained by calculating the Bag-of-Words (BoW) for the keyword specified in can be extracted as the customer feature statistic and the salesperson feature statistic.
  • Reference 1 Atsushi Ando, Ryo Masumura, Hosana Kamiyama, Satoshi Kobashikawa, Yushi Aono, and Tomoki Toda, "Customer satisfaction estimation in contact center calls based on a hierarchical multi-task model," IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol.28, pp.715-728, 2020.
  • the model learning unit 13 uses the dialogue feature quantity set extracted by the dialogue feature quantity set extraction unit 12 as an input feature quantity and the impression score set as a correct label to learn an impression score estimation model for estimating an impression score.
  • the impression score estimation model may be linear regression, ridge regression, random forest, etc., similar to the technique of Non-Patent Document 1.
  • the impression score estimation model may be a neural network such as a multi-layer perceptron.
  • the impression score estimation model information 14 is information such as the parameters of the learned impression score estimation model.
  • FIG. 4 is a diagram showing the configuration of the estimation device. As shown in FIG. 4 , the estimation device 20 has a dialogue feature amount extraction unit 21 and an impression score estimation unit 22 . The estimation device 20 also stores impression score estimation model information 23 .
  • the dialogue feature amount extraction unit 21 extracts dialogue feature amounts from the dialogue data.
  • the dialogue feature amount extraction unit 21 can extract the dialogue feature amount by the same method as the dialogue feature amount set extraction unit 12 .
  • the impression score estimation unit 22 inputs the dialogue feature quantity extracted by the dialogue feature quantity extraction unit 21 to the learned impression score estimation model, and obtains an estimated value of the impression score.
  • the impression score estimation model information 23 is the same as the impression score estimation model information 14. Therefore, the impression score estimation unit 22 can construct a learned impression score estimation model based on the impression score estimation model information 23 .
  • the learning device 10 and the estimating device 20 estimate the dialogue act of a certain participant's utterance at the time of feature quantity extraction.
  • Dialogue acts include “greetings”, “suggestions”, and the like.
  • the dialogue act can be said to be a criterion for classifying the nature and purpose of the dialogue.
  • the learning device 10 and the estimating device 20 extract feature quantities from each participant for a time interval during or after the utterance of a specific dialogue act (eg, "proposal").
  • the first embodiment it is possible to improve the accuracy of impression score estimation by considering the dialogue act.
  • the dialogue feature quantity set extraction unit 12 estimates a dialogue act and extracts a dialogue feature quantity.
  • the dialogue feature amount extraction unit 21 of the estimation device 20 can estimate the dialogue act and extract the dialogue feature amount in the same manner as the dialogue feature amount set extraction unit 12 .
  • FIG. 5 is a diagram explaining a method for extracting dialogue feature amounts according to the first embodiment.
  • the dialogue feature quantity set extraction unit 12 executes participant feature quantity extraction on salesperson data to extract a salesperson participant feature quantity sequence (step S201).
  • the dialogue feature quantity set extraction unit 12 executes participant feature quantity extraction on the customer data to extract a customer participant feature quantity sequence (step S202).
  • the dialogue feature quantity set extraction unit 12 executes conversation scene estimation on the salesperson data and customer data to obtain a conversation scene sequence (step S203). The details of conversation scene estimation will be described later.
  • the dialogue feature set extraction unit 12 calculates statistics from the salesperson participant feature series and the conversation scene series to obtain salesperson feature statistics (step S204).
  • the dialogue feature set extraction unit 12 calculates statistics from the customer participant feature series and the conversation scene series to obtain customer feature statistics (step S205).
  • the dialogue feature set extraction unit 12 obtains the dialogue feature by integrating the salesperson feature statistics and the customer feature statistics (for example, concatenating vectors).
  • FIG. 6 is a diagram explaining a method for extracting a sequence of conversation scenes according to the first embodiment.
  • the salesperson data includes voice data.
  • the dialogue feature quantity set extraction unit 12 first performs utterance division on the voice data included in the salesperson data to obtain a salesperson utterance voice sequence (step S301).
  • the dialogue feature quantity set extraction unit 12 performs speech recognition on each voice in the utterance voice sequence obtained from the salesperson data to obtain a salesperson utterance text sequence (step S302).
  • the dialogue feature quantity set extraction unit 12 performs dialogue act estimation on the salesperson utterance text sequence to obtain a salesperson dialogue act sequence (step S303).
  • the dialogue feature quantity set extraction unit 12 can use power-based voice activity detection (VAD) described in Reference 2, for example, as a speech segmentation method.
  • VAD voice activity detection
  • Reference 2 Norihide Kitaoka, Kazumasa Yamamoto, Tomohiro Kusamizu, Seiichi Nakagawa, Takeshi Yamada, Satoru Tsuge, Chiyomi Miyajima, Takanobu Nishiura, Masato Nakayama, Yuki Denda, et al., "Development of vad evaluation framework censrec-1-c and investigation of relationship between vad and speech recognition performance," in 2007 IEEE Workshop on Automatic Speech Recognition & Understanding (ASRU). IEEE, 2007, pp. 607-612.
  • ASRU Automatic Speech Recognition & Understanding
  • the dialogue feature quantity set extraction unit 12 may use the series information of the salesperson data or the customer data when utterance segmentation, speech recognition, and dialogue act estimation are performed.
  • the dialogue feature quantity set extraction unit 12 performs conversation scene segmentation on the salesperson dialogue action sequence to obtain a conversation scene sequence (step S304).
  • a conversation scene series is obtained from the salesperson dialogue action series.
  • the set of dialogue acts be ⁇ a 1 , . . . , a K ⁇ (K is the number of types of dialogue acts).
  • a conversation scene zt at a certain time t is defined by the corresponding dialogue act of the salesperson's utterance, as shown in equation (1).
  • the dialogue feature quantity set extraction unit 12 estimates the dialogue act with the highest matching degree among predetermined dialogue acts (greetings, proposals, etc.) for each text.
  • Conversation scenes and dialogue acts have a relationship as shown in Fig. 7.
  • FIG. 7 is a diagram for explaining the relationship between conversation scenes and dialogue acts.
  • a greeting which is a dialogue act by a salesperson
  • the scene of conversation between the next dialogue act (a proposal in the example of FIG. 7) other than the greeting by the salesperson is defined as a greeting. .
  • the dialogue feature amount set extraction unit 12 performs statistic calculation from the conversation scene sequence ⁇ z t ⁇ and the salesperson feature amount sequence ⁇ f st ⁇ to obtain the salesperson feature statistic.
  • the dialogue feature amount set extraction unit 12 performs statistic calculation from the conversation scene series ⁇ z t ⁇ and the customer feature amount series ⁇ f c t ⁇ to obtain customer feature statistics.
  • the dialogue feature quantity set extraction unit 12 calculates the statistic quantity (average, variance, etc.) of the feature quantity for each conversation scene.
  • the average of the salesperson feature quantity sequence is calculated by equations (2) and (3).
  • the dialogue feature set extraction unit 12 obtains the dialogue feature by integrating the salesperson feature statistics and the customer feature statistics (for example, concatenating vectors).
  • the learning device 10 and the estimation device 20 estimate which of a plurality of predetermined dialogue acts the dialogue for each time interval matches, based on the data on the dialogue in which a plurality of participants participate. Then, based on the data, a feature value representing the feature of the dialogue is extracted in a time interval estimated to match a specific dialogue act out of the plurality of dialogue acts. At this time, the learning device 10 and the estimation device 20 input the feature quantity into the model and estimate a score (impression score) representing the impression of the participant's dialogue.
  • the learning device 10 may learn the model using the estimated impression score, or may learn the model using various extracted feature amounts without estimating the impression score.
  • Dialogue may include utterances for which it is difficult to estimate the dialogue act. If the certainty of dialogue act estimation is low, there is a concern that the accuracy of impression score estimation may be degraded due to errors included in the estimation results.
  • the extracted features are weighted more heavily near the time when the certainty of the dialogue act estimation is high. Give less weight to quantity.
  • the second embodiment it is possible to prevent the estimation accuracy of the impression score from decreasing even when the certainty of the dialogue act estimation is low.
  • the second embodiment differs from the first embodiment in the method of dividing conversation scenes.
  • conversation scene segmentation according to the second embodiment will be described.
  • the dialogue feature quantity extraction unit 21 can also divide the conversation scene by a similar method.
  • FIG. 8 is a diagram explaining a method for extracting dialogue feature amounts according to the second embodiment.
  • the dialogue feature quantity set extraction unit 12 executes participant feature quantity extraction on the salesperson data to extract a salesperson participant feature quantity sequence (step S401).
  • the dialogue feature quantity set extraction unit 12 executes participant feature quantity extraction on the customer data to extract a customer participant feature quantity sequence (step S402).
  • the dialogue feature quantity set extraction unit 12 executes conversation scene estimation on the salesperson data and customer data to obtain a conversation scene posterior probability series (step S403).
  • the details of conversation scene estimation will be described later.
  • the dialogue feature quantity set extraction unit 12 calculates statistics from the salesperson participant feature quantity series and the conversation scene posterior probability series to obtain salesperson feature statistics (step S404).
  • the dialogue feature set extraction unit 12 calculates statistics from the customer participant feature series and the conversation scene posterior probability series to obtain customer feature statistics (step S405).
  • the dialogue feature set extraction unit 12 obtains the dialogue feature by integrating the salesperson feature statistics and the customer feature statistics (for example, concatenating vectors).
  • FIG. 9 is a diagram explaining a method for extracting a conversation scene posterior probability sequence according to the second embodiment.
  • the dialogue feature quantity set extraction unit 12 first performs utterance division on the voice data included in the salesperson data to obtain a salesperson utterance voice sequence (step S501).
  • the dialogue feature quantity set extraction unit 12 performs speech recognition on each voice in the utterance voice sequence obtained from the salesperson data to obtain a salesperson utterance text sequence (step S502).
  • the dialogue feature quantity set extraction unit 12 can perform utterance segmentation and speech recognition in the same manner as in the first embodiment.
  • the dialogue feature quantity set extraction unit 12 performs dialogue act posterior probability estimation on the salesperson utterance text sequence to obtain a salesperson dialogue act posterior probability sequence (step S503).
  • the dialogue feature quantity set extraction unit 12 performs conversation scene segmentation on the salesperson dialogue action sequence to obtain a conversation scene sequence (step S504).
  • the dialogue feature quantity set extraction unit 12 estimates the posterior probability p i,k that the dialogue act is a k for each utterance i, and outputs it as a salesperson dialogue act posterior probability sequence.
  • the dialogue feature quantity set extraction unit 12 outputs a conversation scene posterior probability sequence by performing conversation scene segmentation based on the salesperson dialogue act posterior probability sequence.
  • the dialogue feature quantity set extraction unit 12 defines the posterior probability z t,k that the conversation scene at a certain time t is k, by the posterior probability of the corresponding dialogue act of the salesperson's utterance, as shown in equation (4).
  • the dialogue feature quantity set extraction unit 12 performs statistic calculation from the conversation scene posterior probability sequence ⁇ z t,k ⁇ and the salesperson feature quantity sequence ⁇ f t s ⁇ to obtain the salesperson feature statistic (see FIG. 8). step S404).
  • the dialogue feature quantity set extraction unit 12 performs statistic calculation from the conversation scene posterior probability sequence ⁇ z t,k ⁇ and the customer feature quantity sequence ⁇ f t c ⁇ to obtain the customer feature statistic (FIG. 8 step S405).
  • the dialogue feature quantity set extraction unit 12 can obtain the feature statistics of each participant by calculating the feature quantity statistics (average, variance, etc.) for each conversation scene.
  • the dialogue feature quantity set extraction unit 12 calculates the average of the salesperson feature quantity sequence for the conversation scene corresponding to the dialogue act k as shown in Equation (5).
  • the dialogue feature set extraction unit 12 obtains the dialogue feature by integrating the salesperson feature statistics and the customer feature statistics (for example, concatenating vectors).
  • the learning device 10 and the estimation device 20 can determine the reliability of the estimation result, which is the feature value representing the feature of the dialogue in the time interval estimated to be suitable for the specific dialogue act, and is estimated to be suitable for the specific dialogue act. Extract features weighted according to degree.
  • each component of each device illustrated is functionally conceptual, and does not necessarily need to be physically configured as illustrated.
  • the specific form of distribution and integration of each device is not limited to the illustrated one, and all or part of them can be functionally or physically distributed or Can be integrated and configured.
  • all or any part of each processing function performed by each device is realized by a CPU (Central Processing Unit) and a program analyzed and executed by the CPU, or hardware by wired logic can be realized as Note that the program may be executed not only by the CPU but also by other processors such as a GPU.
  • CPU Central Processing Unit
  • the learning device 10 and the estimating device 20 can be implemented by installing a program for executing the above-described learning processing and estimating processing as package software or online software on a desired computer.
  • the information processing device can function as the learning device 10 and the estimation device 20 by causing the information processing device to execute the learning program.
  • the information processing apparatus referred to here includes a desktop or notebook personal computer.
  • information processing devices include mobile communication terminals such as smartphones, mobile phones and PHS (Personal Handyphone Systems), and slate terminals such as PDAs (Personal Digital Assistants).
  • the learning device 10 and the estimation device 20 can be implemented as a server device that uses a terminal device used by a user as a client and provides the client with services related to the above-described learning processing and estimation processing.
  • the server device is implemented as a server device that provides a service that inputs dialogue data and outputs information of a trained model or an impression score estimation result.
  • the server device may be implemented as a web server, or may be implemented as a cloud that provides services related to the collection processing by outsourcing.
  • FIG. 10 is a diagram showing an example of a computer that executes a learning program.
  • the computer 1000 has a memory 1010 and a CPU 1020, for example.
  • Computer 1000 also has hard disk drive interface 1030 , disk drive interface 1040 , serial port interface 1050 , video adapter 1060 and network interface 1070 . These units are connected by a bus 1080 .
  • the memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM (Random Access Memory) 1012 .
  • the ROM 1011 stores a boot program such as BIOS (Basic Input Output System).
  • BIOS Basic Input Output System
  • Hard disk drive interface 1030 is connected to hard disk drive 1090 .
  • a disk drive interface 1040 is connected to the disk drive 1100 .
  • a removable storage medium such as a magnetic disk or optical disk is inserted into the disk drive 1100 .
  • Serial port interface 1050 is connected to mouse 1110 and keyboard 1120, for example.
  • Video adapter 1060 is connected to display 1130, for example.
  • the hard disk drive 1090 stores, for example, an OS 1091, application programs 1092, program modules 1093, and program data 1094. That is, a program that defines each process of the learning device 10 and the estimation device 20 is implemented as a program module 1093 in which computer-executable code is described. Program modules 1093 are stored, for example, on hard disk drive 1090 .
  • the hard disk drive 1090 stores a program module 1093 for executing processing similar to the functional configurations of the learning device 10 and the estimation device 20 .
  • the hard disk drive 1090 may be replaced by an SSD (Solid State Drive).
  • the setting data used in the processing of the above-described embodiment is stored as program data 1094 in the memory 1010 or the hard disk drive 1090, for example. Then, the CPU 1020 reads the program modules 1093 and program data 1094 stored in the memory 1010 and the hard disk drive 1090 to the RAM 1012 as necessary, and executes the processes of the above-described embodiments.
  • the program modules 1093 and program data 1094 are not limited to being stored in the hard disk drive 1090, but may be stored in a removable storage medium, for example, and read by the CPU 1020 via the disk drive 1100 or the like. Alternatively, the program modules 1093 and program data 1094 may be stored in another computer connected via a network (LAN (Local Area Network), WAN (Wide Area Network), etc.). Program modules 1093 and program data 1094 may then be read by CPU 1020 through network interface 1070 from other computers.
  • LAN Local Area Network
  • WAN Wide Area Network

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

実施形態の推定装置(20)は、複数の参与者が参与する対話に関するデータを基に、時間区間ごとの対話が、あらかじめ定められた複数の対話行為のいずれに適合するかを推定し、データを基に、複数の対話行為のうちの特定の対話行為に適合すると推定した時間区間における、対話の特徴を表す特徴量を抽出する。推定装置(20)は、特徴量をモデルに入力し、参与者の対話における印象を表すスコア(印象スコア)を推定する。

Description

推定方法、推定装置及び推定プログラム
 本発明は、推定方法、推定装置及び推定プログラムに関する。
 従来、対話における参与者の満足度、信頼感、説得力等に関する印象を定量化し、印象スコアとして推定する技術が知られている(例えば、非特許文献1を参照)。
 販売員(営業担当者)と顧客との対話を考える。このとき、顧客の販売員に対する印象は、例えば、5:満足、4:やや満足、3:どちらでもない、2:やや不満、1:不満、のように5段階で表すことができる。このような印象を表す数値を、印象スコアとする。
 販売員と顧客との対話を撮影した映像データから印象スコアを推定することができれば、例えば販売員ごとに印象スコアの平均を算出することで、販売員評価の自動化が可能となる。さらに、高スコアの対話と低スコアの対話を人が比較・分析することで、販売ノウハウを抽出することが可能である。
Laurent Son Nguyen, Denise Frauendorfer, Marianne Schmid Mast, and Daniel Gatica-Perez, "Hire me: Computational inference of hirability in employment interviews based on nonverbal behavior," IEEE Transactionson Multimedia, vol. 16, no. 4, pp. 1018-1031, 2014.
 しかしながら、従来の技術には、対話における印象スコアの推定精度が十分ではない場合があるという問題がある。
 対話の印象を推定する上で、会話の場面によって、各特徴量の持つ意味及び重要性が変化することが考えられる。例えば、会話序盤の顧客の笑顔と、会話の中盤又は終盤に、販売員が提案を行っている時間の顧客の笑顔とでは、意味及び重要性が変化することが考えられる。
 一方で、非特許文献1の技術では、各時刻で抽出された特徴量について、その時系列の平均及び分散等の統計量を使用する。このため、非特許文献1の技術では、会話の場面による特徴量の持つ意味及び重要性の差異を考慮することができないため、印象スコアの推定精度が十分でない場合があり得る。
 上述した課題を解決し、目的を達成するために、推定方法は、コンピュータによって実行される推定方法であって、複数の参与者が参与する対話に関するデータを基に、時間区間ごとの対話が、あらかじめ定められた複数の対話行為のいずれに適合するかを推定し、前記データを基に、前記複数の対話行為のうちの特定の対話行為に適合すると推定した時間区間における、前記対話の特徴を表す特徴量を抽出する特徴量抽出工程と、前記特徴量をモデルに入力し、前記参与者の前記対話における印象を表すスコアを推定する推定工程と、を含むことを特徴とする。
 本発明によれば、対話における印象スコアの推定精度を向上させることができる。
図1は、学習装置の構成例を示す図である。 図2は、対話特徴量セットの抽出方法を説明する図である。 図3は、対話特徴量の抽出方法を説明する図である。 図4は、推定装置の構成例を示す図である。 図5は、第1の実施形態に係る対話特徴量の抽出方法を説明する図である。 図6は、第1の実施形態に係る会話場面系列の抽出方法を説明する図である。 図7は、会話場面と対話行為の関係を説明する図である。 図8は、第2の実施形態に係る対話特徴量の抽出方法を説明する図である。 図9は、第2の実施形態に係る会話場面事後確率系列の抽出方法を説明する図である。 図10は、推定プログラムを実行するコンピュータの一例を示す図である。
 以下に、本願に係る推定方法、推定装置及び推定プログラムの実施形態を図面に基づいて詳細に説明する。なお、本発明は、以下に説明する実施形態により限定されるものではない。
[学習装置及び推定装置の基本形]
 まず、図1、図2、図3及び図4を用いて、各実施形態の基本となる学習装置及び推定装置について説明する。各実施形態は、ここで説明する学習装置及び推定装置の基本形に機能を付加すること、又は一部の機能を変更することによって実現されてもよい。
 推定装置は、対話に関する対話データを基に、対話における参与者の満足度、信頼感、説得力等に関する印象を定量化し、印象スコアとして推定する。推定装置は、学習済みの印象スコア推定モデルを用いて印象スコアを推定する。
 また、印象スコア推定モデルの学習は、学習装置によって行われる。推定装置と学習装置は同じ装置によって実現されてもよいし、異なる装置によって実現されてもよい。
 また、ここでは、販売員及び顧客が参与する対話における、特に顧客の販売者に対する印象スコアを推定するものとする。ただし、推定装置が印象スコアの推定対象とする対話の参与者は、販売員と顧客に限られず、例えば友人同士、親と子、上司と部下、仕事の同僚同士等であってもよい。
 図1は、学習装置の構成例を示す図である。図1に示すように、学習装置10は、対話・印象スコアデータベース11及び印象スコア推定モデル情報14を記憶する。また、学習装置10は、対話特徴量セット抽出部12及びモデル学習部13を有する。
 対話・印象スコアデータベース11は、参与者による対話データ(映像、音声等)の集合(対話データセット)と、その結果ある参与者(例えば顧客)が他の参与者(例えば販売員)に抱いた印象を数値化した印象スコアデータセットを保持したものである。
 対話・印象スコアデータベース11に含まれる対話データ数をN、各対話データをd、印象スコアをs(n=1,…,N)とする。
 なお、販売員の対話データを販売員データと表記する場合がある。また、顧客の対話データを顧客データと表記する場合がある。
 印象を評価される参与者を被評価参与者とする。また、対話・印象スコアデータベース11に含まれる被評価参与者の数をM、各被評価参与者m=1,…,Mについて、データベースに含まれる対話数をN(ただしN>1)とする。
 例えば、dは対話を録画した映像データ、及び対話を録音した音声データ等である。また、例えば、印象スコアは、満足度、信頼感等に関する5段階評価のスコア(例えば、5:満足、4:やや満足、3:どちらでもない、2:やや不満、1:不満)である。
 対話データセットは、対話・印象スコアデータベース11に含まれる対話データの集合であり、{d}と表記される。印象スコアデータセットは、対話・印象スコアデータベース11に含まれる印象スコアの集合であり、{s}と表記される。
 対話特徴量セット抽出部12は、図2に示すように、対話データセット中の各対話に対し、対話特徴量抽出を行い、対話特徴量セットを得る。図2は、対話特徴量セットの抽出方法を説明する図である。なお、Mは参与者の数である。
(対話特徴量抽出方法)
 図3を用いて、対話特徴量の抽出方法を説明する。図3は対話特徴量の抽出方法を説明する図である。
 図3に示すように、対話特徴量セット抽出部12は、販売員データに対して参与者特徴量抽出を実行し、販売員参与者特徴量系列を抽出する(ステップS101)。
 また、対話特徴量セット抽出部12は、顧客データに対して参与者特徴量抽出を実行し、顧客参与者特徴量系列を抽出する(ステップS102)。
 さらに、対話特徴量セット抽出部12は、販売員参与者特徴量系列から統計量を算出し、販売員特徴統計量を得る(ステップS103)。
 また、対話特徴量セット抽出部12は、顧客参与者特徴量系列から統計量を算出し、顧客特徴統計量を得る(ステップS104)。
 対話特徴量セット抽出部12は、販売員特徴統計量と顧客特徴統計量を統合(例えば、ベクトルの連結)することによって対話特徴量を得る。
 例えば、dが動画像を含むデータである場合、対話特徴量セット抽出部12は、非特許文献1に記載された方法と同様に、各参与者についての、発話時間、話速の平均、話速の分散等の音声特徴量、又はオプティカルフローの平均及び分散、Weighted Motion Energy Images(WMEI)の平均、分散等の画像特徴量を、顧客特徴統計量及び販売員特徴統計量として抽出することができる。
 また、dが音声を含むデータである場合、対話特徴量セット抽出部12は、参考文献1に記載された方法と同様に、音声データに対し音声認識を行い、得られたテキストから、事前に指定されたキーワードについてBag-of-Words(BoW)を算出して得られた言語特徴量を、顧客特徴統計量及び販売員特徴統計量として抽出することができる。
 参考文献1:Atsushi Ando, Ryo Masumura, Hosana Kamiyama, Satoshi Kobashikawa, Yushi Aono, and Tomoki Toda, "Customer satisfaction estimation in contact center calls based on a hierarchical multi-task model," IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 28, pp. 715-728, 2020.
 モデル学習部13は、対話特徴量セット抽出部12によって抽出された対話特徴量セットを入力特徴量とし、印象スコアセットを正解ラベルとして、印象スコアを推定する印象スコア推定モデルの学習を行う。
 例えば、印象スコア推定モデルは、非特許文献1の技術と同様に、線形回帰、リッジ回帰、ランダムフォレスト等であってよい。また、印象スコア推定モデルは、多層パーセプトロンのようなニューラルネットワークであってもよい。
 また、印象スコア推定モデル情報14は、学習済みの印象スコア推定モデルのパラメータ等の情報である。
 図4は、推定装置の構成を示す図である。図4に示すように、推定装置20は、対話特徴量抽出部21及び印象スコア推定部22を有する。また、推定装置20は、印象スコア推定モデル情報23を記憶する。
 対話特徴量抽出部21は、対話データから対話特徴量を抽出する。対話特徴量抽出部21は、対話特徴量セット抽出部12と同じ方法で対話特徴量を抽出することができる。
 印象スコア推定部22は、対話特徴量抽出部21によって抽出された対話特徴量を学習済みの印象スコア推定モデルに入力し、印象スコアの推定値を得る。
 ここで、印象スコア推定モデル情報23は、印象スコア推定モデル情報14と同じものである。このため、印象スコア推定部22は、印象スコア推定モデル情報23を基に、学習済みの印象スコア推定モデルを構築することができる。
[第1の実施形態]
 第1の実施形態において、学習装置10及び推定装置20は、特徴量抽出時に、ある参与者の発話について、その対話行為を推定する。対話行為には、「挨拶」、「提案」等がある。例えば、対話行為は、対話の性質及び目的等を分類する基準ということができる。
 学習装置10及び推定装置20は、特定の対話行為(例えば「提案」)の発話中又は発話後の時間区間について、各参与者から特徴量を抽出する。
 第1の実施形態によれば、対話行為を考慮することにより、印象スコア推定の精度を向上させることができる。
 ここでは、対話特徴量セット抽出部12が対話行為の推定及び対話特徴量の抽出を行う場合の例を説明する。一方で、推定装置20の対話特徴量抽出部21は、対話特徴量セット抽出部12と同じ方法で対話行為の推定及び対話特徴量の抽出を行うことができる。
 図5は、第1の実施形態に係る対話特徴量の抽出方法を説明する図である。図5に示すように、対話特徴量セット抽出部12は、販売員データに対して参与者特徴量抽出を実行し、販売員参与者特徴量系列を抽出する(ステップS201)。
 また、対話特徴量セット抽出部12は、顧客データに対して参与者特徴量抽出を実行し、顧客参与者特徴量系列を抽出する(ステップS202)。
 ここで、対話特徴量セット抽出部12は、販売員データ及び顧客データに対し、会話場面推定を実行し、会話場面系列を得る(ステップS203)。会話場面推定の詳細については後述する。
 さらに、対話特徴量セット抽出部12は、販売員参与者特徴量系列及び会話場面系列から統計量を算出し、販売員特徴統計量を得る(ステップS204)。
 また、対話特徴量セット抽出部12は、顧客参与者特徴量系列及び会話場面系列から統計量を算出し、顧客特徴統計量を得る(ステップS205)。
 対話特徴量セット抽出部12は、販売員特徴統計量と顧客特徴統計量を統合(例えば、ベクトルの連結)することによって対話特徴量を得る。
 図6は、第1の実施形態に係る会話場面系列の抽出方法を説明する図である。ここで、販売員データには音声データが含まれているものとする。
 図6に示すように、対話特徴量セット抽出部12は、まず、販売員データに含まれる音声データに対して発話分割を行い、販売員発話音声系列を得る(ステップS301)。
 次に、対話特徴量セット抽出部12は、販売員データから得られた発話音声系列中の各音声に対して音声認識を行い、販売員発話テキスト系列を得る(ステップS302)。
 続いて、対話特徴量セット抽出部12は、販売員発話テキスト系列に対し対話行為推定を行い、販売員対話行為系列を得る(ステップS303)。
 ここで、対話特徴量セット抽出部12は、発話分割の手法として、例えば参考文献2に記載のパワーベースのvoice activity detection(VAD)を用いることができる。
 参考文献2:Norihide Kitaoka, Kazumasa Yamamoto, Tomohiro Kusamizu, Seiichi Nakagawa, Takeshi Yamada, Satoru Tsuge, Chiyomi Miyajima, Takanobu Nishiura, Masato Nakayama, Yuki Denda, et al., "Development of vad evaluation framework censrec-1-c and investigation of relationship between vad and speech recognition performance," in 2007 IEEE Workshop on Automatic Speech Recognition & Understanding (ASRU). IEEE, 2007, pp. 607-612.
 また、対話特徴量セット抽出部12は、発話分割、音声認識、対話行為推定の際に、販売員データ又は顧客データの系列情報を使用してもよい。
 そして、対話特徴量セット抽出部12は、販売員対話行為系列に対し会話場面分割を行い、会話場面系列を得る(ステップS304)。
 会話場面分割では、販売員対話行為系列から、会話場面系列を得る。まず、対話行為の集合を、{a,…,a}(Kは対話行為の種類数)とする。また、販売員対話行為系列について、発話数をI、発話番号をi=1,…,I、発話iの開始時間をt、対話行為をx∈2{a,…,a}とする。
 ある時刻tの会話場面zは、(1)式のように、対応する販売員発話の対話行為によって定義される。
Figure JPOXMLDOC01-appb-M000001
 このように、対話行為推定において、対話特徴量セット抽出部12は、各テキストについて、あらかじめ定められた対話行為(挨拶、提案等)のうち、最も適合度合いが大きい対話行為を推定する。
 会話場面と対話行為は、図7に示すような関係にある。図7は、会話場面と対話行為の関係を説明する図である。
 例えば、販売員による対話行為である挨拶が行われた後、次に販売員による挨拶以外の対話行為(図7の例では提案)が行われるまでの間の会話場面は、挨拶と定義される。
 そして、対話特徴量セット抽出部12は、会話場面系列{z}と、販売員特徴量系列{f }から統計量算出を行い、販売員特徴統計量を得る。
 同様に、対話特徴量セット抽出部12は、会話場面系列{z}と、顧客特徴量系列{f }から統計量算出を行い、顧客特徴統計量を得る。
 対話特徴量セット抽出部12は、統計量算出(図5のステップS204、S205)では、各会話場面について、特徴量の統計量(平均、分散等)を算出する。
 例えば、対話行為kに対応する会話場面について、販売員特徴量系列の平均は(2)式及び(3)式により算出される。
Figure JPOXMLDOC01-appb-M000002
Figure JPOXMLDOC01-appb-M000003
 対話特徴量セット抽出部12は、販売員特徴統計量と顧客特徴統計量を統合(例えば、ベクトルの連結)することによって対話特徴量を得る。
 このように、学習装置10及び推定装置20は、複数の参与者が参与する対話に関するデータを基に、時間区間ごとの対話が、あらかじめ定められた複数の対話行為のいずれに適合するかを推定し、データを基に、複数の対話行為のうちの特定の対話行為に適合すると推定した時間区間における、対話の特徴を表す特徴量を抽出する。このとき、学習装置10及び推定装置20は、特徴量をモデルに入力し、参与者の対話における印象を表すスコア(印象スコア)を推定する。
 なお、学習装置10は、推定した印象スコアを用いてモデルの学習を行ってもよいし、印象スコアの推定を行うことなく、抽出した各種特徴量を用いてモデルの学習を行ってもよい。
[第2の実施形態]
 対話中には、対話行為の推定が困難である発話が含まれることがある。対話行為推定の確信度が低い場合、推定結果に含まれる誤りのために、印象スコア推定の精度が劣化する懸念がある。
 第2の実施形態では、統計量算出において、対話行為推定の確信度が高い時刻付近では、抽出される特徴量により大きな重み付けを行い、逆に、確信度が低い時刻付近では、抽出される特徴量により小さな重み付けを行う。
 この結果、第2の実施形態によれば、対話行為推定の確信度が低い場合であっても、印象スコアの推定精度の低下を抑止できる。
 第2の実施形態では、会話場面分割の方法が第1の実施形態と異なる。ここでは、第2の実施形態の会話場面分割について説明する。
 また、ここでは対話特徴量セット抽出部12による会話場面分割の方法を説明するが、対話特徴量抽出部21も同様の方法で会話場面分割を行うことができる。
 図8は、第2の実施形態に係る対話特徴量の抽出方法を説明する図である。図8に示すように、対話特徴量セット抽出部12は、販売員データに対して参与者特徴量抽出を実行し、販売員参与者特徴量系列を抽出する(ステップS401)。
 また、対話特徴量セット抽出部12は、顧客データに対して参与者特徴量抽出を実行し、顧客参与者特徴量系列を抽出する(ステップS402)。
 ここで、対話特徴量セット抽出部12は、販売員データ及び顧客データに対し、会話場面推定を実行し、会話場面事後確率系列を得る(ステップS403)。会話場面推定の詳細については後述する。
 さらに、対話特徴量セット抽出部12は、販売員参与者特徴量系列及び会話場面事後確率系列から統計量を算出し、販売員特徴統計量を得る(ステップS404)。
 また、対話特徴量セット抽出部12は、顧客参与者特徴量系列及び会話場面事後確率系列から統計量を算出し、顧客特徴統計量を得る(ステップS405)。
 対話特徴量セット抽出部12は、販売員特徴統計量と顧客特徴統計量を統合(例えば、ベクトルの連結)することによって対話特徴量を得る。
 図9は、第2の実施形態に係る会話場面事後確率系列の抽出方法を説明する図である。図9に示すように、対話特徴量セット抽出部12は、まず、販売員データに含まれる音声データに対して発話分割を行い、販売員発話音声系列を得る(ステップS501)。
 次に、対話特徴量セット抽出部12は、販売員データから得られた発話音声系列中の各音声に対して音声認識を行い、販売員発話テキスト系列を得る(ステップS502)。
 第2の実施形態において、対話特徴量セット抽出部12は、第1の実施形態と同じ方法で発話分割及び音声認識を行うことができる。
 続いて、対話特徴量セット抽出部12は、販売員発話テキスト系列に対し対話行為事後確率推定を行い、販売員対話行為事後確率系列を得る(ステップS503)。
 そして、対話特徴量セット抽出部12は、販売員対話行為系列に対し会話場面分割を行い、会話場面系列を得る(ステップS504)。
 対話特徴量セット抽出部12は、各発話iについて、その対話行為がaである事後確率pi,kを推定し、販売員対話行為事後確率系列として出力する。
 そして、対話特徴量セット抽出部12は、販売員対話行為事後確率系列に基づき、会話場面分割を行うことで、会話場面事後確率系列を出力する。
 対話特徴量セット抽出部12は、ある時刻tの会話場面がkである事後確率zt,kを、(4)式のように、対応する販売員発話の対話行為の事後確率によって定義する。
Figure JPOXMLDOC01-appb-M000004
 対話特徴量セット抽出部12は、会話場面事後確率系列{zt,k}と、販売員特徴量系列{f }から統計量算出を行い、販売員特徴統計量を得る(図8のステップS404)。
 同様に、対話特徴量セット抽出部12は、会話場面事後確率系列{zt,k}と、顧客特徴量系列{f }から統計量算出を行い、顧客特徴統計量を得る(図8のステップS405)。
 対話特徴量セット抽出部12は、各会話場面について、特徴量の統計量(平均、分散等)を算出することで各参与者の特徴統計量を得ることができる。
 例えば、対話特徴量セット抽出部12は、対話行為kに対応する会話場面について、販売員特徴量系列の平均を(5)式のように算出する。
Figure JPOXMLDOC01-appb-M000005
 対話特徴量セット抽出部12は、販売員特徴統計量と顧客特徴統計量を統合(例えば、ベクトルの連結)することによって対話特徴量を得る。
 このように、学習装置10及び推定装置20は、特定の対話行為に適合すると推定した時間区間における、対話の特徴を表す特徴量であって、特定の対話行為に適合すると推定した推定結果の信頼度に応じた重みを付けた特徴量を抽出する。
[システム構成等]
 また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散及び統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU(Central Processing Unit)及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。なお、プログラムは、CPUだけでなく、GPU等の他のプロセッサによって実行されてもよい。
 また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[プログラム]
 一実施形態として、学習装置10及び推定装置20は、パッケージソフトウェアやオンラインソフトウェアとして上記の学習処理及び推定処理を実行するプログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の学習プログラムを情報処理装置に実行させることにより、情報処理装置を学習装置10及び推定装置20として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等のスレート端末等がその範疇に含まれる。
 また、学習装置10及び推定装置20は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の学習処理及び推定処理に関するサービスを提供するサーバ装置として実装することもできる。例えば、サーバ装置は、対話データを入力とし、学習済みモデルの情報又は印象スコアの推定結果を出力とするサービスを提供するサーバ装置として実装される。この場合、サーバ装置は、Webサーバとして実装することとしてもよいし、アウトソーシングによって上記の収集処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。
 図10は、学習プログラムを実行するコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
 メモリ1010は、ROM(Read Only Memory)1011及びRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
 ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、学習装置10及び推定装置20の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、学習装置10及び推定装置20における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSD(Solid State Drive)により代替されてもよい。
 また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020は、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した実施形態の処理を実行する。
 なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
 10 学習装置
 11 対話・印象スコアデータベース
 12 対話特徴量セット抽出部
 13 モデル学習部
 14、23 印象スコア推定モデル情報
 20 推定装置
 21 対話特徴量抽出部
 22 印象スコア推定部

Claims (4)

  1.  コンピュータによって実行される推定方法であって、
     複数の参与者が参与する対話に関するデータを基に、時間区間ごとの対話が、あらかじめ定められた複数の対話行為のいずれに適合するかを推定し、前記データを基に、前記複数の対話行為のうちの特定の対話行為に適合すると推定した時間区間における、前記対話の特徴を表す特徴量を抽出する特徴量抽出工程と、
     前記特徴量をモデルに入力し、前記参与者の前記対話における印象を表すスコアを推定する推定工程と、
     を含むことを特徴とする推定方法。
  2.  前記特徴量抽出工程は、前記特定の対話行為に適合すると推定した時間区間における、前記対話の特徴を表す特徴量であって、前記特定の対話行為に適合すると推定した推定結果の信頼度に応じた重みを付けた特徴量を抽出することを特徴とする請求項1に記載の推定方法。
  3.  複数の参与者が参与する対話に関するデータを基に、時間区間ごとの対話が、あらかじめ定められた複数の対話行為のいずれに適合するかを推定し、前記データを基に、前記複数の対話行為のうちの特定の対話行為に適合すると推定した時間区間における、前記対話の特徴を表す特徴量を抽出する特徴量抽出部と、
     前記特徴量をモデルに入力し、前記参与者の前記対話における印象を表すスコアを推定する推定部と、
     を有することを特徴とする推定装置。
  4.  コンピュータを、請求項3に記載の推定装置として機能させるための推定プログラム。
PCT/JP2021/048419 2021-12-24 2021-12-24 推定方法、推定装置及び推定プログラム WO2023119671A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/048419 WO2023119671A1 (ja) 2021-12-24 2021-12-24 推定方法、推定装置及び推定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/048419 WO2023119671A1 (ja) 2021-12-24 2021-12-24 推定方法、推定装置及び推定プログラム

Publications (1)

Publication Number Publication Date
WO2023119671A1 true WO2023119671A1 (ja) 2023-06-29

Family

ID=86901743

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/048419 WO2023119671A1 (ja) 2021-12-24 2021-12-24 推定方法、推定装置及び推定プログラム

Country Status (1)

Country Link
WO (1) WO2023119671A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010536053A (ja) * 2007-07-06 2010-11-25 ゼロ・トゥ・ワン・テクノロジー 電子的に会話を解析する方法および対応するシステム
JP2016206736A (ja) * 2015-04-16 2016-12-08 日本電気株式会社 接客データ処理装置及び接客データ処理方法
WO2019093392A1 (ja) * 2017-11-10 2019-05-16 日本電信電話株式会社 コミュニケーションスキル評価システム、装置、方法、及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010536053A (ja) * 2007-07-06 2010-11-25 ゼロ・トゥ・ワン・テクノロジー 電子的に会話を解析する方法および対応するシステム
JP2016206736A (ja) * 2015-04-16 2016-12-08 日本電気株式会社 接客データ処理装置及び接客データ処理方法
WO2019093392A1 (ja) * 2017-11-10 2019-05-16 日本電信電話株式会社 コミュニケーションスキル評価システム、装置、方法、及びプログラム

Similar Documents

Publication Publication Date Title
CN109547814B (zh) 视频推荐方法、装置、服务器及存储介质
CN109800306B (zh) 意图分析方法、装置、显示终端及计算机可读存储介质
CN108346436B (zh) 语音情感检测方法、装置、计算机设备及存储介质
US20150170053A1 (en) Personalized machine learning models
JP6780033B2 (ja) モデル学習装置、推定装置、それらの方法、およびプログラム
CN109523237A (zh) 基于用户偏好的众包任务推送方法及相关装置
CN113240510B (zh) 异常用户预测方法、装置、设备及存储介质
CN110597965B (zh) 文章的情感极性分析方法、装置、电子设备及存储介质
CN107291845A (zh) 一种基于预告片的电影推荐方法及系统
US20230360071A1 (en) Actionable kpi-driven segmentation
WO2013103747A1 (en) Detecting overlapping clusters
CN113656699B (zh) 用户特征向量确定方法、相关设备及介质
CN114444619B (zh) 样本生成方法、训练方法、数据处理方法以及电子设备
CN111368066B (zh) 获取对话摘要的方法、装置和计算机可读存储介质
CN113610552A (zh) 一种用户流失预测方法及装置
CN115577316A (zh) 一种基于多模态数据融合的用户人格预测方法与应用
CN111783873A (zh) 基于增量朴素贝叶斯模型的用户画像方法及装置
CN112667791A (zh) 潜在事件预测方法、装置、设备及存储介质
CN114491255A (zh) 推荐方法、系统、电子设备和介质
WO2023119671A1 (ja) 推定方法、推定装置及び推定プログラム
CN111931035B (zh) 业务推荐方法、装置及设备
WO2023119658A1 (ja) 推定方法、推定装置及び推定プログラム
CN115311001A (zh) 一种基于多重投票算法的预测用户换机倾向的方法及系统
CN115063858A (zh) 视频人脸表情识别模型训练方法、装置、设备及存储介质
WO2023119672A1 (ja) 推定方法、推定装置及び推定プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21969101

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE