WO2023119672A1 - 推定方法、推定装置及び推定プログラム - Google Patents

推定方法、推定装置及び推定プログラム Download PDF

Info

Publication number
WO2023119672A1
WO2023119672A1 PCT/JP2021/048420 JP2021048420W WO2023119672A1 WO 2023119672 A1 WO2023119672 A1 WO 2023119672A1 JP 2021048420 W JP2021048420 W JP 2021048420W WO 2023119672 A1 WO2023119672 A1 WO 2023119672A1
Authority
WO
WIPO (PCT)
Prior art keywords
dialogue
participant
feature amount
estimation
impression
Prior art date
Application number
PCT/JP2021/048420
Other languages
English (en)
French (fr)
Inventor
伸克 北条
哲 小橋川
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2021/048420 priority Critical patent/WO2023119672A1/ja
Publication of WO2023119672A1 publication Critical patent/WO2023119672A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management

Definitions

  • the present invention relates to an estimation method, an estimation device, and an estimation program.
  • Non-Patent Document 1 there is known a technique for quantifying the impressions of participants in dialogue regarding satisfaction, trust, persuasiveness, etc., and estimating them as impression scores (see, for example, Non-Patent Document 1).
  • the customer's impression of the salesperson can be expressed in five stages, for example, 5: Satisfied, 4: Somewhat satisfied, 3: Neutral, 2: Somewhat dissatisfied, 1: Dissatisfied.
  • a numerical value representing such an impression is used as an impression score.
  • Skills of sales staff include "listening to the customer's situation and making flexible proposals according to the contents" and “flexibly changing the way of speaking according to the customer's attitude". For example, a salesperson may use such skills to intentionally change the content or manner of speaking in order to impress a customer.
  • Non-Patent Document 1 extracts speaking style features and linguistic features for each dialogue and uses them to estimate an impression score. Therefore, the estimation accuracy of the impression score may not be sufficient.
  • the estimation method is a computer-executed estimation method that includes dialogue feature values representing dialogue characteristics from each of a plurality of data corresponding to dialogue participants. and extracting a participant feature amount representing the feature of the participant from the plurality of data; inputting the dialogue feature amount and the participant feature amount into a model; and an estimating step of estimating a score representing the impression in the dialogue.
  • FIG. 1 is a diagram showing a configuration example of a learning device.
  • FIG. 2 is a diagram illustrating a method of extracting a dialogue feature quantity set.
  • FIG. 3 is a diagram illustrating a configuration example of an estimation device.
  • FIG. 4 is a diagram illustrating a configuration example of a learning device according to the first embodiment.
  • FIG. 5 is a diagram illustrating a method for extracting a dialogue/participant feature amount set according to the first embodiment.
  • FIG. 6 is a diagram illustrating a configuration example of an estimation device according to the first embodiment.
  • FIG. 7 is a diagram illustrating an example of a computer that executes an estimation program;
  • FIG. 1 Basic form of learning device and estimation device
  • FIG. 1 a learning device and an estimation device that form the basis of each embodiment will be described with reference to FIGS. 1, 2, and 3.
  • FIG. Each embodiment may be realized by adding a function to the basic form of the learning device and the estimation device described here, or by changing a part of the function.
  • the estimating device quantifies the impression of the participants' satisfaction, trust, persuasiveness, etc. in the dialogue based on the dialogue data, and estimates it as an impression score.
  • the estimation device estimates an impression score using a trained impression score estimation model.
  • learning of the impression score estimation model is performed by a learning device.
  • the estimating device and the learning device may be realized by the same device or by different devices.
  • the customer's impression score of the seller is estimated in the dialogue in which the salesperson and the customer participate.
  • the dialogue participants whose impression scores are to be estimated by the estimating device are not limited to the salesperson and the customer, and may be, for example, friends, parents and children, superiors and subordinates, co-workers, and the like.
  • FIG. 1 is a diagram showing a configuration example of a learning device.
  • the learning device 10 stores a dialogue/impression score database 11 and impression score estimation model information 14 .
  • the learning device 10 also has a dialogue feature quantity set extraction unit 12 and a model learning unit 13 .
  • the dialogue/impression score database 11 contains a set of dialogue data (video, audio, etc.) by participants (dialogue data set), and the result that a participant (for example, a customer) had with another participant (for example, a salesperson). It holds an impression score data set that quantifies impressions.
  • N the number of dialogue data contained in the dialogue/impression score database 11
  • d n be each dialogue data
  • salesperson's dialogue data may be referred to as salesperson data.
  • customer dialogue data may be referred to as customer data.
  • dn is video data of recorded conversations, voice data of recorded conversations, and the like.
  • the impression score is a five-level evaluation score (for example, 5: Satisfied, 4: Somewhat satisfied, 3: Neither, 2: Somewhat dissatisfied, 1: Dissatisfied) regarding satisfaction, trust, and the like.
  • a dialogue data set is a set of dialogue data contained in the dialogue/impression score database 11, and is denoted as ⁇ d n,m ⁇ .
  • the impression score data set is a set of impression scores contained in the dialogue/impression score database 11, and is expressed as ⁇ s n,m ⁇ .
  • the dialogue feature quantity set extraction unit 12 performs dialogue feature quantity extraction for each dialogue in the dialogue data set to obtain a dialogue feature quantity set.
  • FIG. 2 is a diagram illustrating a method of extracting a dialogue feature quantity set. Note that M is the number of participants.
  • the dialogue feature quantity set extraction unit 12 executes participant feature quantity extraction on the salesperson data to extract the salesperson participant feature quantity.
  • the dialogue feature quantity set extraction unit 12 executes participant feature quantity extraction on the customer data to extract the customer participant feature quantity.
  • the dialogue feature quantity set extraction unit 12 obtains the dialogue feature quantity by integrating the salesperson participant feature quantity and the customer participant feature quantity (for example, concatenating vectors).
  • the dialogue feature quantity set extraction unit 12 extracts, in the same manner as the method described in Non-Patent Document 1, the utterance time, average Audio feature quantities such as speech speed variance, or image feature quantities such as optical flow averages and variances, and weighted motion energy images (WMEI) averages and variances can be extracted as participant feature quantities.
  • average Audio feature quantities such as speech speed variance
  • image feature quantities such as optical flow averages and variances
  • WMEI weighted motion energy images
  • the dialogue feature set extraction unit 12 performs voice recognition on the voice data in the same manner as the method described in Reference 1, and pre- The language feature amount obtained by calculating the Bag-of-Words (BoW) for the keyword specified in can be extracted as the participant feature amount.
  • Reference 1 Atsushi Ando, Ryo Masumura, Hosana Kamiyama, Satoshi Kobashikawa, Yushi Aono, and Tomoki Toda, "Customer satisfaction estimation in contact center calls based on a hierarchical multi-task model," IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol.28, pp.715-728, 2020.
  • the model learning unit 13 uses the dialogue feature quantity set extracted by the dialogue feature quantity set extraction unit 12 as an input feature quantity and the impression score set as a correct label to learn an impression score estimation model for estimating an impression score.
  • the impression score estimation model may be linear regression, ridge regression, random forest, etc., similar to the technique of Non-Patent Document 1.
  • the impression score estimation model may be a neural network such as a multi-layer perceptron.
  • the impression score estimation model information 14 is information such as the parameters of the learned impression score estimation model.
  • FIG. 3 is a diagram showing the configuration of the estimation device. As shown in FIG. 3 , the estimation device 20 has a dialogue feature amount extraction unit 21 and an impression score estimation unit 22 . The estimation device 20 also stores impression score estimation model information 23 .
  • the dialogue feature amount extraction unit 21 extracts dialogue feature amounts from the dialogue data.
  • the dialogue feature amount extraction unit 21 can extract the dialogue feature amount by the same method as the dialogue feature amount set extraction unit 12 .
  • the impression score estimation unit 22 inputs the dialogue feature quantity extracted by the dialogue feature quantity extraction unit 21 to the learned impression score estimation model, and obtains an estimated value of the impression score.
  • the impression score estimation model information 23 is the same as the impression score estimation model information 14. Therefore, the impression score estimation unit 22 can construct a learned impression score estimation model based on the impression score estimation model information 23 .
  • the learning device and the estimating device refer to a plurality of dialogues by the same participant included in the dialogue data set, and determine how features such as utterance content and speaking style (hereinafter referred to as utterance mode) differ among participants. Extract as features.
  • the learning device and the estimation device extract, for each dialogue data, a combination of a dialogue feature quantity and a participant feature quantity of the participant as a dialogue/participant feature quantity, and use the extracted dialogue/participant feature quantity as an impression. It is used for learning the score estimation model and estimating the impression score.
  • participant feature values By using participant feature values, it is possible to build an impression score estimation model that takes into consideration whether or not participants change their speaking style for each dialogue. As a result, according to the first embodiment, it is possible to improve the accuracy of impression score estimation.
  • the learning device and the estimating device extract participant feature amounts.
  • FIG. 4 is a diagram showing a configuration example of the learning device according to the first embodiment.
  • the learning device 30 stores a dialogue/impression score database 31 and impression score estimation model information 34 .
  • the learning device 30 also has a dialog/participant feature quantity set extraction unit 32 and a model learning unit 33 .
  • the dialogue/impression score database 31 is a set of dialogue data (video, audio, etc.) by participants (dialogue data set), and as a result, a participant (for example, a customer) It holds an impression score data set that quantifies the impressions of participants (for example, salespersons).
  • the dialogue/participant feature quantity set extraction unit 32 extracts dialogue feature quantity for each dialogue data dm ,n in the dialogue data set to obtain dialogue feature quantity fm ,n .
  • FIG. 5 is a diagram illustrating a method of extracting a dialogue/participant feature quantity set. Note that M is the number of participants.
  • the dialogue/participant feature quantity set extraction unit 32 can extract dialogue feature quantities in the same manner as the dialogue feature quantity set extraction unit 12 .
  • K is the number of types of feature amounts included in the dialogue feature amount.
  • the dialogue/participant feature quantity set extraction unit 32 extracts a set of dialogue data ⁇ d m, 1 , . . . , d m, Nm ⁇ is used to extract the participant feature amount, and the participant feature amount pm is obtained.
  • the dialogue/participant feature quantity set extraction unit 32 extracts a set of dialogue feature quantities ⁇ f m ,1 , . ⁇ , the variance v m k may be calculated by the formulas (1) and (2), and the variance v m k may be used as the participant feature amount p m .
  • the dialog/participant feature amount set extraction unit 32 outputs a set ⁇ y m,n ⁇ of dialog/participant feature amounts obtained for each of m and n as a dialog/participant feature amount set.
  • the model learning unit 33 uses the dialogue feature amount set ⁇ y m,n ⁇ extracted by the dialogue/participant feature amount set extraction unit 32 as an input feature amount, and the impression score set ⁇ s m , n ⁇ as correct labels, an impression score estimation model for estimating an impression score is learned.
  • the impression score estimation model information 34 is information such as the parameters of the learned impression score estimation model, similar to the impression score estimation model information 14 .
  • FIG. 6 is a diagram showing a configuration example of the estimation device according to the first embodiment.
  • the estimation device 40 has a dialogue/participant feature amount extraction unit 41 and an impression score estimation unit 42 .
  • the estimation device 40 also stores impression score estimation model information 43 .
  • the dialog/participant feature amount extraction unit 41 extracts dialog/participant feature amounts from the dialog data.
  • the dialog/participant feature amount extraction unit 41 can extract the dialog/participant feature amount by the same method as the dialog/participant feature amount set extraction unit 32 .
  • the impression score estimation unit 42 inputs the dialogue feature amount extracted by the dialogue/participant feature amount extraction unit 41 to the trained impression score estimation model, and calculates the estimated impression score. obtain.
  • the learning device 30 and the estimation device 40 extract dialogue feature quantities representing characteristics of the dialogue from each of the plurality of data corresponding to the participants in the dialogue, Extract the person feature quantity.
  • the learning device 30 and the estimation device 40 input the dialogue feature amount and the participant feature amount into the model, and estimate the score (impression score) representing the impression of the participant's dialogue.
  • the learning device 30 and the estimation device 40 can calculate the variance of the dialogue feature quantity as the participant feature quantity.
  • the learning device 30 may learn the model using the estimated impression score, or may learn the model using various extracted feature amounts without estimating the impression score.
  • each component of each device illustrated is functionally conceptual, and does not necessarily need to be physically configured as illustrated.
  • the specific form of distribution and integration of each device is not limited to the illustrated one, and all or part of them can be functionally or physically distributed or Can be integrated and configured.
  • all or any part of each processing function performed by each device is realized by a CPU (Central Processing Unit) and a program analyzed and executed by the CPU, or hardware by wired logic can be realized as Note that the program may be executed not only by the CPU but also by other processors such as a GPU.
  • CPU Central Processing Unit
  • the learning device 30 and the estimating device 40 can be implemented by installing a program for executing the above-described learning processing and estimating processing as package software or online software on a desired computer.
  • the information processing device can function as the learning device 30 and the estimation device 40 by causing the information processing device to execute the learning program.
  • the information processing apparatus referred to here includes a desktop or notebook personal computer.
  • information processing devices include mobile communication terminals such as smartphones, mobile phones and PHS (Personal Handyphone Systems), and slate terminals such as PDAs (Personal Digital Assistants).
  • the learning device 30 and the estimation device 40 can be implemented as a server device that uses a terminal device used by a user as a client and provides the client with services related to the above-described learning processing and estimation processing.
  • the server device is implemented as a server device that provides a service that inputs dialogue data and outputs information of a trained model or an impression score estimation result.
  • the server device may be implemented as a web server, or may be implemented as a cloud that provides services related to the collection processing by outsourcing.
  • FIG. 7 is a diagram showing an example of a computer that executes a learning program.
  • the computer 1000 has a memory 1010 and a CPU 1020, for example.
  • Computer 1000 also has hard disk drive interface 1030 , disk drive interface 1040 , serial port interface 1050 , video adapter 1060 and network interface 1070 . These units are connected by a bus 1080 .
  • the memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM (Random Access Memory) 1012 .
  • the ROM 1011 stores a boot program such as BIOS (Basic Input Output System).
  • BIOS Basic Input Output System
  • Hard disk drive interface 1030 is connected to hard disk drive 1090 .
  • a disk drive interface 1040 is connected to the disk drive 1100 .
  • a removable storage medium such as a magnetic disk or optical disk is inserted into the disk drive 1100 .
  • Serial port interface 1050 is connected to mouse 1110 and keyboard 1120, for example.
  • Video adapter 1060 is connected to display 1130, for example.
  • the hard disk drive 1090 stores, for example, an OS 1091, application programs 1092, program modules 1093, and program data 1094. That is, a program that defines each process of the learning device 30 and the estimation device 40 is implemented as a program module 1093 in which computer-executable code is described. Program modules 1093 are stored, for example, on hard disk drive 1090 .
  • the hard disk drive 1090 stores a program module 1093 for executing processing similar to the functional configurations of the learning device 30 and the estimation device 40 .
  • the hard disk drive 1090 may be replaced by an SSD (Solid State Drive).
  • the setting data used in the processing of the above-described embodiment is stored as program data 1094 in the memory 1010 or the hard disk drive 1090, for example. Then, the CPU 1020 reads the program modules 1093 and program data 1094 stored in the memory 1010 and the hard disk drive 1090 to the RAM 1012 as necessary, and executes the processes of the above-described embodiments.
  • the program modules 1093 and program data 1094 are not limited to being stored in the hard disk drive 1090, but may be stored in a removable storage medium, for example, and read by the CPU 1020 via the disk drive 1100 or the like. Alternatively, the program modules 1093 and program data 1094 may be stored in another computer connected via a network (LAN (Local Area Network), WAN (Wide Area Network), etc.). Program modules 1093 and program data 1094 may then be read by CPU 1020 through network interface 1070 from other computers.
  • LAN Local Area Network
  • WAN Wide Area Network

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

実施形態の推定装置(40)は、対話の参与者に対応する複数のデータのそれぞれから対話の特徴を表す対話特徴量を抽出し、複数のデータから、参与者の特徴を表す参与者特徴量を抽出する。また、推定装置(40)は、対話特徴量及び参与者特徴量をモデルに入力し、参与者の対話における印象を表すスコア(印象スコア)を推定する。

Description

推定方法、推定装置及び推定プログラム
 本発明は、推定方法、推定装置及び推定プログラムに関する。
 従来、対話における参与者の満足度、信頼感、説得力等に関する印象を定量化し、印象スコアとして推定する技術が知られている(例えば、非特許文献1を参照)。
 販売員(営業担当者)と顧客との対話を考える。このとき、顧客の販売員に対する印象は、例えば、5:満足、4:やや満足、3:どちらでもない、2:やや不満、1:不満、のように5段階で表すことができる。このような印象を表す数値を、印象スコアとする。
 販売員と顧客との対話を撮影した映像データから印象スコアを推定することができれば、例えば販売員ごとに印象スコアの平均を算出することで、販売員評価の自動化が可能となる。さらに、高スコアの対話と低スコアの対話を人が比較・分析することで、販売ノウハウを抽出することが可能である。
Laurent Son Nguyen, Denise Frauendorfer, Marianne Schmid Mast, and Daniel Gatica-Perez, "Hire me: Computational inference of hirability in employment interviews based on nonverbal behavior," IEEE Transactionson Multimedia, vol. 16, no. 4, pp. 1018-1031, 2014.
 しかしながら、従来の技術には、対話における印象スコアの推定精度が十分ではない場合があるという問題がある。
 販売員のスキルとして、「顧客の状況をヒアリングし、その内容に合わせて柔軟な提案を行うこと」、「顧客の態度に合わせて、話し方を柔軟に変更すること」等が挙げられる。例えば、販売員は、そのようなスキルを使って顧客に好印象を与えるために、対話の内容又は話し方を意図的に変化させることが考えられる。
 このため、ある販売員が行う複数の対話を比較し、対話ごとに異なる内容の発話又は話し方が観測されれば、顧客に好印象を与えた可能性が高い。
 一方で、非特許文献1に記載の技術は、対話単位で話し方の特徴及び言語的特徴を抽出し、印象スコアの推定に使用するものであり、複数の対話間で特徴の変化を比較することができないため、印象スコアの推定精度が十分でない場合があり得る。
 上述した課題を解決し、目的を達成するために、推定方法は、コンピュータによって実行される推定方法であって、対話の参与者に対応する複数のデータのそれぞれから対話の特徴を表す対話特徴量を抽出し、前記複数のデータから、前記参与者の特徴を表す参与者特徴量を抽出する特徴量抽出工程と、前記対話特徴量及び参与者特徴量をモデルに入力し、前記参与者の前記対話における印象を表すスコアを推定する推定工程と、を含むことを特徴とする。
 本発明によれば、対話における印象スコアの推定精度を向上させることができる。
図1は、学習装置の構成例を示す図である。 図2は、対話特徴量セットの抽出方法を説明する図である。 図3は、推定装置の構成例を示す図である。 図4は、第1の実施形態に係る学習装置の構成例を示す図である。 図5は、第1の実施形態に係る対話・参与者特徴量セットの抽出方法を説明する図である。 図6は、第1の実施形態に係る推定装置の構成例を示す図である。 図7は、推定プログラムを実行するコンピュータの一例を示す図である。
 以下に、本願に係る推定方法、推定装置及び推定プログラムの実施形態を図面に基づいて詳細に説明する。なお、本発明は、以下に説明する実施形態により限定されるものではない。
[学習装置及び推定装置の基本形]
 まず、図1、図2及び図3を用いて、各実施形態の基本となる学習装置及び推定装置について説明する。各実施形態は、ここで説明する学習装置及び推定装置の基本形に機能を付加すること、又は一部の機能を変更することによって実現されてもよい。
 推定装置は、対話に関する対話データを基に、対話における参与者の満足度、信頼感、説得力等に関する印象を定量化し、印象スコアとして推定する。推定装置は、学習済みの印象スコア推定モデルを用いて印象スコアを推定する。
 また、印象スコア推定モデルの学習は、学習装置によって行われる。推定装置と学習装置は同じ装置によって実現されてもよいし、異なる装置によって実現されてもよい。
 また、ここでは、販売員及び顧客が参与する対話における、特に顧客の販売者に対する印象スコアを推定するものとする。ただし、推定装置が印象スコアの推定対象とする対話の参与者は、販売員と顧客に限られず、例えば友人同士、親と子、上司と部下、仕事の同僚同士等であってもよい。
 図1は、学習装置の構成例を示す図である。図1に示すように、学習装置10は、対話・印象スコアデータベース11及び印象スコア推定モデル情報14を記憶する。また、学習装置10は、対話特徴量セット抽出部12及びモデル学習部13を有する。
 対話・印象スコアデータベース11は、参与者による対話データ(映像、音声等)の集合(対話データセット)と、その結果ある参与者(例えば顧客)が他の参与者(例えば販売員)に抱いた印象を数値化した印象スコアデータセットを保持したものである。
 対話・印象スコアデータベース11に含まれる対話データ数をN、各対話データをd、印象スコアをs(n=1,…,N)とする。
 なお、販売員の対話データを販売員データと表記する場合がある。また、顧客の対話データを顧客データと表記する場合がある。
 印象を評価される参与者を被評価参与者とする。また、対話・印象スコアデータベース11に含まれる被評価参与者の数をM、各被評価参与者m=1,…,Mについて、データベースに含ままれる対話数をN(ただしN>1)とする。
 例えば、dは対話を録画した映像データ、及び対話を録音した音声データ等である。また、例えば、印象スコアは、満足度、信頼感等に関する5段階評価のスコア(例えば、5:満足、4:やや満足、3:どちらでもない、2:やや不満、1:不満)である。
 対話データセットは、対話・印象スコアデータベース11に含まれる対話データの集合であり、{dn,m}と表記される。印象スコアデータセットは、対話・印象スコアデータベース11に含まれる印象スコアの集合であり、{sn,m}と表記される。
 対話特徴量セット抽出部12は、図2に示すように、対話データセット中の各対話に対し、対話特徴量抽出を行い、対話特徴量セットを得る。図2は、対話特徴量セットの抽出方法を説明する図である。なお、Mは参与者の数である。
(対話特徴量抽出方法)
 対話特徴量の抽出方法を説明する。対話特徴量セット抽出部12は、販売員データに対して参与者特徴量抽出を実行し、販売員参与者特徴量を抽出する。
 また、対話特徴量セット抽出部12は、顧客データに対して参与者特徴量抽出を実行し、顧客参与者特徴量を抽出する。
 対話特徴量セット抽出部12は、販売員参与者特徴量と顧客参与者特徴量を統合(例えば、ベクトルの連結)することによって対話特徴量を得る。
 例えば、dが動画像を含むデータである場合、対話特徴量セット抽出部12は、非特許文献1に記載された方法と同様に、各参与者についての、発話時間、話速の平均、話速の分散等の音声特徴量、又はオプティカルフローの平均及び分散、Weighted Motion Energy Images(WMEI)の平均、分散等の画像特徴量を、参与者特徴量として抽出することができる。
 また、dが音声を含むデータである場合、対話特徴量セット抽出部12は、参考文献1に記載された方法と同様に、音声データに対し音声認識を行い、得られたテキストから、事前に指定されたキーワードについてBag-of-Words(BoW)を算出して得られた言語特徴量を、参与者特徴量として抽出することができる。
 参考文献1:Atsushi Ando, Ryo Masumura, Hosana Kamiyama, Satoshi Kobashikawa, Yushi Aono, and Tomoki Toda, "Customer satisfaction estimation in contact center calls based on a hierarchical multi-task model," IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 28, pp. 715-728, 2020.
 モデル学習部13は、対話特徴量セット抽出部12によって抽出された対話特徴量セットを入力特徴量とし、印象スコアセットを正解ラベルとして、印象スコアを推定する印象スコア推定モデルの学習を行う。
 例えば、印象スコア推定モデルは、非特許文献1の技術と同様に、線形回帰、リッジ回帰、ランダムフォレスト等であってよい。また、印象スコア推定モデルは、多層パーセプトロンのようなニューラルネットワークであってもよい。
 また、印象スコア推定モデル情報14は、学習済みの印象スコア推定モデルのパラメータ等の情報である。
 図3は、推定装置の構成を示す図である。図3に示すように、推定装置20は、対話特徴量抽出部21及び印象スコア推定部22を有する。また、推定装置20は、印象スコア推定モデル情報23を記憶する。
 対話特徴量抽出部21は、対話データから対話特徴量を抽出する。対話特徴量抽出部21は、対話特徴量セット抽出部12と同じ方法で対話特徴量を抽出することができる。
 印象スコア推定部22は、対話特徴量抽出部21によって抽出された対話特徴量を学習済みの印象スコア推定モデルに入力し、印象スコアの推定値を得る。
 ここで、印象スコア推定モデル情報23は、印象スコア推定モデル情報14と同じものである。このため、印象スコア推定部22は、印象スコア推定モデル情報23を基に、学習済みの印象スコア推定モデルを構築することができる。
[第1の実施形態]
 第1の実施形態では、学習装置及び推定装置は、対話データセットに含まれる同一参与者による複数の対話を参照し、発話内容及び話し方等(以降、発話態様)の特徴の異なり方を参与者特徴量として抽出する。
 また、学習装置及び推定装置は、各対話データについて、対話特徴量と、当該参与者の参与者特徴量の組を対話・参与者特徴量として抽出し、抽出した対話・参与者特徴量を印象スコア推定モデルの学習及び印象スコアの推定に使用する。
 参与者特徴量の使用により、参与者が対話ごとに発話態様を変更しているかどうかを考慮した印象スコア推定モデルの構築が可能である。その結果、第1の実施形態によれば、印象スコア推定の精度を向上させることができる。
 ここでは、第1の実施形態に係る学習装置及び推定装置について、学習装置10及び推定装置20との相違点を説明し、共通点の説明は適宜省略する。
 第1の実施形態に係る学習装置及び推定装置は、学習装置10及び推定装置20と異なり、参与者特徴量を抽出する。
 図4は、第1の実施形態に係る学習装置の構成例を示す図である。図4に示すように、学習装置30は、対話・印象スコアデータベース31及び印象スコア推定モデル情報34を記憶する。また、学習装置30は、対話・参与者特徴量セット抽出部32及びモデル学習部33を有する。
 対話・印象スコアデータベース31は、対話・印象スコアデータベース11と同様に、参与者による対話データ(映像、音声等)の集合(対話データセット)と、その結果ある参与者(例えば顧客)が他の参与者(例えば販売員)に抱いた印象を数値化した印象スコアデータセットを保持したものである。
 対話・参与者特徴量セット抽出部32は、図5に示すように、対話データセット中の各対話データdm,nに対し対話特徴量抽出を行い、対話特徴量fm,nを得る。図5は、対話・参与者特徴量セットの抽出方法を説明する図である。なお、Mは参与者の数である。
 対話・参与者特徴量セット抽出部32は、対話特徴量セット抽出部12と同様の方法で対話特徴量を抽出することができる。
 ここで、得られた特徴量の集合を、対話特徴量fm,n={xm,n ,…,xm,n }とする。ただし、Kは対話特徴量に含まれる特徴量の種類の数である。
 続いて、対話・参与者特徴量セット抽出部32は、各被評価参与者m=1,…,Mについて、その参与者による対話データの集合{dm,1,…,dm,Nm}を用いて、参与者特徴量抽出を行い、参与者特徴量pを得る。
 対話・参与者特徴量セット抽出部32は、対話データの集合{dm,1,…,dm,Nm}に対応する各対話特徴量の集合{fm,1,…,fm,Nm}を用いて、(1)式及び(2)式により分散v を算出し、分散v を参与者特徴量pとして用いてもよい。
Figure JPOXMLDOC01-appb-M000001
Figure JPOXMLDOC01-appb-M000002
 そして、対話・参与者特徴量セット抽出部32は、各対話データdm,nについて、対応する対話特徴量fm,nと、対応する被評価参与者の参与者特徴量pから、対話・参与者特徴量ym,n={fm,n,p}を構成する。対話・参与者特徴量セット抽出部32は、各m、nについて得られた対話・参与者特徴量の集合{ym,n}を対話・参与者特徴量セットとして出力する。
 モデル学習部33は、モデル学習部13と同様に、対話・参与者特徴量セット抽出部32によって抽出された対話特徴量セット{ym,n}を入力特徴量とし、印象スコアセット{sm,n}を正解ラベルとして、印象スコアを推定する印象スコア推定モデルの学習を行う。
 また、印象スコア推定モデル情報34は、印象スコア推定モデル情報14と同様に、学習済みの印象スコア推定モデルのパラメータ等の情報である。
 図6は、第1の実施形態に係る推定装置の構成例を示す図である。図6に示すように、推定装置40は、対話・参与者特徴量抽出部41及び印象スコア推定部42を有する。また、推定装置40は、印象スコア推定モデル情報43を記憶する。
 対話・参与者特徴量抽出部41は、対話データから対話・参与者特徴量を抽出する。対話・参与者特徴量抽出部41は、対話・参与者特徴量セット抽出部32と同じ方法で対話・参与者特徴量を抽出することができる。
 ここで、対話・参与者特徴量抽出部41は、複数の参与者及び対話データに対応する対話特徴量の集合である対話・参与者特徴量セットではなく、単一の参与者に対応する対話・参与者特徴量を抽出するものであってもよい。なお、参与者が単一であっても、対話・参与者特徴量抽出部41は、複数の対話データから参与者特徴量を抽出することができる(M=1、N>1)。
 印象スコア推定部42は、印象スコア推定部22と同様に、対話・参与者特徴量抽出部41によって抽出された対話特徴量を学習済みの印象スコア推定モデルに入力し、印象スコアの推定値を得る。
 このように、学習装置30及び推定装置40は、対話の参与者に対応する複数のデータのそれぞれから対話の特徴を表す対話特徴量を抽出し、複数のデータから、参与者の特徴を表す参与者特徴量を抽出する。また、学習装置30及び推定装置40は、対話特徴量及び参与者特徴量をモデルに入力し、参与者の対話における印象を表すスコア(印象スコア)を推定する。
 また、学習装置30及び推定装置40は、対話特徴量の分散を、参与者特徴量として算出することができる。
 なお、学習装置30は、推定した印象スコアを用いてモデルの学習を行ってもよいし、印象スコアの推定を行うことなく、抽出した各種特徴量を用いてモデルの学習を行ってもよい。
[システム構成等]
 また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散及び統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU(Central Processing Unit)及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。なお、プログラムは、CPUだけでなく、GPU等の他のプロセッサによって実行されてもよい。
 また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[プログラム]
 一実施形態として、学習装置30及び推定装置40は、パッケージソフトウェアやオンラインソフトウェアとして上記の学習処理及び推定処理を実行するプログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の学習プログラムを情報処理装置に実行させることにより、情報処理装置を学習装置30及び推定装置40として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等のスレート端末等がその範疇に含まれる。
 また、学習装置30及び推定装置40は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の学習処理及び推定処理に関するサービスを提供するサーバ装置として実装することもできる。例えば、サーバ装置は、対話データを入力とし、学習済みモデルの情報又は印象スコアの推定結果を出力とするサービスを提供するサーバ装置として実装される。この場合、サーバ装置は、Webサーバとして実装することとしてもよいし、アウトソーシングによって上記の収集処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。
 図7は、学習プログラムを実行するコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
 メモリ1010は、ROM(Read Only Memory)1011及びRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
 ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、学習装置30及び推定装置40の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、学習装置30及び推定装置40における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSD(Solid State Drive)により代替されてもよい。
 また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020は、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した実施形態の処理を実行する。
 なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
 10、30 学習装置
 11、31 対話・印象スコアデータベース
 12 対話特徴量セット抽出部
 13、33 モデル学習部
 14、23、34、43 印象スコア推定モデル情報
 20、40 推定装置
 21 対話特徴量抽出部
 22、42 印象スコア推定部
 32 対話・参与者特徴量セット抽出部
 41 対話・参与者特徴量抽出部

Claims (4)

  1.  コンピュータによって実行される推定方法であって、
     対話の参与者に対応する複数のデータのそれぞれから対話の特徴を表す対話特徴量を抽出し、前記複数のデータから、前記参与者の特徴を表す参与者特徴量を抽出する特徴量抽出工程と、
     前記対話特徴量及び参与者特徴量をモデルに入力し、前記参与者の前記対話における印象を表すスコアを推定する推定工程と、
     を含むことを特徴とする推定方法。
  2.  前記特徴量抽出工程は、前記対話特徴量の分散を、前記参与者特徴量として算出することを特徴とする請求項1に記載の推定方法。
  3.  対話の参与者に対応する複数のデータのそれぞれから対話の特徴を表す対話特徴量を抽出し、前記複数のデータから、前記参与者の特徴を表す参与者特徴量を抽出する特徴量抽出部と、
     前記対話特徴量及び参与者特徴量をモデルに入力し、前記参与者の前記対話における印象を表すスコアを推定する推定部と、
     を有することを特徴とする推定装置。
  4.  コンピュータを、請求項3に記載の推定装置として機能させるための推定プログラム。
PCT/JP2021/048420 2021-12-24 2021-12-24 推定方法、推定装置及び推定プログラム WO2023119672A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/048420 WO2023119672A1 (ja) 2021-12-24 2021-12-24 推定方法、推定装置及び推定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/048420 WO2023119672A1 (ja) 2021-12-24 2021-12-24 推定方法、推定装置及び推定プログラム

Publications (1)

Publication Number Publication Date
WO2023119672A1 true WO2023119672A1 (ja) 2023-06-29

Family

ID=86901758

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/048420 WO2023119672A1 (ja) 2021-12-24 2021-12-24 推定方法、推定装置及び推定プログラム

Country Status (1)

Country Link
WO (1) WO2023119672A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007286377A (ja) * 2006-04-18 2007-11-01 Nippon Telegr & Teleph Corp <Ntt> 応対評価装置、その方法、プログラムおよびその記録媒体
JP2016206736A (ja) * 2015-04-16 2016-12-08 日本電気株式会社 接客データ処理装置及び接客データ処理方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007286377A (ja) * 2006-04-18 2007-11-01 Nippon Telegr & Teleph Corp <Ntt> 応対評価装置、その方法、プログラムおよびその記録媒体
JP2016206736A (ja) * 2015-04-16 2016-12-08 日本電気株式会社 接客データ処理装置及び接客データ処理方法

Similar Documents

Publication Publication Date Title
US11704899B2 (en) Resolving entities from multiple data sources for assistant systems
US10783361B2 (en) Predictive analysis of target behaviors utilizing RNN-based user embeddings
US20220383263A1 (en) Utilizing a machine learning model to determine anonymized avatars for employment interviews
CN111061962A (zh) 一种基于用户评分分析的推荐方法
US20130179449A1 (en) Detecting overlapping clusters
US11816687B2 (en) Personalized approach to modeling users of a system and/or service
CN114547475B (zh) 一种资源推荐方法、装置及系统
CN115577316A (zh) 一种基于多模态数据融合的用户人格预测方法与应用
CN115017288A (zh) 模型训练方法、模型训练装置、设备及存储介质
CA3147634A1 (en) Method and apparatus for analyzing sales conversation based on voice recognition
CN111783873A (zh) 基于增量朴素贝叶斯模型的用户画像方法及装置
Windiatmoko et al. Developing FB chatbot based on deep learning using RASA framework for university enquiries
CN113919437A (zh) 生成客户画像的方法、装置、设备及存储介质
CN113656699B (zh) 用户特征向量确定方法、相关设备及介质
CN111368066B (zh) 获取对话摘要的方法、装置和计算机可读存储介质
CN114491255A (zh) 推荐方法、系统、电子设备和介质
CN113887214A (zh) 基于人工智能的意愿推测方法、及其相关设备
WO2023119672A1 (ja) 推定方法、推定装置及び推定プログラム
CN115687790A (zh) 基于大数据的广告推送方法、系统及云平台
WO2023119658A1 (ja) 推定方法、推定装置及び推定プログラム
WO2023119675A1 (ja) 推定方法、推定装置及び推定プログラム
Zhan et al. A model for growth of markets of products or services having hierarchical dependence
WO2023119674A1 (ja) 学習方法、学習装置及び学習プログラム
CN115186179A (zh) 保险产品推送方法和装置
WO2023119671A1 (ja) 推定方法、推定装置及び推定プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21969102

Country of ref document: EP

Kind code of ref document: A1