WO2023162107A1 - 学習装置、推定装置、学習方法、推定方法、学習プログラムおよび推定プログラム - Google Patents

学習装置、推定装置、学習方法、推定方法、学習プログラムおよび推定プログラム Download PDF

Info

Publication number
WO2023162107A1
WO2023162107A1 PCT/JP2022/007726 JP2022007726W WO2023162107A1 WO 2023162107 A1 WO2023162107 A1 WO 2023162107A1 JP 2022007726 W JP2022007726 W JP 2022007726W WO 2023162107 A1 WO2023162107 A1 WO 2023162107A1
Authority
WO
WIPO (PCT)
Prior art keywords
speaker
listener
information
data
conversation
Prior art date
Application number
PCT/JP2022/007726
Other languages
English (en)
French (fr)
Inventor
輝 森川
亮 石井
肇 能登
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2022/007726 priority Critical patent/WO2023162107A1/ja
Publication of WO2023162107A1 publication Critical patent/WO2023162107A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates

Definitions

  • the present invention relates to a learning device, an estimating device, a learning method, an estimating method, a learning program, and an estimating program.
  • the conventional technology has the problem that it may not be possible to generate more natural backtracking as a listener.
  • the conventional technology there is a limit to speaking at appropriate timing, and there is a problem that the contents of the speech are far from natural backtracking.
  • the present invention has been made in view of the above, and aims to provide a learning device, an estimating device, a learning method, an estimating method, a learning program, and an estimating program that can generate more natural backtracking as a listener. aim.
  • the learning device of the present invention provides utterance data of a speaker and information about the speaker, conversation data of a listener and information about the listener, backtracking data included in the conversation data of the listener, and information about the listener. and a trained model for estimating the type of the listener's response to the speaker's conversation, using the information acquired by the acquisition unit, and using the information acquired by the acquisition unit, with the classification label of the response as correct data. and a creating unit.
  • the estimating device also includes an acquisition unit that acquires the utterance data of the speaker and information about the speaker, the conversation data of the listener and information about the listener, and the information acquired by the acquisition unit as input data. and an estimating unit for inputting the type of backtracking of the speaker into a trained model for estimating the type of backtracking of the listener to the speaker's conversation.
  • FIG. 1 is a block diagram illustrating the configuration of the learning device of this embodiment.
  • FIG. 2 is a diagram showing processing for creating a trained model.
  • FIG. 3 is a block diagram illustrating the configuration of the estimation device of this embodiment.
  • FIG. 4 is a diagram showing a process of estimating the type of listener's response to the speaker's conversation.
  • FIG. 5 is a diagram illustrating types of backtracking.
  • FIG. 6 is a flowchart illustrating an example of a processing procedure for learning processing.
  • FIG. 7 is a flowchart illustrating an example of a processing procedure for estimation processing.
  • FIG. 8 is a diagram showing a computer that executes a program.
  • Embodiments of a learning device, an estimating device, a learning method, an estimating method, a learning program, and an estimating program according to the present application will be described below in detail based on the drawings. Moreover, the present invention is not limited to the embodiments described below.
  • FIG. 1 is a block diagram illustrating the configuration of the learning device of this embodiment.
  • the learning device 10 of this embodiment has a communication processing unit 11 , an input unit 12 , an output unit 13 , a control unit 14 and a storage unit 15 .
  • the communication processing unit 11 is realized by a NIC (Network Interface Card) or the like, and controls communication via a telecommunication line such as a LAN (Local Area Network) or the Internet.
  • NIC Network Interface Card
  • LAN Local Area Network
  • the input unit 12 is implemented using input devices such as a keyboard and a mouse, and inputs various instruction information such as processing start to the control unit 14 in response to input operations by the operator.
  • the output unit 13 is implemented by a display device such as a liquid crystal display.
  • the storage unit 15 stores data and programs necessary for various processes by the control unit 14, and has a trained model storage unit 15a.
  • the storage unit 15 is a semiconductor memory device such as RAM (Random Access Memory) or flash memory, or a storage device such as a hard disk or optical disk.
  • the learned model storage unit 15a stores a learned model learned by the creation unit 14b, which will be described later.
  • the trained model storage unit 15a stores, as a trained model, a classifier for estimating the type of listener's backtracking to the speaker's conversation.
  • the control unit 14 has an internal memory for storing programs defining various processing procedures and required data, and executes various processing using these.
  • the control unit 14 has a learning data acquisition unit 14a and a creation unit 14b.
  • the control unit 14 is an electronic circuit such as a CPU (Central Processing Unit) or MPU (Micro Processing Unit), or an integrated circuit such as an ASIC (Application Specific Integrated Circuit) or FPGA (Field Programmable Gate Array).
  • the learning data acquisition unit 14a acquires the speaker's utterance data and information about the speaker, the listener's conversation data and information about the listener, and the classification labels of backtracking included in the listener's conversation data. For example, the learning data acquisition unit 14a acquires one or more of the speaker's facial expression, motion, and voice as information about the speaker, and acquires any one of the speaker's facial expression, motion, and voice as information about the listener. Or get one or more. Note that the learning data acquisition unit 14a may acquire, for example, the speaker's face or overall image data as information on the facial expressions and actions of the speaker and the listener, or information such as facial expression "smile” and action "none". can be obtained.
  • the creation unit 14b uses the information acquired by the learning data acquisition unit 14a to create a learned model for estimating the type of the listener's backtracking in response to the speaker's conversation, using the backtracking classification label as the correct data. That is, the creation unit 14b creates a trained model for estimating the type of backtracking included in both the speaker's and the listener's utterances and the listener's conversation data. Note that the creating unit 14b may use any method as a model learning method. Also, here, the backtracks included in the listener's conversation data include, for example, These are utterances such as "Yes", “Oh”, “Hmm”, “Hmm”, “Wow”, and "Eh". After that, the creation unit 14b stores the created learned model in the learned model storage unit 15a.
  • FIG. 2 is a diagram showing processing for creating a trained model.
  • the learning device 10 receives conversation data of the speaker and the listener, various types of information (expressions, actions, voices, etc.) of both parties during the conversation, and classification labels of the backhands of the listener. Based on the content of the conversation, a learning model is created to determine which type the listener's backtracking is classified into.
  • FIG. 3 is a block diagram illustrating the configuration of the estimation device of this embodiment.
  • the estimation device 20 of this embodiment has a communication processing unit 21 , an input unit 22 , an output unit 23 , a control unit 24 and a storage unit 25 .
  • the communication processing unit 21 is realized by a NIC or the like, and controls communication via electric communication lines such as LAN and the Internet.
  • the input unit 22 is implemented using an input device such as a keyboard and a mouse, and inputs various instruction information such as processing start to the control unit 24 in response to input operations by the operator.
  • the output unit 23 is implemented by a display device such as a liquid crystal display.
  • the storage unit 25 stores data and programs necessary for various processes by the control unit 24, and has a learned model storage unit 25a.
  • the storage unit 25 is a semiconductor memory device such as RAM (Random Access Memory) or flash memory, or a storage device such as a hard disk or optical disc.
  • the learned model storage unit 25a stores the learned model learned by the creating unit 14b.
  • the trained model storage unit 25a stores, as a trained model, a classifier for estimating the type of listener's backtracking to the speaker's conversation.
  • the control unit 24 has an internal memory for storing programs defining various processing procedures and required data, and executes various processing using these.
  • the control unit 24 has an input data acquisition unit 24a and an estimation unit 24b.
  • the control unit 24 is an electronic circuit such as a CPU (Central Processing Unit) or MPU (Micro Processing Unit), or an integrated circuit such as an ASIC (Application Specific Integrated Circuit) or FPGA (Field Programmable Gate Array).
  • the input data acquisition unit 24a acquires speech data of the speaker and information about the speaker, and conversation data of the listener and information about the listener. For example, the input data acquisition unit 24a acquires one or more of the speaker's facial expression, motion, and voice as information about the speaker, and acquires any one of the speaker's facial expression, motion, and voice as information about the listener. Or get one or more.
  • the estimation unit 24b inputs the information acquired by the input data acquisition unit 24a as input data to a trained model for estimating the type of the listener's response to the speaker's conversation, and estimates the type of the listener's response to the speaker's conversation. do. Then, the estimating unit 24b outputs the sorted types of backtracking.
  • FIG. 4 is a diagram showing a process of estimating the type of listener's response to the speaker's conversation.
  • the estimating device 20 inputs multimodal including the speaker's utterance (utterance, utterance sentence, etc.) and multimodal including the listener's response (utterance, utterance sentence, etc.) to the trained model, It outputs eight types of classification results for the listener's back-and-forth.
  • the estimating unit 24b of the estimating device 20, as illustrated in FIG. 5, estimates which of eight preset types of backtracking.
  • the types of backtracking are "positive response to the speaker”, “emotionless response to the speaker”, “negative or distressed response”, and “emotional movement”. "Response that repeats the speaker's utterance”, “Response that repeats the speaker's utterance (even if the wording does not match exactly, but paraphrasing is not included)", "What the speaker has not said yet” response and topic provided by the listener", and “summary and paraphrase of the speaker's speech” are set.
  • the types of backtracking are not limited to these eight types, and the number of types is not limited to eight.
  • the estimation device 20 can systematically classify utterances that indicate a wide variety of modes of backtracking, thereby improving mutual understanding in communication and improving the accuracy of dialogue analysis.
  • the estimating device 20 systematizes and classifies the backtracks uttered by the listeners, thereby making it possible to clarify the feelings and intentions of the speaker of the backtracking.
  • the estimation device 20 classifies and displays backhands in real time, it is possible for the speaker to accurately understand the listener's feelings and intentions.
  • the estimating device 20 classifies the backtracking, making it possible to clarify the implied intention and to more clearly grasp the change in the state of mind.
  • FIG. 6 is a flowchart illustrating an example of a processing procedure for preprocessing.
  • the learning data acquisition unit 14a of the learning device 10 acquires speech data of the speaker and information about the speaker (step S101). Then, the learning data acquisition unit 14a acquires the listener's conversation data and information about the listener (step S102). Subsequently, the learning data acquisition unit 14a acquires the classification label of the backtracking (step S103).
  • the creating unit 14b uses the information acquired by the learning data acquiring unit 14a to create a trained model for classifying the listener's backtracking to the speaker's conversation with the backtracking classification label as correct data (step S104). . After that, the creation unit 14b stores the created learned model in the learned model storage unit 15a (step S105).
  • FIG. 7 is a flowchart illustrating an example of a processing procedure for estimation processing.
  • the input data acquisition unit 24a of the estimation device 20 acquires utterance data of the speaker and information about the speaker, and conversation data of the listener and information about the listener as input data (step S201). Then, the estimation unit 24b inputs the input data to the trained model, identifies the type of backtracking (step S202), and outputs the type of backtracking (step S203).
  • the learning device 10 acquires the utterance data of the speaker and information about the speaker, the conversation data of the listener and information about the listener, and the classification label of the backtracking included in the conversation data of the listener. Using the information, a trained model is created that estimates the type of backtracking of the listener in response to the speaker's conversation, using the backtracking classification label as correct data. Therefore, the learning device 10 can appropriately classify the content of backtracking by learning about the classification of the content of the backtracking made by the listener in response to the utterance of the speaker, and is useful for generating appropriate backtracking. becomes possible.
  • the estimation device 20 acquires the speaker's utterance data and information about the speaker, and the listener's conversation data and information about the listener, and uses the acquired information as input data to estimate the type of the listener's response to the speaker's conversation. Input it into a trained model to estimate the type of listener's response to the speaker's conversation. Therefore, the estimating device 20 can appropriately classify the contents of the backtracking, and by using this in generating an appropriate backtracking, it is possible to generate a more natural backtracking as a listener.
  • each component of each device shown in the drawings according to the above embodiment is functionally conceptual, and does not necessarily need to be physically configured as shown in the drawing.
  • the specific form of distribution and integration of each device is not limited to the one shown in the figure, and all or part of them can be functionally or physically distributed and integrated in arbitrary units according to various loads and usage conditions. Can be integrated and configured.
  • each processing function performed by each device may be implemented in whole or in part by a CPU and a program analyzed and executed by the CPU, or implemented as hardware based on wired logic.
  • ⁇ program ⁇ It is also possible to create a program in which the processing executed by the learning device 10 or the estimating device 20 described in the above embodiment is described in a computer-executable language. In this case, the same effects as those of the above embodiments can be obtained by having the computer execute the program. Further, such a program may be recorded in a computer-readable recording medium, and the program recorded in this recording medium may be read by a computer and executed to realize processing similar to that of the above embodiments.
  • FIG. 8 is a diagram showing a computer that executes a program.
  • computer 1000 includes, for example, memory 1010, CPU 1020, hard disk drive interface 1030, disk drive interface 1040, serial port interface 1050, video adapter 1060, and network interface 1070. , and these units are connected by a bus 1080 .
  • the memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM 1012, as illustrated in FIG.
  • the ROM 1011 stores a boot program such as BIOS (Basic Input Output System).
  • BIOS Basic Input Output System
  • Hard disk drive interface 1030 is connected to hard disk drive 1031 as illustrated in FIG.
  • Disk drive interface 1040 is connected to disk drive 1041 as illustrated in FIG.
  • a removable storage medium such as a magnetic disk or optical disk is inserted into the disk drive 1041 .
  • the serial port interface 1050 is connected to, for example, a mouse 1051 and a keyboard 1052 as illustrated in FIG.
  • Video adapter 1060 is connected to display 1061, for example, as illustrated in FIG.
  • the hard disk drive 1031 stores an OS 1091, application programs 1092, program modules 1093, and program data 1094, for example. That is, the above program is stored in, for example, the hard disk drive 1031 as a program module in which instructions to be executed by the computer 1000 are written.
  • the various data described in the above embodiments are stored as program data in the memory 1010 or the hard disk drive 1031, for example. Then, the CPU 1020 reads the program modules 1093 and program data 1094 stored in the memory 1010 and the hard disk drive 1031 to the RAM 1012 as necessary, and executes various processing procedures.
  • program module 1093 and program data 1094 related to the program are not limited to being stored in the hard disk drive 1031, and may be stored in a removable storage medium, for example, and read by the CPU 1020 via a disk drive or the like. .
  • the program module 1093 and program data 1094 related to the program are stored in another computer connected via a network (LAN (Local Area Network), WAN (Wide Area Network), etc.), and via the network interface 1070 It may be read by CPU 1020 .
  • LAN Local Area Network
  • WAN Wide Area Network

Abstract

学習装置(10)は、話し手の発話データおよび話し手に関する情報と、聞き手の会話データおよび聞き手に関する情報と、聞き手の会話データに含まれる相槌の分類ラベルを取得する。そして、学習装置(10)は、取得した情報を用いて、相槌の分類ラベルを正解データとして、話し手の会話に対する聞き手の相槌の種類を推定する学習済みモデルを作成する。

Description

学習装置、推定装置、学習方法、推定方法、学習プログラムおよび推定プログラム
 本発明は、学習装置、推定装置、学習方法、推定方法、学習プログラムおよび推定プログラムに関する。
 従来、ユーザの発話に対して応答する発話を生成し、ユーザとシステム間でのスムーズな対話を実現する会話システムの技術が存在する。このような会話システムにおいて、相槌は重要な要素であり、例えば、相槌をランダムに生成する技術が存在する(例えば、特許文献1参照)。
特開2018-22075号公報
 しかしながら、従来の技術では、聞き手役としてより自然な相槌を生成することが出来ない場合があるという課題があった。例えば、従来の技術では、適切なタイミングでの発話を行うことが限界であり、発話の内容は自然な相槌からは程遠いという課題があった。
 本発明は、上記に鑑みてなされたものであって、聞き手役としてより自然な相槌を生成することができる学習装置、推定装置、学習方法、推定方法、学習プログラムおよび推定プログラムを提供することを目的とする。
 上述した課題を解決し、目的を達成するために、本発明の学習装置は、話し手の発話データおよび話し手に関する情報と、聞き手の会話データおよび聞き手に関する情報と、前記聞き手の会話データに含まれる相槌の分類ラベルを取得する取得部と、前記取得部によって取得された情報を用いて、前記相槌の分類ラベルを正解データとして、話し手の会話に対する聞き手の相槌の種類を推定する学習済みモデルを作成する作成部とを有することを特徴とする。
 また、推定装置は、話し手の発話データおよび話し手に関する情報と、聞き手の会話データおよび聞き手に関する情報とを取得する取得部と、前記取得部によって取得された情報を入力データとして、話し手の会話に対する聞き手の相槌の種類を推定する学習済みモデルに入力し、話し手の会話に対する聞き手の相槌の種類を推定する推定部とを有することを特徴とする。
 本発明によれば、聞き手役としてより自然な相槌を生成することが可能となる。
図1は、本実施形態の学習装置の構成を例示するブロック図である。 図2は、学習済みモデルを作成する処理を示す図である。 図3は、本実施形態の推定装置の構成を例示するブロック図である。 図4は、話し手の会話に対する聞き手の相槌の種類を推定する処理を示す図である。 図5は、相槌の種類を例示する図である。 図6は、学習処理の処理手順の一例を示すフローチャートである。 図7は、推定処理の処理手順の一例を示すフローチャートである。 図8は、プログラムを実行するコンピュータを示す図である。
 以下に、本願に係る学習装置、推定装置、学習方法、推定方法、学習プログラムおよび推定プログラムの実施の形態を図面に基づいて詳細に説明する。また、本発明は、以下に説明する実施の形態により限定されるものではない。
[学習装置の構成]
 図1は、本実施形態の学習装置の構成を例示するブロック図である。図1に例示するように、本実施形態の学習装置10は、通信処理部11、入力部12、出力部13、制御部14、および記憶部15を有する。
 通信処理部11は、NIC(Network Interface Card)等で実現され、LAN(Local Area Network)やインターネットなどの電気通信回線を介して通信を制御する。
 入力部12は、キーボードやマウス等の入力デバイスを用いて実現され、操作者による入力操作に対応して、制御部14に対して処理開始などの各種指示情報を入力する。出力部13は、液晶ディスプレイなどの表示装置等によって実現される。
 記憶部15は、制御部14による各種処理に必要なデータおよびプログラムを格納し、学習済みモデル記憶部15aを有する。例えば、記憶部15は、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、又は、ハードディスク、光ディスク等の記憶装置などである。
 学習済みモデル記憶部15aは、後述する作成部14bによって学習された学習済みモデルを記憶する。例えば、学習済みモデル記憶部15aは、学習済みモデルとして、話し手の会話に対する聞き手の相槌の種類を推定するための分類器を記憶する。
 制御部14は、各種の処理手順などを規定したプログラムおよび所要データを格納するための内部メモリを有し、これらによって種々の処理を実行する。例えば、制御部14は、学習データ取得部14aおよび作成部14bを有する。ここで、制御部14は、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などの電子回路やASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などの集積回路である。
 学習データ取得部14aは、話し手の発話データおよび話し手に関する情報と、聞き手の会話データおよび聞き手に関する情報と、聞き手の会話データに含まれる相槌の分類ラベルを取得する。例えば、学習データ取得部14aは、話し手に関する情報として、話し手の表情、動作および音声のうち、いずれか一つまたは複数を取得し、聞き手に関する情報として、話し手の表情、動作および音声のうち、いずれか一つまたは複数を取得する。なお、学習データ取得部14aは、話し手および聞き手の表情および動作の情報として、例えば、話し手の顔や全体の画像データを取得してもよいし、表情「笑顔」、動作「なし」等の情報を取得してもよい。
 作成部14bは、学習データ取得部14aによって取得された情報を用いて、相槌の分類ラベルを正解データとして、話し手の会話に対する聞き手の相槌の種類を推定する学習済みモデルを作成する作成する。つまり、作成部14bは、話し手、聞き手双方の発声と聞き手の会話データに含まれる相槌の種類を推定する学習済みモデルを作成する作成する。なお、作成部14bは、モデルを学習方法として、どのような手法を用いてもよい。また、ここで、聞き手の会話データに含まれる相槌とは、例えば、会話データに含まれる「うんうん」、「そうそう」、「それいい」、「なるほど」、「たしかに」、「うん」、「はい」、「おお」、「うーん」、「ふーん」、「すごい」、「えっ」等の発話である。また、その後、作成部14bは、作成した学習済みモデルを学習済みモデル記憶部15aに格納する。
 ここで、図2を用いて、学習済みモデルを作成する処理を説明する。図2は、学習済みモデルを作成する処理を示す図である。図2に示すように、学習装置10は、話し手と聞き手の会話データおよび会話の際の両者の各種情報(表情、動作、音声等)と、聞き手の相槌の分類ラベルを入力とし、話し手と聞き手の会話内容から、聞き手の相槌がどの種類に分類されるかを判定する学習モデルを作成する。
[推定装置の構成]
 図3は、本実施形態の推定装置の構成を例示するブロック図である。図3に例示するように、本実施形態の推定装置20は、通信処理部21、入力部22、出力部23、制御部24、および記憶部25を有する。
 通信処理部21は、NIC等で実現され、LANやインターネットなどの電気通信回線を介して通信を制御する。入力部22は、キーボードやマウス等の入力デバイスを用いて実現され、操作者による入力操作に対応して、制御部24に対して処理開始などの各種指示情報を入力する。出力部23は、液晶ディスプレイなどの表示装置等によって実現される。
 記憶部25は、制御部24による各種処理に必要なデータおよびプログラムを格納し、学習済みモデル記憶部25aを有する。例えば、記憶部25は、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、又は、ハードディスク、光ディスク等の記憶装置などである。
 学習済みモデル記憶部25aは、作成部14bによって学習された学習済みモデルを記憶する。例えば、学習済みモデル記憶部25aは、学習済みモデルとして、話し手の会話に対する聞き手の相槌の種類を推定するための分類器を記憶する。
 制御部24は、各種の処理手順などを規定したプログラムおよび所要データを格納するための内部メモリを有し、これらによって種々の処理を実行する。例えば、制御部24は、入力データ取得部24aおよび推定部24bを有する。ここで、制御部24は、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などの電子回路やASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などの集積回路である。
 入力データ取得部24aは、話し手の発話データおよび話し手に関する情報と、聞き手の会話データおよび聞き手に関する情報とを取得する。例えば、入力データ取得部24aは、話し手に関する情報として、話し手の表情、動作および音声のうち、いずれか一つまたは複数を取得し、聞き手に関する情報として、話し手の表情、動作および音声のうち、いずれか一つまたは複数を取得する。
 推定部24bは、入力データ取得部24aによって取得された情報を入力データとして、話し手の会話に対する聞き手の相槌の種類を推定する学習済みモデルに入力し、話し手の会話に対する聞き手の相槌の種類を推定する。そして、推定部24bは、分類した相槌の種類を出力する。
 ここで図4を用いて、話し手の会話に対する聞き手の相槌の種類を推定する処理について説明する。図4は、話し手の会話に対する聞き手の相槌の種類を推定する処理を示す図である。図4に示すように、推定装置20は、話し手の発話(発声、発話文等)を含むマルチモーダル、および聞き手の相槌(発声、発話文等)を含むマルチモーダルを学習済みモデルに入力し、聞き手の相槌に対する8種類の分類結果を出力する。
 例えば、推定装置20の推定部24bは、図5に例示するように、相槌の種類として、予め設定された8種類のうち、いずれの種類であるかを推定する。図5の例では、相槌の種類として、「話し手への肯定的な応答」、「話し手への感情を含まない応答」、「否定的、または悩んでいるような応答」、「感情の動きを表す応答」、「話し手の発話を繰り返す応答」、「話し手の発話を繰り返す応答(文言が完全に一致していなくても許容。ただし、言い換えは含まない)」、「話し手がまだ言っていない内容の応答、および聞き手からの話題提供」、「話し手の話の要約、および言い換え」が設定されている。なお、相槌の種類はこの8種類に限定されるものではなく、種類数も8に限定されるものではない。
 これにより、推定装置20が、相槌という多種多様な様態を示す発声を、体系的に分類することで、コミュニケーションにおける相互理解の向上や、対話の分析の高精度化に役立てることが可能である。つまり、例えば、相槌は同じ音節でも異なる意味合いを持つものが多数あり、言語、文化によるニュアンスの差異も大きく、しばしば誤解の原因となる。そこで、推定装置20が、聞き手の発する相槌を体系化し、分類することで、相槌の発声者の心情、意図を明確化することができる。また、例えば、推定装置20が、リアルタイムで相槌を分類し表示するシステムがあれば、話し手が聞き手の心情や意図を正確に理解することが可能である。さらに、対話の分析においても、推定装置20が相槌の分類を行うことで、言外に含まれた意図の解明や、心境の変化をより鮮明にとらえることが可能となる。
[学習装置の処理手順]
 次に、図6を用いて、学習装置10が実行する処理の処理手順の一例について説明する。図6は、事前処理の処理手順の一例を示すフローチャートである。
 図6に例示するように、学習装置10の学習データ取得部14aは、話し手の発話データおよび話し手に関する情報を取得する(ステップS101)。そして、学習データ取得部14aは、聞き手の会話データおよび聞き手に関する情報を取得する(ステップS102)。続いて、学習データ取得部14aは、相槌の分類ラベルを取得する(ステップS103)。
 そして、作成部14bは、学習データ取得部14aによって取得された情報を用いて、相槌の分類ラベルを正解データとして、話し手の会話に対する聞き手の相槌を分類する学習済みモデルを作成する(ステップS104)。その後、作成部14bは、作成した学習済みモデルを学習済みモデル記憶部15aに格納する(ステップS105)。
[推定装置の処理手順]
 次に、図7を用いて、推定装置20が実行する処理の処理手順の一例について説明する。図7は、推定処理の処理手順の一例を示すフローチャートである。
 図7に例示するように、推定装置20の入力データ取得部24aは、話し手の発話データおよび話し手に関する情報と、聞き手の会話データおよび聞き手に関する情報とを入力データとして取得する(ステップS201)。そして、推定部24bは、入力データを学習済みモデルに入力して、相槌の種類を特定し(ステップS202)、相槌の種類を出力する(ステップS203)。
[実施の形態の効果]
 このように、実施形態に係る学習装置10は、話し手の発話データおよび話し手に関する情報と、聞き手の会話データおよび聞き手に関する情報と、聞き手の会話データに含まれる相槌の分類ラベルを取得し、取得した情報を用いて、相槌の分類ラベルを正解データとして、話し手の会話に対する聞き手の相槌の種類を推定する学習済みモデルを作成する。このため、学習装置10は、話し手の発話に対して聞き手が発した相槌の内容の分類について学習することで、相槌の内容を適切に分類することが可能になり、適切な相槌の生成に役立てることが可能となる。
 また、推定装置20は、話し手の発話データおよび話し手に関する情報と、聞き手の会話データおよび聞き手に関する情報とを取得し、取得した情報を入力データとして、話し手の会話に対する聞き手の相槌の種類を推定する学習済みモデルに入力し、話し手の会話に対する聞き手の相槌の種類を推定する。このため、推定装置20は、相槌の内容を適切に分類することが可能になり、適切な相槌の生成に役立てることで、聞き手役としてより自然な相槌を生成することが可能となる。
〔システム構成等〕
 上記実施形態に係る図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のごとく構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
 また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
〔プログラム〕
 また、上記実施形態において説明した学習装置10または推定装置20が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。この場合、コンピュータがプログラムを実行することにより、上記実施形態と同様の効果を得ることができる。さらに、かかるプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータに読み込ませて実行することにより上記実施形態と同様の処理を実現してもよい。
 図8は、プログラムを実行するコンピュータを示す図である。図8に例示するように、コンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有し、これらの各部はバス1080によって接続される。
 メモリ1010は、図8に例示するように、ROM(Read Only Memory)1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、図8に例示するように、ハードディスクドライブ1031に接続される。ディスクドライブインタフェース1040は、図8に例示するように、ディスクドライブ1041に接続される。例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1041に挿入される。シリアルポートインタフェース1050は、図8に例示するように、例えば、マウス1051、キーボード1052に接続される。ビデオアダプタ1060は、図8に例示するように、例えばディスプレイ1061に接続される。
 ここで、図8に例示するように、ハードディスクドライブ1031は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、上記のプログラムは、コンピュータ1000によって実行される指令が記述されたプログラムモジュールとして、例えば、ハードディスクドライブ1031に記憶される。
 また、上記実施形態で説明した各種データは、プログラムデータとして、例えば、メモリ1010やハードディスクドライブ1031に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1031に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出し、各種処理手順を実行する。
 なお、プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1031に記憶される場合に限られず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ等を介してCPU1020によって読み出されてもよい。あるいは、プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
 以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述および図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例および運用技術等は全て本発明の範疇に含まれる。
 10 学習装置
 11、21 通信処理部
 12、22 入力部
 13、23 出力部
 14、24 制御部
 14a 学習データ取得部
 14b 作成部
 15、25 記憶部
 15a、25a 学習済みモデル記憶部
 24a 入力データ取得部
 24b 推定部

Claims (8)

  1.  話し手の発話データおよび話し手に関する情報と、聞き手の会話データおよび聞き手に関する情報と、前記聞き手の会話データに含まれる相槌の分類ラベルを取得する取得部と、
     前記取得部によって取得された情報を用いて、前記相槌の分類ラベルを正解データとして、話し手の会話に対する聞き手の相槌の種類を推定する学習済みモデルを作成する作成部と
     を有することを特徴とする学習装置。
  2.  前記取得部は、前記話し手に関する情報として、話し手の表情、動作および音声のうち、いずれか一つまたは複数を取得し、前記聞き手に関する情報として、話し手の表情、動作および音声のうち、いずれか一つまたは複数を取得することを特徴とする請求項1に記載の学習装置。
  3.  話し手の発話データおよび話し手に関する情報と、聞き手の会話データおよび聞き手に関する情報とを取得する取得部と、
     前記取得部によって取得された情報を入力データとして、話し手の会話に対する聞き手の相槌の種類を推定する学習済みモデルに入力し、話し手の会話に対する聞き手の相槌の種類を推定する推定部と
     を有することを特徴とする推定装置。
  4.  前記取得部は、前記話し手に関する情報として、話し手の表情、動作および音声のうち、いずれか一つまたは複数を取得し、前記聞き手に関する情報として、話し手の表情、動作および音声のうち、いずれか一つまたは複数を取得することを特徴とする請求項3に記載の推定装置。
  5.  学習装置によって実行される学習方法であって、
     話し手の発話データおよび話し手に関する情報と、聞き手の会話データおよび聞き手に関する情報と、前記聞き手の会話データに含まれる相槌の分類ラベルを取得する取得工程と、
     前記取得工程によって取得された情報を用いて、前記相槌の分類ラベルを正解データとして、話し手の会話に対する聞き手の相槌の種類を推定する学習済みモデルを作成する作成工程と
     を含むことを特徴とする学習方法。
  6.  推定装置によって実行される推定方法であって、
     話し手の発話データおよび話し手に関する情報を取得する取得工程と、
     前記取得工程によって取得された情報を入力データとして、話し手の会話に対する聞き手の相槌の種類を推定する予測する学習済みモデルに入力し、話し手の会話に対する聞き手の相槌の種類を推定する推定工程と
     を含むことを特徴とする推定方法。
  7.  コンピュータを請求項1または2に記載の学習装置として機能させるための学習プログラム。
  8.  コンピュータを請求項3または4に記載の推定装置として機能させるための推定プログラム。
PCT/JP2022/007726 2022-02-24 2022-02-24 学習装置、推定装置、学習方法、推定方法、学習プログラムおよび推定プログラム WO2023162107A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/007726 WO2023162107A1 (ja) 2022-02-24 2022-02-24 学習装置、推定装置、学習方法、推定方法、学習プログラムおよび推定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/007726 WO2023162107A1 (ja) 2022-02-24 2022-02-24 学習装置、推定装置、学習方法、推定方法、学習プログラムおよび推定プログラム

Publications (1)

Publication Number Publication Date
WO2023162107A1 true WO2023162107A1 (ja) 2023-08-31

Family

ID=87765044

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/007726 WO2023162107A1 (ja) 2022-02-24 2022-02-24 学習装置、推定装置、学習方法、推定方法、学習プログラムおよび推定プログラム

Country Status (1)

Country Link
WO (1) WO2023162107A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014069122A1 (ja) * 2012-10-31 2014-05-08 日本電気株式会社 表現分類装置、表現分類方法、不満検出装置及び不満検出方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014069122A1 (ja) * 2012-10-31 2014-05-08 日本電気株式会社 表現分類装置、表現分類方法、不満検出装置及び不満検出方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
UENO RYOSUKE, SAKATO TATUYA, NAKANO YUKIKO: "Estimating Feedback Responses and the Intensity of Facial Expressions based on Multimodal Information", PROCEEDINGS OF THE ANNUAL CONFERENCE OF JSAI, THE JAPANESE SOCIETY FOR ARTIFICIAL INTELLIGENCE, 1 January 2021 (2021-01-01) - 11 June 2021 (2021-06-11), pages 3E2OS5b01, XP093085760, DOI: 10.11517/pjsai.JSAI2021.0_3E2OS5b01 *

Similar Documents

Publication Publication Date Title
WO2021104099A1 (zh) 一种基于情景感知的多模态抑郁症检测方法和系统
WO2021047233A1 (zh) 一种基于深度学习的情感语音合成方法及装置
CN108630193A (zh) 语音识别方法及装置
CN111901627B (zh) 视频处理方法、装置、存储介质及电子设备
JP2018513991A (ja) 音声を要約するための方法、コンピュータ・プログラムおよびコンピュータ・システム
CN111177350A (zh) 智能语音机器人的话术形成方法、装置和系统
US11545136B2 (en) System and method using parameterized speech synthesis to train acoustic models
WO2017146073A1 (ja) 声質変換装置、声質変換方法およびプログラム
CN111651497A (zh) 用户标签挖掘方法、装置、存储介质及电子设备
Alghifari et al. On the use of voice activity detection in speech emotion recognition
Huang et al. Emotional speech feature normalization and recognition based on speaker-sensitive feature clustering
WO2021012495A1 (zh) 语音识别结果测试方法、装置、计算机设备和介质
Lotfian et al. Lexical dependent emotion detection using synthetic speech reference
WO2023162107A1 (ja) 学習装置、推定装置、学習方法、推定方法、学習プログラムおよび推定プログラム
Johnson et al. Automatic dialect density estimation for African American English
WO2020162239A1 (ja) パラ言語情報推定モデル学習装置、パラ言語情報推定装置、およびプログラム
CN115798456A (zh) 跨语言情感语音合成方法、装置及计算机设备
WO2023162114A1 (ja) 学習装置、推定装置、学習方法、推定方法、学習プログラムおよび推定プログラム
CN115222857A (zh) 生成虚拟形象的方法、装置、电子设备和计算机可读介质
WO2023162108A1 (ja) 学習装置、推定装置、学習方法、推定方法、学習プログラムおよび推定プログラム
Heckmann Steps towards more natural human-machine interaction via audio-visual word prominence detection
CN116741143B (zh) 基于数字分身的个性化ai名片的交互方法及相关组件
Kulkarni et al. Project Vāc: Can a Text-to-Speech Engine Generate Human Sentiments?
US11889168B1 (en) Systems and methods for generating a video summary of a virtual event
WO2023195105A1 (ja) 付与装置、付与方法および付与プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22928634

Country of ref document: EP

Kind code of ref document: A1