WO2023021612A1

WO2023021612A1 - 目的変数推定装置、方法およびプログラム

Info

Publication number: WO2023021612A1
Application number: PCT/JP2021/030181
Authority: WO
Inventors: 優太南部; 匡宏幸島; 隆二山本; 仁志瀬下
Original assignee: 日本電信電話株式会社
Priority date: 2021-08-18
Filing date: 2021-08-18
Publication date: 2023-02-23
Also published as: JPWO2023021612A1

Abstract

この発明の一態様は、学習モードにおいて、異なる複数の発生元からそれぞれ発生されかつ目的変数と相関がある複数の学習用多変量時系列データを取得する。また、取得された前記複数の学習用多変量時系列データをもとに生成される客観比較が可能な複数のペアデータを取得する。そして、取得された複数の前記ペアデータを教師ラベルとしてランク学習を行って所定の目的関数を時系列方向に最適化することで、モデルパラメタの学習を行う。そして、運用モードにおいて、未知の多変量時系列データを取得して学習モデルに入力し、この学習モデルにおいて学習済の前記モデルパラメタを用いて、前記未知の多変量時系列データに対応する目的変数を推定する。

Description

目的変数推定装置、方法およびプログラム

　この発明の一態様は、機械学習モデルを用いて、例えば多変量時系列データから人の感情や情動のように絶対評価が困難な要素を目的変数として推定する目的変数推定装置、方法およびプログラムに関する。

　多変量時系列データを用いて絶対評価が困難な目的変数を推定したい場合がある。例えば、映画視聴中の人間の感情や情動を生体データから推定したい場合がこれに相当する。感情や情動の推定は、生体データという多変量時系列データを学習データとして入力して、興奮や感動といった絶対評価が困難な目的変数を出力するモデルの学習問題として定義することが可能である。

　一般に、機械学習におけるモデルの学習には、教師データとなる教師ラベルが必要となる。絶対評価が困難な目的変数を推定する場合、教師ラベルとしては、多くの場合被験者からのアンケート回答等から得た主観評価ラベルが用いられる。

　しかしながら、主観評価ラベルを用いた絶対評価が困難な目的変数の推定には、２つの課題が考えられる。一つ目の課題は、一般に主観評価の信憑性が低いため、他者との比較が難しいことである。例えば、興奮度合いを１点から９点までの多段階で評価するとき、興奮していない状態を５点として評価する人（以下Ａという）と、１点として評価する人（以下Ｂという）に分かれることが想定される。この場合、Ａが判断する５点とＢが判断する５点を同程度として扱うのは妥当でない。また、これらの目的変数は絶対評価が困難なため、Ａの１点とＢの５点という評価点からＡよりＢが５倍興奮していたと判断することも適切ではない。しかし、機械学習の評価値としては５点と５点は同値であり、１点と５点では５倍の評価値となってしまう。この例のように４点の差が生まれる場合は極端であるが、１点または２点程度の差であれば頻発する可能性がある。

　２つ目の課題は、教師ラベルが疎になることである。主観評価を実施する場合、評価のタイミングはコンテンツ視聴後などの視聴を妨害しないタイミングになる場合が多い。この場合、教師ラベルの数は１サンプルに対して視聴後に付与される１個となる。つまり、計測される生体データは時系列データとして密に取得されるにもかかわらず、教師ラベルは時系列上で疎になってしまう。これでは、コンテンツ視聴中の教師ラベルが得られない。このため、興奮度合いの遷移など細かく変化する目的変数を推定することは困難となる。

　一方、従来、映像や音楽を鑑賞中の被験者の快／不快や興奮／安静度合いを生体データから推定する手法として、例えば非特許文献１または非特許文献２に紹介される手法がある。これらの手法は、Electrocardiogram（ECG）やElectroencephalography （EEG）等から特徴量を抽出して機械学習モデルに入力することで目的変数を推定する。しかし、これらの手法はいずれも、機械学習に用いる教師ラベルには主観評価の結果を用いており、前述した２つの課題がいずれも未解決である。

　これに対し、主観評価における評価点のバラツキを吸収する手法として、ペアデータのランク学習を用いて目的変数を推定する手法がある。例えば、非特許文献３または非特許文献４には、ランク学習を用いてスピーチ視聴中の被験者の快／不快、興奮／安静度合いを推定する際に、音声特徴量をRankSVM と呼ばれるランク学習器に入力し、被験者の主観から得られたペアデータを教師ラベルとして用いることで快／不快などを推定する手法が記載されている。

　これらの手法は、主観評価を絶対的な数値として扱わずペアデータの比較として相対的に扱うことで、前述した１つ目の課題を軽減している。しかしながら、基本的に主観評価ラベルを用いる点は変わらない。このため、被験者ごとに評価点の基準が異なるという課題と、前述した２つ目の教師ラベルが時系列上で疎になるという課題が、依然として解決されていない。

Wei-Long Zheng, Jia-Yi Zhu, and Bao-Liang Lu. "Identifying stable patterns over time for emotion recognition from eeg." IEEE Transactions on Affective Computing, Vol.10, No.3, pp. 417-429, 2019. Mimma Nardelli, Gaetano Valenza, Alberto Greco, Antonio Lanata, and EnzoPasquale Scilingo. "Recognizing emotions induced by affective sounds through heart rate variability." IEEE Transactions on Affective Computing, Vol.6, No.4, pp. 385-394, 2015. Srinivas Parthasarathy, Reza Lotfian, and Carlos Busso. "Ranking emotional attributes with deep neural networks." In 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 4995-4999, 2017. Jianyu Fan, K.Tatar, Miles Thorogood, and P.Pasquier. "Ranking-based emotion recognition for experimental music." In ISMIR, 2017.

　以上述べたように、従来の手法はいずれも絶対評価が困難な目的変数の推定に主観評価ラベルを用いている。このため、被験者ごとに評価点の基準が異なるという課題と、目的変数が時系列上で疎になるという課題を有している。

　この発明は上記事情に着目してなされたもので、評価点の基準のバラツキをさらに軽減し、かつ教師ラベルが粗であっても目的変数を密に推定可能にする技術を提供しようとするものである。

　上記課題を解決するためにこの発明に係る目的変数推定装置または方法の一態様は、多変量時系列データを入力として絶対評価が困難な目的変数を出力する学習モデルを用いて上記目的変数を推定する際に、学習モードにおいて、異なる複数の発生元からそれぞれ発生されかつ前記目的変数と相関がある複数の学習用多変量時系列データを取得すると共に、取得された前記複数の学習用多変量時系列データをもとに生成される客観比較が可能な複数のペアデータを取得する。そして、取得された前記ペアデータを教師ラベルとしてランク学習を行って所定の目的関数を時系列方向に最適化することで、前記学習モデルのパラメタの学習を行う。そして、運用モードにおいて、未知の多変量時系列データが入力された場合に、入力された前記未知の多変量時系列データを前記学習モードに入力し、この学習モードにより前記学習済のパラメタを用いて前記未知の多変量時系列データに対応する目的変数を推定する。

　この発明の一態様によれば、客観比較が可能な複数のペアデータを教師ラベルとして用いてランク学習された学習済モデルデータを使用して目的変数の推定が行われるので、主観評価ラベルにより学習されたモデルデータを用いて推定する場合に発生する、評価点の基準のバラツキを軽減することが可能となる。また、モデルパラメタを学習する際に、目的関数を時系列方向に最適化する処理が加えられる。このため、教師ラベルが時間軸方向に粗であっても目的変数を密に出力できるようになり、これにより時間軸方向に対し連続性の高い目的変数を得ることが可能となる。

　すなわちこの発明の一態様によれば、評価点の基準のバラツキをさらに軽減し、かつ教師ラベルが粗であっても目的変数を密に推定可能にする技術を提供することができる。

図１は、この発明の一実施形態に係る目的変数推定装置の機能を有するサーバ装置を備えたシステムの全体構成を示す図である。図２は、図１に示したサーバ装置のハードウェア構成を示すブロック図である。図３は、図１に示したサーバ装置のソフトウェア構成を示すブロック図である。図４は、図３に示したサーバ装置により実行される学習モードの処理手順と処理内容を示すフローチャートである。図５は、図３に示したサーバ装置により実行される運用モードの処理手順と処理内容を示すフローチャートである。図６は、多変量時系列データの一例を示す図である。

　以下、図面を参照してこの発明に係わる実施形態を説明する。

　［一実施形態］
　（構成例）
　（１）システム
　図１は、この発明の一実施形態に係る目的変数推定装置の機能を有するサーバ装置ＳＶを備えたシステムの全体構成の一例を示す図である。

　一実施形態のシステムは、例えば映画や音楽等のコンテンツを鑑賞中の複数のユーザＵＳ１～ＵＳｎのうちの任意のユーザを観測対象とする。ユーザＵＳ１～ＵＳｎはそれぞれ生体センサＳＣ１～ＳＣｎを保有する。生体センサＳＣ１～ＳＣｎは、ネットワークＮＷを介してサーバ装置ＳＶとの間でデータ通信が可能となっている。なお、ＭＴは例えばシステム管理者等が使用するパーソナルコンピュータ等からなる管理端末を示している。

　生体センサＳＣ１～ＳＣｎは、例えばウェアラブル端末からなり、ユーザＵＳ１～ＵＳｎの心拍等の生体データを計測する。生体データは、時系列で変化する多変量時系列データであり、生体センサＳＣ１～ＳＣｎは上記多変量時系列データを内蔵する通信インタフェース部からサーバ装置ＳＶへ送信する。なお、生体センサＳＣ１～ＳＣｎは生体データの計測機能のみを有する専用デバイスであってもよく、この場合生体センサＳＣ１～ＳＣｎにより計測された生体データはスマートフォン等の携帯情報端末を経由してサーバ装置ＳＶに送信される。また、生体データとしては、心拍以外に血圧、呼吸、発汗、涙等の人の感情が反映される生体データが計測されてもよい。

　ネットワークＮＷとしては、例えば、Bluetooth（登録商標）やWiFi（登録商標）等の無線ネットワーク、有線ＬＡＮ（Local Area Network）、4Gまたは5G等の規格を採用した公衆無線ネットワーク、公衆光通信ネットワーク等が使用されるが、これらに限るものではない。

　（２）サーバ装置ＳＶ
　図２および図３は、それぞれサーバ装置ＳＶのハードウェア構成およびソフトウェア構成を示すブロック図である。

　サーバ装置ＳＶは、例えばＷｅｂ上またはクラウド上に配置されるサーバコンピュータからなり、中央処理ユニット（Central Processing Unit：ＣＰＵ）等のハードウェアプロセッサを使用した制御部１を備える。そして、この制御部１に対し、バス６を介して、プログラム記憶部２およびデータ記憶部３を有する記憶ユニットと、通信インタフェース（以後インタフェースをＩ／Ｆと記載する）部４と、入出力Ｉ／Ｆ部５を接続したものとなっている。

　なお、サーバ装置ＳＶは、例えば会社や団体のローカルネットワークに収容されたものであってもよく、またサーバコンピュータの代わりに汎用のパーソナルコンピュータが用いられてもよい。

　通信Ｉ／Ｆ部４は、制御部１の制御の下、ネットワークＮＷにより定義される通信プロトコルを使用して、上記生体センサＳＣ１～ＳＣｎとの間でそれぞれデータの送受信を行う。なお、ユーザＵＳ１～ＵＳｎがスマートフォン等の携帯端末を所持している場合には、通信Ｉ／Ｆ部４はこの携帯端末を経由して、上記生体センサＳＣ１～ＳＣｎにより計測された生体データを受信してもよい。

　入出力Ｉ／Ｆ部５には、上記管理端末ＭＴが接続される。管理端末ＭＴは例えば汎用のパーソナルコンピュータからなり、入力デバイス７と表示デバイス８を有している。入出力Ｉ／Ｆ５は、上記入力デバイス７から入力データを受け取ると共に、制御部１により生成された表示データを上記表示デバイス８に出力して表示させる。

　プログラム記憶部２は、例えば、記憶媒体としてＨＤＤ（Hard Disk Drive）またはＳＳＤ（Solid State Drive）等の随時書込みおよび読出しが可能な不揮発性メモリと、ＲＯＭ（Read Only Memory）等の不揮発性メモリとを組み合わせて構成したもので、ＯＳ（Operating System）等のミドルウェアに加えて、この発明の一実施形態に係る各種制御処理を実行するために必要な各種プログラムを格納する。

　データ記憶部３は、例えば、記憶媒体として、ＨＤＤまたはＳＳＤ等の随時書込みおよび読出しが可能な不揮発性メモリと、ＲＡＭ（Random Access Memory）等の揮発性メモリと組み合わせたもので、この発明の一実施形態を実施するために必要な記憶領域として、多変量時系列データ記憶部３１と、ペアデータ記憶部３２と、設定パラメタ記憶部３３と、モデルパラメタ記憶部３４と、目的変数記憶部３５とを備えている。

　多変量時系列データ記憶部３１は、生体センサＳＣ１～ＳＣｎから取得された多変量時系列データ（この例では生体データ）を、送信元の生体センサＳＣ１～ＳＣｎまたはユーザＵＳ１～ＵＳｎの識別情報（以後ユーザＩＤと呼ぶ）と対応付けて記憶するために使用される。

　ペアデータ記憶部３２は、上記多変量時系列データ記憶部３１に記憶された複数の多変量時系列データから抽出された、客観比較が可能な複数のペアデータを記憶するために使用される。ペアデータには、任意の１つの多変量時系列データの異なる２つの時刻においてサンプリングされたデータのペアと、任意の異なる２つの多変量時系列データの任意の時刻においてサンプリングされたデータのペアが含まれる。

　設定パラメタ記憶部３３は、学習モードにおいて、例えば管理端末ＭＴにおいてシステム管理者が入力した、学習モデルの設定パラメタを保存するために使用される。

　モデルパラメタ記憶部３４は、学習モードにおいて、上記設定パラメタに対して制御部１が学習した結果を、学習済のモデルパラメタとして記憶するために使用される。

　目的変数記憶部３５は、運用モードにおいて、生体センサＳＣ１～ＳＣｎから送信された未知の多変量時系列データに対し、制御部１が学習モデルにおいて上記学習済のモデルパラメタを用いて推定した目的変数を記憶するために使用される。

　制御部１は、この発明の一実施形態に係る処理機能として、多変量時系列データ取得処理部１１と、ペアデータ取得処理部１２と、設定パラメタ取得処理部１３と、モデルパラメタ学習処理部１４と、目的変数推定処理部１５と、目的変数出力処理部１６とを備えている。これらの各処理部１１～１６は、何れもプログラム記憶部２に格納されたアプリケーション・プログラムを、制御部１のハードウェアプロセッサに実行させることにより実現される。

　多変量時系列データ取得処理部１１は、生体センサＳＣ１～ＳＣｎから送信される多変量時系列データを通信Ｉ／Ｆ部４を介してそれぞれ受信し、受信された各多変量時系列データを送信元のユーザＩＤと対応付けて多変量時系列データ記憶部３１に記憶させる処理を行う。

　ペアデータ取得処理部１２は、上記多変量時系列データ記憶部３１に記憶された複数の多変量時系列データの各々から、任意の異なる時刻のデータのペアを複数抽出すると共に、上記複数の多変量時系列データのうち任意の２つの時系列データの組合せについて、任意の時刻のデータのペアを複数抽出する。すなわち、ペアデータ取得処理部１２は、客観比較が可能な複数のペアデータを抽出する。そして、抽出された上記客観比較が可能な複数のペアデータを、上記多変量時系列データ上の時刻データと対応付けてペアデータ記憶部３２に記憶させる処理を行う。

　設定パラメタ取得処理部１３は、学習モードにおいて、システム管理者が管理端末ＭＴにより入力した学習モデルの設定パラメタを入出力Ｉ／Ｆ部５を介して取り込み、取り込まれた設定パラメタを設定パラメタ記憶部３３に記憶させる処理を行う。

　モデルパラメタ学習処理部１４は、上記ペアデータ記憶部３２から客観比較が可能な複数のペアデータを選択的に読み込み、読み込まれた上記ペアデータを教師ラベルとして上記設定パラメタについてランク学習を行う。また、上記ランク学習において、目的関数を時系列方向に最適化する処理を行う。そして、モデルパラメタ学習処理部１４は、上記学習処理により得られた結果を、学習済のモデルパラメタとしてモデルパラメタ記憶部３４に記憶させる。なお、モデルパラメタ学習処理の一例は動作例において説明する。

　目的変数推定処理部１５は、運用モードにおいて、上記多変量時系列データ取得処理部１１により、観測対象のユーザＵＳ１～ＵＳｎの生体センサＳＣ１～ＳＣｎから送信された未知の多変量時系列データが受信された場合に、受信された上記未知の多変量時系列データを学習モデルに入力する。そして、目的変数推定処理部１５は、学習モデルにおいて、上記モデルパラメタ記憶部３４に記憶されている学習済のモデルパラメタを用いて、上記未知の多変量時系列データに対応する目的変数を推定し、推定された上記目的変数をユーザＩＤと対応付けて目的変数記憶部３５に記憶させる処理を行う。

　目的変数出力処理部１６は、推定された上記目的変数を上記目的変数記憶部３５から読み出し、読み出された上記目的変数の表示データを生成する。そして、生成された上記表示データを入出力Ｉ／Ｆ部５を介して管理端末ＭＴへ出力し、その表示デバイス８に表示させる処理を行う。

　（動作例）
　次に、以上のように構成されたサーバ装置ＳＶの動作例を説明する。　
　図４および図５は、サーバ装置ＳＶの制御部１が実行する処理の手順と処理内容の一例を示すフローチャートである。

　（１）学習モードにおける処理動作
　学習モードが設定されると、サーバ装置ＳＶの制御部１は、学習モデルに設定するモデルパラメタの学習処理を図４に示す処理手順に従い実行する。

　（１－１）多変量時系列データの取得
　サーバ装置ＳＶの制御部１は、待受状態において、ステップＳ１１によりデータ入力を監視する。この状態で、例えば映画または音楽コンテンツの鑑賞中に、観測対象となるユーザＵＳ１～ＵＳｎの生体センサＳＣ１～ＳＣｎからそれぞれ生体データが送信されたとする。

　そうすると、サーバ装置ＳＶの制御部１は、多変量時系列データ取得処理部１１の制御の下、ステップＳ１２において上記各生体データを通信Ｉ／Ｆ部４を介して受信し、受信された上記各生体データを学習用多変量時系列データとして多変量時系列データ記憶部３１に記憶させる。

　なお、学習用多変量時系列データは、上記したように観測対象の生体センサＳＣ１～ＳＣｎからリアルタイムに送信されるデータに限らず、例えば外部のデータベースサーバ等に蓄積された、複数の観測対象ユーザの過去に収集された鑑賞中の生体データを上記データベースサーバから取得したものであってもよい。また、学習用多変量時系列データは、生体データを模してシミュレーション等により作成されたものであってもよい。

　（１－２）ペアデータの取得
　上記多変量時系列データ記憶部３１に、例えば所定の単位時間分の多変量時系列データが蓄積されると、サーバ装置ＳＶの制御部１は、続いてペアデータ取得処理部１２の制御の下、ステップＳ１２により、上記多変量時系列データ記憶部３１から任意の１つの多変量時系列データを読み込む。そして、読み込まれた上記多変量時系列データの任意の異なる２つの時刻におけるデータを抽出して、抽出されたデータのペアをペアデータ記憶部３２に記憶させる。また、それと共にペアデータ取得処理部１２は、上記多変量時系列データ記憶部３１から任意の２つの多変量時系列データを読み込む。そして、読み込まれた上記２つの多変量時系列データの任意の時刻におけるデータを抽出し、抽出されたデータのペアをペアデータ記憶部３２に記憶させる。

　すなわち、ペアデータ取得処理部１２は、任意の複数の多変量時系列データから客観比較が可能なペアデータを複数個抽出し、ペアデータ記憶部３２に記憶させる。

　なお、外部装置において、過去の複数の学習用多変量時系列データにもとに作成された客観比較が可能な複数のペアデータが、教師ラベル用として既に用意されている場合には、サーバ装置ＳＶは上記複数の教師ラベル用のペアデータを上記外部装置から取得して、ペアデータ記憶部３２に記憶するようにしてもよい。

　（１－３）設定パラメタの取得
　システム管理者は、管理端末ＭＴにおいて学習モデルの設定パラメタを入力する。これに対しサーバ装置ＳＶの制御部１は、設定パラメタ取得処理部１３の制御の下、ステップＳ１３により、上記管理端末ＭＴにおいて入力された上記設定パラメタを入出力Ｉ／Ｆ部５を介して取り込み、取り込まれた上記設定パラメタを設定パラメタ記憶部３３に記憶させる。

　（１－４）モデルパラメタの学習
　上記設定パラメタの取得が終了すると、サーバ装置ＳＶの制御部１は、次にステップＳ１４において、モデルパラメタ学習処理部１４の制御の下、上記ペアデータ記憶部３２から客観比較が可能な複数のペアデータを選択的に読み込む。そして、読み込まれた上記ペアデータを教師ラベルとして上記設定パラメタについてランク学習を行う。

　また、モデルパラメタ学習処理部１４は、上記ランク学習において、目的関数を時系列方向に最適化する処理を行う。そして、モデルパラメタ学習処理部１４は、上記学習処理により得られた結果を、学習済のモデルパラメタとしてモデルパラメタ記憶部３４に記憶させる。

　（２）学習モードにおける詳細な動作
　次に、以上述べた学習モードにおける一連の処理をより詳細に説明する。

　（２－１）入力データ
　観測可能な多変量時系列データx_t = {x₁, . . . , x_T }を、所定のサンプリング間隔T で、M 人分集めた集合X を
　　　X = {x^m _t| m = 1, . . . ,M}
とする。図６はこの多変量時系列データの特徴量x の時間軸方向の変化の一例を示すものである。

　また、ランク学習におけるペアデータの関係を示す集合D を
　　　D = {v_k ＞ u_k | k ＝ 1, . . . ,K}
とする。但し、v_k ∈ X 、u_k ∈ X であり、v_k ＞ u_k はu_kよりv_kのほうが好ましいことを示す。

　なお、ペアデータの集合D を定義する際、多変量時系列データの集合X から任意のペアデータを抽出する組み合わせは1/2MT(MT－1)と非常に多く、全てのペアデータを網羅することは現実的ではない。そこで、この例では、ペアデータの集合D を多変量時系列データの集合X から一部を抽出した疎な教師ラベル、つまりK ≪ 1/2MT(MT－1) とする場合を想定する。

　（２－２）入力モデル
　入力となるモデルには、時系列方向に連続した推定値を出力する任意のモデルが利用可能である。ここでは、例えばある時刻t に対し、過去の直近のタイミングt-1 における潜在変数z^m _t－1 と、現時刻t における多変量時系列データx^m _tとを用いて、現時刻t における潜在変数z^m _t を得る関数g と、現時刻t における潜在変数z^m _t から目的変数y^m _t を推定する関数h とからなる、以下のモデルf
　　　f = g ○ h
　　　z^m _t ＝ g(z^m _t－1 , x^m _t)
　　　y^m _t ＝ h(z^m _t ) + ε_y
を想定する。

　このうち、関数g には任意の関数を利用することができる。例えば、状態空間モデルを用いて、
　　　g (z^m _t－1，x^m _t) ＝ z^m _t－1 ＋ α^m _t x^m _t＋β
としてもよい。ここで、
　　　α^m _t ＝ α^m _t－1 ＋ η_α，t
　　　β^m _t ＝ β^m _t－1 ＋ η_β，t
　　　η_α，t ～ N（0, σ² _α，t）
　　　η_β，t ～ N（0, σ² _β，t）
である。

　また、パーセプトロンのように
　　　g (z^m _t－1, x^m _t) ＝ w_z z^m _t－1 ＋ w_x x^m _t＋b
としてもよい。さらにDeep Learning の手法である、LSTM（Long Short Term Memory）のようなRNN（Recurrent Neural Network）アーキテクチャや、多変量時系列データが画像列の場合に対し
　　　g ：R^H×W×C → R^d
とするようなCNN（Convolutional Neural Network）を用いることも想定される。

　一方、関数h には、目的変数y がある確率分布に従う関数、或いは目的変数y の値域を制限する役割を持つ任意の関数を用いることができる。

　（２－３）出力
　上記モデルf の出力は、ペアデータの集合D の関係に従う目的変数y と相関のある値である。なお、ランク学習の性質上、この出力値はスコアの正確さを重視した値ではなく、サンプルの順序関係を保持することを重視した値となる。

　（２－４）目的関数
　上記モデルのパラメタ推定は、ペアデータの集合D によるランク学習に基づき目的関数を最適化することにより行われる。ただし、ペアデータの集合D が疎であるため、推定値は局所的にしかフィッティングせず、時間軸方向に連続しない可能性がある。そこで、時間軸方向の変化を緩慢（なだらか）にするために、目的関数に、モデルf のパラメタθ を制限する正則化項Ω とその重みλの積を加える。これらを踏まえ、目的関数L(θ)を
　　　L(θ) ＝Φ(d_k)＋ λΩ(θ)
　　　d_k ＝ f(v_k) － f(u_k)
のように表現する。

　この目的関数L(θ) において、Φにはペアデータの順序関係を保持するとき出力が小さくなる任意の関数が利用できる。例えば、RankNet と同様に、シグモイド関数とエントロピー損失関数とを用いて
　　　Φ(d_k) ＝－log（e^dk／1＋e^dk）
と定義してもよい。

　なお、RankNetについては、以下の文献
　Christopher Burges, Tal Shaked, Erin Renshaw, Ari Lazier, Matt Deeds, Nicole Hamilton, and Gregory Hullender. “Learning to rank using gradient descent”.
pp. 89－96, 01 2005.
に詳しく記載されている。

　また、ガウス分布を用いて、

と定義してもよい。ここで、

である。

　なお、ガウス分布については、以下の文献
　「Wei Chu and Zoubin Ghahramani. Preference learning with gaussian processes.
pp. 137-144, 08 2005.」
に詳しく記載されている。

　一方、目的関数L(θ)において、正則化項Ω も任意に設定することができる。例えば、

に示すようなTVノルムでもよいし、単純に重みに制限を与えるものとしてL1,2ノルムなどを用いてもよい。

　（２－５）目的関数の最適化
　目的関数L(θ)の最適化には、勾配法などの任意の最適化手法が適用可能である。勾配法を利用する場合は、k 回目の最適化ステップで
　　　θ_k+1 ← θ_k －γ_k∇_θL(θ)
の式にしたがいパラメタθを更新することを繰り返せばよい。ここで、γ_k は学習率パラメタを示す。目的関数L(θ) の勾配∇_θL(θ) は、計算により導出した関数を用いてもよいし、数値的に計算したものであってもよい。

　なお、上記目的関数L(θ) におけるσ² _ε，σ² _α，t，σ² _β，tはノイズの分散を示し、これらは正則化項Ω の重みλ、学習率パラメタγ_k と共に、設定パラメタとして事前に設定される。

　（３）運用モードにおける処理動作
　上記学習モードにおけるモデルパラメタの学習が終了し、実際の運用に適用する運用モードが設定されると、サーバ装置ＳＶの制御部１は、実際に映画または音楽コンテンツを鑑賞中のユーザＵＳ１～ＵＳｎの生体データから、当該ユーザの感情や情動等を示す目的変数を推定する処理を、図５に示す処理手順に従い実行する。

　（３－１）未知の多変量時系列データの取得
　サーバ装置ＳＶの制御部１は、待受状態において、ステップＳ２１によりデータの入力を監視する。この状態で、映像または音楽コンテンツを鑑賞中のユーザＵＳ１～ＵＳｎの生体センサＳＣ１～ＳＣｎから生体データが送信されると、サーバ装置ＳＶの制御部１は、多変量時系列データ取得処理部１１の制御の下、ステップＳ２２において、上記各生体データを通信Ｉ／Ｆ部４を介して受信する。そして、受信された上記各生体データ、つまり未知の多変量時系列データを、送信元のユーザＩＤと対応付けて多変量時系列データ記憶部３１に記憶させる。

　（３－２）目的変数の推定処理
　上記未知の多変量時系列データが取得されると、サーバ装置ＳＶの制御部１は、目的変数推定処理部１５の制御の下、ステップＳ２３において、先ず上記未知の多変量時系列データを、多変量時系列データ記憶部３１から読み込み、学習モデルに入力する。次に、目的変数推定処理部１５は、上記学習モデルにおいて、モデルパラメタ記憶部３４に記憶されている学習済のモデルパラメタを用いて、上記未知の多変量時系列データに対応する目的変数を推定する。そして、推定された上記目的変数をユーザＩＤと対応付けて目的変数記憶部３５に記憶させる。

　このとき、上記学習済のモデルパラメタは、先に学習モードで述べたように、学習用多変量時系列データから得られる客観比較が可能なペアデータを教師ラベルとして用い、さらに目的関数を時系列方向に最適化処理することによりランク学習されたものである。このため、上記学習モデルから出力される目的変数は、客観評価ラベルを用いることで評価点の基準が統一され、かつ時系列方向に連続性を持った値となる。

　以後同様に目的変数推定処理部１５は、観測中に取得されるユーザＵＳ１～ＵＳｎの生体データに対し、例えば一定の時間間隔で目的変数を推定して、その結果を目的変数記憶部３５に記憶させる処理を繰り返し実行する。

　（３－３）推定結果の出力
　サーバ装置ＳＶの制御部１は、上記目的変数の推定処理を実行しながら、ステップＳ２４において推定結果の出力要求の入力を監視する。この状態で、例えばコンテンツの配信者が、配信したコンテンツに対するユーザの反応を分析するために、管理端末ＭＴの入力デバイス７において、推定結果の出力要求を入力したとする。

　そうすると、サーバ装置ＳＶの制御部１は、目的変数出力処理部１６の制御の下、ステップＳ２５において、上記目的変数記憶部３５から上記記憶された目的変数を読み出し、読み出された上記目的変数の表示データを生成する。そして、生成された上記表示データを入出力Ｉ／Ｆ部５を介して管理端末ＭＴへ出力し、表示デバイス８に表示させる。

　この結果、管理端末ＭＴの表示デバイス８には、例えば、コンテンツ鑑賞中のユーザごとに、その感情または情動の客観的な推定結果が一定の時間間隔で連続して、対象ユーザのユーザＩＤ、またはそれに対応するユーザ名と関連付けられた状態で表示される。

　なお、上記推定結果は、例えばユーザが自身のスマートフォン等の携帯端末から出力要求をサーバ装置ＳＶに送信することによっても、同様に要求元の端末に表示させることが可能である。

　（作用・効果）
　以上述べたように一実施形態では、学習モードにおいて、複数の学習用多変量時系列データを取得してこれらの多変量時系列データから客観比較が可能な複数のペアデータを抽出し、抽出された上記ペアデータを教師ラベルとして用いてランク学習を行って目的関数を時系列方向に最適化することで、学習モデルの設定パラメタを学習して学習済のモデルパラメタを生成している。そして、運用モードにおいて、鑑賞中のユーザの生体データが取得されると、この生体データを未知の多変量時系列データとして学習モデルに入力し、この学習モデルにおいて上記学習済のモデルパラメタを用いて上記生体データに対応するユーザの感情や情動を表す目的変数を推定し、その推定結果を表す表示データを出力するようにしている。

　従って、客観比較が可能なペアデータが教師ラベルとして使用されてランク学習された学習済モデルデータを用いて目的変数の推定が行われるので、主観評価ラベルにより学習されたモデルデータを用いて推定する場合に発生する、評価点の基準のバラツキを減らすことが可能となる。また、モデルパラメタを学習する際に、目的関数を時系列方向に最適化する処理が加えられる。このため、教師ラベルが時間軸方向に粗であっても目的変数を密に出力できるようになり、これにより時間軸方向に対し連続性の高い目的変数の推定結果を得ることが可能となる。

　［その他の実施形態］
　（１）前記一実施形態では、観測対象を映画や音楽を鑑賞中のユーザとし、当該ユーザの生体データをもとにユーザの感情や情動を推定する場合を例にとって説明した。しかし、この発明はこれに限るものではなく、例えば人間以外の動物または機械を観測対象とし、その行動または動作の計測データをもとに動物の感情や情動または機械の動作不良とその兆候を推定する場合にも、適用可能である。

　（２）上記一実施形態では、目的関数の最適化手法として勾配法を用いる場合を例示したが、ほかに確率的勾配法やAdam 等の任意の手法が利用できる。同様に、時系列データ推定モデルや、目的関数の正則化項についても任意のものが利用できる。

　（３）上記一実施形態では、この発明に係る目的変数推定装置の機能をサーバ装置ＳＶに備えた場合を例にとって説明した。しかし、この発明はこれに限るものではなく、例えばこの発明に係る目的変数推定装置の機能を管理端末ＭＴやユーザが所有する携帯端末などに備えるようにしてもよく、またこの発明に係る目的変数推定装置の機能をサーバ装置や端末に分散配置するように構成してもよい。さらに、この発明に係る目的変数推定装置の機能は、必要時に例えばクラウド等の上位のシステムからエッジサーバ等のローカルサーバにダウンロードしてインストールし使用するようにしてもよい。

　（４）その他、目的変数推定装置の機能構成、処理手順および処理内容、学習モデルの種類や構成、用途等についても、この発明の要旨を逸脱しない範囲で種々変形して実施できる。

　以上、本発明の実施形態を詳細に説明してきたが、前述までの説明はあらゆる点において本発明の例示に過ぎない。本発明の範囲を逸脱することなく種々の改良や変形を行うことができることは言うまでもない。つまり、本発明の実施にあたって、実施形態に応じた具体的構成が適宜採用されてもよい。

　要するにこの発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。

　ＳＶ…サーバ装置
　ＵＳ１～ＵＳｎ…ユーザ
　ＳＣ１～ＳＣｎ…生体センサ
　ＮＷ…ネットワーク
　ＴＭ…管理端末
　１…制御部
　２…プログラム記憶部
　３…データ記憶部
　４…通信Ｉ／Ｆ部
　５…入出力Ｉ／Ｆ部
　６…バス
　１１…多変量時系列データ取得処理部
　１２…ペアデータ取得処理部
　１３…設定パラメタ取得処理部
　１４…モデルパラメタ学習処理部
　１５…目的変数推定処理部
　１６…目的変数出力処理部
　３１…多変量時系列データ記憶部
　３２…ペアデータ記憶部
　３３…設定パラメタ記憶部
　３４…モデルパラメタ記憶部
　３５…目的変数記憶部

Claims

　多変量時系列データを入力として絶対評価が困難な目的変数を出力する学習モデルを用いた目的変数推定装置であって、
　異なる複数の発生元からそれぞれ発生されかつ前記目的変数と相関がある複数の学習用多変量時系列データを取得する時系列データ取得処理部と、
　取得された前記複数の学習用多変量時系列データをもとに生成される、客観比較が可能な複数のペアデータを取得するペアデータ取得処理部と、
　前記学習モデルに対するパラメタを設定し、取得された前記複数のペアデータを教師ラベルとしてランク学習を行って所定の目的関数を時系列方向に最適化することで、前記パラメタの学習を行うパラメタ学習処理部と、
　未知の多変量時系列データが入力されたとき、入力された前記未知の多変量時系列データを前記学習モデルに入力し、前記学習モデルにより学習済の前記パラメタを用いて前記未知の多変量時系列データに対応する前記目的変数を推定する目的変数推定処理部と
　を具備する目的変数推定装置。
　前記学習モデルは、過去の潜在変数と現在の前記多変量時系列データとから現在の潜在変数を得る第１の関数と、現在の前記潜在変数から現在の前記目的変数を推定する第２の関数により定義され、
　前記目的関数は、前記ペアデータの順序関係が保持されるとき出力値が最小となる任意の関数と、前記出力値の時系列方向の変化を緩慢にすると共に前記学習モデルの前記パラメタの値を制限する関数とからなる
　請求項１に記載の目的変数推定装置。
　前記目的関数の最適化処理には、最適化アルゴリズムとして、勾配法、確率的勾配法およびAdamのいずれかが適用される、請求項１に記載の目的変数推定装置。
　多変量時系列データを入力として絶対評価が困難な目的変数を出力する学習モデルを用いた推定装置が実行する目的変数推定方法であって、
　異なる複数の発生元からそれぞれ発生されかつ前記目的変数と相関がある複数の学習用多変量時系列データを取得する過程と、
　取得された前記複数の学習用多変量時系列データをもとに生成される、客観比較が可能な複数のペアデータを取得する過程と、
　前記学習モデルに対するパラメタを設定し、取得された複数の前記ペアデータを教師ラベルとしてランク学習を行って所定の目的関数を時系列方向に最適化することで、前記パラメタの学習を行う過程と、
　未知の多変量時系列データが入力されたとき、入力された前記未知の多変量時系列データを前記学習モデルに入力し、前記学習モデルにより学習済の前記パラメタを用いて前記未知の多変量時系列データに対応する前記目的変数を推定する過程と
　を具備する目的変数推定方法。
　請求項１乃至３のいずれかに記載の目的変数推定装置が具備する前記各処理部の処理を、前記目的変数推定装置が備えるプロセッサに実行させるプログラム。