JPWO2019160104A1

JPWO2019160104A1 - 非言語情報生成装置、非言語情報生成モデル学習装置、方法、及びプログラム

Info

Publication number: JPWO2019160104A1
Application number: JP2019572294A
Authority: JP
Inventors: 石井　亮; 亮石井; 東中　竜一郎; 竜一郎東中; 太一片山; 準二富田; のぞみ小林; 京介西田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2018-02-16
Filing date: 2019-02-15
Publication date: 2021-01-07
Anticipated expiration: 2039-02-15
Also published as: US20210370519A1; WO2019160104A1; JP7140984B2

Abstract

非言語情報生成装置は、音声又はテキストの特徴量と、学習済みの非言語情報生成モデルとに基づいて、特徴量に対応する非言語情報を生成する非言語情報生成部を含む。非言語情報は、特徴量に応じた、回数及び大きさの少なくとも一方で行動を発現させるように発現部を制御するための情報である。

Description

本発明は、非言語情報生成装置、非言語情報生成モデル学習装置、方法、及びプログラムに関する。
本願は、２０１８年２月１６日に日本へ出願された特願２０１８−０２６５１６号、２０１８年２月１６日に日本へ出願された特願２０１８−０２６５１７号、２０１８年５月２１日に日本へ出願された特願２０１８−０９７３３８号、２０１８年５月２１日に日本へ出願された特願２０１８−０９７３３９号、および、２０１８年１２月７日に日本へ出願された特願２０１８−２３０３１２号に基づき優先権を主張し、それらの内容をここに援用する。

コミュニケーションにおいて、言語行動に加えて非言語行動は感情や意図を伝達する上で重要な機能を有している。そのため、コミュニケーションロボット、コミュニケーションエージェントにおいても、ユーザと円滑なコミュニケーションを行うためには非言語行動を表出することが望まれている。このような背景から、発話に合わせた非言語行動をあらかじめＤＢ（Database）に登録しておき、発話の再生に合わせて非言語行動を表出させる手法が提案されている（例えば、特許文献１を参照）。

日本特開２００３−１７３４５２号公報

従来のコミュニケーションロボットや対話エージェント等において、ロボット自身の発話、またはロボットに対して発言された発話に合わせ、ジェスチャ等の動作を行わせる際には、発話に合わせてどのようなタイミングで、どのような動作を行わせるか、を定める必要がある。

人間同士の会話の場合、発話内容に合わせてジェスチャを行う際には、発話内容（の文字列）は同じであっても、発話者や状況、会話内容の流れなどの変数によって、行うべきジェスチャが変わるのが自然である。また、同じジェスチャであっても、前記変数が表す内容に伴って、ジェスチャの程度や回数、ポーズ長（間）の割合を変えることで、その変数が表す内容への適用が行われる。

しかし、従来技術ではこれらがシナリオとして全て人手で作成、設定されており、各変数の値や、その組み合わせ毎にシナリオを作成しようとすると、コストが高いことに加え、全てのパターンを網羅するのは不可能であるという課題がある。また、そのような背景から、状況等に応じて、ジェスチャごとの程度や回数、ポーズ長（間）の割合を変えるようなことは行われてこなかった。

本発明は、上記の事情に鑑みてなされたもので、音声情報又はテキスト情報の少なくとも一方と、行動の回数又は大きさを含む非言語情報との対応付けを自動化することができる非言語情報生成装置、非言語情報生成モデル学習装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、第１の態様に係る非言語情報生成装置は、音声又はテキストの特徴量と、学習済みの非言語情報生成モデルとに基づいて、前記特徴量に対応する非言語情報を生成する非言語情報生成部を含む非言語情報生成装置であって、前記非言語情報は、前記特徴量に応じた、回数及び大きさの少なくとも一方で行動を発現させるように発現部を制御するための情報である。
前記特徴量は、時刻情報付きの特徴量であって、前記音声又は前記テキストから抽出された前記特徴量と、前記音声又はテキストの所定単位毎に付与された時刻を表す時刻情報とを含んで構成され、前記非言語情報は、時刻情報付きの非言語情報であるようにすることができる。
前記行動は、複数種類の行動のうち、前記特徴量に応じて決定される行動であるようにすることができる。
前記行動は、頭部の動き、ハンドジェスチャ、表情、及び上半身の動きの少なくとも１つを含むようにすることができる。
前記非言語情報生成部は、付加情報と、前記音声又は前記テキストの前記特徴量と、前記学習済みの非言語情報生成モデルとに基づいて、前記付加情報及び前記特徴量に対応する非言語情報を生成し、前記非言語情報は、前記付加情報及び前記特徴量に応じた、回数及び大きさの少なくとも一方で行動を発現させるように前記発現部を制御するための情報であるようにすることができる。
前記付加情報は、環境変数、身体的特徴、動作対象の姿勢、対話の内容、及び人間関係の少なくとも１つを含むようにすることができる。
前記付加情報は、個人属性又は感情を更に含むようにすることができる。

第２の態様に係る非言語情報生成モデル学習装置は、発声者の音声に対応する音声情報又は前記音声に対応するテキストを表すテキスト情報を取得する学習用情報取得部と、前記発声者が前記テキストに対応する発声を行った際の、前記発声者の行動又は前記発声者の前記発声の聞き手の行動に関する情報を表す非言語情報であって、前記行動の回数及び大きさの少なくとも一方を含む非言語情報を取得する非言語情報取得部と、前記学習用情報取得部によって取得された前記音声情報又は前記テキスト情報から、前記音声情報又は前記テキスト情報の特徴量を抽出する学習用特徴量抽出部と、前記学習用特徴量抽出部によって抽出された前記特徴量に基づいて、前記非言語情報取得部によって取得された前記非言語情報を生成するための、非言語情報生成モデルを学習する学習部と、を含んで構成されている。

また、第３の態様に係る非言語情報生成方法は、音声又はテキストの特徴量と、学習済みの非言語情報生成モデルとに基づいて、前記特徴量に対応する非言語情報を生成する非言語情報生成部を含む非言語情報生成装置における非言語情報生成方法であって、前記非言語情報は、前記特徴量に応じた、回数及び大きさの少なくとも一方で行動を発現させるように発現部を制御するための情報である。

また、第４の態様に係る非言語情報生成モデル学習方法は、学習用情報取得部が、発声者の音声に対応する音声情報又は前記音声に対応するテキストを表すテキスト情報を取得し、非言語情報取得部が、前記発声者が前記テキストに対応する発声を行った際の、前記発声者の行動又は前記発声者の前記発声の聞き手の行動に関する情報を表す非言語情報であって、前記行動の回数及び大きさの少なくとも一方を含む非言語情報を取得し、学習用特徴量抽出部が、前記学習用情報取得部によって取得された前記音声情報又は前記テキスト情報から、前記音声情報又は前記テキスト情報の特徴量を抽出し、学習部が、前記学習用特徴量抽出部によって抽出された前記特徴量に基づいて、前記非言語情報取得部によって取得された前記非言語情報を生成するための、非言語情報生成モデルを学習する。

また、第５の態様のプログラムは、コンピュータを、上記の非言語情報生成装置又は非言語情報生成モデル学習装置が備える各部として機能させるためのプログラムである。

以上説明したように、本発明に係る非言語情報生成装置、非言語情報生成モデル学習装置、方法、及びプログラムによれば、音声情報又はテキスト情報の少なくとも一方と、行動の回数又は大きさを含む非言語情報との対応付けを自動化することができる。

第１の実施形態に係る非言語情報生成モデル学習装置の構成の一例を示すブロック図である。学習データの取得方法を説明するための説明図である。本実施形態で用いる音声特徴量とテキスト特徴量とを説明するための説明図である。第１の実施形態に係る非言語情報生成装置の構成の一例を示すブロック図である。第１の実施形態に係る学習処理の流れの一例を示すフローチャートである。第１の実施形態に係る非言語情報生成処理の流れの一例を示すフローチャートである。第２の実施形態に係る非言語情報生成モデル学習装置の構成の一例を示すブロック図である。第２の実施形態に係る学習用情報取得部の詳細な構成例を示す図である。第２の実施形態に係る非言語情報生成装置の構成の一例を示すブロック図である。第２の実施形態に係る情報取得部の詳細な構成例を示す図である。第２の実施形態に係る学習処理の流れの一例を示すフローチャートである。第２の実施形態に係る非言語情報生成処理の流れの一例を示すフローチャートである。第３の実施形態の学習用情報取得部及び学習用特徴量抽出部を説明するための説明図である。第３の実施形態の情報取得部及び特徴量抽出部を説明するための説明図である。第３の実施形態の変形例を説明するための説明図である。第３の実施形態の変形例を説明するための説明図である。他の実施形態の構成の組み合わせを説明するための説明図である。他の実施形態の構成の組み合わせを説明するための説明図である。第７の実施形態に係る非言語情報生成モデル学習装置の構成の一例を示すブロック図である。本実施形態で用いる付加情報を説明するための説明図である。第７の実施形態に係る非言語情報生成装置の構成の一例を示すブロック図である。第７の実施形態に係る学習処理の流れの一例を示すフローチャートである。第７の実施形態に係る非言語情報生成処理の流れの一例を示すフローチャートである。第７の実施形態の他の例に係る非言語情報生成モデル学習装置の構成の一例を示すブロック図である第７の実施形態の他の例に係る非言語情報生成装置の構成の一例を示すブロック図である。付加情報により時刻情報を変更する方法を説明するための図である。第８の実施形態に係る非言語情報生成モデル学習装置の構成の一例を示すブロック図である詳細な時刻情報を付与する方法を説明するための図である。第８の実施形態に係る非言語情報生成装置の構成の一例を示すブロック図である。第８の実施形態に係る学習処理の流れの一例を示すフローチャートである。第８の実施形態に係る非言語情報生成処理の流れの一例を示すフローチャートである。第９の実施形態に係る学習処理の流れの一例を示すフローチャートである。第９の実施形態に係る非言語情報生成処理の流れの一例を示すフローチャートである。第１１の実施形態に係る非言語情報生成装置の構成の一例を示すブロック図である。第１１の実施形態に係る表示画面の一例を示す図である。時刻情報の変更指示を説明するための図である。時刻情報の変更指示を説明するための図である。第１１の実施形態に係る非言語情報生成処理の流れの一例を示すフローチャートである。第１１の実施形態に係る表示制御処理の流れの一例を示すフローチャートである。

以下、図面を参照して、本発明を実施するための形態の一例について詳細に説明する。

＜本実施形態の概要＞

本発明の実施形態では、人間がコミュニケーションを行う際、音声情報及び音声情報に含まれる言語情報の発信と、非言語行動とが共起して起こるという特性を利用する。具体的には、本実施形態では、発話の音声情報及び発話の内容を表すテキスト情報の少なくとも一方を入力Ｘとして、話者の発話と一緒に生成される話者の非言語行動を表す非言語情報を出力Ｙとして、入力Ｘから出力Ｙを機械学習により生成する。非言語情報とは、行動に関する情報であって、言語そのもの以外の情報とする。非言語行動の例としては、例えば、頭部動作、視線方向、ハンドジェスチャ、上半身の動作、及び下半身の動作の種別（クラス）などが挙げられる。

本実施形態で得られる非言語情報は、人間と同じような身体性を持ち、人間とコミュニケーションを行う、コミュニケーションロボット、コミュニケーションエージェント、ゲームやインタラクティブシステムで利用されるＣＧ（Computer Graphics）アニメーションにおけるジェスチャ生成等で用いられる。

［第１の実施形態］

＜非言語情報生成モデル学習装置の構成＞

図１は、第１の実施形態に係る非言語情報生成モデル学習装置１０の構成の一例を示すブロック図である。図１に示すように、本実施形態に係る非言語情報生成モデル学習装置１０は、ＣＰＵ（Central Processing Unit）と、ＲＡＭ（Random Access Memory）と、後述する学習処理ルーチンを実行するためのプログラムを記憶したＲＯＭ（Read Only Memory）とを備えたコンピュータで構成されている。非言語情報生成モデル学習装置１０は、機能的には、学習用入力部２０と、学習用演算部３０を備えている。

学習用入力部２０は、学習用の音声情報と、言語とは異なる行動に関する情報を表す学習用の非言語情報とを受け付ける。

本実施形態の非言語情報生成モデル学習装置１０の入力データである学習用の音声情報と学習用の非言語情報との組み合わせを表す学習データは、例えば、図２のようなシーンにおいて、発話中の話者の音声情報（Ｘ）を取得するのと同時に、所定の計測装置を用いて発話中の話者の非言語情報（Ｙ）も取得することで作成される。なお、音声情報（Ｘ）は、発話中の話者が外部へ発話する際の音声情報に相当する。

学習用演算部３０は、学習用入力部２０によって受け付けた学習データに基づいて、時刻情報付きの非言語情報を生成するための非言語情報生成モデルを生成する。学習用演算部３０は、図１に示されるように、学習用情報取得部３１と、学習用特徴量抽出部３２と、非言語情報取得部３３と、生成パラメータ抽出部３４と、学習部３５と、学習済みモデル記憶部３６とを備えている。

学習用情報取得部３１は、学習用入力部２０によって受け付けられた学習用の音声情報を取得する。また、学習用情報取得部３１は、学習用の音声情報が発せられるときの開始時刻から終了時刻までの時刻を表す時刻情報を取得する。

学習用特徴量抽出部３２は、学習用情報取得部３１によって取得された学習用の音声情報及び時刻情報から、当該学習用の音声情報の特徴量を表す、時刻情報付きの学習用の音声特徴量を抽出する。

例えば、学習用特徴量抽出部３２は、学習用情報取得部３１によって取得された学習用の音声情報に対して所定の音声情報処理を行い、基本周波数（Ｆ０）、パワー、ＭＦＣＣ（Mel Frequency Cepstral Coefficients）等を音声特徴量として抽出する。これらの音声特徴量は、図３に示されるように、任意の時間の窓幅Ｔ_Ａ，ｗと音声情報とを用いて算出することができる。図３に示されるように、これらの多次元の音声特徴量を

とする。ここで、

は、時刻ｔ_Ａ，ｓから、窓幅Ｔ_Ａ，ｗの時間に対応する音声情報から算出された音声特徴量とする。なお、窓幅は、すべての音声特徴量で同じである必要は無く、別々に特徴量を抽出しても良い。これらの音声特徴量の抽出法は一般的であり、様々な手法がすでに提案されている（例えば、参考文献１を参照。）。このため、あらゆる手法を利用して良い。

［参考文献１］：中川聖一,「音声言語処理と自然言語処理」,2013/3/1, コロナ社

非言語情報取得部３３は、学習用入力部２０によって受け付けられた学習用の非言語情報を取得し、当該学習用の非言語情報が表す行動が行われるときの開始時刻から終了時刻までの時刻を表す時刻情報を取得する。

非言語情報取得部３３は、学習用の非言語情報として、頷き、顔向き、ハンドジェスチャ、視線、表情、及び身体の姿勢等に関する情報を取得する。頷き、顔向き、ハンドジェスチャ、視線、表情、及び身体の姿勢等に関する情報を表すパラメータの一例を以下に示す。

なお、FACSとは（Facial Action Coding System：顔面表情記号化システム）を表し、AUとは（Action Unit；活動単位）を表す。例えば、AU1は「眉の内側を持ち上げ（AU1）」というように、非言語情報がラベルによって表現される。上記以外の非言語情報としては、例えば、話者の視線行動、頭部動作、呼吸動作、及び口形変化等が挙げられる。

上記に示すように、非言語情報は、身体の関節、位置、及び動き等のイベントに関するあらゆるパラメータであって良い。計測手法は様々な手法が考えられており、どのような手法を用いても良い（例えば、参考文献２および参考文献３を参照）。

［参考文献２］：牧川方昭、南部雅幸、塩澤成弘、岡田志麻、吉田正樹、「ヒト心身状態の計測技術―人に優しい製品開発のための日常計測」，2010/10/1，コロナ社
［参考文献３］：Shihong Xia, Lin Gao, Yu-Kun Lai, Ming-Ze Yuan, Jinxiang Chai, "A Survey on Human Performance Capture and Animation",Journal of Computer Science and Technology, Volume 32, Issue 3, pp 536-554, (2017).

上記図２に示されるように、例えば、顔の向きは、人間や対話ヒューマノイドの頭部方向を頭部計測装置（ヘッドトラッカ）などの行動キャプチャ装置で計測することが可能である。また、ＣＧなどのアニメーションデータから顔の向きを取得することも可能である。また、図２に示されるように、顔の向きは、例えば、Yaw, Roll, Pitchの3軸の角度で表現される。

生成パラメータ抽出部３４は、非言語情報取得部３３で取得された学習用の非言語情報が表すパラメータ（感覚尺度）を離散化して、時刻情報付きの離散化された非言語情報を抽出する。例えば、顔向きは、Yaw, Roll, Pitchの角度情報によって表されるが、任意の閾値α，β（α＜β）を予め定めて、以下に示すような名義尺度に変換しても良い。なお、以下に示す例はYawのみが提示されている。

−α＜Yaw＜α：正面

α≦Yaw＜β：少し左を向いている

β≦Yaw：大きく左を向いている

−β＜Yaw≦−α：少し右を向いている

−β≧Yaw：大きく右を向いている

このように、非言語情報取得部３３で取得された学習用の非言語情報を離散化し、時刻情報を付けたものを、多次元ベクトル

とする。ｔ_Ｎ，ｓ，ｔ_Ｎ，ｅは、非言語情報の得られた開始時刻、終了時刻とする。

学習部３５は、学習用特徴量抽出部３２によって抽出された時刻情報付きの学習用の音声特徴量と、生成パラメータ抽出部３４によって取得された、時刻情報付きの離散化された非言語情報とに基づいて、時刻情報付きの音声特徴量から時刻情報付きの非言語情報を生成するための非言語情報生成モデルを学習する。

具体的には、学習部３５は、学習用特徴量抽出部３２によって抽出された時刻情報付きの学習用の音声特徴量

を入力として、時刻情報付きの非言語情報

を出力する非言語情報生成モデルを構築する。非言語情報生成モデルを構築するにあたり、あらゆる機械学習手法を用いて良いが、本実施形態ではＳＶＭ（Support Vector Machine）を用いる。例えば、ＳＶＭを利用して、

における各次元のパラメータのクラス分類器を構築したり、ＳＶＭを回帰へ適用したＳＶＲ（Support Vector Machine for Regression）による回帰モデルを構築したりする。

また、本実施の形態では、非言語情報が表す行動の種類毎に、当該種類の行動の有無を推定するためのＳＶＭモデルを作成する。

なお、非言語情報生成モデルは、どのような時間分解能で、どの時刻のパラメータを使用して、非言語情報を推定するかは任意である。ここで、任意の時間区間Ｔ１〜Ｔ２におけるジェスチャ

を推定する場合を例に使用する特徴量の一例を示す。推定対象となる時刻Ｔ１〜Ｔ２の時刻で得られる、音声特徴量

と出力となるジェスチャ

をペアとし、これらのペアの複数データである学習データを用いて学習が行われる。その学習済みの非言語情報生成モデルを、

とする。

学習済みモデル記憶部３６には、学習部３５によって学習された学習済みの非言語情報生成モデルが格納される。学習済みの非言語情報生成モデルは、時刻情報付きの音声特徴量から時刻情報付きの非言語情報を生成する。

＜非言語情報生成装置のシステム構成＞

図４は、第１の実施形態に係る非言語情報生成装置４０の構成の一例を示すブロック図である。図４に示すように、本実施形態に係る非言語情報生成装置４０は、ＣＰＵ（Central Processing Unit）と、ＲＡＭ（Random Access Memory）と、後述する非言語情報生成処理ルーチンを実行するためのプログラムを記憶したＲＯＭ（Read Only Memory）とを備えたコンピュータで構成されている。非言語情報生成装置４０は、機能的には、入力部５０と、演算部６０と、発現部７０とを備えている。

入力部５０は、音声情報と当該音声情報が発せられるときの開始時刻から終了時刻までの時刻を表す時刻情報とを受け付ける。

演算部６０は、情報取得部６１と、特徴量抽出部６２と、学習済みモデル記憶部６３と、非言語情報生成部６４とを備えている。

情報取得部６１は、入力部５０によって受け付けられた、音声情報と当該音声情報が発せられるときの開始時刻から終了時刻までの時刻を表す時刻情報とを取得する。

特徴量抽出部６２は、学習用特徴量抽出部３２と同様に、情報取得部６１によって取得された音声情報及び時刻情報から、該音声情報の特徴量を表す、時刻情報付きの音声特徴量を抽出する。

学習済みモデル記憶部６３には、学習済みモデル記憶部３６に格納されている学習済みの非言語情報生成モデルと同一の学習済みの非言語情報生成モデルが格納されている。

非言語情報生成部６４は、特徴量抽出部６２によって抽出された時刻情報付きの音声特徴量と、学習済みモデル記憶部６３に格納された学習済みの非言語情報生成モデルとに基づいて、特徴量抽出部６２によって抽出された時刻情報付きの音声特徴量に対応する時刻情報付きの非言語情報を生成する。

例えば、非言語情報生成部６４は、学習済みモデル記憶部６３に格納された学習済みの非言語情報生成モデル

を用いて、時刻情報付きの音声特徴量としての任意の特徴量

を入力として、時刻情報付きの非言語情報としてのジェスチャ

を取得する。

そして、非言語情報生成部６４は、生成された時刻情報付きの非言語情報が、当該非言語情報に付与された時刻情報に基づいて発現部７０から出力されるように発現部７０を制御する。

具体的には、非言語情報生成部６４は、発現部７０において、ジェスチャ

を任意の対象（例えば、アニメーションキャラクタ、ロボット等）の動作として反映させる。

発現部７０は、非言語情報生成部６４による制御に応じて、入力部５０によって受け付けられた音声情報と非言語情報生成部６４によって生成された非言語情報とを発現させる。

発現部７０の一例としては、コミュニケーションロボットや、ディスプレイに表示されるコミュニケーションエージェント、ゲームやインタラクティブシステムで利用されるＣＧアニメーション等が挙げられる。

＜非言語情報生成モデル学習装置１０の作用＞

次に、本実施形態に係る非言語情報生成モデル学習装置１０の作用について説明する。まず、非言語情報生成モデル学習装置１０の学習用入力部２０に、複数の学習用の音声情報と複数の学習用の非言語情報との組み合わせを表す学習データが入力されると、非言語情報生成モデル学習装置１０は、図５に示す学習処理ルーチンを実行する。

まず、ステップＳ１００において、学習用情報取得部３１は、学習用入力部２０によって受け付けられた複数の学習データのうちの、学習用の音声情報と当該学習用の音声情報が発せられるときの開始時刻から終了時刻までの時刻を表す時刻情報を取得する。

ステップＳ１０２において、非言語情報取得部３３は、学習用入力部２０によって受け付けられた複数の学習データのうちの、学習用の非言語情報と当該学習用の非言語情報が表す行動が行われるときの開始時刻から終了時刻までの時刻を表す時刻情報を取得する。

ステップＳ１０４において、学習用特徴量抽出部３２は、上記ステップＳ１００で取得された学習用の音声情報及び時刻情報から、時刻情報付きの学習用の音声特徴量を抽出する。

ステップＳ１０６において、生成パラメータ抽出部３４は、上記ステップＳ１０２で取得された学習用の非言語情報及び時刻情報から、時刻情報付きの離散化された非言語情報を抽出する。

ステップＳ１０８において、学習部３５は、上記ステップＳ１０４で抽出された時刻情報付きの学習用の音声特徴量と、上記ステップＳ１０６で取得された時刻情報付きの非言語情報とに基づいて、時刻情報付きの音声特徴量から時刻情報付きの非言語情報を生成するための非言語情報生成モデルを学習する。

ステップＳ１１０において、学習部３５は、上記ステップＳ１０８で得られた学習済みの非言語情報生成モデルを、学習済みモデル記憶部３６へ格納して、学習処理ルーチンを終了する。

＜非言語情報生成装置４０の作用＞

次に、本実施形態に係る非言語情報生成装置４０の作用について説明する。まず、非言語情報生成モデル学習装置１０の学習済みモデル記憶部３６に格納された学習済みの非言語情報生成モデルが、非言語情報生成装置４０へ入力されると、非言語情報生成装置４０の学習済みモデル記憶部６３へ学習済みの非言語情報生成モデルが格納される。そして、入力部５０に、非言語情報生成対象の音声情報が入力されると、非言語情報生成装置４０は、図６に示す非言語情報生成処理ルーチンを実行する。

ステップＳ２００において、情報取得部６１は、入力部５０によって受け付けられた、音声情報と当該音声情報が発せられるときの開始時刻から終了時刻までの時刻を表す時刻情報とを取得する。

ステップＳ２０２において、特徴量抽出部６２は、学習用特徴量抽出部３２と同様に、上記ステップＳ２００で取得された音声情報及び時刻情報から、時刻情報付きの音声特徴量を抽出する。

ステップＳ２０４において、非言語情報生成部６４は、学習済みモデル記憶部６３に格納された学習済みの非言語情報生成モデルを読み出す。

ステップＳ２０６において、非言語情報生成部６４は、上記ステップＳ２０２で抽出された時刻情報付きの音声特徴量と、上記ステップＳ２０４で読み出された学習済みの非言語情報生成モデルとに基づいて、上記ステップＳ２０２で抽出された時刻情報付きの音声特徴量に対応する時刻情報付きの非言語情報を生成する。

ステップＳ２０８において、非言語情報生成部６４は、上記ステップＳ２０６で生成された時刻情報付きの非言語情報が、当該非言語情報に付与された時刻情報に基づいて発現部７０から出力されるように発現部７０を制御して、非言語情報生成処理ルーチンを終了する。

以上説明したように、第１の実施形態に係る非言語情報生成装置４０によれば、音声情報及び時刻情報から時刻情報付きの音声特徴量を抽出し、抽出された時刻情報付きの音声特徴量と、時刻情報付きの非言語情報を生成するための学習済みの非言語情報生成モデルとに基づいて、時刻情報付きの音声特徴量に対応する時刻情報付きの非言語情報を生成する。これにより、音声情報と非言語情報との対応付けを自動的に行い、そのコストを低減させることができる。

コミュニケーションロボットや対話エージェント等の発話音声、またはそれに対応するテキストに合わせ、ジェスチャ等の動作を行わせる際には、発話に合わせてどのようなタイミングで、どのような動作を行わせるかを決める必要がある。従来では、これらがシナリオとして全て人手で作成、設定されており、作成コストが高かった。

これに対し、本実施形態では、時刻情報付きの音声特徴量から時刻情報付きの非言語情報を生成するための学習済みの非言語情報生成モデルを生成することにより、音声情報を入力とし、入力に対応する動作に対応する時刻情報付きの非言語情報（出力のタイミングが付与された非言語情報）が出力される。

これにより、本実施形態によれば、音声情報から非言語情報を自動的に生成することが可能となるため、従来技術のように、発話に対して非言語情報を個別に登録する必要がなく、コストが大幅に削減される。また、本実施形態を用いることで、入力された音声情報に対し、人間らしい自然なタイミングでの非言語行動を生成可能であり、エージェント、及びロボット等の人間らしさや自然さの向上や、非言語行動による意図の伝達の円滑化、会話の活性化などが効果として得られる。

また、予め学習済みの非言語情報生成モデルを用いて、発話音声またはテキストを入力とし、入力に対応する動作とそのタイミングの情報を出力する。これにより、シナリオ作成コストを下げることができる。また、実際の人間の動作を元に動作が生成されるので、より自然なタイミングで動きを再現できる。

また、第１の実施形態に係る非言語情報生成モデル学習装置１０によれば、時刻情報付きの学習用の音声特徴量と時刻情報付きの学習用の非言語情報とに基づいて、時刻情報付きの音声特徴量から時刻情報付きの非言語情報を生成するための非言語情報生成モデルを学習する。これにより、音声情報と非言語情報との対応付けのコストを低減させつつ、音声特徴量から非言語情報を生成するための非言語情報生成モデルを得ることができる。

また、学習済みの非言語情報生成モデルを用いることにより、自然なタイミングでの非言語行動を生成することができる。

上記第１の実施形態では音声特徴量から非言語情報を生成する場合を例に説明した。上記第１の実施形態では、話されている内容には踏み込まず、音声特徴量として表れる情報（例えば、感情など）を手掛かりに、必要最小限の構成で非言語情報を生成することが可能である。

なお、上記第１の実施形態では、話している内容には踏み込まない（言語情報を用いない）ため、例えば動物にセンサをつけて非言語情報と音声情報（例えば、鳴き声等）とを取得し、動物型のロボットを動かしてもよい。

［第２の実施形態］

＜非言語情報生成モデル学習装置の構成＞

次に、本発明の第２の実施形態について説明する。なお、第１の実施形態と同様の構成となる部分については、同一符号を付して説明を省略する。

第２の実施形態では、入力として音声情報の代わりにテキスト情報を用いる。そして、テキスト情報から非言語情報を生成する非言語情報生成モデルの学習を行う点が第１の実施形態と異なる。なお、第２の実施形態で用いるテキスト情報は、話者が音声によって外部へ発話する際の、発話内容を表すテキスト情報である。

図７は、第２の実施形態に係る非言語情報生成モデル学習装置２１０の構成の一例を示すブロック図である。図７に示すように、第２の実施形態に係る非言語情報生成モデル学習装置２１０は、ＣＰＵと、ＲＡＭと、後述する学習処理ルーチンを実行するためのプログラムを記憶したＲＯＭとを備えたコンピュータで構成されている。非言語情報生成モデル学習装置２１０は、機能的には、学習用入力部２２０と、学習用演算部２３０とを備えている。

学習用入力部２２０は、学習用のテキスト情報と学習用の非言語情報とを受け付ける。

学習用演算部２３０は、学習用入力部２２０によって受け付けた学習データに基づいて、時刻情報付きの非言語情報を生成するための非言語情報生成モデルを生成する。学習用演算部２３０は、図７に示されるように、学習用情報取得部２３１と、学習用特徴量抽出部２３２と、非言語情報取得部３３と、生成パラメータ抽出部３４と、学習部２３５と、学習済みモデル記憶部２３６とを備えている。

学習用情報取得部２３１は、学習用のテキスト情報に対応する学習用の音声情報を取得し、当該音声情報が発せられるときの開始時刻から終了時刻までの時刻を表す時刻情報を取得する。学習用情報取得部２３１は、図８に示されるように、学習用テキスト解析部２３７と、学習用音声合成部２３８とを備えている。

学習用テキスト解析部２３７は、学習用のテキスト情報に対して所定のテキスト解析を行い、テキスト解析結果を取得する。例えば、学習用テキスト解析部２３７は、学習用のテキスト情報に対して形態素解析をはじめとするテキスト解析を行って、形態素毎に、単語表記（形態素）情報、品詞、カテゴリ情報、評価表現、感情表現、感性表現、擬音語・擬態語・擬声語、固有表現、主題、文字数、位置、及びシソーラス情報等を抽出し、文毎に、発話の対話行為等を抽出する。なお、形態素毎ではなく、文節毎に、単語表記（形態素）情報、品詞、カテゴリ情報、評価表現、感情表現、固有表現、主題、文字数、位置、及びシソーラス情報等を抽出してもよい。また、形態素や文節以外の任意の単位で、単語表記（形態素）情報、品詞、カテゴリ情報、評価表現、感情表現、感性表現、擬音語・擬態語・擬声語、固有表現、主題、文字数、位置、及びシソーラス情報等を抽出してもよい。例えば、文字単位でもよく、英語であれば、空白で区切った文字列単位でもよいし、句単位でもよい。また、主題の抽出については、文ごとや発話単位ごとに行ってもよい。ここで、対話行為とは、発話における意図を抽象化し、ラベルとして抽象化したものである。主題とは、テキストにおける話題や焦点を表す情報である。文字数とは、形態素又は文節内の文字数である。位置とは、文頭、文末からの形態素又は文節の位置である。シソーラス情報とは、日本語語彙大系に基づく形態素又は文節内の単語のシソーラス情報である。これらのテキスト特徴量の抽出法は一般的なものでよく、様々な手法がすでに提案されている（上記参考文献１及び下記参考文献４〜６を参照）。本実施形態では、これらの情報のうち、単語表記（形態素）情報、品詞、対話行為、文字数、位置、及びシソーラス情報を用いる場合を例に説明を行う。

［参考文献４］：R Higashinaka, K Imamura, T Meguro, C Miyazaki, N Kobayashi, H Sugiyama, T Hirano， T Makino, Y Matsuo， "Towards an open-domain conversational system fully based on natural language processing", In Proceedings of International conference on Computational linguistics, pp. 928-939, 2014

［参考文献５］：日本特開2014-222399号公報

［参考文献６］：日本特開2015-045915号公報

学習用音声合成部２３８は、学習用テキスト解析部２３７によって取得されたテキスト解析結果に基づいて、学習用のテキスト情報に対応する学習用の音声情報を合成する。例えば、学習用音声合成部２３８は、テキスト解析結果を用いて音声合成を行い、テキスト情報に対応する発話を生成し、学習用のテキスト情報に対応する学習用の音声情報とする。

また、学習用音声合成部２３８は、学習用の音声情報が発せられるときの開始時刻から終了時刻までの時刻を表す時刻情報を取得する。具体的には、学習用音声合成部２３８は、音声合成により生成された発話の音声の開始時刻から終了時刻に対応する時刻情報を取得する。この時刻情報は、発話に対応するテキスト情報の各形態素に対応したものとする。なお、テキスト情報に含まれる文字毎に開始時刻と終了時刻とを取得するようにしてもよい。

学習用特徴量抽出部２３２は、学習用音声合成部２３８によって取得された学習用のテキスト情報及び時刻情報から、当該学習用のテキスト情報の特徴量を表す、時刻情報付きの学習用のテキスト特徴量を抽出する。具体的には、学習用特徴量抽出部２３２は、所定の解析単位毎に当該テキスト情報に対して時刻情報を付与して、時刻情報付きのテキスト特徴量を抽出する。

具体的には、学習用特徴量抽出部２３２は、学習用音声合成部２３８によって出力された学習用のテキスト情報に対して文分割を行う。次に、学習用特徴量抽出部２３２は、学習用テキスト解析部２３７で得られた対話行為に関するテキスト特徴量

を一文ごとに抽出する。なお、

は、一文に該当する発話の開始時刻及び終了時刻とする。

また、学習用特徴量抽出部２３２は、分割により得られた各文を構成する複数の形態素の各々について、当該形態素の単語表記情報、品詞、カテゴリ情報（例えば、名詞、固有表現、及び用言等）、評価表現、感情表現、固有表現、文字数、文中の位置、シソーラス情報等のうち、少なくとも単語表記情報を抽出する。そして、学習用特徴量抽出部２３２は、これらの多次元特徴量を

とする。なお、

は、形態素単位に該当する発話音声の開始時刻及び終了時刻とする。時刻情報付きのテキスト特徴量の一例を図３に示す。図３に示されるように、テキスト情報の各形態素の開始時刻及び終了時刻が取得されている。

なお、分割により得られた各文を構成する複数の文節の各々について、当該文節の単語表記情報、品詞、カテゴリ情報（例えば、名詞、固有表現、及び用言等）、評価表現、感情表現、固有表現、文字数、文中の位置、シソーラス情報等を抽出してもよい。そして、学習用特徴量抽出部２３２は、これらの多次元特徴量を

とする。なお、

は、文節単位に該当する発話音声の開始時刻及び終了時刻とする。

学習用情報取得部２３１において、音声認識及び音声合成を行った際に得られる情報を流用してもよい。

学習部２３５は、学習用特徴量抽出部２３２によって抽出された時刻情報付きの学習用のテキスト特徴量と、生成パラメータ抽出部３４によって抽出された時刻情報付きの学習用の離散化された非言語情報とに基づいて、時刻情報付きのテキスト特徴量から時刻情報付きの非言語情報を生成するための非言語情報生成モデルを学習する。

具体的には、学習部２３５は、学習用特徴量抽出部２３２によって抽出された時刻情報付きの学習用のテキスト特徴量

を入力として、非言語情報

を出力する非言語情報生成モデルを構築する。非言語情報生成モデルを構築する際には、あらゆる機械学習手法を用いて良いが、本実施形態ではＳＶＭを用いる。

を推定する場合を例に使用する特徴量の一例を示す。推定対象となる時刻Ｔ１〜Ｔ２の時刻で得られる、言語特徴量

と出力となるジェスチャ

とする。なお、Ｔ１，Ｔ２の設定方法として、例えば、形態素単位で非言語情報の推定が行われる場合には、各形態素の開始時刻及び終了時刻をＴ１，Ｔ２とする。この場合には、形態素毎にＴ２からＴ１までのウィンドウ幅は異なる。

学習済みモデル記憶部２３６には、学習部２３５によって学習された学習済みの非言語情報生成モデルが格納される。学習済みの非言語情報生成モデルは、時刻情報付きのテキスト特徴量から時刻情報付きの非言語情報を生成する。

＜非言語情報生成装置の構成＞

図９は、第２の実施形態に係る非言語情報生成装置２４０の構成の一例を示すブロック図である。図９に示すように、本実施形態に係る非言語情報生成装置２４０は、ＣＰＵ（Central Processing Unit）と、ＲＡＭ（Random Access Memory）と、後述する非言語情報生成処理ルーチンを実行するためのプログラムを記憶したＲＯＭ（Read Only Memory）とを備えたコンピュータで構成されている。非言語情報生成装置２４０は、機能的には、入力部２５０と、演算部２６０と、発現部７０とを備えている。

入力部２５０は、テキスト情報を受け付ける。

演算部２６０は、情報取得部２６１と、特徴量抽出部２６２と、学習済みモデル記憶部２６３と、非言語情報生成部２６４とを備えている。

情報取得部２６１は、入力部２５０によって受け付けられたテキスト情報を取得する。また、情報取得部２６１は、テキスト情報に対応する音声情報を取得し、当該音声情報が発せられるときの開始時刻から終了時刻までの時刻を表す時刻情報を取得する。情報取得部２６１は、図１０に示されるように、テキスト解析部２６５と、音声合成部２６６とを備えている。

テキスト解析部２６５は、学習用テキスト解析部２３７と同様に、入力部２５０によって受け付けられたテキスト情報に対して所定のテキスト解析を行い、テキスト解析結果を取得する。

音声合成部２６６は、学習用音声合成部２３８と同様に、テキスト解析部２６５によって取得されたテキスト解析結果に基づいて、テキスト情報に対応する音声情報を合成する。そして、音声合成部２６６は、音声合成により生成された発話の音声の開始時刻から終了時刻に対応する時刻情報を取得する。

特徴量抽出部２６２は、学習用特徴量抽出部２３２と同様に、情報取得部２６１によって取得されたテキスト情報及び時刻情報から、該テキスト情報の特徴量を表す、時刻情報付きのテキスト特徴量を抽出する。

学習済みモデル記憶部２６３には、学習済みモデル記憶部２３６に格納されている学習済みの非言語情報生成モデルと同一の学習済みの非言語情報生成モデルが格納されている。

非言語情報生成部２６４は、特徴量抽出部２６２によって抽出された時刻情報付きのテキスト特徴量と、学習済みモデル記憶部２６３に格納された学習済みの非言語情報生成モデルとに基づいて、特徴量抽出部２６２によって抽出された時刻情報付きのテキスト特徴量に対応する時刻情報付きの非言語情報を生成する。

例えば、非言語情報生成部２６４は、学習済みモデル記憶部２６３に格納された学習済みの非言語情報生成モデル

を用いて、時刻情報付きのテキスト特徴量としての任意の特徴量

を入力として、時刻情報付きの非言語情報に対応する生成パラメータとしてのジェスチャ

を取得する。

そして、非言語情報生成部２６４は、生成された時刻情報付きの生成パラメータが、発現部７０から出力されるように発現部７０を制御する。

具体的には、非言語情報生成部２６４は、発現部７０において、ジェスチャ

発現部７０は、非言語情報生成部２６４による制御に応じて、入力部２５０によって受け付けられたテキスト情報に対応する音声情報と非言語情報生成部２６４によって生成された非言語情報とを発現させる。

＜非言語情報生成モデル学習装置２１０の作用＞

次に、第２の実施形態に係る非言語情報生成モデル学習装置２１０の作用について説明する。まず、非言語情報生成モデル学習装置２１０の学習用入力部２２０に、複数の学習用のテキスト情報と複数の学習用の非言語情報との組み合わせを表す学習データが入力されると、非言語情報生成モデル学習装置２１０は、図１１に示す学習処理ルーチンを実行する。

まず、ステップＳ３００において、学習用情報取得部２３１は、学習用入力部２２０によって受け付けられた複数の学習データ（具体的には、テキスト情報と非言語情報との対）のうちの、学習用のテキスト情報を取得する。

ステップＳ３０３において、学習用テキスト解析部２３７は、上記ステップＳ３００で取得された学習用のテキスト情報に対して所定のテキスト解析を行い、テキスト解析結果を取得する。また、学習用音声合成部２３８は、学習用テキスト解析部２３７によって取得されたテキスト解析結果に基づいて、学習用のテキスト情報に対応する学習用の音声情報を合成する。そして、学習用音声合成部２３８は、学習用の音声情報が発せられるときの開始時刻から終了時刻までの時刻を表す時刻情報を取得する。

ステップＳ３０４において、学習用特徴量抽出部２３２は、上記ステップＳ３０３で取得された学習用のテキスト情報及び時刻情報から、時刻情報付きの学習用のテキスト特徴量を抽出する。

ステップＳ３０８において、学習部２３５は、上記ステップＳ３０４で抽出された時刻情報付きの学習用のテキスト特徴量と、ステップＳ１０６で取得された時刻情報付きの学習用の生成パラメータとに基づいて、時刻情報付きのテキスト特徴量から時刻情報付きの生成パラメータを生成するための非言語情報生成モデルを学習する。

＜非言語情報生成装置２４０の作用＞

次に、第２の実施形態に係る非言語情報生成装置２４０の作用について説明する。まず、非言語情報生成モデル学習装置２１０の学習済みモデル記憶部２３６に格納された学習済みの非言語情報生成モデルが、非言語情報生成装置２４０へ入力されると、非言語情報生成装置２４０の学習済みモデル記憶部２６３へ学習済みの非言語情報生成モデルが格納される。そして、入力部２５０に、非言語情報生成対象のテキスト情報が入力されると、非言語情報生成装置２４０は、図１２に示す非言語情報生成処理ルーチンを実行する。

ステップＳ４００において、情報取得部２６１は、入力部２５０によって受け付けられた、テキスト情報を取得する。

ステップＳ４０１において、テキスト解析部２６５は、上記ステップＳ４００で取得されたテキスト情報に対して所定のテキスト解析を行い、テキスト解析結果を取得する。また、音声合成部２６６は、テキスト解析部２６５によって取得されたテキスト解析結果に基づいて、テキスト情報に対応する音声情報を合成する。そして、音声合成部２６６は、音声情報が発せられるときの開始時刻から終了時刻までの時刻を表す時刻情報を取得する。

ステップＳ４０２において、特徴量抽出部２６２は、上記ステップＳ４０１で取得されたテキスト情報及び時刻情報から、時刻情報付きのテキスト特徴量を抽出する。

ステップＳ４０４において、非言語情報生成部２６４は、学習済みモデル記憶部２６３に格納された学習済みの非言語情報生成モデルを読み出す。

ステップＳ４０６において、非言語情報生成部２６４は、上記ステップＳ４０２で抽出された時刻情報付きのテキスト特徴量と、上記ステップＳ４０４で読み出された学習済みの非言語情報生成モデルとに基づいて、上記ステップＳ４０２で抽出された時刻情報付きのテキスト特徴量に対応する時刻情報付きの生成パラメータを生成する。

なお、第２の実施形態に係る非言語情報生成装置及び非言語情報生成モデル学習装置の他の構成及び作用については、第１の実施形態と同様であるため、説明を省略する。

以上説明したように、第２の実施形態に係る非言語情報生成装置２４０によれば、テキスト情報に対応する音声情報を取得し、音声情報が発せられるときの開始時刻から終了時刻までの時刻を表す時刻情報を取得し、時刻情報付きのテキスト特徴量と時刻情報付きの非言語情報を生成するための学習済みモデルとに基づいて、時刻情報付きのテキスト特徴量に対応する時刻情報付きの非言語情報を生成する。これにより、テキスト情報と非言語情報との対応付けを自動的に行い、そのコストを低減させることができる。

また、本実施形態では、時刻情報付きのテキスト特徴量から時刻情報付きの非言語情報を生成するための学習済みの非言語情報生成モデルを生成することにより、テキスト情報を入力とし、入力に対応する動作に対応する時刻情報付きの非言語情報（出力のタイミングが付与された非言語情報）が出力される。

これにより、本実施形態によれば、テキスト情報から非言語情報を自動的に生成することが可能となるため、従来技術のように、発話に対して非言語情報を個別に登録する必要がなく、コストが大幅に削減される。また、本実施形態を用いることで、入力されたテキスト情報に対し、人間らしい自然なタイミングでの非言語行動を生成可能であり、エージェント、及びロボット等の人間らしさや自然さの向上や、非言語行動による意図の伝達の円滑化、会話の活性化などが効果として得られる。

また、第２の実施形態に係る非言語情報生成モデル学習装置２１０によれば、時刻情報付きの学習用のテキスト特徴量と時刻情報付きの学習用の非言語情報とに基づいて、時刻情報付きのテキスト特徴量から時刻情報付きの非言語情報を生成するための非言語情報生成モデルを学習する。これにより、テキスト情報と非言語情報との対応付けのコストを低減させつつ、テキスト特徴量から非言語情報を生成するための非言語情報生成モデルを得ることができる。

また、上記第２の実施形態ではテキスト特徴量から非言語情報を生成する場合を例に説明した。上記第２の実施形態では、単語表記や品詞、対話行為等の情報を手掛かりに、非言語情報を生成することが可能である。この構成を用いれば、チャットにおける対話のように、入力に音声を伴わない場合に、必要最小限の構成で非言語情報を生成することが可能である。

［第３の実施形態］

次に、本発明の第３の実施形態について説明する。なお、第１又は第２の実施形態と同様の構成となる部分については、同一符号を付して説明を省略する。

第３の実施形態では、入力として音声情報及びテキスト情報の両方を用いる。音声情報及びテキスト情報から非言語情報を生成する点が第１及び第２の実施形態と異なる。なお、第３の実施形態で用いるテキスト情報は、話者が音声によって外部へ発話する際の、発話内容を表すテキスト情報である。

第３の実施形態の非言語情報生成モデル学習装置における学習用情報取得部３３１と学習用特徴量抽出部３３２との構成例を図１３Ａに示す。

図１３Ａに示されるように、学習用の音声情報が入力されると、学習用音声認識部３３７は、学習用の音声情報に対して所定の音声認識処理を行い、学習用の音声情報に対応するテキスト情報（以下、学習用の認識テキストと称する。）を取得する。

そして、学習用テキスト解析部３３８は、学習用の認識テキストに対して所定のテキスト解析を行い、テキスト解析結果を取得する。

そして、学習用特徴量抽出部３３２は、学習用の音声情報から時刻情報付きの音声特徴量を抽出する。また、学習用特徴量抽出部３３２は、学習用の認識テキストから時刻情報付きのテキスト特徴量を抽出する。

そして、第３の実施形態の学習部（図示省略）は、学習用の時刻情報付きの音声特徴量及び学習用の時刻情報付きのテキスト特徴量と、学習用の非言語情報とに基づいて、非言語情報生成モデルを学習させる。これにより、時刻情報付きの音声特徴量及び時刻情報付きのテキスト特徴量から時刻情報付きの非言語情報を生成するための非言語情報生成モデルを得ることができる。

第３の実施形態の非言語情報生成装置における情報取得部３６１と特徴量抽出部３６２との構成例を図１３Ｂに示す。

図１３Ｂに示されるように、音声情報が入力されると、音声認識部３６５は、音声情報に対して所定の音声認識処理を行い、音声情報に対応するテキスト情報（以下、認識テキストと称する。）を取得する。そして、テキスト解析部３６６は、認識テキストに対して所定のテキスト解析を行い、テキスト解析結果を取得する。

そして、特徴量抽出部３６２は、音声情報から時刻情報付きの音声特徴量を抽出する。また、特徴量抽出部３６２は、認識テキストから時刻情報付きのテキスト特徴量を抽出する。

そして、第３の実施形態の非言語情報生成部（図示省略）は、時刻情報付きの音声特徴量及び時刻情報付きのテキスト特徴量と学習済みの非言語情報生成モデルとに基づいて、時刻情報付きの非言語情報を生成する。これにより、時刻情報付きの音声特徴量及び時刻情報付きのテキスト特徴量の両方を用いて、非言語情報を適切に生成することができる。

なお、音声特徴量とテキスト特徴量との両方を用いて非言語情報を生成する場合には、時刻情報の時間軸は、上記図３に示されるように、音声特徴量とテキスト特徴量との間で対応が取られ一致していることが望ましい。

また、音声特徴量とテキスト特徴量との両方を用いて非言語情報を生成し、非言語情報を発現部により発現させる場合には、入力となる音声情報やテキスト情報、テキスト情報から得られた合成音声や音声情報から得られた認識テキストと合わせて提示することも可能である。

以上説明したように、第３の実施形態に係る非言語情報生成装置によれば、時刻情報付きの音声特徴量及び時刻情報付きのテキスト特徴量と、時刻情報付きの非言語情報を生成するための学習済みの非言語情報生成モデルとに基づいて、時刻情報付きの非言語情報を生成する。これにより、音声情報及びテキスト情報と非言語情報との対応付けのコストを低減させることができる。

また、第３の実施形態に係る非言語情報生成モデル学習装置によれば、学習用の時刻情報付きの音声特徴量及び学習用の時刻情報付きのテキスト特徴量に基づいて、時刻情報付きの音声特徴量及び時刻情報付きのテキスト特徴量から時刻情報付きの非言語情報を生成するための非言語情報生成モデルを得ることができる。

なお、上記第３の実施形態では、入力情報が音声情報である場合を例に説明したが、これに限定されるものではない。例えば、入力情報がテキスト情報であってもよい。

入力情報がテキスト情報である場合の、非言語情報生成モデル学習装置における学習用情報取得部４３１と学習用特徴量抽出部４３２との構成例を図１４Ａに示す。

図１４Ａに示されるように、学習用のテキスト情報が入力されると、学習用テキスト解析部４３７は、学習用のテキスト情報に対して所定のテキスト解析処理を行い、学習用のテキスト情報に対応するテキスト解析結果を取得する。

そして、学習用音声合成部４３８は、テキスト解析結果に対して所定の音声合成処理を行い、学習用の音声情報を取得する。

そして、学習用特徴量抽出部４３２は、学習用の音声情報から時刻情報付きの音声特徴量を抽出する。また、学習用特徴量抽出部４３２は、学習用のテキスト情報から時刻情報付きのテキスト特徴量を抽出する。

そして、学習部（図示省略）は、学習用の時刻情報付きの音声特徴量及び学習用の時刻情報付きのテキスト特徴量と、学習用の非言語情報とに基づいて、非言語情報生成モデルを学習させる。これにより、時刻情報付きの音声特徴量及び時刻情報付きのテキスト特徴量から時刻情報付きの非言語情報を生成するための非言語情報生成モデルを得ることができる。

また、入力情報がテキスト情報である場合の、非言語情報生成装置における情報取得部４６１と特徴量抽出部４６２との構成例を図１４Ｂに示す。

図１４Ｂに示されるように、テキスト情報が入力されると、テキスト解析部４６５は、テキスト情報に対して所定のテキスト解析処理を行い、テキスト情報に対応するテキスト解析結果を取得する。

そして、音声合成部４６６は、テキスト解析結果に対して所定の音声合成処理を行い、音声情報を取得する。

そして、特徴量抽出部４６２は、音声情報から時刻情報付きの音声特徴量を抽出する。また、特徴量抽出部４６２は、テキスト情報から時刻情報付きのテキスト特徴量を抽出する。

そして、非言語情報生成部（図示省略）は、時刻情報付きの音声特徴量及び時刻情報付きのテキスト特徴量と、予め学習された非言語情報生成モデルとに基づいて、非言語情報を表す生成パラメータを取得する。

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、上記各実施形態における、情報取得部（又は学習用情報取得部）と特徴量抽出部（又は学習用特徴量抽出部）との組み合わせに対応する構成は、図１５に示される全４パターンである。また、学習時と非言語情報生成時との構成の組み合わせとして、可能なバリエーションは、図１６に示されるパターンとなる。なお、学習時と生成時の特徴量が一致している方が、非言語情報生成時の精度は高くなる。

また、本発明は、周知のコンピュータに媒体もしくは通信回線を介して、プログラムをインストールすることによっても実現可能である。

また、上述の装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、ＷＷＷ（World Wide Web）システムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。

また、本願明細書中において、プログラムが予めインストールされている実施形態について説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。

なお、以下に、他の実施形態を説明する。

[他の実施形態の概要]

非言語情報生成モデル学習装置において用いる学習データとして、例えば、上記図２に示されるようなシーンにおいて、発話中の話者の音声情報（Ｘ）を取得するのと同時に、計測装置を用いて発話中の話者の話し相手である会話相手の非言語情報（Ｙ）を取得することにより作成する。

そのようにして作成された学習データに基づいて、非言語情報生成モデルの学習を行うと、入力情報である音声情報又はテキスト情報に対し、適切なタイミングでリアクション（例えば、相槌など）の非言語行動を行うエージェント及びロボット等が実現可能となる。

さらに、上記図２のようなシーンにおいて、発話中の話者の音声情報（Ｘ）を取得するのと同時に、計測装置を用いて他の参加者の非言語情報（Ｙ）を取得することにより、学習データを作成することもできる。

そのようにして複数の参加者のそれぞれの非言語情報を元に、非言語情報生成モデルの学習を行えば、複数ロボットやエージェントに、入力情報である音声情報又はテキスト情報に対し、適切かつ異なるタイミングでリアクションを行わせることが可能となる。

この場合には、話者から取得された音声情報と当該話者の相手（例えば、会話の聞き手又は会話の参加者）の行動に関する情報を表す非言語情報との組み合わせを学習データとして、学習済みの非言語情報生成モデルを学習させる。ここで、当該話者の相手として、会話の聞き手、会話の参加者だけでなく、会話の傍聴者等も含めてもよく、これら「話者の音声（及びその内容）を受けて何らかの反応を示す実体」について、「発声の聞き手」とも表現する。

また、テキスト情報を対象とする場合には、話者から取得された音声情報に対応するテキスト情報と当該話者の相手（例えば、会話の聞き手又は会話の参加者）の行動に関する情報を表す非言語情報との組み合わせを学習データとして、学習済みの非言語情報生成モデルを学習させる。

なお、以下の第４の実施形態〜第６の実施形態は、第１の変形例〜第３の変形例である。

[第４の実施形態]

第４の実施形態では、音声情報を対象とし、非言語情報生成モデル学習装置は、話者（図２の「話者」）から出力された学習用の音声情報から抽出される時刻情報付きの学習用の音声特徴量と、話者の相手（図２の「他の参加者」または「話者の会話相手」）の行動に関する情報を表す学習用の非言語情報とに基づいて、時刻情報付きの音声特徴量から時刻情報付きの非言語情報を生成するための非言語情報生成モデルを学習させる。これにより、話者から取得される音声情報に応じて、話者の相手の行動を表現する学習済みの非言語情報生成モデルが得られる。なお、図２に示されるように、「話者」とは、発話等の音声を発する人物を表す。また、「話者の相手」とは、例えば、話者から発せられた発話等を聞いている人物を表し、図２に示される「他の参加者」及び「話者の会話相手」に相当する。また、話者の相手の行動とは、話者が発した音声に対する、話者の相手のリアクション等である。

また、非言語情報生成対象の音声情報が入力された場合には、非言語情報生成装置は、話者から取得された音声情報から抽出される時刻情報付きの音声特徴量と、学習済みの非言語情報生成モデルとに基づいて、時刻情報付きの非言語情報を生成する。

なお、第４の実施形態の非言語情報生成モデル学習装置及び非言語情報生成装置の他の構成及び作用については、第１の実施形態と同様であるため、説明を省略する。

[第５の実施形態]

第５の実施形態では、テキスト情報を対象とし、非言語情報生成モデル学習装置は、話者から取得された学習用の音声情報に対応するテキストから抽出される時刻情報付きの学習用のテキスト特徴量と、話者の相手の行動に関する情報を表す学習用の非言語情報とに基づいて、時刻情報付きのテキスト特徴量から時刻情報付きの非言語情報を生成するための非言語情報生成モデルを学習させる。これにより、話者から取得される音声情報に対応するテキスト情報に応じて、話者の相手の行動を表現する学習済みの非言語情報生成モデルが得られる。

また、非言語情報生成対象のテキスト情報が入力された場合には、非言語情報生成装置は、話者から取得された音声情報に対応するテキスト情報から抽出される時刻情報付きのテキスト特徴量と、学習済みの非言語情報生成モデルとに基づいて、時刻情報付きの非言語情報を生成する。

なお、第５の実施形態の非言語情報生成モデル学習装置及び非言語情報生成装置の他の構成及び作用については、第２の実施形態と同様であるため、説明を省略する。

[第６の実施形態]

第６の実施形態では、音声情報とテキスト情報との両方を対象とし、非言語情報生成モデル学習装置は、時刻情報付きの学習用の音声特徴量及び時刻情報付きの学習用のテキスト特徴量と、話者の相手の行動に関する情報を表す学習用の非言語情報とに基づいて、時刻情報付きの音声特徴量及び時刻情報付きのテキスト特徴量から時刻情報付きの非言語情報を生成するための非言語情報生成モデルを学習させる。これにより、音声情報及びテキスト情報に応じて、話者の相手の行動を表現する学習済みの非言語情報生成モデルが得られる。

また、非言語情報生成対象の音声情報とテキスト情報との両方が入力された場合には、非言語情報生成装置は、時刻情報付きの音声特徴量及び時刻情報付きのテキスト特徴量と、学習済みの非言語情報生成モデルとに基づいて、時刻情報付きの非言語情報を生成する。

なお、第６の実施形態の非言語情報生成モデル学習装置及び非言語情報生成装置の他の構成及び作用については、第３の実施形態と同様であるため、説明を省略する。

［第７の実施形態］

＜非言語情報生成モデル学習装置の構成＞

次に、本発明の第７の実施形態について説明する。なお、第１の実施形態と同様の構成となる部分については、同一符号を付して説明を省略する。

第７の実施形態では、入力された発話に対応するジェスチャを、学習済みの機械学習モデルに基づいて生成する。その際、ジェスチャとして、行動の有無だけでなく、大きさ、回数、ポーズ長の割合の情報も生成する。また、入力として用いる発話音声またはテキストに加えて、ジェスチャの生成に影響を与える変数を「付加情報」として更に用いて、非言語情報を生成する非言語情報生成モデルの学習を行う点が第１の実施形態と異なる。

なお、第７の実施形態で用いるテキスト情報は、話者が音声によって外部へ発話する際の、発話内容を表すテキスト情報である。

図１７は、第７の実施形態に係る非言語情報生成モデル学習装置７１０の構成の一例を示すブロック図である。図１７に示すように、第７の実施形態に係る非言語情報生成モデル学習装置７１０は、ＣＰＵと、ＲＡＭと、後述する学習処理ルーチンを実行するためのプログラムを記憶したＲＯＭとを備えたコンピュータで構成されている。非言語情報生成モデル学習装置７１０は、機能的には、学習用入力部７２０と、学習用演算部７３０とを備えている。

学習用入力部７２０は、学習用のテキスト情報と学習用の非言語情報と学習用の付加情報との組み合わせを含む学習データを受け付ける。

受け付ける非言語情報は、行動の有無だけでなく、大きさ、回数、ポーズ長の割合の情報も含む。

具体的には、非言語情報には、以下の表２〜表４に示す行動リスト表に含まれる何れかの行動が含まれる。

ここで、学習用のテキスト情報は、発話音声データを基に、それぞれ1人ずつの発話を人手で書き起こしたものであり、発話区間は、200msec以上の無音区間で区切った。

また、学習用の非言語情報は、発話音声データに対応する発話時の動きを考慮して付与されたものである。非言語情報は、例えば、頷き、顔向き、ハンドジェスチャ、視線、表情、身体の姿勢、身体の関節、位置、動き、瞳孔径の大きさ、及び瞬きの有無等である。
学習用の非言語情報に含まれるハンドジェスチャは、例えば、発話時の手の動きに加えて、発話内容を考慮しながらアノテーションを行ったものである。また、学習用の非言語情報に含まれるハンドジェスチャは、自動認識により得られたものでもよい。ハンドジェスチャの自動認識については、画像処理などを利用した方法（例えば、参考文献７）が多く提案されており、どのような方法でもよい。

［参考文献７］Siddharth S. Rautaray, Anupam Agrawal, "Vision based hand gesture recognition for human computer interaction: a survey", Artificial Intelligence Review, January 2015, Volume 43, Issue 1, pp. 1-54.

ここで、ハンドジェスチャの種別として参考文献８に記載されたものと同様なものを用いればよい。例えば、（A) Iconic、（B) Metaphoric、（C) Beat、（D) Deictic、（E) Feedback、（F) Compellation、（G) Hesitate、（H) Othersが、ハンドジェスチャの詳細な種別である。

［参考文献８］D. McNeill, "Hand and Mind: What Gestures Reveal About Thought", Chicago: University of Chicago Press, 1992

（A) Iconicは、情景描写、動作を表現するために使われるジェスチャである。（B) Metaphoricは、Iconicと同様、絵画的、図形的なジェスチャであるが、指示される内容は抽象的な事柄、概念となる（時間の流れなど）。（C) Beatは、発話の調子を整えたり、発言を強調したりするジェスチャであり、手を振動させたり、発話に合わせて手を振ったりするジェスチャである。（D) Deicticは、指差しなど、直接的に方向や、場所、事物を指し示すジェスチャである。（E) Feedbackは、他人の発話に同調・同意・呼応して出るジェスチャや、他人の前の発話・ジェスチャに対して、呼応して発言したときに付随するジェスチャ、相手のジェスチャを模倣して同じ形のジェスチャを行ったものである。（F) Compellationは、相手に呼びかけを行うジェスチャである。（G) Hesitateは、言いよどみ時に出るジェスチャである。（H) Othersは、判断に迷うが、何か意味がありそうなジェスチャである。

なお、ハンドジェスチャのアノテーションでは、上記のハンドジェスチャの種別だけでなく、Prep、Hold、Stroke、Returnの４つの状態を示すアノテーションも付与するようにしてもよい。

Prepは、ホームポジションからジェスチャをするために手を上げる状態を示し、Holdは、空中に手をあげたままの状態(ジェスチャ開始までの待機時間)を示す。また、Strokeは、ジェスチャを実施する状態を示し、この状態の詳細情報として、上記（A）〜（H）までの種別のアノテーションを与える。Returnは、手をホームポジションに戻す状態を示す。

また、学習用の非言語情報に含まれる頷きジェスチャは、例えば、発話時に頭を下げて戻すまでの頷き区間に対してアノテーションを行ったものである。また、頭を前に出して戻す動作、あるいは後ろに引いて戻す動作も頷きとし、アノテーションを行った。首をかしげる動作や、左右に振る動作は、頷きとはしなかった。

休止を挟まずに連続して2回以上頷いた場合は、連続した区間をひとまとまりに付け、頷いた回数を付与した。頷きの回数は、「1回、2回、3回、4回、5回以上」で分類した。

受け付ける学習用の付加情報は、所定の処理単位毎（例えば、形態素毎）の付加情報である。付加情報として、個人属性、環境変数、身体的特徴、動作対象の姿勢、対話の内容、人間関係、及び感情の少なくとも１つを受け付ける。具体的には、個人属性は、性別、年齢、性格、国籍、文化圏を含み、環境変数は、対話時の人数（1対1、1対多、多対多）、気温、屋内/屋外、陸上/空中/水中、明るい/暗い、等を含む。また、身体的特徴は、3頭身、服装：ポケットがある、スカートをはいている、帽子を被っている等、動作に影響を与えるものを含み、動作対象の姿勢は、立っている、座っている、何か手に持っている、を含む。また、対話の内容は、議論、雑談、説明などを含み、人間関係は、ジェスチャを生成させる人物と対話相手との人間関係、どちらが立場が優位か、好意をもっているかなどを含む。感情は、喜び、怒り、悲しみなどの他、緊張/リラックス等の精神状態も含む、内部状態を表すものである。
なお、付加情報が、所定の処理単位毎に変化しないもの（例えば、性別）である場合には、所定の処理単位毎に受け付けなくてもよい。この場合には、付加情報を受け付けた際に、装置側で、所定の処理単位毎の付加情報に展開すればよい。

学習用演算部７３０は、学習用入力部７２０によって受け付けた学習データに基づいて、時刻情報付きの非言語情報を生成するための非言語情報生成モデルを生成する。学習用演算部７３０は、図１７に示されるように、学習用情報取得部２３１と、学習用付加情報取得部７３１と、学習用特徴量抽出部７３２と、非言語情報取得部３３と、生成パラメータ抽出部３４と、学習部７３５と、学習済みモデル記憶部７３６とを備えている。

学習用情報取得部２３１は、学習用のテキスト情報に対応する学習用の音声情報を取得し、当該音声情報が発せられるときの開始時刻から終了時刻までの時刻を表す時刻情報を取得する。

学習用付加情報取得部７３１は、学習用の付加情報を取得する。

学習用特徴量抽出部７３２は、学習用情報取得部２３１によって取得された学習用のテキスト情報及び時刻情報から、当該学習用のテキスト情報の特徴量を表す、時刻情報付きの学習用のテキスト特徴量を抽出する。具体的には、学習用特徴量抽出部７３２は、所定の解析単位毎に当該テキスト情報に対して時刻情報を付与して、時刻情報付きのテキスト特徴量を抽出する。時刻情報付きのテキスト特徴量の一例を図１８に示す。図１８に示されるように、テキスト情報の各形態素の開始時刻及び終了時刻が取得されている。

また、学習用特徴量抽出部７３２は、学習用付加情報取得部７３１によって取得された学習用の付加情報と、学習用情報取得部２３１によって取得された時刻情報とから、時刻情報付きの学習用の付加情報を生成する。具体的には、学習用特徴量抽出部７３２は、所定の解析単位毎に当該付加情報に対して時刻情報を付与して、時刻情報付きの付加情報を生成する。

時刻情報付きの付加情報の一例を図１８に示す。図１８に示されるように、各形態素の付加情報に、当該形態素の開始時刻及び終了時刻が取得されている。また、付加情報が複数種類ある場合（例えば、対話人数と感情と気温）には、付加情報が、複数種類の付加情報を格納したベクトル配列として表されている。

学習用特徴量抽出部７３２は、付加情報のベクトル配列を

とする。なお、

は、形態素単位に該当する発話音声の開始時刻及び終了時刻とする。

学習部７３５は、学習用特徴量抽出部７３２によって抽出された時刻情報付きの学習用のテキスト特徴量及び時刻情報付きの付加情報と、生成パラメータ抽出部３４によって抽出された時刻情報付きの学習用の離散化された非言語情報とに基づいて、時刻情報付きのテキスト特徴量及び付加情報から時刻情報付きの非言語情報を生成するための非言語情報生成モデルを学習する。

具体的には、学習部７３５は、学習用特徴量抽出部７３２によって抽出された時刻情報付きの学習用のテキスト特徴量

、及び時刻情報付きの学習用の付加情報

を入力として、非言語情報

を出力する非言語情報生成モデルを構築する。非言語情報生成モデルを構築する際には、あらゆる機械学習手法を用いて良いが、本実施形態ではＳＶＭを用いる。例えば、上記（A）〜（H）までの種別毎に、ジェスチャが、当該種別に属する何れの行動であるかを推定するためのＳＶＭモデルを作成する。すわなち、上記（A）〜（H）までの種別毎に、ジェスチャが、上記の行動リスト表の、当該種別に属する内容として記載されている複数の行動のうち、何れの行動であるかを推定するためのＳＶＭモデルを作成する。

、及び付加情報

と、出力となるジェスチャ

また、

は、T1からT2内で得られる非言語情報の平均値や、出現した非言語情報の組み合わせや、その出現順序を考慮したパターンでも良い。例えば、ハンドジェスチャＩＤ

が、T1からT3（T1<T3<T2）内で

、T3からT2内で

であったとき、

として、より出現時間の高かったＩＤや、組み合わせ情報である

、ｎgramパターンとしての

を採用する。

n-gramパターンを用いる場合、n-gramパターン内の非言語情報の時刻情報（上の例では、

の、それぞれの開始時刻など）は、各非言語情報ごとにあらかじめ設定された所定の方法で割り振られることになる。しかし、このn-gramパターン内の非言語情報の時刻情報も推定するようにしてもよい。この場合、n-gramパターンを推定する際に用いた特徴量と、推定されたn-gramを用いて、学習データに基づき、時刻情報の推定を行うようにする。

学習済みモデル記憶部７３６には、学習部７３５によって学習された学習済みの非言語情報生成モデルが格納される。学習済みの非言語情報生成モデルは、時刻情報付きのテキスト特徴量から時刻情報付きの非言語情報を生成する。

＜非言語情報生成装置の構成＞

図１９は、第７の実施形態に係る非言語情報生成装置７４０の構成の一例を示すブロック図である。図１９に示すように、本実施形態に係る非言語情報生成装置７４０は、ＣＰＵ（Central Processing Unit）と、ＲＡＭ（Random Access Memory）と、後述する非言語情報生成処理ルーチンを実行するためのプログラムを記憶したＲＯＭ（Read Only Memory）とを備えたコンピュータで構成されている。非言語情報生成装置７４０は、機能的には、入力部７５０と、演算部７６０と、発現部７０とを備えている。

入力部７５０は、テキスト情報及び付加情報を受け付ける。受け付ける付加情報は、所定の処理単位毎（例えば、形態素毎）の付加情報である。

演算部７６０は、情報取得部２６１と、付加情報取得部７６１と、特徴量抽出部７６２と、学習済みモデル記憶部７６３と、非言語情報生成部７６４とを備えている。

情報取得部２６１は、入力部７５０によって受け付けられたテキスト情報を取得する。また、情報取得部２６１は、テキスト情報に対応する音声情報を取得し、当該音声情報が発せられるときの開始時刻から終了時刻までの時刻を表す時刻情報を取得する。
付加情報取得部７６１は、入力部７５０によって受け付けられた付加情報を取得する。

特徴量抽出部７６２は、学習用特徴量抽出部７３２と同様に、情報取得部２６１によって取得されたテキスト情報及び時刻情報から、該テキスト情報の特徴量を表す、時刻情報付きのテキスト特徴量を抽出する。また、特徴量抽出部７６２は、学習用特徴量抽出部７３２と同様に、付加情報取得部７６１によって取得された付加情報と、情報取得部２６１によって取得された時刻情報とから、時刻情報付きの付加情報を生成する。

学習済みモデル記憶部７６３には、学習済みモデル記憶部７３６に格納されている学習済みの非言語情報生成モデルと同一の学習済みの非言語情報生成モデルが格納されている。

非言語情報生成部７６４は、特徴量抽出部７６２によって抽出された時刻情報付きのテキスト特徴量及び時刻情報付きの付加情報と、学習済みモデル記憶部７６３に格納された学習済みの非言語情報生成モデルとに基づいて、特徴量抽出部７６２によって抽出された時刻情報付きのテキスト特徴量及び付加情報に対応する時刻情報付きの非言語情報を生成する。

例えば、非言語情報生成部７６４は、学習済みモデル記憶部７６３に格納された学習済みの非言語情報生成モデル

、及び時刻情報付きの付加情報

を取得する。

そして、非言語情報生成部７６４は、生成された時刻情報付きの生成パラメータが、当該生成パラメータに付与された時刻情報に基づいて発現部７０から出力されるように発現部７０を制御する。

具体的には、非言語情報生成部７６４は、発現部７０において、ジェスチャ

発現部７０は、非言語情報生成部７６４による制御に応じて、入力部７５０によって受け付けられたテキスト情報に対応する音声情報と非言語情報生成部７６４によって生成された非言語情報とを発現させる。

＜非言語情報生成モデル学習装置７１０の作用＞

次に、第７の実施形態に係る非言語情報生成モデル学習装置７１０の作用について説明する。まず、非言語情報生成モデル学習装置７１０の学習用入力部７２０に、複数の学習用のテキスト情報と複数の学習用の付加情報と複数の学習用の非言語情報との組み合わせを表す学習データが入力されると、非言語情報生成モデル学習装置７１０は、図２０に示す学習処理ルーチンを実行する。

まず、ステップＳ３００において、学習用情報取得部２３１は、学習用入力部７２０によって受け付けられた複数の学習データ（具体的には、テキスト情報と付加情報と非言語情報との対）のうちの、学習用のテキスト情報を取得する。

ステップＳ１０２において、非言語情報取得部３３は、学習用入力部７２０によって受け付けられた複数の学習データのうちの、学習用の非言語情報と当該学習用の非言語情報が表す行動が行われるときの開始時刻から終了時刻までの時刻を表す時刻情報を取得する。

ステップＳ７００において、学習用付加情報取得部７３１は、学習用入力部７２０によって受け付けられた複数の学習データのうちの、学習用の付加情報を取得する。

ステップＳ７０２において、学習用特徴量抽出部７３２は、上記ステップＳ３０３で取得された学習用のテキスト情報及び時刻情報から、時刻情報付きの学習用のテキスト特徴量を抽出する。また、学習用特徴量抽出部７３２は、上記ステップＳ７００で取得された学習用の付加情報と、上記ステップＳ３０３で取得された時刻情報とから、時刻情報付きの学習用の付加情報を生成する。

ステップＳ７０８において、学習部７３５は、上記ステップＳ７０２で抽出された時刻情報付きの学習用のテキスト特徴量及び時刻情報付きの学習用の付加情報と、ステップＳ１０６で取得された時刻情報付きの学習用の生成パラメータとに基づいて、時刻情報付きのテキスト特徴量及び付加情報から時刻情報付きの生成パラメータを生成するための非言語情報生成モデルを学習する。

ステップＳ１１０において、学習部７３５は、上記ステップＳ７０８で得られた学習済みの非言語情報生成モデルを、学習済みモデル記憶部７３６へ格納して、学習処理ルーチンを終了する。

＜非言語情報生成装置７４０の作用＞

次に、第７の実施形態に係る非言語情報生成装置７４０の作用について説明する。まず、非言語情報生成モデル学習装置７１０の学習済みモデル記憶部７３６に格納された学習済みの非言語情報生成モデルが、非言語情報生成装置７４０へ入力されると、非言語情報生成装置７４０の学習済みモデル記憶部７６３へ学習済みの非言語情報生成モデルが格納される。そして、入力部７５０に、非言語情報生成対象のテキスト情報及び付加情報が入力されると、非言語情報生成装置７４０は、図２１に示す非言語情報生成処理ルーチンを実行する。

ステップＳ４００において、情報取得部２６１は、入力部７５０によって受け付けられた、テキスト情報を取得する。

ステップＳ７５０において、付加情報取得部７６１は、入力部７５０によって受け付けられた、付加情報を取得する。

ステップＳ７５２において、特徴量抽出部７６２は、上記ステップＳ４０１で取得されたテキスト情報及び時刻情報から、時刻情報付きのテキスト特徴量を抽出し、上記ステップＳ７５０で取得された付加情報及び上記ステップＳ４０１で取得された時刻情報から、時刻情報付きの付加情報を生成する。

ステップＳ７５４において、非言語情報生成部７６４は、学習済みモデル記憶部７６３に格納された学習済みの非言語情報生成モデルを読み出す。

ステップＳ７５６において、非言語情報生成部７６４は、上記ステップＳ７５２で抽出された時刻情報付きのテキスト特徴量及び付加情報と、上記ステップＳ７５４で読み出された学習済みの非言語情報生成モデルとに基づいて、上記ステップＳ７５２で抽出された時刻情報付きのテキスト特徴量及び付加情報に対応する時刻情報付きの生成パラメータを生成する。

ステップＳ２０８において、非言語情報生成部７６４は、上記ステップＳ７５６で生成された時刻情報付きの非言語情報が、当該非言語情報に付与された時刻情報に基づいて発現部７０から出力されるように発現部７０を制御して、非言語情報生成処理ルーチンを終了する。

なお、第７の実施形態に係る非言語情報生成装置及び非言語情報生成モデル学習装置の他の構成及び作用については、第１の実施形態と同様であるため、説明を省略する。

以上説明したように、第７の実施形態に係る非言語情報生成装置７４０によれば、付加情報を取得し、時刻情報付きのテキスト特徴量及び付加情報と、行動の回数又は大きさを含む時刻情報付きの非言語情報を生成するための学習済みモデルとに基づいて、時刻情報付きのテキスト特徴量に対応する時刻情報付きの非言語情報を生成する。これにより、テキスト情報と、行動の回数又は大きさを含む非言語情報との対応付けを自動的に行い、そのコストを低減させることができる。

また、非言語情報の種類を、行動の大きさ、回数を含めて細かく設定することにより、より詳細なニュアンスを表現でき、非言語情報により意図を表しやすい。また、時刻情報が対応付いていることや、付加情報と組み合わせることで、付加情報の違いによる動作の変化を、より細やかに表現でき、これにより、例えば、感情を表現しやすくなる。

また、第７の実施形態に係る非言語情報生成モデル学習装置７１０によれば、時刻情報付きの学習用のテキスト特徴量及び付加情報と、行動の回数又は大きさを含む時刻情報付きの学習用の非言語情報とに基づいて、時刻情報付きのテキスト特徴量及び付加情報から時刻情報付きの非言語情報を生成するための非言語情報生成モデルを学習する。これにより、テキスト情報と、行動の回数又は大きさを含む非言語情報との対応付けのコストを低減させつつ、テキスト特徴量から非言語情報を生成するための非言語情報生成モデルを得ることができる。

なお、上記の実施の形態では、付加情報が入力される場合を例に説明したが、これに限定されるものではなく、付加情報を推定するようにしてもよい。この場合には、図２２に示すように、非言語情報生成モデル学習装置７１０Ａの学習用演算部７３０Ａは、学習用入力部７２０によって受け付けた学習データに含まれるテキスト情報から、付加情報を推定して学習用付加情報取得部７３１へ出力する学習用付加情報推定部７３１Ａを備えるようにすればよい。例えば、テキスト情報から、対話の内容や感情を推定することができる。

また、図２３に示すように、非言語情報生成装置７４０Ａの演算部７６０Ａは、入力部７５０によって受け付けたテキスト情報から、付加情報を推定して付加情報取得部７６１へ出力する付加情報推定部７６１Ａを備えるようにすればよい。

テキスト情報ではなく、音声情報や動画情報が入力される場合には、音声情報や動画情報から付加情報を推定するようにすればよい。例えば、動画情報から年齢や性別、環境変数、身体的特徴等を推定したり、音声情報から、対話時の人数、感情、国籍、室内/屋内等を推定したりするようにしてもよい。

上記のように、付加情報を推定する場合には、付加情報にも時刻情報を自動的に付与することができる。また、付加情報を推定する場合、推定する際の単位ごとに、非言語情報の推定値を生成することができる。

また、非言語情報生成装置では、推定して得られる特定の付加情報に応じて、他の付加情報を変更してもよい。具体的には、特定の付加情報に対して予め定義しておいた指定情報に切り替わるように、他の付加情報を変更してもよい。例えば、音声情報から室内/屋内が切り替わったことが推定出来た際に、身体的特徴である服装の指定内容を変更するように、他の付加情報を変更する。また、感情に応じて、音声合成の発話速度や、テキストの表示速度を変更するようにしてもよい。その他、満腹状態を検知すると体形をふくよかに設定するように付加情報を変更したり、怒りの感情を検出すると対話の内容を「議論」に変更するように付加情報を変更したりする。

また、付加情報の推定の結果として、所定の処理単位の感情のラベルが時系列で「通常」「怒り」の順で並んでおり、ジェスチャと同時に音声を出力する場合、所定の処理単位毎の付加情報を音声合成部（図示省略）へのパラメータ（話速）として渡す。これにより、感情のラベル「怒り」が推定された所定の処理単位に対して、話速を所定の数足すとか、所定倍するように、テキスト情報の時刻情報を短縮するように変更する（図２４）。なお、図２４では、矢印付きの横軸が、時間軸を示している。

また、「怒り」が推定された期間の時刻情報付きの音声特徴量の時刻情報を変更するようにしてもよい。

また、非言語情報が、行動の大きさや回数を含む場合を例に説明したが、これに限定されるものではなく、さらに、ポーズ長の割合を含むようにしてもよい。

［第８の実施形態］

次に、本発明の第８の実施形態について説明する。なお、第１の実施形態と同様の構成となる部分については、同一符号を付して説明を省略する。

＜第８の実施形態の概要＞

入力がテキストの場合に、テキストの詳細な時刻情報が得られないことがある。例えば、（１）音声合成（または音声認識）に、各テキストに対応する必要な粒度の時刻情報を出力する機能が無い場合や、（２）ジェスチャ生成時に、テキストのみを出力する（音声合成する必要が無い）場合で、かつ音声合成を行うリソースが無い、または音声合成処理時間が確保できない場合（入力が音声の場合は、元の音声情報を出力する必要が無い、またはリソース不足など）である。

上記（１）のケースについては、ＤＮＮ（Deep Neural Network）ベース合成音声を用いる場合などに発生する。また、上記（２）のケースは、実サービスの際の制約等から発生する。

そこで、本実施の形態では、上記（１）のような、必要な粒度（例えば文字や形態素）の時刻情報が得られない場合に、音声合成器を利用して、テキストに対応する音声を生成した際に取得可能な、各文節（必要となる粒度より粗いが、最も近いもの）の音声時間長を用いて、必要となる粒度の時刻情報を求める。具体的には、対象言語の発音の特性に合わせた単位数（日本語であればモーラ数、英語であればアクセント数など）により、時刻情報が獲得可能な単位を分割し、必要な単位の時刻情報として利用する。

＜非言語情報生成モデル学習装置の構成＞

図２５に示すように、第８の実施形態に係る非言語情報生成モデル学習装置８１０の学習用演算部８３０は、学習用情報取得部２３１と、学習用付加情報取得部７３１と、学習用特徴量抽出部７３２と、非言語情報取得部３３と、生成パラメータ抽出部３４と、学習データ作成部８３３と、学習部７３５と、学習済みモデル記憶部７３６とを備えている。

学習データ作成部８３３は、学習用情報取得部２３１によって取得された学習用のテキスト情報について、詳細な時刻情報を求め、詳細な時刻情報付きのテキスト情報を生成する。

ここで、詳細な時刻情報は、学習用のテキストを出力する際の時刻の範囲を、テキストを所定単位で分割したときの分割数で分割した結果に基づいて付与されたものである。

例えば、テキスト情報について得られている時刻情報が、発話単位の時刻情報であり、所定の単位（モーラ単位）の時刻情報を求めたい場合には、以下のように時刻情報を求める。

まず、テキストの発話長を１に正規化し、時刻情報が得られる単位の発話長を所定の単位の数（この場合はモーラ数）で分割する（図２６Ａ参照）。そして、分割して得られた時刻情報を、所定の単位の時刻情報として利用する。

また、学習データ作成部８３３は、学習用特徴量抽出部７３２によって抽出された時刻情報付きの学習用のテキスト特徴量及び時刻情報付きの付加情報と、生成パラメータ抽出部３４によって抽出された時刻情報付きの学習用の離散化された非言語情報とについて、上記で求めた詳細な時刻情報を用いて、詳細な時刻情報付きの学習用のテキスト特徴量、学習用の付加情報、及び学習用の非言語情報を生成する。

学習データ作成部８３３は、詳細な時刻情報付きの学習用のテキスト特徴量、詳細な時刻情報付きの学習用の付加情報、及び詳細な時刻情報付きの学習用の非言語情報の組み合わせを学習データとして、学習部７３５に出力する。

＜非言語情報生成装置の構成＞

図２６Ｂに示すように、第８の実施形態に係る非言語情報生成装置８４０の演算部８６０は、情報取得部２６１と、付加情報取得部７６１と、特徴量抽出部７６２と、学習済みモデル記憶部７６３と、非言語情報生成部７６４と、制御部８７０と、を備えている。

発現部７０は、上記の第１の実施形態及び第２の実施形態と同様に、テキスト情報を出力すると共に、生成された時刻情報付きの非言語情報が示す行動を、時刻情報に合わせて発現する。また、テキスト情報に対応する音声も出力するようにしてもよい。

特徴量抽出部７６２が、学習用特徴量抽出部７３２と同様に、情報取得部２６１によって取得されたテキスト情報及び時刻情報から、該テキスト情報の特徴量を表す、時刻情報付きのテキスト特徴量を抽出する。また、特徴量抽出部７６２は、学習用特徴量抽出部７３２と同様に、付加情報取得部７６１によって取得された付加情報と、情報取得部２６１によって取得された時刻情報とから、時刻情報付きの付加情報を生成する。

また、特徴量抽出部７６２が、テキスト情報について、学習データ作成部８３３と同様に、詳細な時刻情報を求め、テキスト情報の詳細な時刻情報を求める。

また、特徴量抽出部７６２が、時刻情報付きのテキスト特徴量及び付加情報について、上記で求めた詳細な時刻情報を用いて、詳細な時刻情報付きのテキスト特徴量及び付加情報を生成する。

非言語情報生成部７６４は、特徴量抽出部７６２によって生成された詳細な時刻情報付きのテキスト特徴量及び詳細な時刻情報付きの付加情報と、学習済みモデル記憶部７６３に格納された学習済みの非言語情報生成モデルとに基づいて、特徴量抽出部７６２によって抽出された詳細な時刻情報付きのテキスト特徴量及び付加情報に対応する詳細な時刻情報付きの非言語情報を生成する。

そして、制御部８７０は、生成された詳細な時刻情報付きの非言語情報に対応する生成パラメータが、発現部７０から出力されるように発現部７０を制御すると共に、発現部７０により時刻情報に合わせてテキスト情報を出力するように制御する。

発現部７０は、制御部８７０による制御に応じて、入力部７５０によって受け付けられたテキスト情報又はテキスト情報に対応する音声情報を詳細な時刻情報に合わせて出力すると共に、非言語情報生成部７６４によって生成された非言語情報を、詳細な時刻情報に合わせて発現させる。

＜非言語情報生成モデル学習装置８１０の作用＞

次に、第８の実施形態に係る非言語情報生成モデル学習装置８１０の作用について説明する。まず、非言語情報生成モデル学習装置８１０の学習用入力部７２０に、複数の学習用のテキスト情報と複数の学習用の付加情報と複数の学習用の非言語情報との組み合わせを表す学習データが入力されると、非言語情報生成モデル学習装置８１０は、図２７に示す学習処理ルーチンを実行する。

まず、ステップＳ３００において、学習用情報取得部２３１は、学習用入力部７２０によって受け付けられた複数の学習データ（具体的には、テキスト情報と非言語情報と付加情報との組み合わせ）のうちの、学習用のテキスト情報を取得する。

ステップＳ８００において、学習データ作成部８３３は、上記ステップＳ３０３で取得された学習用のテキスト情報及び時刻情報から、学習用のテキスト情報について、詳細な時刻情報を求める。

また、学習データ作成部８３３は、学習用特徴量抽出部７３２によって抽出された時刻情報付きのテキスト特徴量及び付加情報と、生成パラメータ抽出部３４によって抽出された時刻情報付きの学習用の離散化された非言語情報とについて、上記で求めた詳細な時刻情報を用いて、詳細な時刻情報付きの学習用のテキスト特徴量、学習用の付加情報、及び学習用の非言語情報を生成する。

ステップＳ７０８において、学習部７３５は、上記ステップＳ８００で生成された詳細な時刻情報付きの学習用のテキスト特徴量及び詳細な時刻情報付きの学習用の付加情報と、ステップＳ８００で取得された詳細な時刻情報付きの学習用の生成パラメータとに基づいて、詳細な時刻情報付きのテキスト特徴量及び付加情報から詳細な時刻情報付きの生成パラメータを生成するための非言語情報生成モデルを学習する。

＜非言語情報生成装置の作用＞

次に、第８の実施形態に係る非言語情報生成装置８４０の作用について説明する。まず、非言語情報生成モデル学習装置８１０の学習済みモデル記憶部７３６に格納された学習済みの非言語情報生成モデルが、非言語情報生成装置８４０へ入力されると、非言語情報生成装置８４０の学習済みモデル記憶部７６３へ学習済みの非言語情報生成モデルが格納される。そして、入力部７５０に、非言語情報生成対象のテキスト情報及び付加情報が入力されると、非言語情報生成装置８４０は、図２８に示す非言語情報生成処理ルーチンを実行する。

ステップＳ８５０において、特徴量抽出部７６２が、上記ステップＳ４０１で取得されたテキスト情報及び時刻情報から、テキスト情報について詳細な時刻情報を求める。また、特徴量抽出部７６２が、時刻情報付きのテキスト特徴量について、上記で求めた詳細な時刻情報を用いて、詳細な時刻情報付きのテキスト特徴量を生成する。

また、特徴量抽出部７６２が、時刻情報付きの付加情報について、上記で求めた詳細な時刻情報を用いて、詳細な時刻情報付きの付加情報を生成する。

ステップＳ７５６において、非言語情報生成部７６４は、上記ステップＳ８５０で生成された詳細な時刻情報付きのテキスト特徴量及び付加情報と、上記ステップＳ７５４で読み出された学習済みの非言語情報生成モデルとに基づいて、上記ステップＳ８５０で生成された詳細な時刻情報付きのテキスト特徴量及び付加情報に対応する時刻情報付きの生成パラメータを生成する。

ステップＳ８５２において、制御部８７０は、上記ステップＳ４００で取得したテキストと、上記ステップＳ７５６で生成された時刻情報付きの非言語情報とが、時刻情報に合わせて発現部７０から出力されるように発現部７０を制御して、非言語情報生成処理ルーチンを終了する。

なお、第８の実施形態に係る非言語情報生成装置及び非言語情報生成モデル学習装置の他の構成及び作用については、第１の実施形態と同様であるため、説明を省略する。

以上説明したように、第８の実施形態に係る非言語情報生成装置によれば、テキスト情報の時刻情報を、所定単位毎の時刻情報に分割して付与することにより、テキスト情報について必要な粒度の時刻情報が得られない場合であっても、所定単位毎の時刻情報に従ってテキスト情報を、非言語情報が示す行動の発現と共に出力することができる。

なお、上記の実施の形態では、対象言語の発音の特性に合わせた単位数として、モーラ数を用いて時刻情報を分割する場合を例に説明したが、これに限定されるものではなく、英語の場合には、アクセント数を用いて時刻情報を分割してもよい。また、モーラ数やアクセント数以外に、品詞数、シソーラスにおけるカテゴリ数などで時刻情報を分割して付与してもよい。

また、所定の単位数で時刻情報を分割した後、重みづけを行うようにしてもよい。重みづけは、機械学習により決定してもよいし、重み付け用のＤＢ（対象言語の発音の特性に合わせた単位の種類ごとに、重みを設定してある）をあらかじめ用意しておいてもよい。機械学習のための学習データは、詳細な時刻情報を付与できる音声合成器を用いて作成しても、人手で作成してもよい。

また、非言語情報生成装置において、テキストのみを出力すればよい場合には、発話テキストの再生速度情報を取得し、発話のテキスト表示に合わせて行動の発現を同期させればよい。また、その際には、非言語情報に付与する時刻情報について所定の単位数で分割せずに、再生される発話長（あるいは文節の時間長）に合わせて、行動を発現させればよい。

［第９の実施形態］

次に、本発明の第９の実施形態について説明する。なお、第１の実施形態と同様の構成となる部分については、同一符号を付して説明を省略する。

＜第９の実施形態の概要＞

非言語情報の生成を行う際に、時系列情報の考慮が不十分な場合や、複数の動作ごとに非言語情報生成モデルを学習し、動作ごとに個別に非言語情報の生成を行う場合には、非言語情報として自然ではないもの、不可能なものが生成される。自然ではない非言語情報とは、同時に行うと適切でない行動であり、例えば、お辞儀しながらジャンプするような行動である。また、不可能な非言語情報とは、時系列順に見ると適切でない行動であり、例えば、１形態素のみに付与された、ゆっくり５回頷く、という行動である。この行動は、１形態素のみに付与されており、時間が足りないため、不可能な行動である。

そこで、本実施の形態では、生成される非言語情報に関して制約条件を設定し、生成後のデータの修正（挿入・削除・置換）を行う。

例えば、自然な非言語情報を発現させるため、制約条件を用いて、学習データや生成された非言語情報から不自然な非言語情報を削除する。あるいは、制約条件を用いて非言語情報を追加する。

制約条件として、非言語情報自体の制約条件、発現部の形状（ＣＧキャラクタ・ロボット）による制約条件、及び付加情報を用いた制約条件の少なくとも１つを用いる。また、制約条件は、ルールの集合として、人手で定義される。

＜非言語情報生成モデル学習装置の構成＞

第９の実施形態に係る非言語情報生成モデル学習装置は、第８の実施形態に係る非言語情報生成モデル学習装置８１０の構成と同様であるため、同一符号を付して説明を省略する。

第９の実施形態に係る非言語情報生成モデル学習装置では、学習データ作成部８３３は、生成パラメータ抽出部３４によって抽出された時刻情報付きの学習用の離散化された非言語情報について、非言語情報の時系列に関する制約条件、又は時刻が対応する非言語情報に関する制約条件を満たすように、学習用の非言語情報又は時刻情報を変更する。

例えば、行動ごとに必要最低限の時刻の情報またはテキスト単位（文節、形態素など）の数を制約条件として設定しておく。これは、発現部７０の形状や、可能な動作速度、ひとつ前の行動による現在の姿勢などから、制約条件が設定される。

具体的には、文節単位で行動を生成する場合を例に説明する。ハンドジェスチャＡは、必ず３文節にまたがって行動を行う、という制約条件が設定されている場合には、1文節のみにハンドジェスチャＡが生成されると、その前、あるいは後、またはその両方の文節に、ハンドジェスチャＡのラベルを付与するように変更する。それが不可能な場合は、ハンドジェスチャＡの行動ラベルを削除する。なお、生成された非言語情報の発現が不可能であると判定された場合は、その代替行動を用意しておくとよい

また、制約条件の設定について、実際の人間の行動データを元に、どの行動がどれくらいの時間（またはテキスト単位数）で生成されるべきかを事前に作成することができる。このとき、上記図２に示すように、発話中の話者の音声情報（Ｘ）を取得するのと同時に、所定の計測装置を用いて発話中の話者の非言語情報（Ｙ）も取得することで作成されるデータを用いる事が出来る。これにより、より人間として自然な動きが可能になる制約条件を設定することができる。なお、発現部７０が人間を模擬したものではない場合には、あえて不自然な動きを許容するように制約条件を設定してもよい。

また、学習データ作成部８３３は、学習用特徴量抽出部７３２によって抽出された時刻情報付きの付加情報を考慮して、付加情報を用いて設定された制約条件を満たすように、学習用の非言語情報又は時刻情報を変更する。例えば、感情によって話速が上がったりすると、それまではできていた動作が出来なくなったりすることが考えられるため、学習用の非言語情報に付与された時刻情報を変更する。

学習部７３５は、学習用特徴量抽出部７３２によって抽出された時刻情報付きの学習用のテキスト特徴量及び時刻情報付きの付加情報と、学習データ作成部８３３によって変更された、時刻情報付きの学習用の非言語情報とに基づいて、時刻情報付きのテキスト特徴量及び付加情報から時刻情報付きの非言語情報を生成するための非言語情報生成モデルを学習する。このとき、系列ラベリング（CRF（Conditional Random Fields））を用いて非言語情報生成モデルを学習することが好ましい。

この場合には、

において、ラベルの時系列関係を考慮する為に、BIO（Begin, Inside, Outside）タグなどの系列情報を付与しても良い。例えば、あるラベルが連続して出現した際に、開始ラベルにB（Begin）ラベルを付与し、以降のラベルにI（Inside）を付与する。これにより、連続したラベルを推定する際に精度が高くなる。

このようにラベリングしたデータを用いて、系列ラベリングの手法によりジェスチャの生成を行う非言語情報生成モデルを学習する。これにはＳＶＭを用いる事も可能だが、ＨＭＭ（Hidden Markov Model）やＣＲＦ（Conditional Random Fields、参考文献９）を用いるとなお良い。

［参考文献９］日本特許第５１５２９１８号公報

＜非言語情報生成装置の構成＞

第９の実施形態に係る非言語情報生成装置は、第７の実施形態に係る非言語情報生成装置７４０の構成と同様であるため、同一符号を付して説明を省略する。

第９の実施形態に係る非言語情報生成装置では、非言語情報生成部７６４は、特徴量抽出部７６２によって生成された時刻情報付きのテキスト特徴量及び時刻情報付きの付加情報と、学習済みモデル記憶部７６３に格納された学習済みの非言語情報生成モデルとに基づいて、特徴量抽出部７６２によって抽出された時刻情報付きのテキスト特徴量及び付加情報に対応する時刻情報付きの非言語情報を生成する。

非言語情報生成部７６４は、生成された時刻情報付きの非言語情報について、学習データ作成部８３３と同様に、非言語情報の時系列に関する制約条件、又は時刻が対応する非言語情報に関する制約条件を満たすように、非言語情報又は非言語情報に付与された時刻情報を変更する。

そして、非言語情報生成部７６４は、変更された時刻情報付きの非言語情報に対応する生成パラメータが、当該生成パラメータに付与された時刻情報に基づいて発現部７０から出力されるように発現部７０を制御する。

発現部７０は、非言語情報生成部７６４による制御に応じて、入力部７５０によって受け付けられたテキスト情報又はテキスト情報に対応する音声情報を詳細な時刻情報に合わせて出力すると共に、非言語情報生成部７６４によって生成された非言語情報を、詳細な時刻情報に合わせて発現させる。

＜非言語情報生成モデル学習装置の作用＞

次に、第９の実施形態に係る非言語情報生成モデル学習装置の作用について説明する。まず、非言語情報生成モデル学習装置の学習用入力部７２０に、複数の学習用のテキスト情報と複数の学習用の付加情報と複数の学習用の非言語情報との組み合わせを表す学習データが入力されると、非言語情報生成モデル学習装置は、図２９に示す学習処理ルーチンを実行する。

まず、ステップＳ３００において、学習用情報取得部２３１は、学習用入力部７２０によって受け付けられた複数の学習データ（具体的には、テキスト情報と非言語情報と付加情報の組み合わせ）のうちの、学習用のテキスト情報を取得する。

ステップＳ９００では、学習データ作成部８３３は、上記ステップＳ１０６で取得された時刻情報付きの離散化された非言語情報について、非言語情報の時系列に関する制約条件、又は時刻が対応する非言語情報に関する制約条件を満たすように、非言語情報、または非言語情報に付与された時刻情報を変更する。

ステップＳ７０８において、学習部７３５は、上記ステップＳ７０２で抽出された時刻情報付きの学習用のテキスト特徴量及び時刻情報付きの学習用の付加情報と、ステップＳ９００で変更された時刻情報付きの学習用の非言語情報とに基づいて、時刻情報付きのテキスト特徴量及び付加情報から時刻情報付きの生成パラメータを生成するための非言語情報生成モデルを学習する。

＜非言語情報生成装置の作用＞

次に、第９の実施形態に係る非言語情報生成装置の作用について説明する。まず、非言語情報生成モデル学習装置８１０の学習済みモデル記憶部７３６に格納された学習済みの非言語情報生成モデルが、非言語情報生成装置へ入力されると、非言語情報生成装置の学習済みモデル記憶部７６３へ学習済みの非言語情報生成モデルが格納される。そして、入力部７５０に、非言語情報生成対象のテキスト情報及び付加情報が入力されると、非言語情報生成装置は、図３０に示す非言語情報生成処理ルーチンを実行する。

ステップＳ９５０において、非言語情報生成部７６４は、上記ステップＳ７５２で抽出された時刻情報付きのテキスト特徴量及び付加情報と、上記ステップＳ７５４で読み出された学習済みの非言語情報生成モデルとに基づいて、上記ステップＳ７５２で抽出された時刻情報付きのテキスト特徴量及び付加情報に対応する時刻情報付きの生成パラメータを生成する。そして、非言語情報生成部７６４は、生成された時刻情報付きの生成パラメータについて、非言語情報の時系列に関する制約条件、又は時刻が対応する非言語情報に関する制約条件を満たすように、非言語情報、または非言語情報に付与された時刻情報を変更する。

ステップＳ２０８において、非言語情報生成部７６４は、上記ステップＳ９５０で変更された時刻情報付きの非言語情報が、当該非言語情報に付与された時刻情報に基づいて発現部７０から出力されるように発現部７０を制御して、非言語情報生成処理ルーチンを終了する。

なお、第９の実施形態に係る非言語情報生成装置及び非言語情報生成モデル学習装置の他の構成及び作用については、第１の実施形態と同様であるため、説明を省略する。

以上説明したように、第９の実施形態に係る非言語情報生成装置によれば、テキスト情報に対応する音声情報を取得し、音声情報が発せられるときの開始時刻から終了時刻までの時刻を表す時刻情報を取得し、時刻情報付きのテキスト特徴量と時刻情報付きの非言語情報を生成するための学習済みモデルとに基づいて、時刻情報付きのテキスト特徴量に対応する時刻情報付きの非言語情報を生成し、制約条件を満たすように、非言語情報又は非言語情報の時刻情報を変更する。これにより、非言語情報として自然ではないものを排除して、テキスト情報と非言語情報との対応付けを自動的に行い、そのコストを低減させることができる。

また、第９の実施形態に係る非言語情報生成モデル学習装置によれば、時刻情報付きの学習用の非言語情報について、制約条件を満たすように、非言語情報又は非言語情報の時刻情報を変更する。そして、時刻情報付きの学習用のテキスト特徴量と時刻情報付きの学習用の非言語情報とに基づいて、時刻情報付きのテキスト特徴量から時刻情報付きの非言語情報を生成するための非言語情報生成モデルを学習する。これにより、非言語情報として自然ではないものを排除して、テキスト情報と非言語情報との対応付けのコストを低減させつつ、テキスト特徴量から非言語情報を生成するための非言語情報生成モデルを得ることができる。なお、制約条件を元に、書き換えに関する機械学習モデルを作成してもよい。

［第１０の実施形態］

次に、本発明の第１０の実施形態について説明する。なお、第１の実施形態と同様の構成となる部分については、同一符号を付して説明を省略する。

＜第１０の実施形態の概要＞

制約条件により不可能な非言語情報を検出した場合に、制約条件を満たすように、音声データ（合成音声を含む）にポーズを入れる、またはテキストの表示速度（合成音声の話速）を変更するために、テキスト情報に付与された時刻情報を変更する点が、第９の実施形態と異なっている。

本実施形態は、非言語情報の方が、音声（テキスト）より重要な場合に有効である。特に、出力である音声を音声合成で作成する場合や、テキストを出力する場合において、高い効果が見込める。

＜非言語情報生成モデル学習装置の構成＞

第１０の実施形態に係る非言語情報生成モデル学習装置は、第８の実施形態に係る非言語情報生成モデル学習装置８１０の構成と同様であるため、同一符号を付して説明を省略する。

第１０の実施形態に係る非言語情報生成モデル学習装置では、学習データ作成部８３３は、学習用のテキスト情報、及び学習用特徴量抽出部７３２によって取得された時刻情報付きの学習用のテキスト特徴量について、非言語情報の時系列に関する制約条件を満たすように、学習用のテキスト情報の時刻情報、及び学習用のテキスト特徴量に付与された時刻情報を変更する。

例えば、制約条件を満たすように、非言語情報に合わせてポーズを入れるように、学習用のテキスト情報及び学習用のテキスト特徴量に付与された時刻情報を変更したり、非言語情報に合わせてテキストの表示速度（合成音声の話速）を変更するように、学習用のテキスト情報及びテキスト特徴量に付与された時刻情報を変更したりする。

また、学習データ作成部８３３は、学習用特徴量抽出部７３２によって抽出された時刻情報付きの付加情報を考慮して、付加情報を用いて設定された制約条件を満たすように、テキスト情報に付与された時刻情報を変更する。

学習部７３５は、学習データ作成部８３３によって変更された時刻情報付きの学習用のテキスト特徴量と、学習用特徴量抽出部７３２によって抽出された時刻情報付きの付加情報と、生成パラメータ抽出部３４によって抽出された、時刻情報付きの学習用の非言語情報とに基づいて、時刻情報付きのテキスト特徴量及び付加情報から時刻情報付きの非言語情報を生成するための非言語情報生成モデルを学習する。

＜非言語情報生成装置の構成＞

第１０の実施形態に係る非言語情報生成装置は、第７の実施形態に係る非言語情報生成装置７４０の構成と同様であるため、同一符号を付して説明を省略する。

第１０の実施形態に係る非言語情報生成装置では、非言語情報生成部７６４は、特徴量抽出部７６２によって生成された時刻情報付きのテキスト特徴量及び時刻情報付きの付加情報と、学習済みモデル記憶部７６３に格納された学習済みの非言語情報生成モデルとに基づいて、特徴量抽出部７６２によって抽出された時刻情報付きのテキスト特徴量及び付加情報に対応する時刻情報付きの非言語情報を生成する。

非言語情報生成部７６４は、テキスト情報及び時刻情報付きのテキスト特徴量について、学習データ作成部８３３と同様に、非言語情報の時系列に関する制約条件を満たすように、時刻情報を変更する。

そして、非言語情報生成部７６４は、生成された時刻情報付きの非言語情報に対応する生成パラメータが、当該生成パラメータに付与された時刻情報に基づいて発現部７０から出力されるように発現部７０を制御する。

発現部７０は、非言語情報生成部７６４による制御に応じて、入力部７５０によって受け付けられたテキスト情報又はテキスト情報に対応する音声情報を、変更された時刻情報に合わせて出力すると共に、非言語情報生成部７６４によって生成された非言語情報を、時刻情報に合わせて発現させる。

なお、第１０の実施形態に係る非言語情報生成装置及び非言語情報生成モデル学習装置の他の構成及び作用については、第９の実施形態と同様であるため、説明を省略する。

以上説明したように、第１０の実施形態に係る非言語情報生成装置によれば、テキスト情報に対応する音声情報を取得し、音声情報が発せられるときの開始時刻から終了時刻までの時刻を表す時刻情報を取得し、時刻情報付きのテキスト特徴量と時刻情報付きの非言語情報を生成するための学習済みモデルとに基づいて、時刻情報付きのテキスト特徴量に対応する時刻情報付きの非言語情報を生成し、制約条件を満たすように、テキスト情報の時刻情報を変更する。これにより、自然ではないものを排除して、テキスト情報と非言語情報との対応付けを自動的に行い、そのコストを低減させることができる。

また、第１０の実施形態に係る非言語情報生成モデル学習装置によれば、時刻情報付きの学習用のテキスト特徴量と学習用の非言語情報について、制約条件を満たすように、テキスト特徴量の時刻情報を変更する。そして、時刻情報付きの学習用のテキスト特徴量と時刻情報付きの学習用の非言語情報とに基づいて、時刻情報付きのテキスト特徴量から時刻情報付きの非言語情報を生成するための非言語情報生成モデルを学習する。これにより、自然ではないものを排除して、テキスト情報と非言語情報との対応付けのコストを低減させつつ、テキスト特徴量から非言語情報を生成するための非言語情報生成モデルを得ることができる。

［第１１の実施形態］

次に、本発明の第１１の実施形態について説明する。なお、第１の実施形態と同様の構成となる部分については、同一符号を付して説明を省略する。

＜第１１の実施形態の概要＞

ジェスチャシナリオや非言語情報生成モデルのための学習データを作成する際には、発話に対して適切な動作、すなわち意図した通りの動作が行われるかの確認や修正作業が必須となる。しかし、動作の確認や修正作業の際に、どのような発話に対し、どのような動作が割り当てられているか分かりづらく、作業コストが高くなりやすい。そこで、本実施の形態では、どのようなテキスト情報に対し、どのような非言語情報が割り当てられているのかを可視化することで、動作の確認や修正作業を容易にする。

具体的には、所定の単位で分割された言語情報（テキスト又は音声）に対し、非言語情報を対応付けて表示し、各所定の単位ごとに実際の動作を確認可能にすることで、修正しやすいインタフェースを提供する。また、修正結果に応じて、学習データを追加／修正することができ、さらに、非言語情報生成モデルを再学習することができる。
ここで、本実施の形態で説明するインタフェースの使用シーンは、例えば、以下の５つである。
（１）ジェスチャシナリオを作成する場合に、本実施の形態に係るインタフェースが使用される。例えば、入力されたテキスト情報について、学習済みの非言語情報生成モデルに基づいて時刻情報付きの非言語情報を生成し、ユーザの操作により、生成された非言語情報を修正し、修正結果を、固定シナリオとして出力する。
（２）学習データを修正する場合に、本実施の形態に係るインタフェースが使用される。例えば、入力された学習データを読み込み、ユーザの操作により、学習データに含まれるテキスト情報又は非言語情報を修正し、修正結果を、学習データとして出力する。
（３）学習データを追加する場合に、本実施の形態に係るインタフェースが使用される。例えば、入力されたテキスト情報について、学習済みの非言語情報生成モデルに基づいて時刻情報付きの非言語情報を生成し、ユーザの操作により、生成された非言語情報を修正し、修正結果を、当該非言語情報生成モデルに対応する学習データとして出力する。
（４）学習済みの非言語情報生成モデルを再学習する場合に、本実施の形態に係るインタフェースが使用される。例えば、入力されたテキスト情報について、学習済みの非言語情報生成モデルに基づいて時刻情報付きの非言語情報を生成し、ユーザの操作により、生成された非言語情報を修正し、修正結果を、当該非言語情報生成モデルに対応する学習データとして追加して、当該非言語情報生成モデルを再学習する。
（５）上記第９の実施の形態、第１０の実施の形態で説明した制約条件を生成する場合に、本実施の形態に係るインタフェースが使用される。例えば、上記（１）〜（４）の何れかと同様の方法で得られた修正結果を用いて、制約条件を規定する。

＜非言語情報生成装置の構成＞

図３１は、第１１の実施形態に係る非言語情報生成装置１１４０の構成の一例を示すブロック図である。図３１に示すように、第１１の実施形態に係る非言語情報生成装置１１４０は、ＣＰＵと、ＲＡＭと、後述する非言語情報生成処理ルーチンを実行するためのプログラムを記憶したＲＯＭとを備えたコンピュータで構成されている。非言語情報生成装置１１４０は、機能的には、入力部７５０と、演算部１１６０と、表示部１１９０と、出力部１１９２を備えている。

入力部７５０は、テキスト情報及び付加情報を受け付ける。受け付ける付加情報は、所定の処理単位毎（例えば、形態素毎や文節毎）の付加情報である。なお、付加情報が、所定の処理単位毎に変化しないもの（例えば、性別）である場合には、所定の処理単位毎に受け付けなくてもよい。この場合には、付加情報を受け付けた際に、装置側で、所定の処理単位毎の付加情報に展開すればよい。

演算部１１６０は、情報取得部２６１と、付加情報取得部７６１と、特徴量抽出部７６２と、学習済みモデル記憶部７６３と、非言語情報生成部７６４と、制御部１１７０と、学習データ生成部１１７２と、再学習制御部１１７４とを備えている。なお、付加情報取得部７６１を省略してもよい。上記（１）、（５）の使用シーンでは、更に、学習データ生成部１１７２及び再学習制御部１１７４を省略してもよい。また、上記（２）、（３）の使用シーンでは、更に、再学習制御部１１７４を省略してもよい。

情報取得部２６１は、上記第２の実施の形態に係る非言語情報生成装置２４０の情報取得部２６１と同様に、入力部７５０によって受け付けられたテキスト情報を取得すると共に、テキスト情報に対応する音声情報を取得し、当該音声情報が発せられるときの開始時刻から終了時刻までの時刻を表す時刻情報を取得する。
付加情報取得部７６１は、上記第７の実施の形態に係る非言語情報生成装置７４０の付加情報取得部７６１と同様に、入力部７５０によって受け付けられた付加情報を取得する。
特徴量抽出部７６２は、上記第７の実施の形態に係る非言語情報生成装置７４０の特徴量抽出部７６２と同様に、情報取得部２６１によって取得されたテキスト情報及び時刻情報から、該テキスト情報の特徴量を表す、時刻情報付きのテキスト特徴量を抽出する。また、特徴量抽出部７６２は、付加情報取得部７６１によって取得された付加情報と、情報取得部２６１によって取得された時刻情報とから、時刻情報付きの付加情報を生成する。
学習済みモデル記憶部７６３には、上記第７の実施の形態に係る非言語情報生成装置７４０の学習済みモデル記憶部７６３と同様に、学習済みモデル記憶部７３６に格納されている学習済みの非言語情報生成モデルと同一の学習済みの非言語情報生成モデルが格納されている。
非言語情報生成部７６４は、上記第７の実施の形態に係る非言語情報生成装置７４０の非言語情報生成部７６４と同様に、特徴量抽出部７６２によって抽出された時刻情報付きのテキスト特徴量及び時刻情報付きの付加情報と、学習済みモデル記憶部７６３に格納された学習済みの非言語情報生成モデルとに基づいて、特徴量抽出部７６２によって抽出された時刻情報付きのテキスト特徴量及び付加情報に対応する時刻情報付きの非言語情報を生成する。
制御部１１７０は、非言語情報生成部７６４によって生成された時刻情報付きの非言語情報と、入力部７５０によって受け付けられたテキスト情報及び付加情報とを表示するように表示部１１９０を制御する。

表示部１１９０は、表示画面１１９０Ａと、発現部１１９０Ｂとを備えている。なお、本実施の形態では、発現部１１９０Ｂが、表示部１１９０に含まれている場合を例に説明するが、これに限定されるものではなく、表示部１１９０とは別の装置（例えば、ロボット）で構成されていてもよい。

発現部１１９０Ｂは、テキスト情報に対応する音声を出力するとともに、生成された時刻情報付きの非言語情報が示す行動を、時刻情報に合わせて発現する。あるいは、テキスト情報を含む吹き出しを表示するようにしてもよい。

このとき、表示部１１９０により表示される表示画面１１９０Ａの一例を図３２に示す。

表示画面１１９０Ａでは、テキストを所定単位毎に分割して表示すると共に、テキスト特徴量に付与された時刻情報及び非言語情報に付与された時刻情報に基づいて、テキストの所定単位毎に対応付けて、非言語情報を示すラベルを表示する。また、表示画面１１９０Ａでは、テキスト情報に対応する音声の音声波形も表示するようにしてもよい。

なお、付与された時刻情報は、テキストを出力する際の時刻であり、例えば、上記第８の実施の形態と同様に、テキストを出力する際の時刻の範囲を、テキストを所定単位で分割したときの分割数で分割した結果に基づいて付与されたものであってもよい。

また、表示部１１９０は、非言語情報を示す行動を発現させる発現部１１９０Ｂを含み、発現部１１９０Ｂによる行動の発現の開始、停止、所定単位ずつ（例えば、１形態素ずつや、１文節ずつ）の早送り、又は巻き戻しの指示を受付可能な状態で表示画面１１９０Ａを表示する。例えば、再生ボタン、ポーズボタン、巻き戻しボタン、及び早送りボタンを表示画面１１９０Ａに表示する。

なお、発現部１１９０Ｂによる行動の発現の早送り、又は巻き戻しの指示を受付可能なスライドバーを表示画面１１９０Ａに表示してもよい。

制御部１１７０は、発現の開始、停止、早送り、又は巻き戻しの指示を受け付けると、当該指示に応じて、発現部１１９０Ｂによる行動の発現を制御する。
また、表示部１１９０は、発現部１１９０Ｂによって発現されている行動が、テキスト中のどの部分に対応するものであるか識別可能となるように表示画面１１９０Ａに表示してもよい。例えば、発現部１１９０Ｂによって発現されている行動に対応するテキスト中の対応部分に、再生バーを表示したり、発現部１１９０Ｂによって発現されている行動に対応するテキスト中の対応部分のマス目の色を変更したり、点滅させたりしてもよい。

また、表示部１１９０は、付加情報の設定を受付可能な状態で表示画面１１９０Ａを表示する。制御部１１７０は、付加情報の設定を受け付けると、当該付加情報を、特徴量抽出部７６２へ出力し、当該付加情報を更に用いて非言語情報生成部７６４により生成された非言語情報を示すラベルと、テキストとを表示画面１１９０Ａに表示させるように表示部１１９０を制御する。

また、表示部１１９０は、非言語情報を示すラベルの変更指示を受付可能な状態で表示画面１１９０Ａを表示する。

学習データ生成部１１７２は、非言語情報を示すラベルの変更指示を受け付けると、特徴量抽出部７６２によって抽出された時刻情報付きのテキスト特徴量及び付加情報と、変更指示に従って変更された非言語情報を示すラベルとの組み合わせを、非言語情報生成モデルを学習するための学習データとして生成する。

また、表示部１１９０は、非言語情報生成モデルの再学習指示、及び学習データ生成部１１７２により生成された学習データに対する重みの設定を受付可能な状態で表示画面１１９０Ａを表示する。ここで、学習データに対する重みとは、再学習時に、既存の学習データと比較して、追加する学習データをどれぐらい重視するかに応じて設定されるものである。例えば、この重みを最大値に設定した場合、追加した学習データ中の対（Ｘ，Ｙ）のＸに対し、必ずＹが生成されるように、非言語情報生成モデルが再学習される。

再学習制御部１１７４は、再学習指示及び重みの設定を受け付けると、学習データ生成部１１７２によって生成された学習データ及び設定された重みを用いて、非言語情報生成モデル学習装置７１０に非言語情報生成モデルを学習させる。

具体的には、表示画面１１９０Ａに対して以下のＳｔｅｐ１〜Ｓｔｅｐ５のようにユーザにより操作される。

（Ｓｔｅｐ１）非言語情報を生成する対象となる発話文を示すテキストを入力するか、あるいは選択することでテキストを設定する。例えば、上記（１）の使用シーンのように、ジェスチャシナリオを生成する場合や、上記（３）、（４）の使用シーンのように、学習データを追加する場合には、テキストを入力する。また、上記（２）の使用シーンのように、学習データを修正する場合には、学習データの集合が提示され、修正対象となる学習データのテキストを選択する。

（Ｓｔｅｐ２）発話文を示すテキストが所定単位ごとに分割され、分割された単位ごとに生成された非言語情報を示すラベルＹが表示される。

（Ｓｔｅｐ３）発現の開始が指示されると、生成された非言語情報により、発現部１１９０Ｂが動く。

（Ｓｔｅｐ４）ユーザが、発現部１１９０Ｂの動作を目視で確認する。

（Ｓｔｅｐ５）おかしな動きをする時のマスＭ（ラベル付きのマスＭor空白のマスＭ）をクリックすると、正しい非言語情報を示すラベルに書き換えることができる。その結果、当該ラベルが、入力発話に対する、正解の非言語情報を示すラベルとして、学習データに追加できるようにしてもよい（その際、重みづけも設定できるようにしてもよい）。

なお、所定単位ごとの時刻情報を表示し、時刻情報の変更指示を受け付け可能に表示画面１１９０Ａを表示してもよい（図３３参照）。例えば、時刻情報の値をクリックすることで値が編集可能となり、時刻情報の値を変更することができる。あるいは、所定単位ごとの開始時刻を示す縦棒の位置を左右に変更することにより、所定単位ごとの開始時刻を変更することができる。

また、音声データ（合成音声を含む）にポーズを入れる変更指示を受け付け可能に表示画面１１９０Ａに表示してもよい。例えば、図３４に示すように、テキスト情報の所定の単位毎に、ポーズＰの開始位置（図３４の点線の縦線参照）を挿入する変更指示を受け付けると共に、ポーズＰの開始位置を調整することによりポーズ長の割合を変更する変更指示を受け付けることができる。また、上記第１０の実施の形態で説明したように制約条件を満たすように挿入されたポーズに対しても同様に、ポーズＰの開始位置を調整することによりポーズ長の割合を変更する変更指示を受け付けるようにしてもよい。

また、所定単位（例えば文節）ごとのテキスト特徴量と非言語情報に対応する生成パラメータとが、変更指示を受付可能に表示されても良い。例えば、図３２に示すように、ユーザが、テキスト情報のマスＭまたは非言語情報のマスＭにマウスカーソルを合わせ、右クリックした際に、マスＭに対応するテキスト特徴量がオーバーレイ表示され、変更指示が受付可能となるようにしてもよい。また、テキスト情報のマスＭに対応するテキスト特徴量がオーバーレイ表示される場合、マスＭのテキスト情報から抽出されたテキスト特徴量全てが表示され、非言語情報のマスＭに対応するテキスト特徴量がオーバーレイ表示される際、非言語情報が生成される根拠となったテキスト特徴量がオーバーレイ表示されるようにしてもよい。

第１１の実施形態に係る非言語情報生成モデル学習装置は、第７の実施形態に係る非言語情報生成モデル学習装置７１０と同様であるため、同一符号を付して説明を省略する。

＜非言語情報生成装置の作用＞

次に、第１１の実施形態に係る非言語情報生成装置の作用について説明する。まず、非言語情報生成モデル学習装置７１０の学習済みモデル記憶部７３６に格納された学習済みの非言語情報生成モデルが、非言語情報生成装置へ入力されると、非言語情報生成装置の学習済みモデル記憶部７６３へ学習済みの非言語情報生成モデルが格納される。そして、入力部７５０に、非言語情報生成対象のテキスト情報及び付加情報が入力されると、非言語情報生成装置は、図３５に示す非言語情報生成処理ルーチンを実行する。

ステップＳ１１００において、制御部１１７０は、非言語情報生成部７６４によって生成された時刻情報付きの非言語情報と、入力部７５０によって受け付けられたテキスト情報及び付加情報とを表示するように表示部１１９０を制御して、非言語情報生成処理ルーチンを終了する。

上記ステップＳ１１００の処理は、図３６に示す処理ルーチンによって実現される。

まず、ステップＳ１１５０において、制御部１１７０は、テキストを所定単位毎に分割して表示すると共に、テキスト特徴量に付与された時刻情報及び非言語情報に付与された時刻情報に基づいて、テキストの所定単位毎に対応付けて、非言語情報を示すラベルを表示画面１１９０Ａに表示する。

ステップＳ１１５２では、制御部１１７０は、表示画面１１９０Ａに対する操作を受け付けたか否かを判定する。表示画面１１９０Ａに対する操作を制御部１１７０が受け付けた場合には、処理がステップＳ１１５４へ進む。

ステップＳ１１５４において、制御部１１７０は、上記ステップＳ１１５２で受け付けた操作の種別が、変更指示であるか、発現指示であるか、再学習指示であるかを判定する。受け付けた操作が、付加情報の設定や、非言語情報を示すラベルの変更指示である場合には、ステップＳ１１５６において、制御部１１７０は、変更指示に従った変更を反映した結果を表示画面１１９０Ａに表示する。受け付けた操作が付加情報の設定であった場合には、制御部１１７０は、更に、当該付加情報を、特徴量抽出部７６２へ出力し、当該付加情報を更に用いて非言語情報生成部７６４により生成された非言語情報を示すラベルと、テキストとを表示画面１１９０Ａに表示する。

また、受け付けた操作が非言語情報を示すラベルの変更指示であった場合には、学習データ生成部１１７２は、特徴量抽出部７６２によって抽出された時刻情報付きのテキスト特徴量及び付加情報と、変更指示に従って変更された非言語情報を示すラベルとの組み合わせを、非言語情報生成モデルを学習するための学習データとして生成して、非言語情報生成モデル学習装置７１０へ出力する。そして、処理が上記ステップＳ１１５２へ戻る。

また、発現部１１９０Ｂによる行動の発現の開始、停止、１文節ずつの早送り、又は巻き戻しの指示を受け付けた場合には、ステップＳ１１５８において、制御部１１７０は、受け付けた指示に従って、発現部１１９０Ｂによる行動の発現を制御して、処理が上記ステップＳ１１５２へ戻る。

また、再学習指示及び重みの設定を受け付けた場合には、ステップＳ１１６０において、制御部１１７０は、学習データ生成部１１７２によって生成された学習データ及び設定された重みを用いて、非言語情報生成モデル学習装置７１０に非言語情報生成モデルを学習させて、処理ルーチンを終了する。

上記のように、入力されたテキスト情報及び付加情報に対して非言語情報生成モデルを用いて非言語情報が生成された結果に対して、ユーザが修正を行うことによって、非言語情報生成モデルの学習データを生成することができ、非言語情報生成モデルの学習データを追加することができる。また、非言語情報生成モデルの再学習をユーザが指示することにより、追加された学習データを用いた再学習を行って、非言語情報生成モデルを更新することができる。

以上説明したように、第１１の実施形態に係る非言語情報生成装置によれば、どのようなテキスト情報に対し、どのような非言語情報が割り当てられているのかを可視化することにより、非言語情報の修正作業を容易にする。

なお、ユーザが修正を行うことによって生成された時刻情報付きのテキスト情報及び非言語情報からなるジェスチャシナリオを、固定シナリオとして出力するようにしてもよい。

また、上記第９の実施の形態又は第１０の実施の形態で説明した方法と同様に、制約条件を元に時刻情報付きのテキスト情報及び非言語情報の組み合わせに対して書き換えを行った場合に、書き換え結果に対してユーザによる修正を行い、そのデータを学習データとして、書き換えに関する機械学習モデルを作成するようにしてもよい。

また、制約条件を元に時刻情報付きのテキスト情報及び非言語情報の組み合わせに対して書き換えを行った場合には、書き換え履歴や、どの制約条件が適用させたかを表示するようにしてもよいし、さらに、制約条件自体の修正を受け付けるようにしてもよい。

また、学習データから、当該非言語情報を示すラベルと対応付けられたテキスト特徴量のランキングを求めて、ユーザに提示してもよい。この場合には、まず、学習データからテキスト特徴量と非言語情報を示すラベルの対を取得し、非言語情報を示すラベルごとに、対となっているテキスト特徴量の種類と、その出現数をカウントする。そして、非言語情報を示すラベルごとに、カウント数が多い順にテキスト特徴量の種類を並べ替えたものを、テキスト特徴量のランキングとして提示すればよい。
また、テキスト特徴量のランキングを提示した後、学習データの選択を受け付け、選択された学習データの編集を受け付けるようにしてもよい。例えば、図３２に示すように、ユーザが、非言語情報のマスＭにマウスカーソルを合わせ、右クリックした際に、マスＭのラベルに対する特徴量のランキングがオーバーレイ表示される。そして、特徴量のランキングの各特徴量名の選択指示（例えば、クリック）が受付可能となっており、特徴量名が選択されると、当該マスＭの非言語情報ラベルと選択されたテキスト特徴量とからなる学習データが表示される。このとき、学習データは、直接編集可能に表示され、削除や追記、編集等が行われることにより、学習データが編集される。
また、学習データを修正した場合に、修正前の学習データを負例として追加できるようにしてもよい。

また、音声合成のパラメータ（話速など）の修正を受付可能に表示するようにしてもよい。

なお、上記第７の実施形態〜第１１の実施形態では、入力情報がテキスト情報である場合を例に説明したが、これに限定されるものではない。例えば、入力情報が音声情報であってもよい。入力情報が音声情報である場合の、非言語情報生成モデル学習装置における学習用情報取得部は、上記第１の実施形態の学習用情報取得部３１と同様である。入力情報が音声情報である場合の、非言語情報生成装置における情報取得部は、上記第１の実施形態の情報取得部６１と同様である。

例えば、上記各実施形態における、情報取得部（又は学習用情報取得部）と特徴量抽出部（又は学習用特徴量抽出部）との組み合わせに対応する構成は、上記図１５に示される全４パターンである。また、学習時と非言語情報生成時との構成の組み合わせとして、可能なバリエーションは、上記図１６に示されるパターンとなる。

また、上記第４の実施形態〜第６の実施形態で説明した、非言語情報生成モデル学習装置において用いる学習データとして、例えば、上記図２に示されるようなシーンにおいて、発話中の話者の音声情報（Ｘ）を取得するのと同時に、計測装置を用いて発話中の話者の話し相手である会話相手の非言語情報（Ｙ）を取得することを、上記第７の実施形態〜第１１の実施形態の各々に適用してもよい。

[実験例]

次に、上記第５の実施形態に関する実験例について説明する。

[実験データについて]

２者対話を対象に、発話を表すテキスト情報およびそれに伴う頷きを表す非言語情報を含む、コーパスデータの構築を行った。２者対話の参加者は、20〜50代の日本人男性・女性であり初対面であった。参加者は計24人（12ペア）であった。参加者は互いに向き合って着座した。対話内容は、発話に伴う頷きに関するデータを多く収集するために、アニメーションの説明課題を採用した。参加者はそれぞれ、異なる内容のアニメーションを視聴した後、対話相手にアニメーション内容を説明した。10分間の対話セッションにおいて、１人の参加者が対話相手にアニメーションの内容を詳細に説明した。対話相手は、説明者に自由に質問をし、自由に会話を行うことを許可した。発話の収録のために各被験者の胸につけられた指向性ピンマイクを用いた。対話状況の全体的な外観や参加者の様子の収録として、ビデオカメラを用いた。映像は30Hzで収録された。下記に、取得したテキスト情報及び非言語情報を示す。

発話を表すテキスト情報：人手で音声情報から発声言語の書き起こしを行った後、発話内容から文を分割した。さらに、係り受け解析エンジン（参考文献１０および参考文献１１を参照）を利用して、各文を文節に分割した。分割された文節数は11877であった。

[参考文献１０] 今村賢治，「系列ラベリングによる準話し言葉の日本語係り受け解析」，言語処理学会第13回年次大会発表論文集，pp. 518-521，2007．
[参考文献１１] E. Charniak，"A Maximum-Entropy-Inspired Parser"，Proceedings of the 1st North American chapter of the Association for Computational Linguistics conference，pp. 132-139，2000．

頷きを表す非言語情報：人手で映像から頷きが発生した区間をラベリングした。連続的に発生した頷きは1つの頷きイベントとして扱った。

人手によるラベリング（アノテーション）では上記のすべてのデータを30Hzの時間分解能で統合した。

[非言語情報生成モデル]

構築したコーパスデータを用いて、単語、その品詞およびシソーラス、単語位置、テキスト情報全体の対話行為を入力として、文節単位ごとに頷きを表す非言語情報を生成する非言語情報生成モデルを構築した。それぞれのテキスト情報が有効であるかを検証するために、各テキスト特徴量を用いた非言語情報生成モデルと、全てのテキスト特徴量を用いた非言語情報生成モデルを構築した。具体的に、文節単位ごとに、対象となる文節およびその前後の文節から得られるテキスト特徴量を入力として、頷きの有無の2値を出力する非言語情報生成モデルを、決定木アルゴリズムC4.5（参考文献１２を参照）を用いて実装した。使用したテキスト特徴量は以下の通りである。

[参考文献１２] J. R. Quinlan， "Improved use of continuous attributes in c4.5"， Journal of Artificial Intelligence Research, 4:77-90, 1996.

文字数：文節内の文字数

位置：文頭、文末からの文節の位置

単語：形態素解析ツールJtag（参考文献１３を参照）により抽出された文節内の単語情報（Bag-of-words）

品詞：Jtagにより抽出された文節内の単語の品詞情報

シソーラス：日本語語彙大系（参考文献１４を参照）に基づく文節内の単語のシソーラス情報

対話行為：単語n-gramおよびシソーラス情報を用いた対話行為推定手法（参考文献４、１５を参照）により文ごとに抽出された対話行為（33種類）

[参考文献１３] Takeshi Fuchi and Shinichiro Takagi, "Japanese morphological analyzer using word co-occurrence -Jtag-", In Proceedings of International conference on Computational linguistics, pages 409-413, 1998.

[参考文献１４] 池原悟, 宮崎正弘, 白井諭, 横尾昭男, 中岩浩巳, 小倉健太郎, 大山芳史, 林良彦，「日本語語彙大系」，岩波書店，1997.

[参考文献１５] Toyomi Meguro, Ryuichiro Higashinaka, Yasuhiro Minami, and Kohji Dohsaka, "Controlling listening-oriented dialogue using partially observable markov decision processes", In Proceedings of International conference on computational linguistics, pages 761-769, 2010.

[実験結果について]

24人の参加者のデータのうち、23人のデータを学習に用いて、残りの1人のデータで評価を行う24交差検定法により評価を行った。これにより、他者のデータからどれだけ頷きを生成できるかを評価した。なお、各施行で頷きの有無データは、データ量が一致するように、データ数の少ない方に合わせてデータ数を削減した。よって、ベースラインであるチャンスレベルは0.50となる。性能評価結果の平均値を表５に示す。

非言語情報生成モデルの評価の結果、語彙大系、品詞、単語の順で精度が良い事が分かった。機械学習においては、抽出するテキスト特徴量の分解能が高すぎる（種類数が多い）と、各テキスト特徴量の出現頻度が相対的に低くなり、学習データに一度も現れなかったテキスト特徴量が実行時に出現することが増えるため、生成の精度が低下する傾向がある。また逆に、分解能を低く（抽象化することで、種類数を少なくする）していくほど、前記した問題は起きなくなるが、データの違いが表現できなくなり、生成の精度が低下する傾向にある。

シソーラス情報は単語を意味や属性でクラス化したもので、その種類数は単語より少なく、品詞より多いため、本実験の学習データ量であっても効率的に学習ができたと考えられる。シソーラス情報は階層構造を持っており、複数段階での単語の上位概念化（抽象化）が可能であるため、学習データのサイズに合わせ、抽象化の程度をコントロールしやすい。

膨大な量のコーパスデータを作成するコストは高く、困難である。学習データが十分に用意できない際には、シソーラス情報を用いる事で、比較的少ないデータ量でもより良い学習効果が期待できる。

本発明は、例えば、発話の再生に合わせて非言語行動を表出させる技術に利用可能である。本発明によれば、音声情報又はテキスト情報の少なくとも一方と、行動の回数又は大きさを含む非言語情報との対応付けを自動化することができる。

１０，２１０，７１０，７１０Ａ，８１０非言語情報生成モデル学習装置
２０，２２０，７２０学習用入力部
３０，２３０，７３０，７３０Ａ，８３０学習用演算部
３１，２３１，３３１，４３１学習用情報取得部
３２，２３２，３３２，４３２，７３２学習用特徴量抽出部
３３非言語情報取得部
３４生成パラメータ抽出部
３５，２３５，７３５学習部
３６，６３，２３６，２６３，７３６，７６３学習済みモデル記憶部
４０，２４０，７４０，７４０Ａ，８４０，１１４０非言語情報生成装置
５０，２５０，７５０入力部
６０，２６０，７６０，７６０Ａ，８６０，１１６０演算部
６１，２６１，３６１，４６１情報取得部
６２，２６２，３６２，４６２，７６２特徴量抽出部
６４，２６４，７６４非言語情報生成部
７０，１１９０Ｂ発現部
２３７，３３８，４３７学習用テキスト解析部
２３８，４３８学習用音声合成部
２６５，３６６，４６５テキスト解析部
２６６，４６６音声合成部
３３７学習用音声認識部
３６５音声認識部
７３１学習用付加情報取得部
７３１Ａ学習用付加情報推定部
７６１付加情報取得部
７６１Ａ付加情報推定部
８３３学習データ作成部
８７０，１１７０制御部
１１７２学習データ生成部
１１７４再学習制御部
１１９０表示部
１１９０Ａ表示画面
１１９２出力部

Claims

音声又はテキストの特徴量と、学習済みの非言語情報生成モデルとに基づいて、前記特徴量に対応する非言語情報を生成する非言語情報生成部を含む非言語情報生成装置であって、
前記非言語情報は、前記特徴量に応じた、回数及び大きさの少なくとも一方で行動を発現させるように発現部を制御するための情報である、
非言語情報生成装置。
前記特徴量は、時刻情報付きの特徴量であって、前記音声又は前記テキストから抽出された前記特徴量と、前記音声又はテキストの所定単位毎に付与された時刻を表す時刻情報とを含んで構成され、
前記非言語情報は、時刻情報付きの非言語情報である請求項１記載の非言語情報生成装置。
前記行動は、複数種類の行動のうち、前記特徴量に応じて決定される行動である請求項１又は２記載の非言語情報生成装置。
前記行動は、頭部の動き、ハンドジェスチャ、表情、及び上半身の動きの少なくとも１つを含む請求項１乃至請求項３の何れか１項記載の非言語情報生成装置。
前記非言語情報生成部は、付加情報と、前記音声又は前記テキストの前記特徴量と、前記学習済みの非言語情報生成モデルとに基づいて、前記付加情報及び前記特徴量に対応する非言語情報を生成し、
前記非言語情報は、前記付加情報及び前記特徴量に応じた、回数及び大きさの少なくとも一方で行動を発現させるように前記発現部を制御するための情報である、
請求項１乃至請求項４の何れか１項記載の非言語情報生成装置。
前記付加情報は、環境変数、身体的特徴、動作対象の姿勢、対話の内容、及び人間関係の少なくとも１つを含む請求項５記載の非言語情報生成装置。
前記付加情報は、個人属性又は感情を更に含む請求項６記載の非言語情報生成装置。
発声者の音声に対応する音声情報又は前記音声に対応するテキストを表すテキスト情報を取得する学習用情報取得部と、
前記発声者が前記テキストに対応する発声を行った際の、前記発声者の行動又は前記発声者の前記発声の聞き手の行動に関する情報を表す非言語情報であって、前記行動の回数及び大きさの少なくとも一方を含む非言語情報を取得する非言語情報取得部と、
前記学習用情報取得部によって取得された前記音声情報又は前記テキスト情報から、前記音声情報又は前記テキスト情報の特徴量を抽出する学習用特徴量抽出部と、
前記学習用特徴量抽出部によって抽出された前記特徴量に基づいて、前記非言語情報取得部によって取得された前記非言語情報を生成するための、非言語情報生成モデルを学習する学習部と、
を含む非言語情報生成モデル学習装置。
音声又はテキストの特徴量と、学習済みの非言語情報生成モデルとに基づいて、前記特徴量に対応する非言語情報を生成する非言語情報生成部を含む非言語情報生成装置における非言語情報生成方法であって、
前記非言語情報は、前記特徴量に応じた、回数及び大きさの少なくとも一方で行動を発現させるように発現部を制御するための情報である、
非言語情報生成方法。
学習用情報取得部が、発声者の音声に対応する音声情報又は前記音声に対応するテキストを表すテキスト情報を取得し、
非言語情報取得部が、前記発声者が前記テキストに対応する発声を行った際の、前記発声者の行動又は前記発声者の前記発声の聞き手の行動に関する情報を表す非言語情報であって、前記行動の回数及び大きさの少なくとも一方を含む非言語情報を取得し、
学習用特徴量抽出部が、前記学習用情報取得部によって取得された前記音声情報又は前記テキスト情報から、前記音声情報又は前記テキスト情報の特徴量を抽出し、
学習部が、前記学習用特徴量抽出部によって抽出された前記特徴量に基づいて、前記非言語情報取得部によって取得された前記非言語情報を生成するための、非言語情報生成モデルを学習する
非言語情報生成モデル学習方法。
コンピュータを、請求項１乃至請求項７のいずれか１項に記載の非言語情報生成装置、又は請求項８に記載の非言語情報生成モデル学習装置が備える各部として機能させるためのプログラム。