JPWO2020129959A1

JPWO2020129959A1 - コンピュータプログラム、サーバ装置、端末装置及び表示方法

Info

Publication number: JPWO2020129959A1
Application number: JP2020561452A
Authority: JP
Inventors: 暁彦白井
Original assignee: GREE Inc
Current assignee: GREE Inc
Priority date: 2018-12-18
Filing date: 2019-12-17
Publication date: 2021-11-04
Anticipated expiration: 2039-12-17
Also published as: JP2023103335A; US20210312167A1; JP7278307B2; WO2020129959A1

Abstract

【課題】演者の顔が表現することが困難である表情を仮想的なキャラクターに簡易な手法により表現させる、コンピュータプログラム、サーバ装置、端末装置及び表示方法を提供する。【解決手段】一実施形態に係るコンピュータプログラムは、プロセッサ（21）により実行されることにより、第１のセンサ（102）から演者の顔に関するデータを取得し、前記データに基づいて生成された第１のデータを分類器（121）に入力して、前記第１のデータに基づいて予め定められた複数の特定の表情のうちの１つの特定の表情を示す特定表情データを前記分類器から出力させ、前記分類器から出力された前記特定表情データに対応する特定の表情を、表示すべき特定の表情として選択する、ように前記プロセッサを機能させる、ものである。【選択図】図３

Description

本件出願に開示された技術は、動画及びゲーム等において表示される仮想的なキャラクターの表情を演者（ユーザ）の表情に基づいて制御する、コンピュータプログラム、サーバ装置、端末装置及び表示方法に関する。

アプリケーションにおいて表示される仮想的なキャラクターの表情を演者の表情に基づいて制御する技術を利用したサービスとしては、まず「アニ文字」と称されるサービスが知られている（非特許文献１）。このサービスでは、ユーザは、顔の形状の変形を検知するカメラを搭載したスマートフォンを見ながら表情を変化させることにより、メッセンジャーアプリケーションにおいて表示されるアバターの表情を変化させることができる。

さらに、別のサービスとしては、「カスタムキャスト」と称されるサービスが知られている（非特許文献２）。このサービスでは、ユーザは、スマートフォンの画面に対する複数のフリック方向の各々に対して、用意された多数の表情のうちのいずれかの表情を割り当てる。さらに、ユーザは、動画の配信の際には、所望する表情に対応する方向に沿って画面をフリックすることにより、その動画に表示されるアバターにその表情を表現させることができる。

なお、上記非特許文献１及び２は、引用によりその全体が本明細書に組み入れられる。

"iPhone X 以降でアニ文字を使う"、［online］、２０１８年１０月２４日、アップルジャパン株式会社、［２０１８年１１月１２日検索］、インターネット（URL: https://support.apple.com/ja-jp/HT208190） "カスタムキャスト"、［online］、２０１８年１０月３日、株式会社ドワンゴ、［２０１８年１１月１２日検索］、インターネット（URL: https://customcast.jp/）

仮想的なキャラクター（アバター等）を表示させるアプリケーションにおいて、そのキャラクターに、印象的な表情を表現させることが望まれている。印象的な表情は、以下の３つの例を含む。第１の例は、顔の形状が漫画のように非現実的に変形した表情である。この表情は、例えば、両目が顔面から飛び出した表情等を含む。第２の例は、記号、図形及び／又は色が顔に付加された表情である。この表情は、例えば、涙がこぼれた表情、顔が真っ赤になった表情、目を三角形状にして怒った表情、等を含む。第３の例は、喜怒哀楽を含む感情を表現する表情である。印象的な表情は、これらの例に限定されない。

しかしながら、まず、特許文献１に記載された技術は、ユーザ（演者）の顔の形状の変化に追従するように仮想的なキャラクターの表情を変化させるものであるため、ユーザの顔が実際に表現困難な表情を、仮想的なキャラクターの表情に反映させることはできない可能性がある。したがって、特許文献１に記載された技術は、ユーザの顔が実際に表現することが困難な、上記のような印象的な表情を、仮想的なキャラクターの表情において表現することは困難である。

次に、特許文献２に記載された技術にあっては、複数のフリック方向の各々に対して、仮想的なキャラクターに表現させるべき表情を予め割り当てておく必要がある。このため、ユーザ（演者）は用意されている表情をすべて認識している必要がある。さらには、複数のフリック方向に対して割り当てて一度に使用することが可能な表情の総数は、１０に満たない程度に限定され充分なものではない。

したがって、本件出願において開示された幾つかの実施形態は、演者の顔が表現することが困難である表情を仮想的なキャラクターに簡易な手法により表現させる、コンピュータプログラム、サーバ装置、端末装置及び表示方法を提供する。

一態様に係るコンピュータプログラムは、「プロセッサにより実行されることにより、第１のセンサから演者の顔に関するデータを取得し、前記データに基づいて生成された第１のデータを分類器に入力して、前記第１のデータに基づいて予め定められた複数の特定の表情のうちの１つの特定の表情を示す特定表情データを前記分類器から出力させ、前記分類器から出力された前記特定表情データに対応する特定の表情を、表示すべき特定の表情として選択する、ように前記プロセッサを機能させる」ものである。

一態様に係る表示方法は、「コンピュータにより読み取り可能な命令を実行するプロセッサにより実行される表示方法であって、該プロセッサが、前記命令を実行することにより、第１のセンサから演者の顔に関するデータを取得し、前記データに基づいて生成された第１のデータを分類器に入力して、前記第１のデータに基づいて予め定められた複数の特定の表情のうちの１つの特定の表情を示す特定表情データを前記分類器から出力させ、前記分類器から出力された前記特定表情データに対応する特定の表情を、表示すべき特定の表情として選択する」ものである。

一態様に係る端末装置は、「プロセッサを具備し、該プロセッサが、コンピュータにより読み取り可能な命令を実行することにより、第１のセンサから演者の顔に関するデータを取得し、前記データに基づいて生成された第１のデータを分類器に入力して、前記第１のデータに基づいて予め定められた複数の特定の表情のうちの１つの特定の表情を示す特定表情データを前記分類器から出力させ、前記分類器から出力された前記特定表情データに対応する特定の表情を、表示すべき特定の表情として選択する」ものである。

一態様に係るサーバ装置は、「プロセッサを具備し、該プロセッサが、コンピュータにより読み取り可能な命令を実行することにより、第１のセンサから演者の顔に関するデータを受信し、前記データに基づいて生成された第１のデータを分類器に入力して、前記第１のデータに基づいて予め定められた複数の特定の表情のうちの１つの特定の表情を示す特定表情データを前記分類器から出力させ、前記分類器から出力された前記特定表情データに対応する特定の表情を、表示すべき特定の表情として選択する」ものである。

別の態様に係るコンピュータプログラムは、「プロセッサにより実行されることにより、第２のセンサから演者により発せられた発話及び／又は歌唱に関する音声データを取得し、前記音声データに基づいて生成された第２のデータを分類器に入力して、前記第２のデータに基づいて予め定められた複数の特定の表情のうちの１つの特定の表情を示す特定表情データを前記分類器から出力させ、前記分類器から出力された前記特定表情データに対応する特定の表情を、表示すべき特定の表情として選択する、ように前記プロセッサを機能させる」ものである。

別の態様に係る表示方法は、「コンピュータにより読み取り可能な命令を実行するプロセッサにより実行される表示方法であって、該プロセッサが、前記命令を実行することにより、第２のセンサから演者により発せられた発話及び／又は歌唱に関する音声データを取得し、前記音声データに基づいて生成された第２のデータを分類器に入力して、前記第２のデータに基づいて予め定められた複数の特定の表情のうちの１つの特定の表情を示す特定表情データを前記分類器から出力させ、前記分類器から出力された前記特定表情データに対応する特定の表情を、表示すべき特定の表情として選択する」ものである。

別の態様に係る端末装置は、「プロセッサを具備し、該プロセッサが、コンピュータにより読み取り可能な命令を実行することにより、第２のセンサから演者により発せられた発話及び／又は歌唱に関する音声データを取得し、前記音声データに基づいて生成された第２のデータを分類器に入力して、前記第２のデータに基づいて予め定められた複数の特定の表情のうちの１つの特定の表情を示す特定表情データを前記分類器から出力させ、前記分類器から出力された前記特定表情データに対応する特定の表情を、表示すべき特定の表情として選択する」ものである。

別の態様に係るサーバ装置は、「プロセッサを具備し、該プロセッサが、コンピュータにより読み取り可能な命令を実行することにより、第２のセンサから演者により発せられた発話及び／又は歌唱に関する音声データを取得し、前記音声データに基づいて生成された第２のデータを分類器に入力して、前記第２のデータに基づいて予め定められた複数の特定の表情のうちの１つの特定の表情を示す特定表情データを前記分類器から出力させ、前記分類器から出力された前記特定表情データに対応する特定の表情を、表示すべき特定の表情として選択する」ものである。

図１は、一実施形態に係る通信システムの構成の一例を示すブロック図である。図２は、図１に示した端末装置２０（サーバ装置３０）のハードウェア構成の一例を模式的に示すブロック図である。図３は、図１に示した端末装置２０（サーバ装置３０）の機能の一例を模式的に示すブロック図である。図４は、図１に示した端末装置２０（サーバ装置３０）により用いられる「プルチックの感情の輪」の具体例を示す模式図である。図５は、図１に示した通信システム１において行われる動作の一例を示すフロー図である。図６Ａは、図１に示した端末装置２０の表示部１５０に表示されるチュートリアルの一例を模式的に示す図である。図６Ｂは、図１に示した端末装置２０の表示部１５０に表示されるチュートリアルの別の例を模式的に示す図である。図６Ｃは、図１に示した端末装置２０の表示部１５０に表示されるチュートリアルのさらに別の例を模式的に示す図である。図６Ｄは、図１に示した端末装置２０の表示部１５０に表示されるチュートリアルのさらに別の例を模式的に示す図である。図６Ｅは、図１に示した端末装置２０の表示部１５０に表示されるチュートリアルのさらに別の例を模式的に示す図である。図６Ｆは、図１に示した端末装置２０の表示部１５０に表示されるチュートリアルのさらに別の例を模式的に示す図である。図６Ｇは、図１に示した端末装置２０の表示部１５０に表示されるチュートリアルのさらに別の例を模式的に示す図である。図６Ｈは、図１に示した端末装置２０の表示部１５０に表示されるチュートリアルのさらに別の例を模式的に示す図である。図６Ｉは、図１に示した端末装置２０の表示部１５０に表示されるチュートリアルのさらに別の例を模式的に示す図である。図６Ｊは、図１に示した端末装置２０の表示部１５０に表示されるチュートリアルのさらに別の例を模式的に示す図である。図６Ｋは、図１に示した端末装置２０の表示部１５０に表示されるチュートリアルのさらに別の例を模式的に示す図である。図６Ｌは、図１に示した端末装置２０の表示部１５０に表示されるチュートリアルのさらに別の例を模式的に示す図である。図６Ｍは、図１に示した端末装置２０の表示部１５０に表示されるチュートリアルのさらに別の例を模式的に示す図である。図６Ｎは、図１に示した端末装置２０の表示部１５０に表示されるチュートリアルのさらに別の例を模式的に示す図である。図７は、図１に示した端末装置２０に対して演者により演技の間に行われるマニュアル入力の一例を模式的に示す図である。

以下、添付図面を参照して本発明の様々な実施形態を説明する。なお、図面において共通した構成要素には同一の参照符号が付されている。また、或る図面に表現された構成要素が、説明の便宜上、別の図面においては省略されていることがある点に留意されたい。さらにまた、添付した図面が必ずしも正確な縮尺で記載されている訳ではないということに注意されたい。

１．通信システムの例
図１は、一実施形態に係る通信システムの構成の一例を示すブロック図である。図１に示すように、通信システム１は、通信網１０に接続される１又はそれ以上の端末装置２０と、通信網１０に接続される１又はそれ以上のサーバ装置３０と、を含むことができる。なお、図１には、端末装置２０の例として、３つの端末装置２０Ａ〜２０Ｃが例示され、サーバ装置３０の例として、３つのサーバ装置３０Ａ〜３０Ｃが例示されているが、端末装置２０として、これら以外の１又はそれ以上の端末装置２０が通信網１０に接続され得るし、サーバ装置３０として、これら以外の１又はそれ以上のサーバ装置３０が通信網１０に接続され得る。

また、通信システム１は、通信網１０に接続される１又はそれ以上のスタジオユニット４０を含むことができる。なお、図１には、スタジオユニット４０の例として、２つのスタジオユニット４０Ａ及び４０Ｂが例示されているが、スタジオユニット４０として、これら以外の１又はそれ以上のスタジオユニット４０が通信網１０に接続され得る。

「第１の態様」では、図１に示す通信システム１では、演者により操作され所定のアプリケーション（動画配信用のアプリケーション等）を実行する端末装置２０（例えば端末装置２０Ａ）が、端末装置２０Ａに対向する演者の顔に関するデータ及び／又は演者により発せられた発話及び／又は歌唱に関する音声データを取得することができる。さらに、この端末装置２０は、この取得したデータに従って表情を変化させた仮想的なキャラクターの動画を、通信網１０を介してサーバ装置３０（例えばサーバ装置３０Ａ）に送信することができる。さらに、サーバ装置３０Ａは、端末装置２０Ａから受信した仮想的なキャラクターの動画を、通信網１０を介して他の１又はそれ以上の端末装置２０であって所定のアプリケーション（動画視聴用のアプリケーション等）を実行して動画の配信を要求する旨を送信した端末装置２０に配信することができる。

「第２の態様」では、図１に示す通信システム１では、例えばスタジオ等又は他の場所に設置されたサーバ装置３０（例えばサーバ装置３０Ｂ）が、上記スタジオ等又は他の場所に居る演者の顔に関するデータ及び／又は演者により発せられた発話及び／又は歌唱に関する音声データを取得することができる。さらに、このサーバ装置３０は、この取得したデータに従って表情を変化させた仮想的なキャラクターの動画を、通信網１０を介して１又はそれ以上の端末装置２０であって所定のアプリケーション（動画視聴用のアプリケーション等）を実行して動画の配信を要求する旨を送信した端末装置２０に配信することができる。

「第３の態様」では、図１に示す通信システム１では、例えばスタジオ等又は他の場所に設置されたスタジオユニット４０が、上記スタジオ等又は他の場所に居る演者の顔に関するデータ及び／又は演者により発せられた発話及び／又は歌唱に関する音声データを取得することができる。さらに、このスタジオユニット４０は、このデータに従って表情を変化させた仮想的なキャラクターの動画を生成してサーバ装置３０に送信することができる。さらに、サーバ装置３０は、スタジオユニット４０から取得（受信）した動画を、通信網１０を介して１又はそれ以上の端末装置２０であって所定のアプリケーション（動画視聴用のアプリケーション等）を実行して動画の配信を要求する旨を送信した端末装置２０に配信することができる。

通信網１０は、携帯電話網、無線ＬＡＮ、固定電話網、インターネット、イントラネット及び／又はイーサネット（登録商標）等をこれらに限定することなく含むことができるものである。

端末装置２０は、インストールされた特定のアプリケーションを実行することにより、その演者の顔に関するデータ及び／又はその演者により発せられた発話及び／又は歌唱に関する音声データを取得する、という動作等を実行することができる。さらに、この端末装置２０は、この取得したデータに従って表情を変化させた仮想的なキャラクターの動画を、通信網１０を介してサーバ装置３０に送信する、という動作等を実行することができる。或いはまた、端末装置２０は、インストールされたウェブブラウザを実行することにより、サーバ装置３０からウェブページを受信及び表示して、同様の動作を実行することができる。

端末装置２０は、このような動作を実行することができる任意の端末装置であって、スマートフォン、タブレット、携帯電話（フィーチャーフォン）及び／又はパーソナルコンピュータ等を、これらに限定することなく含むことができるものである。

サーバ装置３０は、「第１の態様」では、インストールされた特定のアプリケーションを実行してアプリケーションサーバとして機能することができる。これにより、サーバ装置３０は、各端末装置２０から仮想的なキャラクターの動画を、通信網１０を介して受信し、受信した動画を（他の動画とともに）通信網１０を介して各端末装置２０に配信する、という動作等を実行することができる。或いはまた、サーバ装置３０は、インストールされた特定のアプリケーションを実行してウェブサーバとして機能することにより、各端末装置２０に送信するウェブページを介して、同様の動作を実行することができる。

サーバ装置３０は、「第２の態様」では、インストールされた特定のアプリケーションを実行してアプリケーションサーバとして機能することができる。これにより、サーバ装置３０は、このサーバ装置３０が設置されたスタジオ等又は他の場所に居る演者の顔に関するデータ及び／又は演者により発せられた発話及び／又は歌唱に関する音声データを取得する、という動作等を実行することができる。さらに、サーバ装置３０は、この取得したデータに従って表情を変化させた仮想的なキャラクターの動画を（他の動画とともに）通信網１０を介して各端末装置２０に配信する、という動作等を実行することができる。或いはまた、サーバ装置３０は、インストールされた特定のアプリケーションを実行してウェブサーバとして機能することにより、各端末装置２０に送信するウェブページを介して、同様の動作を実行することができる。さらにまた、サーバ装置３０は、インストールされた特定のアプリケーションを実行してアプリケーションサーバとして機能することができる。これにより、サーバ装置３０は、スタジオ等又は他の場所に設置されたスタジオユニット４０からこのスタジオ等に居る演者の顔に関するデータ及び／又は演者により発せられた発話及び／又は歌唱に関する音声データに従って表情を変化させた仮想的なキャラクターの動画を取得（受信）する、という動作等を実行することができる。さらに、サーバ装置３０は、この動画を通信網１０を介して各端末装置２０に配信する、という動作等を実行することができる。

スタジオユニット４０は、インストールされた特定のアプリケーションを実行する情報処理装置として機能することができる。これにより、スタジオユニット４０は、このスタジオユニット４０が設置されたスタジオ等又は他の場所に居る演者の顔に関するデータ及び／又は演者により発せられた発話及び／又は歌唱に関する音声データを取得することができる。さらに、スタジオユニット４０は、この取得したデータに従って表情を変化させた仮想的なキャラクターの動画を（他の動画とともに）通信網１０を介してサーバ装置３０に送信することができる。

２．各装置のハードウェア構成
次に、端末装置２０及びサーバ装置３０の各々が有するハードウェア構成の一例について説明する。
２−１．端末装置２０のハードウェア構成
各端末装置２０のハードウェア構成例について図２を参照して説明する。図２は、図１に示した端末装置２０（サーバ装置３０）のハードウェア構成の一例を模式的に示すブロック図である（なお、図２において、括弧内の参照符号は、後述するように各サーバ装置３０に関連して記載されたものである。）

図２に示すように、各端末装置２０は、主に、中央処理装置２１と、主記憶装置２２と、入出力インタフェイス装置２３と、入力装置２４と、補助記憶装置２５と、出力装置２６と、を含むことができる。これら装置同士は、データバス及び／又は制御バスにより接続されている。

中央処理装置２１は、「ＣＰＵ」と称されるものであり、主記憶装置２２に記憶されている命令及びデータに対して演算を行い、その演算の結果を主記憶装置２２に記憶させるものである。さらに、中央処理装置２１は、入出力インタフェイス装置２３を介して、入力装置２４、補助記憶装置２５及び出力装置２６等を制御することができる。端末装置２０は、１又はそれ以上のこのような中央処理装置２１を含むことが可能である。

主記憶装置２２は、「メモリ」と称されるものであり、入力装置２４、補助記憶装置２５及び通信網１０等（サーバ装置３０等）から、入出力インタフェイス装置２３を介して受信した命令及びデータ、並びに、中央処理装置２１の演算結果を記憶するものである。主記憶装置２２は、ＲＡＭ（ランダムアクセスメモリ）、ＲＯＭ（リードオンリーメモリ）及び／又はフラッシュメモリ等をこれらに限定することなく含むことができる。

補助記憶装置２５は、主記憶装置２２よりも大きな容量を有する記憶装置である。上記特定のアプリケーションやウェブブラウザ等を構成する命令及びデータ（コンピュータプログラム）を記憶しておき、中央処理装置２１により制御されることにより、これらの命令及びデータ（コンピュータプログラム）を入出力インタフェイス装置２３を介して主記憶装置２２に送信することができる。補助記憶装置２５は、磁気ディスク装置及び／又は光ディスク装置等をこれらに限定することなく含むことができる。

入力装置２４は、外部からデータを取り込む装置であり、タッチパネル、ボタン、キーボード、マウス及び／又はセンサ等をこれらに限定することなく含むものである。センサは、後述するように、１又はそれ以上のカメラ等を含む第１のセンサ、及び／又は、１又はそれ以上のマイク等を含む第２のセンサをこれらに限定することなく含むことができる。

出力装置２６は、ディスプレイ装置、タッチパネル及び／又はプリンタ装置等をこれらに限定することなく含むことができる。

このようなハードウェア構成にあっては、中央処理装置２１が、補助記憶装置２５に記憶された特定のアプリケーションを構成する命令及びデータ（コンピュータプログラム）を順次主記憶装置２２にロードし、ロードした命令及びデータを演算することにより、入出力インタフェイス装置２３を介して出力装置２６を制御し、或いはまた、入出力インタフェイス装置２３及び通信網１０を介して、他の装置（例えばサーバ装置３０及び他の端末装置２０等）との間で様々な情報の送受信を行うことができる。

これにより、端末装置２０は、インストールされた特定のアプリケーションを実行することにより、その演者の顔に関するデータ及び／又はその演者により発せられた発話及び／又は歌唱に関する音声データを取得し、取得したデータに従って表情を変化させた仮想的なキャラクターの動画を、通信網１０を介してサーバ装置３０に送信する、という動作等（後に詳述する様々な動作を含む）を実行することができる。或いはまた、端末装置２０は、インストールされたウェブブラウザを実行することにより、サーバ装置３０からウェブページを受信及び表示して、同様の動作を実行することができる。

なお、端末装置２０は、中央処理装置２１に代えて又は中央処理装置２１とともに、１又はそれ以上のマイクロプロセッサ、及び／又は、グラフィックスプロセッシングユニット（ＧＰＵ）を含むものであってもよい。

２−２．サーバ装置３０のハードウェア構成
各サーバ装置３０のハードウェア構成例について同じく図２を参照して説明する。各サーバ装置３０のハードウェア構成としては、例えば、上述した各端末装置２０のハードウェア構成と同一のものを用いることが可能である。したがって、各サーバ装置３０が有する構成要素に対する参照符号は、図２において括弧内に示されている。

図２に示すように、各サーバ装置３０は、主に、中央処理装置３１と、主記憶装置３２と、入出力インタフェイス装置３３と、入力装置３４と、補助記憶装置３５と、出力装置３６と、を含むことができる。これら装置同士は、データバス及び／又は制御バスにより接続されている。

中央処理装置３１、主記憶装置３２、入出力インタフェイス装置３３、入力装置３４、補助記憶装置３５及び出力装置３６は、それぞれ、上述した各端末装置２０に含まれる、中央処理装置２１、主記憶装置２２、入出力インタフェイス装置２３、入力装置２４、補助記憶装置２５及び出力装置２６と略同一なものとすることができる。

このようなハードウェア構成にあっては、中央処理装置３１が、補助記憶装置３５に記憶された特定のアプリケーションを構成する命令及びデータ（コンピュータプログラム）を順次主記憶装置３２にロードし、ロードした命令及びデータを演算することにより、入出力インタフェイス装置３３を介して出力装置３６を制御し、或いはまた、入出力インタフェイス装置３３及び通信網１０を介して、他の装置（例えば各端末装置２０等）との間で様々な情報の送受信を行うことができる。

これにより、サーバ装置３０は、「第１の態様」では、インストールされた特定のアプリケーションを実行してアプリケーションサーバとして機能することができる。これにより、サーバ装置３０は、各端末装置２０から仮想的なキャラクターの動画を、通信網１０を介して受信し、受信した動画を（他の動画とともに）通信網１０を介して各端末装置２０に配信する、という動作等（後に詳述する様々な動作を含む）を実行することができる。或いはまた、サーバ装置３０は、インストールされた特定のアプリケーションを実行してウェブサーバとして機能することにより、各端末装置２０に送信するウェブページを介して、同様の動作を実行することができる。

また、サーバ装置３０は、「第２の態様」では、インストールされた特定のアプリケーションを実行してアプリケーションサーバとして機能することができる。これにより、サーバ装置３０は、このサーバ装置３０が設置されたスタジオ等又は他の場所に居る演者の顔に関するデータ及び／又は演者により発せられた発話及び／又は歌唱に関する音声データを取得するという動作等を実行することができる。さらに、サーバ装置３０は、この取得したデータに従って表情を変化させた仮想的なキャラクターの動画を（他の動画とともに）通信網１０を介して各端末装置２０に配信する、という動作等（後に詳述する様々な動作を含む）を実行することができる。或いはまた、サーバ装置３０は、インストールされた特定のアプリケーションを実行してウェブサーバとして機能することにより、各端末装置２０に送信するウェブページを介して、同様の動作を実行することができる。

さらにまた、サーバ装置３０は、「第３の態様」では、インストールされた特定のアプリケーションを実行してアプリケーションサーバとして機能することができる。これにより、サーバ装置３０は、スタジオユニット４０が設置されたスタジオ等又は他の場所に居る演者の顔に関するデータ及び／又は演者により発せられた発話及び／又は歌唱に関する音声データに従って表情を変化させた仮想的なキャラクターの動画を（他の動画とともに）通信網１０を介してスタジオユニット４０から取得（受信）するという動作等を実行することができる。さらに、サーバ装置３０は、この画像を通信網１０を介して各端末装置２０に配信する、という動作等（後に詳述する様々な動作を含む）を実行することもできる。

なお、サーバ装置３０は、中央処理装置３１に代えて又は中央処理装置３１とともに、１又はそれ以上のマイクロプロセッサ、及び／又は、グラフィックスプロセッシングユニット（ＧＰＵ）を含むものであってもよい。

２−３．スタジオユニット４０のハードウェア構成
スタジオユニット４０は、パーソナルコンピュータ等の情報処理装置により実装可能なものであって、図示はされていないが、上述した端末装置２０及びサーバ装置３０と同様に、主に、中央処理装置と、主記憶装置と、入出力インタフェイス装置と、入力装置と、補助記憶装置と、出力装置と、を含むことができる。これら装置同士は、データバス及び／又は制御バスにより接続されている。

スタジオユニット４０は、インストールされた特定のアプリケーションを実行して情報処理装置として機能することができる。これにより、スタジオユニット４０は、このスタジオユニット４０が設置されたスタジオ等又は他の場所に居る演者の顔に関するデータ及び／又は演者により発せられた発話及び／又は歌唱に関する音声データを取得することができる。さらに、スタジオユニット４０は、この取得したデータに従って表情を変化させた仮想的なキャラクターの動画を（他の動画とともに）通信網１０を介してサーバ装置３０に送信することができる。

３．各装置の機能
次に、端末装置２０及びサーバ装置３０の各々が有する機能の一例について説明する。
３−１．端末装置２０の機能
端末装置２０の機能の一例について図３を参照して説明する。図３は、図１に示した端末装置２０（サーバ装置３０）の機能の一例を模式的に示すブロック図である（なお、図３において、括弧内の参照符号は、後述するようにサーバ装置３０に関連して記載されたものである。）。

図３に示すように、端末装置２０は、演者の顔に関するデータ及び／又は演者により発せられた発話及び／又は歌唱に関する音声データをセンサから取得する取得部１００と、取得部１００により取得されたデータに対して各種の演算処理を実行して第１のデータ及び／又は第２のデータを生成する処理部１１０と、処理部１１０により生成された第１のデータ及び／又は第２のデータに基づいて、予め定められた複数の特定の表情のうちのいずれかの特定の表情を、表示すべき特定の表情として選択する表情制御部１２０と、を含むことができる。

さらに、端末装置２０は、表情制御部１２０により選択された特定の表情に基づいて、仮想的なキャラクターの動画（アニメーション）を生成する動画生成部１３０と、動画生成部１３０により生成された動画を記憶する記憶部１４０と、記憶部１４０により記憶された動画等を表示する表示部１５０と、記憶部１４０により記憶された動画等を、通信網１０を介してサーバ装置３０に送信する通信部１６０と、を含むことができる。

（１）取得部１００
取得部１００は、演者の顔に関するデータを取得する１又はそれ以上の第１のセンサ１０２と、演者により発せられた発話及び／又は歌唱に関する音声データを取得する１又はそれ以上の第２のセンサ１０４と、を含むことができる。

第１のセンサ１０２は、好ましい実施形態では、可視光線を撮像するＲＧＢカメラと、近赤外線を撮像する近赤外線カメラと、を含むことができる。このようなカメラとしては、例えばｉｐｈｏｎｅＸ（登録商標）のトゥルーデプス（ＴｒｕｅＤｅｐｔｈ）カメラに含まれたものを用いることが可能である。第２のセンサ１０４は、音声を記録するマイクロフォンを含むことができる。

まず、第１のセンサ１０２に関して、取得部１００は、演者の顔に近接して配置された第１のセンサ１０２を用いて演者の顔を撮像する。これにより、取得部１００は、ＲＧＢカメラにより取得された画像をタイムコードに対応付けて単位時間にわたって記録したデータ（例えばＭＰＥＧファイル）を生成することができる。タイムコードは、取得した時間を示すコードである。さらに、取得部１００は、近赤外線カメラにより取得された所定数の深度を示す数値を上記タイムコードに対応付けて単位時間にわたって記録したデータを生成することができる。所定数は、例えば５１個である。深度を示す数値は、例えば浮動小数点の数値である。取得部１００によって生成される上記のデータは、例えばＴＳＶファイルであり、ＴＳＶファイルは、データ間をタブで区切って複数のデータを記録する形式のファイルである。

近赤外線カメラに関して、具体的には、ドットプロジェクタがドット（点）パターンを含む赤外線レーザーを演者の顔に放射し、近赤外線カメラが、演者の顔に投影され反射した赤外線ドットを捉え、このように捉えた赤外線ドットの画像を生成する。取得部１００は、予め登録されているドットプロジェクタにより放射されたドットパターンの画像と、近赤外線カメラにより捉えられた画像とを比較する。これにより、取得部１００は、両画像における各ポイントにおける位置のずれを用いて、各ポイントの深度を算出することができる。上述したポイントは、特徴点と称されることがある。両画像におけるポイントは、例えば５１個である。ポイントの深度は、ポイントと近赤外線カメラとの距離である。取得部１００は、このように算出された深度を示す数値を、上記のようにタイムコードに対応付けて単位時間にわたって記録したデータを生成することができる。

次に、第２のセンサ１０４に関して、取得部１００は、演者に近接して配置された第２のセンサ１０４を用いて演者により発せられた発話及び／又は歌唱に関する音声を取得する。これにより、取得部１００は、タイムコードに対応付けて単位時間にわたって記録したデータ（例えばＭＰＥＧファイル）を生成することができる。一実施形態では、取得部１００は、第１のセンサ１０２を用いて演者の顔に関するデータを取得することと同時に、第２のセンサ１０４を用いて演者により発せられた発話及び／又は歌唱に関する音声データを取得することができる。この場合には、取得部１００は、ＲＧＢカメラにより取得された画像と、第２のセンサ１０４を用いて演者により発せられた発話及び／又は歌唱に関する音声データとに基づいて、同一のタイムコードに対応付けて単位時間にわたって記録したデータを生成することができる。生成されるデータは、例えばＭＰＥＧファイルである。

取得部１００は、このように生成した、演者の顔に関するデータ（ＭＰＥＧファイル及びＴＳＶファイル等）、及び／又は、演者により発せられた発話及び／又は歌唱に関する音声データ（ＭＰＥＧファイル等）を、処理部１１０、分類器１２１、及び／又は、動画生成部１３０に出力することができる。

なお、ここでは、第１のセンサ１０２がＲＧＢカメラ及び赤外線カメラを含む場合について説明したが、第１のセンサ１０２は、例えば、以下の（Ａ）、（Ｂ）及び（Ｃ）のうちのいずれかを含むものであってもよい。
（Ａ）赤外線レーザーにより放射され演者の顔に反射した赤外線を検出するカメラ
（Ｂ）可視光線を撮像する複数のＲＧＢカメラ
（Ｃ）可視光線を撮像する単一のカメラ。
上記（Ａ）の場合には、取得部１００は、上述したものと同様の手法により、演者の顔における各特徴点について深度を算出することができる。上記（Ｂ）の場合には、取得部１００は、複数のＲＧＢカメラにより撮像された複数の画像を用いて、演者の顔における各特徴点について奥行（深度）を計算することができる。上記（Ｃ）の場合には、取得部１００は、単一のカメラにより撮像された画像から、演者の顔における各特徴点の奥行（深度）を、ディープラーニング等を利用して算出することができる。また、上記（Ｃ）の場合には、取得部１００は、単一のカメラにより撮像された画像に対する分析処理（画像処理等）により、演者の顔における各特徴点の奥行（深度）を算出してもよい。

（２）処理部１１０
処理部１１０は、取得部１００により取得された演者の顔に関するデータに基づいて第１のデータを生成することができる。また、処理部１１０は、取得部１００により取得された演者により発せられた発話及び／又は歌唱に関する音声データに基づいて第２のデータを生成することができる。

具体的には、まず第１のデータに関して、処理部１１０は、取得部１００から受信したデータを用いて、演者の顔の各特徴点について、その特徴点の時間方向の移動量を算出することができる。なお、取得部１００から受信したデータには、例えば、ＴＳＶファイル及びこれに対応付けられたタイムコードが含まれ得る。また、上記特徴点の時間方向の移動量は、上記特徴点の所定の時間区間の間における移動量であり得る。このように算出した各特徴点の時間方向の移動量を示すデータを第１のデータとして生成することができる。

さらに、第２のデータに関して、処理部１１０は、取得部１００から受信した音声データ、例えばＭＰＥＧファイルとこれに対応付けられたタイムコードとを用いて、各時間におけるラウドネス、音圧、話速、及び／又は、フォルマント等に関するデータを算出することができる。これに代えて又はこれに加えて、処理部１００は、取得部１００から受信した音声データを用いて、自然言語処理を実行することにより、音声データから、各時間における単語、語尾及び／又は感嘆語等を抽出することができる。なお、取得部１００から受信した音声データには、例えばＭＰＥＧファイル及びこれに対応付けられたタイムコードが含まれ得る。処理部１００は、このように抽出した単語、語尾及び／又は感嘆語等を示すデータを第２のデータとして生成することができる。

処理部１１０は、このように生成した第１のデータ及び／又は第２のデータを表情制御部１２０（の分類器１２１）に出力することができる。

（３）表情制御部１２０
表情制御部１２０は、図３に示すように、主に、分類器１２１と、表情選択部１２２と、マニュアル入力部１２３と、教師データ記憶部１２４と、ユーザ設定調整部１２５と、ユーザプロファイル記憶部１２６と、を含むことができる。

分類器１２１は、入力データに対応する出力データを生成するものである。分類器１２１は、入力データに対応する教師データ（ターゲット）を予め与えられており、入力データに対応する出力データと教師データとを比較し、両者が同一の値となるようにルールを作成又は変更することができるものである。分類器１２１は、例えばＰｙｔｈｏｎ等のプログラミング言語により作成され得るものである。分類器１２１によって生成されるものは、学習モデル（学習済みモデル）であってもよい。分類器１２１により生成された学習モデル（学習済みモデル）は、入力データを分類することが可能なアルゴリズム（プログラム）と、各種のパラメータ（データセット）と、を含む。分類器１２１は人工知能であってもよい。

一実施形態では、分類器１２１は、（処理部１１０から受信した）第１のデータ、第２のデータ、（取得部１００から受信した）演者の顔に関するデータ、演者により発せられた発話及び／又は歌唱に関する音声データ、のうちの少なくとも１つのデータを入力する。これにより、分類器１２１は、予め定められた複数の特定の表情のうちのいずれかの特定の表情を示すデータ（「特定表情データ」）を、表情選択部１２２に出力することができる。分類器１２１の詳細については後述する。

マニュアル入力部１２３は、表示部１５０に表示される動画を見ながら演じている演者から、「特定表情指定データ」を、タッチパネル、ボタン及びキーボード等のユーザインタフェイスを介して入力する。「特定表情指定データ」とは、現在表示部１５０に表示されている仮想的なキャラクターの表情に対して、予め定められた複数の特定の表情のうちのいずれかの表情を表示部１５０に表示すべき表情として指定するデータである。マニュアル入力部１２３は、特定表示指定データを表情選択部１２２に出力する。

また、マニュアル入力部１２３は、この特定表示指定データを、演者から特定表情指定データが入力された時点に対応する第１のデータ及び／又は第２のデータに対する教師データ（ターゲット）として、教師データ記憶部１２４に記憶させることができる。

表情選択部１２２は、マニュアル入力部１２３からの特定表示指定データ及び分類器１２１からの特定表情データ等を含むデータに基づいて、予め定められた複数の特定の表情のうちいずれかの特定の表情を、動画において表示すべき表情として選択することができる。例えば、表情選択部１２２は、分類器１２１からの特定表情データに対応する特定の表情を、動画において表示すべき表情として選択することができる。一方、分類器１２１からの特定表情データにおいて特定の表情が何ら指定されていない場合がある。例えば、予め定められた複数の特定の表情の中には該当するものがないために「その他の表情」等が指定されている場合がある。この場合には、表情選択部１２２は、その他の表情を動画において表示すべき表情として選択することができる。

但し、表情選択部１２２は、第１のデータ及び／又は第２のデータに対応して分類器１２１から特定表情データが出力された場合であっても、第１のデータ及び／又は第２のデータに対応して演者からマニュアル入力部１２３を介して特定表情指定データを受信することがある。この場合には、表情選択部１２２は、特定表情指定データに対応する特定の表情を、動画において表示すべき表情として選択することができる。表情選択部１２２は、最終的に選択された特定の表情（又はその他の表情）を示すデータを動画生成部１３０に出力する。以下、このデータを「最終指定データ」ということがある。なお、表情選択部１２２により用いられるアルゴリズムの詳細については後述する。

ユーザ設定調整部１２５は、教師データ記憶部１２４に記憶された、第１のデータ及び／又は第２のデータに対応する教師データを、分類器１２１に適用することができる。また、ユーザ設定調整部１２５は、分類器１２１により生成された学習モデル（学習済みのモデル）を、演者のための学習モデルとしてユーザプロファイル記憶部１２６に記憶させることができる。さらにまた、ユーザ設定調整部１２５は、通信網１０を介してサーバ装置３０から受信した予め用意された学習モデル（学習済みモデル）を、ユーザプロファイル記憶部１２６に記憶させた後、ユーザプロファイル記憶部１２６から読み出して分類器１２１に適用することも可能である。

（４）動画生成部１３０、記憶部１４０、表示部１５０及び通信部１６０
動画生成部１３０は、表情選択部１２２からの最終的に選択された特定の表情を示すデータ（「最終指定データ」）、及び、取得部１００からの、演者の顔に関するデータ、及び／又は、演者により発せられた発話及び／又は歌唱に関する音声データ等、に基づいて、仮想的なキャラクターの動画を生成することができる。仮想的なキャラクターの動画自体については、動画生成部１３０は、図示しないキャラクターデータ記憶部に記憶された様々な情報（例えば、ジオメトリ情報、ボーン情報、テクスチャ情報、シェーダ情報及びブレンドシェイプ情報等）を用いて、図示しないレンダリング部にレンダリングを実行させることにより、仮想的なキャラクターの動画を生成することができる。なお、キャラクターデータ記憶部及びレンダリング部は、動画生成部１３０に含まれていてもよいし、動画生成部１３０の外部にあってもよい。

例えば、動画生成部１３０は、表情選択部１２２からの「最終指定データ」が特定の表情を指定している場合には、このように指定された表情を用いて仮想的なキャラクターの表情を変化させた動画を生成することができる。
一方、表情選択部１２２からの「最終指定データ」がその他の表情を指定している場合には、動画生成部１３０は、取得部１００からの演者の顔に関するデータ（演者の顔における各特徴点の深度に関するデータ）を用いて仮想的なキャラクターの表情を変化させた動画（例えば、仮想的なキャラクターの表情が演者の口及び両目の動きに同期して変化した動画、すなわち、仮想的なキャラクターの表情が演者の顔に対してリップシンク及び視線追従して変化した動画）を生成することができる。

動画生成部１３０は、生成した動画を格納したファイル（例えばＭＰＥＧ等のファイル）を記憶部１４０に記憶させることができる。

表示部１５０は、例えば、タッチパネル、ディスプレイ等を含むものであり、記憶部１４０に記憶された動画を格納したファイルを表示することができる。

通信部１６０は、記憶部１４０に記憶された動画を格納したファイルを、通信網１０を介してサーバ装置３０に送信することができる。また、通信部１６０は、通信網１０を介してサーバ装置３０から受信した予め生成された学習モデル（学習済みモデル）等を受信して、記憶部１４０及び／又はユーザプロファイル記憶部１２６に記憶させることができる。

上述した各部の動作は、演者の端末装置２０にインストールされた所定のアプリケーション（例えば動画配信用のアプリケーション）がこの端末装置２０により実行されることにより、この端末装置２０により実行され得るものである。

３−２．サーバ装置３０の機能
サーバ装置３０の機能の具体例について同じく図３を参照して説明する。サーバ装置３０の機能としては、例えば、上述した端末装置２０の機能の一部を用いることが可能である。したがって、サーバ装置３０が有する構成要素に対する参照符号は、図３において括弧内に示されている。

まず、上述した「第２の態様」では、サーバ装置３０は、以下に述べる相違点を除き、取得部２００〜通信部２６０として、それぞれ、端末装置２０に関連して説明した取得部１００〜通信部１６０と同一のものを有するものとすることができる。

但し、この「第２の態様」では、サーバ装置３０は、スタジオ等又は他の場所に配置され、複数の演者（ユーザ）により用いられることが想定され得る。したがって、教師データ記憶部２２４は、複数の演者の各々に対応付けて、第１のデータ及び／又は第２のデータに対応する教師データを記憶することができる。このように記憶された各演者に対応する教師データは、ユーザ設定調整部２２５により、その演者に対応付けて分類器２２１に適用され得る。

さらに、取得部２００を構成する第１のセンサ２０２及び第２のセンサ２０４は、サーバ装置３０が設置されるスタジオ等又は他の場所において、演者が演技を行う空間において演者に対向して配置され得るものである。同様に、表示部２５０を構成するディスプレイやタッチパネル等もまた、演者が演技を行う空間において演者に対向して又は演者の近くに配置され得るものである。

また、同様に、ユーザプロファイル記憶部２２６は、複数の演者の各々に対応付けて学習モデル（学習済みモデル）を記憶することができる。このように記憶された各演者に対応する学習モデルは、ユーザ設定調整部２２５により、その演者に対応付けて分類器２２１に適用され得る。

或いはまた、ユーザ設定調整部２２５は、或る演者に対応付けて教師データ記憶部２２４に記憶された教師データを、別の演者に対応付けて分類器２２１に適用してもよい。同様に、ユーザ設定調整部２２５は、或る演者に対応付けてユーザプロファイル記憶部２２６に記憶された学習モデル（学習済みモデル）を、別の演者に対応付けて分類器２２１に適用してもよい。

通信部２６０は、各演者に対応付けて記憶部２４０に記憶された動画を格納したファイルを、通信網１０を介して複数の端末装置２０に配信することができる。これら複数の端末装置２０の各々は、インストールされた所定のアプリケーション（例えば動画視聴用のアプリケーション）を実行して、サーバ装置３０に対して所望の動画の配信を要求する信号（リクエスト信号）を送信することにより、この信号に応答したサーバ装置３０から所望の動画を当該所定のアプリケーションを介して受信することができる。

なお、記憶部２４０に記憶される情報（動画を格納したファイル等）は、当該サーバ装置３０に通信網１０を介して通信可能な１又はそれ以上の他のサーバ装置（ストレージ）３０に記憶されるようにしてもよい。

また、通信部２６０は、複数の端末装置２０から通信網１０を介して学習モデル（学習済みモデル）等を受信して、記憶部２４０及び／又はユーザプロファイル記憶部２２６に記憶させることができる。このように記憶された学習モデル（学習済みモデル）等は、このサーバ装置３０において、ユーザ設定調整部２２５により、複数の演者の間で共有されるようにしてもよいし、通信部２６０により、通信網１０を介して、任意の端末装置２０に送信され共有されてもよい。

一方、上述した「第１の態様」では、上記「第２の態様」において用いられた取得部２００〜動画生成部２３０をオプションとして用いることができる。通信部２６０は、上記のように動作することに加えて、各端末装置２０により送信され通信網１０から受信した、動画を格納したファイルを、記憶部２４０に記憶させた上で、複数の端末装置２０に対して配信することができる。

他方、「第３の態様」では、上記「第２の態様」において用いられた取得部２００〜動画生成部２３０をオプションとして用いることができる。通信部２６０は、上記のように動作することに加えて、スタジオユニット４０により送信され通信網１０から受信した、動画を格納したファイルを、記憶部２４０に記憶させた上で、複数の端末装置２０に対して配信することができる。

３−３．スタジオユニット４０の機能
スタジオユニットは、図３に示した端末装置２０又はサーバ装置３０と同様の構成を有することにより、端末装置２０又はサーバ装置３０と同様の動作を行うことが可能である。但し、通信部１６０（２６０）は、動画生成部１３０（２３０）により生成され記憶部１４０（２４０）に記憶された動画を、通信網１０を介してサーバ装置３０に送信することができる。

特に、取得部１００（２００）を構成する第１のセンサ１０２（２０２）及び第２のセンサ１０４（２０４）は、スタジオユニット４０が設置されるスタジオ等又は他の場所において、演者が演技を行う空間において演者に対向して配置され得るものである。同様に、表示部１５０（２５０）を構成するディスプレイやタッチパネル等もまた、演者が演技を行う空間において演者に対向して又は演者の近くに配置され得るものである。

４．分類される複数の表情の例
次に、端末装置２０に設けられた分類器１２１（又はサーバ装置３０に設けられた分類器２２１）により分類され得る予め定められた複数の特定の表情の具体例について説明する。

予め定められた複数の特定の表情は、一実施形態では、主に、喜怒哀楽を含む感情を表現する表情と、顔の形状が非現実的に変形した表情と、顔に記号、図形及び／又は色が付加された表情と、をこれらに限定することなく含むことができる。また、一実施形態では、予め定められた複数の特定の表情は、このように列挙した複数の表情の組み合わせとすることが可能なものである。

４−１．喜怒哀楽を含む感情を表現する表情
喜怒哀楽を含む感情を表現する表情は、感情の内容及び感情の強弱に応じて変化し得るものである。喜怒哀楽を含む感情を表現する表情の具体例が、後述する図６Ｆ、図６Ｇ、図６Ｉ、図６Ｊ、図６Ｍ及び図６Ｎ等に示されている。

喜怒哀楽を含む感情を表現する表情は、言語及び文化に依存しない心理空間にマッピングされたユーザインタフェイスに基づいて表現され得るものであり、例えば、「プルチックの感情の輪」により代表されるユーザインタフェイスに基づいて表現され得るものである。「プルチックの感情の輪」の具体例が図４に示される。

一実施形態では、図４に例示される「プルチックの感情の輪」に含まれる複数の要素の各々に対して、動画に表示されるべき仮想的なキャラクターの表情（動画）が用意され得る。なお、図４には、複数の要素として、例えば、２４個（＝４軸×６個）の要素が示されている。さらに、この「プルチックの感情の輪」を模したユーザインタフェイスが（例えば演者による要求に応じて）表示部１５０（２５０）に表示され得る。

演者は、演技中に、表示部１５０（２５０）に「プルチックの感情の輪」を模したユーザインタフェイスが表示されている状態（又は表示されていない状態）において、表示させたい要素（表情）に対応する領域をタップ又はクリック等することにより、表示させたい特定の表情を指定することができる。なお、表示部１５０（２５０）は、タッチパネル等であり得る。一実施形態では、２４個の要素は、各軸（軸３０１〜軸３０４の全４軸の各々）に対して例えば、「−３」,「−２」，「−１」，「０」，「１」，「２」，「３」を割り当てておく。「０」は原点である。これにより、演者は、２４個の要素のうちの所望の要素を指定することができる。例えば、軸３０３については、「苛立ち」、「怒り」、「激怒」、「恐怖」、「恐れ」及び「不安」に対して、それぞれ、「−３」、「−２」、「−１」、「１」、「２」及び「３」を割り当てることができる。

或いはまた、演者は、演技中に、表示部１５０（２５０）に「プルチックの感情の輪」を模したユーザインタフェイスが表示されている状態（又は表示されていない状態）において、スワイプ操作をすることにより、スワイプ操作の方向及び移動量に従って、表示させたい特定の表情を指定することができる。例えば、演者が、図４に示された軸３０２に沿って、原点からどちらの方向にどれだけの量だけスワイプ操作を行ったかに従って、「敬愛」（移動量１）、「信頼」（移動量２）、「容認」（移動量３）、「強い嫌悪」（移動量−１）、「嫌悪」（移動量−２）及び「うんざり」（移動量−３）を指定することができる。

このように喜怒哀楽を含む感情を表現する複数の表情のうち、演者に指定された表情を示すデータが、上述したマニュアル入力部１２３（２２３）から表情選択部１２２（２２２）に対して「特定表情指定データ」として出力され得る。

４−２．顔の形状が非現実的に変形した表情
顔の形状が非現実的に変形した表情は、顔の一部が現実的にはあり得ない態様で（例えば漫画のように）変形した表情を含むものであり、その一例が図７（の「変形顔」）に示されている。

一実施形態では、顔の形状が非現実的に変形した表情は、複数用意されるものとすることができる。演者は、表示部１５０（２５０）（タッチパネル等）に、これら複数の表情を特定する情報（ユーザインタフェイス）が表示されている状態（又は表示されていない状態）において、スワイプ操作をすることにより、スワイプ操作の方向（又は、スワイプ操作の方向及び移動量）に従って、表示させたい特定の表情を指定することができる。

このように顔の形状が非現実的に変形した複数の表情のうち、演者に指定された表情を示すデータが、上述したマニュアル入力部１２３（２２３）から表情選択部１２２（２２２）に対して「特定表情指定データ」として出力され得る。

４−３．顔に記号、図形及び／又は色が付加された表情
顔に記号、図形及び／又は色が付加された表情は、例えば（１）「＃」及び「＞＜」等の記号、（２）汗、星及び青筋等を模した図形、（３）赤らみを示す赤色等が、顔に付加された表情を含むものであり、その具体例が、図６Ｃ、図６Ｄ、図６Ｅ、図６Ｇ、図６Ｈ及び図６Ｊ等に示されている。

一実施形態では、顔に記号、図形及び／又は色が付加された表情についても、顔の形状が非現実的に変形した複数の表情と同様に、演者は、表示部１５０（２５０）に、これら複数の表情を特定する情報（ユーザインタフェイス）が表示されている状態（又は表示されていない状態）において、スワイプ操作をすることにより、スワイプ操作の方向（又は、スワイプ操作の方向及び移動量）に従って、表示させたい特定の表情を指定することができる。

このように顔に記号、図形及び／又は色が付加された表情のうち、演者に指定された表情を示すデータが、上述したマニュアル入力部１２３（２２３）から表情選択部１２２（２２２）に対して「特定表情指定データ」として出力され得る。

５．表情選択部１２２（２２２）により用いられるアルゴリズムの例
次に、端末装置２０における表情選択部１２２（サーバ装置３０における表情選択部２２２）により用いられるアルゴリズムの一例について説明する。

表情選択部１２２は、例えば、以下に例示する第１の処理〜第５の処理を実行することができる。表情選択部１２２は、第１の処理〜第５の処理の各々に対応する以下に説明する所定の条件が満たされた場合に、それぞれ、第１の処理〜第５の処理を実行することができる。表情選択部１２２は、第１の処理〜第５の処理のうちの複数の処理を実行することができる場合には、第１の処理〜第５の処理という優先順位（第１の処理に対する優先順位が最も高く、第５の処理に対する優先順位が最も低い）に従って、上記複数の処理のいずれかを実行することができる。なお、表情選択部１２２は、以下に例示する第１の処理〜第５の処理のうちの必ずしもすべての処理を実行する必要はなく、第１の処理〜第５の処理のうちの少なくとも１つの処理を実行するものであってもよい。

（１）第１の処理（「顔の赤らみ」のような顔のベースカラー）
第１の処理は、例えば、仮想的なキャラクターの表情に顔の赤らみといったような生理現象を模倣させるために、仮想的なキャラクターの顔のベースカラーを設定する処理である。

表情選択部１２２は、非言語フィードバック情報に基づいて演者の生理現象が直接的に又は間接的に検知された場合に、第１の処理を実行する。なお、非言語フィードバック情報に基づいて演者の生理現象を検知する方法としては、例えば、日本国特許出願第２０１８−１６４５２０（本文献は引用によりその全体が本明細書に組み入れられる）に開示された各種の方法を用いることが可能である。非言語フィードバック情報には、例えば、生体情報センサにより検出される演者の生体情報、カメラにより撮像される演者の画像・映像、及び、加速度センサにより検出される加速度等が含まれ得る。
具体的には、演者の生体情報に基づいて演者の情動を示す情動情報を生成する技術としては、「人間の感情を考慮したバイオメトリクス情報学ワークショップ２００４、平成２６年９月」（本文献は引用によりその全体が本明細書に組み入れられる）に記載された技術を利用することが可能である。ここで、生体情報センサにより検出される演者の生体情報には、体温、呼吸数、脈拍、眼球運動、血中の酸素濃度、筋電（筋肉で発生する電位）及びこれら以外の生体に関して検出可能な情報が含まれ得る。
また、例えば特開平３−２５２７７５号公報（本文献は引用によりその全体が本明細書に組み入れられる）に開示された技術を用いることにより、カメラによって撮像された顔画像から演者の情動を推定することもできる。具体的には、情動（喜び、怒り、哀しみ、楽しさ）に対応付けて記憶されている表情パターンの中から、カメラで撮影した演者の顔画像に類似する画像を有する表情パターンを検索し、この表情パターンに対応付けられた情動を取得することにより、演者の情動を推定することができる。
さらにまた、例えば「ＷｅｂＳｏｃｋｅｔを用いたスマートフォン上でのエンタテイメントコンテンツ閲覧時のリアルタイム行動分析」（エンターテインメントコンピューティングシンポジウム（ＥＣ２０１３），２０１３年１０月）（本文献は引用によりその全体が本明細書に組み入れられる）に開示されているように、演者が保持しているスマートフォンに内蔵されている加速度センサにより検出された３軸の加速度の二乗和平方根を算出し、この算出された二乗和平方根が所定値（例えば、０.２［Ｇ］や０.１［Ｇ］）以上であるときに演者が笑っていることを検出することができる。

第１の処理において、表情選択部１２２は、仮想的なキャラクターの顔に対応する色を付した表情を示す「最終指定データ」を、予め設定された時間（例えば数十秒間）だけ、動画生成部１３０に出力する。これにより、このような「最終指定データ」を受信した動画生成部１３０は、仮想的なキャラクターが、そのような表情を上記のように設定された時間だけ持続した後、平常状態に戻るような動画を生成することができる。

（２）第２の処理（マニュアル表示）
第２の処理は、予め定められた複数の特定の表情のうち、分類器１２１により分類された特定の表情ではなく、演者により直接指定された特定の表情を、動画に表示すべき表情として選択する処理である。

マニュアル入力部１２３が、ユーザインタフェイスを介して演者から、表示すべき表情を指定するデータ（「特定表情指定データ」）を入力し、表情選択部１２２がマニュアル入力部１２３から「特定表情指定データ」を受信したという条件が満たされる場合に、表情選択部１２２は、第２の処理を実行する。

第２の処理において、表情選択部１２２は、予め定められた複数の特定の表情のうち、「特定表情指定データ」により特定される特定の表情を、動画において表示すべき表情として選択する。表情選択部１２２は、このように選択された特定の表情を示すデータ（「最終指定データ」）を、動画生成部１３０に出力する。これにより、このような「最終指定データ」を受信した動画生成部１３０は、その特定の表情に対応付けて予め定められた動画を生成する。

（３）第３の処理（イベント駆動）
第３の処理は、所定のイベントが発生した場合に、そのイベントに対して定められた表情を、動画に表示すべき表情として選択する処理である。

表情選択部１２２は、表情選択部１２２の内部又は外部に設けられた物理エンジンが所定のイベントが発生したことを検出したという条件が満たされる場合に、第３の処理を実行する。表情選択部１２２は、所定の複数のイベントの各々に対応付けて、動画に表示すべき特定の表情を予め定めることができる。例えば、表情選択部１２２は、「（仮想的なキャラクターが生きている世界において、例えばゲームにおいて）物が降ってきて仮想的なキャラクターの頭に当たった」というイベントに対しては、「仮想的なキャラクターの顔に「×」という記号が表示される」という表情を定めることができる。或いはまた、表情選択部１２２は、「（仮想的なキャラクターが生きている世界において、例えばゲームにおいて）仮想的なキャラクターのヒットポイント（体力）が所定値を下回った」というイベントに対しては、「仮想的なキャラクターの顔に青ざめた色が表示される」という表情を定めることができる。

第３の処理においても、表情選択部１２２は、予め定められた複数の特定の表情のうち、「特定表情指定データ」により特定される特定の表情を、動画において表示すべき表情として選択する。表情選択部１２２は、このように選択された特定の表情を示すデータ（「最終指定データ」）を、動画生成部１３０に出力する。これにより、このような「最終指定データ」を受信した動画生成部１３０は、仮想的なキャラクターがその特定の表情を一定時間持続する動画を生成することができる。

（４）第４の処理（予め定められた特定の表情）及び第５の処理（自然な表情）
第４の処理及び第５の処理は、ともに分類器１２１から受信する特定表情データにより特定される表情を選択する処理である。

表情選択部１２２は、分類器１２１から特定の表情を指定した「特定表情データ」を受信したという条件が満たされる場合に、第４の処理を実行する。また、表情選択部１２２は、分類器１２１から「その他の表情」を指定した「特定表情データ」を受信したという条件が満たされる場合に、第５の処理を実行する。

表情選択部１２２は、「特定表情データ」により特定される表情を、動画において表示すべき表情として示した「最終指定データ」を、動画生成部１３０に出力する。これにより、表情選択部１２２が第４の処理を実行した場合においては、動画生成部１３０は、仮想的なキャラクターがその特定の表情を表現した動画を生成する。一方、表情選択部１２２が第５の処理を実行した場合においては、動画生成部１３０は、仮想的なキャラクターの表情が演者の顔に対してリップシンク及び視線追従して変化した動画を生成する。

６．通信システム１の動作
次に、上述した構成を有する通信システム１の動作の具体例について、図５を参照して説明する。図５は、図１に示した通信システム１において行われる動作の一例を示すフロー図である。

ステップ（以下「ＳＴ」という。）４０２において、端末装置２０（サーバ装置３０であってもよい）は、学習データを取得する。具体的には、まず、端末装置２０は、所定数の特定の表情（例えば演者により指定された数の特定の表情）の各々について例えば１０秒程度用意されたチュートリアルとしての動画を表示部１５０に再生し、表示する。

図６Ａ〜図６Ｎは、図１に示した端末装置２０（サーバ装置３０）が表示する特定の表情に関するチュートリアルの具体例を示す図である。図６Ａ〜図６Ｎに例示されるように、各特定の表情に関するチュートリアルは、演者に演技させるべき表情に関する指示と、演者が読み上げるべき文章（スクリプト）と、を含むことができる。ここで、演者に演技させるべき表情に関する指示は、例えば図６Ｂにおける「顎を引いて上目遣い」及び図６Ｃにおける「目を大きく開く」といったような指示（スクリプト）を含むことができる。

このようなチュートリアルを再生・表示する端末装置２０に対向した演者は、かかるチュートリアルのタイミングに合わせて、指示された表情を演技しながら、表示されたセリフを読み上げる。

このようなチュートリアルの再生に並行して、端末装置２０は、上述したように、第１のセンサ１０２に含まれるＲＧＢカメラを用いて、撮像された画像をタイムコードに対応付けて記録したデータ（例えばＭＰＥＧファイル）を生成する。なお、このようなＭＰＥＧファイル等においては、タイムコードに対応付けて、複数の特定の表情（例えば、図６Ａ〜図６Ｎに示された複数の特定の表情）のうちのいずれかを特定する情報が記憶され得る。

また、端末装置２０は、上述したように、第１のセンサ１０２に含まれる近赤外線カメラを用いて、各特徴点の深度を示す数値をタイムコードに対応付けて記録したデータ（例えばＴＳＶファイル）を生成する。なお、このようなＴＳＶファイル等においては、タイムコードに対応付けて、複数の特定の表情（例えば、図６Ａ〜図６Ｎに示された複数の特定の表情）のうちのいずれかを特定する情報が記憶され得る。

さらに、端末装置２０は、上述したように、第２のセンサ１０４に含まれるマイクを用いて、タイムコードに対応付けて音声を記録したデータ（例えばＭＰＥＧファイル）を生成する。なお、このようなＭＰＥＧファイル等においては、タイムコードに対応付けて、複数の特定の表情（例えば、図６Ａ〜図６Ｎに示された複数の特定の表情）のうちのいずれかを特定する情報が記憶され得る。

次に、端末装置２０は、上述したように、処理部１１０を用いて、第１のデータ（各特徴点の時間方向の移動量を示す第１のデータ）及び／又は第２のデータ（各時間におけるラウドネス、音圧、話速及び／又はフォルマント等に関するデータ、及び／又は、各時間における単語、語尾及び／又は感嘆語等を示すデータを含む）を生成する。

次に、端末装置２０は、（処理部１１０からの）第１のデータ、第２のデータ、（取得部１００からの）演者の顔に関するデータ（ＭＰＥＧファイル及びＴＳＶファイル等）、演者により発せられた発話及び／又は歌唱に関する音声データ（ＭＰＥＧファイル等）のうちの少なくとも１つのデータを用いて、分類器１２１に、複数の特定の表情を学習させる。

具体的には、分類器１２１は、演者の顔に関するデータ（ＭＰＥＧファイル等）を用いて、各特定の表情に関するチュートリアルに対応付けて撮像された演者の画像に対して、その特定の表情を特定する情報を教師データとして割り当てる（アノテーションを行う）。例えば、図６Ｂに示す「おねだり」に関するチュートリアルに対応付けて撮像された演者の画像に対して、「おねだり」という情報（教師データ）を割り当てる。なお、このようにして得られた教師データは、教師データ記憶部１２４及び／又はユーザプロファイル記憶部１２６に記憶され得る。

さらに、分類器１２１は、（処理部１１０からの）第１のデータ、第２のデータ、（取得部１００からの）演者の顔に関するデータ（ＭＰＥＧファイル及びＴＳＶファイル等）、演者により発せられた発話及び／又は歌唱に関する音声データ（ＭＰＥＧファイル等）のうちの複数のデータを用いて、主成分分析を実行することができる。この主成分分析では、分類器１２１は、例えば、要素として、各特徴点の時間方向の移動量、及び、ラウドネス等を用いることができる。このような主成分分析により、分類器１２１は、複数の特定の表情を分類するための意味ベクトルを取得する。これにより、分類器１２１は、学習モデル（複数の特定の表情を分類するアルゴリズムと、このアルゴリズムにおいて用いられるパラメータとを含む）を生成することができる。なお、分類器１２１による主成分分析については後述する。

ＳＴ４０２に関連して上述した複数の特定の表情に対する学習は、複数の特定の表情の各々につき１テイク又は複数テイク実行されてもよいし、複数の特定の表情のうち演者に選択された特定の表情のみについて１テイク又は複数テイク実行されてもよい。

また、ＳＴ４０２に関連して上述した複数の特定の表情に対する学習は、後述するＳＴ４０４における再帰的な学習が行われた後に１回又は複数回実行されてもよい。

このように、演者が複数の特定の表情の各々に関連するチュートリアルに従って演技を行うことにより、端末装置２０の分類器１２１は、複数の特定の表情に対する学習を行う。これにより、端末装置２０の分類器１２１は、複数の特定の表情を分類することができるようになる。したがって、演者は、どのような表情やポーズが利用可能であるのかを知らなくとも、仮想的なキャラクターに複数の特定の表情を表現させた動画を生成することができる。この結果、特に初めて当該サービスを利用するユーザに対する利便性を向上させることができる。

次に、ＳＴ４０４において、端末装置２０は、この端末装置２０の表示部１５０（タッチパネル等）を見ながら演者により行われる演技に基づいて、仮想的なキャラクターの表情を変化させる動画を生成する。具体的には、端末装置２０は、上記「３−１」及び「５」において説明したように、処理部１１０〜動画生成部１３０を動作させることにより、動画を生成する。

一実施形態では、端末装置２０は、演者が表情を変化させることに追従して、動画をリアルタイムに表示部１５０に表示することができる。この動画は、複数の予め定められた特定の表情の中からそのように変化した表情に基づいて選択した特定の表情を仮想的なキャラクターに表現させた動画である。また、この動画は、複数の予め定められた特定の表情の中に、該当する特定の表情が存在しない場合には、自然な表情を仮想的なキャラクターに表現させた動画である。例えば、演者が自然な表情をしているときには、端末装置２０は、演者の顔に対してリップシンク及び視線追従して仮想的なキャラクターの表情を変化させた動画を表示部１５０に表示することができる。一方、演者の顔が特定の表情を示したときには、端末装置２０は、その特定の表情に対応して仮想的なキャラクターの表情を変化させた動画を表示部１５０に表示することができる。

この点につき、上述した特許文献２に開示された技術では、演者が発話や歌唱をしている際に画面に対するフリック操作を行う間において、仮想的なキャラクターの表情が、一瞬真顔になる等、不自然な動きを示すことがある。これに対して、本願に開示された一実施形態では、演者が自然な表情をしている状態と演者が特定の表情をしている状態との間において、仮想的なキャラクターの表情も各状態に従って滑らかに変化することができる。仮に、仮想的なキャラクターが不自然な動きを示した場合であっても、上記「５．（２）」で説明したように、演者がユーザインタフェイスを介して表示すべき表情を指定するデータ（「特定表示指定データ」）を入力することにより、仮想的なキャラクターは演者に指定された特定の表情を示すことができる。また、この特定表示指示データが、上記「３−１．（３）」において説明したように、教師データとして用いられることにより、同様の条件において仮想的なキャラクターが不自然な表情を示す事態が抑えられる。

図７には、演者の演技に追従して端末装置２０の表示部１５０にリアルタイムに表示される動画のうちの１シーンが例示されている。端末装置２０がＳＴ４０２において行った学習だけでは、端末装置２０は、演者の意図する複数の特定の表情を必ずしも正確には分類できない可能性がある。例えば、演者が実際には照れ顔を示しているにもかかわらず、端末装置２０は仮想的なキャラクターが笑っている動画を生成する可能性がある。そのような場合には、演者は、演者の意図に反して仮想的なキャラクターが笑っているその瞬間に、例えばタッチパネルとしての表示部１５０に対して右方向にスワイプ操作５０２を行うことができる。なお、演者は、自己が実際に表現した表情が、例えば、「びっくり目」、「変形顔」及び「企み目」であった場合には、上方向のスワイプ操作５０４、左方向のスワイプ操作５０６及び下方向のスワイプ操作５０８をそれぞれ実行することができる。

これにより、端末装置２０のマニュアル入力部１２３（図３参照）は、上記「３−１」において述べたとおり、「照れ顔」を表示すべき表情として指定する「特定表情指定データ」を表情選択部１２２に出力する。これにより、動画生成部１３０は、仮想的なキャラクターが「照れ顔」という特定の表情を示した動画を生成することができる。これに並行して、マニュアル入力部１２３は、表示部１５０に演者の意図に反した動画を表示していた時点に対応する対象データに対する教師データとして、「照れ顔」を指定する「特定表情指定データ」を教師データ記憶部１２４に記憶させることができる。なお、対象データとは、第１のデータ、第２のデータ、演者の顔に関するデータ（ＭＰＥＧファイル及びＴＳＶファイル等）、演者により発せられた発話及び／又は歌唱に関する音声データ（ＭＰＥＧファイル等）のうちの少なくとも１つのデータである。この教師データは、ユーザ設定調整部１２５により分類器１２１に提供（適用）され得る。このように演技中に演者によりマニュアル入力が行われることにより、端末装置２０の分類器１２１は、複数の特定の表情を再帰的に学習することができる。

なお、図７を参照して、演技中の演者が、スワイプ操作の方向（一例として４方向）のみにより、自己が意図した特定の表情を指定する実施形態が説明されたが、この実施形態は単なる一例に過ぎない。別の実施形態では、演技中の演者が、スワイプ操作の方向（１又はそれ以上の方向）及び移動量の両方により、自己が意図した特定の表情を指定することも可能である。例えば、演者が右方向に短い距離だけスワイプ操作を行った場合には「照れ顔」を指定し、演者が右方向に長い距離だけスワイプ操作を行った場合には「嬉しい顔」を指定することも可能である。

さらに、図７を参照して、演者がスワイプ操作により自己が意図した表情を指定する動作を演技中に実行する実施形態が説明されたが、この実施形態は単なる一例に過ぎない。別の実施形態では、演者はかかる指定を、演技の終了後に動画が再生される段階において実行することも可能である。

また、ＳＴ４０４においても、ＳＴ４０２と同様に、分類器１２１が主成分分析を実行して学習を行ってもよい。この場合、分類器１２１は、要素として、各特徴点の時間方向の移動量及びラウドネス等に加えて、演者によりマニュアル入力された「特定表情指定データ」を用いることが可能である。

このように、ＳＴ４０４（必要に応じてＳＴ４０２）に示した動作が繰り返し行われることにより、ＳＴ４０６において、端末装置２０は、演技中に演者によるマニュアル入力をほとんど必要とせずに、複数の特定の表情を分類することができるようになる。

次に、ＳＴ４０８において、端末装置２０は、分類器１２１により生成された学習モデル（学習モデル全体であってもよいし、学習モデルを構成するアルゴリズム又はパラメータであってもよい）をサーバ装置３０に送信することができる。或いはまた、サーバ装置３０は、複数のユーザ（演者）から取得した学習モデル（学習モデル全体であってもよいし、学習モデルを構成するアルゴリズム又はパラメータであってもよい）を、特定のユーザからの要求に応じて、そのユーザの端末装置２０に送信することができる。

なお、端末装置２０が演者からのマニュアル入力を必要としなくなった段階において学習モデルをサーバ装置３０に送信してもよいし、端末装置２０が演者からのマニュアル入力を依然として必要とする段階においても学習モデルをサーバ装置３０に送信してもよい。

このように、或るユーザの端末装置２０により生成された学習モデルは、他のユーザの端末装置２０により共有可能となる。これにより、特に初めてのユーザは、必ずしも端末装置２０の分類器１２１にゼロから学習を行わせる必要がないため、より速く分類器１２１を所望のレベル（例えば、マニュアル入力の頻度を低下させたレベル）にまで学習させることができる。

７．学習モデルの共有について
次に、各ユーザの端末装置２０（又はサーバ装置３０）が生成した学習モデルを他のユーザの端末装置２０と共有する特徴に対する拡張について説明する。

まず、ステップ１として、各ユーザの端末装置２０（の分類器１２１）が学習モデルを生成する。各ユーザの端末装置２０は、そのように自己が生成した学習モデルを単独で使用する。

ステップ２として、サーバ装置３０が、ステップ１において複数のユーザの端末装置２０により生成された学習モデル（又は学習モデルに含まれる学習済みパラメータ）を、これらの複数のユーザの端末装置２０から受信する。サーバ装置３０は、複数のユーザの学習済みパラメータの平均値を使用して、使用頻度が高い特定の表情を分類することにより、全体の判定閾値の変更を実行する。これにより、当該サービスの汎用性及び品質を向上させることができる。

ステップ３として、ステップ１において或るユーザの端末装置２０により生成された学習モデルを、例えばサーバ装置３０を介して、別のユーザの端末装置２０、例えば特にトゥルーデプスカメラを搭載していない（通常のＲＧＢカメラしか搭載していない）端末装置２０に送信する。当該別のユーザの端末装置２０は、受信した学習モデルを使用する。

ステップ４として、ステップ１において或るユーザの端末装置２０により生成された学習モデルを、例えばサーバ装置３０を介して、別のユーザの端末装置２０に送信する。当該別のユーザの端末装置２０は、受信した学習モデルを使用することによって、演技時における演者の音声のみ（音声及び画像であってもよい）を第２のセンサから入力することのみにより、複数の特定の表情から選択したいずれかの特定の表情を仮想的なキャラクターに表現させることができる。

ステップ５として、ステップ２の結果を（例えばサーバ装置３０を経由して）利用して、各ユーザの端末装置２０は、表出する頻度の低い特定の表情を、分類器１２１におけるトレーニングの候補から除外することができる。すなわち、各ユーザの端末装置２０は、表出する頻度の低い特定の表情については、自動的には用いず、マニュアル入力により演者により指定された場合にのみ用いることができる。

ステップ６として、サーバ装置３０は、既存のアニメキャラクター及び声優等の学習モデルを、プリセットとして、各ユーザの端末装置２０に有料又は無料で提供（送信）する。

ステップ７として、サーバ装置３０は、ステップ６において提供の対象とされた学習モデルと、ステップ１において各ユーザの端末装置２０により生成された学習モデルとを比較して、両者の類似度を算出し、提供の対象とされた複数の学習モデルのうち類似度の高い１又は複数の学習モデルに関する情報を、そのユーザの端末装置２０に対して「おすすめ」として送信する。これにより、そのユーザの端末装置２０は、そのような類似度の高い１又は複数の学習モデルを、サーバ装置３０から有料又は無料で受信することができる。

ステップ８として、サーバ装置３０が、ステップ７において得られた類似度を用いて、複数のユーザ間において最も似ているユーザのランキングに関する情報を、複数のユーザの端末装置２０に送信する。これにより、複数のユーザは、練度及び表現力を向上させることができる。

ステップ９として、ステップ８の結果とステップ６の結果との差分から、サーバ装置３０は、同一のゴールに対するユーザのトレーニング差分を算出することができる。このトレーニング差分とステップ１において生成された学習モデルとの間の類似度を算出することによって、サーバ装置３０は、「こういう表情をしたいときにはこのモデルが好ましい」というマッチングを示した情報を、各ユーザの端末装置２０に簡単に送信することができる。

８．変形例について
一実施形態では、表示部１５０（２５０）が、特定の表情を表示したものの、演者の意図とは異なる表情を表示した場合には、すぐに元の表情（演者の実際の表情をキャプチャーして反映された自然な表情等）に戻すことを演者が指示することができるように、ユーザインタフェイスが設定されていてもよい。この場合、例えば、演者は、その端末装置２０等（サーバ装置３０又はスタジオユニット４０であってもよい）の表示部に表示されている特定のアイコン・オブジェクト等をタップすること、その端末装置２０等の表示部を所定の方向にフリックすること、及び／又は、その端末装置２０等の所定のボタン及びキーボード等を押圧すること等により、表情選択部１２２（２２２）により分類器１２１（２２１）からの特定表示データに従って選択された特定の表情を「使用したくない」旨を指定することができる。これに従い、表示部１５０（２５０）は、仮想的なキャラクターの表情が演者の顔に対してリップシンク及び視線追従して変化した動画を表示することができる。これを実現するためには、図３を参照すると、表情選択部１２２（２２２）が、自然な表情を指定するデータ（「特定表情指定データ」）をマニュアル入力部１２３（２２３）から入力して、上記「５．（４）」において説明した第５の処理を優先的に実行することができる。なお、このようなユーザインタフェイスは、動画視聴用のアプリケーション等を介して動画の配信を受ける端末装置２０（演者の端末装置２０以外の端末装置２０）の表示部１５０には表示されない。
これにより、例えば、表示部１５０（２５０）が、仮想的なキャラクターが図６Ｋに例示したような「キス顔」を表現した動画を表示したにも関わらず、演者は、この顔を使用したくない場合には、その旨を指定すべく上述した操作を行うことができる。これにより、表示部１５０（２５０）は、仮想的なキャラクターが単に口を尖らせた表情を表現した動画を表示することができる。この場合には、分類器１２１（２２１）は、「キス顔」に対してマイナスの報酬を設定すること等により、学習モデルを生成（更新）することができる。なお、「キス顔」に対してマイナスの報酬を設定することは、「キス顔」を特定の表情として決定する要因となった、第１のデータ、第２のデータ、演者の顔に関するデータ（ＭＰＥＧファイル及びＴＳＶファイル等）、演者により発せられた発話及び／又は歌唱に関する音声データ（ＭＰＥＧファイル等）、及び／又は、特定表情指定データと、演者による選択された特定の表情を「使用したくない」旨を示す情報等とを用いて、行われる。

なお、上述した様々な実施形態では、端末装置２０、サーバ装置３０及びスタジオユニット４０が、第１のデータ、第２のデータ、演者の顔に関するデータ（ＭＰＥＧファイル及びＴＳＶファイル等）、演者により発せられた発話及び／又は歌唱に関する音声データ（ＭＰＥＧファイル等）、特定表情指定データ、及び／又は、選択された特定の表情を「使用したくない」旨を示す情報等を用いて、学習を行って学習モデルを生成（更新）することが可能であることを説明した。ここで、端末装置２０が、このような学習を行うことは、端末装置２０の演算リソースが限られたものであること等により、適切ではない場合があり得る。よって、端末装置２０は、このような学習の一部又は全部を行わないようにし、代わりに、サーバ装置３０が、このような学習を任意のタイミングで（例えば負荷が少ない時間に）実行することも可能である。
例えば、第１の例では、サーバ装置３０は、このサーバ装置３０の通信量を監視して処理負荷が低いタイミングを検出し、このように検出したタイミングで上記学習を実行することができる。第２の例では、サーバ装置３０は、予め定められた時間帯において上記学習を実行することができる。上記予め定められた時間帯は、その通信量が他の時間帯の通信量に比べて低いとサーバ装置３０又は他の装置により判断された時間帯であってもよい。また、上記予め定められた時間帯は、人間により設定された時間帯であってもよい。
これを実現するためには、サーバ装置３０は、端末装置２０から、第１のデータ、第２のデータ、演者の顔に関するデータ（ＭＰＥＧファイル及びＴＳＶファイル等）、演者により発せられた発話及び／又は歌唱に関する音声データ（ＭＰＥＧファイル等）、特定表情指定データ、及び／又は、選択された特定の表情を「使用したくない」旨を示す情報等を受信することが必要である。

上述したように、ある演者（例えば演者Ｂ）の端末装置２０等（サーバ装置３０又はスタジオユニット４０であってもよい）は、別の演者（例えば演者Ａ）の端末装置２０等により生成された学習モデル（教師データを含む）を受信して利用することができる。この場合、まず、演者Ｂは、端末装置２０等に表示された動画に合わせて表情を示すことができる。ここで、上記動画は、上述したチュートリアル、又は、動画生成部１３０（２３０）により生成され表示部１５０（２５０）に表示された動画であってもよい。さらに、その表情に基づいて端末装置２０等が、その表情に対しては、演者Ａの教師データによれば、ある特定の表情が割り当てられている、ということを、その特定の表情のモデル図や文字等を含むユーザインタフェイスを介して提示することができる。さらには、端末装置２０等は、この教師データを適用してよいか否かについて、ボタンやフリック等を用いてフィードバックすることが可能なユーザインタフェイスを介して演者Ｂに問い合わせることができる。端末装置２０等は、ユーザインタフェイスを介して入力した演者Ｂの応答に従って、この教師データを適用するか否かを決定することができる。これにより、演者Ｂは、演者Ａに生成された学習モデル（教師データを含む）をそのまま適用するのではなく、演者Ａに生成された学習モデルを演者Ｂの応答に基づいて微調整して適用することもできる。但し、別の実施形態では、演者Ｂは、演者Ａに生成された学習モデルをそのまま適用してもよい。

９．分類器１２１の具体例について
次に、分類器１２１の具体的な構成の一例について説明する。
TrueDepthから獲得できる例えば52点のfloat値の最新の値が、 f[0][0]〜f[0][51]として取得され、一つ前のフレームの最新の値（通常は60FPS程度で高速）が f[1][0]〜f[1][51]として保持されたと仮定する。この場合、フレーム間の距離は、 d[n] = sqrt (( f[0][n] ‐ f[1][n] )^2 ) (n = 0〜51) として取得されることができる。ある表情を演者が表した時のサンプルにおいてフレーム間の距離を時間方向に総和したものを Σd[n] とする。Σd[n] の大きさに応じてΣd[n]がソートされる。これにより、特殊表情を分類する上で最も大きく変動した上位から下位寄与を持つ特徴点のインデックス nが獲得されることができる。この順序は具体的には眉毛近傍、広角、上唇、下唇など表出する表情によって異なる（演者によっても異なるがこの傾向は大きく相違しない）。

分類器１２１の生成は、ディープラーニングによる学習など様々な方法を用いて実現することが考えられるが、基本的にはこのインデックスの獲得に帰結する。例えば使用時にリアルタイムで取得するTrueDepthの値、f[0][n]の n＝0〜51に対して、すべてのデータが表情の判定に必要になるわけではない。これは全く動かない部位が存在するためである。注目すべき特徴量を多く有するインデックスに対して寄与率として1.0を設定し、全く寄与しないインデックスに0.0を設定することで、より計算量及びデータ量を減らして分類を実行することが可能になる。特徴量にマイナスを設定することで、他の表情との分離をしやすくすることも考えられる。

評価関数はその寄与率により以下のような式で表現できる。例えばAという表情については、次の式により表現可能である。
EA(t) = a[0] * f[0][0] + a[1] * f[0][1] + …a[n] * f[0][n] + a[51] * f[0][51]
ここで t は現在のフレームを意味する（時間）。
この評価関数が、あるフレーム tにおいてEA(t), EB(t), EC(t) といった表情A、B、Cのそれぞれに存在する。これらの評価関数はコントローラブルに扱うことができる。例えば、ある表情に対する評価関数が、所定条件を満たすと仮定する。所定条件は、すべての表情に対する評価関数の中において最も高い値を出力し、かつ、閾値以上（例えば0.9以上）であるという条件である。この所定条件を満たした評価関数に対応する表情が演者により表現されたと判定する処理が実行されれば、評価関数はコントローラブルに扱われているといえる。評価関数をコントローラブルに扱う手法は上記方法に限定されない。

「喜怒哀楽」の分類については、事前にチュートリアル（シナリオ）を使って設定した特徴に近い評価関数を選択すればよい。具体的には、例えば、「喜」、「怒」、「哀」、「楽」のそれぞれにおいて獲得した寄与率a[0]〜a[51]の高いインデックスを、分類が必要な要素（この場合は４種）において完全に分離できる組み合わせになるように独立させる。例えば、「喜」EA(t)がインデックスn=1,2,3,4,5の5点の主要な変化特徴とし、「怒」EB(t)も1,2,3,4が主要な変化特徴インデックスである場合、「怒」が必要とする5番目のインデックスが5であれば、分離不可能であるため、より多くの次元を必要とする（例えば「喜」n＝1,2,3,4,5,6、「怒」n＝1,2,3,4,5,7というように）。この次元をできるだけ少なく分離できる場合には、高速かつデータ量少なく分類を処理できるため、それぞれのターゲットとする表情に対する分離を行う。前述の例であれば、インデックスn=1,2,3,4,5は「喜」及び「怒」において共通の特徴を有しており、インデックス6と7の差分の平方二乗sqrt（f[0][6] ‐ f[0][7] ）^2 )が、2つの表情を分離できる最小次元である。実際には5〜10程度の特殊表情を分類させるため、一般的には5〜10次元の特徴が必要となるが、寄与率を適用させ、マイナスの特徴を設定することで、より少ない次元で表情を分離可能になる。この例ではTrueDepthの値を使い説明したが、音声等の特徴量についても同様に扱うことが可能である。

「変形・記号付加」についても同様のアルゴリズムで表情を分類可能であるが、よりタイミングが重要なアニメーションを生成する必要があるため、前述の通り近傍フレームからの差分ではなく、アニメーション発動のキーとなる特徴を抽出することが重要である。サンプリング時に総和としてΣd[n]を取得するだけでなく、サンプリングを「開始期」、「中間期」及び「終了期」の３フェーズに分け、それぞれ評価関数をEM1(t), EM2(t), EM3(t)とする。開始期と中間期、中間期と終了期のステップ関数の様に変化するタイミングに注目する。上記の３フェーズの評価関数として、まず、開始期EA1(t) が閾値以上（例えば0.9）に判定されない限り、中間期の評価関数EA2(t)は判定開始する必要がない。もしEA1(t)>0.9となり、その後EA2 (t)>0.9となれば、「変形・記号付加」のエフェクトを開始し、その後、EA3(t)>0.9となれば、エフェクトを終了することができる。

「イベント駆動」は表情制御部１２０（２２０）の外部システムから前述の評価関数を利用する様態である。例えば「物が当たったときに痛そうな顔をする」という場合、物理エンジンによる衝突判定を人体オブジェクトに設定し、その値 s は通常は0であり、その値が1の場合には、対象となる物体が衝突しているとする。この場合の評価関数は EVf(t) = s * a[0] * f[0][0] + a[1] * f[0][1] + …a[n] * f[0][n] + a[51] * f[0][51] と表現でき、 s = 1 の場合にしか値を変動させない。実際にはアニメーションには一定の再生時間（duration）が必要であるので、s は、１又は0といったバイナリではなく、衝突時が 1 であり、そこからΔd = 0.1 といった減衰パラメータを有し、数秒間で影響がゼロになるような実装形態をとることができる。

物理エンジン以外の外部システムとしては、キーボード、ジョイパッド、タッチパネル入力といったユーザインタフェイス、キャラクターの体温や情動による顔の赤らみの表現、汚れやライティングといった通常のグラフィックシステムによるエフェクトパラメータとの連携を考慮することが考えられる。例えば、キャラクターの顔のレンダリングシステムにおいて、リアルタイムで肌の表面下散乱を模する項の影響度を0〜1に変化させられるシェーダパラメータを有していた場合、上記のEVf(t)の値を0〜１に正規化して渡すことで、特定の顔をした時に、顔色が変化するといった表現が可能になる。これは、例えばリアルな顔の赤らみや、青ざめが表現できるだけでなく、目の輝きや瞳孔の大きさなどのコントローラにも使用できる。事前に顔の表現を用意するのではなく、パラメータによって顔の状態を制御する方法は（リアルタイムではなく）映画等のアニメーションでよく利用されるアニメーションコントローラの手法であるが、そのスライダ値をUIによって制御するのではなく、人間の自然な顔の特徴から多段階でコントロールできるという利点がある。また「リアリスティックかどうか」という画風にも影響しない応用範囲がある。

１０．本件出願に開示された技術が適用される分野
本件出願に開示された技術は、例えば、次のような分野において適用することが可能なものである。
（１）仮想的なキャラクターが登場するライブ動画を配信するアプリケーション・サービス
（２）文字及びアバター（仮想的なキャラクター）を用いてコミュニケーションすることができるアプリケーション・サービス（チャットアプリケーション、メッセンジャー、メールアプリケーション等）
（３）表情を変化させることが可能な仮想的なキャラクターを操作するゲーム・サービス（シューティングゲーム、恋愛ゲーム及びロールプレイングゲーム等）

本出願は、「コンピュータプログラム、サーバ装置、端末装置及び表示方法」と題して２０１８年１２月１８日に提出された日本国特許出願第２０１８−２３６５４３に基づくものであって、この日本国特許出願による優先権の利益を享受するものである。この日本国特許出願の全体の内容が引用により本明細書に組み入れられる。

１通信システム
１０通信網
２０（２０Ａ〜２０Ｃ）端末装置
３０（３０Ａ〜３０Ｃ）サーバ装置
４０（４０Ａ、４０Ｂ）スタジオユニット
１００（２００）取得部
１０２（２０２）第１のセンサ
１０４（２０４）第２のセンサ
１１０（２１０）処理部
１２０（２２０）表情制御部
１２１（２２１）分類器
１２２（２２２）表情選択部
１２３（２２３）マニュアル入力部
１２４（２２４）教師データ記憶部
１２５（２２５）ユーザ設定調整部
１２６（２２６）ユーザプロファイル記憶部
１３０（２３０）動画生成部
１４０（２４０）記憶部
１５０（２５０）表示部
１６０（２６０）通信部

Claims

コンピュータプログラムであって、
プロセッサにより実行されることにより、
第１のセンサから演者の顔に関するデータを取得し、
前記データに基づいて生成された第１のデータを分類器に入力して、前記第１のデータに基づいて予め定められた複数の特定の表情のうちの１つの特定の表情を示す特定表情データを前記分類器から出力させ、
前記分類器から出力された前記特定表情データに対応する特定の表情を、表示すべき特定の表情として選択する、
ように前記プロセッサを機能させる、ことを特徴とするコンピュータプログラム。
前記第１のデータが、前記演者の顔における特定の点の移動量に関するデータを含む、請求項１に記載のコンピュータプログラム。
前記プロセッサが、
第２のセンサから演者により発せられた発話及び／又は歌唱に関する音声データを取得し、
前記音声データに基づいて生成された第２のデータを前記第１のデータとともに前記分類器に入力して、前記第１のデータ及び前記第２のデータに基づいて前記特定表情データを前記分類器から出力させる、請求項２に記載のコンピュータプログラム。
前記第２のデータが、前記演者により発せられた音声のラウドネス、音圧、話速、及び／又は、フォルマントに関するデータを含む、請求項３に記載のコンピュータプログラム。
前記第２のデータが、前記音声データに対して自然言語処理を実行することにより得られた、単語、語尾及び／又は感嘆語に関するデータを含む、請求項３に記載のコンピュータプログラム。
前記プロセッサは、
前記第１のデータ及び／又は前記第２のデータに対応して前記分類器から前記特定表情データが出力された場合であっても、前記第１のデータ及び／又は前記第２のデータに対応して前記演者からユーザインタフェイスを介して前記複数の特定の表情のうちの１つの特定の表情を指定する特定表情指定データを入力した場合には、該特定表情指定データに対応する特定の表情を、表示すべき特定の表情として選択する、というアルゴリズムに従って動作する、請求項３に記載のコンピュータプログラム。
前記プロセッサが、該特定表情指定データを前記第１のデータ及び／又は前記第２のデータに対する教師データとして前記分類器に提供する、請求項６に記載のコンピュータプログラム。
前記分類器が、前記第１のデータ及び／又は前記第２のデータに対して主成分分析を実行して学習モデルを生成する、請求項３に記載のコンピュータプログラム。
前記プロセッサが、前記第１のデータ及び／又は前記第２のデータに対応して前記演者からユーザインタフェイスを介して前記複数の特定の表情のうちの１つの特定の表情を指定する特定表情指定データを入力した場合には、
前記分類器は、前記第１のデータ及び／又は前記第２のデータに加えて前記特定表情指定データに対して主成分分析を実行して学習モデルを生成する、請求項８に記載のコンピュータプログラム。
前記特定表情指定データは、タッチパネルに対する前記演者によるスワイプ操作の方向及び移動量に従って生成される、請求項６に記載のコンピュータプログラム。
前記プロセッサが、
前記複数の特定の表情のうちのいずれか１つの特定の表情に関連する表情を表現する旨を前記演者に指示するスクリプトを表示部に表示させ、
前記スクリプトに対応付けて前記第１のデータ及び／又は前記第２のデータに対する教師データとして、前記１つの特定の表情を示すデータを前記分類器に提供する、請求項２に記載のコンピュータプログラム。
前記プロセッサが、
通信回線を介してサーバ装置から学習モデルを受信し、
受信した前記学習モデルを前記分類器に提供する、請求項１に記載のコンピュータプログラム。
前記プロセッサが、
前記分類器により生成された学習モデルを前記演者に対応付けて記憶部に記憶する、請求項１に記載のコンピュータプログラム。
前記プロセッサが、
前記データを、通信回線を介してサーバ装置に送信する、請求項１に記載のコンピュータプログラム。
前記複数の特定の表情が、喜怒哀楽を含む感情を表現する表情、顔の形状が非現実的に変形した表情、及び／又は、顔に記号、図形及び／又は色が付加された表情を含む、請求項１に記載のコンピュータプログラム。
前記喜怒哀楽を含む感情を表現する表情は、プルチックの感情の輪を含む、言語及び文化に依存しない心理空間にマッピングされたユーザインタフェイスに基づいて表現されるものである、請求項１５に記載のコンピュータプログラム。
前記プロセッサが、中央処理装置（ＣＰＵ）、マイクロプロセッサ又はグラフィックスプロセッシングユニット（ＧＰＵ）である、請求項１に記載のコンピュータプログラム。
前記プロセッサが、スマートフォン、タブレット、携帯電話又はパーソナルコンピュータに搭載される、請求項１に記載のコンピュータプログラム。
コンピュータにより読み取り可能な命令を実行するプロセッサにより実行される表示方法であって、
該プロセッサが、前記命令を実行することにより、
第１のセンサから演者の顔に関するデータを取得し、
前記データに基づいて生成された第１のデータを分類器に入力して、前記第１のデータに基づいて予め定められた複数の特定の表情のうちの１つの特定の表情を示す特定表情データを前記分類器から出力させ、
前記分類器から出力された前記特定表情データに対応する特定の表情を、表示すべき特定の表情として選択する、ことを特徴とする表示方法。
前記プロセッサが、中央処理装置（ＣＰＵ）、マイクロプロセッサ又はグラフィックスプロセッシングユニット（ＧＰＵ）である、請求項１９に記載の表示方法。
前記プロセッサが、スマートフォン、タブレット、携帯電話又はパーソナルコンピュータに搭載される、請求項１９に記載の表示方法。
プロセッサを具備し、
該プロセッサが、コンピュータにより読み取り可能な命令を実行することにより、
第１のセンサから演者の顔に関するデータを取得し、
前記データに基づいて生成された第１のデータを分類器に入力して、前記第１のデータに基づいて予め定められた複数の特定の表情のうちの１つの特定の表情を示す特定表情データを前記分類器から出力させ、
前記分類器から出力された前記特定表情データに対応する特定の表情を、表示すべき特定の表情として選択する、ことを特徴とする端末装置。
前記プロセッサが、中央処理装置（ＣＰＵ）、マイクロプロセッサ又はグラフィックスプロセッシングユニット（ＧＰＵ）である、請求項２２に記載の端末装置。
スマートフォン、タブレット、携帯電話又はパーソナルコンピュータである、請求項２２に記載の端末装置。
プロセッサを具備し、
該プロセッサが、コンピュータにより読み取り可能な命令を実行することにより、
第１のセンサから演者の顔に関するデータを受信し、
前記データに基づいて生成された第１のデータを分類器に入力して、前記第１のデータに基づいて予め定められた複数の特定の表情のうちの１つの特定の表情を示す特定表情データを前記分類器から出力させ、
前記分類器から出力された前記特定表情データに対応する特定の表情を、表示すべき特定の表情として選択する、ことを特徴とするサーバ装置。
コンピュータプログラムであって、
プロセッサにより実行されることにより、
第２のセンサから演者により発せられた発話及び／又は歌唱に関する音声データを取得し、
前記音声データに基づいて生成された第２のデータを分類器に入力して、前記第２のデータに基づいて予め定められた複数の特定の表情のうちの１つの特定の表情を示す特定表情データを前記分類器から出力させ、
前記分類器から出力された前記特定表情データに対応する特定の表情を、表示すべき特定の表情として選択する、
ように前記プロセッサを機能させる、ことを特徴とするコンピュータプログラム。
プロセッサを具備し、
該プロセッサが、コンピュータにより読み取り可能な命令を実行することにより、
第２のセンサから演者により発せられた発話及び／又は歌唱に関する音声データを取得し、
前記音声データに基づいて生成された第２のデータを分類器に入力して、前記第２のデータに基づいて予め定められた複数の特定の表情のうちの１つの特定の表情を示す特定表情データを前記分類器から出力させ、
前記分類器から出力された前記特定表情データに対応する特定の表情を、表示すべき特定の表情として選択する、ことを特徴とするサーバ装置。
プロセッサを具備し、
該プロセッサが、コンピュータにより読み取り可能な命令を実行することにより、
第２のセンサから演者により発せられた発話及び／又は歌唱に関する音声データを取得し、
前記音声データに基づいて生成された第２のデータを分類器に入力して、前記第２のデータに基づいて予め定められた複数の特定の表情のうちの１つの特定の表情を示す特定表情データを前記分類器から出力させ、
前記分類器から出力された前記特定表情データに対応する特定の表情を、表示すべき特定の表情として選択する、ことを特徴とする端末装置。
コンピュータにより読み取り可能な命令を実行するプロセッサにより実行される表示方法であって、
該プロセッサが、前記命令を実行することにより、
第２のセンサから演者により発せられた発話及び／又は歌唱に関する音声データを取得し、
前記音声データに基づいて生成された第２のデータを分類器に入力して、前記第２のデータに基づいて予め定められた複数の特定の表情のうちの１つの特定の表情を示す特定表情データを前記分類器から出力させ、
前記分類器から出力された前記特定表情データに対応する特定の表情を、表示すべき特定の表情として選択する、ことを特徴とする表示方法。