WO2020138258A1

WO2020138258A1 - 情報処理装置、情報処理方法及び情報処理プログラム

Info

Publication number: WO2020138258A1
Application number: PCT/JP2019/051059
Authority: WO
Inventors: 洋玉置
Original assignee: ソニー株式会社
Priority date: 2018-12-28
Filing date: 2019-12-26
Publication date: 2020-07-02
Also published as: CN113228615B; EP3905658A4; JPWO2020138258A1; US20220078338A1; CN113228615A; EP3905658A1

Abstract

本開示に係る情報処理装置は、撮影領域において、ユーザの正面向きの顔が占める領域の大きさが閾値内にあるか否かを判定する第１判定部と、ユーザの正面向きの顔が占める領域の大きさが閾値内にあると判定された場合に、撮影領域において、ユーザの側面向きの顔が占める領域の大きさが閾値内にあるか否かを判定する第２判定部と、ユーザの側面向きの顔が占める領域の大きさが閾値内にあると判定された場合に、当該ユーザの側面向きの顔を撮影する撮影部とを備える。

Description

情報処理装置、情報処理方法及び情報処理プログラム

　本開示は、情報処理装置、情報処理方法及び情報処理プログラムに関する。詳しくは、頭部伝達関数の利用に関する。

　音源から耳への音の届き方を数学的に表す頭部伝達関数を用いることで、ヘッドホン等における音像を立体的に再現する技術が利用されている。

　頭部伝達関数は個人差が大きいことから、その利用時には、個人ごとに生成された頭部伝達関数を用いることが望ましい。例えば、ユーザの耳介を撮影した画像に基づいて頭部の三次元デジタルモデル（以下、「３Ｄモデル」と表記する）を生成し、生成した３Ｄモデルから当該ユーザの頭部伝達関数を算出する技術が知られている。

米国特許第９５４４７０６号明細書

　従来技術によれば、各々のユーザに合わせて個別に算出された頭部伝達関数を情報処理に用いることができるため、音像の定位感を高めることができる。

　しかしながら、上記の従来技術では、ユーザの利便性を向上させることが難しい。例えば、従来技術では、ユーザの耳介を撮影した画像を利用して頭部伝達関数を算出するが、ユーザ自身が耳介を撮影することは困難なため、撮影に失敗したり、撮影した画像内に適切な大きさの耳介が含まれなかったりすることが想定される。この場合、ユーザは、何度も撮影のやり直しを要求されたり、精度よく算出された頭部伝達関数を得られなかったりするおそれがある。

　そこで、本開示では、頭部伝達関数を算出するために行われる撮影に関してユーザの利便性を向上させることができる情報処理装置、情報処理方法及び情報処理プログラムを提案する。

　上記の課題を解決するために、本開示に係る一形態の情報処理装置は、撮影領域において、ユーザの正面向きの顔が占める領域の大きさが閾値内にあるか否かを判定する第１判定部と、前記ユーザの正面向きの顔が占める領域の大きさが閾値内にあると判定された場合に、前記撮影領域において、ユーザの側面向きの顔が占める領域の大きさが閾値内にあるか否かを判定する第２判定部と、前記ユーザの側面向きの顔が占める領域の大きさが閾値内にあると判定された場合に、当該ユーザの側面向きの顔を撮影する撮影部とを備える。

本開示の実施形態に係る情報処理システムを示す図である。実施形態に係る情報処理を示した概念図である。実施形態に係るユーザ端末の構成例を示す図である。実施形態に係る第１判定処理を説明する図である。実施形態に係る第２判定処理を説明する図である。実施形態に係るクラウドサーバの構成例を示す図である。実施形態に係る情報処理の手順を示すフローチャート（１）である。実施形態に係る情報処理の手順を示すフローチャート（２）である。情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

　以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。

　以下に示す項目順序に従って本開示を説明する。
　　１．実施形態
　　　１－１．実施形態に係る情報処理システムの構成と情報処理の一例
　　　１－２．実施形態に係る情報処理装置の構成
　　　１－３．実施形態に係るクラウドサーバの構成
　　　１－４．実施形態に係る情報処理の手順
　　２．変形例
　　３．その他の実施形態
　　４．本開示に係る情報処理装置の効果
　　５．ハードウェア構成

（１．実施形態）
［１－１．実施形態に係る情報処理システムの構成と情報処理の一例］
　まず、図１及び図２を用いて、本開示に係る情報処理システム１の構成、及び、情報処理システム１によって実行される情報処理の概要を説明する。図１は、本開示の実施形態に係る情報処理システム１を示す図である。本開示の実施形態に係る情報処理は、図１に示す情報処理システム１によって実現される。図１に示すように、情報処理システム１は、ユーザ端末１０と、クラウドサーバ１００とを含む。情報処理システム１に含まれる各装置は、図示しない有線又は無線ネットワークを用いて相互に通信を行う。なお、情報処理システム１を構成する各装置の台数は、図示したものに限られない。

　ユーザ端末１０は、本開示に係る情報処理装置の一例であり、頭部伝達関数（以下、ＨＲＴＦ（Head-Related　Transfer　Function）と表記する場合がある）を利用した情報処理を実行する情報処理端末である。具体的には、ユーザ端末１０は、音楽や動画等の再生に際してＨＲＴＦを利用することで、臨場感の高い再生を行ったり、効果の高い３Ｄ音響を構築したりすることができる。ユーザ端末１０は、例えば、撮影機能を有したスマートフォン等によって実現される。

　クラウドサーバ１００は、各ユーザに対応するＨＲＴＦを算出し、算出したＨＲＴＦをユーザ端末１０に提供する。クラウドサーバ１００は、ネットワークを介して、ユーザの耳を撮影した画像をユーザ端末１０から取得し、取得した画像に基づいて当該ユーザのＨＲＴＦを算出する。

　上記のように、ユーザ端末１０は、ＨＲＴＦを利用した情報処理を実行する。ＨＲＴＦは、人間の耳介（耳殻）や頭部の形状等を含む周辺物によって生じる音の変化を伝達関数として表現するものである。一般に、ＨＲＴＦを求めるための測定データは、人間が耳介内に装着したマイクロフォンやダミーヘッドマイクロホン等を用いて測定用の音響信号を測定することにより取得される。

　例えば３Ｄ音響等の技術で利用されるＨＲＴＦは、ダミーヘッドマイクロホン等で取得された測定データや、多数の人間から取得された測定データの平均値等を用いて算出されることが多い。しかしながら、ＨＲＴＦは個人差が大きいことから、より効果的な音響演出効果を実現するためには、ユーザ自身のＨＲＴＦを用いることが望ましい。すなわち、一般的なＨＲＴＦをユーザ自身のＨＲＴＦに置き換えることで、より臨場感のある音響体感をユーザに提供することができる。

　ユーザ個人のＨＲＴＦを算出する手法の一例として、ユーザの耳の形状を撮影した画像からユーザのＨＲＴＦを算出する手法がある。例えば、クラウドサーバ１００は、ユーザ端末１０によって撮影されたユーザの耳の形状を含む画像を取得し、取得した画像に基づいてユーザ個人のＨＲＴＦを算出する。そして、クラウドサーバ１００は、算出したＨＲＴＦをユーザ端末１０に送信する。これにより、ユーザ端末１０は、ユーザ個人のＨＲＴＦを用いて３Ｄ音響が録音された音源を再生したり、臨場感のある動画再生を行ったりすることができる。

　しかしながら、上記の手法の実現には、いくつかの課題が存在する。例えば、クラウドサーバ１００は、ユーザの耳の形状が認識可能な画像を取得し、取得した画像に基づいてＨＲＴＦを算出する。この場合、ユーザは、自身の耳を含む画像を撮影し、撮影した画像をクラウドサーバ１００にアップロードすることを要する。このとき、ユーザは撮影機能を有するユーザ端末１０のようなスマートフォンを利用して撮影を行うと想定される。

　ところが、ユーザ自身が側面を撮影する場合には、ユーザは撮影領域（すなわち、ユーザ端末１０の画面）を確認できないため、適切に耳を撮影することが難しい。このため、ユーザが側面を撮影したとしても、耳が画像内に含まれなかったり、極端に耳が傾いていたりする画像が得られる可能性が高い。この場合、ユーザは、何度も撮影のやり直しを要求されたり、精度よく算出されたＨＲＴＦを得られなかったりするおそれがある。また、ユーザは、ユーザ端末１０の形状によっては、適切なタイミングでシャッターボタンを押すことが難しい場合もある。さらに、このような自撮りでは、ユーザ自身がユーザ端末１０を手に持って撮影すると想定されるため、撮影画像にぶれが生じる可能性も高い。

　上記のように、ＨＲＴＦを算出するために行われる撮影に関して、種々の課題が存在する。実施形態に係るユーザ端末１０は、以下に説明する本開示の情報処理により、上記の課題を解決する。以下、本開示に係る情報処理の概要について、図１及び図２を用いて流れに沿って説明する。

　まず、図１を用いて、情報処理システム１によるＨＲＴＦの生成処理の流れについて概要を説明する。図１に示すように、ユーザは、自身の耳の映像を含む画像を取得するため、頭部側面から自身を撮影する（ステップＳ１）。なお、ユーザ端末１０による撮影処理の詳細な説明については、図２以下を用いて説明する。また、本開示において、画像とは、一般にユーザ端末１０等で撮影可能な２次元カラー画像に限らず、モノクロ画像や、深度情報を含むデプス画像や、それらを任意に組み合わせたものであってもよい。また、本開示の処理に用いられる画像は、１枚でなく、複数の画像であってもよい。

　ユーザ端末１０は、ステップＳ１の撮影により、ユーザの頭部側面を撮影した画像であり、ユーザの耳の形状が認識可能な画像５を取得する（ステップＳ２）。

　続けて、ユーザ端末１０は、取得した画像５をクラウドサーバ１００に送信する（ステップＳ３）。クラウドサーバ１００は、ユーザ端末１０から送信された画像を取得する。そして、クラウドサーバ１００は、画像からユーザのＨＲＴＦを算出する（ステップＳ４）。クラウドサーバ１００がＨＲＴＦを算出する手法には、種々の手法が採用されてもよい。例えば、クラウドサーバ１００は、耳の映像を含む２次元の画像が入力された場合に、耳に対応するＨＲＴＦを出力するよう学習されたモデルを用いて、ＨＲＴＦを算出してもよい。あるいは、クラウドサーバ１００は、耳の映像を含む２次元の画像からユーザ頭部の３Ｄモデルを生成し、生成した３ＤモデルからＨＲＴＦを算出してもよい。なお、以下の説明では、ユーザ個人に応じて算出されたＨＲＴＦを個人化ＨＲＴＦ（personal　HRTF）と表記し、一般的なＨＲＴＦと区別する場合がある。

　また、クラウドサーバ１００は、算出した個人化ＨＲＴＦにＲＩＲ（空間インパルス応答（Room　Impulse　Response））を畳み込んで、ＢＲＩＲ（両耳空間インパルス応答（Binaural　Room　Impulse　Response））を生成してもよい。本明細書では、ＨＲＴＦと表記する場合には、ＨＲＴＦのみならず、ＨＲＴＦを利用して生成されたＢＲＩＲ等の情報等も含むものとする。例えば、ユーザ端末１０における音楽の再生時等に利用されるデータは、実際にはＨＲＴＦではなくＢＲＩＲである場合もあるが、以下の説明では、両者を相互に読み替えてもよい。例えば、「算出したＨＲＴＦを送信する」といった記載は、算出したＢＲＩＲを送信する状況も含む。また、「ＨＲＴＦを利用して再生する」といった記載は、ＢＲＩＲを利用して再生する状況も含むものとする。

　その後、クラウドサーバ１００は、生成した個人化ＨＲＴＦをユーザ端末１０に送信する（ステップＳ５）。ユーザ端末１０は、個人化ＨＲＴＦを取得する。このように、ユーザは、自身の横顔を撮影してクラウドサーバ１００に画像を送信することにより、自身の個人化ＨＲＴＦを取得する。こののち、ユーザ端末１０は、例えば、３Ｄ音響や多チャンネル音源の再生に際して、ユーザに対応した個人化ＨＲＴＦを利用することができる。

　次に、図２を用いて、ユーザ端末１０による本開示に係る情報処理（撮影処理）の概要について説明する。図２は、実施形態に係る情報処理を示した概念図である。図２では、ユーザが自撮りを行う際に、ユーザ端末１０の画面に表示される画像を示す。言い換えれば、図２で示すユーザ端末１０の画面とは、ユーザ端末１０が撮影しようとする領域を示す。図２の説明では、ユーザ端末１０の状態遷移を図示する場合、ユーザ端末１０の画面表示状態について、第１状態、第２状態、・・・、第Ｎ状態（Ｎは任意の数）と表記する。また、以下に示す説明において、ユーザの正面や側面、ユーザの耳を認識する手法については、適宜、既知の画像認識手法が利用されてもよい。

　ユーザは、個人化ＨＲＴＦの生成を所望する場合、撮影機能を起動させ、自身の耳の撮影を行う。この撮影機能は、例えば、クラウドサーバ１００を管理する事業者から提供されるアプリケーション（以下、単に「アプリ」と表記する）により実現される。

　ユーザがアプリを起動させた場合、ユーザ端末１０は、第１状態に遷移する。図２に示す撮影領域２１は、ユーザ端末１０が撮影しようとする領域である。すなわち、撮影領域２１は、ユーザ端末１０が備えるカメラが捉えている空間を画面に表示したものである。図２に示すように、ユーザ端末１０は、まずユーザの正面向きの画像を撮影するよう促す音声Ａ０１を出力する（ステップＳ１１）。例えば、ユーザ端末１０は、「顔を正面に向けて画面の枠内に収めてください。」といった内容の音声Ａ０１を出力する。このように、ユーザ端末１０は、適宜、ＴＴＳ（text-to-speech）による出力を行うことで、ユーザに適切な情報やフィードバックを与える。なお、このような応答処理は、音声に限らず、ユーザ端末１０を振動させるバイブレーションや、画面に文字列を表示するといった手法により行われてもよい。また、ユーザ端末１０は、音声として、ＴＴＳのみならず、シャッター音や、適切な撮影が行われたことを示す効果音等を出力してもよい。

　すなわち、ユーザ端末１０は、いきなり側面の撮影を促すのではなく、まずユーザの正面向きの位置を合わせるための応答を出力する。正面向きの画像であれば、ユーザは、自身の手にユーザ端末１０を持ちつつ、自身の顔の位置や大きさを認識することができる。このように、ユーザ端末１０は、まず正面向きのユーザの顔を画面に表示させ、撮影に適した位置にユーザが所在するよう調整を行う。これにより、ユーザ端末１０は、この後に行う頭部側面の撮影が成功する確率を向上させることができる。

　第１状態において、ユーザ端末１０は、撮影領域２１において、ユーザの顔の位置や大きさが撮影に適した位置に所在しているかを判定する。このとき、ユーザ端末１０は、ユーザが正面顔の位置や大きさを合わせるためのガイド枠２２を画面に表示してもよい。これにより、ユーザは、ガイド枠２２を参照しつつ、自身の顔の位置や、手に持っているユーザ端末１０の位置を調整することができる。

　ユーザ端末１０は、撮影領域２１において、ユーザの正面向きの顔が占める領域の大きさが閾値内にあるか否かを判定する。このとき、ユーザ端末１０は、ユーザの顔の位置や大きさに合わせて、適宜、応答を出力してもよい。例えば、ユーザ端末１０は、ユーザの顔の大きさが撮影領域２１やガイド枠２２に対して小さく表示されている場合、「カメラを近づけてください。」といった音声Ａ０２を出力し、顔やユーザ端末１０を適切な位置に動かすよう、ユーザを促してもよい。

　ユーザ端末１０は、撮影領域２１において、ユーザの正面向きの顔が占める領域の大きさが閾値内にあると判定した場合、第２状態に遷移する（ステップＳ１２）。

　第２状態では、ユーザ端末１０は、例えばガイド枠２２の色を変化させたり、「適切な位置になりました」といった音声Ａ０３を出力させたりして、ユーザの顔の位置が撮影に適した位置になったことをユーザに伝達する（ステップＳ１３）。

　続けて、ユーザ端末１０は、「ゆっくりと右に向いてください」といった音声Ａ０４を出力し、ユーザがカメラ（すなわちユーザ端末１０）に対して側面を向くよう促す。

　音声Ａ０４を出力したのち、ユーザ端末１０は、第３状態に遷移する（ステップＳ１４）。第３状態では、ユーザ端末１０は、ガイド枠２２を消去し、新たに側面用のガイド枠２３を撮影領域２１内に表示する。

　ユーザ端末１０は、撮影領域２１において、ユーザの側面向きの顔が占める領域の大きさが閾値内にあるか否かを判定する。より具体的には、ユーザ端末１０は、ユーザの耳を含む領域が、撮影領域２１に対して適切な位置にあるか否かを判定する。適切な位置とは、例えば、耳を含む領域の一部が撮影領域２１の端部から外れていなかったり、撮影領域２１に対して耳を含む領域の占める割合が閾値内にあったり、ユーザの頭部側面に対して耳を含む領域の占める割合が閾値内にあったりすることをいう。言い換えれば、適切な位置とは、ユーザの耳が、クラウドサーバ１００がＨＲＴＦを生成するのに支障がない程度に撮影画像に含まれると推定される位置である。

　ユーザ端末１０は、ユーザの頭部側面や、耳の位置が適切でない場合、適宜、応答を出力してもよい。例えば、ユーザ端末１０は、ユーザの耳を含む領域が撮影領域２１やガイド枠２３から外れている場合、「カメラを少し右に向けてください。」といった音声Ａ０５を出力し、顔やユーザ端末１０を適切な位置に動かすよう、ユーザを促してもよい。

　その後、ユーザ端末１０は、撮影領域２１において、ユーザの側面向きの顔が占める領域の大きさが閾値内にあると判定した場合、言い換えれば、ユーザの耳を含む領域が適切な位置になった場合、「耳を検出しました。」といった音声Ａ０６を出力する（ステップＳ１５）。

　さらに、ユーザ端末１０は、ユーザ端末１０の挙動量（例えば、ユーザ端末１０自体の加速度や速度）が閾値内であるか否か、また、一度検出したユーザの耳の位置が次フレームにおいて閾値を超えて移動していないか等を判定する。そして、ユーザ端末１０は、ユーザ端末１０の挙動量や、ユーザの耳の位置の移動量が閾値内である場合に、ユーザの頭部側面を自動撮影する。なお、かかる処理は、撮影した画像にぶれが生じないようにするためである。

　上記のように、本開示に係る情報処理装置の一例であるユーザ端末１０は、撮影領域２１において、ユーザの正面向きの顔が占める領域の大きさが閾値内にあるか否かを判定し、続けて、ユーザの側面向きの顔が占める領域の大きさが閾値内にあるか否かを判定する。そして、ユーザ端末１０は、ユーザの側面向きの顔が占める領域の大きさが閾値内にあると判定された場合に、ユーザの側面向きの顔を撮影する。

　すなわち、ユーザ端末１０は、ユーザが自身を視認しやすいよう、正面の顔で位置合わせを行ってから、ユーザの頭部側面を撮影する。このように、ユーザ端末１０は、ユーザの頭部側面を撮影するための過程を段階的に実行することにより、側面で、かつ、耳を適切な位置に含むという、自撮りでは難しい画像を確実に撮影することができる。これにより、ユーザ端末１０は、撮影が失敗する確率を低減させ、ユーザの手間や負担を低減させる。結果として、ユーザ端末１０は、頭部伝達関数を算出するために行われる撮影に関してユーザの利便性を向上させることができる。

　以上、本開示に係る情報処理の全体の流れの概要を説明した。図３以下では、ユーザ端末１０の構成を説明するとともに、種々の処理の詳細を順に説明する。

［１－２．実施形態に係る情報処理装置の構成］
　図３を用いて、本開示に係る情報処理装置の一例であるユーザ端末１０の構成について説明する。図３は、実施形態に係るユーザ端末１０の構成例を示す図である。図３に示すように、ユーザ端末１０は、通信部１１と、入力部１２と、表示部１３と、検知部１４と、記憶部１５と、制御部１６とを有する。

　通信部１１は、例えば、ＮＩＣ（Network　Interface　Card）等によって実現される。通信部１１は、ネットワークＮ（インターネット等）と有線又は無線で接続され、ネットワークＮを介して、クラウドサーバ１００やサービスサーバ２００、ヘッドホン５０等との間で情報の送受信を行う。

　入力部１２は、ユーザから各種操作を受け付ける入力装置である。例えば、入力部１２は、ユーザ端末１０に備えられた操作キー等によって実現される。表示部１３は、各種情報を表示するための表示装置である。例えば、表示部１３は、液晶ディスプレイ等によって実現される。なお、ユーザ端末１０にタッチパネルが採用される場合には、入力部１２の一部と表示部１３とは一体化される。

　検知部１４は、各種センサの総称であり、ユーザ端末１０に関する各種情報を検知する。具体的には、検知部１４は、ユーザ端末１０に対するユーザの操作や、ユーザ端末１０の所在する位置情報や、ユーザ端末１０と接続されている機器に関する情報や、ユーザ端末１０における環境等を検知する。

　また、検知部１４は、センサの一例として、撮影を行うためのレンズおよびイメージセンサを有する。すなわち、検知部１４は、例えばユーザが撮影機能を動作させるアプリを起動させた場合、カメラとしての機能を発揮する。

　また、検知部１４は、ユーザ端末１０に備えられた各種センサや機能を利用し、環境に関する情報を検知する。例えば、検知部１４は、ユーザ端末１０の周囲の音を収集するマイクロフォンや、ユーザ端末１０の周囲の照度を検知する照度センサや、ユーザ端末１０の物理的な動きを検知する加速度センサ（又は、ジャイロセンサなど）や速度センサ、ユーザ端末１０の所在位置における磁場を検知する地磁気センサ等を利用する。そして、検知部１４は、各種センサを用いて、種々の情報を検知する。

　記憶部１５は、例えば、ＲＡＭ（Random　Access　Memory)、フラッシュメモリ（Flash　Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部１５は、情報処理に用いる各種データを記憶する。

　例えば、記憶部１５は、カメラ機能を利用して取得された撮影画像等を記憶する。また、記憶部１５は、クラウドサーバ１００によって生成されたＨＲＴＦに関する情報を記憶する。また、記憶部１５は、ユーザの正面の顔を認識するための画像認識学習済みモデルや、ユーザの側面の顔や、ユーザの耳を認識するための画像認識学習済みモデル等を記憶してもよい。

　制御部１６は、例えば、ＣＰＵ（Central　Processing　Unit）やＭＰＵ（Micro　Processing　Unit）、ＧＰＵ（Graphics　Processing　Unit）等によって、ユーザ端末１０内部に記憶されたプログラム（例えば、本開示に係る情報処理プログラム）がＲＡＭ（Random　Access　Memory）等を作業領域として実行されることにより実現される。また、制御部１６は、コントローラ（controller）であり、例えば、ＡＳＩＣ（Application　Specific　Integrated　Circuit）やＦＰＧＡ（Field　Programmable　Gate　Array）等の集積回路により実現されてもよい。

　図３に示すように、制御部１６は、取得部１６１と、撮影処理部１６２と、送信部１６７と、受信部１６８とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部１６の内部構成は、図３に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。

　取得部１６１は、各種情報を取得する。例えば、取得部１６１は、検知部１４が検知した情報を取得する。取得部１６１は、取得した情報を適宜記憶部１５に格納する。

　撮影処理部１６２は、個人化ＨＲＴＦの生成に用いられる画像の撮影処理を制御する。撮影処理部１６２は、第１判定部１６３と、第２判定部１６４と、撮影部１６５とを含み、各処理部が協働して、画像の撮影処理を実行する。

　第１判定部１６３は、撮影領域において、ユーザの正面向きの顔が占める領域の大きさが閾値内にあるか否かを判定する。

　なお、第１判定部１６３は、撮影領域の中に、ユーザの正面向きの顔が占める領域を特定するための第１ガイド領域を設定し、第１ガイド領域に対してユーザの正面向きの顔が占める領域の大きさが閾値内にあるか否かを判定する。第１ガイド領域とは、例えば図２に示したガイド枠２２の内側部分に対応する。第１判定部１６３は、第１ガイド領域を設定することにより、ユーザに顔をどのような大きさや位置でカメラに写せばよいかを直感的に理解させることができる。

　具体的には、第１判定部１６３は、ユーザの正面向きの顔として抽出した領域が撮影領域に含まれるか否かを判定する。ユーザの正面向きの顔として抽出した領域とは、例えば、任意の画像認識モデルを用いることにより、正面向きの顔として認識される領域である。ユーザの正面向きの顔として抽出した領域は、例えば、所定の大きさの矩形で示される。

　例えば、第１判定部１６３は、ユーザの正面向きの顔として抽出した領域が撮影領域に含まれる割合に基づいて、ユーザの正面向きの顔として抽出した領域が撮影領域に含まれるか否かを判定する。

　また、第１判定部１６３は、ユーザの正面向きの顔として抽出した領域の端部と、撮影領域の端部との距離に基づいて、ユーザの正面向きの顔として抽出した領域が撮影領域に含まれるか否かを判定してもよい。

　第１判定部１６３が実行する処理について、図４を用いて説明する。図４は、実施形態に係る第１判定処理を説明する図である。

　図４に示すように、第１判定部１６３は、ユーザの正面の顔を画像認識した場合、ユーザの正面向きの顔として領域２５を抽出する。第１判定部１６３は、例えば、撮影領域２１もしくは第１ガイド領域（ガイド枠２２の内側部分）に対して、領域２５が占める領域が閾値内（例えば６割を超え９割を超えないだけの面積を占めるなど）であるか否かを判定し、ユーザの正面向きの顔が撮影領域２１に含まれるか否かを判定する。なお、閾値は、例えばクラウドサーバ１００からの要求に応じて、適宜、変更されてもよい。

　また、第１判定部１６３は、領域２５の端部と、撮影領域２１の端部との距離を判定する。例えば、第１判定部１６３は、領域２５の端部と撮影領域２１の端部との間に含まれる画素数（ピクセル数）を検出し、所定数を超える画素数が存在する場合に、領域２５が撮影領域２１に含まれると判定する。

　上記の処理により、第１判定部１６３は、ユーザの顔の大きさが極端に小さかったり大きかったりすることや、ユーザの顔の位置がカメラの撮影領域から外れていたりすることを判定することができる。

　なお、図４では、ユーザの正面の顔として抽出した領域２５を矩形で表現しているが、第１判定部１６３は、矩形に限らず、ユーザの正面の顔に沿った形状で領域２５を抽出してもよい。また、領域２５は、画面に表示してユーザに提示してもよいし、しなくてもよい。

　第１判定部１６３は、ユーザの正面向きの顔が占める領域の大きさが閾値内にあると判定した場合に、ユーザの側面向きの顔の撮影に移行する旨の応答を出力する。これにより、第１判定部１６３は、ユーザとユーザ端末１０（撮影装置）との位置関係を適切なものに調整したのちに、側面の撮影に移行することができる。

　具体的には、第１判定部１６３は、応答として、音声、振動、もしくは文字列の表示の少なくともいずれかを出力する。例えば、第１判定部１６３は、ＴＴＳ機能を利用して、側面の撮影を行うためユーザに右や左を向かせるよう促す音声を出力する。あるいは、第１判定部１６３は、正面の顔の判定が成功したことを示す効果音を出力したり、ユーザ端末１０を振動させたりして、ユーザに正面の顔の判定が終了したことを通知してもよい。

　また、第１判定部１６３は、ユーザの正面向きの顔が占める領域の大きさが閾値内にないと判定した場合に、ユーザの顔の位置を動かす旨の応答、又は、ユーザの撮影に用いられる装置の位置を動かす旨の応答を出力してもよい。

　この場合も、第１判定部１６３は、応答として、音声、振動、もしくは文字列の表示の少なくともいずれかを出力する。例えば、第１判定部１６３は、ＴＴＳ機能を利用して、ユーザとユーザ端末１０までの距離を近づけたり話したり、ユーザやユーザ端末１０の位置を右や左に動かしたりすることを促す音声を出力する。

　第２判定部１６４は、第１判定部１６３によってユーザの正面向きの顔が占める領域の大きさが閾値内にあると判定された場合に、撮影領域において、ユーザの側面向きの顔が占める領域の大きさが閾値内にあるか否かを判定する。

　なお、第２判定部１６４は、撮影領域の中に、ユーザの側面向きの顔が占める領域を特定するための第２ガイド領域を設定し、第２ガイド領域に対してユーザの側面向きの顔が占める領域の大きさが閾値内にあるか否かを判定してもよい。第２ガイド領域とは、例えば図２に示したガイド枠２３の内側部分に対応する。第２判定部１６４は、第２ガイド領域を設定することにより、ユーザに顔をどのような大きさや位置でカメラに写せばよいかを直感的に理解させることができる。

　第２判定部１６４は、ユーザの側面向きの顔として抽出した領域のうち、ユーザの耳を含む領域が撮影領域に含まれるか否かを判定し、ユーザの耳を含む領域が撮影領域に含まれる場合に、ユーザの側面向きの顔が占める領域の大きさが閾値内にあると判定する。

　具体的には、第２判定部１６４は、ユーザの耳を含む領域が撮影領域に含まれる割合に基づいて、ユーザの耳を含む領域が前記撮影領域に含まれるか否かを判定する。

　また、第２判定部１６４は、ユーザの側面向きの顔が占める領域のうち、ユーザの耳を含む領域が占める割合に基づいて、ユーザの耳を含む領域が撮影領域に含まれるか否かを判定してもよい。

　また、第２判定部１６４は、ユーザの耳を含む領域の端部と、撮影領域の端部との距離に基づいて、ユーザの耳を含む領域が撮影領域に含まれるか否かを判定してもよい。

　第２判定部１６４が実行する処理について、図５を用いて説明する。図５は、実施形態に係る第２判定処理を説明する図である。

　図５に示すように、第２判定部１６４は、ユーザの側面の顔を画像認識した場合、ユーザの側面向きの顔として領域２６を抽出する。第２判定部１６４は、例えば、撮影領域２１もしくは第２ガイド領域（ガイド枠２３の内側部分）に対して、領域２６が占める領域が閾値内であるか否かを判定し、ユーザの側面向きの顔が撮影領域２１に含まれるか否かを判定する。なお、閾値は、例えばクラウドサーバ１００からの要求に応じて、適宜、変更されてもよい。

　また、第２判定部１６４は、ユーザの側面向きの顔が占める領域２６と、ユーザの耳を含む領域２７が占める割合に基づいて、ユーザの耳を含む領域が撮影領域に含まれるか否かを判定してもよい。これは、ＨＲＴＦの生成に用いられる画像において、ユーザの側面の頭部の大きさと耳の大きさとの割合が、生成されるＨＲＴＦの精度に影響を与えることによる。かかる処理により、第２判定部１６４は、ユーザの頭部の大きさと、耳の大きさとが適切な関係性を持つ画像の撮影を行うことができる。

　また、第２判定部１６４は、耳を示す領域２７の端部と、撮影領域２１の端部との距離を判定してもよい。例えば、第２判定部１６４は、領域２７の端部と撮影領域２１の端部との間に含まれる画素数（ピクセル数）を検出し、所定数を超える画素数が存在する場合に、領域２７が撮影領域２１に含まれると判定する。

　上記の処理により、第２判定部１６４は、耳が含まれない画像が撮影されることを防止できるので、撮影のやり直し等に伴うユーザの負担を軽減することができる。

　なお、図４では、ユーザの側面の顔として抽出した領域２６や、耳を含む領域２７を矩形で表現しているが、第２判定部１６４は、矩形に限らず、ユーザの側面の顔や耳に沿った形状で領域２６や領域２７を抽出してもよい。また、領域２６や領域２７は、画面に表示してユーザに提示してもよいし、しなくてもよい。

　また、第２判定部１６４は、ユーザの側面向きの顔として抽出した領域のうち、ユーザの耳を含む領域が撮影領域に含まれないと判定した場合に、ユーザの顔の位置を動かす旨の応答、又は、ユーザの撮影に用いられる装置の位置を動かす旨の応答を出力してもよい。

　具体的には、第２判定部１６４は、応答として、音声、振動、もしくは文字列の表示の少なくともいずれかを出力する。例えば、第２判定部１６４は、音声や振動など、ユーザが画面を見なくても理解しやすい態様の応答を行うことで、撮影が適切に行われているか否かをユーザにわかりやすく通知することができる。

　撮影部１６５は、第２判定部１６４によってユーザの側面向きの顔が占める領域の大きさが閾値内にあると判定された場合に、ユーザの側面向きの顔を撮影する。撮影部１６５は、ユーザによるシャッターボタンの押下の判定を行わずとも、第２判定部１６４による判定結果を受けて自動的に撮影を行うことで、適切なタイミングで撮影を行うことができる。

　また、撮影部１６５は、第２判定部１６４によってユーザの側面向きの顔が占める領域の大きさが閾値内にあると判定されたのちに、ユーザの撮影に用いられる装置の挙動量が閾値内にあると判定した場合に、ユーザの側面向きの顔を撮影してもよい。実施形態ではユーザの撮影に用いられる装置とは、ユーザ端末１０を指す。すなわち、撮影部１６５は、第２判定部１６４による判定結果を受け、かつ、ユーザ端末１０の挙動量（加速度や速度等）が閾値内にあると判定した場合に、撮影を行う。これにより、撮影部１６５は、ぶれが生じるような撮影を防止することができる。

　また、撮影部１６５は、第２判定部１６４によってユーザの側面向きの顔が占める領域の大きさが閾値内にあると判定されたのちに、撮影領域におけるユーザの側面向きの顔の移動量が閾値内にあると判定した場合に、ユーザの側面向きの顔を撮影してもよい。

　すなわち、撮影部１６５は、第２判定部１６４による判定結果を受けたタイミングの画像と、次の撮影間隔、例えば所定のフレーム数後の画像とを比較して、ユーザの顔や耳の移動量が閾値以下であることを判定する。かかる処理は、例えば、画像における物体のトラッキング処理等を適用することで可能となる。撮影部１６５は、ユーザの移動量が閾値内にあると判定した場合に撮影を行うことで、ぶれが生じるような撮影を防止することができる。

　また、撮影部１６５は、撮影した画像を編集し、クラウドサーバ１００に送信する前の前処理を行ってもよい。例えば、撮影部１６５は、ユーザの耳を含む領域が画像の中心にくるように編集してもよい。また、撮影部１６５は、ユーザの耳を含む領域を中心として、所定範囲外にある領域をトリミングしてもよい。

　送信部１６７は、各種情報を送信する。例えば、送信部１６７は、撮影部１６５によって撮影された画像をクラウドサーバ１００に送信する。

　受信部１６８は、各種情報を受信する。例えば、受信部１６８は、クラウドサーバ１００によって生成された個人化ＨＲＴＦを受信する。

［１－３．実施形態に係るクラウドサーバの構成］
　次に、図６を用いて、実施形態に係るクラウドサーバ１００の構成について説明する。図６は、実施形態に係るクラウドサーバ１００の構成例を示す図である。

　図６に示すように、クラウドサーバ１００は、通信部１１０と、記憶部１２０と、制御部１３０とを有する。なお、クラウドサーバ１００は、クラウドサーバ１００を管理する管理者等から各種操作を受け付ける入力部（例えば、キーボードやマウス等）や、各種情報を表示するための表示部（例えば、液晶ディスプレイ等）を有してもよい。

　通信部１１０は、例えば、ＮＩＣ等によって実現される。通信部１１０は、ネットワークＮ（インターネット等）と有線又は無線で接続され、ネットワークＮを介して、ユーザ端末１０等との間で情報の送受信を行う。

　記憶部１２０は、例えば、ＲＡＭ、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。例えば、記憶部１２０は、ユーザ端末１０から取得した画像や、ＨＲＴＦの生成（算出）に用いるためのモデル（例えば、画像を入力として、ＨＲＴＦを出力するよう学習された学習済みモデル）を記憶する。

　制御部１３０は、例えば、ＣＰＵやＭＰＵ、ＧＰＵ等によって、クラウドサーバ１００内部に記憶されたプログラムがＲＡＭ等を作業領域として実行されることにより実現される。また、制御部１３０は、コントローラであり、例えば、ＡＳＩＣやＦＰＧＡ等の集積回路により実現されてもよい。

　図６に示すように、制御部１３０は、受付部１３１と、生成部１３２と、提供部１３３とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部１３０の内部構成は、図６に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。

　受付部１３１は、各種情報を受け付ける。例えば、受付部１３１は、ＨＲＴＦの生成処理の要求をユーザ端末１０から受け付ける。また、受付部１３１は、ＨＲＴＦの生成処理に用いられる画像をユーザ端末１０から受け付ける。

　生成部１３２は、受付部１３１によって受け付けられた画像に基づいて、当該画像に対応する個人化ＨＲＴＦを生成する。例えば、生成部１３２は、画像を入力として、ＨＲＴＦを出力するよう学習された学習済みモデルを用いて、個人化ＨＲＴＦを生成する。なお、学習済みモデルは何らかの種別に特定されず、例えば、生成部１３２は、ニューラルネットワーク、サポートベクターマシン（support　vector　machine）、クラスタリング、強化学習等の各種学習アルゴリズムを用いて生成された種々のモデルを用いて、個人化ＨＲＴＦを生成してもよい。

　なお、生成部１３２は、ユーザ端末１０によって行われる撮影処理に関するパラメータをユーザ端末１０に送信してもよい。例えば、生成部１３２は、画像に含まれる耳の大きさを指定した情報（例えば、「耳を含む領域が２００×２００ピクセル程度の大きさである画像」等）や、撮影において許容されるユーザ端末１０の加速度や速度、ユーザの移動量等のパラメータを送信する。

　提供部１３３は、生成部１３２によって生成された個人化ＨＲＴＦをユーザ端末１０に提供する。なお、提供部１３３は、ユーザ端末１０から受け付けた画像に基づいて個人化ＨＲＴＦが生成できなかった場合には、エラー情報等を提供してもよい。

［１－４．実施形態に係る情報処理の手順］
　次に、図７及び図８を用いて、実施形態に係る情報処理の手順について説明する。図７では、ユーザ端末１０が第１判定処理を実行する処理の手順について説明する。図７は、実施形態に係る情報処理の流れを示すフローチャート（１）である。

　図７に示すように、ユーザ端末１０は、カメラ機能の視野角内にユーザの正面顔を検知したか否かを判定する（ステップＳ２１）。ユーザの正面顔を検知しない場合（ステップＳ２１；Ｎｏ）、ユーザ端末１０は、ユーザの正面顔を検知するまで待機する。

　一方、ユーザの正面顔を検知した場合（ステップＳ２１；Ｙｅｓ）、ユーザ端末１０は、撮影領域において正面顔の大きさが適切か否かを判定する（ステップＳ２２）。

　正面顔の大きさが適切でない場合（ステップＳ２２；Ｎｏ）、ユーザ端末１０は、大きさの調整をユーザに促す音声案内等の応答を出力する（ステップＳ２３）。

　ユーザの正面顔の大きさが適切である場合（ステップＳ２２；Ｙｅｓ）、ユーザ端末１０は、画面に対して顔の位置が適切か否かを判定する（ステップＳ２４）。

　正面顔の位置が適切でない場合（ステップＳ２４；Ｎｏ）、ユーザ端末１０は、位置の調整をユーザに促す音声案内等の応答を出力する（ステップＳ２５）。

　ユーザの正面顔の位置が適切である場合（ステップＳ２４；Ｙｅｓ）、ユーザ端末１０は、ユーザの正面顔の認識に成功したと判定する（ステップＳ２６）。そして、ユーザ端末１０は、認識に成功したことを示すフィードバック（音声や振動等）を出力する（ステップＳ２７）。

　次に、図８を用いて、ユーザ端末１０がユーザの耳を撮影する処理の手順について説明する。図８は、実施形態に係る情報処理の流れを示すフローチャート（２）である。

　図８に示すように、ユーザ端末１０は、カメラ機能の視野角内にユーザの耳（側面顔）を検知したか否かを判定する（ステップＳ３１）。ユーザの耳を検知しない場合（ステップＳ３１；Ｎｏ）、ユーザ端末１０は、ユーザの耳を検知するまで待機する。

　一方、ユーザの耳を検知した場合（ステップＳ３１；Ｙｅｓ）、ユーザ端末１０は、撮影領域において耳の大きさが適切か否かを判定する（ステップＳ３２）。

　耳の大きさが適切でない場合（ステップＳ３２；Ｎｏ）、ユーザ端末１０は、大きさの調整をユーザに促す音声案内等の応答を出力する（ステップＳ３３）。

　ユーザの耳の大きさが適切である場合（ステップＳ３２；Ｙｅｓ）、ユーザ端末１０は、画面に対して耳の位置が適切か否かを判定する（ステップＳ３４）。

　耳の位置が適切でない場合（ステップＳ３４；Ｎｏ）、ユーザ端末１０は、耳の位置の調整をユーザに促す音声案内等の応答を出力する（ステップＳ３５）。

　ユーザの耳の位置が適切である場合（ステップＳ３４；Ｙｅｓ）、ユーザ端末１０は、ユーザ端末１０が閾値を超えて動いていないか否かを判定する（ステップＳ３６）。

　ユーザ端末１０が閾値を超えて動いている場合（ステップＳ３６；Ｎｏ）、ユーザ端末１０は、ユーザ端末１０を動かさないようユーザに促す音声案内等の応答を出力する（ステップＳ３７）。

　ユーザ端末１０が閾値を超えて動いていない場合（ステップＳ３６；Ｙｅｓ）、ユーザ端末１０は、撮影しようとするフレーム間で、ユーザの耳や頭部の位置のずれが閾値内であるか否かを判定する（ステップＳ３８）。

　位置のずれが閾値内でない場合（ステップＳ３８；Ｎｏ）、ユーザ端末１０は、顔を動かさないようユーザに促す音声案内等の応答を出力する（ステップＳ３９）。

　位置のずれが閾値内である場合（ステップＳ３８；Ｙｅｓ）、ユーザ端末１０は、耳の認識に成功したと判定する（ステップＳ４０）。そして、ユーザ端末１０は、ユーザの耳を撮影し、撮影された画像を取得する（ステップＳ４１）。

　その後、ユーザ端末１０は、耳を撮影したことを示すフィードバックをユーザに対して出力する（ステップＳ４２）。そして、ユーザ端末１０は、両耳の撮影が終了したか否かを判定する（ステップＳ４３）。両耳を撮影していない場合、すなわち、片耳しか撮影が終了していない場合（ステップＳ４３；Ｎｏ）、ユーザ端末１０は、逆の耳を検知する処理を繰り返す（ステップＳ３１）。一方、両耳の撮影が完了している場合（ステップＳ４３；Ｙｅｓ）、ユーザ端末１０は、撮影処理を終了する。

（２．変形例）
　上述した情報処理システム１は、上記実施形態以外にも種々の異なる形態にて実施されてよい。そこで、以下では、実施形態の変形例について説明する。

　実施形態では、クラウドサーバ１００が個人化ＨＲＴＦを生成する例を示した。しかし、個人化ＨＲＴＦは、クラウドサーバ１００ではなく、ユーザ端末１０が生成してもよい。この場合、ユーザ端末１０は、図６に示す生成部１３２と同様の処理部を備える。

　実施形態では、クラウドサーバ１００は、クラウドネットワーク上に設置されることを前提としているが、この例に限られず、ユーザ端末１０と通信可能であれば、クラウドサーバ１００はＬＡＮ（Local　Area　Network）等のネットワーク上に設置されてもよい。

　クラウドサーバ１００は、個人化ＨＲＴＦを生成する際に、ユーザの識別情報を取得し、識別情報と個人化ＨＲＴＦとを対応付けて、個人化ＨＲＴＦを保持するようにしてもよい。

　実施形態では、クラウドサーバ１００を１つのサーバとして記載したが、クラウドサーバ１００は、複数台のサーバ装置から構成されてもよい。例えば、クラウドサーバ１００は、個人化ＨＲＴＦを生成する生成サーバと、個人化ＨＲＴＦを提供する提供サーバとに分割されてもよい。

　実施形態では、ユーザ端末１０がユーザを撮影する例を示したが、撮影は、他の撮影装置により行われてもよい。この場合、撮影装置は、撮影しようとする画像の情報をユーザ端末１０に順次送信する。そして、ユーザ端末１０は、受信した画像においてユーザの顔や耳の位置を認識することで、実施形態に係る情報処理を実行する。また、実施形態では、ユーザ端末１０がユーザの側面向きの顔の大きさを判定する処理を行うことを示したが、ユーザ端末１０は、顔の大きさを判定する処理をスキップし、耳の大きさのみを判定してもよい。すなわち、ユーザ端末１０は、必ずしもユーザの側面向きの顔の大きさを判定したのちに耳の大きさや位置を判定するのではなく、可能な場合には、直接的にユーザの耳の大きさや位置の適切性を判定してもよい。

　ユーザ端末１０は、クラウドサーバ１００からの指定に従い、撮影する画像の光量や、耳の傾きの許容値等を設定してもよい。これにより、ユーザ端末１０は、撮影画像から個人化ＨＲＴＦが生成できないとしてクラウドサーバ１００からエラーを返される確率を下げることができる。

（３．その他の実施形態）
　上述した各実施形態に係る処理は、上記各実施形態以外にも種々の異なる形態にて実施されてよい。

　また、上記各実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

　また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

　また、上述してきた各実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

　また、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、他の効果があってもよい。

（４．本開示に係る情報処理装置の効果）
　上述してきたように、本開示に係る情報処理装置（実施形態ではユーザ端末１０）は、第１判定部（実施形態では第１判定部１６３）と、第２判定部（実施形態では第２判定部１６４）と、撮影部（実施形態では撮影部１６５）とを備える。第１判定部は、撮影領域において、ユーザの正面向きの顔が占める領域の大きさが閾値内にあるか否かを判定する。第２判定部は、ユーザの正面向きの顔が占める領域の大きさが閾値内にあると判定された場合に、撮影領域において、ユーザの側面向きの顔が占める領域の大きさが閾値内にあるか否かを判定する。撮影部は、ユーザの側面向きの顔が占める領域の大きさが閾値内にあると判定された場合に、ユーザの側面向きの顔を撮影する。

　このように、本開示に係る情報処理装置は、ユーザが自身を視認しやすいよう、正面の顔で位置合わせを行ってから、ユーザの頭部側面を撮影する。これにより、情報処理装置は、撮影が失敗する確率を低減させ、ユーザの手間や負担を低減させるので、頭部伝達関数を算出するために行われる撮影に関してユーザの利便性を向上させることができる。

　また、第１判定部は、撮影領域の中に、ユーザの正面向きの顔が占める領域を特定するための第１ガイド領域を設定し、第１ガイド領域に対してユーザの正面向きの顔が占める領域の大きさが閾値内にあるか否かを判定する。これにより、情報処理装置は、顔をどのような大きさや位置でカメラに写せばよいかを、ユーザに対して直感的に理解させることができる。

　また、第１判定部は、ユーザの正面向きの顔として抽出した領域が撮影領域に含まれるか否かを判定する。これにより、情報処理装置は、撮影に適した位置にユーザが所在することを確認してから撮影処理を実行できるので、撮影の失敗を低減させることができる。

　また、第１判定部は、ユーザの正面向きの顔として抽出した領域が撮影領域に含まれる割合に基づいて、ユーザの正面向きの顔として抽出した領域が撮影領域に含まれるか否かを判定する。これにより、情報処理装置は、ユーザが所在する位置が遠いか近いかといった情報を的確に把握することができるため、撮影をスムーズに行うことができる。

　また、第１判定部は、ユーザの正面向きの顔として抽出した領域の端部と、撮影領域の端部との距離に基づいて、ユーザの正面向きの顔として抽出した領域が撮影領域に含まれるか否かを判定する。これにより、情報処理装置は、ユーザが所在する位置が撮影領域内であるか外れているかといった情報を的確に把握することができるため、撮影をスムーズに行うことができる。

　また、第１判定部は、ユーザの正面向きの顔が占める領域の大きさが閾値内にあると判定した場合に、ユーザの側面向きの顔の撮影に移行する旨の応答を出力する。これにより、情報処理装置は、ユーザが正面で正確な位置合わせを行ったことを確認してから側面の撮影を行うことができるので、撮影の成功率を向上させることができる。

　また、第１判定部は、ユーザの正面向きの顔が占める領域の大きさが閾値内にないと判定した場合に、ユーザの顔の位置を動かす旨の応答、又は、ユーザの撮影に用いられる装置の位置を動かす旨の応答を出力する。これにより、情報処理装置は、ユーザに適切な応答を与えることができるので、撮影を正確に、かつ、迅速に行うことができる。

　また、第１判定部は、応答として、音声、振動、もしくは文字列の表示の少なくともいずれかを出力する。なお、音声とは、ＴＴＳによるメッセージ音声に限らず、シャッター音等の効果音を含んでもよい。これにより、情報処理装置は、ユーザに様々な態様で応答を与えることができるので、ユーザに必要な情報を正確に通知することができる。

　また、第２判定部は、撮影領域の中に、ユーザの側面向きの顔が占める領域を特定するための第２ガイド領域を設定し、第２ガイド領域に対してユーザの側面向きの顔が占める領域の大きさが閾値内にあるか否かを判定する。これにより、情報処理装置は、顔をどのような大きさや位置でカメラに写せばよいかを、ユーザに対して直感的に理解させることができる。

　また、第２判定部は、ユーザの側面向きの顔として抽出した領域のうち、ユーザの耳を含む領域が撮影領域に含まれるか否かを判定し、ユーザの耳を含む領域が撮影領域に含まれる場合に、ユーザの側面向きの顔が占める領域の大きさが閾値内にあると判定する。これにより、情報処理装置は、撮影する画像に確実に耳を含ませることができるので、個人化ＨＲＴＦの生成処理に適した画像を取得することができる。

　また、第２判定部は、ユーザの耳を含む領域が撮影領域に含まれる割合に基づいて、ユーザの耳を含む領域が撮影領域に含まれるか否かを判定する。これにより、情報処理装置は、個人化ＨＲＴＦの生成処理に適した大きさの耳を含む画像を取得することができる。

　また、第２判定部は、ユーザの側面向きの顔が占める領域のうち、ユーザの耳を含む領域が占める割合に基づいて、ユーザの耳を含む領域が撮影領域に含まれるか否かを判定する。これにより、情報処理装置は、ユーザの頭部の大きさと耳の大きさとが、ＨＲＴＦ生成において適した関係性となる画像を取得することができる。

　また、第２判定部は、ユーザの耳を含む領域の端部と、撮影領域の端部との距離に基づいて、ユーザの耳を含む領域が撮影領域に含まれるか否かを判定する。これにより、情報処理装置は、耳が画像の端部に所在するためにＨＲＴＦ生成ができないような画像が撮影されることを防止できる。

　また、第２判定部は、ユーザの側面向きの顔として抽出した領域のうち、ユーザの耳を含む領域が撮影領域に含まれないと判定した場合に、ユーザの顔の位置を動かす旨の応答、又は、ユーザの撮影に用いられる装置の位置を動かす旨の応答を出力する。これにより、情報処理装置は、ユーザに適切な応答を与えることができるので、撮影を正確に、かつ、迅速に行うことができる。

　また、第２判定部は、応答として、音声、振動、もしくは文字列の表示の少なくともいずれかを出力する。これにより、情報処理装置は、ユーザが画面を視認できない状態であっても、ユーザに適切な応答を通知することができる。

　また、撮影部は、ユーザの側面向きの顔が占める領域の大きさが閾値内にあると判定されたのちに、ユーザの撮影に用いられる装置の挙動量が閾値内にあると判定した場合に、ユーザの側面向きの顔を撮影する。これにより、情報処理装置は、ぶれが生じた画像が撮影されることを防止できる。

　また、撮影部は、ユーザの側面向きの顔が占める領域の大きさが閾値内にあると判定されたのちに、撮影領域におけるユーザの側面向きの顔の移動量が閾値内にあると判定した場合に、ユーザの側面向きの顔を撮影する。これにより、情報処理装置は、ぶれが生じた画像が撮影されることを防止できる。

（５．ハードウェア構成）
　上述してきた各実施形態に係るユーザ端末１０やクラウドサーバ１００等の情報機器は、例えば図９に示すような構成のコンピュータ１０００によって実現される。以下、実施形態に係るユーザ端末１０を例に挙げて説明する。図９は、ユーザ端末１０の機能を実現するコンピュータ１０００の一例を示すハードウェア構成図である。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ（Read　Only　Memory）１３００、ＨＤＤ（Hard　Disk　Drive）１４００、通信インターフェイス１５００、及び入出力インターフェイス１６００を有する。コンピュータ１０００の各部は、バス１０５０によって接続される。

　ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムをＲＡＭ１２００に展開し、各種プログラムに対応した処理を実行する。

　ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

　ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、ＨＤＤ１４００は、プログラムデータ１４５０の一例である本開示に係る情報処理プログラムを記録する記録媒体である。

　通信インターフェイス１５００は、コンピュータ１０００が外部ネットワーク１５５０（例えばインターネット）と接続するためのインターフェイスである。例えば、ＣＰＵ１１００は、通信インターフェイス１５００を介して、他の機器からデータを受信したり、ＣＰＵ１１００が生成したデータを他の機器へ送信したりする。

　入出力インターフェイス１６００は、入出力デバイス１６５０とコンピュータ１０００とを接続するためのインターフェイスである。例えば、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやスピーカーやプリンタ等の出力デバイスにデータを送信する。また、入出力インターフェイス１６００は、所定の記録媒体（メディア）に記録されたプログラム等を読み取るメディアインターフェイスとして機能してもよい。メディアとは、例えばＤＶＤ（Digital　Versatile　Disc）、ＰＤ（Phase　change　rewritable　Disk）等の光学記録媒体、ＭＯ（Magneto-Optical　disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

　例えば、コンピュータ１０００が実施形態に係るユーザ端末１０として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされた情報処理プログラムを実行することにより、制御部１６等の機能を実現する。また、ＨＤＤ１４００には、本開示に係る情報処理プログラムや、記憶部１５内のデータが格納される。なお、ＣＰＵ１１００は、プログラムデータ１４５０をＨＤＤ１４００から読み取って実行するが、他の例として、外部ネットワーク１５５０を介して、他の装置からこれらのプログラムを取得してもよい。

　なお、本技術は以下のような構成も取ることができる。
（１）
　撮影領域において、ユーザの正面向きの顔が占める領域の大きさが閾値内にあるか否かを判定する第１判定部と、
　前記ユーザの正面向きの顔が占める領域の大きさが閾値内にあると判定された場合に、前記撮影領域において、ユーザの側面向きの顔が占める領域の大きさが閾値内にあるか否かを判定する第２判定部と、
　前記ユーザの側面向きの顔が占める領域の大きさが閾値内にあると判定された場合に、当該ユーザの側面向きの顔を撮影する撮影部と
　を備えた情報処理装置。
（２）
　前記第１判定部は、
　前記撮影領域の中に、前記ユーザの正面向きの顔が占める領域を特定するための第１ガイド領域を設定し、当該第１ガイド領域に対して当該ユーザの正面向きの顔が占める領域の大きさが閾値内にあるか否かを判定する
　前記（１）に記載の情報処理装置。
（３）
　前記第１判定部は、
　前記ユーザの正面向きの顔として抽出した領域が前記撮影領域に含まれるか否かを判定する
　前記（１）又は（２）に記載の情報処理装置。
（４）
　前記第１判定部は、
　前記ユーザの正面向きの顔として抽出した領域が前記撮影領域に含まれる割合に基づいて、当該ユーザの正面向きの顔として抽出した領域が当該撮影領域に含まれるか否かを判定する
　前記（３）に記載の情報処理装置。
（５）
　前記第１判定部は、
　前記ユーザの正面向きの顔として抽出した領域の端部と、前記撮影領域の端部との距離に基づいて、当該ユーザの正面向きの顔として抽出した領域が当該撮影領域に含まれるか否かを判定する
　前記（３）又は（４）に記載の情報処理装置。
（６）
　前記第１判定部は、
　前記ユーザの正面向きの顔が占める領域の大きさが閾値内にあると判定した場合に、当該ユーザの側面向きの顔の撮影に移行する旨の応答を出力する
　前記（１）～（５）のいずれかに記載の情報処理装置。
（７）
　前記第１判定部は、
　前記ユーザの正面向きの顔が占める領域の大きさが閾値内にないと判定した場合に、当該ユーザの顔の位置を動かす旨の応答、又は、当該ユーザの撮影に用いられる装置の位置を動かす旨の応答を出力する
　前記（１）～（６）のいずれかに記載の情報処理装置。
（８）
　前記第１判定部は、
　前記応答として、音声、振動、もしくは文字列の表示の少なくともいずれかを出力する
　前記（６）又は（７）に記載の情報処理装置。
（９）
　前記第２判定部は、
　前記撮影領域の中に、前記ユーザの側面向きの顔が占める領域を特定するための第２ガイド領域を設定し、当該第２ガイド領域に対して当該ユーザの側面向きの顔が占める領域の大きさが閾値内にあるか否かを判定する
　前記（１）～（８）のいずれかに記載の情報処理装置。
（１０）
　前記第２判定部は、
　前記ユーザの側面向きの顔として抽出した領域のうち、当該ユーザの耳を含む領域が前記撮影領域に含まれるか否かを判定し、当該ユーザの耳を含む領域が前記撮影領域に含まれる場合に、当該ユーザの側面向きの顔が占める領域の大きさが閾値内にあると判定する
　前記（１）～（９）のいずれかに記載の情報処理装置。
（１１）
　前記第２判定部は、
　前記ユーザの耳を含む領域が前記撮影領域に含まれる割合に基づいて、当該ユーザの耳を含む領域が前記撮影領域に含まれるか否かを判定する
　前記（１０）に記載の情報処理装置。
（１２）
　前記第２判定部は、
　前記ユーザの側面向きの顔が占める領域のうち、当該ユーザの耳を含む領域が占める割合に基づいて、当該ユーザの耳を含む領域が前記撮影領域に含まれるか否かを判定する
　前記（１０）又は（１１）に記載の情報処理装置。
（１３）
　前記第２判定部は、
　前記ユーザの耳を含む領域の端部と、前記撮影領域の端部との距離に基づいて、当該ユーザの耳を含む領域が前記撮影領域に含まれるか否かを判定する
　前記（１０）～（１２）のいずれかに記載の情報処理装置。
（１４）
　前記第２判定部は、
　前記ユーザの側面向きの顔として抽出した領域のうち、当該ユーザの耳を含む領域が前記撮影領域に含まれないと判定した場合に、当該ユーザの顔の位置を動かす旨の応答、又は、当該ユーザの撮影に用いられる装置の位置を動かす旨の応答を出力する
　前記（１０）～（１３）のいずれかに記載の情報処理装置。
（１５）
　前記第２判定部は、
　前記応答として、音声、振動、もしくは文字列の表示の少なくともいずれかを出力する
　前記（１４）に記載の情報処理装置。
（１６）
　前記撮影部は、
　前記ユーザの側面向きの顔が占める領域の大きさが閾値内にあると判定されたのちに、当該ユーザの撮影に用いられる装置の挙動量が閾値内にあると判定した場合に、当該ユーザの側面向きの顔を撮影する
　前記（１）～（１５）のいずれかに記載の情報処理装置。
（１７）
　前記撮影部は、
　前記ユーザの側面向きの顔が占める領域の大きさが閾値内にあると判定されたのちに、前記撮影領域における当該ユーザの側面向きの顔の移動量が閾値内にあると判定した場合に、当該ユーザの側面向きの顔を撮影する
　前記（１）～（１６）のいずれかに記載の情報処理装置。
（１８）
　コンピュータが、
　撮影領域において、ユーザの正面向きの顔が占める領域の大きさが閾値内にあるか否かを判定し、
　前記ユーザの正面向きの顔が占める領域の大きさが閾値内にあると判定された場合に、前記撮影領域において、ユーザの側面向きの顔が占める領域の大きさが閾値内にあるか否かを判定し、
　前記ユーザの側面向きの顔が占める領域の大きさが閾値内にあると判定された場合に、当該ユーザの側面向きの顔を撮影する
　情報処理方法。
（１９）
　コンピュータを、
　撮影領域において、ユーザの正面向きの顔が占める領域の大きさが閾値内にあるか否かを判定する第１判定部と、
　前記ユーザの正面向きの顔が占める領域の大きさが閾値内にあると判定された場合に、前記撮影領域において、ユーザの側面向きの顔が占める領域の大きさが閾値内にあるか否かを判定する第２判定部と、
　前記ユーザの側面向きの顔が占める領域の大きさが閾値内にあると判定された場合に、当該ユーザの側面向きの顔を撮影する撮影部
　として機能させるための情報処理プログラム。

　１　情報処理システム
　１０　ユーザ端末
　１１　通信部
　１２　入力部
　１３　表示部
　１４　検知部
　１５　記憶部
　１６　制御部
　１６１　取得部
　１６２　撮影処理部
　１６３　第１判定部
　１６４　第２判定部
　１６５　撮影部
　１６７　送信部
　１６８　受信部
　１００　クラウドサーバ

Claims

　撮影領域において、ユーザの正面向きの顔が占める領域の大きさが閾値内にあるか否かを判定する第１判定部と、
　前記ユーザの正面向きの顔が占める領域の大きさが閾値内にあると判定された場合に、前記撮影領域において、ユーザの側面向きの顔が占める領域の大きさが閾値内にあるか否かを判定する第２判定部と、
　前記ユーザの側面向きの顔が占める領域の大きさが閾値内にあると判定された場合に、当該ユーザの側面向きの顔を撮影する撮影部と
　を備えた情報処理装置。
　前記第１判定部は、
　前記撮影領域の中に、前記ユーザの正面向きの顔が占める領域を特定するための第１ガイド領域を設定し、当該第１ガイド領域に対して当該ユーザの正面向きの顔が占める領域の大きさが閾値内にあるか否かを判定する
　請求項１に記載の情報処理装置。
　前記第１判定部は、
　前記ユーザの正面向きの顔として抽出した領域が前記撮影領域に含まれるか否かを判定する
　請求項１に記載の情報処理装置。
　前記第１判定部は、
　前記ユーザの正面向きの顔として抽出した領域が前記撮影領域に含まれる割合に基づいて、当該ユーザの正面向きの顔として抽出した領域が当該撮影領域に含まれるか否かを判定する
　請求項３に記載の情報処理装置。
　前記第１判定部は、
　前記ユーザの正面向きの顔として抽出した領域の端部と、前記撮影領域の端部との距離に基づいて、当該ユーザの正面向きの顔として抽出した領域が当該撮影領域に含まれるか否かを判定する
　請求項３に記載の情報処理装置。
　前記第１判定部は、
　前記ユーザの正面向きの顔が占める領域の大きさが閾値内にあると判定した場合に、当該ユーザの側面向きの顔の撮影に移行する旨の応答を出力する
　請求項１に記載の情報処理装置。
　前記第１判定部は、
　前記ユーザの正面向きの顔が占める領域の大きさが閾値内にないと判定した場合に、当該ユーザの顔の位置を動かす旨の応答、又は、当該ユーザの撮影に用いられる装置の位置を動かす旨の応答を出力する
　請求項１に記載の情報処理装置。
　前記第１判定部は、
　前記応答として、音声、振動、もしくは文字列の表示の少なくともいずれかを出力する
　請求項６に記載の情報処理装置。
　前記第２判定部は、
　前記撮影領域の中に、前記ユーザの側面向きの顔が占める領域を特定するための第２ガイド領域を設定し、当該第２ガイド領域に対して当該ユーザの側面向きの顔が占める領域の大きさが閾値内にあるか否かを判定する
　請求項１に記載の情報処理装置。
　前記第２判定部は、
　前記ユーザの側面向きの顔として抽出した領域のうち、当該ユーザの耳を含む領域が前記撮影領域に含まれるか否かを判定し、当該ユーザの耳を含む領域が前記撮影領域に含まれる場合に、当該ユーザの側面向きの顔が占める領域の大きさが閾値内にあると判定する
　請求項１に記載の情報処理装置。
　前記第２判定部は、
　前記ユーザの耳を含む領域が前記撮影領域に含まれる割合に基づいて、当該ユーザの耳を含む領域が前記撮影領域に含まれるか否かを判定する
　請求項１０に記載の情報処理装置。
　前記第２判定部は、
　前記ユーザの側面向きの顔が占める領域のうち、当該ユーザの耳を含む領域が占める割合に基づいて、当該ユーザの耳を含む領域が前記撮影領域に含まれるか否かを判定する
　請求項１０に記載の情報処理装置。
　前記第２判定部は、
　前記ユーザの耳を含む領域の端部と、前記撮影領域の端部との距離に基づいて、当該ユーザの耳を含む領域が前記撮影領域に含まれるか否かを判定する
　請求項１０に記載の情報処理装置。
　前記第２判定部は、
　前記ユーザの側面向きの顔として抽出した領域のうち、当該ユーザの耳を含む領域が前記撮影領域に含まれないと判定した場合に、当該ユーザの顔の位置を動かす旨の応答、又は、当該ユーザの撮影に用いられる装置の位置を動かす旨の応答を出力する
　請求項１０に記載の情報処理装置。
　前記第２判定部は、
　前記応答として、音声、振動、もしくは文字列の表示の少なくともいずれかを出力する
　請求項１４に記載の情報処理装置。
　前記撮影部は、
　前記ユーザの側面向きの顔が占める領域の大きさが閾値内にあると判定されたのちに、当該ユーザの撮影に用いられる装置の挙動量が閾値内にあると判定した場合に、当該ユーザの側面向きの顔を撮影する
　請求項１に記載の情報処理装置。
　前記撮影部は、
　前記ユーザの側面向きの顔が占める領域の大きさが閾値内にあると判定されたのちに、前記撮影領域における当該ユーザの側面向きの顔の移動量が閾値内にあると判定した場合に、当該ユーザの側面向きの顔を撮影する
　請求項１に記載の情報処理装置。
　コンピュータが、
　撮影領域において、ユーザの正面向きの顔が占める領域の大きさが閾値内にあるか否かを判定し、
　前記ユーザの正面向きの顔が占める領域の大きさが閾値内にあると判定された場合に、前記撮影領域において、ユーザの側面向きの顔が占める領域の大きさが閾値内にあるか否かを判定し、
　前記ユーザの側面向きの顔が占める領域の大きさが閾値内にあると判定された場合に、当該ユーザの側面向きの顔を撮影する
　情報処理方法。
　コンピュータを、
　撮影領域において、ユーザの正面向きの顔が占める領域の大きさが閾値内にあるか否かを判定する第１判定部と、
　前記ユーザの正面向きの顔が占める領域の大きさが閾値内にあると判定された場合に、前記撮影領域において、ユーザの側面向きの顔が占める領域の大きさが閾値内にあるか否かを判定する第２判定部と、
　前記ユーザの側面向きの顔が占める領域の大きさが閾値内にあると判定された場合に、当該ユーザの側面向きの顔を撮影する撮影部
　として機能させるための情報処理プログラム。