JPWO2020075622A1

JPWO2020075622A1 - 情報処理装置、情報処理方法及び情報処理プログラム

Info

Publication number: JPWO2020075622A1
Application number: JP2020550542A
Authority: JP
Inventors: 和巳福田; 哲曲谷地
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2018-10-10
Filing date: 2019-10-03
Publication date: 2021-09-16
Also published as: WO2020075622A1; US20230283979A1; US11595772B2; KR20210068409A; EP3866492A4; CN113039816B; CN116801179A; CN113039816A; US20210385600A1; EP3866492A1

Abstract

本開示に係る情報処理装置（１００）は、ユーザの耳の映像を含む第１画像を取得する取得部（１４１）と、耳の映像を含む画像が入力された場合に当該耳に対応する頭部伝達関数を出力するよう学習された学習済みモデルを用いて、取得部（１４１）によって取得された第１画像に基づいて、ユーザに対応する頭部伝達関数を算出する算出部（１４２）とを備える。

Description

本開示は、情報処理装置、情報処理方法及び情報処理プログラムに関する。詳しくは、頭部伝達関数の算出処理に関する。

音源から耳への音の届き方を数学的に表す頭部伝達関数（以下、ＨＲＴＦ（Head-Related Transfer Function）と称する場合がある）を用いることで、ヘッドホン等における音像を立体的に再現する技術が利用されている。

頭部伝達関数は個人差が大きいことから、その利用時には、個人ごとに生成された頭部伝達関数を用いることが望ましい。例えば、ユーザの耳介を撮影した画像に基づいて頭部の三次元デジタルモデル（以下、「３Ｄモデル」と表記する）を生成し、生成した３Ｄモデルから当該ユーザの頭部伝達関数を算出する技術が知られている。

米国特許第９５４４７０６号明細書

従来技術によれば、各々のユーザに合わせて個別に算出された頭部伝達関数を情報処理に用いることができるため、音像の定位感を高めることができる。

しかしながら、上記の従来技術は、ユーザが撮影した画像に基づいて３Ｄデジタルモデルを生成し、生成したモデルから頭部伝達関数を算出するため、計算の処理負荷が比較的大きくなる。すなわち、上記の従来技術では、画像を送信したユーザに対して頭部伝達関数を提供するまでに長い時間がかかると推測されるため、利便性が高いとは言い難い。

そこで、本開示では、頭部伝達関数に関する処理においてユーザの利便性を向上させることができる情報処理装置、情報処理方法及び情報処理プログラムを提案する。

上記の課題を解決するために、本開示に係る一形態の情報処理装置は、ユーザの耳の映像を含む第１画像を取得する取得部と、耳の映像を含む画像が入力された場合に当該耳に対応する頭部伝達関数を出力するよう学習された学習済みモデルを用いて、前記取得部によって取得された第１画像に基づいて、前記ユーザに対応する頭部伝達関数を算出する算出部と、を備える。

本開示の第１の実施形態に係る情報処理の概要を示す図である。本開示に係る情報処理の全体の流れを示した概念図である。本開示の第１の実施形態に係る情報処理装置の構成例を示す図である。本開示に係る耳画像記憶部の一例を示す図である。本開示に係る耳モデルに関する学習処理の一例を示す図である。本開示に係る耳パラメータ推定モデルに関する学習処理の一例を示す図である。本開示に係る耳画像の生成処理の一例を示す図である。本開示に係る耳パラメータ推定モデルを説明するための図である。ＨＲＴＦに関するモデルの生成処理の流れの概要を示す図である。本開示に係る３Ｄモデルの再構成を説明するための図である。ＨＲＴＦに関するモデルの生成処理の詳細を説明する図である。本開示に係るＨＲＴＦの圧縮及び復元を説明するための図である。本開示に係るＨＲＴＦの推定処理の流れを示す図である。本開示の第１の実施形態に係るユーザ端末の構成例を示す図である。本開示に係る検出処理の流れを示す図である。本開示の第２の実施形態に係る情報処理装置の構成例を示す図である。情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。

（１．第１の実施形態）
［１−１．第１の実施形態に係る情報処理の概要］
まず、図１を用いて、本開示に係る情報処理システム１の構成、及び、情報処理システム１によって実行される情報処理の概要を説明する。図１は、本開示の第１の実施形態に係る情報処理の概要を示す図である。本開示の第１の実施形態に係る情報処理は、図１に示す情報処理システム１によって実現される。情報処理システム１は、情報処理装置１００と、ユーザ端末１０とを含む。情報処理装置１００とユーザ端末１０は、図示しない有線又は無線ネットワークを用いて相互に通信を行う。なお、情報処理システム１を構成する各装置の台数は、図示したものに限られない。

情報処理装置１００は、本開示に係る情報処理装置の一例であり、各ユーザに対応するＨＲＴＦ（頭部伝達関数）を算出し、算出したＨＲＴＦを提供する。情報処理装置１００は、例えばサーバ装置等によって実現される。

ユーザ端末１０は、ＨＲＴＦの提供を受けようとするユーザによって利用される情報処理端末である。ユーザ端末１０は、例えば、撮影機能を有したスマートフォン等によって実現される。図１の例では、ユーザ端末１０は、ユーザの一例であるユーザＵ０１によって利用される。

ＨＲＴＦは、人間の耳介（耳殻）や頭部の形状等を含む周辺物によって生じる音の変化を伝達関数として表現するものである。一般に、ＨＲＴＦを求めるための測定データは、人間が耳介内に装着したマイクロホンやダミーヘッドマイクロホン等を用いて測定用の音響信号を測定することにより取得される。

例えば３Ｄ音響等の技術で利用されるＨＲＴＦは、ダミーヘッドマイクロホン等で取得された測定データや、多数の人間から取得された測定データの平均値等を用いて算出されることが多い。しかしながら、ＨＲＴＦは個人差が大きいことから、より効果的な音響演出効果を実現するためには、ユーザ自身のＨＲＴＦを用いることが望ましい。すなわち、一般的なＨＲＴＦをユーザ自身のＨＲＴＦに置き換えることで、より臨場感のある音響体感をユーザに提供することができる。

しかし、ユーザのＨＲＴＦを個別に測定するためには、種々の問題がある。例えば、優れた音響効果をもたらすＨＲＴＦを得るためには、比較的高密度な測定データが必要となる。高密度な測定データを取得するためには、ユーザを取り囲む様々な角度からユーザに対して出力された音響信号の測定データが必要となる。このような測定は長時間を要し、ユーザの身体的な負担が大きくなる。また、正確な測定には無響室等での測定が必要となるため、コスト的な負担も大きい。このため、ＨＲＴＦの算出では、ユーザの負担を軽減することや、測定コストを軽減させること等が課題となる。

上記の課題に関して、ユーザの耳や頭部を３Ｄモデルで表現し、３Ｄモデル上で音響シミュレーションを行うことで、疑似的な測定を行う技術が存在する。かかる技術によれば、ユーザは、頭部のスキャンデータや頭部を撮影した画像を提供することで、測定室での実測を行うことなくＨＲＴＦを算出させることができる。

しかしながら、３Ｄモデルの生成処理や、３Ｄモデルに対する音響シミュレーションは、計算の処理負荷が非常に大きい。このため、上記技術を利用して、例えば３Ｄ音響を利用するソフトウェア等にユーザ固有のＨＲＴＦを組み込もうとしても、数十分や数時間のタイムラグが生じるおそれがある。このことは、ユーザにとって利便性が高いとは言い難い。すなわち、ＨＲＴＦをユーザに活用させるという観点からすると、ＨＲＴＦの算出においては、処理速度を向上させるという課題も存在する。

以上のように、ユーザ個人に対応したＨＲＴＦを得るためには、種々の課題が存在する。本開示に係る情報処理装置１００は、本開示の情報処理により、上記の課題を解決する。

具体的には、情報処理装置１００は、耳の映像を含む画像が入力された場合に、当該耳に対応するＨＲＴＦを出力するよう学習された学習済みモデル（以下、単に「モデル」と表記する）を用いて、ユーザに対応するＨＲＴＦを算出する。例えば、情報処理装置１００は、ユーザＵ０１の耳の映像を含む画像をユーザ端末１０から取得した場合、当該画像をモデルに入力して、ユーザＵ０１固有のＨＲＴＦを算出する。すなわち、情報処理装置１００は、ユーザＵ０１の画像に基づいて３Ｄモデルを生成して音響シミュレーションを行う、といった過程を経ることなく、ＨＲＴＦを算出する。

これにより、情報処理装置１００は、音響シミュレーションを実行した場合と比較して、極めて短時間でＨＲＴＦの算出を行うことができる。以下、本開示に係る情報処理装置１００が実行する情報処理の概要について、図１を用いて流れに沿って説明する。

図１に示すように、ユーザＵ０１は、自身の耳の映像を含む画像を取得するため、頭部横側から自身を撮影する（ステップＳ１）。例えば、ユーザＵ０１は、ユーザ端末１０が備えるカメラを利用して、自身の頭部を撮影する。なお、本開示において、耳の画像とは、一般にユーザ端末１０等で撮影可能な２次元カラー画像に限らず、モノクロ画像や、深度情報を含むデプス画像や、それらを任意に組み合わせたものであってもよい。また、本開示の処理に用いられる画像は、１枚でなく、複数の画像であってもよい。

ユーザ端末１０は、ステップＳ１によって得られた画像５に対して、情報処理装置１００に送信するための前処理を実行する（ステップＳ２）。具体的には、ユーザ端末１０は、前処理として、画像５に含まれるユーザＵ０１の耳の映像を検出し、検出した耳の映像の範囲を画像５から切り抜く処理を行う。なお、耳の検出等の前処理について、詳細は後述する。

ユーザ端末１０は、前処理によって、ユーザＵ０１の耳の映像を含む画像６を作成する。そして、ユーザ端末１０は、画像６を情報処理装置１００に送信する（ステップＳ３）。なお、撮影によって得られた画像５から画像６を作成する処理や、画像６を送信する処理等の一連の処理は、例えば情報処理装置１００から提供されるプログラム（例えばスマートフォン用のアプリケーション）によって実行される。このように、本開示に係る情報処理では、画像５から耳の映像のみを切り抜いた画像６のみをネットワーク上に送信し、個人が特定されるおそれのある画像５を送信しないため、安全性に優れた処理を実現できる。また、情報処理装置１００は、画像５を取得せず画像６のみを取得することで、個人情報を取り扱うリスクを避けることができる。なお、情報処理装置１００は、ユーザ端末１０から画像５を取得し、情報処理装置１００側で画像６を作成する処理を行ってもよい。この構成については、第２の実施形態として後述する。

情報処理装置１００は、ユーザ端末１０から送信された画像６を取得する。そして、情報処理装置１００は、記憶部１２０内に格納されたモデルに画像６を入力する（ステップＳ４）。このモデルは、耳の映像を含む２次元の画像が入力された場合に、当該耳に対応するＨＲＴＦを出力するよう学習されたモデルである。すなわち、情報処理装置１００は、画像６をモデルに入力することで、画像６に含まれる耳（言い換えればユーザＵ０１）に対応したＨＲＴＦを算出する。

そして、情報処理装置１００は、算出したＨＲＴＦをユーザ端末１０に提供する（ステップＳ５）。このように、ユーザＵ０１は、自身の横顔を撮影して画像５のみを準備しさえすれば、実際の測定処理や３Ｄモデルの音響シミュレーション等を経ることなく、自身に固有のＨＲＴＦを得ることができる。すなわち、情報処理装置１００は、ユーザＵ０１に測定の負担を掛けることなく、極めて短時間でＨＲＴＦをユーザＵ０１に提供することができる。結果として、情報処理装置１００は、ＨＲＴＦに関する処理においてユーザの利便性を向上させることができる。

上述したように、本開示に係る情報処理では、学習処理を経て作成したモデルを利用してＨＲＴＦを算出することにより、処理の高速化を図る。図１では本開示に係る情報処理のうち、ユーザＵ０１にＨＲＴＦを提供する処理の概要を示したが、図２以下では、モデルの学習処理を含めた、情報処理装置１００による一連の情報処理を詳細に説明する。なお、詳細は図２以下で説明するが、図１で示した「モデル」とは、必ずしも一つのモデルを示すものではなく、種々の数値を出力する複数のモデルを組み合わせたものであってもよい。

［１−２．本開示に係る情報処理の全体の流れ］
情報処理装置１００の構成等の詳細の説明に先立って、本開示に係る情報処理装置１００が実行する情報処理の全体の流れを図２に示す。図２は、本開示に係る情報処理の全体の流れを示した概念図である。

まず、情報処理装置１００は、複数の人物の耳型に関するデータを採取し、採取した耳型に基づいて、耳モデルを作成する（ステップＳ１１）。なお、耳型とは、必ずしも石膏等で人物の耳をかたどったものに限らず、人物の耳の形状を示す情報であれば、どのような情報であってもよい。また、本開示において、耳モデルとは、耳の特徴を示したパラメータ（以下、「耳パラメータ」と称する）が入力された場合に、対応する耳の形状を出力するモデルである。耳パラメータは、例えば、耳の形状に関するデータ（例えば、採取した耳型をＣＴ（Computed Tomography）スキャンによってデータ化したもの）に基づいて、耳の形状を主成分分析することにより得られる。これにより、情報処理装置１００は、耳パラメータが得られれば、当該耳パラメータに対応する耳の形状のデータ（言い換えれば、耳を模した３Ｄモデル）を得られることになる。

その後、情報処理装置１００は、耳モデルに基づいて、耳パラメータ推定モデルを生成する（ステップＳ１２）。情報処理装置１００は、ステップＳ１１で生成した耳モデルに耳パラメータを入力することにより、多数の耳画像を生成可能である。耳パラメータは、ランダムに入力されてもよいし、任意の規則（例えば、特定の人種ごとに耳の形状に特定の傾向がある事実が発見されれば、当該事実に基づいて規則を導出してもよい）に沿って耳パラメータを自動的に生成し、生成した値が入力されてもよい。このため、情報処理装置１００は、生成した耳画像と、生成元となった耳パラメータとの関係性を学習することで、耳を含む画像が入力された場合に、当該耳に対応する耳パラメータを出力するモデルを生成することができる。かかるモデルが、耳パラメータ推定モデルである。これにより、情報処理装置１００は、耳の映像を含む２次元の画像が得られれば、当該耳に対応する耳パラメータを得られることになる。そして、情報処理装置１００は、耳パラメータが得られれば、ステップＳ１１で生成した耳モデルを用いて、画像に含まれる耳の３Ｄモデルが得られることになる。なお、上記の学習については、耳の形状がデータ化された当人の耳を撮影した画像と、データ化された耳を耳パラメータに変換したものとの関係性を学習してもよい。この場合、ＣＧ（Computer Graphics）画像ではなく、実際の撮影画像を用いた学習が行われるため、生成される耳パラメータ推定モデルの精度をより高めることができると想定される。

情報処理装置１００は、耳パラメータ推定モデルを用いて生成した３Ｄモデルに対して音響シミュレーションを行い、当該３Ｄモデルに対応する固有のＨＲＴＦ（以下、このような個々の耳形状に対応して生成されたＨＲＴＦを「個人化ＨＲＴＦ」と称する）を算出する（ステップＳ１３）。すなわち、ステップＳ１１乃至ステップＳ１３の過程を経ることで、情報処理装置１００は、耳を含む画像から、音響シミュレーションによって個人化ＨＲＴＦを算出するための一連の処理が実現可能となる。

さらに、情報処理装置１００は、ランダムもしくは規則的に生成した耳パラメータから多数の３Ｄモデルを生成し、生成した３Ｄモデルに対して音響シミュレーションを行う処理を繰り返すことで、耳パラメータと個人化ＨＲＴＦとの関係性を学習する。すなわち、情報処理装置１００は、算出した個人化ＨＲＴＦに基づいて、ＨＲＴＦ学習モデルを生成する（ステップＳ１４）。

本開示において、ＨＲＴＦ学習モデルとは、耳パラメータが入力された場合に、当該耳パラメータに対応する個人化ＨＲＴＦを出力するモデルである。これにより、情報処理装置１００は、耳パラメータが得られれば、当該耳パラメータに対応する個人化ＨＲＴＦを得られることになる。

この後、情報処理装置１００は、ユーザから画像を取得した場合には、当該画像（より正確には、画像に含まれる耳の耳パラメータ）をＨＲＴＦ学習モデルに入力することで、ユーザの個人化ＨＲＴＦを算出する（ステップＳ１５）。ステップＳ１５に示した処理は、図１で示した一連の処理に対応する。

上記のように、情報処理装置１００は、複数のモデルを生成し、生成したモデルを用いた情報処理を行うことで、ユーザから取得した画像から個人化ＨＲＴＦを算出することができる。なお、図２で示した処理は、必ずしもステップＳ１１〜Ｓ１５の順に実行されることを要しない。例えば、情報処理装置１００は、処理に要する各モデルを生成したのちは、ステップＳ１５の処理を行うのみでよい。

以上、本開示に係る情報処理の全体の流れの概要を説明した。図３以下では、情報処理装置１００及びユーザ端末１０の構成を説明するとともに、種々の学習処理の詳細を順に説明する。

［１−３．第１の実施形態に係る情報処理装置の構成］
図３を用いて、第１の実施形態に係る情報処理装置１００の構成について説明する。図３は、本開示の第１の実施形態に係る情報処理装置１００の構成例を示す図である。

図３に示すように、情報処理装置１００は、通信部１１０と、記憶部１２０と、制御部１３０とを有する。なお、情報処理装置１００は、情報処理装置１００を管理する管理者等から各種操作を受け付ける入力部（例えば、キーボードやマウス等）や、各種情報を表示するための表示部（例えば、液晶ディスプレイ等）を有してもよい。

通信部１１０は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。通信部１１０は、ネットワークＮ（インターネット等）と有線又は無線で接続され、ネットワークＮを介して、ユーザ端末１０等との間で情報の送受信を行う。

記憶部１２０は、例えば、ＲＡＭ（Random Access Memory)、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部１２０は、学習処理に用いる各種データや、学習処理によって生成されたモデル等を記憶する。

図３に示すように、記憶部１２０は、耳型情報記憶部１２１と、耳モデル記憶部１２２と、耳画像記憶部１２３と、耳パラメータ推定モデル記憶部１２４と、ＨＲＴＦ処理モデル記憶部１２５と、ＨＲＴＦ学習データ記憶部１２６と、ＨＲＴＦ学習モデル記憶部１２７とを有する。

耳型情報記憶部１２１は、実際に人体から採取された耳型を３Ｄモデルデータ化した情報（すなわち、耳の形状に関する情報）を記憶する。具体的には、耳型情報記憶部１２１は、採取された耳型をＣＴスキャンすることにより得られた、３次元形状を示すデータ（３Ｄポリゴン等）を記憶する。

耳モデル記憶部１２２は、本開示に係る耳モデルを記憶する。耳モデルは、耳の特徴を示した耳パラメータが入力された場合に、対応する耳の形状を出力するモデルである。

耳パラメータは、耳型情報記憶部１２１に記憶された耳型の形状を示すデータを主成分分析することにより得られる。すなわち、耳パラメータは、耳の３Ｄポリゴンに対して統計的に分析（主成分分析）を行うことにより、耳の中で変化の大きい（耳の形状を特徴付ける）部位を数値化したものである。本開示に係る耳パラメータは、例えば１０の数値の組み合わせで示され、また各々の数値は、例えばマイナス１０からプラス１０までの数値で示される。例えば、全ての数値が「０」である耳パラメータは、学習データ（採取された耳型）の平均的な形状を有する耳に対応する。なお、情報処理装置１００は、主成分分析によって耳の形状を示すモデルの生成処理について、例えば人物の顔の生成処理等で用いられる既知の技術を適宜適用してもよい。また、情報処理装置１００は、主成分分析に限らず、独立成分分析やその他の非線形モデルなど、既知の分析手法を適宜用いて、耳パラメータを生成してもよい。ここで、耳パラメータは、耳の中で変化の大きい部位を数値化したものに限らず、例えば、ＨＲＴＦに対する影響が大きくなるような、耳の形状に関する特徴をパラメータ化したものであってもよい。

耳画像記憶部１２３は、耳の映像を含む画像を記憶する。例えば、耳画像記憶部１２３は、耳画像として、耳モデルによって生成された耳の形状（耳の３Ｄモデル）をレンダリングして得られたＣＧ画像を記憶する。また、耳画像記憶部１２３は、耳画像として、ユーザから送信された耳の映像を含む画像を記憶してもよい。

ここで、図４に、本開示に係る耳画像記憶部１２３の一例を示す。図４は、本開示の耳画像記憶部１２３の一例を示す図である。図４に示した例では、耳画像記憶部１２３は、「耳パラメータ」、「耳３Ｄモデルデータ」、「頭部３Ｄモデルデータ」、「耳画像ＩＤ」、「画像生成パラメータ」といった項目を有する。また、「画像生成パラメータ」は、「テクスチャ」、「カメラ角度」、「解像度」、「明度」といった小項目を有する。

「耳パラメータ」は、耳の形状の特徴を示すパラメータである。例えば、耳パラメータは、１０次元の数値等によって表記される。「耳３Ｄモデルデータ」は、耳パラメータに基づいて再構成された耳の３次元形状を示すデータである。「頭部３Ｄモデルデータ」は、人物の３Ｄモデルの再構成の際に、耳３Ｄモデルデータが合成される頭部の３次元形状を示すデータである。

「耳画像ＩＤ」は、３Ｄモデルをレンダリングして得られる耳画像を識別する識別情報を示す。図４に示すように、耳画像は、レンダリングの際に設定されるパラメータ（画像生成パラメータ）を様々に変更することによって、１つの３Ｄモデルから複数が生成される。

「画像生成パラメータ」は、画像を生成するためのレンダリングにおける設定パラメータを示す。「テクスチャ」は、ＣＧのテクスチャの設定を示す。「カメラ角度」は、３Ｄモデルをレンダリングして２次元の画像を得る際の、疑似的なカメラの撮影角度を示す。「解像度」は、レンダリングの際の解像度を示す。「明度」は、レンダリングの際の明度を示す。明度の項目には、レンダリングにおける光（入射光）の角度等の設定データ等が含まれてもよい。

なお、図４では、各項目のデータを「Ａ０１」や「Ｂ０１」のように概念的に記載しているが、実際には、各項目のデータには、各項目に対応した具体的なデータが記憶される。例えば、「耳パラメータ」の項目には、具体的な１０種類の数値の羅列が記憶される。他の項目も同様、各項目に対応した各種数値や情報が記憶される。

すなわち、図４に示した例では、耳パラメータ「Ａ０１」によって生成された耳３Ｄモデルデータは「Ｂ０１」であり、また、当該耳３Ｄモデルデータと組み合されて、人物の３Ｄモデルを構成する頭部３Ｄモデルデータは「Ｃ０１」であることを示している。また、生成された人物の３Ｄモデルから得られた耳画像は、耳画像ＩＤ「Ｄ０１」、「Ｄ０２」、「Ｄ０３」等で識別される複数の耳画像であることを示している。また、耳画像ＩＤ「Ｄ０１」で識別される耳画像は、レンダリングの際の画像生成パラメータとして、テクスチャが「Ｅ０１」であり、カメラ角度が「Ｆ０１」であり、解像度が「Ｇ０１」であり、明度が「Ｈ０１」であることを示している。

図３に戻り、説明を続ける。耳パラメータ推定モデル記憶部１２４は、耳パラメータ推定モデルを記憶する。耳パラメータ推定モデルは、耳の映像を含む２次元画像が入力された場合に、当該耳に対応する耳パラメータを出力するモデルである。

ＨＲＴＦ処理モデル記憶部１２５は、ＨＲＴＦ処理モデルを記憶する。詳細は後述するが、ＨＲＴＦ処理モデルは、音響シミュレーション等によって算出されたＨＲＴＦの情報量を圧縮する処理を行う。なお、以下の説明では、ＨＲＴＦ処理モデルによって圧縮されたＨＲＴＦを、ＨＲＴＦパラメータと称する場合がある。

ＨＲＴＦ学習データ記憶部１２６は、耳の映像を含む画像からＨＲＴＦを算出するためのモデル（後述するＨＲＴＦ学習モデル）を生成するための学習データを記憶する。具体的には、ＨＲＴＦ学習データ記憶部１２６は、学習データとして、耳の形状を示す耳パラメータと、当該耳パラメータに基づいて特定される耳の形状に対応したＨＲＴＦとが組み合わせられたデータを記憶する。

ＨＲＴＦ学習モデル記憶部１２７は、ＨＲＴＦ学習モデルを記憶する。ＨＲＴＦ学習モデルは、耳の映像を含む画像が入力された場合に、当該耳に対応するＨＲＴＦを出力するモデルである。例えば、ＨＲＴＦ学習モデルは、耳の映像を含む画像を取得した場合に、耳パラメータ推定モデルを用いて当該耳に対応する耳パラメータを出力させ、さらに、当該耳パラメータに対応するＨＲＴＦを出力する。

制御部１３０は、例えば、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）等によって、情報処理装置１００内部に記憶されたプログラム（例えば、本開示に係る情報処理プログラム）がＲＡＭ（Random Access Memory）等を作業領域として実行されることにより実現される。また、制御部１３０は、コントローラ（controller）であり、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現されてもよい。

図３に示すように、制御部１３０は、学習部１３１と、推定部１４０とを有する。また、学習部１３１は、受付部１３２と、耳モデル学習部１３３と、画像生成部１３４と、耳パラメータ学習部１３５と、ＨＲＴＦ学習部１３６とを有し、以下に説明する情報処理の機能や作用を実現または実行する。また、推定部１４０は、取得部１４１と、算出部１４２と、提供部１４３とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部１３０の内部構成は、図３に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。

まず、学習部１３１について説明する。学習部１３１は、各種データに関する学習処理を行い、推定部１４０が利用する各種モデルを生成する。

なお、学習部１３１は、種々のデータに基づいてモデルを生成するための学習を行うが、下記で説明する学習処理は一例であり、学習部１３１が実行する学習処理の種別は何らかの種別に特定されない。例えば、学習部１３１は、ニューラルネットワーク、サポートベクターマシン（support vector machine）、クラスタリング、強化学習等の各種学習アルゴリズムを用いてモデルを生成してもよい。

受付部１３２は、各種情報を受け付ける。例えば、受付部１３２は、人体から採取された耳型のＣＴスキャンデータを受け付ける。受付部１３２は、受け付けたデータを耳型情報記憶部１２１に格納する。

耳モデル学習部１３３は、耳モデルに関する学習処理を行い、耳モデルを生成する。耳モデル学習部１３３は、生成した耳モデルを耳モデル記憶部１２２に格納する。

ここで、図５を用いて、受付部１３２及び耳モデル学習部１３３が実行する学習処理の例について説明する。図５は、本開示に係る耳モデルに関する学習処理の一例を示す図である。

図５に示すように、受付部１３２は、耳型から採取され、スキャンされたデータを受け付け、受け付けたデータを耳型情報記憶部１２１に格納する。また、受付部１３２は、受け付けたデータを耳モデル学習部１３３に送る（ステップＳ１６）。

耳モデル学習部１３３は、取得した耳型データを相同化し、耳型の相同データを生成する（ステップＳ１７）。ここで、相同化とは、３Ｄモデルの頂点数やポリゴンの構成を、基準となる３Ｄモデルと同一になるよう統一することをいう。この場合、相同化の前後で形状が変化しないよう留意する。さらに、耳モデル学習部１３３は、相同データに対して主成分分析を行う（ステップＳ１８）。これにより、耳モデル学習部１３３は、耳の形状から、当該耳の形状を示す耳パラメータを算出するモデル（耳モデル）を生成する。耳モデル学習部１３３は、生成した耳モデルを耳モデル記憶部１２２に格納する。

図３に戻り、説明を続ける。画像生成部１３４は、耳の映像を含む画像を生成する。例えば、画像生成部１３４は、耳パラメータをランダムに生成し、生成した耳パラメータを耳モデルに入力して、耳の３Ｄモデルを生成する。さらに、画像生成部１３４は、生成した３Ｄモデルのテクスチャ（例えば肌の色）や、レンダリング品位（画質等）、ＣＧレンダリングにおけるカメラ角度等のパラメータ（以下、「画像生成パラメータ」と称する）をランダムに生成する。そして、画像生成部１３４は、生成した３Ｄモデルと、複数の画像生成パラメータとを適宜組み合わせてレンダリングを行い、耳の形状や肌の色などが多様に変化するＣＧ画像を生成する。

後述する推定処理ではユーザから送信される画像を処理に用いるが、ユーザから送信される画像では、ユーザの肌の色や、撮影時の耳の角度等が様々に異なる可能性が高いと想定される。このため、かかる処理では、ユーザから送信されるあらゆる画像において耳の映像を的確に画像認識するという課題がある。画像生成部１３４は、上記のように様々な状況に対応した画像を大量に生成することで、画像認識の精度を向上させ、上記の課題を解決する。

耳パラメータ学習部１３５は、耳の映像を含む画像と、耳パラメータとの関係性を学習することにより、耳パラメータ推定モデルを生成する。耳パラメータ学習部１３５は、本開示に係る第１学習部に対応する。耳の映像を含む画像とは、実際に人物の耳を撮影した画像であってもよいし、後述するように、耳パラメータに基づいて生成されるＣＧ画像であってもよい。

例えば、耳パラメータ学習部１３５は、耳パラメータに基づいて生成された耳の３次元データと、頭部の３次元データとを合成した３次元データをレンダリングすることで得られる耳画像と、当該耳パラメータとの関係性を学習することにより、耳パラメータ推定モデルを生成する。具体的には、耳パラメータ学習部１３５は、画像生成部１３４によって生成されたＣＧ画像と、耳パラメータとの関係性を学習する。上述のように、画像生成部１３４は、ランダムもしくは規則的に設定した耳パラメータに基づいてＣＧ画像を生成しているため、当該ＣＧ画像に対して耳パラメータは一意に定まる。このため、耳パラメータ学習部１３５は、入力されたＣＧ画像と耳パラメータとの関係性を学習することで、ある画像が入力された場合に、当該画像に含まれる耳の映像に対応した耳パラメータを出力するモデルを生成することができる。なお、耳パラメータ学習部１３５は、必ずしも、頭部の合成された３次元データをレンダリングすることで得られる耳画像を学習に用いなくてもよい。すなわち、耳パラメータ学習部１３５は、耳パラメータに基づいて生成された耳の３次元データのみをレンダリングして得られた耳画像と、耳パラメータとの関係性を学習することにより、耳パラメータ推定モデルを生成してもよい。

また、耳パラメータ学習部１３５は、耳もしくは頭部の３次元データのテクスチャ、レンダリングにおけるカメラ角度又はレンダリングにおける明度等を変更した複数の耳画像と、複数の耳画像に共通する耳パラメータとの関係性を学習することにより、耳パラメータ推定モデルを生成する。このように、耳パラメータ学習部１３５は、様々な態様の耳画像を用いて学習を行うことにより、どのような画像が入力されても正確に耳パラメータを出力できる（例えば、入力された画像に含まれる耳パラメータ以外のあらゆる変化に対して安定的な推定を行うことができる）、安定感のあるロバスト（robust）なモデルを生成することができる。

ここで、図６を用いて、画像生成部１３４及び耳パラメータ学習部１３５が実行する学習処理の例について説明する。図６は、本開示に係る耳パラメータ推定モデルに関する学習処理の一例を示す図である。

図６に示すように、画像生成部１３４は、耳モデル記憶部１２２を参照し（ステップＳ２１）、耳モデルを取得する。また、画像生成部１３４は、耳パラメータに対応する乱数や、ＣＧのテクスチャやレンダリングのカメラ角度等に対応する乱数を生成する（ステップＳ２２）。すなわち、画像生成部１３４は、耳画像を生成するための各種パラメータ（画像生成パラメータ）を生成する。

そして、画像生成部１３４は、画像生成パラメータのうち耳パラメータを取得し（ステップＳ２３）、取得した耳パラメータを耳モデルに入力して、耳の３Ｄモデルを再構成する（ステップＳ２４）。

続けて、画像生成部１３４は、画像生成パラメータのうちＣＧテクスチャ等のパラメータを取得し（ステップＳ２５）、取得したパラメータを入力して、３Ｄモデルに３ＤＣＧレンダリングを施す（ステップＳ２６）。なお、レンダリングに用いる際の頭部については、例えば、複数の人物（例えば、耳型を採取した複数の人物）の平均的な頭部や、サンプルとして利用される頭部の３Ｄモデル等を用いる。ここで、頭部の３Ｄモデルは、耳モデルと同様、複数の人物の頭部を３Ｄスキャンして得られる３Ｄデータを相同化して生成してもよい。この場合、画像生成部１３４は、乱数によるパラメータ生成を行うことにより、頭部３Ｄモデルをランダムに生成させることができる。なお、画像生成部１３４は、テクスチャについても、同様の手法により生成されたテクスチャモデルを作成することで、乱数により種々のテクスチャを生成することができる。

これにより、画像生成部１３４は、耳の映像を含む画像（耳画像）を生成する。なお、画像生成部１３４は、テクスチャ等のパラメータを様々に変化させることで、１つの３Ｄモデルから、複数の耳画像を生成することが可能である。

ここで、図７を用いて、画像生成部１３４が生成する耳画像の一例を示す。図７は、本開示に係る耳画像の生成処理の一例を示す図である。

画像生成部１３４は、ランダムに生成した耳パラメータを用いて、耳の３次元形状を示す３Ｄモデルを生成する（ステップＳ４１）。また、画像生成部１３４は、複数の人物の平均的な頭部の３次元形状を示すデータに基づいて生成された頭部３Ｄモデルを取得する（ステップＳ４２）。そして、画像生成部１３４は、ステップＳ４１で生成した耳と、ステップＳ４２で取得した頭部３Ｄモデルとを合成し、疑似的な人物の３Ｄモデルを生成する。

続けて、画像生成部１３４は、生成した３Ｄモデルに対して疑似的な撮影を行い、３Ｄモデルから２次元の画像を生成する処理（レンダリング）を行う。例えば、画像生成部１３４は、３Ｄモデルの耳の正面の角度を疑似的な撮影角度と設定し、耳の映像が略中央となる画像を生成する。

ここで、画像生成部１３４は、３Ｄモデルに画像生成パラメータをランダムに入力することにより、ＣＧのテクスチャ（具体的には肌の色等）や、レンダリングの品位（解像度等）や、頭部に対する耳の位置などを様々に変更する。これにより、画像生成部１３４は、肌の色等がそれぞれ異なる多数の画像を生成することができる（ステップＳ４３）。

画像群２０は、画像生成部１３４により生成された複数の耳画像を示す。このように、画像生成部１３４は、多様な耳画像を多数生成することにより、後述する耳画像の認識精度を向上させることができる。

図６に戻り、説明を続ける。画像生成部１３４は、生成した耳画像を耳画像記憶部１２３に記憶する（ステップＳ２７）。なお、画像生成部１３４は、生成した耳画像に対応付けて、それぞれの画像を生成した際の画像生成パラメータを耳画像記憶部１２３に記憶する（ステップＳ２８）。これにより、画像生成部１３４は、学習データとして、耳パラメータが対応付けられた耳画像を大量に保持することができる。例えば、画像生成部１３４は、学習データとして、耳パラメータが対応付けられた耳画像を大量に保持することができる。

続けて、耳パラメータ学習部１３５は、耳画像記憶部１２３を参照し（ステップＳ２９）、耳画像と耳パラメータを取得する。そして、耳パラメータ学習部１３５は、耳画像と耳パラメータとの関係性を学習し、耳パラメータ推定モデルを生成する。耳パラメータ学習部１３５は、生成した耳パラメータ推定モデルを耳パラメータ推定モデル記憶部１２４に格納する（ステップＳ３０）。

耳パラメータ推定モデルは、例えば、画像の特徴量を抽出するために有用な畳み込みニューラルネットワーク（Convolutional Neural Network）等を利用して生成される。なお、学習におけるコスト式（コスト関数）は、例えば下記式（１）で示される。

式（１）において、「α_true」は、耳パラメータの真値を示す。また、「α_est」は、耳パラメータの推定値を示す。また、「Ａ_ear」は、主成分分析による耳モデルを示す。また、右辺の距離関数は、Ｌ２ノルム（ユークリッド距離）を示す。なお、耳モデルパラメータの真値は、例えば、耳型の採取の際に実測された人物の耳を示すパラメータ等を用いることができる。すなわち、耳画像を生成する際に用いた耳パラメータが真値であり、学習中の耳パラメータ推定モデルに、当該耳画像を入力した際に出力する値が推定値となる。情報処理装置１００は、学習処理として、現在の推定値に対するコスト式の値を最小化するよう係数を更新する。

ここで、図８を用いて、耳パラメータ学習部１３５が生成した耳パラメータ推定モデルについて説明する。図８は、本開示に係る耳パラメータ推定モデルを説明するための図である。

情報処理装置１００は、耳画像３０を取得した場合、取得した耳画像３０を耳パラメータ推定モデルに入力する。耳パラメータ推定モデルは例えば畳み込みニューラルネットワークの構造を有し、入力された耳画像３０における数ピクセルごとの矩形部に分割しながら、耳画像３０を示す特徴量を求める。最終的に、耳パラメータ推定モデルは、耳画像３０を示す特徴量として、耳画像３０に含まれる耳の映像に対応する耳パラメータを出力する（ステップＳ４５）。

なお、情報処理装置１００は、出力された耳パラメータを耳モデルに入力することにより、耳画像３０に含まれる耳に対応した耳型（３Ｄモデル）を再構成することができる。図８に示す３Ｄモデル４０は、耳パラメータに基づいて、耳画像３０に含まれる耳をＣＧで再構成した３Ｄモデルを示す。

図３に戻り、説明を続ける。ＨＲＴＦ学習部１３６は、耳の形状に関する情報とＨＲＴＦとの関係性を学習することにより、ＨＲＴＦに関する各種モデルを生成する。例えば、ＨＲＴＦ学習部１３６は、耳の映像を含む画像と、耳に対応するＨＲＴＦとの関係性を学習することにより、ＨＲＴＦを算出する学習済みモデルを生成する。ＨＲＴＦ学習部１３６は、本開示に係る第２学習部に対応する。

例えば、ＨＲＴＦ学習部１３６は、耳パラメータに基づいて生成された耳の３次元データと頭部の３次元データとを合成した３次元データに対して音響シミュレーションを行い、音響シミュレーションによって得られたＨＲＴＦと、耳パラメータとの関係性を学習することにより、学習済みモデルを生成する。

また、ＨＲＴＦ学習部１３６は、音響シミュレーションによって得られたＨＲＴＦの情報量を圧縮し、圧縮したＨＲＴＦと、耳パラメータとの関係性を学習することにより、学習済みモデルを生成してもよい。

また、ＨＲＴＦ学習部１３６は、耳パラメータに基づいて生成された耳の３次元データの聴取点を設定し、設定した聴取点を用いて音響シミュレーションを行ってもよい。聴取点とは、人間が音を聴取すると想定される位置を仮想的に設定したものである。例えば、聴取点の位置は、ダミーヘッドマイクロホンにおいてマイクが設置される位置（ダミーヘッドにおける外耳道の入り口等）に対応する。

上述したＨＲＴＦ学習部１３６の各処理に関して、図９に、ＨＲＴＦに関する各種モデルの生成処理の流れを示す。図９は、ＨＲＴＦに関する各種モデルの生成処理の流れの概要を示す図である。

図９では、ＨＲＴＦ学習部１３６がユーザから送信された画像に基づいて、所定の学習処理を行う例を示している。この場合、ユーザは、ユーザ端末１０を利用して自身の耳（正確には、耳を含む頭部）を撮影する（ステップＳ５１）。その後、ユーザ端末１０は、撮影写真から耳の映像が含まれる範囲を特定し、特定した範囲を切り抜いて、耳画像を取得するという前処理を行う（ステップＳ５２）。

その後、ＨＲＴＦ学習部１３６は、耳パラメータ推定モデルを利用して、ユーザから送信された耳画像に含まれる耳の耳パラメータを算出する（ステップＳ５３）。さらに、ＨＲＴＦ学習部１３６は、耳パラメータに基づいて耳の３Ｄモデルを再構成し、さらに再構成した耳に頭部３Ｄモデルを組み合わせて、人物の３Ｄモデルを生成する（ステップＳ５４）。

続けて、ＨＲＴＦ学習部１３６は、生成した３Ｄモデルに対して音響シミュレーションを行い、当該３Ｄモデルの個人化ＨＲＴＦ（ステップＳ５５）を求める。これにより、ＨＲＴＦ学習部１３６は、ユーザから送信される耳画像に含まれる耳と、個人化ＨＲＴＦとが対応付けられた学習データを得ることができる。

なお、図９の例では、音響シミュレーションにより得られた個人化ＨＲＴＦと耳のデータとが対応付けられた学習データを生成する例を示したが、ＨＲＴＦ学習部１３６は、必ずしも音響シミュレーションにより個人化ＨＲＴＦを得る必要がない場合もある。例えば、耳型を採取した人物の個人化ＨＲＴＦ（無響室等で測定装置を用いて得られたＨＲＴＦ）が得られている場合には、ＨＲＴＦ学習部１３６は、実測された個人化ＨＲＴＦと、人物の耳型（耳パラメータ）とが対応付けられた学習データを取得してもよい。

ＨＲＴＦ学習部１３６は、音響シミュレーションに際して、人物の３Ｄモデルにおける聴取点を自動的に設定する。この点について、図１０を用いて説明する。図１０は、本開示に係る３Ｄモデルの再構成を説明するための図である。

ＨＲＴＦ学習部１３６は、ランダムに生成された耳パラメータから耳３Ｄモデルを再構成する（ステップＳ７１）。続けて、ＨＲＴＦ学習部１３６は、耳３Ｄモデルを頭部３Ｄモデルに組み合わせて人物の３Ｄモデルを生成する（ステップＳ７２）。さらに、ＨＲＴＦ学習部１３６は、３Ｄモデルにおける耳の形状に基づいて、音源の聴取点６０を設定する（ステップＳ７３）。例えば、ＨＲＴＦ学習部１３６は、予め、耳の形状と音源の聴取点の位置とを対応付けた情報を学習することにより、聴取点を自動的に設定することができる。例えば、ＨＲＴＦ学習部１３６は、３Ｄモデルを生成した時点で、当該３Ｄモデルにおける聴取点の位置を推定し、聴取点を自動的に設定する。聴取点は、例えば耳の外耳道に対応し、一般に、耳の形状から位置を推定することができる。

その後、ＨＲＴＦ学習部１３６は、音響シミュレーションにおける３Ｄモデルの計算上の制約を満たすよう、生成した３Ｄモデルをリメッシュする（ステップＳ７４）。これは、３Ｄモデルのシミュレーションにおいて、例えばポリゴンの総数に対する上限や、頂点をつなぐエッジの長さなどがシミュレーションの条件によって定められることがあることによる。すなわち、ＨＲＴＦ学習部１３６は、生成した３Ｄモデルをシミュレーションにかける前に、計算上の制約を満たすよう３Ｄモデルを適宜リメッシュし、シミュレーションを適切に行うことができるよう処理する。そして、ＨＲＴＦ学習部１３６は、生成した３Ｄモデル及び設定した聴取点６０に対して音響シミュレーションを行い、個人化ＨＲＴＦを算出する（ステップＳ７５）。

次に、図１１を用いて、ＨＲＴＦに関するモデルの生成処理に関する詳細な流れを説明する。図１１は、ＨＲＴＦに関するモデルの生成処理の詳細を説明する図である。

図１０で示したように、ＨＲＴＦ学習部１３６は、頭部合成を行ったのちに（ステップＳ８１）、音響シミュレーションを行う（ステップＳ８２）。ＨＲＴＦ学習部１３６は、音響シミュレーションで得られた測定データを分析し（ＨＲＴＦ後処理）、個人化ＨＲＴＦを示す数値を算出する（ステップＳ８３）。なお、ＨＲＴＦ後処理は、例えば、音響シミュレーションにより得られたＨＲＩＦ（Head-Related Impulse Response)をフーリエ変換してＨＲＴＦを得ること等をいう。

ここで、ＨＲＴＦ学習部１３６は、ＨＲＴＦ処理モデル記憶部１２５を参照し（ステップＳ８４）、算出したＨＲＴＦを処理するためのモデル（ＨＲＴＦ処理モデル）にＨＲＴＦを入力する。これにより、ＨＲＴＦ学習部１３６は、次元が削減されたＨＲＴＦを得る（ステップＳ８５）。すなわち、ＨＲＴＦ学習部１３６は、ＨＲＴＦ処理モデルから、次元が削減されたＨＲＴＦであるＨＲＴＦパラメータを出力する（ステップＳ８６）。

このように、ＨＲＴＦ学習部１３６は、音響シミュレーションで得られたＨＲＴＦをそのまま処理に用いるのではなく、次元を削減したＨＲＴＦパラメータを用いて処理を行う。これは、ＨＲＴＦが非常に次元数の多い関数であり、そのままモデルの生成処理や算出処理を行う場合、計算処理の負荷が大きくなることによる。

ＨＲＴＦ学習部１３６は、音響シミュレーションを行った頭部に関するデータ（頭部合成の元となるデータであり、例えば耳パラメータ等）と、算出したＨＲＴＦパラメータとを対応付けて、ＨＲＴＦ学習データ記憶部１２６に格納する（ステップＳ８７）。

その後、ＨＲＴＦ学習部１３６は、異なる耳パラメータを新たにランダムに生成し（ステップＳ８８）、新たに生成した耳パラメータを用いて頭部合成を行う（ステップＳ８９）。ステップＳ８１からステップＳ８９を繰り返すことにより、ＨＲＴＦ学習部１３６は、学習に要する学習データを収集する。

その後、充分な学習データが蓄積された場合、ＨＲＴＦ学習部１３６は、ＨＲＴＦ学習データ記憶部１２６を参照し（ステップＳ９０）、耳パラメータとＨＲＴＦ（正確にはＨＲＴＦパラメータ）との関係性を学習する（ステップＳ９１）。かかる学習により、ＨＲＴＦ学習部１３６は、耳パラメータから直接的にＨＲＴＦを得るためのＨＲＴＦ学習モデルを生成し、生成したＨＲＴＦ学習モデルをＨＲＴＦ学習モデル記憶部１２７に格納する。

次に、図１２を用いて、ＨＲＴＦと、ＨＲＴＦパラメータとの関係について説明する。図１２は、本開示に係るＨＲＴＦの圧縮及び復元を説明するための図である。

図１２に示すように、ＨＲＴＦ学習部１３６は、音響シミュレーションによって得られたＨＲＩＦＨＲＴＦ（（図１２の例では、仮に１０００方向×５００タップとする）にＦＦＴ（Fast Fourier Transform）を行う（ステップＳ１０１）。かかる処理により、ＨＲＴＦ学習部１３６は、振幅特性を抽出し（ステップＳ１０２）、例えば聴感上の感度が低い周波数成分等を間引く処理を行う（ステップＳ１０３）。具体的には、ＨＲＴＦは、角度（θ、φとする）と、周波数（ｆとする）に関する関数ＨＲＴＦ（θ、φ、ｆ）で表現される。このとき、周波数のビン（bin）数をｋとすると、関数に入力される周波数ｆは、ｆ_ｋ＝ｆ_０、ｆ_１、ｆ_２、・・・、ｆ_ｋ−１と表される。すなわち、ＨＲＴＦは、１つの方向及び１つの耳に対して、複素ｋ次元をもつことになる。ここで、ナイキスト周波数（ｆ_ｋ／２）以降のＨＲＴＦは、周波数ｆ_ｋ／２以前の複素共役の折り返しであるため、情報処理においては、周波数ビンとして、ｆ０＝０からナイキスト周波数（ｆ_ｋ／２）までの（ｋ／２）＋１個のみを用いることができる。また、少なくとも１つ以上の周波数ビンに対して、絶対値を用いることができる。例えば、ｆ_０からｆ_ｋ／２までの全ての周波数を絶対値に変換すると、変換後の関数Ｈ_２は、以下の式（２）で表される。

すなわち、ＨＲＴＦ学習部１３６は、元のＨＲＴＦの次元を実数（ｋ／２）＋１次元に圧縮することができる。さらに、ＨＲＴＦ学習部１３６は、上記式（２）のＨ_２に対して周波数圧縮を行い、さらに（ｋ／２）＋１より少ない次元に削減することが可能である。次元の圧縮に関しては種々の既知の手法が存在する。例えば、ＨＲＴＦ学習部１３６は、関数に対してケプストラム変換を行い、１つ以上、（ｋ／２）＋１未満の周波数ビンのみを取得する等の手法を用いる。一例として、ＨＲＴＦ学習部１３６は、複数の周波数ビンの平均値を求め、平均値に基づいて次元を削減する。例えば、周波数ビンを下記式（３）で表した場合（ａ_ｌ、Ｌ、ｌは、それぞれ０以上の整数）、ｆ_ａｌ≦ｆ´_ｌ＜ｆ_ａｌ＋１を満たすｌを用いて、新たな関数Ｈ_３は、下記式（４）で表される。

これにより、ＨＲＴＦ学習部１３６は、（Ｋ／２）＋１次元で表されていた関数Ｈ_２をＬ次元に削減することができる。なお、平均値を求める手法は、上記に限らず、例えば、二乗平均平方根や重み付き平均等を用いて求めてもよい。これにより、ＨＲＴＦは、例えば１０００方向×５０次元ほどに削減される。なお、関数Ｈ_３で削減された次元を戻す場合（後述するステップＳ１１０等）には、線形補間やスプライン補間など、ＨＲＴＦ学習部１３６は、種々の手法を用いて復元することが可能である。次元を戻した関数Ｈ´_２は、関数Ｈ_２に対してより滑らかな特性となることが予想されるが、ａ_ｌの選び方を工夫することで、より聴感上影響の少なくなるようなＨ´_２（θ、φ、ｋ）が得られる。一例として、高い周波数ほど、ｆ_ａｌとｆ_ａｌ＋１の周波数間隔が大きくなるようにａ_ｌを選ぶといった工夫がありうる。

ＨＲＴＦ学習部１３６は、次元が削減されたＨＲＴＦに、さらに球面調和フィッティングの処理を行うことにより、５０係数×５０次元ほどに情報量が圧縮される（ステップＳ１０４）。ここで、球面調和フィッティングとは、球面調和関数を用いて、圧縮された周波数ごとに空間方向のフィッティングを行うことをいう。ＨＲＴＦと球面調和関数との関係は、下記式（５）で示される。

上記式（５）に示すように、球面調和関数Ｙは、係数ｈ_ｎｍ（ｆ）で表現される。このときの次元数ｎを、ある有限なＮで打ち切ることにより、係数ｈ_ｎｍ（ｆ）の次元を、元のＨＲＴＦの次元数（方向数）よりも小さくすることができる。このことは、人間の知覚にとって不要な、空間的に細かすぎる振幅を無視し、滑らかな形状のみを取得することを意味する。なお、係数ｈ_ｎｍのベクトルｈ＝（ｈ_００、ｈ_１−１、・・・）^Ｔを求めるには、例えば最小二乗法等が用いられる。

すなわち、上記式（６）におけるＹを球面調和関数の行列とし、Ｈを球面調和関数の行列とした場合に、左辺のＥを最小化するようなｈを求める。なお、上記式（６）右辺の第２項は、正則化項であるため、任意の値λを選んでよい（例えば、λ＝０でもよい）。すると、上記のｈは、下記式（７）で表される。

上記式（７）を用いることにより、ＨＲＴＦ学習部１３６は、必要な周波数に対応する各々のｈを求めることができる。さらに、ＨＲＴＦ学習部１３６は、主成分分析による次元圧縮を行うことにより、ＨＲＴＦの情報量をおよそ数百次元で表現可能なように圧縮する（ステップＳ１０５）。かかる情報が、ＨＲＴＦパラメータとなる（ステップＳ１０６）。

なお、周波数間引きをした後に球面調和フィッティングが行われる場合、上記ｆの値は、間引き後の代表周波数となる。また、ＨＲＴＦ学習部１３６は、球面調和フィッティングの後に、周波数間引きを行ってもよい。また、空間的に次元を圧縮する方法は、球面調和関数や主成分分析のような線形結合に限らず、どのような手法を用いても構わない。例えば、ＨＲＴＦ学習部１３６は、カーネル主成分分析のように非線形な手法を用いてもよい。また、ＨＲＴＦ学習部１３６は、周波数ｆに応じて、球面調和関数の打ち切り次数Ｎを変化させ、Ｎ（ｆ）といった値を用いてもよい。また、０からＮまでの次元数や位数で使わない係数ｈ_ｎｍがあってもよい。また、ＨＲＴＦ学習部１３６は、左右のＨＲＴＦについてそれぞれ求めてもよいし、左右の和と差などに変換してからそれぞれ求めてもよい。また、フィッティング対象のＨＲＴＦは、振幅の絶対値やその対数表現などさまざまな変換を行ったものであっても構わない。

続いて、ＨＲＴＦ学習部１３６は、ステップＳ１０１からステップＳ１０６とは逆の流れで処理を行うことで、ＨＲＴＦを復号することが可能である。まず、ＨＲＴＦ学習部１３６は、ＨＲＴＦパラメータを取得し（ステップＳ１０７）、主成分分析による次元圧縮の復元を行う（ステップＳ１０８）。さらに、ＨＲＴＦ学習部１３６は、球面調和再構成処理を行うとともに（ステップＳ１０９）、周波数の補間を行う（ステップＳ１１０）。さらに、ＨＲＴＦ学習部１３６は、振幅特性を得て（ステップＳ１１１）、最小位相復元を行う（ステップＳ１１２）。最小位相復元については、種々の既知の手法が用いられてもよい。例えば、ＨＲＴＦ学習部１３６は、上記関数Ｈ´２のナイキスト周波数以降を折り返して復元した関数である関数Ｈ´１（θ、φ、ｋ）の対数を逆フーリエ変換（ＩＦＦＴ（Inverse Fast Fourier Transform））し、その実部をとる。さらに、この領域で適切なウィンド処理を行い、その指数関数を逆フーリエ変換し、実部をとることで、最小位相復元を行うことができる。例えば、以下のような関係式（８）がそれぞれ成立する。

なお、ＨＲＴＦ学習部１３６は、最小位相復元された左右のＨＲＩＲ（ｈ_ｍ）に対して、推定されたＩＴＤ（両耳間時間差（Interaural Time Difference））、もしくは事前に用意されたＩＴＤを付加してもよい。なお、ＩＴＤは、左右のＨＲＩＲの群遅延の差分に基づき、例えば下記式（９）及び式（１０）により求められる。

あるいは、ＩＴＤは、左右における時間軸上の相互相関を求め、相関係数が最大となる時間をＩＴＤと定義することにより算出されてもよい。この場合、ＩＴＤは、例えば下記式（１１）及び式（１２）により求められる。

例えば、ＨＲＴＦ学習部１３６は、左右のＨＲＩＲについて、左のほうが右よりｄサンプルだけ遅らせる場合、下記式（１３）のような関係式を用いる。

このとき、上記式（１３）におけるｈ_Ｌは、ｈ_ｍ、Ｌよりｄだけ長いインパルス応答となるが、長さをｈ_ｍ、Ｌと同じにするためには、上記式（１３）の後半部分を削除する。このとき、ＨＲＴＦ学習部１３６は、任意の窓、矩形窓、ハニング窓などの処理を行ってもよい。なお、ＨＲＴＦ学習部１３６は、方向ごとに相対的にＩＴＤを付加するだけでなく、空間全体で、方向間の相対的な時間差まで含めて遅延を付加してもよい。その際は、ＨＲＴＦ学習部１３６は、ＩＴＤだけではなく方向間の相対的な時間差を示す情報を取得する。また、ＨＲＴＦ学習部１３６は、ＩＴＤが周波数の関数になっている場合には、周波数領域でＩＴＤを付加してもよいし、代表値または平均値を求めてＩＴＤを付加してもよい。そして、ＨＲＴＦ学習部１３６は、元の形式のＨＲＩＲを得たのち、逆フーリエ変換を行うことでＨＲＴＦを得る。

このように、ＨＲＴＦ学習部１３６は、元のＨＲＴＦよりも情報量の少ないＨＲＴＦパラメータに圧縮を行い、圧縮された形式でＨＲＴＦ学習モデルの生成処理や、後述するＨＲＴＦの算出処理を行ってもよい。また、上記のように、ＨＲＴＦの圧縮は、例えば、人間の聴感では位相の変化に敏感でないことを利用したり、聴感に影響を与えにくい周波数を優先的に間引いたりするなど、聴覚特性を利用した次元削減を行う。これにより、ＨＲＴＦ学習部１３６は、ＨＲＴＦの特性である聴感上の定位感を損なわず、かつ、情報処理を高速化させることができる。

図３に戻り、説明を続ける。推定部１４０は、ユーザから送信された画像に基づいて、当該ユーザに対応するＨＲＴＦの推定処理を行う。

取得部１４１は、ユーザの耳の映像を含む画像を取得する。例えば、取得部１４１は、ユーザ端末１０によって撮影された画像から、ユーザの耳周辺のみが切り取られた耳画像を取得する。

また、取得部１４１は、取得した耳画像を耳パラメータ推定モデルに入力することにより、当該画像に含まれる耳の特徴を示す耳パラメータを取得してもよい。

算出部１４２は、耳の映像を含む画像が入力された場合に当該耳に対応するＨＲＴＦを出力するよう学習された学習済みモデル（ＨＲＴＦ学習モデル）を用いて、取得部１４１によって取得された画像に基づいて、ユーザに対応するＨＲＴＦ（個人化ＨＲＴＦ）を算出する。

具体的には、算出部１４２は、取得部１４１によって取得された耳パラメータをＨＲＴＦ学習モデルに入力することにより、ユーザに対応する個人化ＨＲＴＦを算出する。

なお、算出部１４２は、個人化ＨＲＴＦを算出する場合、まずはＨＲＴＦパラメータを算出し、算出したＨＲＴＦパラメータを復号することにより、ＨＲＴＦを算出してもよい。このように、ＨＲＴＦの情報量が圧縮された状態で一連の処理を行うことにより、算出部１４２は、処理を高速化することができる。また、算出部１４２は、ＨＲＴＦ削減モデルに表現されないような奇異なＨＲＴＦを出力することを回避することができるため、安定的な出力を行うことができる。

提供部１４３は、ネットワークＮを介して、算出部１４２によって算出されたＨＲＴＦをユーザに提供する。

ここで、図１３を用いて、画像からＨＲＴＦを推定する処理の流れについて説明する。図１３は、本開示に係るＨＲＴＦの推定処理の流れを示す図である。

図１３では、推定部１４０がユーザから送信された画像に基づいて、画像に含まれる耳に対応するＨＲＴＦの推定処理を行う例を示している。この場合、ユーザは、ユーザ端末１０を利用して自身の耳（正確には、耳を含む頭部）を撮影する（ステップＳ１３１）。その後、ユーザ端末１０は、撮影写真から耳の映像が含まれる範囲を特定し、特定した範囲を切り抜いて、耳画像を取得するという前処理を行う（ステップＳ１３２）。

取得部１４１は、ユーザから送信された耳画像を取得した場合、取得した耳画像を学習済みモデルに入力する。具体的には、取得部１４１は、耳画像を耳パラメータ推定モデルに入力する。耳パラメータ推定モデルは、耳画像を示す特徴量として、耳画像に含まれる耳の映像に対応する耳パラメータを出力する。これにより、取得部１４１は、画像に対応する耳パラメータを取得する（ステップＳ１３３）。

算出部１４２は、取得された耳パラメータをＨＲＴＦ学習モデルに入力し、耳画像に対応する個人化ＨＲＴＦを算出する（ステップＳ１３３）。提供部１４３は、算出された個人化ＨＲＴＦを、画像の送信元であるユーザ端末１０に提供（送信）する（ステップＳ１３４）。

このように、情報処理装置１００は、学習部１３１によって種々のモデルが生成された場合、耳画像の取得から個人化ＨＲＴＦの提供までを、一連の処理として行うことができる。これにより、情報処理装置１００は、ＨＲＴＦの提供に関するユーザの利便性を向上させることができる。

なお、図１３の例では、学習済みモデルの例として、耳パラメータ推定モデルとＨＲＴＦ学習モデルとの組み合わせを示しているが、学習済みモデルの組み合わせはこの例に限られない。また、学習済みモデルとは、耳パラメータ推定モデルとＨＲＴＦ学習モデルとが個別に組み合わせられたものであってもよいし、耳パラメータ推定モデルとＨＲＴＦ学習モデルとに対応する処理を行う、１つのモデルとして構成されてもよい。

［１−４．第１の実施形態に係るユーザ端末の構成］
図１３で示したように、第１の実施形態においては、ユーザの横顔の撮影、及び、耳画像の生成等がユーザ端末１０によって行われる。ここで、第１の実施形態に係るユーザ端末１０の構成について説明する。図１４は、本開示の第１の実施形態に係るユーザ端末１０の構成例を示す図である。図１４に示すように、ユーザ端末１０は、通信部１１と、入力部１２と、表示部１３と、検知部１４と、記憶部１５と、制御部１６とを有する。

通信部１１は、例えば、ＮＩＣ等によって実現される。かかる通信部１１は、ネットワークＮと有線又は無線で接続され、ネットワークＮを介して、情報処理装置１００等との間で情報の送受信を行う。

入力部１２は、ユーザから各種操作を受け付ける入力装置である。例えば、入力部１２は、ユーザ端末１０に備えられた操作キー等によって実現される。表示部１３は、各種情報を表示するための表示装置である。例えば、表示部１３は、液晶ディスプレイ等によって実現される。なお、ユーザ端末１０にタッチパネルが採用される場合には、入力部１２の一部と表示部１３とは一体化される。

検知部１４は、各種センサの総称であり、ユーザ端末１０に関する各種情報を検知する。具体的には、検知部１４は、ユーザ端末１０に対するユーザの操作や、ユーザ端末１０の所在する位置情報や、ユーザ端末１０と接続されている機器に関する情報や、ユーザ端末１０における環境等を検知する。

また、検知部１４は、センサの一例として、撮影を行うためのレンズおよびイメージセンサを有する。すなわち、検知部１４は、例えばユーザが撮影機能を動作させるアプリを起動させた場合、カメラとしての機能を発揮する。

記憶部１５は、各種情報を記憶する。記憶部１５は、例えば、ＲＡＭ、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部１５は、例えば、ユーザによって撮影された画像等を記憶する。

制御部１６は、コントローラであり、例えば、ＣＰＵやＭＰＵ等によって、ユーザ端末１０内部の記憶装置に記憶されている各種プログラムがＲＡＭを作業領域として実行されることにより実現される。また、制御部１６は、コントローラであり、例えば、ＡＳＩＣやＦＰＧＡ等の集積回路により実現される。

図１４に示すように、制御部１６は、取得部１６１と、前処理部１６２と、送信部１６４と、受信部１６５とを有し、以下に説明する情報処理の機能や作用を実現または実行する。また、前処理部１６２は、姿勢検出部１６３Ａと、耳検出部１６３Ｂとを有する。なお、制御部１６の内部構成は、図１４に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。

取得部１６１は、各種情報を取得する。例えば、取得部１６１は、検知部１４によって撮影された画像を取得する。

姿勢検出部１６３Ａは、取得部１６１によって取得された画像を読み込むとともに、当該画像に含まれるユーザの姿勢を検出する。

耳検出部１６３Ｂは、姿勢検出部１６３Ａによって検出されたユーザの姿勢に基づいて、画像に含まれるユーザの耳が含まれる範囲（耳の映像）を検出する。具体的には、耳検出部１６３Ｂは、ユーザの頭部全体の映像を含む画像から、ユーザの耳の映像を特定し、特定した範囲を耳画像として検出する。

例えば、耳検出部１６３Ｂは、全体画像に含まれるユーザの頭部の特徴点とユーザの姿勢との関係性に基づいて、耳の映像が含まれる範囲を特定する。

また、姿勢検出部１６３Ａ又は耳検出部１６３Ｂは、全体画像に含まれるユーザの頭部の特徴点とユーザの姿勢との関係性に基づいて耳の映像が含まれる範囲を特定できない場合、全体画像とは異なる画像であって、ユーザの頭部全体の映像を含む画像の取得を新たにユーザに要求してもよい。具体的には、姿勢検出部１６３Ａ又は耳検出部１６３Ｂは、ユーザが撮影した横顔の画像では、本開示に係る情報処理が適切に行えない可能性があることを示すメッセージを表示部１３に表示し、ユーザに撮影のやり直しを促す。なお、姿勢検出部１６３Ａ又は耳検出部１６３Ｂは、耳の映像が含まれる範囲を特定できない場合に限らず、例えば、耳パラメータ推定モデルの学習時に用いられたカメラ角度とユーザの姿勢とが一定の閾値を超えて離れている場合等にも、ユーザに撮影のやり直しを促してもよい。また、姿勢検出部１６３Ａ又は耳検出部１６３Ｂは、前処理としてユーザの耳画像を検出するのではなく、画像内のユーザの姿勢や位置を補正する補正情報を生成してもよい。補正情報とは、例えば、ユーザの頭部の特徴点の傾きや回転に応じて、耳の映像が含まれる範囲を回転させる量等を指示する情報である。かかる情報は、後述するように、ユーザの姿勢や、ユーザの横顔と検出された耳の位置との位置関係等に基づいて生成される。この場合、姿勢検出部１６３Ａ又は耳検出部１６３Ｂは、補正情報に基づいて全体画像の回転を補正することによりユーザの耳の映像を特定し、特定した範囲を耳画像として検出してもよい。また、姿勢検出部１６３Ａ又は耳検出部１６３Ｂは、生成した補正情報とともに全体画像を情報処理装置１００に送信してもよい。この場合、情報処理装置１００は、全体画像とともに送信された補正情報に基づいて全体画像の回転を補正することによりユーザの耳の映像を特定し、特定した範囲を耳画像として検出する前処理を自装置で行う。

ここで、図１５に、前処理部１６２（姿勢検出部１６３Ａ及び耳検出部１６３Ｂ）が実行する前処理の流れについて説明する。図１５は、本開示に係る検出処理の流れを示す図である。

図１５に示すように、取得部１６１は、ユーザによってユーザの横顔が撮影された場合、全体画像５０を取得する（ステップＳ１４１）。

姿勢検出部１６３Ａは、取得された全体画像５０において、ユーザの横顔を検出する（ステップＳ１４２）。例えば、姿勢検出部１６３Ａは、人物の顔検出処理等の既知の技術を用いて、全体画像５０のうち、ユーザの横顔の映像が含まれる範囲を特定する。

ここで、姿勢検出部１６３Ａは、画像５１に示すように、ユーザの横顔に含まれる特徴点を検出する。例えば、姿勢検出部１６３Ａは、横顔のうち、水平方向に突出している箇所（具体的には、ユーザの鼻の頂点など）や、頭部の頂点や、口の位置や、顎の位置等の特徴点を検出する。また、姿勢検出部１６３Ａは、髪と肌の境目の情報等から、ユーザの耳やもみあげの位置等を検出する。また、姿勢検出部１６３Ａは、横顔の映像の色情報から、ユーザの目の位置等を検出する。

そして、姿勢検出部１６３Ａは、検出した特徴点に基づいて、ユーザの姿勢を検出する（ステップＳ１４３）。例えば、姿勢検出部１６３Ａは、画像５４に示されるような特徴点の３次元的な配置からユーザの頭部の姿勢を検出する。

このような姿勢の検出処理は、ユーザが送信する耳画像における姿勢が、学習時に用いた３Ｄモデルの姿勢と大きく齟齬が出ないようにするための処理である。すなわち、３Ｄモデルと大きく姿勢が異なる画像がユーザ端末１０から送信された場合、学習データと送信された耳画像の齟齬から、情報処理装置１００が耳の画像認識を適切に行うことができない可能性があるからである。

このため、姿勢検出部１６３Ａは、学習に用いられた頭部３Ｄモデル５５におけるレンダリング時の角度の平均値と、画像５４で得られた角度とが所定の閾値以内であるかを判定し、ユーザが適切に撮影を行えたか否かを合否判定する（ステップＳ１４４）。例えば、耳パラメータ推定モデルの学習時には、頭部３Ｄモデル５５のレンダリング時のカメラの向きと、頭部頂点と耳の所定位置（例えば、外耳道の入り口など）とを結ぶ線分とが成す角度φとが所定の数値以内であったと想定される。同様に、耳パラメータ推定モデルの学習時には、カメラの向きと、鼻の頂点と耳の所定位置とを結ぶ線分とが成す角度θとが所定の数値以内であったと想定される。これは、画像認識精度を高めるため、学習に用いる耳画像が、人間の横顔を示す画像から大きく外れたものとならないためである。すなわち、姿勢検出部１６３Ａは、学習時の画像と同様、ユーザから送信された画像が、人間の横顔を示す画像であると認識可能な程度の角度を保つ画像であるか否かを判定する。

姿勢検出部１６３Ａは、ユーザが適切に撮影を行えていないと判定した場合（例えば、ユーザの顔において所定閾値を超えて鼻先が下を向いている場合等）には、撮影のやり直しを命じるメッセージを表示するなどの処理を行い、新たに撮影された画像を取得する（ステップＳ１４５）。

一方、ユーザが適切に撮影を行えていると判定した場合には（ステップＳ１４６）、耳検出部１６３Ｂは、画像５６から耳の映像が含まれる範囲５７を特定し、範囲５７を切り抜く（ステップＳ１４７）。これにより、耳検出部１６３Ｂは、耳画像５８を取得する。

図１５に示した検出処理を行うことにより、情報処理装置１００は、撮影状態が悪いために耳が傾いているのか、もしくは、実際にそのユーザの耳の角度が傾いているのかを判別して、ＨＲＴＦの算出を行うことができる。

また、ユーザ端末１０は、上記のように、横顔の全体画像から耳画像を切り抜くことにより、ユーザの顔が含まれる全体画像ではなく、耳画像のみを送信させて処理を行わせることができる。これにより、ユーザ端末１０は、個人情報の流出を防止することができ、情報処理の安全性を高めることができる。なお、ユーザ端末１０は、上記の検出手法に限らず、機械学習による画像認識技術等を用いて、画像に含まれるユーザの耳を検出することにより、横顔の全体画像から耳画像を切り抜く処理を行ってもよい。

図１４に戻り、説明を続ける。送信部１６４は、耳検出部１６３Ｂによって検出された範囲に基づき生成された耳画像を情報処理装置１００に送信する。

受信部１６５は、情報処理装置１００から提供される個人化ＨＲＴＦを受信する。例えば、受信部１６５は、受信した個人化ＨＲＴＦを音声再生アプリ等で音楽や音声に畳み込むことにより、ユーザ個人に最適化された３Ｄ音響等を実現することができる。

（２．第２の実施形態）
次に、第２の実施形態について説明する。上記第１の実施形態では、ユーザ端末１０が、ユーザが撮影した画像から耳の映像のみを切り抜いて耳画像を生成する例を示した。第２の実施形態に係る情報処理装置１００Ａは、ユーザ端末１０に代えて、自装置で耳の映像のみを切り抜く処理を行う。

図１６を用いて、第２の実施形態に係る情報処理装置１００Ａの構成について説明する。図１６は、本開示の第２の実施形態に係る情報処理装置１００Ａの構成例を示す図である。図１６に示すように、情報処理装置１００Ａは、第１の実施形態と比較して、前処理部１４４（姿勢検出部１４５Ａと、耳検出部１４５Ｂ）とをさらに備える。

姿勢検出部１４５Ａは、第１の実施形態に係る姿勢検出部１６３Ａと同様の処理を行う。また、耳検出部１４５Ｂは、第１の実施形態に係る耳検出部１６３Ｂと同様の処理を行う。すなわち、第２の実施形態に係る情報処理装置１００Ａは、第１の実施形態に係るユーザ端末１０が実行した前処理を自装置で実行する。

第２の実施形態では、取得部１４１は、ユーザが横顔を撮影した全体画像をユーザ端末１０から取得する。そして、姿勢検出部１４５Ａ及び耳検出部１４５Ｂは、図１５を用いて説明した処理と同様の処理を行い、全体画像から耳画像を生成する。算出部１４２は、姿勢検出部１４５Ａ及び耳検出部１４５Ｂによって生成された耳画像から、個人化ＨＲＴＦを算出する。

このように、第２の実施形態に係る情報処理装置１００Ａによれば、ユーザは、画像を撮影し送信するのみで、個人化ＨＲＴＦの提供を受けることができる。また、第２の実施形態の構成によれば、ユーザ端末１０において前処理を実行することを要しないため、例えば、ユーザ端末１０の処理負荷を軽減させることができる。また、一般に、ユーザ端末１０よりもサーバ装置（情報処理装置１００）の方が処理は高速であると想定されるため、第２の実施形態の構成によれば、本開示に係る情報処理の全体の速度を向上させることができる。なお、姿勢検出部１４５Ａ及び耳検出部１４５Ｂは、全体画像とともに補正情報が送信された場合、全体画像に含まれる補正情報に基づいて全体画像の回転を補正することによりユーザの耳の映像を特定し、特定した範囲を耳画像として検出してもよい。

（３．その他の実施形態）
上述した各実施形態に係る処理は、上記各実施形態以外にも種々の異なる形態にて実施されてよい。

また、上記各実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

また、上述してきた各実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

また、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、他の効果があってもよい。

（４．ハードウェア構成）
上述してきた各実施形態に係る情報処理装置１００やユーザ端末１０等の情報機器は、例えば図１７に示すような構成のコンピュータ１０００によって実現される。以下、第１の実施形態に係る情報処理装置１００を例に挙げて説明する。図１７は、情報処理装置１００の機能を実現するコンピュータ１０００の一例を示すハードウェア構成図である。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ（Read Only Memory）１３００、ＨＤＤ（Hard Disk Drive）１４００、通信インターフェイス１５００、及び入出力インターフェイス１６００を有する。コンピュータ１０００の各部は、バス１０５０によって接続される。

ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムをＲＡＭ１２００に展開し、各種プログラムに対応した処理を実行する。

ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるＢＩＯＳ（Basic Input Output System）等のブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、ＨＤＤ１４００は、プログラムデータ１４５０の一例である本開示に係る情報処理プログラムを記録する記録媒体である。

通信インターフェイス１５００は、コンピュータ１０００が外部ネットワーク１５５０（例えばインターネット）と接続するためのインターフェイスである。例えば、ＣＰＵ１１００は、通信インターフェイス１５００を介して、他の機器からデータを受信したり、ＣＰＵ１１００が生成したデータを他の機器へ送信したりする。

入出力インターフェイス１６００は、入出力デバイス１６５０とコンピュータ１０００とを接続するためのインターフェイスである。例えば、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやスピーカーやプリンタ等の出力デバイスにデータを送信する。また、入出力インターフェイス１６００は、所定の記録媒体（メディア）に記録されたプログラム等を読み取るメディアインターフェイスとして機能してもよい。メディアとは、例えばＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

例えば、コンピュータ１０００が第１の実施形態に係る情報処理装置１００として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされた情報処理プログラムを実行することにより、制御部１３０等の機能を実現する。また、ＨＤＤ１４００には、本開示に係る情報処理プログラムや、記憶部１２０内のデータが格納される。なお、ＣＰＵ１１００は、プログラムデータ１４５０をＨＤＤ１４００から読み取って実行するが、他の例として、外部ネットワーク１５５０を介して、他の装置からこれらのプログラムを取得してもよい。

なお、本技術は以下のような構成も取ることができる。
（１）
ユーザの耳の映像を含む第１画像を取得する取得部と、
耳の映像を含む画像が入力された場合に当該耳に対応する頭部伝達関数を出力するよう学習された学習済みモデルを用いて、前記取得部によって取得された第１画像に基づいて、前記ユーザに対応する頭部伝達関数を算出する算出部と
を備える情報処理装置。
（２）
前記取得部は、
前記第１画像に含まれる耳の特徴を示す変数である耳パラメータを取得し、
前記算出部は、
前記耳パラメータを前記学習済みモデルに入力することにより、前記ユーザに対応する頭部伝達関数を算出する
前記（１）に記載の情報処理装置。
（３）
前記取得部は、
耳の映像を含む画像が入力された場合に当該耳に対応する耳パラメータを出力するよう学習された耳パラメータ推定モデルを用いて、前記第１画像に含まれる耳の耳パラメータを取得する
前記（２）に記載の情報処理装置。
（４）
耳の映像を含む画像と、当該耳の耳パラメータとの関係性を学習することにより、前記耳パラメータ推定モデルを生成する第１学習部
をさらに備える前記（３）に記載の情報処理装置。
（５）
前記第１学習部は、
前記耳パラメータに基づいて生成された耳の３次元データをレンダリングすることで得られる耳画像と、当該耳パラメータとの関係性を学習することにより、前記耳パラメータ推定モデルを生成する
前記（４）に記載の情報処理装置。
（６）
前記第１学習部は、
前記耳もしくは頭部の３次元データのテクスチャ、レンダリングにおけるカメラ角度又はレンダリングにおける明度を変更した複数の耳画像と、当該複数の耳画像に共通する耳パラメータとの関係性を学習することにより、前記耳パラメータ推定モデルを生成する
前記（５）に記載の情報処理装置。
（７）
耳の映像を含む画像と、当該耳に対応する頭部伝達関数との関係性を学習することにより、前記学習済みモデルを生成する第２学習部
をさらに備える前記（１）〜（６）のいずれか一つに記載の情報処理装置。
（８）
前記第２学習部は、
前記耳パラメータに基づいて生成された耳の３次元データと頭部の３次元データとを合成した３次元データに対して音響シミュレーションを行い、当該音響シミュレーションによって得られた頭部伝達関数と、当該耳パラメータとの関係性を学習することにより、前記学習済みモデルを生成する
前記（７）に記載の情報処理装置。
（９）
前記第２学習部は、
前記音響シミュレーションによって得られた頭部伝達関数の情報量を圧縮し、圧縮した頭部伝達関数と、前記耳パラメータとの関係性を学習することにより、前記学習済みモデルを生成する
前記（８）に記載の情報処理装置。
（１０）
前記第２学習部は、
前記耳パラメータに基づいて生成された耳の３次元データの聴取点を設定し、設定した聴取点を用いて前記音響シミュレーションを行う
前記（８）又は（９）に記載の情報処理装置。
（１１）
前記ユーザの頭部全体の映像を含む第２画像から当該ユーザの耳の映像を特定し、特定した範囲を前記第１画像として検出する前処理部をさらに備え、
前記取得部は、
前記前処理部によって検出された前記第１画像を取得する
前記（１）〜（１０）のいずれか一つに記載の情報処理装置。
（１２）
前記前処理部は、
前記第２画像に含まれるユーザの頭部の特徴点と当該ユーザの姿勢との関係性に基づいて、前記範囲を特定する
前記（１１）に記載の情報処理装置。
（１３）
前記前処理部は、
前記第２画像に含まれるユーザの頭部の特徴点と当該ユーザの姿勢との関係性に基づいて前記範囲を特定できない場合、当該第２画像とは異なる画像であって、前記ユーザの頭部全体の映像を含む画像の取得を新たに要求する
前記（１２）に記載の情報処理装置。
（１４）
前記前処理部は、
前記第２画像に含まれる補正情報に基づいて当該第２画像の回転を補正することにより前記ユーザの耳の映像を特定し、特定した範囲を前記第１画像として検出する
前記（１１）〜（１３）のいずれか一つに記載の情報処理装置。
（１５）
コンピュータが、
ユーザの耳の映像を含む第１画像を取得し、
耳の映像を含む画像が入力された場合に当該耳に対応する頭部伝達関数を出力するよう学習された学習済みモデルを用いて、取得された前記第１画像に基づいて、前記ユーザに対応する頭部伝達関数を算出する
情報処理方法。
（１６）
コンピュータを、
ユーザの耳の映像を含む第１画像を取得する取得部と、
耳の映像を含む画像が入力された場合に当該耳に対応する頭部伝達関数を出力するよう学習された学習済みモデルを用いて、前記取得部によって取得された第１画像に基づいて、前記ユーザに対応する頭部伝達関数を算出する算出部と
として機能させるための情報処理プログラム。
（１７）
情報処理装置とユーザ端末とを含む情報処理システムであって、
前記ユーザ端末は、
ユーザの頭部全体の映像を含む第２画像から当該ユーザの耳の映像を特定し、特定した範囲を第１画像として検出する前処理部と、
前記前処理部によって検出された第１画像を前記情報処理装置に送信する送信部と、を備え、
前記処理装置は、
前記ユーザの耳の映像を含む前記第１画像を取得する取得部と、
耳の映像を含む画像が入力された場合に当該耳に対応する頭部伝達関数を出力するよう学習された学習済みモデルを用いて、前記取得部によって取得された第１画像に基づいて、前記ユーザに対応する頭部伝達関数を算出する算出部と、
を備える情報処理システム。

１情報処理システム
１０ユーザ端末
１００情報処理装置
１１０通信部
１２０記憶部
１３０制御部
１３１学習部
１３２受付部
１３３耳モデル学習部
１３４画像生成部
１３５耳パラメータ学習部
１３６ＨＲＴＦ学習部
１４０推定部
１４１取得部
１４２算出部
１４３提供部
１４４前処理部
１４５Ａ姿勢検出部
１４５Ｂ耳検出部
１６１取得部
１６２前処理部
１６３Ａ姿勢検出部
１６３Ｂ耳検出部
１６４送信部
１６５受信部

Claims

ユーザの耳の映像を含む第１画像を取得する取得部と、
耳の映像を含む画像が入力された場合に当該耳に対応する頭部伝達関数を出力するよう学習された学習済みモデルを用いて、前記取得部によって取得された第１画像に基づいて、前記ユーザに対応する頭部伝達関数を算出する算出部と
を備える情報処理装置。
前記取得部は、
前記第１画像に含まれる耳の特徴を示す変数である耳パラメータを取得し、
前記算出部は、
前記耳パラメータを前記学習済みモデルに入力することにより、前記ユーザに対応する頭部伝達関数を算出する
請求項１に記載の情報処理装置。
前記取得部は、
耳の映像を含む画像が入力された場合に当該耳に対応する耳パラメータを出力するよう学習された耳パラメータ推定モデルを用いて、前記第１画像に含まれる耳の耳パラメータを取得する
請求項２に記載の情報処理装置。
耳の映像を含む画像と、当該耳の耳パラメータとの関係性を学習することにより、前記耳パラメータ推定モデルを生成する第１学習部
をさらに備える請求項３に記載の情報処理装置。
前記第１学習部は、
前記耳パラメータに基づいて生成された耳の３次元データをレンダリングすることで得られる耳画像と、当該耳パラメータとの関係性を学習することにより、前記耳パラメータ推定モデルを生成する
請求項４に記載の情報処理装置。
前記第１学習部は、
前記耳もしくは頭部の３次元データのテクスチャ、レンダリングにおけるカメラ角度又はレンダリングにおける明度を変更した複数の耳画像と、当該複数の耳画像に共通する耳パラメータとの関係性を学習することにより、前記耳パラメータ推定モデルを生成する
請求項５に記載の情報処理装置。
耳の映像を含む画像と、当該耳に対応する頭部伝達関数との関係性を学習することにより、前記学習済みモデルを生成する第２学習部
をさらに備える請求項４に記載の情報処理装置。
前記第２学習部は、
前記耳パラメータに基づいて生成された耳の３次元データと頭部の３次元データとを合成した３次元データに対して音響シミュレーションを行い、当該音響シミュレーションによって得られた頭部伝達関数と、当該耳パラメータとの関係性を学習することにより、前記学習済みモデルを生成する
請求項７に記載の情報処理装置。
前記第２学習部は、
前記音響シミュレーションによって得られた頭部伝達関数の情報量を圧縮し、圧縮した頭部伝達関数と、前記耳パラメータとの関係性を学習することにより、前記学習済みモデルを生成する
請求項８に記載の情報処理装置。
前記第２学習部は、
前記耳パラメータに基づいて生成された耳の３次元データの聴取点を設定し、設定した聴取点を用いて前記音響シミュレーションを行う
請求項８に記載の情報処理装置。
前記ユーザの頭部全体の映像を含む第２画像から当該ユーザの耳の映像を特定し、特定した範囲を前記第１画像として検出する前処理部をさらに備え、
前記取得部は、
前記前処理部によって検出された前記第１画像を取得する
請求項１に記載の情報処理装置。
前記前処理部は、
前記第２画像に含まれるユーザの頭部の特徴点と当該ユーザの姿勢との関係性に基づいて、前記範囲を特定する
請求項１１に記載の情報処理装置。
前記前処理部は、
前記第２画像に含まれるユーザの頭部の特徴点と当該ユーザの姿勢との関係性に基づいて前記範囲を特定できない場合、当該第２画像とは異なる画像であって、前記ユーザの頭部全体の映像を含む画像の取得を新たに要求する
請求項１２に記載の情報処理装置。
前記前処理部は、
前記第２画像に含まれる補正情報に基づいて当該第２画像の回転を補正することにより前記ユーザの耳の映像を特定し、特定した範囲を前記第１画像として検出する
請求項１１に記載の情報処理装置。
コンピュータが、
ユーザの耳の映像を含む第１画像を取得し、
耳の映像を含む画像が入力された場合に当該耳に対応する頭部伝達関数を出力するよう学習された学習済みモデルを用いて、取得された前記第１画像に基づいて、前記ユーザに対応する頭部伝達関数を算出する
情報処理方法。
コンピュータを、
ユーザの耳の映像を含む第１画像を取得する取得部と、
耳の映像を含む画像が入力された場合に当該耳に対応する頭部伝達関数を出力するよう学習された学習済みモデルを用いて、前記取得部によって取得された第１画像に基づいて、前記ユーザに対応する頭部伝達関数を算出する算出部と
として機能させるための情報処理プログラム。