JPWO2020075622A1 - 情報処理装置、情報処理方法及び情報処理プログラム - Google Patents

情報処理装置、情報処理方法及び情報処理プログラム Download PDF

Info

Publication number
JPWO2020075622A1
JPWO2020075622A1 JP2020550542A JP2020550542A JPWO2020075622A1 JP WO2020075622 A1 JPWO2020075622 A1 JP WO2020075622A1 JP 2020550542 A JP2020550542 A JP 2020550542A JP 2020550542 A JP2020550542 A JP 2020550542A JP WO2020075622 A1 JPWO2020075622 A1 JP WO2020075622A1
Authority
JP
Japan
Prior art keywords
ear
image
information processing
unit
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020550542A
Other languages
English (en)
Inventor
和巳 福田
和巳 福田
哲 曲谷地
哲 曲谷地
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Group Corp
Original Assignee
Sony Corp
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Sony Group Corp filed Critical Sony Corp
Publication of JPWO2020075622A1 publication Critical patent/JPWO2020075622A1/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/647Three-dimensional objects by matching two-dimensional images to three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/027Spatial or constructional arrangements of microphones, e.g. in dummy heads
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/033Headphones for stereophonic communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • H04S3/004For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/301Automatic calibration of stereophonic sound system, e.g. with test microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/13Application of wave-field synthesis in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Stereophonic System (AREA)

Abstract

本開示に係る情報処理装置(100)は、ユーザの耳の映像を含む第1画像を取得する取得部(141)と、耳の映像を含む画像が入力された場合に当該耳に対応する頭部伝達関数を出力するよう学習された学習済みモデルを用いて、取得部(141)によって取得された第1画像に基づいて、ユーザに対応する頭部伝達関数を算出する算出部(142)とを備える。

Description

本開示は、情報処理装置、情報処理方法及び情報処理プログラムに関する。詳しくは、頭部伝達関数の算出処理に関する。
音源から耳への音の届き方を数学的に表す頭部伝達関数(以下、HRTF(Head-Related Transfer Function)と称する場合がある)を用いることで、ヘッドホン等における音像を立体的に再現する技術が利用されている。
頭部伝達関数は個人差が大きいことから、その利用時には、個人ごとに生成された頭部伝達関数を用いることが望ましい。例えば、ユーザの耳介を撮影した画像に基づいて頭部の三次元デジタルモデル(以下、「3Dモデル」と表記する)を生成し、生成した3Dモデルから当該ユーザの頭部伝達関数を算出する技術が知られている。
米国特許第9544706号明細書
従来技術によれば、各々のユーザに合わせて個別に算出された頭部伝達関数を情報処理に用いることができるため、音像の定位感を高めることができる。
しかしながら、上記の従来技術は、ユーザが撮影した画像に基づいて3Dデジタルモデルを生成し、生成したモデルから頭部伝達関数を算出するため、計算の処理負荷が比較的大きくなる。すなわち、上記の従来技術では、画像を送信したユーザに対して頭部伝達関数を提供するまでに長い時間がかかると推測されるため、利便性が高いとは言い難い。
そこで、本開示では、頭部伝達関数に関する処理においてユーザの利便性を向上させることができる情報処理装置、情報処理方法及び情報処理プログラムを提案する。
上記の課題を解決するために、本開示に係る一形態の情報処理装置は、ユーザの耳の映像を含む第1画像を取得する取得部と、耳の映像を含む画像が入力された場合に当該耳に対応する頭部伝達関数を出力するよう学習された学習済みモデルを用いて、前記取得部によって取得された第1画像に基づいて、前記ユーザに対応する頭部伝達関数を算出する算出部と、を備える。
本開示の第1の実施形態に係る情報処理の概要を示す図である。 本開示に係る情報処理の全体の流れを示した概念図である。 本開示の第1の実施形態に係る情報処理装置の構成例を示す図である。 本開示に係る耳画像記憶部の一例を示す図である。 本開示に係る耳モデルに関する学習処理の一例を示す図である。 本開示に係る耳パラメータ推定モデルに関する学習処理の一例を示す図である。 本開示に係る耳画像の生成処理の一例を示す図である。 本開示に係る耳パラメータ推定モデルを説明するための図である。 HRTFに関するモデルの生成処理の流れの概要を示す図である。 本開示に係る3Dモデルの再構成を説明するための図である。 HRTFに関するモデルの生成処理の詳細を説明する図である。 本開示に係るHRTFの圧縮及び復元を説明するための図である。 本開示に係るHRTFの推定処理の流れを示す図である。 本開示の第1の実施形態に係るユーザ端末の構成例を示す図である。 本開示に係る検出処理の流れを示す図である。 本開示の第2の実施形態に係る情報処理装置の構成例を示す図である。 情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。
(1.第1の実施形態)
[1−1.第1の実施形態に係る情報処理の概要]
まず、図1を用いて、本開示に係る情報処理システム1の構成、及び、情報処理システム1によって実行される情報処理の概要を説明する。図1は、本開示の第1の実施形態に係る情報処理の概要を示す図である。本開示の第1の実施形態に係る情報処理は、図1に示す情報処理システム1によって実現される。情報処理システム1は、情報処理装置100と、ユーザ端末10とを含む。情報処理装置100とユーザ端末10は、図示しない有線又は無線ネットワークを用いて相互に通信を行う。なお、情報処理システム1を構成する各装置の台数は、図示したものに限られない。
情報処理装置100は、本開示に係る情報処理装置の一例であり、各ユーザに対応するHRTF(頭部伝達関数)を算出し、算出したHRTFを提供する。情報処理装置100は、例えばサーバ装置等によって実現される。
ユーザ端末10は、HRTFの提供を受けようとするユーザによって利用される情報処理端末である。ユーザ端末10は、例えば、撮影機能を有したスマートフォン等によって実現される。図1の例では、ユーザ端末10は、ユーザの一例であるユーザU01によって利用される。
HRTFは、人間の耳介(耳殻)や頭部の形状等を含む周辺物によって生じる音の変化を伝達関数として表現するものである。一般に、HRTFを求めるための測定データは、人間が耳介内に装着したマイクロホンやダミーヘッドマイクロホン等を用いて測定用の音響信号を測定することにより取得される。
例えば3D音響等の技術で利用されるHRTFは、ダミーヘッドマイクロホン等で取得された測定データや、多数の人間から取得された測定データの平均値等を用いて算出されることが多い。しかしながら、HRTFは個人差が大きいことから、より効果的な音響演出効果を実現するためには、ユーザ自身のHRTFを用いることが望ましい。すなわち、一般的なHRTFをユーザ自身のHRTFに置き換えることで、より臨場感のある音響体感をユーザに提供することができる。
しかし、ユーザのHRTFを個別に測定するためには、種々の問題がある。例えば、優れた音響効果をもたらすHRTFを得るためには、比較的高密度な測定データが必要となる。高密度な測定データを取得するためには、ユーザを取り囲む様々な角度からユーザに対して出力された音響信号の測定データが必要となる。このような測定は長時間を要し、ユーザの身体的な負担が大きくなる。また、正確な測定には無響室等での測定が必要となるため、コスト的な負担も大きい。このため、HRTFの算出では、ユーザの負担を軽減することや、測定コストを軽減させること等が課題となる。
上記の課題に関して、ユーザの耳や頭部を3Dモデルで表現し、3Dモデル上で音響シミュレーションを行うことで、疑似的な測定を行う技術が存在する。かかる技術によれば、ユーザは、頭部のスキャンデータや頭部を撮影した画像を提供することで、測定室での実測を行うことなくHRTFを算出させることができる。
しかしながら、3Dモデルの生成処理や、3Dモデルに対する音響シミュレーションは、計算の処理負荷が非常に大きい。このため、上記技術を利用して、例えば3D音響を利用するソフトウェア等にユーザ固有のHRTFを組み込もうとしても、数十分や数時間のタイムラグが生じるおそれがある。このことは、ユーザにとって利便性が高いとは言い難い。すなわち、HRTFをユーザに活用させるという観点からすると、HRTFの算出においては、処理速度を向上させるという課題も存在する。
以上のように、ユーザ個人に対応したHRTFを得るためには、種々の課題が存在する。本開示に係る情報処理装置100は、本開示の情報処理により、上記の課題を解決する。
具体的には、情報処理装置100は、耳の映像を含む画像が入力された場合に、当該耳に対応するHRTFを出力するよう学習された学習済みモデル(以下、単に「モデル」と表記する)を用いて、ユーザに対応するHRTFを算出する。例えば、情報処理装置100は、ユーザU01の耳の映像を含む画像をユーザ端末10から取得した場合、当該画像をモデルに入力して、ユーザU01固有のHRTFを算出する。すなわち、情報処理装置100は、ユーザU01の画像に基づいて3Dモデルを生成して音響シミュレーションを行う、といった過程を経ることなく、HRTFを算出する。
これにより、情報処理装置100は、音響シミュレーションを実行した場合と比較して、極めて短時間でHRTFの算出を行うことができる。以下、本開示に係る情報処理装置100が実行する情報処理の概要について、図1を用いて流れに沿って説明する。
図1に示すように、ユーザU01は、自身の耳の映像を含む画像を取得するため、頭部横側から自身を撮影する(ステップS1)。例えば、ユーザU01は、ユーザ端末10が備えるカメラを利用して、自身の頭部を撮影する。なお、本開示において、耳の画像とは、一般にユーザ端末10等で撮影可能な2次元カラー画像に限らず、モノクロ画像や、深度情報を含むデプス画像や、それらを任意に組み合わせたものであってもよい。また、本開示の処理に用いられる画像は、1枚でなく、複数の画像であってもよい。
ユーザ端末10は、ステップS1によって得られた画像5に対して、情報処理装置100に送信するための前処理を実行する(ステップS2)。具体的には、ユーザ端末10は、前処理として、画像5に含まれるユーザU01の耳の映像を検出し、検出した耳の映像の範囲を画像5から切り抜く処理を行う。なお、耳の検出等の前処理について、詳細は後述する。
ユーザ端末10は、前処理によって、ユーザU01の耳の映像を含む画像6を作成する。そして、ユーザ端末10は、画像6を情報処理装置100に送信する(ステップS3)。なお、撮影によって得られた画像5から画像6を作成する処理や、画像6を送信する処理等の一連の処理は、例えば情報処理装置100から提供されるプログラム(例えばスマートフォン用のアプリケーション)によって実行される。このように、本開示に係る情報処理では、画像5から耳の映像のみを切り抜いた画像6のみをネットワーク上に送信し、個人が特定されるおそれのある画像5を送信しないため、安全性に優れた処理を実現できる。また、情報処理装置100は、画像5を取得せず画像6のみを取得することで、個人情報を取り扱うリスクを避けることができる。なお、情報処理装置100は、ユーザ端末10から画像5を取得し、情報処理装置100側で画像6を作成する処理を行ってもよい。この構成については、第2の実施形態として後述する。
情報処理装置100は、ユーザ端末10から送信された画像6を取得する。そして、情報処理装置100は、記憶部120内に格納されたモデルに画像6を入力する(ステップS4)。このモデルは、耳の映像を含む2次元の画像が入力された場合に、当該耳に対応するHRTFを出力するよう学習されたモデルである。すなわち、情報処理装置100は、画像6をモデルに入力することで、画像6に含まれる耳(言い換えればユーザU01)に対応したHRTFを算出する。
そして、情報処理装置100は、算出したHRTFをユーザ端末10に提供する(ステップS5)。このように、ユーザU01は、自身の横顔を撮影して画像5のみを準備しさえすれば、実際の測定処理や3Dモデルの音響シミュレーション等を経ることなく、自身に固有のHRTFを得ることができる。すなわち、情報処理装置100は、ユーザU01に測定の負担を掛けることなく、極めて短時間でHRTFをユーザU01に提供することができる。結果として、情報処理装置100は、HRTFに関する処理においてユーザの利便性を向上させることができる。
上述したように、本開示に係る情報処理では、学習処理を経て作成したモデルを利用してHRTFを算出することにより、処理の高速化を図る。図1では本開示に係る情報処理のうち、ユーザU01にHRTFを提供する処理の概要を示したが、図2以下では、モデルの学習処理を含めた、情報処理装置100による一連の情報処理を詳細に説明する。なお、詳細は図2以下で説明するが、図1で示した「モデル」とは、必ずしも一つのモデルを示すものではなく、種々の数値を出力する複数のモデルを組み合わせたものであってもよい。
[1−2.本開示に係る情報処理の全体の流れ]
情報処理装置100の構成等の詳細の説明に先立って、本開示に係る情報処理装置100が実行する情報処理の全体の流れを図2に示す。図2は、本開示に係る情報処理の全体の流れを示した概念図である。
まず、情報処理装置100は、複数の人物の耳型に関するデータを採取し、採取した耳型に基づいて、耳モデルを作成する(ステップS11)。なお、耳型とは、必ずしも石膏等で人物の耳をかたどったものに限らず、人物の耳の形状を示す情報であれば、どのような情報であってもよい。また、本開示において、耳モデルとは、耳の特徴を示したパラメータ(以下、「耳パラメータ」と称する)が入力された場合に、対応する耳の形状を出力するモデルである。耳パラメータは、例えば、耳の形状に関するデータ(例えば、採取した耳型をCT(Computed Tomography)スキャンによってデータ化したもの)に基づいて、耳の形状を主成分分析することにより得られる。これにより、情報処理装置100は、耳パラメータが得られれば、当該耳パラメータに対応する耳の形状のデータ(言い換えれば、耳を模した3Dモデル)を得られることになる。
その後、情報処理装置100は、耳モデルに基づいて、耳パラメータ推定モデルを生成する(ステップS12)。情報処理装置100は、ステップS11で生成した耳モデルに耳パラメータを入力することにより、多数の耳画像を生成可能である。耳パラメータは、ランダムに入力されてもよいし、任意の規則(例えば、特定の人種ごとに耳の形状に特定の傾向がある事実が発見されれば、当該事実に基づいて規則を導出してもよい)に沿って耳パラメータを自動的に生成し、生成した値が入力されてもよい。このため、情報処理装置100は、生成した耳画像と、生成元となった耳パラメータとの関係性を学習することで、耳を含む画像が入力された場合に、当該耳に対応する耳パラメータを出力するモデルを生成することができる。かかるモデルが、耳パラメータ推定モデルである。これにより、情報処理装置100は、耳の映像を含む2次元の画像が得られれば、当該耳に対応する耳パラメータを得られることになる。そして、情報処理装置100は、耳パラメータが得られれば、ステップS11で生成した耳モデルを用いて、画像に含まれる耳の3Dモデルが得られることになる。なお、上記の学習については、耳の形状がデータ化された当人の耳を撮影した画像と、データ化された耳を耳パラメータに変換したものとの関係性を学習してもよい。この場合、CG(Computer Graphics)画像ではなく、実際の撮影画像を用いた学習が行われるため、生成される耳パラメータ推定モデルの精度をより高めることができると想定される。
情報処理装置100は、耳パラメータ推定モデルを用いて生成した3Dモデルに対して音響シミュレーションを行い、当該3Dモデルに対応する固有のHRTF(以下、このような個々の耳形状に対応して生成されたHRTFを「個人化HRTF」と称する)を算出する(ステップS13)。すなわち、ステップS11乃至ステップS13の過程を経ることで、情報処理装置100は、耳を含む画像から、音響シミュレーションによって個人化HRTFを算出するための一連の処理が実現可能となる。
さらに、情報処理装置100は、ランダムもしくは規則的に生成した耳パラメータから多数の3Dモデルを生成し、生成した3Dモデルに対して音響シミュレーションを行う処理を繰り返すことで、耳パラメータと個人化HRTFとの関係性を学習する。すなわち、情報処理装置100は、算出した個人化HRTFに基づいて、HRTF学習モデルを生成する(ステップS14)。
本開示において、HRTF学習モデルとは、耳パラメータが入力された場合に、当該耳パラメータに対応する個人化HRTFを出力するモデルである。これにより、情報処理装置100は、耳パラメータが得られれば、当該耳パラメータに対応する個人化HRTFを得られることになる。
この後、情報処理装置100は、ユーザから画像を取得した場合には、当該画像(より正確には、画像に含まれる耳の耳パラメータ)をHRTF学習モデルに入力することで、ユーザの個人化HRTFを算出する(ステップS15)。ステップS15に示した処理は、図1で示した一連の処理に対応する。
上記のように、情報処理装置100は、複数のモデルを生成し、生成したモデルを用いた情報処理を行うことで、ユーザから取得した画像から個人化HRTFを算出することができる。なお、図2で示した処理は、必ずしもステップS11〜S15の順に実行されることを要しない。例えば、情報処理装置100は、処理に要する各モデルを生成したのちは、ステップS15の処理を行うのみでよい。
以上、本開示に係る情報処理の全体の流れの概要を説明した。図3以下では、情報処理装置100及びユーザ端末10の構成を説明するとともに、種々の学習処理の詳細を順に説明する。
[1−3.第1の実施形態に係る情報処理装置の構成]
図3を用いて、第1の実施形態に係る情報処理装置100の構成について説明する。図3は、本開示の第1の実施形態に係る情報処理装置100の構成例を示す図である。
図3に示すように、情報処理装置100は、通信部110と、記憶部120と、制御部130とを有する。なお、情報処理装置100は、情報処理装置100を管理する管理者等から各種操作を受け付ける入力部(例えば、キーボードやマウス等)や、各種情報を表示するための表示部(例えば、液晶ディスプレイ等)を有してもよい。
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。通信部110は、ネットワークN(インターネット等)と有線又は無線で接続され、ネットワークNを介して、ユーザ端末10等との間で情報の送受信を行う。
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部120は、学習処理に用いる各種データや、学習処理によって生成されたモデル等を記憶する。
図3に示すように、記憶部120は、耳型情報記憶部121と、耳モデル記憶部122と、耳画像記憶部123と、耳パラメータ推定モデル記憶部124と、HRTF処理モデル記憶部125と、HRTF学習データ記憶部126と、HRTF学習モデル記憶部127とを有する。
耳型情報記憶部121は、実際に人体から採取された耳型を3Dモデルデータ化した情報(すなわち、耳の形状に関する情報)を記憶する。具体的には、耳型情報記憶部121は、採取された耳型をCTスキャンすることにより得られた、3次元形状を示すデータ(3Dポリゴン等)を記憶する。
耳モデル記憶部122は、本開示に係る耳モデルを記憶する。耳モデルは、耳の特徴を示した耳パラメータが入力された場合に、対応する耳の形状を出力するモデルである。
耳パラメータは、耳型情報記憶部121に記憶された耳型の形状を示すデータを主成分分析することにより得られる。すなわち、耳パラメータは、耳の3Dポリゴンに対して統計的に分析(主成分分析)を行うことにより、耳の中で変化の大きい(耳の形状を特徴付ける)部位を数値化したものである。本開示に係る耳パラメータは、例えば10の数値の組み合わせで示され、また各々の数値は、例えばマイナス10からプラス10までの数値で示される。例えば、全ての数値が「0」である耳パラメータは、学習データ(採取された耳型)の平均的な形状を有する耳に対応する。なお、情報処理装置100は、主成分分析によって耳の形状を示すモデルの生成処理について、例えば人物の顔の生成処理等で用いられる既知の技術を適宜適用してもよい。また、情報処理装置100は、主成分分析に限らず、独立成分分析やその他の非線形モデルなど、既知の分析手法を適宜用いて、耳パラメータを生成してもよい。ここで、耳パラメータは、耳の中で変化の大きい部位を数値化したものに限らず、例えば、HRTFに対する影響が大きくなるような、耳の形状に関する特徴をパラメータ化したものであってもよい。
耳画像記憶部123は、耳の映像を含む画像を記憶する。例えば、耳画像記憶部123は、耳画像として、耳モデルによって生成された耳の形状(耳の3Dモデル)をレンダリングして得られたCG画像を記憶する。また、耳画像記憶部123は、耳画像として、ユーザから送信された耳の映像を含む画像を記憶してもよい。
ここで、図4に、本開示に係る耳画像記憶部123の一例を示す。図4は、本開示の耳画像記憶部123の一例を示す図である。図4に示した例では、耳画像記憶部123は、「耳パラメータ」、「耳3Dモデルデータ」、「頭部3Dモデルデータ」、「耳画像ID」、「画像生成パラメータ」といった項目を有する。また、「画像生成パラメータ」は、「テクスチャ」、「カメラ角度」、「解像度」、「明度」といった小項目を有する。
「耳パラメータ」は、耳の形状の特徴を示すパラメータである。例えば、耳パラメータは、10次元の数値等によって表記される。「耳3Dモデルデータ」は、耳パラメータに基づいて再構成された耳の3次元形状を示すデータである。「頭部3Dモデルデータ」は、人物の3Dモデルの再構成の際に、耳3Dモデルデータが合成される頭部の3次元形状を示すデータである。
「耳画像ID」は、3Dモデルをレンダリングして得られる耳画像を識別する識別情報を示す。図4に示すように、耳画像は、レンダリングの際に設定されるパラメータ(画像生成パラメータ)を様々に変更することによって、1つの3Dモデルから複数が生成される。
「画像生成パラメータ」は、画像を生成するためのレンダリングにおける設定パラメータを示す。「テクスチャ」は、CGのテクスチャの設定を示す。「カメラ角度」は、3Dモデルをレンダリングして2次元の画像を得る際の、疑似的なカメラの撮影角度を示す。「解像度」は、レンダリングの際の解像度を示す。「明度」は、レンダリングの際の明度を示す。明度の項目には、レンダリングにおける光(入射光)の角度等の設定データ等が含まれてもよい。
なお、図4では、各項目のデータを「A01」や「B01」のように概念的に記載しているが、実際には、各項目のデータには、各項目に対応した具体的なデータが記憶される。例えば、「耳パラメータ」の項目には、具体的な10種類の数値の羅列が記憶される。他の項目も同様、各項目に対応した各種数値や情報が記憶される。
すなわち、図4に示した例では、耳パラメータ「A01」によって生成された耳3Dモデルデータは「B01」であり、また、当該耳3Dモデルデータと組み合されて、人物の3Dモデルを構成する頭部3Dモデルデータは「C01」であることを示している。また、生成された人物の3Dモデルから得られた耳画像は、耳画像ID「D01」、「D02」、「D03」等で識別される複数の耳画像であることを示している。また、耳画像ID「D01」で識別される耳画像は、レンダリングの際の画像生成パラメータとして、テクスチャが「E01」であり、カメラ角度が「F01」であり、解像度が「G01」であり、明度が「H01」であることを示している。
図3に戻り、説明を続ける。耳パラメータ推定モデル記憶部124は、耳パラメータ推定モデルを記憶する。耳パラメータ推定モデルは、耳の映像を含む2次元画像が入力された場合に、当該耳に対応する耳パラメータを出力するモデルである。
HRTF処理モデル記憶部125は、HRTF処理モデルを記憶する。詳細は後述するが、HRTF処理モデルは、音響シミュレーション等によって算出されたHRTFの情報量を圧縮する処理を行う。なお、以下の説明では、HRTF処理モデルによって圧縮されたHRTFを、HRTFパラメータと称する場合がある。
HRTF学習データ記憶部126は、耳の映像を含む画像からHRTFを算出するためのモデル(後述するHRTF学習モデル)を生成するための学習データを記憶する。具体的には、HRTF学習データ記憶部126は、学習データとして、耳の形状を示す耳パラメータと、当該耳パラメータに基づいて特定される耳の形状に対応したHRTFとが組み合わせられたデータを記憶する。
HRTF学習モデル記憶部127は、HRTF学習モデルを記憶する。HRTF学習モデルは、耳の映像を含む画像が入力された場合に、当該耳に対応するHRTFを出力するモデルである。例えば、HRTF学習モデルは、耳の映像を含む画像を取得した場合に、耳パラメータ推定モデルを用いて当該耳に対応する耳パラメータを出力させ、さらに、当該耳パラメータに対応するHRTFを出力する。
制御部130は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、情報処理装置100内部に記憶されたプログラム(例えば、本開示に係る情報処理プログラム)がRAM(Random Access Memory)等を作業領域として実行されることにより実現される。また、制御部130は、コントローラ(controller)であり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。
図3に示すように、制御部130は、学習部131と、推定部140とを有する。また、学習部131は、受付部132と、耳モデル学習部133と、画像生成部134と、耳パラメータ学習部135と、HRTF学習部136とを有し、以下に説明する情報処理の機能や作用を実現または実行する。また、推定部140は、取得部141と、算出部142と、提供部143とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部130の内部構成は、図3に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。
まず、学習部131について説明する。学習部131は、各種データに関する学習処理を行い、推定部140が利用する各種モデルを生成する。
なお、学習部131は、種々のデータに基づいてモデルを生成するための学習を行うが、下記で説明する学習処理は一例であり、学習部131が実行する学習処理の種別は何らかの種別に特定されない。例えば、学習部131は、ニューラルネットワーク、サポートベクターマシン(support vector machine)、クラスタリング、強化学習等の各種学習アルゴリズムを用いてモデルを生成してもよい。
受付部132は、各種情報を受け付ける。例えば、受付部132は、人体から採取された耳型のCTスキャンデータを受け付ける。受付部132は、受け付けたデータを耳型情報記憶部121に格納する。
耳モデル学習部133は、耳モデルに関する学習処理を行い、耳モデルを生成する。耳モデル学習部133は、生成した耳モデルを耳モデル記憶部122に格納する。
ここで、図5を用いて、受付部132及び耳モデル学習部133が実行する学習処理の例について説明する。図5は、本開示に係る耳モデルに関する学習処理の一例を示す図である。
図5に示すように、受付部132は、耳型から採取され、スキャンされたデータを受け付け、受け付けたデータを耳型情報記憶部121に格納する。また、受付部132は、受け付けたデータを耳モデル学習部133に送る(ステップS16)。
耳モデル学習部133は、取得した耳型データを相同化し、耳型の相同データを生成する(ステップS17)。ここで、相同化とは、3Dモデルの頂点数やポリゴンの構成を、基準となる3Dモデルと同一になるよう統一することをいう。この場合、相同化の前後で形状が変化しないよう留意する。さらに、耳モデル学習部133は、相同データに対して主成分分析を行う(ステップS18)。これにより、耳モデル学習部133は、耳の形状から、当該耳の形状を示す耳パラメータを算出するモデル(耳モデル)を生成する。耳モデル学習部133は、生成した耳モデルを耳モデル記憶部122に格納する。
図3に戻り、説明を続ける。画像生成部134は、耳の映像を含む画像を生成する。例えば、画像生成部134は、耳パラメータをランダムに生成し、生成した耳パラメータを耳モデルに入力して、耳の3Dモデルを生成する。さらに、画像生成部134は、生成した3Dモデルのテクスチャ(例えば肌の色)や、レンダリング品位(画質等)、CGレンダリングにおけるカメラ角度等のパラメータ(以下、「画像生成パラメータ」と称する)をランダムに生成する。そして、画像生成部134は、生成した3Dモデルと、複数の画像生成パラメータとを適宜組み合わせてレンダリングを行い、耳の形状や肌の色などが多様に変化するCG画像を生成する。
後述する推定処理ではユーザから送信される画像を処理に用いるが、ユーザから送信される画像では、ユーザの肌の色や、撮影時の耳の角度等が様々に異なる可能性が高いと想定される。このため、かかる処理では、ユーザから送信されるあらゆる画像において耳の映像を的確に画像認識するという課題がある。画像生成部134は、上記のように様々な状況に対応した画像を大量に生成することで、画像認識の精度を向上させ、上記の課題を解決する。
耳パラメータ学習部135は、耳の映像を含む画像と、耳パラメータとの関係性を学習することにより、耳パラメータ推定モデルを生成する。耳パラメータ学習部135は、本開示に係る第1学習部に対応する。耳の映像を含む画像とは、実際に人物の耳を撮影した画像であってもよいし、後述するように、耳パラメータに基づいて生成されるCG画像であってもよい。
例えば、耳パラメータ学習部135は、耳パラメータに基づいて生成された耳の3次元データと、頭部の3次元データとを合成した3次元データをレンダリングすることで得られる耳画像と、当該耳パラメータとの関係性を学習することにより、耳パラメータ推定モデルを生成する。具体的には、耳パラメータ学習部135は、画像生成部134によって生成されたCG画像と、耳パラメータとの関係性を学習する。上述のように、画像生成部134は、ランダムもしくは規則的に設定した耳パラメータに基づいてCG画像を生成しているため、当該CG画像に対して耳パラメータは一意に定まる。このため、耳パラメータ学習部135は、入力されたCG画像と耳パラメータとの関係性を学習することで、ある画像が入力された場合に、当該画像に含まれる耳の映像に対応した耳パラメータを出力するモデルを生成することができる。なお、耳パラメータ学習部135は、必ずしも、頭部の合成された3次元データをレンダリングすることで得られる耳画像を学習に用いなくてもよい。すなわち、耳パラメータ学習部135は、耳パラメータに基づいて生成された耳の3次元データのみをレンダリングして得られた耳画像と、耳パラメータとの関係性を学習することにより、耳パラメータ推定モデルを生成してもよい。
また、耳パラメータ学習部135は、耳もしくは頭部の3次元データのテクスチャ、レンダリングにおけるカメラ角度又はレンダリングにおける明度等を変更した複数の耳画像と、複数の耳画像に共通する耳パラメータとの関係性を学習することにより、耳パラメータ推定モデルを生成する。このように、耳パラメータ学習部135は、様々な態様の耳画像を用いて学習を行うことにより、どのような画像が入力されても正確に耳パラメータを出力できる(例えば、入力された画像に含まれる耳パラメータ以外のあらゆる変化に対して安定的な推定を行うことができる)、安定感のあるロバスト(robust)なモデルを生成することができる。
ここで、図6を用いて、画像生成部134及び耳パラメータ学習部135が実行する学習処理の例について説明する。図6は、本開示に係る耳パラメータ推定モデルに関する学習処理の一例を示す図である。
図6に示すように、画像生成部134は、耳モデル記憶部122を参照し(ステップS21)、耳モデルを取得する。また、画像生成部134は、耳パラメータに対応する乱数や、CGのテクスチャやレンダリングのカメラ角度等に対応する乱数を生成する(ステップS22)。すなわち、画像生成部134は、耳画像を生成するための各種パラメータ(画像生成パラメータ)を生成する。
そして、画像生成部134は、画像生成パラメータのうち耳パラメータを取得し(ステップS23)、取得した耳パラメータを耳モデルに入力して、耳の3Dモデルを再構成する(ステップS24)。
続けて、画像生成部134は、画像生成パラメータのうちCGテクスチャ等のパラメータを取得し(ステップS25)、取得したパラメータを入力して、3Dモデルに3DCGレンダリングを施す(ステップS26)。なお、レンダリングに用いる際の頭部については、例えば、複数の人物(例えば、耳型を採取した複数の人物)の平均的な頭部や、サンプルとして利用される頭部の3Dモデル等を用いる。ここで、頭部の3Dモデルは、耳モデルと同様、複数の人物の頭部を3Dスキャンして得られる3Dデータを相同化して生成してもよい。この場合、画像生成部134は、乱数によるパラメータ生成を行うことにより、頭部3Dモデルをランダムに生成させることができる。なお、画像生成部134は、テクスチャについても、同様の手法により生成されたテクスチャモデルを作成することで、乱数により種々のテクスチャを生成することができる。
これにより、画像生成部134は、耳の映像を含む画像(耳画像)を生成する。なお、画像生成部134は、テクスチャ等のパラメータを様々に変化させることで、1つの3Dモデルから、複数の耳画像を生成することが可能である。
ここで、図7を用いて、画像生成部134が生成する耳画像の一例を示す。図7は、本開示に係る耳画像の生成処理の一例を示す図である。
画像生成部134は、ランダムに生成した耳パラメータを用いて、耳の3次元形状を示す3Dモデルを生成する(ステップS41)。また、画像生成部134は、複数の人物の平均的な頭部の3次元形状を示すデータに基づいて生成された頭部3Dモデルを取得する(ステップS42)。そして、画像生成部134は、ステップS41で生成した耳と、ステップS42で取得した頭部3Dモデルとを合成し、疑似的な人物の3Dモデルを生成する。
続けて、画像生成部134は、生成した3Dモデルに対して疑似的な撮影を行い、3Dモデルから2次元の画像を生成する処理(レンダリング)を行う。例えば、画像生成部134は、3Dモデルの耳の正面の角度を疑似的な撮影角度と設定し、耳の映像が略中央となる画像を生成する。
ここで、画像生成部134は、3Dモデルに画像生成パラメータをランダムに入力することにより、CGのテクスチャ(具体的には肌の色等)や、レンダリングの品位(解像度等)や、頭部に対する耳の位置などを様々に変更する。これにより、画像生成部134は、肌の色等がそれぞれ異なる多数の画像を生成することができる(ステップS43)。
画像群20は、画像生成部134により生成された複数の耳画像を示す。このように、画像生成部134は、多様な耳画像を多数生成することにより、後述する耳画像の認識精度を向上させることができる。
図6に戻り、説明を続ける。画像生成部134は、生成した耳画像を耳画像記憶部123に記憶する(ステップS27)。なお、画像生成部134は、生成した耳画像に対応付けて、それぞれの画像を生成した際の画像生成パラメータを耳画像記憶部123に記憶する(ステップS28)。これにより、画像生成部134は、学習データとして、耳パラメータが対応付けられた耳画像を大量に保持することができる。例えば、画像生成部134は、学習データとして、耳パラメータが対応付けられた耳画像を大量に保持することができる。
続けて、耳パラメータ学習部135は、耳画像記憶部123を参照し(ステップS29)、耳画像と耳パラメータを取得する。そして、耳パラメータ学習部135は、耳画像と耳パラメータとの関係性を学習し、耳パラメータ推定モデルを生成する。耳パラメータ学習部135は、生成した耳パラメータ推定モデルを耳パラメータ推定モデル記憶部124に格納する(ステップS30)。
耳パラメータ推定モデルは、例えば、画像の特徴量を抽出するために有用な畳み込みニューラルネットワーク(Convolutional Neural Network)等を利用して生成される。なお、学習におけるコスト式(コスト関数)は、例えば下記式(1)で示される。
Figure 2020075622
式(1)において、「αtrue」は、耳パラメータの真値を示す。また、「αest」は、耳パラメータの推定値を示す。また、「Aear」は、主成分分析による耳モデルを示す。また、右辺の距離関数は、L2ノルム(ユークリッド距離)を示す。なお、耳モデルパラメータの真値は、例えば、耳型の採取の際に実測された人物の耳を示すパラメータ等を用いることができる。すなわち、耳画像を生成する際に用いた耳パラメータが真値であり、学習中の耳パラメータ推定モデルに、当該耳画像を入力した際に出力する値が推定値となる。情報処理装置100は、学習処理として、現在の推定値に対するコスト式の値を最小化するよう係数を更新する。
ここで、図8を用いて、耳パラメータ学習部135が生成した耳パラメータ推定モデルについて説明する。図8は、本開示に係る耳パラメータ推定モデルを説明するための図である。
情報処理装置100は、耳画像30を取得した場合、取得した耳画像30を耳パラメータ推定モデルに入力する。耳パラメータ推定モデルは例えば畳み込みニューラルネットワークの構造を有し、入力された耳画像30における数ピクセルごとの矩形部に分割しながら、耳画像30を示す特徴量を求める。最終的に、耳パラメータ推定モデルは、耳画像30を示す特徴量として、耳画像30に含まれる耳の映像に対応する耳パラメータを出力する(ステップS45)。
なお、情報処理装置100は、出力された耳パラメータを耳モデルに入力することにより、耳画像30に含まれる耳に対応した耳型(3Dモデル)を再構成することができる。図8に示す3Dモデル40は、耳パラメータに基づいて、耳画像30に含まれる耳をCGで再構成した3Dモデルを示す。
図3に戻り、説明を続ける。HRTF学習部136は、耳の形状に関する情報とHRTFとの関係性を学習することにより、HRTFに関する各種モデルを生成する。例えば、HRTF学習部136は、耳の映像を含む画像と、耳に対応するHRTFとの関係性を学習することにより、HRTFを算出する学習済みモデルを生成する。HRTF学習部136は、本開示に係る第2学習部に対応する。
例えば、HRTF学習部136は、耳パラメータに基づいて生成された耳の3次元データと頭部の3次元データとを合成した3次元データに対して音響シミュレーションを行い、音響シミュレーションによって得られたHRTFと、耳パラメータとの関係性を学習することにより、学習済みモデルを生成する。
また、HRTF学習部136は、音響シミュレーションによって得られたHRTFの情報量を圧縮し、圧縮したHRTFと、耳パラメータとの関係性を学習することにより、学習済みモデルを生成してもよい。
また、HRTF学習部136は、耳パラメータに基づいて生成された耳の3次元データの聴取点を設定し、設定した聴取点を用いて音響シミュレーションを行ってもよい。聴取点とは、人間が音を聴取すると想定される位置を仮想的に設定したものである。例えば、聴取点の位置は、ダミーヘッドマイクロホンにおいてマイクが設置される位置(ダミーヘッドにおける外耳道の入り口等)に対応する。
上述したHRTF学習部136の各処理に関して、図9に、HRTFに関する各種モデルの生成処理の流れを示す。図9は、HRTFに関する各種モデルの生成処理の流れの概要を示す図である。
図9では、HRTF学習部136がユーザから送信された画像に基づいて、所定の学習処理を行う例を示している。この場合、ユーザは、ユーザ端末10を利用して自身の耳(正確には、耳を含む頭部)を撮影する(ステップS51)。その後、ユーザ端末10は、撮影写真から耳の映像が含まれる範囲を特定し、特定した範囲を切り抜いて、耳画像を取得するという前処理を行う(ステップS52)。
その後、HRTF学習部136は、耳パラメータ推定モデルを利用して、ユーザから送信された耳画像に含まれる耳の耳パラメータを算出する(ステップS53)。さらに、HRTF学習部136は、耳パラメータに基づいて耳の3Dモデルを再構成し、さらに再構成した耳に頭部3Dモデルを組み合わせて、人物の3Dモデルを生成する(ステップS54)。
続けて、HRTF学習部136は、生成した3Dモデルに対して音響シミュレーションを行い、当該3Dモデルの個人化HRTF(ステップS55)を求める。これにより、HRTF学習部136は、ユーザから送信される耳画像に含まれる耳と、個人化HRTFとが対応付けられた学習データを得ることができる。
なお、図9の例では、音響シミュレーションにより得られた個人化HRTFと耳のデータとが対応付けられた学習データを生成する例を示したが、HRTF学習部136は、必ずしも音響シミュレーションにより個人化HRTFを得る必要がない場合もある。例えば、耳型を採取した人物の個人化HRTF(無響室等で測定装置を用いて得られたHRTF)が得られている場合には、HRTF学習部136は、実測された個人化HRTFと、人物の耳型(耳パラメータ)とが対応付けられた学習データを取得してもよい。
HRTF学習部136は、音響シミュレーションに際して、人物の3Dモデルにおける聴取点を自動的に設定する。この点について、図10を用いて説明する。図10は、本開示に係る3Dモデルの再構成を説明するための図である。
HRTF学習部136は、ランダムに生成された耳パラメータから耳3Dモデルを再構成する(ステップS71)。続けて、HRTF学習部136は、耳3Dモデルを頭部3Dモデルに組み合わせて人物の3Dモデルを生成する(ステップS72)。さらに、HRTF学習部136は、3Dモデルにおける耳の形状に基づいて、音源の聴取点60を設定する(ステップS73)。例えば、HRTF学習部136は、予め、耳の形状と音源の聴取点の位置とを対応付けた情報を学習することにより、聴取点を自動的に設定することができる。例えば、HRTF学習部136は、3Dモデルを生成した時点で、当該3Dモデルにおける聴取点の位置を推定し、聴取点を自動的に設定する。聴取点は、例えば耳の外耳道に対応し、一般に、耳の形状から位置を推定することができる。
その後、HRTF学習部136は、音響シミュレーションにおける3Dモデルの計算上の制約を満たすよう、生成した3Dモデルをリメッシュする(ステップS74)。これは、3Dモデルのシミュレーションにおいて、例えばポリゴンの総数に対する上限や、頂点をつなぐエッジの長さなどがシミュレーションの条件によって定められることがあることによる。すなわち、HRTF学習部136は、生成した3Dモデルをシミュレーションにかける前に、計算上の制約を満たすよう3Dモデルを適宜リメッシュし、シミュレーションを適切に行うことができるよう処理する。そして、HRTF学習部136は、生成した3Dモデル及び設定した聴取点60に対して音響シミュレーションを行い、個人化HRTFを算出する(ステップS75)。
次に、図11を用いて、HRTFに関するモデルの生成処理に関する詳細な流れを説明する。図11は、HRTFに関するモデルの生成処理の詳細を説明する図である。
図10で示したように、HRTF学習部136は、頭部合成を行ったのちに(ステップS81)、音響シミュレーションを行う(ステップS82)。HRTF学習部136は、音響シミュレーションで得られた測定データを分析し(HRTF後処理)、個人化HRTFを示す数値を算出する(ステップS83)。なお、HRTF後処理は、例えば、音響シミュレーションにより得られたHRIF(Head-Related Impulse Response)をフーリエ変換してHRTFを得ること等をいう。
ここで、HRTF学習部136は、HRTF処理モデル記憶部125を参照し(ステップS84)、算出したHRTFを処理するためのモデル(HRTF処理モデル)にHRTFを入力する。これにより、HRTF学習部136は、次元が削減されたHRTFを得る(ステップS85)。すなわち、HRTF学習部136は、HRTF処理モデルから、次元が削減されたHRTFであるHRTFパラメータを出力する(ステップS86)。
このように、HRTF学習部136は、音響シミュレーションで得られたHRTFをそのまま処理に用いるのではなく、次元を削減したHRTFパラメータを用いて処理を行う。これは、HRTFが非常に次元数の多い関数であり、そのままモデルの生成処理や算出処理を行う場合、計算処理の負荷が大きくなることによる。
HRTF学習部136は、音響シミュレーションを行った頭部に関するデータ(頭部合成の元となるデータであり、例えば耳パラメータ等)と、算出したHRTFパラメータとを対応付けて、HRTF学習データ記憶部126に格納する(ステップS87)。
その後、HRTF学習部136は、異なる耳パラメータを新たにランダムに生成し(ステップS88)、新たに生成した耳パラメータを用いて頭部合成を行う(ステップS89)。ステップS81からステップS89を繰り返すことにより、HRTF学習部136は、学習に要する学習データを収集する。
その後、充分な学習データが蓄積された場合、HRTF学習部136は、HRTF学習データ記憶部126を参照し(ステップS90)、耳パラメータとHRTF(正確にはHRTFパラメータ)との関係性を学習する(ステップS91)。かかる学習により、HRTF学習部136は、耳パラメータから直接的にHRTFを得るためのHRTF学習モデルを生成し、生成したHRTF学習モデルをHRTF学習モデル記憶部127に格納する。
次に、図12を用いて、HRTFと、HRTFパラメータとの関係について説明する。図12は、本開示に係るHRTFの圧縮及び復元を説明するための図である。
図12に示すように、HRTF学習部136は、音響シミュレーションによって得られたHRIFHRTF((図12の例では、仮に1000方向×500タップとする)にFFT(Fast Fourier Transform)を行う(ステップS101)。かかる処理により、HRTF学習部136は、振幅特性を抽出し(ステップS102)、例えば聴感上の感度が低い周波数成分等を間引く処理を行う(ステップS103)。具体的には、HRTFは、角度(θ、φとする)と、周波数(fとする)に関する関数HRTF(θ、φ、f)で表現される。このとき、周波数のビン(bin)数をkとすると、関数に入力される周波数fは、f=f、f、f、・・・、fk−1と表される。すなわち、HRTFは、1つの方向及び1つの耳に対して、複素k次元をもつことになる。ここで、ナイキスト周波数(fk/2)以降のHRTFは、周波数fk/2以前の複素共役の折り返しであるため、情報処理においては、周波数ビンとして、f0=0からナイキスト周波数(fk/2)までの(k/2)+1個のみを用いることができる。また、少なくとも1つ以上の周波数ビンに対して、絶対値を用いることができる。例えば、fからfk/2までの全ての周波数を絶対値に変換すると、変換後の関数Hは、以下の式(2)で表される。
Figure 2020075622
すなわち、HRTF学習部136は、元のHRTFの次元を実数(k/2)+1次元に圧縮することができる。さらに、HRTF学習部136は、上記式(2)のHに対して周波数圧縮を行い、さらに(k/2)+1より少ない次元に削減することが可能である。次元の圧縮に関しては種々の既知の手法が存在する。例えば、HRTF学習部136は、関数に対してケプストラム変換を行い、1つ以上、(k/2)+1未満の周波数ビンのみを取得する等の手法を用いる。一例として、HRTF学習部136は、複数の周波数ビンの平均値を求め、平均値に基づいて次元を削減する。例えば、周波数ビンを下記式(3)で表した場合(a、L、lは、それぞれ0以上の整数)、fal≦f´<fal+1を満たすlを用いて、新たな関数Hは、下記式(4)で表される。
Figure 2020075622
Figure 2020075622
これにより、HRTF学習部136は、(K/2)+1次元で表されていた関数HをL次元に削減することができる。なお、平均値を求める手法は、上記に限らず、例えば、二乗平均平方根や重み付き平均等を用いて求めてもよい。これにより、HRTFは、例えば1000方向×50次元ほどに削減される。なお、関数Hで削減された次元を戻す場合(後述するステップS110等)には、線形補間やスプライン補間など、HRTF学習部136は、種々の手法を用いて復元することが可能である。次元を戻した関数H´は、関数Hに対してより滑らかな特性となることが予想されるが、aの選び方を工夫することで、より聴感上影響の少なくなるようなH´(θ、φ、k)が得られる。一例として、高い周波数ほど、falとfal+1の周波数間隔が大きくなるようにaを選ぶといった工夫がありうる。
HRTF学習部136は、次元が削減されたHRTFに、さらに球面調和フィッティングの処理を行うことにより、50係数×50次元ほどに情報量が圧縮される(ステップS104)。ここで、球面調和フィッティングとは、球面調和関数を用いて、圧縮された周波数ごとに空間方向のフィッティングを行うことをいう。HRTFと球面調和関数との関係は、下記式(5)で示される。
Figure 2020075622
上記式(5)に示すように、球面調和関数Yは、係数hnm(f)で表現される。このときの次元数nを、ある有限なNで打ち切ることにより、係数hnm(f)の次元を、元のHRTFの次元数(方向数)よりも小さくすることができる。このことは、人間の知覚にとって不要な、空間的に細かすぎる振幅を無視し、滑らかな形状のみを取得することを意味する。なお、係数hnmのベクトルh=(h00、h1−1、・・・)を求めるには、例えば最小二乗法等が用いられる。
Figure 2020075622
すなわち、上記式(6)におけるYを球面調和関数の行列とし、Hを球面調和関数の行列とした場合に、左辺のEを最小化するようなhを求める。なお、上記式(6)右辺の第2項は、正則化項であるため、任意の値λを選んでよい(例えば、λ=0でもよい)。すると、上記のhは、下記式(7)で表される。
Figure 2020075622
上記式(7)を用いることにより、HRTF学習部136は、必要な周波数に対応する各々のhを求めることができる。さらに、HRTF学習部136は、主成分分析による次元圧縮を行うことにより、HRTFの情報量をおよそ数百次元で表現可能なように圧縮する(ステップS105)。かかる情報が、HRTFパラメータとなる(ステップS106)。
なお、周波数間引きをした後に球面調和フィッティングが行われる場合、上記fの値は、間引き後の代表周波数となる。また、HRTF学習部136は、球面調和フィッティングの後に、周波数間引きを行ってもよい。また、空間的に次元を圧縮する方法は、球面調和関数や主成分分析のような線形結合に限らず、どのような手法を用いても構わない。例えば、HRTF学習部136は、カーネル主成分分析のように非線形な手法を用いてもよい。また、HRTF学習部136は、周波数fに応じて、球面調和関数の打ち切り次数Nを変化させ、N(f)といった値を用いてもよい。また、0からNまでの次元数や位数で使わない係数hnmがあってもよい。また、HRTF学習部136は、左右のHRTFについてそれぞれ求めてもよいし、左右の和と差などに変換してからそれぞれ求めてもよい。また、フィッティング対象のHRTFは、振幅の絶対値やその対数表現などさまざまな変換を行ったものであっても構わない。
続いて、HRTF学習部136は、ステップS101からステップS106とは逆の流れで処理を行うことで、HRTFを復号することが可能である。まず、HRTF学習部136は、HRTFパラメータを取得し(ステップS107)、主成分分析による次元圧縮の復元を行う(ステップS108)。さらに、HRTF学習部136は、球面調和再構成処理を行うとともに(ステップS109)、周波数の補間を行う(ステップS110)。さらに、HRTF学習部136は、振幅特性を得て(ステップS111)、最小位相復元を行う(ステップS112)。最小位相復元については、種々の既知の手法が用いられてもよい。例えば、HRTF学習部136は、上記関数H´2のナイキスト周波数以降を折り返して復元した関数である関数H´1(θ、φ、k)の対数を逆フーリエ変換(IFFT(Inverse Fast Fourier Transform))し、その実部をとる。さらに、この領域で適切なウィンド処理を行い、その指数関数を逆フーリエ変換し、実部をとることで、最小位相復元を行うことができる。例えば、以下のような関係式(8)がそれぞれ成立する。
Figure 2020075622
なお、HRTF学習部136は、最小位相復元された左右のHRIR(h)に対して、推定されたITD(両耳間時間差(Interaural Time Difference))、もしくは事前に用意されたITDを付加してもよい。なお、ITDは、左右のHRIRの群遅延の差分に基づき、例えば下記式(9)及び式(10)により求められる。
Figure 2020075622
Figure 2020075622
あるいは、ITDは、左右における時間軸上の相互相関を求め、相関係数が最大となる時間をITDと定義することにより算出されてもよい。この場合、ITDは、例えば下記式(11)及び式(12)により求められる。
Figure 2020075622
Figure 2020075622
例えば、HRTF学習部136は、左右のHRIRについて、左のほうが右よりdサンプルだけ遅らせる場合、下記式(13)のような関係式を用いる。
Figure 2020075622
このとき、上記式(13)におけるhは、hm、Lよりdだけ長いインパルス応答となるが、長さをhm、Lと同じにするためには、上記式(13)の後半部分を削除する。このとき、HRTF学習部136は、任意の窓、矩形窓、ハニング窓などの処理を行ってもよい。なお、HRTF学習部136は、方向ごとに相対的にITDを付加するだけでなく、空間全体で、方向間の相対的な時間差まで含めて遅延を付加してもよい。その際は、HRTF学習部136は、ITDだけではなく方向間の相対的な時間差を示す情報を取得する。また、HRTF学習部136は、ITDが周波数の関数になっている場合には、周波数領域でITDを付加してもよいし、代表値または平均値を求めてITDを付加してもよい。そして、HRTF学習部136は、元の形式のHRIRを得たのち、逆フーリエ変換を行うことでHRTFを得る。
このように、HRTF学習部136は、元のHRTFよりも情報量の少ないHRTFパラメータに圧縮を行い、圧縮された形式でHRTF学習モデルの生成処理や、後述するHRTFの算出処理を行ってもよい。また、上記のように、HRTFの圧縮は、例えば、人間の聴感では位相の変化に敏感でないことを利用したり、聴感に影響を与えにくい周波数を優先的に間引いたりするなど、聴覚特性を利用した次元削減を行う。これにより、HRTF学習部136は、HRTFの特性である聴感上の定位感を損なわず、かつ、情報処理を高速化させることができる。
図3に戻り、説明を続ける。推定部140は、ユーザから送信された画像に基づいて、当該ユーザに対応するHRTFの推定処理を行う。
取得部141は、ユーザの耳の映像を含む画像を取得する。例えば、取得部141は、ユーザ端末10によって撮影された画像から、ユーザの耳周辺のみが切り取られた耳画像を取得する。
また、取得部141は、取得した耳画像を耳パラメータ推定モデルに入力することにより、当該画像に含まれる耳の特徴を示す耳パラメータを取得してもよい。
算出部142は、耳の映像を含む画像が入力された場合に当該耳に対応するHRTFを出力するよう学習された学習済みモデル(HRTF学習モデル)を用いて、取得部141によって取得された画像に基づいて、ユーザに対応するHRTF(個人化HRTF)を算出する。
具体的には、算出部142は、取得部141によって取得された耳パラメータをHRTF学習モデルに入力することにより、ユーザに対応する個人化HRTFを算出する。
なお、算出部142は、個人化HRTFを算出する場合、まずはHRTFパラメータを算出し、算出したHRTFパラメータを復号することにより、HRTFを算出してもよい。このように、HRTFの情報量が圧縮された状態で一連の処理を行うことにより、算出部142は、処理を高速化することができる。また、算出部142は、HRTF削減モデルに表現されないような奇異なHRTFを出力することを回避することができるため、安定的な出力を行うことができる。
提供部143は、ネットワークNを介して、算出部142によって算出されたHRTFをユーザに提供する。
ここで、図13を用いて、画像からHRTFを推定する処理の流れについて説明する。図13は、本開示に係るHRTFの推定処理の流れを示す図である。
図13では、推定部140がユーザから送信された画像に基づいて、画像に含まれる耳に対応するHRTFの推定処理を行う例を示している。この場合、ユーザは、ユーザ端末10を利用して自身の耳(正確には、耳を含む頭部)を撮影する(ステップS131)。その後、ユーザ端末10は、撮影写真から耳の映像が含まれる範囲を特定し、特定した範囲を切り抜いて、耳画像を取得するという前処理を行う(ステップS132)。
取得部141は、ユーザから送信された耳画像を取得した場合、取得した耳画像を学習済みモデルに入力する。具体的には、取得部141は、耳画像を耳パラメータ推定モデルに入力する。耳パラメータ推定モデルは、耳画像を示す特徴量として、耳画像に含まれる耳の映像に対応する耳パラメータを出力する。これにより、取得部141は、画像に対応する耳パラメータを取得する(ステップS133)。
算出部142は、取得された耳パラメータをHRTF学習モデルに入力し、耳画像に対応する個人化HRTFを算出する(ステップS133)。提供部143は、算出された個人化HRTFを、画像の送信元であるユーザ端末10に提供(送信)する(ステップS134)。
このように、情報処理装置100は、学習部131によって種々のモデルが生成された場合、耳画像の取得から個人化HRTFの提供までを、一連の処理として行うことができる。これにより、情報処理装置100は、HRTFの提供に関するユーザの利便性を向上させることができる。
なお、図13の例では、学習済みモデルの例として、耳パラメータ推定モデルとHRTF学習モデルとの組み合わせを示しているが、学習済みモデルの組み合わせはこの例に限られない。また、学習済みモデルとは、耳パラメータ推定モデルとHRTF学習モデルとが個別に組み合わせられたものであってもよいし、耳パラメータ推定モデルとHRTF学習モデルとに対応する処理を行う、1つのモデルとして構成されてもよい。
[1−4.第1の実施形態に係るユーザ端末の構成]
図13で示したように、第1の実施形態においては、ユーザの横顔の撮影、及び、耳画像の生成等がユーザ端末10によって行われる。ここで、第1の実施形態に係るユーザ端末10の構成について説明する。図14は、本開示の第1の実施形態に係るユーザ端末10の構成例を示す図である。図14に示すように、ユーザ端末10は、通信部11と、入力部12と、表示部13と、検知部14と、記憶部15と、制御部16とを有する。
通信部11は、例えば、NIC等によって実現される。かかる通信部11は、ネットワークNと有線又は無線で接続され、ネットワークNを介して、情報処理装置100等との間で情報の送受信を行う。
入力部12は、ユーザから各種操作を受け付ける入力装置である。例えば、入力部12は、ユーザ端末10に備えられた操作キー等によって実現される。表示部13は、各種情報を表示するための表示装置である。例えば、表示部13は、液晶ディスプレイ等によって実現される。なお、ユーザ端末10にタッチパネルが採用される場合には、入力部12の一部と表示部13とは一体化される。
検知部14は、各種センサの総称であり、ユーザ端末10に関する各種情報を検知する。具体的には、検知部14は、ユーザ端末10に対するユーザの操作や、ユーザ端末10の所在する位置情報や、ユーザ端末10と接続されている機器に関する情報や、ユーザ端末10における環境等を検知する。
また、検知部14は、センサの一例として、撮影を行うためのレンズおよびイメージセンサを有する。すなわち、検知部14は、例えばユーザが撮影機能を動作させるアプリを起動させた場合、カメラとしての機能を発揮する。
記憶部15は、各種情報を記憶する。記憶部15は、例えば、RAM、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部15は、例えば、ユーザによって撮影された画像等を記憶する。
制御部16は、コントローラであり、例えば、CPUやMPU等によって、ユーザ端末10内部の記憶装置に記憶されている各種プログラムがRAMを作業領域として実行されることにより実現される。また、制御部16は、コントローラであり、例えば、ASICやFPGA等の集積回路により実現される。
図14に示すように、制御部16は、取得部161と、前処理部162と、送信部164と、受信部165とを有し、以下に説明する情報処理の機能や作用を実現または実行する。また、前処理部162は、姿勢検出部163Aと、耳検出部163Bとを有する。なお、制御部16の内部構成は、図14に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。
取得部161は、各種情報を取得する。例えば、取得部161は、検知部14によって撮影された画像を取得する。
姿勢検出部163Aは、取得部161によって取得された画像を読み込むとともに、当該画像に含まれるユーザの姿勢を検出する。
耳検出部163Bは、姿勢検出部163Aによって検出されたユーザの姿勢に基づいて、画像に含まれるユーザの耳が含まれる範囲(耳の映像)を検出する。具体的には、耳検出部163Bは、ユーザの頭部全体の映像を含む画像から、ユーザの耳の映像を特定し、特定した範囲を耳画像として検出する。
例えば、耳検出部163Bは、全体画像に含まれるユーザの頭部の特徴点とユーザの姿勢との関係性に基づいて、耳の映像が含まれる範囲を特定する。
また、姿勢検出部163A又は耳検出部163Bは、全体画像に含まれるユーザの頭部の特徴点とユーザの姿勢との関係性に基づいて耳の映像が含まれる範囲を特定できない場合、全体画像とは異なる画像であって、ユーザの頭部全体の映像を含む画像の取得を新たにユーザに要求してもよい。具体的には、姿勢検出部163A又は耳検出部163Bは、ユーザが撮影した横顔の画像では、本開示に係る情報処理が適切に行えない可能性があることを示すメッセージを表示部13に表示し、ユーザに撮影のやり直しを促す。なお、姿勢検出部163A又は耳検出部163Bは、耳の映像が含まれる範囲を特定できない場合に限らず、例えば、耳パラメータ推定モデルの学習時に用いられたカメラ角度とユーザの姿勢とが一定の閾値を超えて離れている場合等にも、ユーザに撮影のやり直しを促してもよい。また、姿勢検出部163A又は耳検出部163Bは、前処理としてユーザの耳画像を検出するのではなく、画像内のユーザの姿勢や位置を補正する補正情報を生成してもよい。補正情報とは、例えば、ユーザの頭部の特徴点の傾きや回転に応じて、耳の映像が含まれる範囲を回転させる量等を指示する情報である。かかる情報は、後述するように、ユーザの姿勢や、ユーザの横顔と検出された耳の位置との位置関係等に基づいて生成される。この場合、姿勢検出部163A又は耳検出部163Bは、補正情報に基づいて全体画像の回転を補正することによりユーザの耳の映像を特定し、特定した範囲を耳画像として検出してもよい。また、姿勢検出部163A又は耳検出部163Bは、生成した補正情報とともに全体画像を情報処理装置100に送信してもよい。この場合、情報処理装置100は、全体画像とともに送信された補正情報に基づいて全体画像の回転を補正することによりユーザの耳の映像を特定し、特定した範囲を耳画像として検出する前処理を自装置で行う。
ここで、図15に、前処理部162(姿勢検出部163A及び耳検出部163B)が実行する前処理の流れについて説明する。図15は、本開示に係る検出処理の流れを示す図である。
図15に示すように、取得部161は、ユーザによってユーザの横顔が撮影された場合、全体画像50を取得する(ステップS141)。
姿勢検出部163Aは、取得された全体画像50において、ユーザの横顔を検出する(ステップS142)。例えば、姿勢検出部163Aは、人物の顔検出処理等の既知の技術を用いて、全体画像50のうち、ユーザの横顔の映像が含まれる範囲を特定する。
ここで、姿勢検出部163Aは、画像51に示すように、ユーザの横顔に含まれる特徴点を検出する。例えば、姿勢検出部163Aは、横顔のうち、水平方向に突出している箇所(具体的には、ユーザの鼻の頂点など)や、頭部の頂点や、口の位置や、顎の位置等の特徴点を検出する。また、姿勢検出部163Aは、髪と肌の境目の情報等から、ユーザの耳やもみあげの位置等を検出する。また、姿勢検出部163Aは、横顔の映像の色情報から、ユーザの目の位置等を検出する。
そして、姿勢検出部163Aは、検出した特徴点に基づいて、ユーザの姿勢を検出する(ステップS143)。例えば、姿勢検出部163Aは、画像54に示されるような特徴点の3次元的な配置からユーザの頭部の姿勢を検出する。
このような姿勢の検出処理は、ユーザが送信する耳画像における姿勢が、学習時に用いた3Dモデルの姿勢と大きく齟齬が出ないようにするための処理である。すなわち、3Dモデルと大きく姿勢が異なる画像がユーザ端末10から送信された場合、学習データと送信された耳画像の齟齬から、情報処理装置100が耳の画像認識を適切に行うことができない可能性があるからである。
このため、姿勢検出部163Aは、学習に用いられた頭部3Dモデル55におけるレンダリング時の角度の平均値と、画像54で得られた角度とが所定の閾値以内であるかを判定し、ユーザが適切に撮影を行えたか否かを合否判定する(ステップS144)。例えば、耳パラメータ推定モデルの学習時には、頭部3Dモデル55のレンダリング時のカメラの向きと、頭部頂点と耳の所定位置(例えば、外耳道の入り口など)とを結ぶ線分とが成す角度φとが所定の数値以内であったと想定される。同様に、耳パラメータ推定モデルの学習時には、カメラの向きと、鼻の頂点と耳の所定位置とを結ぶ線分とが成す角度θとが所定の数値以内であったと想定される。これは、画像認識精度を高めるため、学習に用いる耳画像が、人間の横顔を示す画像から大きく外れたものとならないためである。すなわち、姿勢検出部163Aは、学習時の画像と同様、ユーザから送信された画像が、人間の横顔を示す画像であると認識可能な程度の角度を保つ画像であるか否かを判定する。
姿勢検出部163Aは、ユーザが適切に撮影を行えていないと判定した場合(例えば、ユーザの顔において所定閾値を超えて鼻先が下を向いている場合等)には、撮影のやり直しを命じるメッセージを表示するなどの処理を行い、新たに撮影された画像を取得する(ステップS145)。
一方、ユーザが適切に撮影を行えていると判定した場合には(ステップS146)、耳検出部163Bは、画像56から耳の映像が含まれる範囲57を特定し、範囲57を切り抜く(ステップS147)。これにより、耳検出部163Bは、耳画像58を取得する。
図15に示した検出処理を行うことにより、情報処理装置100は、撮影状態が悪いために耳が傾いているのか、もしくは、実際にそのユーザの耳の角度が傾いているのかを判別して、HRTFの算出を行うことができる。
また、ユーザ端末10は、上記のように、横顔の全体画像から耳画像を切り抜くことにより、ユーザの顔が含まれる全体画像ではなく、耳画像のみを送信させて処理を行わせることができる。これにより、ユーザ端末10は、個人情報の流出を防止することができ、情報処理の安全性を高めることができる。なお、ユーザ端末10は、上記の検出手法に限らず、機械学習による画像認識技術等を用いて、画像に含まれるユーザの耳を検出することにより、横顔の全体画像から耳画像を切り抜く処理を行ってもよい。
図14に戻り、説明を続ける。送信部164は、耳検出部163Bによって検出された範囲に基づき生成された耳画像を情報処理装置100に送信する。
受信部165は、情報処理装置100から提供される個人化HRTFを受信する。例えば、受信部165は、受信した個人化HRTFを音声再生アプリ等で音楽や音声に畳み込むことにより、ユーザ個人に最適化された3D音響等を実現することができる。
(2.第2の実施形態)
次に、第2の実施形態について説明する。上記第1の実施形態では、ユーザ端末10が、ユーザが撮影した画像から耳の映像のみを切り抜いて耳画像を生成する例を示した。第2の実施形態に係る情報処理装置100Aは、ユーザ端末10に代えて、自装置で耳の映像のみを切り抜く処理を行う。
図16を用いて、第2の実施形態に係る情報処理装置100Aの構成について説明する。図16は、本開示の第2の実施形態に係る情報処理装置100Aの構成例を示す図である。図16に示すように、情報処理装置100Aは、第1の実施形態と比較して、前処理部144(姿勢検出部145Aと、耳検出部145B)とをさらに備える。
姿勢検出部145Aは、第1の実施形態に係る姿勢検出部163Aと同様の処理を行う。また、耳検出部145Bは、第1の実施形態に係る耳検出部163Bと同様の処理を行う。すなわち、第2の実施形態に係る情報処理装置100Aは、第1の実施形態に係るユーザ端末10が実行した前処理を自装置で実行する。
第2の実施形態では、取得部141は、ユーザが横顔を撮影した全体画像をユーザ端末10から取得する。そして、姿勢検出部145A及び耳検出部145Bは、図15を用いて説明した処理と同様の処理を行い、全体画像から耳画像を生成する。算出部142は、姿勢検出部145A及び耳検出部145Bによって生成された耳画像から、個人化HRTFを算出する。
このように、第2の実施形態に係る情報処理装置100Aによれば、ユーザは、画像を撮影し送信するのみで、個人化HRTFの提供を受けることができる。また、第2の実施形態の構成によれば、ユーザ端末10において前処理を実行することを要しないため、例えば、ユーザ端末10の処理負荷を軽減させることができる。また、一般に、ユーザ端末10よりもサーバ装置(情報処理装置100)の方が処理は高速であると想定されるため、第2の実施形態の構成によれば、本開示に係る情報処理の全体の速度を向上させることができる。なお、姿勢検出部145A及び耳検出部145Bは、全体画像とともに補正情報が送信された場合、全体画像に含まれる補正情報に基づいて全体画像の回転を補正することによりユーザの耳の映像を特定し、特定した範囲を耳画像として検出してもよい。
(3.その他の実施形態)
上述した各実施形態に係る処理は、上記各実施形態以外にも種々の異なる形態にて実施されてよい。
また、上記各実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
また、上述してきた各実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
また、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、他の効果があってもよい。
(4.ハードウェア構成)
上述してきた各実施形態に係る情報処理装置100やユーザ端末10等の情報機器は、例えば図17に示すような構成のコンピュータ1000によって実現される。以下、第1の実施形態に係る情報処理装置100を例に挙げて説明する。図17は、情報処理装置100の機能を実現するコンピュータ1000の一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM(Read Only Memory)1300、HDD(Hard Disk Drive)1400、通信インターフェイス1500、及び入出力インターフェイス1600を有する。コンピュータ1000の各部は、バス1050によって接続される。
CPU1100は、ROM1300又はHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、CPU1100は、ROM1300又はHDD1400に格納されたプログラムをRAM1200に展開し、各種プログラムに対応した処理を実行する。
ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるBIOS(Basic Input Output System)等のブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、HDD1400は、プログラムデータ1450の一例である本開示に係る情報処理プログラムを記録する記録媒体である。
通信インターフェイス1500は、コンピュータ1000が外部ネットワーク1550(例えばインターネット)と接続するためのインターフェイスである。例えば、CPU1100は、通信インターフェイス1500を介して、他の機器からデータを受信したり、CPU1100が生成したデータを他の機器へ送信したりする。
入出力インターフェイス1600は、入出力デバイス1650とコンピュータ1000とを接続するためのインターフェイスである。例えば、CPU1100は、入出力インターフェイス1600を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、CPU1100は、入出力インターフェイス1600を介して、ディスプレイやスピーカーやプリンタ等の出力デバイスにデータを送信する。また、入出力インターフェイス1600は、所定の記録媒体(メディア)に記録されたプログラム等を読み取るメディアインターフェイスとして機能してもよい。メディアとは、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
例えば、コンピュータ1000が第1の実施形態に係る情報処理装置100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされた情報処理プログラムを実行することにより、制御部130等の機能を実現する。また、HDD1400には、本開示に係る情報処理プログラムや、記憶部120内のデータが格納される。なお、CPU1100は、プログラムデータ1450をHDD1400から読み取って実行するが、他の例として、外部ネットワーク1550を介して、他の装置からこれらのプログラムを取得してもよい。
なお、本技術は以下のような構成も取ることができる。
(1)
ユーザの耳の映像を含む第1画像を取得する取得部と、
耳の映像を含む画像が入力された場合に当該耳に対応する頭部伝達関数を出力するよう学習された学習済みモデルを用いて、前記取得部によって取得された第1画像に基づいて、前記ユーザに対応する頭部伝達関数を算出する算出部と
を備える情報処理装置。
(2)
前記取得部は、
前記第1画像に含まれる耳の特徴を示す変数である耳パラメータを取得し、
前記算出部は、
前記耳パラメータを前記学習済みモデルに入力することにより、前記ユーザに対応する頭部伝達関数を算出する
前記(1)に記載の情報処理装置。
(3)
前記取得部は、
耳の映像を含む画像が入力された場合に当該耳に対応する耳パラメータを出力するよう学習された耳パラメータ推定モデルを用いて、前記第1画像に含まれる耳の耳パラメータを取得する
前記(2)に記載の情報処理装置。
(4)
耳の映像を含む画像と、当該耳の耳パラメータとの関係性を学習することにより、前記耳パラメータ推定モデルを生成する第1学習部
をさらに備える前記(3)に記載の情報処理装置。
(5)
前記第1学習部は、
前記耳パラメータに基づいて生成された耳の3次元データをレンダリングすることで得られる耳画像と、当該耳パラメータとの関係性を学習することにより、前記耳パラメータ推定モデルを生成する
前記(4)に記載の情報処理装置。
(6)
前記第1学習部は、
前記耳もしくは頭部の3次元データのテクスチャ、レンダリングにおけるカメラ角度又はレンダリングにおける明度を変更した複数の耳画像と、当該複数の耳画像に共通する耳パラメータとの関係性を学習することにより、前記耳パラメータ推定モデルを生成する
前記(5)に記載の情報処理装置。
(7)
耳の映像を含む画像と、当該耳に対応する頭部伝達関数との関係性を学習することにより、前記学習済みモデルを生成する第2学習部
をさらに備える前記(1)〜(6)のいずれか一つに記載の情報処理装置。
(8)
前記第2学習部は、
前記耳パラメータに基づいて生成された耳の3次元データと頭部の3次元データとを合成した3次元データに対して音響シミュレーションを行い、当該音響シミュレーションによって得られた頭部伝達関数と、当該耳パラメータとの関係性を学習することにより、前記学習済みモデルを生成する
前記(7)に記載の情報処理装置。
(9)
前記第2学習部は、
前記音響シミュレーションによって得られた頭部伝達関数の情報量を圧縮し、圧縮した頭部伝達関数と、前記耳パラメータとの関係性を学習することにより、前記学習済みモデルを生成する
前記(8)に記載の情報処理装置。
(10)
前記第2学習部は、
前記耳パラメータに基づいて生成された耳の3次元データの聴取点を設定し、設定した聴取点を用いて前記音響シミュレーションを行う
前記(8)又は(9)に記載の情報処理装置。
(11)
前記ユーザの頭部全体の映像を含む第2画像から当該ユーザの耳の映像を特定し、特定した範囲を前記第1画像として検出する前処理部をさらに備え、
前記取得部は、
前記前処理部によって検出された前記第1画像を取得する
前記(1)〜(10)のいずれか一つに記載の情報処理装置。
(12)
前記前処理部は、
前記第2画像に含まれるユーザの頭部の特徴点と当該ユーザの姿勢との関係性に基づいて、前記範囲を特定する
前記(11)に記載の情報処理装置。
(13)
前記前処理部は、
前記第2画像に含まれるユーザの頭部の特徴点と当該ユーザの姿勢との関係性に基づいて前記範囲を特定できない場合、当該第2画像とは異なる画像であって、前記ユーザの頭部全体の映像を含む画像の取得を新たに要求する
前記(12)に記載の情報処理装置。
(14)
前記前処理部は、
前記第2画像に含まれる補正情報に基づいて当該第2画像の回転を補正することにより前記ユーザの耳の映像を特定し、特定した範囲を前記第1画像として検出する
前記(11)〜(13)のいずれか一つに記載の情報処理装置。
(15)
コンピュータが、
ユーザの耳の映像を含む第1画像を取得し、
耳の映像を含む画像が入力された場合に当該耳に対応する頭部伝達関数を出力するよう学習された学習済みモデルを用いて、取得された前記第1画像に基づいて、前記ユーザに対応する頭部伝達関数を算出する
情報処理方法。
(16)
コンピュータを、
ユーザの耳の映像を含む第1画像を取得する取得部と、
耳の映像を含む画像が入力された場合に当該耳に対応する頭部伝達関数を出力するよう学習された学習済みモデルを用いて、前記取得部によって取得された第1画像に基づいて、前記ユーザに対応する頭部伝達関数を算出する算出部と
として機能させるための情報処理プログラム。
(17)
情報処理装置とユーザ端末とを含む情報処理システムであって、
前記ユーザ端末は、
ユーザの頭部全体の映像を含む第2画像から当該ユーザの耳の映像を特定し、特定した範囲を第1画像として検出する前処理部と、
前記前処理部によって検出された第1画像を前記情報処理装置に送信する送信部と、を備え、
前記処理装置は、
前記ユーザの耳の映像を含む前記第1画像を取得する取得部と、
耳の映像を含む画像が入力された場合に当該耳に対応する頭部伝達関数を出力するよう学習された学習済みモデルを用いて、前記取得部によって取得された第1画像に基づいて、前記ユーザに対応する頭部伝達関数を算出する算出部と、
を備える情報処理システム。
1 情報処理システム
10 ユーザ端末
100 情報処理装置
110 通信部
120 記憶部
130 制御部
131 学習部
132 受付部
133 耳モデル学習部
134 画像生成部
135 耳パラメータ学習部
136 HRTF学習部
140 推定部
141 取得部
142 算出部
143 提供部
144 前処理部
145A 姿勢検出部
145B 耳検出部
161 取得部
162 前処理部
163A 姿勢検出部
163B 耳検出部
164 送信部
165 受信部

Claims (16)

  1. ユーザの耳の映像を含む第1画像を取得する取得部と、
    耳の映像を含む画像が入力された場合に当該耳に対応する頭部伝達関数を出力するよう学習された学習済みモデルを用いて、前記取得部によって取得された第1画像に基づいて、前記ユーザに対応する頭部伝達関数を算出する算出部と
    を備える情報処理装置。
  2. 前記取得部は、
    前記第1画像に含まれる耳の特徴を示す変数である耳パラメータを取得し、
    前記算出部は、
    前記耳パラメータを前記学習済みモデルに入力することにより、前記ユーザに対応する頭部伝達関数を算出する
    請求項1に記載の情報処理装置。
  3. 前記取得部は、
    耳の映像を含む画像が入力された場合に当該耳に対応する耳パラメータを出力するよう学習された耳パラメータ推定モデルを用いて、前記第1画像に含まれる耳の耳パラメータを取得する
    請求項2に記載の情報処理装置。
  4. 耳の映像を含む画像と、当該耳の耳パラメータとの関係性を学習することにより、前記耳パラメータ推定モデルを生成する第1学習部
    をさらに備える請求項3に記載の情報処理装置。
  5. 前記第1学習部は、
    前記耳パラメータに基づいて生成された耳の3次元データをレンダリングすることで得られる耳画像と、当該耳パラメータとの関係性を学習することにより、前記耳パラメータ推定モデルを生成する
    請求項4に記載の情報処理装置。
  6. 前記第1学習部は、
    前記耳もしくは頭部の3次元データのテクスチャ、レンダリングにおけるカメラ角度又はレンダリングにおける明度を変更した複数の耳画像と、当該複数の耳画像に共通する耳パラメータとの関係性を学習することにより、前記耳パラメータ推定モデルを生成する
    請求項5に記載の情報処理装置。
  7. 耳の映像を含む画像と、当該耳に対応する頭部伝達関数との関係性を学習することにより、前記学習済みモデルを生成する第2学習部
    をさらに備える請求項4に記載の情報処理装置。
  8. 前記第2学習部は、
    前記耳パラメータに基づいて生成された耳の3次元データと頭部の3次元データとを合成した3次元データに対して音響シミュレーションを行い、当該音響シミュレーションによって得られた頭部伝達関数と、当該耳パラメータとの関係性を学習することにより、前記学習済みモデルを生成する
    請求項7に記載の情報処理装置。
  9. 前記第2学習部は、
    前記音響シミュレーションによって得られた頭部伝達関数の情報量を圧縮し、圧縮した頭部伝達関数と、前記耳パラメータとの関係性を学習することにより、前記学習済みモデルを生成する
    請求項8に記載の情報処理装置。
  10. 前記第2学習部は、
    前記耳パラメータに基づいて生成された耳の3次元データの聴取点を設定し、設定した聴取点を用いて前記音響シミュレーションを行う
    請求項8に記載の情報処理装置。
  11. 前記ユーザの頭部全体の映像を含む第2画像から当該ユーザの耳の映像を特定し、特定した範囲を前記第1画像として検出する前処理部をさらに備え、
    前記取得部は、
    前記前処理部によって検出された前記第1画像を取得する
    請求項1に記載の情報処理装置。
  12. 前記前処理部は、
    前記第2画像に含まれるユーザの頭部の特徴点と当該ユーザの姿勢との関係性に基づいて、前記範囲を特定する
    請求項11に記載の情報処理装置。
  13. 前記前処理部は、
    前記第2画像に含まれるユーザの頭部の特徴点と当該ユーザの姿勢との関係性に基づいて前記範囲を特定できない場合、当該第2画像とは異なる画像であって、前記ユーザの頭部全体の映像を含む画像の取得を新たに要求する
    請求項12に記載の情報処理装置。
  14. 前記前処理部は、
    前記第2画像に含まれる補正情報に基づいて当該第2画像の回転を補正することにより前記ユーザの耳の映像を特定し、特定した範囲を前記第1画像として検出する
    請求項11に記載の情報処理装置。
  15. コンピュータが、
    ユーザの耳の映像を含む第1画像を取得し、
    耳の映像を含む画像が入力された場合に当該耳に対応する頭部伝達関数を出力するよう学習された学習済みモデルを用いて、取得された前記第1画像に基づいて、前記ユーザに対応する頭部伝達関数を算出する
    情報処理方法。
  16. コンピュータを、
    ユーザの耳の映像を含む第1画像を取得する取得部と、
    耳の映像を含む画像が入力された場合に当該耳に対応する頭部伝達関数を出力するよう学習された学習済みモデルを用いて、前記取得部によって取得された第1画像に基づいて、前記ユーザに対応する頭部伝達関数を算出する算出部と
    として機能させるための情報処理プログラム。
JP2020550542A 2018-10-10 2019-10-03 情報処理装置、情報処理方法及び情報処理プログラム Pending JPWO2020075622A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018191513 2018-10-10
JP2018191513 2018-10-10
PCT/JP2019/039103 WO2020075622A1 (ja) 2018-10-10 2019-10-03 情報処理装置、情報処理方法及び情報処理プログラム

Publications (1)

Publication Number Publication Date
JPWO2020075622A1 true JPWO2020075622A1 (ja) 2021-09-16

Family

ID=70165249

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020550542A Pending JPWO2020075622A1 (ja) 2018-10-10 2019-10-03 情報処理装置、情報処理方法及び情報処理プログラム

Country Status (6)

Country Link
US (2) US11595772B2 (ja)
EP (1) EP3866492A4 (ja)
JP (1) JPWO2020075622A1 (ja)
KR (1) KR20210068409A (ja)
CN (2) CN113039816B (ja)
WO (1) WO2020075622A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11775164B2 (en) 2018-10-03 2023-10-03 Sony Corporation Information processing device, information processing method, and program
FR3105549B1 (fr) * 2019-12-24 2022-01-07 Parrot Faurecia Automotive Sas Procédé et système audio d’appui-tête de siège
JPWO2022014308A1 (ja) 2020-07-15 2022-01-20
US20230125629A1 (en) * 2021-10-26 2023-04-27 Avaya Management L.P. Usage and health-triggered machine response

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1083190A (ja) 1996-09-06 1998-03-31 Taimu Wear:Kk 過渡応答信号生成と設定方法及びその装置
US6996244B1 (en) * 1998-08-06 2006-02-07 Vulcan Patents Llc Estimation of head-related transfer functions for spatial sound representative
JP2004314915A (ja) 2003-04-21 2004-11-11 Alpine Electronics Inc 聴取点位置測定装置
KR100619082B1 (ko) 2005-07-20 2006-09-05 삼성전자주식회사 와이드 모노 사운드 재생 방법 및 시스템
FR2983026A1 (fr) 2011-11-22 2013-05-24 Parrot Casque audio a controle actif de bruit de type non-adaptatif, pour l'ecoute d'une source musicale audio et/ou pour des fonctions de telephonie "mains-libres"
EP2611216B1 (en) 2011-12-30 2015-12-16 GN Resound A/S Systems and methods for determining head related transfer functions
US9030545B2 (en) 2011-12-30 2015-05-12 GNR Resound A/S Systems and methods for determining head related transfer functions
US9544706B1 (en) 2015-03-23 2017-01-10 Amazon Technologies, Inc. Customized head-related transfer functions
WO2017047309A1 (ja) * 2015-09-14 2017-03-23 ヤマハ株式会社 耳形状解析方法、耳形状解析装置および耳形状モデル生成方法
SG10201510822YA (en) 2015-12-31 2017-07-28 Creative Tech Ltd A method for generating a customized/personalized head related transfer function
US10805757B2 (en) 2015-12-31 2020-10-13 Creative Technology Ltd Method for generating a customized/personalized head related transfer function
US10038966B1 (en) * 2016-10-20 2018-07-31 Oculus Vr, Llc Head-related transfer function (HRTF) personalization based on captured images of user
US10104491B2 (en) * 2016-11-13 2018-10-16 EmbodyVR, Inc. Audio based characterization of a human auditory system for personalized audio reproduction
US11775164B2 (en) 2018-10-03 2023-10-03 Sony Corporation Information processing device, information processing method, and program

Also Published As

Publication number Publication date
WO2020075622A1 (ja) 2020-04-16
US20230283979A1 (en) 2023-09-07
US11595772B2 (en) 2023-02-28
KR20210068409A (ko) 2021-06-09
EP3866492A4 (en) 2021-12-08
CN113039816B (zh) 2023-06-06
CN116801179A (zh) 2023-09-22
CN113039816A (zh) 2021-06-25
US20210385600A1 (en) 2021-12-09
EP3866492A1 (en) 2021-08-18

Similar Documents

Publication Publication Date Title
US11804027B2 (en) Method for generating a customized/personalized head related transfer function
JPWO2020075622A1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
US11601775B2 (en) Method for generating a customized/personalized head related transfer function
JP6687032B2 (ja) 耳形状解析方法、頭部伝達関数生成方法、耳形状解析装置および頭部伝達関数生成装置
CN112470497B (zh) 经由光学捕获的个性化hrtfs
CN106682632B (zh) 用于处理人脸图像的方法和装置
US20150312694A1 (en) Hrtf personalization based on anthropometric features
Meshram et al. P-HRTF: Efficient personalized HRTF computation for high-fidelity spatial sound
Zhi et al. Towards fast and convenient end-to-end HRTF personalization
FR3057981B1 (fr) Procede d'elaboration d'un nuage de points 3d representatif d'une oreille 3d d'un individu, et systeme associe
US11315277B1 (en) Device to determine user-specific HRTF based on combined geometric data
US20240089689A1 (en) Method for determining a personalized head-related transfer function
CN118115656A (zh) 全息实时通信方法、装置、电子设备及存储介质
CN113243932A (zh) 口腔健康检测系统、相关方法、装置及设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220928

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231010

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231211

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20240227