WO2020059245A1

WO2020059245A1 - 情報処理装置、情報処理方法および情報処理プログラム

Info

Publication number: WO2020059245A1
Application number: PCT/JP2019/026290
Authority: WO
Inventors: 信瑩何
Original assignee: ソニー株式会社
Priority date: 2018-09-18
Filing date: 2019-07-02
Publication date: 2020-03-26
Also published as: JP2020046500A

Abstract

入力画像から演奏者の身体の部位の位置を認識する位置認識部と、入力画像から楽器を認識する楽器認識部と、部位の位置と楽器との関連性に基づき、演奏者による楽器の演奏を示す演奏情報を生成する演奏情報生成部とを備える情報処理装置である。

Description

情報処理装置、情報処理方法および情報処理プログラム

　本技術は、情報処理装置、情報処理方法および情報処理プログラムに関する。

　従来から、ダンスなどの人のパフォーマンスをデータ化するシステムが提案されている（特許文献１）。

特開２０１６－２４７４０号公報

　特許文献１に記載のシステムは、３次元空間におけるパフォーマーのダンス動作が記録された譜面データを生成するものである。このような動作をデータ化する手法においては、動作の種別によってデータ化のために必要な情報や処理が異なるため、そのまま他の動作、例えば楽器演奏などに適用することは難しい。

　本技術はこのような点に鑑みなされたものであり、画像から楽器の演奏を示す情報を取得することができる情報処理装置、情報処理方法および情報処理プログラムを提供することを目的とする。

　上述した課題を解決するために、第１の技術は、入力画像から演奏者の身体の部位の位置を認識する位置認識部と、入力画像から楽器を認識する楽器認識部と、部位の位置と楽器との関連性に基づき、演奏者による楽器の演奏を示す演奏情報を生成する演奏情報生成部とを備える情報処理装置である。

　また、第２の技術は、入力画像から演奏者の身体の部位の位置を認識し、入力画像から楽器を認識し、部位の位置と楽器との関連性に基づき、演奏者による楽器の演奏を示す演奏情報を生成する情報処理方法である。

　さらに、第３の技術は、入力画像から演奏者の身体の部位の位置を認識し、入力画像から楽器を認識し、部位の位置と楽器との関連性に基づき、演奏者による前記楽器の演奏を示す演奏情報を生成する情報処理方法をコンピュータに実行させる情報処理プログラムである。

端末装置の構成を示すブロック図である。第１の実施の形態における情報処理装置の構成を示すブロック図である。第１の実施の形態における入力画像の一例を示す図である。演奏者の手の認識についての説明図である。演奏者の手の認識についての説明図である。和音（コード）の認識についての説明図である。第１の実施の形態における部分演奏情報の生成処理を示すフローチャートである。第１の実施の形態における複合演奏情報の生成処理を示すフローチャートである。第２の実施の形態における入力画像の一例を示す図である。第２の実施の形態に係る情報処理装置の構成を示すブロック図である。第２の実施の形態における部分演奏情報の生成処理を示すフローチャートである。第２の実施の形態における複合演奏情報の生成処理を示すフローチャートである。第３の実施の形態における入力画像の一例を示す図である。第３の実施の形態に係る情報処理装置の構成を示すブロック図である。第３の実施の形態における部分演奏情報の生成処理を示すフローチャートである。第３の実施の形態における複合演奏情報の生成処理を示すフローチャートである。

　以下、本技術の実施の形態について図面を参照しながら説明する。なお、説明は以下の順序で行う。
＜１．第１の実施の形態＞
［１－１．端末装置の構成］
［１－２．情報処理装置の構成］
［１－３．情報処理装置による処理］
［１－３－１．部分演奏情報の生成］
［１－３－２．複合演奏情報の生成］
＜２．第２の実施の形態＞
［２－１．情報処理装置の構成］
［２－２．情報処理装置の処理］
＜３．第３の実施の形態＞
［３－１．情報処理装置の構成］
［３－２．情報処理装置の処理］
＜４．変形例＞

＜１．第１の実施の形態＞
［１－１．端末装置の構成］
　まず図１を参照して端末装置１０について説明する。端末装置１０は、制御部１１、記憶部１２、通信部１３、表示部１４、入力部１５、カメラ部１６および情報処理装置１００を備えている。

　制御部１１は、ＣＰＵ（Central Processing Unit）、ＲＡＭ（Random Access Memory）およびＲＯＭ（Read Only Memory）などから構成されている。ＲＯＭには、ＣＰＵにより読み込まれ動作されるプログラムなどが記憶されている。ＲＡＭは、ＣＰＵのワークメモリとして用いられる。ＣＰＵは、ＲＯＭに記憶されたプログラムに従い様々な処理を実行してコマンドの発行を行うことによって端末装置１０全体の制御を行う。

　記憶部１２は、例えば、ハードディスク、半導体メモリなどを用いた大容量記憶媒体である。記憶部１２は、カメラ部１６により撮影された撮影画像、撮影映像や、情報処理装置１００により生成された演奏情報や楽譜情報、さらにコンテンツやアプリケーションなどを保存することができる。

　通信部１３は、他の装置、インターネットなどと通信するための通信モジュール、通信用コネクタなどである。通信部１３による通信は、ＵＳＢ通信などの有線通信、Wi-Fiなどの無線ＬＡＮ、Bluetooth（登録商標）、ZigBee、４Ｇ（第４世代移動通信システム）、ブロードバンドなどの無線通信などなんでもよい。

　表示部１４は、例えば、ＬＣＤ（Liquid Crystal Display）、ＰＤＰ(Plasma Display Panel)、有機ＥＬ(Electro Luminescence)パネルなどにより構成された表示デバイスである。表示部１４には、端末装置１０のユーザインターフェース、情報処理装置１００による処理のためにユーザに提示するインターフェースなどが表示される。

　入力部１５は、ユーザの端末装置１０に対する操作入力を受け付けるものである。入力部１５に対してユーザから入力がなされると、その入力に応じた入力信号が生成されて制御部１１に出力される。そして、制御部１１はその入力信号に対応した演算処理、端末装置１０の制御を行う。入力部１５としては、表示部１４と一体に構成されたタッチパネル、トラックパッドやタッチパッドと称される表示部１４とは一体となっていない平板状のセンサーを指でなぞって操作するポインティングデバイス、キーボード、マウスなどがある。

　カメラ部１６は撮像素子、画像処理用ＬＳＩなどを備え、静止画像および映像の撮影が可能なカメラ機能を備えるものである。カメラ部１６により撮影された静止画像または映像は情報処理装置１００における演奏情報生成処理に用いることができる。なお、カメラ部１６は端末装置１０の必須の構成要素ではない。

　情報処理装置１００は、本技術に係る演奏情報生成処理を行うものである。情報処理装置１００の詳細は後述する。

　端末装置１０は以上のようにして構成されている。端末装置１０の具体例としてはパーソナルコンピュータ、ノートパソコン、タブレット端末、スマートフォン、電子キーボード、シンセサイザー、ＤＡＷ（Digital Audio Workstation）などが挙げられる。

［１－２．情報処理装置の構成］
　次に図２を参照して情報処理装置１００の構成について説明する。情報処理装置１００は、画像入力部１０１、位置認識部１０２、形状認識部１０３、動き認識部１０４、楽器認識部１０５、関連性認識部１０６、演奏情報生成部１０７、楽譜情報生成部１０８とから構成されている。

　画像入力部１０１には処理対象となる入力画像としての複数枚の連続する静止画像、または動画を構成する連続する複数のフレーム画像が入力される。画像入力部１０１は、入力画像を位置認識部１０２と楽器認識部１０５に供給する。本技術における処理対象である入力画像は、複数枚の連続する静止画像のそれぞれ、動画を構成する複数のフレーム画像のそれぞれである。

　なお、入力画像は端末装置１０が備えるカメラ部１６で撮影したものでもよいし、カメラ部１６以外のカメラで撮影して端末装置１０を介して情報処理装置１００に取り込んだものでもよい。また、外部の別の装置から端末装置１０を介して情報処理装置１００に供給したものでもよい。また、現実に情報処理装置１００の使用者の眼の前で行われている演奏を撮影したものでもよいし、テレビ、パーソナルコンピュータなどのディスプレイに表示されている映像を撮影したものでもよい。また、市販のＤＶＤ、Blue ray（登録商標）に収録された映像、インターネット上で取得可能な静止画像や映像などでもよい。すなわち、入力画像は、演奏者が演奏している様子が映っている画像であればどのようなものでもよい。また、入力画像はＲＢＧ（Red,Green,Blue）画像の他、ＩＲ画像などでもよい。

　第１の実施の形態における入力画像は図３に示すように、演奏者の両手、演奏者が演奏する楽器において演奏者の手が接触する演奏のための領域（演奏領域）の全体が写っているものである。

　位置認識部１０２は、入力画像からHand Pose Detection、Hand Pose Estimation、Hand segmentationなどの人体の手認識技術や、ＨＯＧ（Histogram of Oriented Gradient）、ＳＩＦＴ（Scale Invariant Feature Transform）などの特徴点抽出方法、Ｂｏｏｓｔｉｎｇ、ＳＶＭ（Support Vector Machine）などのパターン認識による被写体認識方法、ＧｒａｐｈＣｕｔなどによる領域抽出方法、ＣＮＮ（Convolutional Neural Network）などにより、入力画像中における演奏者の身体の部位である手の３次元位置を認識する。また位置認識部１０２は、手に加えて、演奏情報生成のために必要に応じて演奏者の身体の部位としての手の指の位置、腕の位置、肘の位置なども認識する。手の３次元位置情報は形状認識部１０３、動き認識部１０４および関連性認識部１０６に供給される。

　手の３次元位置を認識するための手の特徴点としては指先、指の関節、手首などがある。位置情報は入力画像中における演奏者の手の３次元位置を示す情報であるため、例えば、入力画像の所定の位置を原点（０,０,０）とした（ｘ,ｙ,ｚ）の座標で表される。連続する入力画像の番号をｔ（ｔ＝１、２、３、・・・）とし、手の特徴点をＰ（Ｐ＝１、２、３、・・・）とすると、位置情報は（ｘ_tP,ｙ_tP,ｚ_tP）という形式で表される。

　例えば図４Ａに示すように、入力画像（ｔ＝１）では、手の特徴点が５つ認識された場合、それらは、
特徴点Ｐ１：（ｘ₁₁,ｙ₁₁,ｚ₁₁）
特徴点Ｐ２：（ｘ₁₂,ｙ₁₂,ｚ₁₂）
特徴点Ｐ３：（ｘ₁₃,ｙ₁₃,ｚ₁₃）
特徴点Ｐ４：（ｘ₁₄,ｙ₁₄,ｚ₁₄）
特徴点Ｐ５：（ｘ₁₅,ｙ₁₅,ｚ₁₅）
のように表される。

また、図４Ｂに示すように、入力画像（ｔ＝２）では、手の特徴点が５つ認識された場合、それらは、
特徴点Ｐ１：（ｘ₂₁,ｙ₂₁,ｚ₂₁）
特徴点Ｐ２：（ｘ₂₂,ｙ₂₂,ｚ₂₂）
特徴点Ｐ３：（ｘ₂₃,ｙ₂₃,ｚ₂₃）
特徴点Ｐ４：（ｘ₂₄,ｙ₂₄,ｚ₂₄）
特徴点Ｐ５：（ｘ₂₅,ｙ₂₅,ｚ₂₅）
のように表される。

　なお、手の３次元位置情報はカメラ原点のグローバル座標系でもよいし、入力画像上のローカル座標系＋奥行き情報でもよい。また、Hand Segmentationで求めた領域の重心およびDepth情報を用いて手の３次元位置を求めてもよい。

　なお、図４は説明の便宜上手の５本の各指の先端に特徴点が認識された図であるが、実際には図５の手に重畳して表された複数の黒点が示すように例えば各指の関節部分、水かき部分および手首など多数の特徴点が認識される。このように多数の特徴点を認識したほうがより正確に演奏情報を生成することができる。

　また、入力画像の一部領域を切り出した切り出し画像においては、（ｘ,ｙ,ｚ）の座標系とは異なる座標系である、切り出し画像の所定の位置を原点とした（ｕ_tP,ｖ_tP,ｄ_tP）の座標で表してもよい。

　形状認識部１０３は、ＣＮＮ、パターンマッチング、Ｂｏｏｓｔｉｎｇなどの技術を用いて、位置認識部１０２から供給された位置情報で示される手の形状を認識する。手の形状情報は動き認識部１０４と演奏情報生成部１０７に供給される。

　動き認識部１０４は、ＣＮＮ、Hand Trackingなどの技術を用いて、位置および形状が認識された演奏者の手の動きを認識する。手の動き情報は演奏情報生成部１０７に供給される。手の動きは、複数の連続する入力画像のうちの一の入力画像（ｔ）と、時系列でその入力画像（ｔ）以降の入力画像（ｔ＋ｎ）との動きベクトルの変化から認識することができる。

　楽器認識部１０５は、ＣＮＮ、パターンマッチングなどの技術を用いて、入力画像中における楽器およびその楽器において演奏者の手が接触する演奏のための領域（演奏領域）を認識するものである。演奏領域とは、例えば楽器がピアノであれば鍵盤、楽器がギターであればピックアップ部分（アコースティックギターであればサウンドホール）およびネックである。楽器認識情報は関連性認識部１０６に供給される。

　関連性認識部１０６は、ＣＮＮ、パターンマッチングなどの技術を用いて演奏者の手の位置と楽器の演奏領域の関連性を認識する。関連性とは、楽器演奏のための演奏者と楽器の関連、すなわち、演奏者の手が楽器の演奏領域のどこに接触しているかを示す接触位置である。また、関連性は、楽器の演奏領域に対する演奏者の手、腕、肘などの部位の動作の方向である。関連性情報は演奏情報生成部１０７に供給される。

　演奏情報生成部１０７は、ＣＮＮなどの技術を用いて演奏者が演奏状態にあるか否かを認識する。そして、入力画像において演奏者が演奏している状態に基づく演奏要素（第１演奏要素）、演奏者が演奏してない状態に基づく演奏要素（第２演奏要素）、複数の入力画像に跨る演奏要素（第３演奏要素）とから入力画像の一枚に対応した演奏情報（部分演奏情報）を生成する。

　第１演奏要素は楽器によって異なるものではあるが、ピアノなどの鍵盤楽器では、音階、音の長さ、テンポ、強弱などがある。また、ギターなどの弦楽器でも同様に音階、音の長さ、音の強弱などがある。さらに、ドラムなどの打楽器では叩くドラムセットの種類、音の長さ、テンポ、強弱などがある。

　また、第２演奏要素としてはいずれの楽器においても、休みの長さ、などがある。第３演奏要素としては、テンポ、音の長さ、休みの長さ、調、音の強弱などがある。音の強弱、音の長さなどは第１の演奏要素でもあり、第３の演奏要素でもあるが、これは入力画像１枚で音の強弱や音の長さを推定することができる場合もあれば、推定に複数枚の入力画像を必要とする場合もあるからである。例えば、１枚の入力画像において演奏者の指が楽器の演奏領域から大きく離れている位置にある場合はその１枚の入力画像から音が強いことを推定することができるが、指が楽器の演奏領域の近くで細かく動いているような場合は１枚の画像では強弱は推定できず、複数枚の入力画像を参照して演奏者の指の動きを認識して強弱を推定する必要がある。

　演奏者の手の位置と楽器の演奏領域との関連性情報から演奏要素を取得する方法としては、位置認識部１０２により認識された手の位置と、形状認識部１０３により認識された手の形状と、楽器認識部１０５により認識された楽器と演奏領域に基き、演奏者の手の指が楽器の演奏領域のどの鍵盤に接触しているかを認識する。それにより、その入力画像における演奏者の状態において演奏により音階のどの音を鳴らしているかを認識することができる。また、複数の音により構成されるどのような和音（コード）を鳴らしているかも認識することもできる。

　また、演奏者の指が演奏領域の同一箇所にどのくらい接触し続けているかを認識することにより音の長さを認識することもできる。

　和音（コード）の認識は、例えば楽器がギターである場合は、図６Ａ、図６Ｂに示すように予め演奏情報生成部１０７に和音（コード）を演奏する場合の指の位置および形状を示すテンプレート画像を和音（コード）の種類ごとに複数保持させておく。そして、入力画像から抽出された指の位置情報、指の形状情報とテンプレート画像を比較（テンプレートマッチング）することにより指の位置および形状が最も近似する和音（コード）を決定する。

　また、和音（コード）の認識は、図６Ｃに示すように予め演奏情報生成部１０７に和音（コード）を演奏する場合の指の位置を示す指の特徴点の座標情報を和音（コード）の種類ごとに複数保持させておき、その座標情報と入力画像から抽出された指の位置情報（座標情報）を比較することによっても可能である。

　また、動き認識部１０４により認識された手の動きに基づいて、一の入力画像（ｔ）と、時系列でその入力画像（ｔ）以降の入力画像（ｔ＋ｎ）とから認識することができる演奏者の手の略垂直方向の動きから演奏しているか否か、演奏の強弱、テンポなどを認識することができる。

　この場合の略垂直方向とは、楽器がピアノの場合、鍵盤が並ぶ方向に対して略垂直の方向である。演奏者が演奏しているか否かは楽器の鍵盤に手が離れているか否かに基づいて判断することができる。また、演奏の強弱は略垂直方向における手の位置（手の高さ）から判断することができる。例えば、手が鍵盤から垂直方向に離れているほど音が強く、手が鍵盤に垂直方向に近づいているほど音が弱いと判断することができる。また、手の垂直方向における規則的な上下動作の時間間隔から曲のテンポを認識することができる。このように曲のテンポや音の長さなど時間に関連する演奏要素を認識するためには映像を構成するフレームレートと実時間を対応付けて、演奏者の規則的な動きの実時間での動作間隔と映像の再生時間とから求めることができる。

　また、同様に一の入力画像（ｔ）と、時系列でその入力画像（ｔ）以降の入力画像（ｔ＋ｎ）とから認識することができる演奏者の手の略水平方向の動きから音階を認識することができる。この場合の略水平方向とは、楽器がピアノの場合、鍵盤が並ぶ方向に対して略水平の方向である。具体的にはピアノに対する手の略水平方向の位置が変わることにより、ピアノの鍵盤のどの領域を演奏しているかがわかり、それにより音域、オクターブの変化など演奏されている音階を認識することができる。

　手の略垂直方向の動きと略水平方向の動きは、複数の連続する入力画像のうちの一の入力画像（ｔ）と、時系列でその入力画像（ｔ）以降の入力画像（ｔ＋ｎ）との動きベクトルの変化から認識することができる。

　第３演奏要素は複数の入力画像に跨った演奏者の指や腕の変化に基づいて生成することができる。例えば、手が複数の入力画像に跨って鍵盤から垂直方向に離れている時間が長いほど次に鳴らされる音が強いとして第３演奏要素とすることができる。また、複数の入力画像跨る手の垂直方向における上下動作の時間間隔から曲のテンポを認識して第３演奏要素とすることができる。

　さらに演奏情報生成部１０７は、複数の入力画像のそれぞれに対応した部分演奏情報を時系列に従ってつないでいくことにより、それら複数の入力画像により構成されるフレーズ、曲の一部または全部の複合演奏情報を生成する。フレーズや曲の一部の複合演奏情報とは、１または複数の小節単位での演奏情報である。

　部分演奏情報および複合演奏情報は、五線譜で記された楽譜に限らず、その情報に基づいて演奏者、コンピュータ、音楽演奏用ソフトウェア、音楽作成用ソフトウェアなどが楽曲を再現することができればどのような形式の情報でもよい。例えば、ＭＩＤＩ（Musical Instrument Digital Interface）形式の情報やプログラミング形式の情報、音楽演奏／制作用ソフトウェア独自のフォーマットの情報などでもよい。

　楽譜情報生成部１０８は、演奏情報生成部１０７から部分演奏情報が供給された場合には入力画像一枚に対応する部分楽譜情報を生成する。また、演奏情報生成部１０７から複合演奏情報が供給された場合には複数の入力画像により構成されるフレーズ、曲の一部または全部の楽譜情報である複合楽譜情報を生成する。ここでいう楽譜とは五線譜で記された楽譜であり、楽譜情報を構成する情報としては、音符、休符、拍子記号、テンポ、臨時記号、調号、強弱などがある。臨時記号情報は演奏者が演奏している状態に基づく第１演奏要素である、演奏されている音階と、複数の入力画像に跨る第３演奏要素である調とから導き出すことができる。

　情報処理装置１００は以上のようにして構成されている。情報処理装置１００はプログラムで構成され、そのプログラムは予め端末装置１０にインストールされていてもよいし、ダウンロード、記憶媒体などで配布されて、ユーザが自ら端末装置１０にインストールするようにしてもよい。また、情報処理装置１００は、プログラムによって実現されるのみでなく、その機能を有するハードウェアによる専用の装置、回路などを組み合わせて実現されてもよい。

［１－３．情報処理装置による処理］
［１－３－１．部分演奏情報の生成］
　次に図７のフローチャートを参照して情報処理装置１００における処理の流れについて説明する。図７のフローチャートの処理は、入力画像一枚に対応した部分演奏情報を生成するものである。なお、上述したように入力画像の一枚とは、複数枚の連続する静止画像のうちの一枚または、動画を構成する複数のフレーム画像のうちの一枚である。

　まずステップＳ１０１で、画像入力部１０１に対して入力画像が入力される。この入力画像は一枚の静止画像またはフレーム画像でもよいし、連続する複数の静止画像でもよいし、動画を構成する連続する複数のフレーム画像でもよい。複数の入力画像が入力されると、以下のステップＳ１０２以降の処理は、まず（ｔ＝１）の一番目の入力画像に対して行われる。また、連続する複数の静止画像または動画を構成する連続する複数のフレーム画像が入力された場合、どの入力画像の部分演奏情報を生成するかをユーザが選択できるようにしてもよい。

　次にステップＳ１０２で位置認識部１０２により入力画像中における演奏者の手の３次元位置が認識され、手の位置情報が形状認識部１０３、動き認識部１０４および関連性認識部１０６に供給される。

　次にステップＳ１０３で、形状認識部１０３により入力画像中において位置が認識された手の形状が認識される。手の形状情報は動き認識部１０４と演奏情報生成部１０７に供給される。さらにステップＳ１０４で、動き認識部１０４により、位置および形状が認識された手の動きが認識される。手の動き情報は演奏情報生成部１０７に供給される。

　次にステップＳ１０５で楽器認識部１０５により入力画像中における楽器および演奏領域が認識される。楽器情報および演奏領域情報は関連性認識部１０６に供給される。なお、ステップＳ１０２乃至ステップＳ１０４における演奏者の手の位置、形状、動きの認識処理とステップＳ１０５における楽器および演奏領域の認識は並行して行うようにしてもよいし、楽器および演奏領域の認識を先に行ってもよい。

　次にステップＳ１０６で関連性認識部１０６により手の各指とそれに対応する楽器の演奏領域の位置の関連性が認識される。関連性とは演奏者の手が楽器の演奏領域のどこに位置しているかを示すものであり、関連性情報は演奏情報生成部１０７に供給される。

　次にステップＳ１０７で演奏情報生成部１０７は手の動き情報および関連性情報から演奏者が入力画像において楽器を演奏している状態であるか否かを判定する。

　判定の結果、演奏者が演奏している場合、処理はステップＳ１０８からステップＳ１０９に進む（ステップＳ１０８のＹｅｓ）。そしてステップＳ１０９で演奏情報生成部１０７は手の３次元位置情報、手の形状情報、手の動き情報、関連性情報とから第１演奏要素を生成する。

　一方、ステップＳ１０７での判定の結果、演奏者が演奏していない場合、処理はステップＳ１０８からステップＳ１１０に進む（ステップＳ１０８のＮｏ）。そしてステップＳ１１０で演奏情報生成部１０７は第２演奏要素を生成する。

　次にステップＳ１１１で演奏情報生成部１０７は、第１演奏要素または第２演奏要素から入力画像に対応した部分演奏情報を生成する。そしてステップＳ１１２でその部分演奏情報を出力する。

　出力された部分演奏情報は端末装置１０の表示部１４において表示したり、端末装置１０が備える音楽演奏用ソフトウェア、音楽制作用ソフトウェアなどにおいて使用可能である。また、ユーザ、演奏者などからの要求に応じて楽譜情報生成部１０８によって演奏情報に基づいて楽譜情報を生成してもよい。また、部分演奏情報を端末装置１０の記憶部１２に保存しておき、必要に応じて記憶部１２から読み出して使用することも可能である。

　以上のようにして入力画像に対する演奏情報生成処理が行われる。

［１－３－２．複合演奏情報の生成］
　次に図８のフローチャートについて説明する。図８のフローチャートの処理は、複数の入力画像により構成されるフレーズ、曲の一部または全部の演奏情報である複合演奏情報を生成する処理である。

　まずステップＳ１０１で、画像入力部１０１に対して入力画像として連続する複数の静止画像または動画を構成する連続する複数のフレーム画像が入力される。複数の入力画像が入力されると以下のステップＳ１０２以降の処理はまず入力画像（ｔ＝１）の一番目の入力画像に対して行われる。また、連続する複数の静止画像または動画を構成する連続する複数のフレーム画像が入力された場合、どの入力画像から処理を開始するかをユーザが選択できるようにしてもよい。

　ステップＳ１０１からステップＳ１１１までの処理は図７のフローチャートと同様であるため、説明を省略する。

　ステップＳ１１１の後、次にステップＳ１２１で、演奏情報生成部１０７は複数の入力画像間に跨る演奏要素である第３演奏要素があるか否かが判定する。複数の入力画像間に跨る第３演奏要素があるか否かは、以下のように判断できる。例えば音の強弱（大きさ）の場合、現在処理中の入力画像（ｔ）において認識された演奏の強弱が一つ前の入力画像である入力画像（ｔ－１）で認識された強弱よりも強くなる場合、入力画像（ｔ－１）から入力画像（ｔ）まで、「だんだん強く」という演奏要素が導き出せる。また、同様に、例えば、入力画像（ｔ＋１）の音程において認識された演奏の強弱が入力画像（ｔ）の強弱より大きい場合は、入力画像（ｔ－１）、入力画像（ｔ）、入力画像（ｔ＋１）とも「だんだん強く」という演奏要素が導き出せる。このように、処理対象である複数の入力画像それぞれの状態により、現在の入力画像における演奏要素に基づいて過去の入力画像における演奏要素が認識される場合「フレーム間に跨る演奏要素である第３演奏要素がある」と判断することができる。

　複数の入力画像間に跨る第３演奏要素がある場合、処理はステップＳ１２２に進み（ステップＳ１２１のＹｅｓ）、ステップＳ１１１で生成した部分演奏情報に第３演奏要素を付加することにより部分演奏情報を更新する。そして処理はステップＳ１２２からステップＳ１２３に進む。なお、第３演奏要素は部分演奏情報において第１演奏要素、第２演奏要素と同様に部分演奏情報の構成要素としてもよいし、部分演奏情報とは別情報としたまま紐付けにより対応付けてもよい。

　一方、ステップＳ１２１で複数の画像間に跨る第３演奏要素がない場合処理はステップＳ１２３に進む（ステップＳ１２１のＮｏ）。

　次にステップＳ１２３で処理対象である次の入力画像があるか否かが判定される。ステップＳ１０１で画像入力部１０１に対して入力された、連続する複数の静止画像または動画を構成する連続する複数のフレーム画像にまだ未処理の画像がある場合には次の入力画像があるとして処理はステップＳ１０２に戻る（ステップＳ１２３のＹｅｓ）。そして、時系列で次の順の入力画像（フレーム画像である場合には次のフレーム番号の画像）に対してステップＳ１０２乃至ステップＳ１２３の処理が行われる。そして、入力された全ての入力画像のそれぞれに対して処理が行われるまでステップＳ１０２乃至ステップＳ１２３が繰り返される。

　ステップＳ１２３で処理対象の画像がない場合、処理はステップＳ１２４に進む（ステップＳ１２３のＮｏ）。

　次にステップＳ１２４で演奏情報生成部１０７は、複数の入力画像のそれぞれに対応した部分演奏情報を時系列に従ってつないでいくことにより、それら複数の入力画像により構成されるフレーズ、曲の一部または全部の複合演奏情報を生成する。

　次にステップＳ１２５で、演奏情報生成部１０７は複合演奏情報を出力する。出力された複合演奏情報は端末装置１０の表示部１４において表示したり、端末装置１０が備える音楽演奏用ソフトウェア、音楽制作用ソフトウェアなどにおいて使用可能である。また、ユーザ、演奏者などからの要求に応じて楽譜情報生成部１０８が複合演奏情報に基づいて複合楽譜情報を生成してもよい。また、複合演奏情報を出力する際に部分演奏情報も出力してもよい。

　以上のようにして第１の実施の形態における処理が行われる。本技術の第１の実施の形態によれば、複数枚の連続する静止画像または動画を構成する複数のフレーム画像に基づいて演奏情報と楽譜情報を生成することができる。
これにより、専門的な知識のない人でも手軽に演奏情報、楽譜情報を得ることができる。また、例えば、音声がない映像データ、音声が劣化／破損している映像データなどに基づいても演奏情報と楽譜情報を生成することができる。また、音声を出力することができない環境においても映像データのみに基づいて演奏情報を生成することができる。

　なお、第１の実施の形態において演奏情報を生成するための入力画像は、例えば楽器がピアノの場合には、ピアノの演奏領域である鍵盤と演奏者の両手を認識することができる上方から撮影したものが好ましい。楽器がギターの場合にはギターの演奏領域であるピックアップ部分（アコースティックギターであればサウンドホール）およびネックと演奏領域の両手を認識することができる正面から撮影したものが好ましい。

　本技術は、自分または自分以外の他の演奏者の即興演奏の楽譜化、楽器練習の楽譜化、好きなアーティスト曲を演奏するための楽譜作成、作曲、編曲などの用途に用いることができる。また、作曲、編曲の際には、楽器でいろいろな演奏、フレーズなどを試し、必要な演奏パターンまたは全ての演奏パターンを用意に演奏情報、楽譜情報として得ることができる。また、「楽譜を書いて、楽器で演奏してみる」、または「楽器で演奏してみて、良かったら楽譜を書く」の繰り返し作業が必要なくなる。

＜２．第２の実施の形態＞
［２－１．情報処理装置の構成］
　次に本技術の第２の実施の形態について説明する。第２の実施の形態は図９に示すように、入力画像において演奏者の身体の部位である手の一部が遮蔽されて隠れているまたは写っていない場合において演奏情報の生成を行うものである。図９においては演奏者の左手の一部が隠れている。なお、情報処理装置１００が動作する端末装置１０の構成は第１の実施の形態と同様であるためその説明を省略する。

　図１０に示すように情報処理装置２００は、画像入力部１０１、センサ情報取得部２０１、第１位置認識部２０２、第２位置認識部２０３、形状認識部１０３、動き認識部１０４、楽器認識部１０５、関連性認識部１０６、演奏情報生成部１０７、楽譜情報生成部１０８とから構成されている。画像入力部１０１、形状認識部１０３、動き認識部１０４、楽器認識部１０５、関連性認識部１０６、演奏情報生成部１０７、楽譜情報生成部１０８は第１の実施の形態と同様のものである。

　センサ情報取得部２０１は端末装置１０が備える、または端末装置１０に接続された外部のセンサで取得されたセンサ情報を取得して第２位置認識部２０３に供給するものである。センサとしては、マイクロホン、圧力センサ、動きセンサなどがある。

　第１位置認識部２０２は入力画像中において隠れていない演奏者の手の位置を認識するものであり、第１の実施の形態における位置認識部１０２と同様のものである。

　第１位置認識部２０２は第１の実施の形態における位置認識部１０２と同様に、入力画像からHand Pose Detection、Hand Pose Estimationなどと称される人体の手認識技術やＨＯＧ、ＳＩＦＴなどの特徴点抽出方法、Ｂｏｏｓｔｉｎｇ、ＳＶＭなどのパターン認識による被写体認識方法、ＧｒａｐｈＣｕｔなどによる領域抽出方法、ＣＮＮなどにより、入力画像中における演奏者の身体の部位である手の３次元位置を認識する。

　第２位置認識部２０３は、入力画像中において遮蔽されることによって一部が隠れている演奏者の手の３次元位置を補助情報を用いて認識するものである。補助情報としては、センサ情報取得部２０１から供給されるセンサ情報などがある。センサ情報としては、マイクロホンで集音される演奏の音、手または指が楽器を押圧する力を示す圧力センサ情報、演奏者の腕／手／指の動き示す動きセンサ情報などがある。さらに補助情報としては、第１位置認識部２０２と同様の手法を用いて認識した演奏者の腕および／または肘の位置／形状／動き情報などもある。

　例えば、演奏者の腕および肘の位置、形状の情報から演奏者の肘から先の腕の先端にある手（隠れている手）が楽器の演奏領域のどこに位置しているかを推定して認識することができる。

　第１位置認識部２０２および第２位置認識部２０３により取得された位置情報は３次元位置を示す情報であるため、例えば、入力画像の所定の位置を原点とした（ｘ,ｙ,ｚ）の座標で表される。また、入力画像の一部領域を切り出した切り出し画像においては、切り出し画像の所定の位置を原点とした（ｕ,ｖ,ｄ）の座標で表される。この点は第１の実施の形態と同様である。位置情報は形状認識部１０３および関連性認識部１０６に供給される。

　第２の実施の形態における情報処理装置２００は以上のように構成されている。

［２－２．情報処理装置の処理］
　次に第２の実施の形態における情報処理装置２００の処理の流れについて説明する。図１１のフローチャートは第１の実施の形態で説明した、一つの入力画像に対応する部分演奏情報を生成するための処理に対応したものである。

　まずステップＳ１０１で、画像入力部１０１に対して入力画像が入力されると、次にステップＳ２０１で入力画像において手の一部が隠れているか否かが判定される。これは、例えば、第１位置認識部２０２において２つの手の全体が認識された否かに基づいて判定することができる。

　手の一部が隠れている場合、処理はステップＳ２０２に進み（ステップＳ２０１のＹｅｓ）、第２位置認識部２０３により補助情報を用いて一部が隠れている演奏者の手が認識される。

　一方、手の一部が隠れていない場合処理はステップＳ１０３に進み、第１位置認識部２０２により演奏者の手が認識される。

　これ以降の処理は第１の実施の形態におけるものと同様である。

　また、図１２のフローチャートに示すように、複数の入力画像により構成されるフレーズ、曲の一部または全部の複合演奏情報を生成する処理においても図１１のフローチャートにおけるステップＳ２０１とステップＳ２０２と同様の処理が行われる。

　この第２の実施の形態によれば、入力画像において演奏者の手の一部が隠れていても第１の実施の形態と同様に演奏情報、楽譜情報の生成を行うことができる。

＜３．第３の実施の形態＞
［３－１．情報処理装置の構成］
　次に本技術の第３の実施の形態について説明する。第３の実施の形態は図１３に示すように、入力画像において楽器の一部が隠れているまたは映っていない場合において演奏情報の生成を行うものである。図１３においては、楽器であるピアノの鍵盤の一部のみが映っており、鍵盤の一部が入力画像の画角外に存在している。なお、情報処理装置３００が動作する端末装置１０の構成は第１の実施の形態と同様であるためその説明を省略する。

　図１４に示すように、情報処理装置３００は、画像入力部１０１、センサ情報取得部３０１、位置認識部１０２、形状認識部１０３、動き認識部１０４、楽器認識部１０５、関連性認識部１０６、演奏情報生成部１０７、楽譜情報生成部１０８とから構成されている。画像入力部１０１、位置認識部１０２、形状認識部１０３、動き認識部１０４、演奏情報生成部１０７、楽譜情報生成部１０８は第１の実施の形態と同様のものである。

　センサ情報取得部２０１は、端末装置１０が備える、または端末装置１０に接続された外部のセンサで取得されたセンサ情報を取得して演奏情報生成部１０７に供給するものである。センサとしては、マイクロホン、圧力センサ、動きセンサなどがある。

　楽器認識部１０５は、ＣＮＮ、パターンマッチング、テンプレートマッチングなどの技術を用いて、入力画像中における楽器およびその楽器において演奏者の手が接触する演奏のための領域（演奏領域）を認識するものである。そこで、例えば、テンプレートマッチングで楽器の一部分のみがテンプレートと一致するような場合、認識された楽器は一部分が隠れているまたは映っていないと判断する。入力画像に楽器の一部分しか映ってないことを示す情報と共に楽器認識情報は関連性認識部１０６に供給される。

　関連性認識部１０６は、ＣＮＮ、パターンマッチングなどの技術を用いて演奏者の手の位置と楽器の演奏領域の関連性を認識する。関連性とは、演奏者の手が楽器の演奏領域のどこに接触しているかを示す接触位置である。また、関連性は、楽器の演奏領域に対する演奏者の手の動作の方向である。関連性認識部１０６は、入力画像中において楽器の一部しか映っていない場合、手の位置情報、手の形状情報、楽器（例えばピアノ）の演奏領域である鍵盤が並ぶ方向に対する略水平方向における腕／肘の開き具合の角度、腕の動きから指が接触している演奏領域を推定ことにより演奏者の指と楽器の演奏領域の関連性を認識する。関連性情報は演奏情報生成部１０７に供給される。

　演奏情報生成部１０７は補助情報としてセンサ情報を用いて指が接触している鍵盤を推定する。センサ情報としては、マイクロホンで集音される演奏の音、手または指が楽器を押圧する力を示す圧力センサ情報、演奏者の腕／手／指の動き示す動きセンサ情報などがある。さらに関連性認識部１０６は、複数の入力画像において楽器全体が写っている入力画像がある場合、その入力画像と腕、手の動き情報から指が接触している鍵盤を推定することにより演奏者の指と楽器の演奏領域の関連性を推定する。

　このように指が接触している鍵盤を推定することによりその推定結果から第１の実施の形態と同様に第１演奏要素、第２演奏要素、第３演奏要素を生成することができる。

　第３の実施の形態に係る情報処理装置３００は以上のように構成されている。

［３－２．情報処理装置の処理］
　次に第３の実施の形態における情報処理装置３００の処理の流れについて説明する。図１５のフローチャートは第１の実施の形態で説明した、一つの入力画像に対応する演奏情報および楽譜情報を生成するための処理に対応したものである。

　ステップＳ１０１乃至ステップＳ１０５は第１の実施の形態における処理と同様である。

　ステップＳ３０１で、関連性認識部１０６は入力画像において楽器の演奏領域全体が映っているかを判定し、楽器の演奏領域全体が映っている場合処理はステップＳ１０６に進む（ステップＳ３０１のＹｅｓ）。そして、ステップＳ１０６乃至ステップＳ１１２の処理が第１の実施の形態と同様に行われる。

　一方、入力画像に楽器の演奏領域全体が映ってはいない場合、処理はステップＳ３０２に進む（ステップＳ３０１のＮｏ）。そしてステップＳ３０２で関連性認識部１０６により、手の位置情報、センサ情報などを用いて関連性を推定する。

　その後はステップＳ１０６乃至ステップＳ１１２の処理が第１の実施の形態と同様に行われて、部分演奏情報が生成されて出力される。

　また、図１６のフローチャートに示すように、複数の入力画像により構成されるフレーズ、曲の一部または全部の複合演奏情報を生成する処理においても図１５のフローチャートにおけるステップＳ３０１とステップＳ３０２と同様の処理が行われる。

　この第３の実施の形態によれば、入力画像において楽器の一部が映っていなくても第１の実施の形態と同様に演奏情報、楽譜情報の生成を行うことができる。

＜４．変形例＞
　以上、本技術の実施の形態について具体的に説明したが、本技術は上述の実施の形態に限定されるものではなく、本技術の技術的思想に基づく各種の変形が可能である。

　実施の形態では演奏の音がなくても複数枚の連続する静止画像または動画を構成する複数のフレーム画像から演奏情報および楽譜情報を生成できると説明したが、本技術は音の使用を除外するものではない。演奏情報および楽譜情報を生成の際の補助情報として音情報を用いてもよいし、生成した演奏情報および楽譜情報の精度を確認する際に音情報を用いてもよい。例えば、入力映像の音声に対して音声認識処理を施し、音の周波数から音階を認識する、音量から強弱や演奏しているか否かを認識するなどである。

　第２の実施の形態と第３の実施の形態を組み合わせることにより、入力画像において演奏者の手の一部および楽器の演奏領域の一部が映っていない場合でも演奏情報の生成を行うことができる。

　本技術は実施の形態で挙げたピアノ、ギター、ドラムに限られず、木琴、鉄琴、パーカッションなどの楽器の演奏に対しても使用可能である。

　実施の形態では主に押す、叩くなどのピアノの演奏方法、手をストロークさせる、爪弾くなどのギターの演奏方法を例にして説明を行ったが、それら以外の演奏方法、例えば、引っ張る、弾くなどの演奏動作を認識して演奏情報を生成してもよい。入力画像から認識できる楽器の演奏の動作であればどのような動作に基づいて演奏情報を生成してもよい。

　第３の実施の形態においては、入力画像に写っていない楽器の一部を推定し、その推定結果に基づいて演奏情報生成部１０７が演奏情報を生成するようにしてもよい。

　本技術は以下のような構成も取ることができる。
（１）
　入力画像から演奏者の身体の部位の位置を認識する位置認識部と、
　前記入力画像から楽器を認識する楽器認識部と、
　前記部位の位置と前記楽器との関連性に基づき、前記演奏者による前記楽器の演奏を示す演奏情報を生成する演奏情報生成部と
を備える情報処理装置。
（２）
　前記位置認識部により認識された前記部位の形状を認識する形状認識部を備え、
　前記演奏情報生成部は、前記部位の形状と前記楽器の関連性に基づき前記演奏情報を生成する（１）に記載の情報処理装置。
（３）
　前記位置認識部により認識された前記部位の動きを認識する動き認識部を備え、
　前記演奏情報生成部は、前記部位の動きと前記楽器の関連性に基づき前記演奏情報を生成する（１）または（２）に記載の情報処理装置。
（４）
　前記演奏情報は、前記演奏者が前記楽器を演奏している状態に対応した第１演奏要素を含む（１）から（３）のいずれかに記載の情報処理装置。
（５）
　前記第１演奏要素は、前記演奏者により演奏されている音階を含む（４）に記載の情報処理装置。
（６）
　前記演奏情報は、前記演奏者が前記楽器を演奏してない状態に対応した第２演奏要素を含む（１）から（５）のいずれかに請求項１に記載の情報処理装置。
（７）
　前記第２演奏要素は、前記演奏者により演奏されていない休みの長さを含む（６）に記載の情報処理装置。
（８）
　前記演奏情報は、複数の前記入力画像間に跨る要素である第３演奏要素を含む（１）から（７）のいずれかに記載の情報処理装置。
（９）
　前記第３演奏要素は、前記演奏者により演奏されている曲のテンポを含む（８）に記載の情報処理装置。
（１０）
　前記演奏情報生成部は、一の前記入力画像に対応した前記演奏情報を生成する（１）から（９）のいずれかに記載の情報処理装置。
（１１）
　前記演奏情報生成部は、複数の前記入力画像により構成される前記楽器の演奏の一部または全部に対応する演奏情報を生成する（１）から（９）のいずれかに記載の情報処理装置。
（１２）
　前記関連性は、前記楽器に対する前記部位の接触位置である（１）から（１１）のいずれかに記載の情報処理装置。
（１３）
　前記関連性は、前記楽器に対する前記部位の動作の方向である（１）から（１２）のいずれかに記載の情報処理装置。
（１４）
　前記部位は前記演奏者の手である（１）から（１３）のいずれかに記載の情報処理装置。
（１５）
　前記演奏情報から楽譜情報を生成する楽譜情報生成部を備える（１）から（１４）のいずれかに記載の情報処理装置。
（１６）
　前記入力画像において前記部位の一部が映っていない場合、前記部位の一部の位置を推定し、前記演奏情報生成部は推定結果に基づき前記演奏情報を生成する（１）から（１５）のいずれかに記載の情報処理装置。
（１７）
　前記入力画像において前記楽器の一部が映っていない場合、前記演奏情報生成部は、前記部位と前記楽器の一部との前記関連性を推定し、推定結果に基づき前記演奏情報を生成する（１）から（１６）のいずれかに記載の情報処理装置。
（１８）
　前記演奏情報生成部は、補助情報として音情報を用いて前記演奏情報を生成する（１）から（１７）のいずれかに記載の情報処理装置。
（１９）
　入力画像から演奏者の身体の部位の位置を認識し、
　前記入力画像から楽器を認識し、
　前記部位の位置と前記楽器との関連性に基づき、前記演奏者による前記楽器の演奏を示す演奏情報を生成する
情報処理方法。
（２０）
　入力画像から演奏者の身体の部位の位置を認識し、
　前記入力画像から楽器を認識し、
　前記部位の位置と前記楽器との関連性に基づき、前記演奏者による前記楽器の演奏を示す演奏情報を生成する
情報処理方法をコンピュータに実行させる情報処理プログラム。

１００、２００、３００・・・情報処理装置
１０２・・・位置認識部
１０３・・・形状認識部
１０４・・・動き認識部
１０５・・・楽器認識部
１０７・・・演奏情報生成部
１０８・・・楽譜情報生成部
２０２・・・第１位置認識部
２０３・・・第２位置認識部

Claims

　入力画像から演奏者の身体の部位の位置を認識する位置認識部と、
　前記入力画像から楽器を認識する楽器認識部と、
　前記部位の位置と前記楽器との関連性に基づき、前記演奏者による前記楽器の演奏を示す演奏情報を生成する演奏情報生成部と
を備える情報処理装置。
　前記位置認識部により認識された前記部位の形状を認識する形状認識部を備え、
　前記演奏情報生成部は、前記部位の形状と前記楽器の関連性に基づき前記演奏情報を生成する
請求項１に記載の情報処理装置。
　前記位置認識部により認識された前記部位の動きを認識する動き認識部を備え、
　前記演奏情報生成部は、前記部位の動きと前記楽器の関連性に基づき前記演奏情報を生成する
請求項１に記載の情報処理装置。
　前記演奏情報は、前記演奏者が前記楽器を演奏している状態に対応した第１演奏要素を含む
請求項１に記載の情報処理装置。
　前記第１演奏要素は、前記演奏者により演奏されている音階を含む
請求項４に記載の情報処理装置。
　前記演奏情報は、前記演奏者が前記楽器を演奏してない状態に対応した第２演奏要素を含む
請求項１に記載の情報処理装置。
　前記第２演奏要素は、前記演奏者により演奏されていない休みの長さを含む
請求項６に記載の情報処理装置。
　前記演奏情報は、複数の前記入力画像間に跨る要素である第３演奏要素を含む
請求項１に記載の情報処理装置。
　前記第３演奏要素は、前記演奏者により演奏されている曲のテンポを含む
請求項８に記載の情報処理装置。
　前記演奏情報生成部は、一の前記入力画像に対応した前記演奏情報を生成する
請求項１に記載の情報処理装置。
　前記演奏情報生成部は、複数の前記入力画像により構成される前記楽器の演奏の一部または全部に対応する演奏情報を生成する
請求項１に記載の情報処理装置。
　前記関連性は、前記楽器に対する前記部位の接触位置である
請求項１に記載の情報処理装置。
　前記関連性は、前記楽器に対する前記部位の動作の方向である
請求項１に記載の情報処理装置。
　前記部位は前記演奏者の手である
請求項１に記載の情報処理装置。
　前記演奏情報から楽譜情報を生成する楽譜情報生成部を備える
請求項１に記載の情報処理装置。
　前記入力画像において前記部位の一部が映っていない場合、前記部位の一部の位置を推定し、前記演奏情報生成部は推定結果に基づき前記演奏情報を生成する
請求項１に記載の情報処理装置。
　前記入力画像において前記楽器の一部が映っていない場合、前記演奏情報生成部は、前記部位と前記楽器の一部との前記関連性を推定し、推定結果に基づき前記演奏情報を生成する
請求項１に記載の情報処理装置。
　前記演奏情報生成部は、補助情報として音情報を用いて前記演奏情報を生成する
請求項１に記載の情報処理装置。
　入力画像から演奏者の身体の部位の位置を認識し、
　前記入力画像から楽器を認識し、
　前記部位の位置と前記楽器との関連性に基づき、前記演奏者による前記楽器の演奏を示す演奏情報を生成する
情報処理方法。
　入力画像から演奏者の身体の部位の位置を認識し、
　前記入力画像から楽器を認識し、
　前記部位の位置と前記楽器との関連性に基づき、前記演奏者による前記楽器の演奏を示す演奏情報を生成する
情報処理方法をコンピュータに実行させる情報処理プログラム。