WO2021029294A1

WO2021029294A1 - データ作成方法及びデータ作成プログラム

Info

Publication number: WO2021029294A1
Application number: PCT/JP2020/029969
Authority: WO
Inventors: 幸徳西山; 祐也西尾; 和田　哲; 田中　康一
Original assignee: 富士フイルム株式会社
Priority date: 2019-08-15
Filing date: 2020-08-05
Publication date: 2021-02-18
Also published as: JP7397084B2; CN114467293A; JPWO2021029294A1; US20220270388A1; WO2021029294A8

Abstract

複数の被写体の各々の状態に応じて、各被写体の音声の音量調節を効率的に行える動画像データの生成方法を提供する。データ作成方法は、マイクロフォンと、マイクロフォンの各々を所有する各被写体を関連付ける関連付け工程（ステップＳ１０及びステップＳ１１）と、撮像装置を用いて動画像データを録画する録画工程（ステップＳ１２、ステップＳ２０、ステップＳ２１）と、録画工程の開始に同期してマイクロフォンの各々を用いて各被写体の音声データをそれぞれ録音する録音工程（ステップＳ１３）と、録画工程の間に、被写体の状態を自動で検出する検出工程（ステップＳ１４、ステップＳ１５）と、検出工程の結果に基づいて、各被写体の音声データの音量調節に関する識別コードを、動画像データに付与する付与工程（ステップＳ１６～ステップＳ１９）と、を含む。

Description

データ作成方法及びデータ作成プログラム

　本発明は、データ作成方法及びデータ作成プログラムに関する。

　従来、動画像データを撮像する撮像装置に対して、例えば無線により接続されたマイクロフォンにより音声を集音し、動画像データに同期した音声データを得る技術がある。

　特許文献１には、撮像装置に接続されたワイヤレスマイクロフォンが、撮像装置に音声信号を送信できない場合に、音声信号を記録媒体に記憶させる技術が記載されている。

　特許文献２には、マイクロフォンと無線通信装置との通信に関するログ情報と関連付けて、録音ファイルを生成する無線通信装置が記載されている。

特開２０１５－７３１７０号公報特開２０１５－１１９２２９号公報

　本開示の技術にかかる一つの実施形態は、複数の被写体の各々の状態に応じて、各被写体の音声の音量調節を効率的に行える動画像データの生成方法を提供する。

　本発明の一の態様であるデータ作成方法は、撮像装置と、撮像装置と接続された複数のマイクロフォンとを備えたカメラシステムに用いられるデータ作成方法であって、マイクロフォンと、マイクロフォンの各々を所有する各被写体を関連付ける関連付け工程と、撮像装置を用いて動画像データを録画する録画工程と、録画工程の開始に同期してマイクロフォンの各々を用いて各被写体の音声データをそれぞれ録音する録音工程と、録画工程の間に、被写体の状態を自動で検出する検出工程と、検出工程の結果に基づいて、各被写体の音声データの音量調節に関する識別コードを、動画像データに付与する付与工程と、を含む。

　好ましくは、検出工程では、動画像データにおいて画像処理により、被写体が声を発している状態を認識し、付与工程では、声を発している被写体の音声データの音量を他の音声データに対して相対的に大きくする識別コードを動画像データに付与する。

　好ましくは、検出工程では、動画像データにおいて画像処理により、各被写体が向いている方向を認識し、付与工程では、撮像装置に対する各被写体の顔の方向に応じて、音声データの音量を調節する識別コードを動画像データに付与する。

　好ましくは、検出工程では、動画像データにおいて画像処理により、各被写体と撮像装置との距離を認識し、付与工程では、各被写体の距離に応じて、音声データの音量を調節する識別コードを動画像データに付与する。

　好ましくは、検出工程では、動画像データにおいて画像処理により、各被写体が撮像装置の画角内に存在するか否かを認識し、付与工程では、被写体が撮像装置の画角内に存在するか否かで、音声データの音量を調節する識別コードを動画像データに付与する。

　好ましくは、複数の被写体の各々は位置検出システムを有し、位置検出システムから複数の被写体の各々の位置を得る位置取得工程を含み、検出工程は、位置取得工程により得られた複数の被写体の各々の位置を検出し、付与工程では、検出工程の結果に基づいて、各被写体の音声データの音量調節に関する識別コードを、動画像データに付与する。

　好ましくは、データ作成方法は、付与工程の後に、ユーザによる音声データの音量調節を受け付ける受付工程を含む。

　本発明の他の態様であるデータ作成方法は、撮像装置と、撮像装置と接続された複数のマイクロフォンとを備えたカメラシステムに用いられるデータ作成方法であって、マイクロフォンと、マイクロフォンの各々を所有する各被写体を関連付ける関連付け工程と、撮像装置を用いて動画像データを録画する録画工程と、録画工程の開始に同期してマイクロフォンの各々を用いて各被写体の音声データをそれぞれ録音する録音工程と、録画工程の間に、被写体の状態を自動で検出する検出工程と、音声データと動画像データとを合成する合成工程と、検出工程の結果に基づいて、合成工程の前又は後に、各被写体の音声データの音量を自動で調節する調節工程と、を含む。

　好ましくは、検出工程では、動画像データにおいて画像処理により、被写体が声を発している状態を認識し、調節工程では、声を発している被写体の音声データの音量を他の音声データに対して相対的に大きくする。

　好ましくは、検出工程では、動画像データにおいて画像処理により、各被写体が向いている方向を認識し、調節工程では、撮像装置に対する各被写体の顔の方向に応じて、音声データの音量を調節する。

　好ましくは、検出工程では、動画像データにおいて画像処理により、各被写体と撮像装置との距離を認識し、調節工程では、各被写体の距離に応じて、音声データの音量を調節する。

　好ましくは、検出工程では、動画像データにおいて画像処理により、各被写体が撮像装置の画角内に存在するか否かを認識し、調節工程では、被写体が撮像装置の画角内に存在するか否かで、音声データの音量を調節する。

　好ましくは、複数の被写体の各々は位置検出システムを有し、位置検出システムから複数の被写体の各々の位置を得る位置取得工程を含み、調節工程では、位置取得工程の結果及び検出工程の結果に基づいて、各被写体の音声データの音量の調節を行う。

　本発明の他の態様であるデータ作成プログラムは、撮像装置と、撮像装置と接続された複数のマイクロフォンとを備えたカメラシステムに用いられるデータ作成プログラムであって、マイクロフォンと、マイクロフォンの各々を所有する各被写体を関連付ける関連付け工程と、撮像装置を用いて動画像データを録画する録画工程と、録画工程の開始に同期してマイクロフォンの各々を用いて各被写体の音声データをそれぞれ録音する録音工程と、録画工程の間に、動画像データから被写体の状態を自動で検出する検出工程と、検出工程の結果に基づいて、各被写体の音声データの音量調節に関する識別コードを、動画像データに付与する付与工程と、を含む。

　本発明の他の態様であるデータ作成プログラムは、撮像装置と、撮像装置と接続された複数のマイクロフォンとを備えたカメラシステムに用いられるデータ作成プログラムであって、マイクロフォンと、マイクロフォンの各々を所有する各被写体を関連付ける関連付け工程と、撮像装置を用いて動画像データを録画する録画工程と、録画工程の開始に同期してマイクロフォンの各々を用いて各被写体の音声データをそれぞれ録音する録音工程と、録画工程の間に、動画像データから被写体の状態を自動で検出する検出工程と、音声データと動画像データとを合成する合成工程と、検出工程の結果に基づいて、合成工程の前又は後に、各被写体の音声データの音量を自動で調節する調節工程と、を含む。

図１は、カメラシステムを概念的に示す図である。図２は、カメラシステムの概略構成を示すブロック図である。図３は、動画像データ及び音声データを記録する場合にＣＰＵが実現する主な機能のブロック図である。図４は、データ作成方法を説明するフローチャートである。図５は、識別コードが付与された動画像データの例を説明する図である。図６は、動画像データ及び音声データを記録する場合にＣＰＵが実現する主な機能のブロック図である。図７は、データ作成方法を説明するフローチャートである。図８は、第１音声データ及び第２音声データの音量調節に関して説明する図である。図９は、カメラシステムの概略構成を示すブロック図である。図１０は、動画像データ及び音声データを記録する場合にＣＰＵが実現する主な機能のブロック図である。図１１は、具体例を説明する図である。図１２は、具体例を説明する図である。図１３は、具体例を説明する図である。図１４は、具体例を説明する図である。

　以下、添付図面に従って本発明にかかるデータ作成方法及びデータ作成プログラムの好ましい実施の形態について説明する。

　図１は、本発明のデータ作成方法が用いられるカメラシステムを概念的に示す図である。

　カメラシステム１００を構成する撮像装置１は、人物Ａ及び人物Ｂの動画を撮像することにより動画像データを取得する。人物Ａは第１マイクロフォン１２を所有しており、人物Ｂは第２マイクロフォン１４を所有している。第１マイクロフォン１２及び第２マイクロフォン１４は、撮像装置１と無線により接続している。

　なお、以下の説明では二つのマイクロフォン（第１マイクロフォン１２及び第２マイクロフォン１４）を用いた例について説明するが、マイクロフォンの数は、特に限定されるものではなく、カメラシステム１００は複数のマイクロフォンの使用が可能である。また、第１マイクロフォン１２及び第２マイクロフォンは、無線により撮像装置１に接続されているが、有線により接続されてもよい。

　図２は、カメラシステム１００の概略構成を示すブロック図である。

　カメラシステム１００は、撮像装置１、第１マイクロフォン１２及び第２マイクロフォン１４から構成される。

　撮像装置１は、撮像部１０、表示部１６、記憶部１８、音声出力部２０、操作部２２、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）２４、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）２６、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）２８及び第３無線通信部３０等を備える。また、撮像装置１には、第１マイクロフォン１２が第１無線通信部１２Ｂ及び第３無線通信部３０を介して、第２マイクロフォン１４が第２無線通信部１４Ｂ及び第３無線通信部３０を介して、無線で接続されている。

　撮像部１０は、動画を撮像して動画像データを取得する。撮像部１０は、撮像光学系１０Ａ、撮像素子１０Ｂ及び画像信号処理部１０Ｃ等を備える。撮像光学系１０Ａは、被写体の像を撮像素子１０Ｂの受光面上に結像させる。撮像素子１０Ｂは、撮像光学系１０Ａによってその受光面上に結像された被写体の像を電気信号に変換する。画像信号処理部１０Ｃは、撮像素子１０Ｂから出力される信号に所定の信号処理を施して、動画像データを生成する。

　第１マイクロフォン１２は、人物Ａの音声（第１音声）を集音する。第１マイクロフォン１２は第１音声信号処理部１２Ａ及び第１無線通信部１２Ｂを備える。第１音声信号処理部１２Ａは、マイクロフォンからの信号に所定の信号処理を施して、第１音声の第１音声データを生成する。第１無線通信部１２Ｂは、第１音声データをＢｌｕｅｔｏｏｔｈ（登録商標）の仕様で規定されている通信方式に従って無線信号に変換するとともに、無線通信に必要な処理を行ない、撮像装置１に無線出力する。なお、無線通信方式は、特にＢｌｕｅｔｏｏｔｈに限定されるものではなく、他の方式も採用される。例えば、ＤＥＣＴ（Ｄｉｇｉｔａｌ　Ｅｎｈａｎｃｅｄ　Ｃｏｒｄｌｅｓｓ　Ｔｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎ）、無線ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、又はＺｉｇｂｅｅ（登録商標）、が無線通信方式として採用される。なお、第２マイクロフォン１４は、上述した第１マイクロフォン１２と同様の構成を有するので説明は省略する。

　表示部１６は、撮像部１０で取得した動画像データに対応する動画をリアルタイムに表示する。また、表示部１６は、再生される動画を表示する。また、表示部１６は、必要に応じて、操作画面、メニュー画面及びメッセージ等を表示する。表示部１６は、たとえば、ＬＣＤ（Ｌｉｑｕｉｄ　Ｃｒｙｓｔａｌ　Ｄｉｓｐｌａｙ）等の表示デバイス、及び、その駆動回路等を含んで構成される。

　記憶部１８は、主として、取得された動画像データ及び音声データを記録する。記憶部１８は、例えば、不揮発性メモリ等の記憶媒体、及び、その制御回路等を含んで構成される。

　音声出力部２０は、音声データに基づいて再生された音声を出力する。また、音声出力部２０は、必要に応じて警告音等を出力する。音声出力部２０は、スピーカ、及び、そのスピーカから出力させる音声の音声データを処理するデータ処理回路等を含んで構成される。

　操作部２２は、ユーザからの操作の入力を受け付ける。操作部２２は、録画ボタン等の各種操作ボタン類、表示部１６に表示されたボタン類及び、その操作の検出回路等を含んで構成される。

　ＣＰＵ２４は、所定の制御プログラムを実行することにより、装置全体の制御部として機能する。ＣＰＵ２４は、ユーザの操作に基づいて、各部の動作を制御し、装置全体の動作を統括制御する。ＲＯＭ２６は、ＣＰＵ２４が実行する各種プログラム、及び、制御に必要なデータ等を記録する。ＲＡＭ２８は、ＣＰＵ２４に作業用のメモリ空間を提供する。

　第３無線通信部３０は、第１無線通信部１２Ｂ及び第２無線通信部１４Ｂから出力された無線信号を受信し、受信した無線信号をＢｌｕｅｔｏｏｔｈの仕様に基づいて処理を行う。撮像装置１は、第３無線通信部３０を介して、第１音声データ及び第２音声データを得る。

　＜第１の実施形態＞
　本発明の第１の実施形態について説明する。本実施形態では、動画像データから自動で検出される被写体の状態に応じて、音声データの音量調節に関する識別コードが動画像データに付与される。これにより、本実施形態では、動画像データを取得した後に行う編集作業において、ユーザは識別コードに従って音量調節を行うことができるので、逐一画像を確認する手間を省くことができ、効率的に音声データの音量調節を行うことができる。

　図３は、動画像データ及び音声データを記録する場合にＣＰＵが実現する主な機能のブロック図である。図３に示すように、ＣＰＵ２４は、撮像制御部１０１、画像処理部１０２、第１音声録音部１０４及び第２音声録音部１０６等として機能する。

　撮像制御部１０１は、撮像部１０による撮像を制御する。撮像制御部１０１は、撮像部１０から得られる動画に基づいて、適正露出で動画が撮像されるように、撮像部１０を制御する。また、撮像制御部１０１は、撮像部１０から得られる動画に基づいて、主要被写体に焦点が合うように、撮像部１０を制御する。

　画像処理部１０２は、撮像部１０で撮像された動画をリアルタイムに表示部１６に出力する。これにより、表示部１６にライブビューが表示される。

　画像処理部１０２は、関連付け部１０２Ａ、第１検出部１０２Ｂ、付与部１０２Ｃ及び録画部１０２Ｄを備える。

　関連付け部１０２Ａは、第１マイクロフォン１２と人物Ａとの関連付け、第２マイクロフォン１４と人物Ｂとの関連付けを受け付ける。関連付けの受付方法は、様々な方法が採用される。例えば、第１マイクロフォン１２の関連付けを行う場合に、表示部１６に人物Ａを写しユーザがタッチして人物Ａを選択することにより、第１マイクロフォン１２と人物Ａとの関連付けを行う。ここで関連付けとは、例えば人物Ａの音声は第１マイクロフォン１２を介して集音されることを予め設定しておくことである。

　第１検出部１０２Ｂは、撮像装置１により動画が撮像されている間に、被写体の状態を自動で検出する。第１検出部１０２Ｂは、画像処理により被写体の状態を認識できるよう様々な技術が適用される。例えば第１検出部１０２Ｂは、顔認識技術を利用して動画像データを画像処理することにより、人物Ａ及び人物Ｂが声を発しているか否かの状態を認識する。

　付与部１０２Ｃは、検出工程の結果に基づいて、各被写体の音声データの音量調節に関する識別コードを、動画像データに付与する。付与された識別コードは、動画像データを編集する際に表示され、ユーザが識別コードを確認することができる。

　録画部１０２Ｄは、撮像部１０から出力される動画像データを記憶部１８に記録させることにより録画する。なお、付与部１０２Ｃで付与される識別コードが付された状態で動画像データは記録されてもよいし、識別コードが付される前の動画像データが記憶部１８に記録されてもよい。録画部１０２Ｄは、ユーザからの指示に応じて、動画像データの記録を開始する。また、ユーザから指示に応じて、動画像データの記録を終了する。ユーザは、操作部２２を介して、記録の開始及び終了を指示する。

　第１音声録音部１０４は、第１マイクロフォン１２から入力される第１音声データを動画像データに同期して記憶部１８に記録する。第１音声データは、動画像データに関連付けて、記憶部１８に記録される。

　第２音声録音部１０６は、第２マイクロフォン１４から入力される第２音声データを動画像データに同期して記憶部１８に記録する。第２音声データは、動画像データに関連付けて、記憶部１８に記録される。

　次に、図１で説明した人物Ａ及び人物Ｂの動画像データを取得する具体例を説明する。

　図４は、カメラシステム１００を使用して実施されるデータ作成方法を説明するフローチャートである。

　［関連付け工程］
　関連付け工程では、撮像装置１の表示部１６に表示された人物Ａをユーザがタッチすることにより指定して、第１マイクロフォン１２と人物Ａとの関連付けを行う（ステップＳ１０）。また、撮像装置１の表示部１６に表示された人物Ｂをユーザが指定して、第２マイクロフォン１４と人物Ｂとの関連付けを行う（ステップＳ１１）。

　［録画工程］
　録画工程では、ユーザは操作部２２を介して、動画像データの記録開始を行う（ステップＳ１２）。その後、動画像データの記録続行の判定が撮像制御部１０１で行われ（ステップＳ２０）、動画記録の中止の指示がユーザから操作部２２を介して行われるまで動画記録は行われる。一方、ユーザが操作部２２を介して動画記録の中止の指示を入力すると、動画像データの記録が終了する（ステップＳ２１）。なお、録画工程の期間に、以下で説明する録音工程、検出工程及び付与工程が行われる。

　［録音工程］
　録音工程では、人物Ａの第１音声データを第１マイクロフォン１２を用いて記憶部１８に録音し、人物Ｂの第２音声データを第２マイクロフォン１４を用いて記憶部１８に録音する（ステップＳ１３）。

　［検出工程］
　検出工程では、第１検出部１０２Ｂにより画像処理で、動画像データにおいて人物Ａが声を発している（話している）ことを検出する（ステップＳ１４）。また、検出工程では、第１検出部１０２Ｂにより画像処理で、動画像データにおいて人物Ｂが声を発している（話している）こと検出する（ステップＳ１５）。例えば、第１検出部１０２Ｂは、顔認識技術を使用して、人物Ａ及び人物Ｂの顔を認識し、人物Ａ及び人物Ｂの口元の画像を解析することにより、人物Ａ及び人物Ｂが話しているか否かを検出する。

　［付与工程］
　付与工程では、付与部１０２Ｃにより、人物Ａが話していない場合には、第１マイクロフォン１２で集音された第１音声データ（図中では第１ＭＰと記載）の音量を相対的に小さくする識別コードが動画像データに付与される（ステップＳ１６）。一方で、人物Ａが話している場合には、第１マイクロフォン１２で集音された第１音声データの音量を相対的に大きくする識別コードを動画像データに付与する（ステップＳ１７）。また、同様に人物Ｂが話していない場合には、第２マイクロフォン１４で集音された第２音声データ（図中では第２ＭＰと記載）の音量を相対的に小さくする識別コードを動画像データに付与し（ステップＳ１８）、人物Ｂが話している場合には、第２マイクロフォン１４で集音された第２音声データの音量を相対的に大きくする識別コードを付与する（ステップＳ１９）。以下に、識別コードが付与された動画像データについて説明する。

　図５は、識別コードが付与された動画像データの例を説明する図である。

　第１検出部１０２Ｂは、動画像データにおいてｔ１からｔ２の期間で、人物Ａが話していることを検出する。そして、付与部１０２Ｃは、第１検出部１０２Ｂの検出結果に基づいて、第１マイクロフォン１２の音量を大きくする識別コード「第１マイクロフォン：大」（符号１３０）を動画像データに付与する。また、第１検出部１０２Ｂは、動画像データにおいてｔ２からｔ３の期間で、人物Ｂが話していることを検出する。そして、付与部１０２Ｃは、第１検出部１０２Ｂの検出結果に基づいて、第２マイクロフォン１４の音量を大きくする識別コード「第２マイクロフォン：大」（符号１３２）を付与する。また、第１検出部１０２Ｂは、動画像データにおいてｔ３からｔ４の期間で、人物Ａが話していることを検出する。そして、付与部１０２Ｃは、第１検出部１０２Ｂの検出結果に基づいて、第１マイクロフォン１２の音量を大きくする識別コード「第１マイクロフォン：大」（符号１３４）を動画像データに付与する。また、「第１マイクロフォン：大」の代わりに、第１マイクロフォン１２の音量を相対的に大きくするため、識別コード「第２マイクロフォン：小」を動画像に付与しても良い。なお、識別コードは、上述した識別コードには限定されず、第１音声データ及び第２音声データの音量調節を表すものであれば様々な形態を採用することができる。例えば識別コードとして、「第１マイクロフォン：大」に伴って、第２音声データの音量を小さくする「第２音声データ：小」を付してもよい。また、識別コードとして、第１音声データの音量レベルを付した「第１音声データ：レベル１０」の識別コードを付してもよい。なお、音量レベルは数値が大きい程、音量が大きいことを示す。

　［動画の表示工程］
　動画の表示工程では、記録された動画像データに基づく動画を表示する（ステップＳ２２）。動画像データに基づく動画は、撮像装置１とは別体で設けられたコンピュータのモニタに表示される。例えば、ユーザはモニタに動画を表示させて、動画の編集作業を行う。ユーザは、動画をモニタに表示させ、第１音声データ及び第２音声データの音量を調節する。なお、撮像装置１の表示部１６に動画像データに基づく動画を表示させて編集作業を行う場合には、動画を表示部１６に表示させて編集を行ってもよい。

　［音量調節の受付工程］
　音量調節の受付工程では、ユーザによる音声データの音量調節を受け付ける（ステップＳ２３）。具体的には、ユーザはモニタに表示された動画像データ及び動画像データに付与された識別コードを確認しながら、第１音声データ及び／又は第２音声データの音量調節を行う。例えばユーザは、図５に示した識別コードが付与された動画像データを確認した場合には、ｔ１からｔ２の期間では、第１音声データの音量レベルを１０にし、第２音声データの音量レベルを１にして第１音声データの音量を相対的に大きくする。また、ユーザは、ｔ２からｔ３の期間では、第２音声データの音量レベルを１０にし、第１音声データの音量レベルを１にして第２音声データの音量を相対的に大きくする。また、ユーザは、ｔ３からｔ４の期間では、第１音声データの音量レベルを１０にし、第２音声データの音量レベルを１にして第１音声データの音量を相対的に大きくする。

　以上で説明したように、本実施形態のデータ作成方法は、動画像データにおいて人物Ａ及び人物Ｂが話しているか否かを画像処理により自動で検出し、その検出結果に応じて動画像データに音量調節に関する識別コードを付与する。これにより、ユーザは、動画像データの編集を行う際に識別コードを確認して第１音声データ及び第２音声データの音量を調節することでき、改めて画像を確認する手間を省くことができ、人物Ａ及び人物Ｂの状態に応じた音量調節を効率的に行うことができる。

　なお、上記実施形態において、各種の処理を実行する処理部（processing unit）（画像処理部１０２、撮像制御部１０１、第１音声録音部１０４、第２音声録音部１０６）のハードウェア的な構造は、次に示すような各種のプロセッサ（processor）である。各種のプロセッサには、ソフトウェア（プログラム）を実行して各種の処理部として機能する汎用的なプロセッサであるＣＰＵ（Central Processing Unit）、ＦＰＧＡ（Field Programmable Gate Array）などの製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス（Programmable Logic Device：ＰＬＤ）、ＡＳＩＣ（Application Specific Integrated Circuit）などの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路などが含まれる。

　１つの処理部は、これら各種のプロセッサのうちの１つで構成されていてもよいし、同種又は異種の２つ以上のプロセッサ（例えば、複数のＦＰＧＡ、あるいはＣＰＵとＦＰＧＡの組み合わせ）で構成されてもよい。また、複数の処理部を１つのプロセッサで構成してもよい。複数の処理部を１つのプロセッサで構成する例としては、第１に、クライアントやサーバなどのコンピュータに代表されるように、１つ以上のＣＰＵとソフトウェアの組合せで１つのプロセッサを構成し、このプロセッサが複数の処理部として機能する形態がある。第２に、システムオンチップ（System On Chip：ＳｏＣ）などに代表されるように、複数の処理部を含むシステム全体の機能を１つのＩＣ（Integrated Circuit）チップで実現するプロセッサを使用する形態がある。このように、各種の処理部は、ハードウェア的な構造として、上記各種のプロセッサを１つ以上用いて構成される。

　さらに、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子などの回路素子を組み合わせた電気回路（circuitry）である。

　上述の各構成及び機能は、任意のハードウェア、ソフトウェア、或いは両者の組み合わせによって適宜実現可能である。例えば、上述の処理ステップ（処理手順）をコンピュータに実行させるプログラム、そのようなプログラムを記録したコンピュータ読み取り可能な記録媒体（非一時的記録媒体）、或いはそのようなプログラムをインストール可能なコンピュータに対しても本発明を適用することが可能である。

　＜第２の実施形態＞
　次に、本発明の第２の実施形態に関して説明する。本実施形態では、動画像データから自動で検出される被写体の状態に応じて、動画像データと合成される音声データに音量調節を行う。これにより、本実施形態では、被写体の状態に応じた音量調節が行われた音声付き動画像データを効率的に得ることができる。

　図６は、動画像データ及び音声データを記録する場合にＣＰＵが実現する主な機能のブロック図である。なお、図３で既に説明を行った箇所は同じ符号を付し説明を省略する。

　図６に示すように、ＣＰＵ２４は、撮像制御部１０１、画像処理部１０２、第１音声録音部１０４、第２音声録音部１０６、調節部１０８及び合成部１１０等として機能する。なお、本実施形態の画像処理部１０２は、関連付け部１０２Ａ、第１検出部１０２Ｂ及び録画部１０２Ｄを備える。

　調節部１０８は、第１検出部１０２Ｂの検出結果に基づいて、記憶部１８に記録される第１音声データと、記憶部１８に記録される第２音声データとの音量を自動で調節する。調節部１０８は、第１検出部１０２Ｂの検出結果に基づいて、第１検出部１０２Ｂの被写体の状態に応じて予め設定された音量に各音声データを調節する。なお、調節部１０８は、合成部１１０で合成される前の音声データの音量を調節してもよいし、合成部１１０で合成された後の音声データの音量を調節してもよい。

　合成部１１０は、記憶部１８に記録されている動画像データと音声データとを合成し、音声付き動画像データを生成する。合成部１１０は、動画像データと同期する音声データとを合成し、一つの動画ファイルを生成する。合成部１１０で生成されるファイルは、動画ファイル形式であり、例えばＡＶＩ、ＭＰ４、ＭＯＶ形式のファイルが生成される。

　図７は、カメラシステム１００を使用して実施されるデータ作成方法を説明するフローチャートである。以下の説明では、図１で説明した人物Ａ及び人物Ｂの動画像データを取得する具体例を説明する。なお、図４で既に説明を行った関連付け工程、録画工程、録音工程、検出工程は同様の内容であるので、説明を簡略化している。

　［関連付け工程］
　関連付け工程では、第１マイクロフォン１２と人物Ａと、及び第２マイクロフォン１４と人物Ｂとの関連付けが行われる（ステップＳ３０及びステップＳ３１）。

　［録画工程］
　録画工程では、動画像データの記録が行われ、ユーザの指示に基づいて動画像データの記録が終了する（ステップＳ３２、ステップＳ４１及びステップＳ４２）。

　［録音工程］
　録音工程では、第１音声データ及び第２音声データが記憶部１８に録音される（ステップＳ３３）。

　［検出工程］
　検出工程では、動画像データにおいて人物Ａが話しているか否かが検出される（ステップＳ３４）。また、検出工程では、動画像データにおいて人物Ｂが話しているか否かが検出される（ステップＳ３５）。

　［調節工程］
　調節工程では、調節部１０８により、人物Ａが話していない場合には、第１音声データの音量を小さくし（ステップＳ３６）、人物Ａが話している場合には、第１音声データの音量を大きくする（ステップＳ３７）。また、同様に人物Ｂが話していない場合には、第２音声データの音量を小さくし（ステップＳ３８）、人物Ｂが話している場合には、第２音声データの音量を大きくする（ステップＳ３９）。以下に、音声データの音量の自動調節に関して具体的に説明する。

　図８は、第１音声データ及び第２音声データの音量調節に関して説明する図である。

　動画像データのｔ１からｔ２の期間では、人物Ａが話しているので、調節部１０８は、第１音声データの音量をレベル１０に調節する。一方、動画像データのｔ１からｔ２の期間では、人物Ｂは話していないので、調節部１０８は、第２音声データの音量をレベル１に調節する。また、動画像データのｔ２からｔ３の期間では、人物Ａが話していないので、調節部１０８は、第１音声データの音量をレベル１に調節する。一方、動画像データのｔ２からｔ３の期間では、人物Ｂは話しているので、調節部１０８は、第２音声データの音量をレベル１０に調節する。また、動画像データのｔ３からｔ４の期間では、人物Ａが話しているので、調節部１０８は、第１音声データの音量をレベル１０に調節する。一方、動画像データのｔ３からｔ４の期間では、人物Ｂは話していないので、調節部１０８は、第２音声データの音量をレベル１に調節する。なお、上述の説明では、記憶部１８に記録された第１音声データ及び第２音声データの音量が調節されることに関して説明したが、本実施形態はこの例に限定されない。例えば、第１音声データ及び第２音声データが記憶部１８に記録される前に、調節されてもよい。その場合には、第１音声録音部１０４及び第２音声録音部１０６に調節部１０８が設けられることになる。

　［合成工程］
　合成工程では、合成部１１０により、音量調節が行われた第１音声データ及び第２音声データと動画像データの合成が行われる（ステップＳ４０）。例えば、合成部１１０では、音量調節が行われた第１音声データ及び第２音声データと動画像データを合成することにより、ＡＶＩ形式の動画ファイルが生成される。

　以上で説明したように、本実施形態のデータ作成方法は、動画像データにおいて人物Ａ及び人物Ｂが話しているか否かを自動で検出し、その検出結果に応じて音声データの音量を調節する。これにより、ユーザは動画像データの被写体の状態に応じて、第１音声データ及び第２音声データの音量が調節された音声付き動画像データを、ユーザが手動で音量調節をすることなく効率的に取得することができる。

　次に、本発明の変形例を説明する。上述の説明では、被写体（人物Ａ及び人物Ｂ）が話しているか否かで、音量調節が行われる例について説明を行った。しかし本発明の適用は、この例に限定されるものではない。以下に変形例として、被写体の様々な状態に応じて音量調節を行うことを説明する。なお、以下で説明する変形例は、上述した動画像データに識別コード付与する形態（第１の実施形態）、及び音声データの音量を調節する形態（第２の実施形態）に適用される。

　＜変形例１＞
　変形例１に関して説明する。本例では、被写体の各々は位置検出システムを有し、位置検出システムから各被写体の位置を検出する。そして、検出された各被写体の位置に基づいて、音声データの音量を調節する識別コードが付与され、又は音声データの音量が調節される。

　図９は、カメラシステム１００の概略構成を示すブロック図である。なお、図２で既に説明を行った箇所は、同じ符号を付し説明は省略する。

　第１マイクロフォン１２は、第１音声信号処理部１２Ａ、第１無線通信部１２Ｂ及び第１位置検出システム１２Ｃを備える。第１位置検出システム１２Ｃは、第１マイクロフォン１２の位置を検出する。例えば、第１位置検出システム１２Ｃは、ＧＰＳ（Global Positioning System）（全地球測位システム）により、第１マイクロフォン１２の位置を検出する。そして、人物Ａは第１マイクロフォン１２を所有しているので、第１位置検出システム１２Ｃは、人物Ａの位置を検出することになる。第１位置検出システム１２Ｃで検出された人物Ａの位置は、第１無線通信部１２Ｂ及び第３無線通信部３０を介して、撮像装置１に入力される。なお、第２マイクロフォン１４は、上述した第１マイクロフォン１２と同様の構成を有するので説明は省略する。

　図１０は、動画像データ及び音声データを記録する場合に、ＣＰＵ２４が実現する主な機能のブロック図である。なお、図３で既に説明を行った箇所は、同じ符号を付し説明は省略する。

　図１０に示すように、ＣＰＵ２４は、撮像制御部１０１、画像処理部１０２、第１音声録音部１０４、第２音声録音部１０６及び第２検出部１１２として機能する。

　第２検出部１１２は、第１マイクロフォン１２から人物Ａの位置に関する情報、及び第２マイクロフォン１４から人物Ｂの位置に関する情報を得る。具体的には、第２検出部１１２は、第１マイクロフォン１２の第１位置検出システム１２Ｃで検出された人物Ａの位置に関する情報、及び第２マイクロフォン１４の第２位置検出システム１４Ｃで検出された人物Ｂの位置に関する情報を取得する。そして、第２検出部１１２は、人物Ａと撮像装置１との距離、人物Ｂと撮像装置１との距離を検出する。

　付与部１０２Ｃは、第２検出部１１２の結果に基づいて、各被写体の音声データの音量調節に関する識別コードを、動画像データに付与する。例えば、付与部１０２Ｃは、人物Ａの撮像装置１からの距離に応じて、第１音声データの音量調節に関する識別コードを付与し、人物Ｂの撮像装置１からの距離に応じて、第２音声データの音量調節に関する識別コードを付与する。例えば付与部１０２Ｃは、人物Ａが撮像装置１から距離αよりも遠い場合には、音量を小さくする識別コードを付与する。また、付与部１０２Ｃは、人物Ａが撮像装置１から距離β以内である場合には、音量を大きくする識別コードを付与する。また例えば音声データの調節としては、第１マイクロフォン１２、及び第２マイクロフォン１４は、人物Ａ（又は人物Ｂ）と撮像装置１との距離が長くなるに伴って、段階的に音量を小さくしてもよい。

　以上で説明したように、本例においては位置検出システムにより、人物Ａ及び人物Ｂの位置に関する情報が取得され、その位置に関する情報に基づいて第２検出部１１２により人物Ａ及び人物Ｂの位置が正確に検出される。そして、人物Ａ及び人物Ｂの位置に基づいて、効率的に音量の調節を行うことができる。

　＜変形例２＞
　次に、変形例２に関して説明する。変形例２では、被写体が向いている方向に応じて、識別コードを付与する、又は音声データの音量調節を行う。

　本例では、第１検出部１０２Ｂは、動画像データにおいて画像処理により、各被写体が向いている方向を認識する。例えば、第１検出部１０２Ｂは、顔認識技術を使用して、人物Ａ及び人物Ｂが向いている方向を認識する。そして、人物Ａ及び人物Ｂが向いている方向に応じて、識別コードが付与又は音声データの音量が調節される。例えば、音声データの調節としては、人物Ａが撮像装置１の方向（正面）を向いている場合には、第１音声データの音量を大きくし、人物Ａが撮像装置１の方向を向いてない場合には、第１音声データの音量を小さくする。

　図１１は、本例の具体例を説明する図である。

　図１１（Ａ）に示す場合では、人物Ａは撮像装置１に対して正面を向いている。この場合には、第１検出部１０２Ｂにより人物Ａが正面を向いていることが検出され、人物Ａの音声データである第１音声データの音量を大きくする音量調節が行われる。一方、図１１（Ｂ）に示す場合では、人物Ａは撮像装置１に対して横を向いている（正面を向いていない）。この場合には、第１検出部１０２Ｂにより人物Ａが横を向いていることが検出され、人物Ａの音声データである第１音声データの音量を小さくする音量調節が行われる。

　以上で説明したように、本例においては、第１検出部１０２Ｂは被写体が向いている方向を検出し、被写体が向いている方向に基づいて効率的に音量調節が行われる。

　＜変形例３＞
　次に、変形例３に関して説明する。変形例３では、被写体の距離に応じて、音声データの音量調節に関する識別コードを付与する、又は音声データの音量調節を行う。

　本例では、第１検出部１０２Ｂは、動画像データにおいて画像処理により、各被写体と撮像装置１との距離を認識する。例えば、第１検出部１０２Ｂは、画像処理による被写体距離の推定技術により人物Ａ及び人物Ｂの撮像装置１から距離を検出する。そして、人物Ａ及び人物Ｂと撮像装置１との距離に応じて、識別コードが付与又は音声データが調節される。例えば、音声データの調節としては、人物Ａと撮像装置１との距離が閾値γよりも大きい場合には、第１音声データの音量を小さくする。

　図１２は、本例の具体例を説明する図である。

　図１２（Ａ）に示す場合では、人物Ａは閾値γ以内に位置している。この場合には、第１検出部１０２Ｂにより人物Ａが閾値γ以内に位置することを検出し、人物Ａの音声データである第１音声データの音量を大きくする音量調節が行われる。一方、図１２（Ｂ）に示す場合では、人物Ａは閾値γよりも離れて位置している。この場合には、第１検出部１０２Ｂにより人物Ａが閾値γよりも離れて位置していることを検出し、人物Ａの音声データである第１音声データの音量を小さくする音量調節が行われる。

　以上で説明したように、本例においては、被写体と撮像装置１との距離が検出され、被写体と撮像装置１との距離に基づいて効率的に音量調節が行われる。

　＜変形例４＞
　次に、変形例４に関して説明する。変形例４では、撮像装置１の画角に被写体が存在するか否かで識別コードを付与する、又は、音声データの音量の調節を行う。

　本例では、第１検出部１０２Ｂは、動画像データにおいて画像処理により、各被写体が撮像装置１の画角内に存在するか否かを認識する。例えば第１検出部１０２Ｂは、画像認識技術を使用して、人物Ａ及び人物Ｂが撮像装置１の画角内に存在するか否かを認識する。そして、人物Ａ及び人物Ｂが画角内に存在するか否かに応じて、識別コードを付与又は音声データが調節される。例えば、音声データの音量の調節としては、人物Ａが撮像装置１の画角内に写っている場合には、第１音声データの音量を大きくし、人物Ａが撮像装置１の画角内に写っていない場合には、第１音声データの音量を小さくする。

　なお、撮像装置１の画角は、例えば特開２０１７－４６３５５号公報のように、撮像装置１が撮像する動画像データの画角と、実際に記憶部１８に記憶される動画像データの画角が異なる場合は、記憶部１８に記憶される動画像データの画角である。

　図１３は、本例の具体例を説明する図である。

　図１３に示す場合では、人物Ａは撮像装置１の画角１５１内に位置しており、人物Ｂは画角１５１の外に位置している。この場合には、第１検出部１０２Ｂにより人物Ａが画角１５１内に位置していることが検出され、人物Ａの音声データである第１音声データの音量を大きくする音量調節が行われる。一方、第１検出部１０２Ｂにより人物Ｂが画角１５１内に位置していないことが検出され、人物Ｂの音声データである第２音声データの音量を小さくする音量調節が行われる。

　以上で説明したように、本例においては、第１検出部１０２Ｂは撮像装置１の画角に被写体が存在するか否かを検出し、画角に被写体が存在するか否かで効率的に音量調節が行われる。

　＜変形例５＞
　本例では、撮像装置１、又は、第１マイクロフォン１２及び第２マイクロフォン１４は、ステレオ音声の音声データを記録する。ステレオ音声は人間の左耳用の音声と右耳用の音声を含んでいる。第１検出部１０２Ｂは、動画像データにおいて画像処理により、被写体が撮像装置１の中心に対して左側に存在しているか、右側に存在しているかを認識し、識別コードを付与する、又は、音声データの音量を調節する。例えば、音声データの音量の調節としては、人物が撮像装置１に対して左側に存在している場合、左耳用の音声データの音量を相対的に大きくする。なお、人物の位置を認識するための手法としては、例えば画像認識技術を使用する方法や変形例１のようなＧＰＳを用いた方法がある。

　図１４は、本例の具体例を説明する図である。

　図１４（Ａ）に示す場合では、人物Ａは撮像装置１の光軸Ｍに対してＬ側に位置している。この場合には、第１検出部１０２Ｂにより人物ＡがＬ側に位置していることを検出し、人物Ａの音声データである第１音声データにおける左耳用の音声データを相対的に大きくする。一方、図１４（Ｂ）に示す場合では、人物Ａは撮像装置１の光軸Ｍに対してＲ側に位置している。この場合には、第１検出部１０２Ｂにより人物ＡがＲ側に位置していることを検出し、人物Ａの音声データである第１音声データにおける右耳用の音声データを相対的に大きくする。

　以上で説明したように、本例においては、第１検出部１０２Ｂは被写体が撮像装置１に対してどちら側に存在しているかを検出し、左耳用の音声データと右耳用の音声データの音量に差異を付けることで、より臨場感のある音声付きの動画像データとなる。

　第１マイクロフォン１２及び第２マイクロフォン１４は、携帯電話やスマートフォンであっても良い。この場合、携帯電話やスマートフォンが、自身と撮像装置１とを無線接続するアプリケーションを有していると好ましい。

　以上で本発明の例に関して説明してきたが、本発明は上述した実施の形態に限定されず、本発明の精神を逸脱しない範囲で種々の変形が可能であることは言うまでもない。

１　　　　：撮像装置
１０　　　：撮像部
１０Ａ　　：撮像光学系
１０Ｂ　　：撮像素子
１０Ｃ　　：画像信号処理部
１２　　　：第１マイクロフォン
１２Ａ　　：第１音声信号処理部
１２Ｂ　　：第１無線通信部
１２Ｃ　　：第１位置検出システム
１４　　　：第２マイクロフォン
１４Ｂ　　：第２無線通信部
１４Ｃ　　：第２位置検出システム
１６　　　：表示部
１８　　　：記憶部
２０　　　：音声出力部
２２　　　：操作部
２４　　　：ＣＰＵ
２６　　　：ＲＯＭ
２８　　　：ＲＡＭ
３０　　　：第３無線通信部
１００　　：カメラシステム
１０１　　：撮像制御部
１０２　　：画像処理部
１０２Ａ　：関連付け部
１０２Ｂ　：第１検出部
１０２Ｃ　：付与部
１０２Ｄ　：録画部
１０４　　：第１音声録音部
１０６　　：第２音声録音部
１１２　　：第２検出部
Ａ　　　　：人物
Ｂ　　　　：人物

Claims

　撮像装置と、前記撮像装置と接続された複数のマイクロフォンとを備えたカメラシステムに用いられるデータ作成方法であって、
　前記マイクロフォンと、前記マイクロフォンの各々を所有する各被写体を関連付ける関連付け工程と、
　前記撮像装置を用いて動画像データを録画する録画工程と、
　前記録画工程の開始に同期して前記マイクロフォンの各々を用いて前記各被写体の音声データをそれぞれ録音する録音工程と、
　前記録画工程の間に、前記被写体の状態を自動で検出する検出工程と、
　前記検出工程の結果に基づいて、前記各被写体の前記音声データの音量調節に関する識別コードを、前記動画像データに付与する付与工程と、
　を含むデータ作成方法。
　前記検出工程では、前記動画像データにおいて画像処理により、前記被写体が声を発している状態を認識し、
　前記付与工程では、声を発している前記被写体の前記音声データの音量を他の前記音声データに対して相対的に大きくする前記識別コードを前記動画像データに付与する請求項１に記載のデータ作成方法。
　前記検出工程では、前記動画像データにおいて画像処理により、前記各被写体が向いている方向を認識し、
　前記付与工程では、前記撮像装置に対する前記各被写体の顔の方向に応じて、前記音声データの音量を調節する前記識別コードを前記動画像データに付与する請求項１又は２に記載のデータ作成方法。
　前記検出工程では、前記動画像データにおいて画像処理により、前記各被写体と前記撮像装置との距離を認識し、
　前記付与工程では、前記各被写体の前記距離に応じて、前記音声データの音量を調節する前記識別コードを前記動画像データに付与する請求項１から３のいずれか１項に記載のデータ作成方法。
　前記検出工程では、前記動画像データにおいて画像処理により、前記各被写体が前記撮像装置の画角内に存在するか否かを認識し、
　前記付与工程では、前記被写体が前記撮像装置の画角内に存在するか否かで、前記音声データの音量を調節する前記識別コードを前記動画像データに付与する請求項１から４のいずれか１項に記載のデータ作成方法。
　前記複数の被写体の各々は位置検出システムを有し、前記位置検出システムから前記複数の被写体の各々の位置を得る位置取得工程を含み、
　前記検出工程は、前記位置取得工程により得られた前記複数の被写体の各々の位置を検出し、
　前記付与工程では、前記検出工程の結果に基づいて、前記各被写体の前記音声データの音量調節に関する前記識別コードを、前記動画像データに付与する請求項１から５のいずれか１項に記載のデータ作成方法。
　前記付与工程の後に、ユーザによる前記音声データの音量調節を受け付ける受付工程を含む請求項１から６のいずれか１項に記載のデータ作成方法。
　撮像装置と、前記撮像装置と接続された複数のマイクロフォンとを備えたカメラシステムに用いられるデータ作成方法であって、
　前記マイクロフォンと、前記マイクロフォンの各々を所有する各被写体を関連付ける関連付け工程と、
　前記撮像装置を用いて動画像データを録画する録画工程と、
　前記録画工程の開始に同期して前記マイクロフォンの各々を用いて前記各被写体の音声データをそれぞれ録音する録音工程と、
　前記録画工程の間に、前記被写体の状態を自動で検出する検出工程と、
　前記音声データと前記動画像データとを合成する合成工程と、
　前記検出工程の結果に基づいて、前記合成工程の前又は後に、前記各被写体の前記音声データの音量を自動で調節する調節工程と、
　を含むデータ作成方法。
　前記検出工程では、前記動画像データにおいて画像処理により、前記被写体が声を発している状態を認識し、
　前記調節工程では、声を発している前記被写体の前記音声データの音量を他の前記音声データに対して相対的に大きくする請求項８に記載のデータ作成方法。
　前記検出工程では、前記動画像データにおいて画像処理により、前記各被写体が向いている方向を認識し、
　前記調節工程では、前記撮像装置に対する前記各被写体の顔の方向に応じて、前記音声データの音量を調節する請求項８又は９に記載のデータ作成方法。
　前記検出工程では、前記動画像データにおいて画像処理により、前記各被写体と前記撮像装置との距離を認識し、
　前記調節工程では、前記各被写体の前記距離に応じて、前記音声データの音量を調節する請求項８から１０のいずれか１項に記載のデータ作成方法。
　前記検出工程では、前記動画像データにおいて画像処理により、前記各被写体が前記撮像装置の画角内に存在するか否かを認識し、
　前記調節工程では、前記被写体が前記撮像装置の画角内に存在するか否かで、前記音声データの音量を調節する請求項８から１１のいずれか１項に記載のデータ作成方法。
　前記複数の被写体の各々は位置検出システムを有し、前記位置検出システムから前記複数の被写体の各々の位置を得る位置取得工程を含み、
　前記調節工程では、前記位置取得工程の結果及び前記検出工程の結果に基づいて、前記各被写体の前記音声データの音量の調節を行う請求項８から１２のいずれか１項に記載のデータ作成方法。
　撮像装置と、前記撮像装置と接続された複数のマイクロフォンとを備えたカメラシステムに用いられるデータ作成プログラムであって、
　前記マイクロフォンと、前記マイクロフォンの各々を所有する各被写体を関連付ける関連付け工程と、
　前記撮像装置を用いて動画像データを録画する録画工程と、
　前記録画工程の開始に同期して前記マイクロフォンの各々を用いて前記各被写体の音声データをそれぞれ録音する録音工程と、
　前記録画工程の間に、前記動画像データから前記被写体の状態を自動で検出する検出工程と、
　前記検出工程の結果に基づいて、前記各被写体の前記音声データの音量調節に関する識別コードを、前記動画像データに付与する付与工程と、
　を含むデータ作成プログラム。
　非一時的かつコンピュータ読取可能な記録媒体であって、前記記録媒体に格納された指令がコンピュータによって読み取られた場合に請求項１４に記載のプログラムをコンピュータに実行させる記録媒体。
　撮像装置と、前記撮像装置と接続された複数のマイクロフォンとを備えたカメラシステムに用いられるデータ作成プログラムであって、
　前記マイクロフォンと、前記マイクロフォンの各々を所有する各被写体を関連付ける関連付け工程と、
　前記撮像装置を用いて動画像データを録画する録画工程と、
　前記録画工程の開始に同期して前記マイクロフォンの各々を用いて前記各被写体の音声データをそれぞれ録音する録音工程と、
　前記録画工程の間に、前記動画像データから前記被写体の状態を自動で検出する検出工程と、
　前記音声データと前記動画像データとを合成する合成工程と、
　前記検出工程の結果に基づいて、前記合成工程の前又は後に、前記各被写体の前記音声データの音量を自動で調節する調節工程と、
　を含むデータ作成プログラム。
　非一時的かつコンピュータ読取可能な記録媒体であって、前記記録媒体に格納された指令がコンピュータによって読み取られた場合に請求項１６に記載のプログラムをコンピュータに実行させる記録媒体。