WO2023181889A1

WO2023181889A1 - 撮影装置、撮影方法、およびプログラム

Info

Publication number: WO2023181889A1
Application number: PCT/JP2023/008365
Authority: WO
Inventors: 阿沙子福塚; 篤増田; 竣平熊切
Original assignee: ソニーグループ株式会社
Priority date: 2022-03-24
Filing date: 2023-03-06
Publication date: 2023-09-28

Abstract

本技術は、特定の人物の音声を一部の音とともに動画の音声データとして容易に記録することができるようにする撮影装置、撮影方法、およびプログラムに関する。本技術の一側面の撮影装置は、動画の撮影時に収録された収録音声から、特定の人物の音声と、特定の人物の音声以外の一部の音をそれぞれ分離し、特定の人物の音声を、一部の音とともに動画の音声データとして記録する。本技術は、動画の撮影機能を有するカメラに適用することができる。

Description

撮影装置、撮影方法、およびプログラム

　本技術は、撮影装置、撮影方法、およびプログラムに関し、特に、特定の人物の音声を一部の音とともに動画の音声データとして容易に記録することができるようにした撮影装置、撮影方法、およびプログラムに関する。

　SNS(Social Networking Service)などを利用した個人による動画の配信が普及してきている。このような配信用の動画の撮影として、被写体となる人物がカメラに向かって話しかけているシーンの撮影などがよく行われる。

特開２０２０－１８７３４６号公報国際公開第２０２１／０３３２２２号

　一般的に、カメラなどの撮影装置に内蔵されているマイク（マイクロフォン）は無指向性のマイクである。そのため、被写体となっている人物の音声などの特定の音声のみを記録することが難しい。

　単一指向性の外付けのマイクをカメラに取り付けて使用する場合、指向性の範囲に含まれる被写体の人物の音声のみを記録することはできるが、環境音を同時に記録することは難しい。被写体の人物の音声と環境音のみを記録したい場合、被写体の人物の音声と環境音とをそれぞれ別撮りする必要がある。

　本技術はこのような状況に鑑みてなされたものであり、特定の人物の音声を一部の音とともに動画の音声データとして容易に記録することができるようにするものである。

　本技術の一側面の撮影装置は、動画の撮影時に収録された収録音声から、特定の人物の音声と、前記特定の人物の音声以外の一部の音をそれぞれ分離する音声処理部と、前記特定の人物の音声を、前記一部の音とともに前記動画の音声データとして記録する記録処理部とを備える。

　本技術の一側面においては、動画の撮影時に収録された収録音声から、特定の人物の音声と、前記特定の人物の音声以外の一部の音がそれぞれ分離され、前記特定の人物の音声が、前記一部の音とともに前記動画の音声データとして記録される。

本技術の一実施形態に係る撮影装置を用いた撮影の例を示す図である。撮影装置の音声記録の例を示す図である。音声記録モードの例を示す図である。音声記録モードの設定画面の表示例を示す図である。 AF優先設定時の撮影画面の表示例を示す図である。 AF優先設定時の撮影画面の他の表示例を示す図である。登録優先設定時の撮影画面の表示例を示す図である。撮影装置のハードウェア構成例を示すブロック図である。制御部の機能構成例を示すブロック図である。音声の分離の例を示す図である。撮影装置の処理について説明するフローチャートである。図１１のステップＳ３において行われるAF優先音声記録処理について説明するフローチャートである。図１１のステップＳ４において行われる登録優先音声記録処理について説明するフローチャートである。撮影後の編集画面の表示例を示す図である。音量設定画面の表示例を示す図である。情報処理部の機能構成例を示すブロック図である。撮影装置の処理について説明するフローチャートである。

　以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
　１．第１の実施の形態（リアルタイム記録の例）
　２．第２の実施の形態（撮影後編集の例）
　３．変形例

＜＜第１の実施の形態（リアルタイム記録の例）＞＞
＜本技術の概要＞
　図１は、本技術の一実施形態に係る撮影装置１を用いた撮影の例を示す図である。

　撮影装置１は、デジタルカメラ、スマートフォンなどの、動画の撮影機能を有する装置である。撮影装置１のマイクは、例えば無指向性のマイクである。図１の例においては、撮影装置１のユーザである人物Ｈ１が撮影者となって、人物Ｈ２が映る動画の撮影が行われている。以下、適宜、人物Ｈ１を撮影者Ｈ１といい、人物Ｈ２を被写体Ｈ２という。

　被写体Ｈ２の撮影中、例えば撮影内容の指示のために撮影者Ｈ１は被写体Ｈ２に対して話しかける。また、被写体Ｈ２は、台詞などの発話を行う。撮影装置１により取り込まれた収録音声には、撮影者Ｈ１の音声とともに被写体Ｈ２の音声が含まれる。

　図１の例においては、被写体以外の人物である人物Ｈ３が被写体Ｈ２の近くで他の人（図示せず）と会話をしている。また、スピーカのイラストを用いて図１の右上に模式的に示すように、撮影現場では、波の音、風の音、BGMなどの、人物の音声以外の音である環境音が聞こえる。収録音声には、撮影者Ｈ１の音声と被写体Ｈ２の音声だけでなく、人物Ｈ３の音声と環境音が含まれる。

　例えば、撮影者Ｈ１が撮影したいシーンは、環境音が聞こえる中で、被写体Ｈ２が台詞を発話しているシーンである。そのようなシーンの音声として撮影者Ｈ１が記録したい音声は、被写体Ｈ２の音声と環境音のみとなる。

　撮影装置１においては、動画の撮影時に取り込まれた収録音声から、撮影者Ｈ１が指定した特定の人物である被写体Ｈ２の音声と、被写体Ｈ２の音声以外の一部の音である環境音がそれぞれ分離され、動画の音声として記録される。例えば、音声の分離と記録は、動画の撮影中にリアルタイムで行われる。撮影者Ｈ１が指定した被写体Ｈ２以外の人物の音声である、撮影者Ｈ１自身の音声や人物Ｈ３の音声は、例えば図２に色を付して示すようにミュートされる（記録されない）。

　例えば、被写体Ｈ２の音声は、環境音より大きい音量で記録される。記録対象となる音の音量が撮影者Ｈ１によって適宜設定される。

　このように、撮影者Ｈ１は、撮影装置１を用いて撮影を行うことにより、自分が指定した特定の人物の音声と環境音のみを、動画の音声として記録することができる。

＜音声記録モード＞
　図３は、音声記録モードの例を示す図である。

　図３に示すように、撮影装置１には、音声の記録に関するモードである音声記録モードとして、AF優先と登録優先の２つのモードが用意される。

　AF優先は、合焦位置にいる人物の音声を記録するモードである。AF優先の設定時、合焦位置にいる人物の音声が環境音とともに記録される。撮影装置１は、AF機能を搭載した装置である。

　登録優先は、撮影装置１に事前に登録された人物の音声を記録するモードである。登録優先の設定時、登録済みの人物の音声が環境音とともに記録される。

　ユーザ（撮影者Ｈ１）は、このような２つの音声記録モードの中からいずれかのモードを選択し、動画の撮影を開始することになる。例えば、AF優先がデフォルトの音声記録モードとして設定される。

　図４は、音声記録モードの設定画面の表示例を示す図である。

　撮影装置１の筐体に設けられたボタンを操作するなどして、音声記録モードの設定を行うことがユーザにより選択された場合、撮影装置１のディスプレイ１１には図４に示すような設定画面が表示される。

　動画の撮影に関するタブが画面の上方に並ぶタブの中から選択された場合、図４に示すように、「音声記録優先設定」、「個人音声登録」の項目が表示される。

　「音声記録優先設定」は、音声記録モードの設定に関する項目である。図４の例においては、音声記録モードが「AF優先」に設定されている。撮影者は、「音声記録優先設定」の項目を操作することにより、音声記録モードとして、「AF優先」と「登録優先」のうちのどちらか一方のモードを選択することができる。ディスプレイ１１は、例えばタッチパネルを搭載したディスプレイである。

　「個人音声登録」は、音声を登録するときに選択される項目である。「個人音声登録」の項目が選択された場合、音声の登録画面が表示され、特定の人物の音声を登録することができる状態になる。この状態のときにマイクにより取り込まれた、被写体Ｈ２などの特定の人物の音声が撮影装置１に登録される。

　音声記録モードとして「登録優先」が設定されている場合、「個人音声登録」を用いて登録された音声の中から選択された音声が記録される。例えば、複数人の音声を撮影装置１に登録することができるようになっている。

　ここで、このような設定画面を用いて設定されたそれぞれの音声記録モードを用いた撮影について説明する。

＜音声記録モード：AF優先＞
・AF優先（Default）
　図５は、AF優先設定時の撮影画面の表示例を示す図である。

　動画の撮影時、撮影画面には、取り込み中の動画であるスルー画像が表示される。図５の例においては、砂浜にいる被写体Ｈ２が映る画像が表示されている。撮影に関する情報などの各種の情報が、被写体Ｈ２が映る画像に重ねて表示される。

　図５に示すように、被写体Ｈ２の顔に合わせてAF枠Ｆ１が表示される。撮影装置１においては、取り込み画像を対象として顔認識が行われ、認識されたいずれかの顔に焦点を合わせるようにしてAF制御が行われる。

　後述するように、撮影装置１においては、合焦位置に基づいて特定される被写体Ｈ２の位置情報と、被写体Ｈ２の口の動きの解析結果とに基づいて、収録音声から被写体Ｈ２の音声が分離される。分離された被写体Ｈ２の音声が、特定の人物の音声として環境音とともに記録される。

　撮影画面の左下には、音声チャンネルであるチャンネル１とチャンネル２のそれぞれの音量を示すレベルメーター３１，３２が表示される。例えば、被写体Ｈ２の音声がチャンネル１の音声として記録され、環境音がチャンネル２の音声として記録される。

・AF優先（Manual）
　AF優先の設定時、AF対象になっている人物とは異なる人物の音声を記録することを選択できるようになっている。音声の記録対象となる人物の選択は、例えば、撮影画面に表示されている人物の顔の中から、ユーザが特定の人物の顔を選択するようにして行われる。

　図６は、AF優先設定時の撮影画面の他の表示例を示す図である。

　図６の左側においては、被写体Ｈ２とともに、被写体Ｈ２以外の人物である人物Ｈ３が映る画像が表示されている。また、人物Ｈ３の顔に合焦するようにAFの制御が行われ、人物Ｈ３の顔に合わせてAF枠Ｆ１が表示されている。

　撮影画面の上方には、アイコン４１とアイコン４２が並べて表示されている。アイコン４１は、タッチAFの機能をONにするときに操作されるアイコンである。タッチAFは、AF対象とする人物の顔をユーザが選択できるようにする機能である。

　アイコン４２は、タッチ収音の機能をONにするときに操作されるアイコンである。タッチ収音は、音声の記録対象とする人物の顔をユーザが選択できるようにする機能である。

　図６の左側に示すようにアイコン４２が操作され、続けて、被写体Ｈ２の顔が選択された場合、音声の記録対象が被写体Ｈ２に設定され、図６の右側に示すように、被写体Ｈ２の顔に合わせて記録対象枠Ｆ２が表示される。記録対象枠Ｆ２は、音声の記録対象の人物がだれであるのかを表す。記録対象枠Ｆ２は、AF枠Ｆ１とは異なる色や形の枠として表示される。このとき、AF対象は人物Ｈ３の顔のままである。

　撮影装置１においては、撮影者Ｈ１により選択された被写体Ｈ２の音声が、特定の人物の音声として分離され、環境音とともに記録される。このように、タッチ収音の機能は、AF対象となっている人物とは異なる人物を音声の記録対象として手動（マニュアル）でユーザが選択するときに用いられる。AF優先のタッチ収音の機能を利用することにより、ユーザは、AF対象となっている人物とは異なる人物の音声を記録することが可能となる。

＜音声記録モード：登録優先＞
　図７は、登録優先設定時の撮影画面の表示例を示す図である。上述した説明と重複する説明については適宜省略する。

　記録対象の人物の音声が「個人音声登録」の機能を用いて事前に登録されている状態で、図７の左側に示すように、チャンネル１の音量を示すレベルメーター３１のアイコン３１Ａが選択された場合、図７の中央に示すように、チャンネル１の設定画面が表示される。レベルメーター３２のアイコン３２Ａが選択された場合も同様に、チャンネル２の設定画面が表示される。

　チャンネル１の設定画面は、チャンネル１の音声として記録する音声の選択に用いられる画面である。音声の選択は、登録済みの音声の中から１つの音声を選択するようにして行われる。

　図７の中央の例においては、「登録音声１」と「登録音声２」が登録済みの音声として表示されている。「登録音声１」が選択された場合、「登録音声１」として登録済みの音声と同じ音声がチャンネル１に記録され、「登録音声２」が選択された場合、「登録音声２」として登録済みの音声と同じ音声がチャンネル１に記録される。例えば、「登録音声１」は被写体Ｈ２の音声であり、「登録音声２」は人物Ｈ３の音声である。

　図７の例においては、「登録音声１」と「登録音声２」の他に、「風景」を選択することができるようになっている。

　図７に示すように「登録音声１」がチャンネル１の設定画面を用いて選択された場合、収録音声から分離された被写体Ｈ２の音声の記録が開始される。

　このとき、図７の右側に示すように、レベルメーター３１の隣にはアイコン３１Ｂが表示される。アイコン３１Ｂは、「登録音声１」の人物（被写体Ｈ２）の音声がチャンネル１の音声として記録されることを表す。

　図７の右側の例においては、環境音がチャンネル２の音声として記録されることを表すアイコン３２Ｂがレベルメーター３２の隣に表示されている。アイコン３２Ｂは、チャンネル２の設定画面を用いて「風景」が選択された場合に表示される。

　このように、音声記録モードとして登録優先を設定することによって、ユーザ（撮影者Ｈ１）は、撮影中の動画に映っていない例えば自分の音声を、特定の人物の音声として環境音とともに記録することができる。

　以上のようにして、特定の人物の音声と環境音のみを音声記録モードに応じて記録する撮影装置１の一連の動作についてはフローチャートを参照して後述する。

＜撮影装置１の構成＞
　図８は、撮影装置１のハードウェア構成例を示すブロック図である。

　撮影装置１は、上述したディスプレイ１１の他に、撮影部７２、マイク７３、センサ７４、操作部７５、スピーカ７６、記憶部７７、および通信部７８が制御部７１に対して接続されることによって構成される。

　ディスプレイ１１は、LCDなどにより構成され、制御部７１による制御に従って、上述した画面を表示する。

　制御部７１は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)などにより構成される。制御部７１は、所定のプログラムを実行し、ユーザの操作に応じて撮影装置１の全体の動作を制御する。

　撮影部７２は、レンズ、撮像素子などにより構成され、制御部７１による制御に従って撮影を行う。撮影部７２は、撮影によって得られた動画のデータを制御部７１に出力する。

　マイク７３は、収音した音声などの音声データを制御部７１に出力する。

　センサ７４は、ToFセンサなどにより構成される。センサ７４は、撮影範囲に含まれる被写体の各位置までの距離を計測し、センサデータを制御部７１に出力する。

　操作部７５は、撮影装置１の筐体表面に設けられた操作ボタンやタッチパネルなどにより構成される。操作部７５は、ユーザによる操作の内容を表す情報を制御部７１に出力する。

　スピーカ７６は、制御部７１から供給された音声信号に基づいて音声を出力する。

　記憶部７７は、フラッシュメモリや、筐体に設けられたカードスロットに挿入されたメモリカードにより構成される。記憶部７７は、制御部７１から供給された動画のデータや音声データなどの各種のデータを記憶する。

　通信部７８は、外部の装置との間で無線や有線の通信を行う。通信部７８は、制御部７１から供給された動画のデータなどの各種のデータを、コンピュータや外部の装置などに送信する。

　図９は、制御部７１の機能構成例を示すブロック図である。図９に示す各機能部のうちの少なくとも一部は、制御部７１を構成するCPUにより所定のプログラムが実行されることによって実現される。

　制御部７１は、撮影制御部１１１、解析部１１２、表示制御部１１３、音声記録モード設定部１１４、音声処理部１１５、および記録処理部１１６により構成される。ユーザの操作の内容を表す情報は、図９の各部に入力される。マイク７３により取り込まれた収録音声は音声処理部１１５に入力される。

　撮影制御部１１１は、図８の撮影部７２による撮影を制御する。例えば、撮影制御部１１１は、撮影部７２により取り込まれた動画を解析し、動画に映る顔を認識する。撮影制御部１１１は顔認識の機能を有している。また、撮影制御部１１１は、所定の人物の顔に合焦するようにフォーカスを制御する。

　撮影制御部１１１により取り込まれた動画は、解析部１１２、表示制御部１１３、および記録処理部１１６に供給される。また、顔の認識結果を示す情報と、合焦位置を示す情報であるAF情報は、解析部１１２、表示制御部１１３、および音声処理部１１５に供給される。

　解析部１１２は、撮影制御部１１１から供給された動画に映る人物の口の動きを解析する。例えば、動画に映るそれぞれの人物の発話のタイミングなどが、適宜、顔の認識結果などを用いて解析される。解析部１１２による解析結果の情報は音声処理部１１５に供給される。

　表示制御部１１３は、ディスプレイ１１の表示を制御する。例えば、表示制御部１１３は、上述した設定画面や撮影画面などの各種の画面をディスプレイ１１に表示させる。撮影画面におけるAF対象の顔を表す枠や認識された顔を表す枠などの情報の表示に、撮影制御部１１１から供給された情報が用いられる。

　音声記録モード設定部１１４は、ユーザの操作を受け付け、音声記録モードを設定する。音声記録モード設定部１１４により設定された音声記録モードの情報は、音声処理部１１５に供給される。

　また、音声記録モード設定部１１４は、登録済みの音声を管理する。登録優先の設定時、音声記録モード設定部１１４は、ユーザにより選択された登録済みの音声の情報を音声処理部１１５に出力する。

　音声処理部１１５は、AF優先の設定時、AF対象の人物の音声を収録音声から分離する。AF対象の人物がだれであるのかは、撮影制御部１１１から供給されたAF情報に基づいて特定される。また、AF対象の人物が発話を行っているタイミングなどが、解析部１１２から供給された解析結果に基づいて特定される。このように、音声処理部１１５においては、AF情報により表される距離や解析部１１２による解析結果により表される発話のタイミングなどに基づいて音声の分離が行われる。

　また、音声処理部１１５は、登録優先の設定時、登録済みの音声の中からユーザにより選択された音声を収録音声から分離する。記録対象としてユーザにより選択された音声は、音声記録モード設定部１１４から供給された情報に基づいて特定される。

　収録音声を入力とし、人物毎の音声を出力とする推論モデルが音声処理部１１５に用意され、その推論モデルを用いて人物毎の音声が分離されるようにしてもよい。この場合、音声処理部１１５には、機械学習によって生成されたニューラルネットワークなどにより構成される推論モデルがあらかじめ用意される。

　音声処理部１１５は、収録音声を推論モデルに入力するなどして、特定の人物の音声と環境音を収録音声から分離し、記録処理部１１６に出力する。

　記録処理部１１６は、図８の記憶部７７を制御し、撮影された動画を記録する。また、記録処理部１１６は、動画の音声として、特定の人物の音声と環境音のみを記録する。特定の人物の音声は、例えば、環境音より大きい音量で記録処理部１１６によって記録される。

　図１０は、口の動きの解析結果を用いた音声の分離の例を示す図である。

　図１０の上段に示すように、被写体Ｈ２と人物Ｈ３を被写体として撮影が行われている場合において、被写体Ｈ２がAF被写体になっているとき、音声処理部１１５は、被写体Ｈ２の位置をAF情報に基づいて特定する。AF被写体は、AF対象の被写体である。

　また、音声処理部１１５は、AF被写体である被写体Ｈ２の口の動きを例えば推論モデルを用いて解析し、発話のタイミングを特定する。この場合、例えば、口を含む画像を入力とし、発話のタイミングを出力とする推論モデルが機械学習によって生成され、音声処理部１１５に予め用意されている。

　音声処理部１１５は、図１０の下段に示すように、推論モデルなどを用いて分離した被写体Ｈ２の音声と人物Ｈ３の音声の中から、被写体Ｈ２の音声を発話タイミングに基づいて特定し、記録対象の音声として抽出する。音声処理部１１５は、抽出した被写体Ｈ２の音声とともに、推論モデルなどを用いて分離した環境音を記録処理部１１６に出力し、記録させる。図１０の下段に示す波形Ｗ１と波形Ｗ２は、それぞれ、被写体Ｈ２の音声と人物Ｈ３の音声を表している。また、波形Ｗ３は、音声データとして記録される、被写体Ｈ２の音声と環境音を含む音声の波形を表している。

＜撮影装置１の動作＞
　図１１のフローチャートを参照して、以上のような構成を有する撮影装置１の処理について説明する。図１１の処理は、例えば、ユーザによって音声記録モードの設定を行うことが選択されたときに開始される。

　ステップＳ１において、音声記録モード設定部１１４は、ユーザの操作を受け付け、音声記録モードを設定する。

　ステップＳ２において、音声処理部１１５は、音声記録モードがAF優先であるか否かを判定する。

　音声記録モードがAF優先であるとステップＳ２において判定された場合、ステップＳ３においてAF優先音声記録処理が行われる。AF優先音声記録処理は、音声記録モードがAF優先である場合の音声の記録処理である。AF優先音声記録処理については、図１２のフローチャートを参照して後述する。

　一方、音声記録モードがAF優先ではないとステップＳ２において判定された場合、ステップＳ４において登録優先音声記録処理が行われる。登録優先音声記録処理は、音声記録モードが登録優先である場合の音声の記録処理である。登録優先音声記録処理については、図１３のフローチャートを参照して後述する。

・AF優先音声記録処理
　次に、図１２のフローチャートを参照して、図１１のステップＳ３において行われるAF優先音声記録処理について説明する。

　ステップＳ１１において、撮影制御部１１１は、撮影した動画に映る顔を認識する。

　ステップＳ１２において、撮影制御部１１１は、所定の人物の顔に合焦するようにAF制御を行う。

　ステップＳ１３において、解析部１１２は、動画に映る人物の口の動きを解析する。

　ステップＳ１４において、音声処理部１１５は、Default設定であるか否かを判定する。例えば、タッチ収音の機能がオフである場合にDefault設定であると判定される。

　Default設定であるとステップＳ１４において判定された場合、ステップＳ１５において、音声処理部１１５は、AF対象の人物の音声を、上述したように口の動きなどに基づいて収録音声から分離する。また、音声処理部１１５は、環境音を収録音声から分離する。

　ステップＳ１６において、記録処理部１１６は、AF対象の人物の音声と環境音を動画の音声データとして記録する。

　一方、タッチ収音の機能がオンとして設定されていることから、Default設定ではないとステップＳ１４において判定された場合、ステップＳ１７において、音声記録モード設定部１１４は、記録対象とする音声の選択を受け付ける。記録対象とする音声の選択は、上述したように人物の顔を選択することによって行われる。

　ステップＳ１８において、音声処理部１１５は、記録対象の人物の音声を分離する。ここでも、記録対象の音声の分離が口の動きの解析結果などに基づいて行われるようにしてもよい。また、音声処理部１１５は、環境音を収録音声から分離する。

　ステップＳ１９において、記録処理部１１６は、記録対象の人物の音声と環境音を動画の音声データとして記録する。

　ステップＳ１６またはステップＳ１９において音声が記録された後、図１１のステップＳ３に戻り、それ以降の処理が行われる。

・登録優先音声記録処理
　次に、図１３のフローチャートを参照して、図１１のステップＳ４において行われる登録優先音声記録処理について説明する。

　ステップＳ３１において、音声記録モード設定部１１４は、図７を参照して説明したような設定画面を用いて行われる音声の選択を受け付ける。

　ステップＳ３２において、音声処理部１１５は、人物毎の音声を、推論モデルを用いて分離する。ここで用いられる推論モデルは、例えば、複数人の音声と環境音が混在する収録音声を入力とし、それぞれの人物の音声と環境音とを出力とするモデルである。

　ステップＳ３３において、記録処理部１１６は、音声の記録対象として選択された人物の音声と環境音を動画の音声データとして記録する。その後、図１１のステップＳ４に戻り、それ以降の処理が行われる。

　以上のような一連の処理が、例えば、撮影装置１を用いた動画撮影が終了するまで続けられる。以上の処理により、撮影装置１は、ユーザが指定した特定の人物の音声と環境音のみを収録音声から分離し、動画の音声データとして記録することができる。

＜＜第２の実施の形態（撮影後編集の例）＞＞
　以上のような音声の分離が、動画の撮影中ではなく、撮影後の編集時に行われるようにしてもよい。動画の撮影時には、動画の音声データとして、複数人の音声と環境音が混在する収録音声のデータが記録される。撮影後の編集は、例えば撮影装置１上で行われる。

　図１４は、撮影後の編集画面の表示例を示す図である。

　図１４に示す編集画面は、記録済みの収録音声に含まれるそれぞれの音声の音量の調整に用いられる画面である。

　図１４の例においては、人物Ｈ１１と人物Ｈ１２の２人の人物が映る動画が表示されている。編集画面の下には動画全体のうちの再生位置を示すスライドバーが表示されている。

　撮影装置１においては、登録済みの人物毎の音声と環境音が収録音声から分離される。例えば、特定の人物の音声が上述したようにして編集前に登録されている。編集画面の右側に示すアイコン１５１乃至１５３は、それぞれ、収録音声から分離されたそれぞれの音声の種類を表す。

　例えば、アイコン１５１は登録済みの音声を表し、アイコン１５２は登録されていない音声を表す。アイコン１５３は環境音を表す。

　ユーザは、アイコン１５１乃至１５３を選択することにより、それぞれの音声の音量を設定することができる。

　図１５は、音量設定画面の表示例を示す図である。

　図１５のＡに示す情報は、登録済みの音声（被写体の音声）の音量の設定に用いられる情報である。アイコン１５１が選択された場合、図１５のＡに示す情報が編集画面上に表示される。

　図１５のＢに示す情報は、登録済みではない音声（被写体以外の人物の音声）の音量の設定に用いられる情報であり、図１５のＣに示す情報は、環境音の音量の設定に用いられる情報である。アイコン１５２が選択された場合、図１５のＢに示す情報が編集画面上に表示され、アイコン１５３が選択された場合、図１５のＣに示す情報が編集画面上に表示される。

　図１５の例においては、登録済みの音声の音量が２６として設定され、登録されていない音声の音量が０（ミュート）として設定されている。また、環境音の音量が１０として設定されている。図１５に示すそれぞれの音量は、例えば撮影装置１により自動的に設定された音量である。ユーザは、音量を表すレベルメーターを操作することにより、それぞれの音量を手動で設定することができる。

　動画の音声として記録する音声を撮影後に編集できることにより、ユーザは、記録される音声を気にすることなく、撮影に集中することができる。また、ユーザは、それぞれの音声の音量を、撮影後に自由に設定することができる。

＜撮影装置１の構成＞
　図１６は、情報処理部２０１の機能構成例を示すブロック図である。図８の制御部７１においては、撮影後の編集機能を実現する情報処理部２０１が実現される。図１６に示す各機能部のうちの少なくとも一部も、制御部７１を構成するCPUにより所定のプログラムが実行されることによって実現される。

　情報処理部２０１は、記録データ取得部２１１、表示制御部２１２、音声処理部２１３、および記録処理部２１４により構成される。

　記録データ取得部２１１は、記録済みの動画と収録音声のデータを例えば記憶部７７から読み出すことによって取得する。記録データ取得部２１１により取得された動画は、表示制御部２１２と記録処理部２１４に供給される。また、記録データ取得部２１１により取得された収録音声は、音声処理部２１３に供給される。

　表示制御部２１２は、図１４を参照して説明したような編集画面をディスプレイ１１に表示させる。

　音声処理部２１３は、図９の音声処理部１１５と同様の機能を有する。すなわち、音声処理部２１３は、記録データ取得部２１１から供給された収録音声に含まれるそれぞれの人物の音声と環境音を分離する。音声処理部２１３による音声の分離も、例えば機械学習によって生成された推論モデルを用いて行われる。音声処理部２１３によって分離された音声は、記録処理部２１４に供給される。

　記録処理部２１４は、ユーザにより設定された音量などに従って、記録対象として選択された人物の音声と環境音のみを、動画の音声データとして記憶部７７（図８）に記録させる。

＜撮影装置１の動作＞
　図１７のフローチャートを参照して、図１６の情報処理部２０１を有する撮影装置１の処理について説明する。図１７の処理は、例えば、動画の音声の編集を行うことが撮影後に選択されたときに開始される。

　ステップＳ５１において、音声処理部２１３は、収録音声に含まれるそれぞれの人物の音声と環境音を、推論モデルを用いて分離する。

　ステップＳ５２において、表示制御部２１２は、編集画面をディスプレイ１１に表示させる。

　ステップＳ５３において、記録処理部２１４は、編集画面に対するユーザの操作に応じて、それぞれの音声の音量の設定を受け付ける。

　ステップＳ５４において、記録処理部２１４は、記録対象として選択された人物の音声と環境音のみを音量設定に応じて記録する。

　以上の処理が、例えば、撮影後の動画の編集が終了するまで続けられる。撮影装置１は、それぞれの音量をユーザによる設定に応じて調整して記録することができる。

＜＜変形例＞＞
　撮影後の編集が、撮影装置１上ではなく、PC、スマートフォンなどの他の装置上で行われるようにしてもよい。この場合、図１６の情報処理部２０１は、PC、スマートフォンなどの他の装置において実現される。

　音声の記録対象となる特定の人物が１人であるものとしたが、複数人の音声が環境音とともに記録されるようにしてもよい。

　音声の分離が、主に、機械学習によって生成された推論モデルを用いて行われるものとしたが、音声を解析することによって行われるようにしてもよい。例えば、音声の特徴が解析され、同じ特徴を有する音声毎に分離される。

　上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、汎用のパーソナルコンピュータなどにインストールされる。

　インストールされるプログラムは、光ディスク（CD-ROM(Compact Disc-Read Only Memory)，DVD(Digital Versatile Disc)等）や半導体メモリなどよりなるリムーバブルメディアに記録して提供される。また、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供されるようにしてもよい。プログラムは、ROMや記憶部に、あらかじめインストールしておくことができる。

　本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。

　本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

＜構成の組み合わせ例＞
　本技術は、以下のような構成をとることもできる。

（１）
　動画の撮影時に収録された収録音声から、特定の人物の音声と、前記特定の人物の音声以外の一部の音をそれぞれ分離する音声処理部と、
　前記特定の人物の音声を、前記一部の音とともに前記動画の音声データとして記録する記録処理部と
　を備える撮影装置。
（２）
　前記音声処理部は、前記収録音声に含まれる環境音を前記一部の音として分離し、
　前記記録処理部は、前記特定の人物の音声を前記環境音とともに記録する
　前記（１）に記載の撮影装置。
（３）
　前記動画に被写体として映る顔の認識結果に基づいて、任意の人物の顔に対する合焦を制御する撮影制御部をさらに備える
　前記（１）または（２）に記載の撮影装置。
（４）
　前記音声処理部は、合焦対象の人物の音声を、前記特定の人物の音声として分離する
　前記（３）に記載の撮影装置。
（５）
　前記音声処理部は、顔が認識されている人物の中からユーザにより選択された、前記合焦対象の人物とは異なる人物の音声を、前記特定の人物の音声として分離する
　前記（４）に記載の撮影装置。
（６）
　前記音声処理部は、登録済みの人物の音声を前記収録音声から分離する
　前記（１）乃至（３）のいずれかに記載の撮影装置。
（７）
　前記記録処理部は、前記特定の人物の音声を、前記一部の音より大きい音量で記録する
　前記（１）乃至（６）のいずれかに記載の撮影装置。
（８）
　前記音声処理部は、前記特定の人物の音声と前記一部の音を、記録対象となる前記動画の撮影中に分離する
　前記（１）乃至（７）のいずれかに記載の撮影装置。
（９）
　前記音声処理部は、機械学習によって生成された推論モデルを用いて、前記特定の人物の音声と前記一部の音を前記収録音声から分離する
　前記（１）乃至（８）のいずれかに記載の撮影装置。
（１０）
　前記音声処理部は、記録済みの前記収録音声に基づいて、前記特定の人物の音声と前記一部の音を前記動画の撮影後に分離する
　前記（１）乃至（３）のいずれかに記載の撮影装置。
（１１）
　前記記録処理部は、前記特定の人物の音声と前記一部の音のそれぞれの音量をユーザによる設定に応じて調整して記録する
　前記（１０）に記載の撮影装置。
（１２）
　記録済みの前記収録音声から分離された音の種類を表す情報を表示させる表示制御部をさらに備える
　前記（１０）または（１１）に記載の撮影装置。
（１３）
　前記記録処理部は、前記特定の人物の音声と前記一部の音をそれぞれ異なるチャンネルの音声データとして記録する
　前記（１）乃至（１２）のいずれかに記載の撮影装置。
（１４）
　撮影装置が、
　動画の撮影時に収録された収録音声から、特定の人物の音声と、前記特定の人物の音声以外の一部の音をそれぞれ分離し、
　前記特定の人物の音声を、前記一部の音とともに前記動画の音声データとして記録する
　撮影方法。
（１５）
　コンピュータに、
　動画の撮影時に収録された収録音声から、特定の人物の音声と、前記特定の人物の音声以外の一部の音をそれぞれ分離し、
　前記特定の人物の音声を、前記一部の音とともに前記動画の音声データとして記録する
　処理を実行させるためのプログラム。

　１　撮影装置，　１１　ディスプレイ，　１１１　撮影制御部，　１１２　解析部，　１１３　表示制御部，　１１４　音声記録モード設定部，　１１５　音声処理部，　１１６　記録処理部，　２１１　記録データ取得部，　２１２　表示制御部，　２１３　音声処理部，　２１４　記録処理部

Claims

　動画の撮影時に収録された収録音声から、特定の人物の音声と、前記特定の人物の音声以外の一部の音をそれぞれ分離する音声処理部と、
　前記特定の人物の音声を、前記一部の音とともに前記動画の音声データとして記録する記録処理部と
　を備える撮影装置。
　前記音声処理部は、前記収録音声に含まれる環境音を前記一部の音として分離し、
　前記記録処理部は、前記特定の人物の音声を前記環境音とともに記録する
　請求項１に記載の撮影装置。
　前記動画に被写体として映る顔の認識結果に基づいて、任意の人物の顔に対する合焦を制御する撮影制御部をさらに備える
　請求項１に記載の撮影装置。
　前記音声処理部は、合焦対象の人物の音声を、前記特定の人物の音声として分離する
　請求項３に記載の撮影装置。
　前記音声処理部は、顔が認識されている人物の中からユーザにより選択された、前記合焦対象の人物とは異なる人物の音声を、前記特定の人物の音声として分離する
　請求項４に記載の撮影装置。
　前記音声処理部は、登録済みの人物の音声を前記収録音声から分離する
　請求項１に記載の撮影装置。
　前記記録処理部は、前記特定の人物の音声を、前記一部の音より大きい音量で記録する
　請求項１に記載の撮影装置。
　前記音声処理部は、前記特定の人物の音声と前記一部の音を、記録対象となる前記動画の撮影中に分離する
　請求項１に記載の撮影装置。
　前記音声処理部は、機械学習によって生成された推論モデルを用いて、前記特定の人物の音声と前記一部の音を前記収録音声から分離する
　請求項１に記載の撮影装置。
　前記音声処理部は、記録済みの前記収録音声に基づいて、前記特定の人物の音声と前記一部の音を前記動画の撮影後に分離する
　請求項１に記載の撮影装置。
　前記記録処理部は、前記特定の人物の音声と前記一部の音のそれぞれの音量をユーザによる設定に応じて調整して記録する
　請求項１０に記載の撮影装置。
　記録済みの前記収録音声から分離された音の種類を表す情報を表示させる表示制御部をさらに備える
　請求項１０に記載の撮影装置。
　前記記録処理部は、前記特定の人物の音声と前記一部の音をそれぞれ異なるチャンネルの音声データとして記録する
　請求項１に記載の撮影装置。
　撮影装置が、
　動画の撮影時に収録された収録音声から、特定の人物の音声と、前記特定の人物の音声以外の一部の音をそれぞれ分離し、
　前記特定の人物の音声を、前記一部の音とともに前記動画の音声データとして記録する
　撮影方法。
　コンピュータに、
　動画の撮影時に収録された収録音声から、特定の人物の音声と、前記特定の人物の音声以外の一部の音をそれぞれ分離し、
　前記特定の人物の音声を、前記一部の音とともに前記動画の音声データとして記録する
　処理を実行させるためのプログラム。