WO2022030259A1

WO2022030259A1 - 信号処理装置および方法、並びにプログラム

Info

Publication number: WO2022030259A1
Application number: PCT/JP2021/027256
Authority: WO
Inventors: 優樹山本
Original assignee: ソニーグループ株式会社
Priority date: 2020-08-04
Filing date: 2021-07-21
Publication date: 2022-02-10
Also published as: US20230282226A1

Abstract

本技術は、コンテンツの制作コストを削減することができるようにする信号処理装置および方法、並びにプログラムに関する。信号処理装置は、目的音源の音、および目的音源とは異なる目的外音源の音が含まれる混合オーディオ信号に基づいて、混合オーディオ信号から目的音源の音の時間区間を検出する音声検出部と、目的音源のオーディオ信号における目的音源の音の時間区間を示すラベル情報と、目的音源の音の時間区間の検出結果とに基づいて、混合オーディオ信号において目的音源の音が聞こえやすいかの判定処理を行う音声判定部とを備える。本技術は信号処理装置に適用することができる。

Description

信号処理装置および方法、並びにプログラム

　本技術は、信号処理装置および方法、並びにプログラムに関し、特に、コンテンツの制作コストを削減することができるようにした信号処理装置および方法、並びにプログラムに関する。

　映画やドラマ等の映像コンテンツに含まれる音源の種別は、大きく、音声、背景音、効果音、音楽に大別される。

　例えば音源の種別に関する技術として、話者識別や環境音識別等の識別処理が知られており、そのような識別処理として線形識別、決定木、サポートベクタマシン、ニューラルネットワークなどを利用した方法が提案されている（例えば、非特許文献１および非特許文献２参照）。

Kevin P. Murphy, Machine Learning: A Probabilistic Perspective, The MIT Press, 2012 Ian Goodfellow, Yoshua Bengio, and Aaron Courville, Deep Learning, The MIT Press, 2016

　ところで、映画やドラマ等の映像コンテンツに含まれる音源のうち、音声は最も重要な音源であることが多い。音声はセリフやナレーションなど、コンテンツの物語や内容を伝えるために重要な役割を果たすからである。

　それゆえ、これらコンテンツの音の制作者は、複数の音源を混合する作業、つまりミキシング作業において、音声が聞こえるように以下の２つの編集作業E1およびE2を行っていた。

（編集作業E1）
　音声が聞こえやすいかの確認
（編集作業E2）
　音声が聞こえにくい場合に、音声を聞こえやすくする編集作業

　編集作業E2の具体的な例としては、以下の編集作業E2(1)乃至E2(3)が考えられる。

（編集作業E2(1)）
　音声の音量を上げる、または音声以外の音源の音量を下げる
（編集作業E2(2)）
　音声のEQ（Equalizer）を変える、または音声以外の音源のEQを変える
（編集作業E2(3)）
　音声以外の音源を、他の音源に差し替える

　しかしながら、現状では、これらの編集作業は手動で行われているため、コンテンツの制作コストが高くなってしまう。

　本技術は、このような状況に鑑みてなされたものであり、コンテンツの制作コストを削減することができるようにするものである。

　本技術の一側面の信号処理装置は、目的音源の音、および前記目的音源とは異なる目的外音源の音が含まれる混合オーディオ信号に基づいて、前記混合オーディオ信号から前記目的音源の音の時間区間を検出する音声検出部と、前記目的音源のオーディオ信号における前記目的音源の音の時間区間を示すラベル情報と、前記目的音源の音の時間区間の検出結果とに基づいて、前記混合オーディオ信号において前記目的音源の音が聞こえやすいかの判定処理を行う音声判定部とを備える。

　本技術の一側面の信号処理方法またはプログラムは、目的音源の音、および前記目的音源とは異なる目的外音源の音が含まれる混合オーディオ信号に基づいて、前記混合オーディオ信号から前記目的音源の音の時間区間を検出し、前記目的音源のオーディオ信号における前記目的音源の音の時間区間を示すラベル情報と、前記目的音源の音の時間区間の検出結果とに基づいて、前記混合オーディオ信号において前記目的音源の音が聞こえやすいかの判定処理を行うステップを含む。

　本技術の一側面においては、目的音源の音、および前記目的音源とは異なる目的外音源の音が含まれる混合オーディオ信号に基づいて、前記混合オーディオ信号から前記目的音源の音の時間区間が検出され、前記目的音源のオーディオ信号における前記目的音源の音の時間区間を示すラベル情報と、前記目的音源の音の時間区間の検出結果とに基づいて、前記混合オーディオ信号において前記目的音源の音が聞こえやすいかの判定処理が行われる。

DAWの編集画面例を示す図である。本技術を適用したDAWの編集画面例を示す図である。本技術を適用したDAWの編集画面例を示す図である。本技術を適用したDAWの編集画面例を示す図である。本技術を適用したDAWの編集画面例を示す図である。本技術を適用したDAWの編集画面例を示す図である。信号処理装置の構成例を示す図である。自動編集処理を説明するフローチャートである。コンピュータの構成例を示す図である。

　以下、図面を参照して、本技術を適用した実施の形態について説明する。

〈第１の実施の形態〉
〈本技術について〉
　本技術は、上述した編集作業E1や編集作業E2を自動化することで、コンテンツの制作コストを削減できるようにするものである。

　一般的に、映画やドラマ等の映像コンテンツの音源のミキシング作業の多くは、DAW（Digital Audio Workstation）と呼ばれるソフトウェアにより行われる。

　例えばDAWでは、図１に示すような編集画面が表示され、コンテンツを構成する複数の各音源の編集が行われる。

　この例では、複数の各音源のオーディオ信号の時間波形が並べられて表示されており、編集作業を行うユーザ（コンテンツ制作者）は、これらの音源のオーディオ信号を同時に再生させることができるようになっている。

　編集画面の領域SC1の部分には、コンテンツを構成する各オーディオ信号の音源種別が記されており、ここでは音源種別「音声」、「効果音」、「音楽」、および「背景音」の４つの音源種別の音源によりコンテンツが構成されていることが分かる。

　領域SC2の部分には、各オーディオ信号の時間波形が表示されており、領域SC2において図中、横方向は時間方向を示している。

　例えば領域SC2における領域SC3の部分には、音源種別が「音声」である１つの音源のオーディオ信号、すなわち１トラック分のオーディオ信号の時間波形が表示されている。

　なお、この例では１つの音源のオーディオ信号がLとRの左右２チャネルのステレオ信号となっているが、各音源のオーディオ信号は、１つのチャネルのモノラル信号であってもよいし、３以上のチャネルのマルチチャネル信号であってもよい。

　また、編集画面における領域SC2内には、コンテンツ、つまり全音源のオーディオ信号に基づく音を再生するときの再生位置を示す再生バーV11も表示されており、ユーザがコンテンツを再生させると、時間とともに再生バーV11が図中、右方向へと移動していく。

　ユーザは、再生バーV11を任意の位置に動かすことで、コンテンツを任意の再生位置から再生させることができる。

　一般的に、DAWのユーザであるコンテンツ制作者は、コンテンツを構成する全音源のオーディオ信号に基づく音を同時に再生させ、その再生音、つまりコンテンツの音を聞きながら、上述した編集作業E1や編集作業E2を行い、コンテンツを制作する。

　本技術では、編集作業E1や編集作業E2が自動的に、すなわちDAWを実現する信号処理装置側で行われるようにした。

　以下、これらの編集作業E1や編集作業E2の自動化技術について説明する。

　なお、コンテンツを構成するオーディオ信号の音源種別として、どのような種別のものがあってもよいが、以下では、コンテンツを構成するオーディオ信号の音源種別として、「音声」、「効果音」、「音楽」、および「背景音」の４種類の音源種別がある例について説明する。

（A1：音声が聞こえやすいかの確認の自動化）
　まず、編集作業E1、すなわちコンテンツにおいて音声が聞こえやすいかの確認の自動化について説明する。本技術では、音声を検出する検出器が用いられて、音声が聞こえやすいかの確認が信号処理装置側で行われる。

（A1-1：検出器の学習）
　本技術では、音声が聞こえやすいかの確認に用いられる検出器は、例えばニューラルネットワーク等の機械学習により予め生成される。

　検出器の機械学習では、例えば過去のコンテンツの各音源のオーディオ信号が学習データとして用いられる。

　先述の通り、過去のコンテンツの多くはDAWにより編集されて生成されているので、そのような過去のコンテンツの多くについて、音源ごとのオーディオ信号を利用することが可能である。

　まず、ある過去のコンテンツについて、音源種別が「音声」であるオーディオ信号を加算した音声オーディオ加算信号と、音源種別が「音声」以外のものであるオーディオ信号を加算した音声外オーディオ加算信号が生成される。

　音声オーディオ加算信号に基づく音の区間全体は、音声がある、つまり有音の時間区間（以下、有音区間とも称する）と、音声以外の時間区間、つまり無音の時間区間（以下、無音区間とも称する）とからなる。換言すれば、音声オーディオ加算信号は、有音区間の信号と、無音区間の信号とからなる。

　機械学習時には、このような音声オーディオ加算信号の各フレームなど、各時間区間に対して音源種別「音声」の音の有音区間であるか否かを示すラベル情報である音声正解ラベルが付与される。

　具体的には音声オーディオ加算信号における有音区間に対しては、有音区間であることを示す、値が「１」である音声正解ラベル、つまり音声正解ラベル値「１」が付与される。

　これに対して、音声オーディオ加算信号における無音区間に対しては、有音区間ではないことを示す、値が「０」である音声正解ラベル、つまり音声正解ラベル値「０」が付与される。

　このような音声正解ラベルの付与は、音声オーディオ加算信号の音圧値に対する閾値判定処理や、ニューラルネットワークによる検出技術などに基づいて自動で行われるようにしてもよいし、ユーザ等により手動で行われるようにしてもよい。

　例えばニューラルネットワークによる識別器により音声正解ラベルが付与される場合、入力した音声オーディオ加算信号の所定フレームに対する識別器での演算処理の処理境界と、入力した音声オーディオ加算信号の他のフレームに対する識別器での演算処理の処理境界とが一致するような識別器を学習するようにしてもよい。そうすれば、識別器での演算処理時の必要メモリ量を削減することができる。

　また、例えば閾値判定処理により音声正解ラベルの付与が行われる場合には、音声オーディオ加算信号の音圧値が所定の閾値以上であるときに、音声正解ラベル値「１」が付与されるようにすればよい。

　次に、音声オーディオ加算信号と音声外オーディオ加算信号とが加算され、オーディオ加算信号とされる。

　このオーディオ加算信号と、時間区間ごとに付与された音声正解ラベル値とのデータセットが大量の過去のコンテンツについて生成され、それらのデータセットが学習データとして用意される。

　そして、このような学習用のデータセットのオーディオ加算信号を入力とし、音声正解ラベルを出力とする機械学習を、ニューラルネットワーク等を用いて行うことで、音声の検出器が生成される。

　この場合においても、入力するオーディオ加算信号の所定フレームに対する検出器での演算処理の処理境界と、他のフレームに対する検出器での演算処理の処理境界とが一致するような検出器が学習されるようにしてもよい。

　以下では、以上の機械学習により生成したニューラルネットワーク等の検出器を、特に音声検出器とも称することとする。

　音声検出器は、所定のオーディオ信号が入力されると、そのオーディオ信号とニューラルネットワーク等を構成するパラメータとに基づく演算処理を行い、オーディオ信号に基づく音に音源種別「音声」の音が含まれているかを検出し、その検出結果として音声正解ラベルを出力する。換言すれば、音源種別「音声」の音の時間区間が検出される。

　音声検出器の出力となる音声正解ラベルは、「０」から「１」までの間の数値となっており、音声正解ラベル値が「１」に近いほど、入力されたオーディオ信号に音源種別「音声」の音が含まれている可能性が高いことを示している。

　同時に、この音声正解ラベル値は、入力されたオーディオ信号に基づいて音を再生した場合における、そのオーディオ信号に含まれている音源種別が「音声」である音の聞こえやすさを示しているということができる。

　すなわち、音声検出器の学習用のデータセットは、過去のコンテンツの制作において、制作者が音源種別「音声」の音を聞こえやすくした編集作業の結果のオーディオ加算信号と、そのオーディオ加算信号において音源種別が「音声」である音がどの時間区間にあるのかを示す音声正解ラベルとからなる。

　そのため、このような学習用のデータセットに基づき学習を行った結果である音声検出器は、入力されたオーディオ信号に基づく音が、過去のコンテンツと同等の音声（音源種別「音声」の音）の聞こえやすさであるほど、「１」に近い値の音声正解ラベルを出力する。逆に、音声検出器は、入力されたオーディオ信号に基づく音が、過去のコンテンツと同等でない音声の聞こえやすさであるほど「０」に近い値の音声正解ラベルを出力する。つまり、音声正解ラベル値が「１」に近いほど、入力されたオーディオ信号に基づく音を再生したときに、音源種別が「音声」である音が聞こえやすいことになる。

　以下では、音声検出器の出力である音声正解ラベルを、特に音声検出ラベルとも称することとする。音声検出ラベルの値は、コンテンツを再生したときの音源種別「音声」の音の聞こえやすさを示している。

（A1-2：検出器の適用）
　続いて、以上において説明した音声検出器の適用について説明する。

　新たなコンテンツの音源種別「音声」の音源について、音声の時間区間に音声正解ラベル値「１」が付与されるとともに、音声以外の時間区間に音声正解ラベル値「０」が付与される。ここでいう新たなコンテンツとは、例えば編集対象のコンテンツである。

　なお、この場合における音声正解ラベルの付与も、上述した音声検出器の機械学習時と同様に、オーディオ信号の音圧値に対する閾値判定処理や、ニューラルネットワーク等による検出技術などに基づいて自動で行われるようにしてもよいし、ユーザ等により手動で行われるようにしてもよい。また、ニューラルネットワークによる識別器を用いて音声正解ラベルの付与を行う場合には、上述したように互いに異なるフレームに対する演算処理の処理境界が一致するように識別器を学習してもよい。

　次に、新たなコンテンツを構成する全ての音源のオーディオ信号を混合して得られるオーディオ信号、つまり上述のオーディオ加算信号を音声検出器に入力し、音声検出器の出力である音声検出ラベルを得る。

　そして、音声検出ラベルに基づいて次式（１）が計算され、各時間区間ifrmにおける差分label_diff(ifrm)が求められる。

　なお、式（１）においてifrmはフレーム等の所定の時間区間を示している。label_ref(ifrm)は、コンテンツのオーディオ加算信号、より詳細には音声オーディオ加算信号に対して付与された時間区間ifrmにおける音声正解ラベルを示しており、音声正解ラベルlabel_ref(ifrm)の値は「０」または「１」の何れかの値とされる。また、式（１）においてlabel_detect(ifrm)は時間区間ifrmにおける音声検出ラベルを示しており、音声検出ラベルの値は「０」から「１」までの間の値とされる。

　したがって、差分label_diff(ifrm)は、音声正解ラベルlabel_ref(ifrm)の値と、音声検出ラベルlabel_detect(ifrm)の値とに基づいて求められる、それらの値の差分値である。

　式（１）では、音声検出ラベルlabel_detect(ifrm)の値が「１」に近いほど差分label_diff(ifrm)の値は小さくなり、音源種別「音声」の音が聞こえやすいことになる。

　このようにして差分label_diff(ifrm)が求められると、その差分label_diff(ifrm)と所定の閾値threとに基づく閾値処理が行われ、差分label_diff(ifrm)が閾値threよりも大きい時間区間ifrmでは、音源種別「音声」の音、つまり音声が聞こえにくいと判定される。

　例えば、閾値threは0.5などとされる。なお、差分label_diff(ifrm)の値が０以下となる場合には、その時間区間には音声は含まれていないので、上述の編集作業E2は不要である。

　これに対して、差分label_diff(ifrm)が閾値threよりも大きい時間区間ifrmでは、音声が聞こえにくいので、上述の編集作業E2が必要となる。

　以上のように、過去のコンテンツを学習データとして生成された音声検出器を用いることで、従来は手動で行われていた、音声が聞こえやすいかの確認を自動化することができ、コンテンツの制作コストを削減することができる。

（A2：音声を聞こえやすくする編集作業の自動化）
　次に、音声を聞こえやすくする編集作業E2の自動化について説明する。

　差分label_diff(ifrm)に基づく判定処理により、音声が聞こえにくいと判定された時間区間ifrmに対しては、上述した編集作業E2を行い、差分label_diff(ifrm)が閾値thre以下となるようにすればよい。

　編集作業E2の具体的な例としては、上述した編集作業E2(1)乃至E2(3)が考えられる。

（編集作業E2(1)）
　音声の音量を上げる、または音声以外の音源の音量を下げる
（編集作業E2(2)）
　音声のEQを変える、または音声以外の音源のEQを変える
（編集作業E2(3)）
　音声以外の音源を、他の音源に差し替える

　これらの編集作業を自動化することで、音声を聞こえやすくする編集作業E2の自動化を実現することができる。

　例えば自動化された編集作業E2(1)の処理では、音源種別「音声」のオーディオ信号に対するゲイン調整が行われ、ゲイン調整後のオーディオ信号が用いられてオーディオ加算信号が生成される。そして、得られたオーディオ加算信号に基づき差分label_diff(ifrm)が求められて上述の判定処理が行われる。

　このとき、差分label_diff(ifrm)が閾値thre以下となった場合には、編集作業E2の処理は終了したとされ、差分label_diff(ifrm)が閾値threよりも大きい場合には、差分label_diff(ifrm)が閾値thre以下となるまで、音源種別「音声」のオーディオ信号に対するゲイン調整が繰り返し行われる。

　例えば１度のゲイン調整では、音源種別「音声」のオーディオ信号の音量が0.1dBだけ増加するようにされる。ゲイン調整は、例えば音量調整が-6dBから6dBまでなどの所定の調整範囲（以下、音量調整範囲とも称する）内で行われる。

　なお、音量調整範囲は、音量を増加または減少させることの可能な範囲、つまり調整量の取り得る範囲であってもよいし、音量調整（ゲイン調整）後のオーディオ信号に基づく音の音量の取り得る範囲であってもよい。

　また、自動化された編集作業E2(1)の処理では、例えば音源種別が「音声」以外のオーディオ信号に対するゲイン調整も行われる。

　この場合においても、例えば差分label_diff(ifrm)が閾値thre以下となるまで、音源種別が「音声」以外のオーディオ信号に対して、音量を0.1dBだけ減少させるゲイン調整が繰り返し行われる。なお、音源種別が「音声」以外のオーディオ信号に対するゲイン調整も、例えば音量調整が-6dBから6dBまでなどの音量調整範囲内に収まるように行われる。

　編集作業E2(1)の処理において、音源種別「音声」のオーディオ信号に対するゲイン調整を行うか、音源種別が「音声」以外であるオーディオ信号に対するゲイン調整を行うかは、予め定められているようにしてもよいし、動的に選択されてもよい。

　例えば音源種別「音声」のオーディオ信号に対するゲイン調整を行ったが、音量調整範囲内での調整では差分label_diff(ifrm)が閾値thre以下とならない場合に、さらに音源種別が「音声」以外のオーディオ信号に対するゲイン調整を行うようにすることができる。その他、音源種別「音声」のオーディオ信号に対するゲイン調整と、音源種別が「音声」以外であるオーディオ信号に対するゲイン調整とが同時に行われてもよい。

　自動化された編集作業E2(2)の処理では、例えば音源種別が「音声」であるオーディオ信号における所定のEQバンド（周波数帯域）のレベルを0.1dBだけ増加させるイコライザ処理が行われる。このとき、例えば所定のEQバンドのレベルを増加させると同時に、その所定のEQバンドとは異なる他のEQバンドのレベルを減少させるようにしてもよい。

　ここで、イコライザ処理の処理対象とされるEQバンド、つまりレベルを増加させる（音量を上げる）EQバンドは、例えば一般的な音声のオーディオ信号に多くの成分が含まれているEQバンドなどとされる。

　この場合、差分label_diff(ifrm)が閾値thre以下となるまで、所定のレベル（音量）の範囲、例えば上述の音量調整範囲内で、音源種別が「音声」であるオーディオ信号に対するイコライザ処理が繰り返し行われる。なお、調整可能なレベル（音量）の範囲は、オーディオ信号全体（周波数帯域全体）に対して定められてもよいし、EQバンドごとに定められてもよい。その他、編集作業E2(1)の処理と編集作業E2(2)の処理とで、調整可能な音量（レベル）の範囲が異なるようにしてもよい。

　また、自動化された編集作業E2(2)の処理では、例えば音源種別が「音声」以外であるオーディオ信号における所定のEQバンドのレベルを0.1dBだけ減少させるイコライザ処理が行われる。

　この場合においても、差分label_diff(ifrm)が閾値thre以下となるまで、例えば上述の音量調整範囲内で、音源種別が「音声」以外であるオーディオ信号に対するイコライザ処理が繰り返し行われる。

　なお、編集作業E2(2)の処理において、音源種別「音声」のオーディオ信号に対するイコライザ処理を行うか、音源種別が「音声」以外であるオーディオ信号に対するイコライザ処理を行うかは、予め定められているようにしてもよいし、動的に選択されてもよい。

　例えば音源種別「音声」のオーディオ信号に対するイコライザ処理を行ったが、音量調整範囲内では差分label_diff(ifrm)が閾値thre以下とならない場合に、さらに音源種別が「音声」以外のオーディオ信号に対するイコライザ処理を行うようにすることができる。

　その他、音源種別「音声」のオーディオ信号と、音源種別が「音声」以外のオーディオ信号とに対して同時にイコライザ処理を行うようにしてもよい。

　自動化された編集作業E2(3)の処理では、例えば音源種別が「音声」以外であるオーディオ信号を、そのオーディオ信号の音源種別と同じ音源種別、つまり同じ音源の特徴の情報（同じ属性）をもつ他のオーディオ信号に置き換える置き換え処理が行われる。

　具体的には、例えば所定の効果音のオーディオ信号が、その効果音と同じような他の効果音のオーディオ信号に置き換える処理が、置き換え処理として行われる。

　置き換えが行われると、置き換え後のオーディオ信号が用いられてオーディオ加算信号が生成される。そして、得られたオーディオ加算信号に基づき差分label_diff(ifrm)が求められて上述の判定処理が行われ、差分label_diff(ifrm)が閾値thre以下となるまで、置き換え処理が繰り返し行われる。

　以上の編集作業E2(1)乃至編集作業E2(3)のうちの少なくとも何れかの処理を自動で行うことで、従来は手動で行われていた、音声を聞こえやすくする編集作業を自動化し、制作コストを削減することができる。

　なお、自動化された編集作業E2の処理では、編集作業E2(1)乃至編集作業E2(3)の各処理のうちの何れかが単独で行われるようにしてもよいし、２つまたは３つの処理が組み合わせて行われるようにしてもよい。

　例えば編集作業E2の処理として、まずは編集作業E2(1)の処理が行われ、編集作業E2(1)の処理では音量調整範囲内で差分label_diff(ifrm)が閾値thre以下とならないときには、さらに編集作業E2(2)や編集作業E2(3)の処理が順番に行われるようにしてもよい。

　この場合、例えば編集作業E2(1)の処理の次に編集作業E2(2)の処理が行われ、編集作業E2(2)では差分label_diff(ifrm)が閾値thre以下とならないときには、さらに編集作業E2(3)の処理が行われるようにしてもよい。

　このとき、編集作業E2(1)の処理の処理結果として得られたオーディオ信号に対して編集作業E2(2)の処理が行われ、さらに編集作業E2(2)の処理結果として得られたオーディオ信号に対して編集作業E2(3)の処理が行われるようにしてもよい。そうすることで、可能な限りコンテンツ制作者の意図通りの音質で、音声を聞こえやすくすることができる。

　なお、例えば編集作業E2(1)の処理の後、編集作業E2(2)の処理が行われるときには、編集作業E2(1)の処理の前、つまり、もとのオーディオ信号に対して編集作業E2(2)の処理が行われるようにしてもよい。

〈編集画面について〉
　ここで、図２乃至図６を参照して、以上のような本技術を適用したDAWの編集画面（GUI（Graphical User Interface））の一例について説明する。

　なお、図２乃至図６において図１における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。また、図２乃至図６において、互いに対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　本技術を適用したDAWを実行すると、例えば図２に示す編集画面が表示される。

　この編集画面には、各オーディオ信号の音源種別が表示される領域SC1や、各オーディオ信号の時間波形が表示される領域SC2が設けられており、領域SC2には再生バーV11も表示されている。

　また、編集画面には、音声が聞こえやすいかの判定処理の実行の指示や、判定処理で用いるパラメータ（閾値thre）を指定するためのGUI、より詳細にはGUIコンポーネント（ウィジェット）として検出ボタンB11、検出閾値バーB12、および検出閾値用のテキストボックスB13が設けられている。

　編集画面には、音声を聞こえやすくする編集作業の処理の実行の指示や、その編集作業の処理で用いるパラメータ（音量調整範囲）を指定するためのGUI（GUIコンポーネント）として調整ボタンB14、調整閾値バーB15、調整閾値下限用のテキストボックスB16、および調整閾値上限用のテキストボックスB17も設けられている。

　コンテンツの制作者であるユーザは、これらの検出ボタンB11乃至テキストボックスB17に対する操作を行って、音声が聞こえやすいかの判定や、音声を聞こえやすくする処理における閾値等のパラメータの調整などを行うことができる。

　検出閾値バーB12は、音声が聞こえやすいかの判定処理に用いられる閾値threを調整（指定）するためのGUIである。

　例えば検出閾値バーB12のスライダを図中、左端の位置に設定すると閾値threは「０」とされ、スライダを図中、右端の位置に設定すると閾値threは「１」とされる。

　その他、ユーザは、検出閾値用のテキストボックスB13に閾値threとする数値を入力することでも、閾値threの設定を行うことが可能である。この例ではテキストボックスB13には「0.5」が入力されているので、閾値thre＝0.5とされる。

　ユーザは、適宜、検出閾値バーB12やテキストボックスB13に対する操作を行った後、検出ボタンB11を押す（操作する）ことで、編集中のコンテンツについて音声が聞こえやすいかの判定処理を実行させることができる。

　検出ボタンB11が操作され、音声が聞こえやすいかの判定処理が行われると、その判定結果が反映され、例えば編集画面は図３に示す表示となる。

　図３の例では、編集画面の領域SC2の部分のうち、差分label_diff(ifrm)が閾値threよりも大きい時間区間の部分、すなわち時間区間T11乃至時間区間T13の部分が赤色など、他の時間区間とは異なる色で表示されている。

　これらの時間区間T11乃至時間区間T13は、音声が聞こえやすいかの判定処理の結果、音声が聞こえにくいと判定された時間区間を示している。

　ユーザは、これらの時間区間T11乃至時間区間T13に対して、上述の編集作業E2の処理を手動で行うこともできるし、自動で行わせるようにすることもできる。

　例えば、ユーザが編集作業E2の処理を自動で行わせる場合、調整ボタンB14や調整閾値バーB15、テキストボックスB16、テキストボックスB17に対する操作を行うことで、編集作業E2の処理を実行させたり、ゲイン調整等でのパラメータなどを指定したりすることができる。

　調整閾値バーB15には、２つのスライダが設けられており、ユーザはそれらのスライダを操作することで、編集作業E2(1)の処理や編集作業E2(2)の処理での音量調整範囲である調整閾値の上限値と下限値を指定（変更）することができる。

　具体的には、ユーザは調整閾値バーB15の左側にあるスライダ（以下、左スライダと称する）を操作することで調整閾値の下限値を指定することができ、例えば左スライダを調整閾値バーB15の図中、左端の位置に設定すると、下限値が-12dBに設定される。

　また、ユーザは、調整閾値下限用のテキストボックスB16に、所望の数値を直接入力することでも調整閾値の下限値を指定することができるようになっており、この例では調整閾値の下限値は「-2.0dB」とされている。

　一方、ユーザは調整閾値バーB15の右側にあるスライダ（以下、右スライダと称する）を操作することで調整閾値の上限値を指定することができ、例えば右スライダを調整閾値バーB15の図中、右端の位置に設定すると、上限値が12dBに設定される。

　ユーザは、調整閾値上限用のテキストボックスB17に、所望の数値を入力することでも調整閾値の上限値を指定することができるようになっており、この例では調整閾値の上限値は「3.0dB」とされている。

　ユーザが調整閾値バーB15等を操作して調整閾値の上限値と下限値、すなわち音量調整範囲を設定した後、調整ボタンB14が操作される（押される）と、例えば編集作業E2(1)の処理が自動で、つまり装置側で行われる。

　これにより、編集作業E2(1)の処理結果が編集画面の表示に反映され、例えば図４に示すように編集画面の表示が更新される。

　この例では、編集作業E2(1)の処理によりゲイン調整（音量の調整）が行われたトラック（音源）の時間区間の領域が他の領域とは異なる色で表示されている。

　具体的には、領域SC2の音源種別「音声」の部分における領域R11乃至領域R13が黄色など、他の領域とは異なる色で表示されている。

　同様に、領域SC2の音源種別「音声」以外の音源種別の部分における領域R14および領域R15が紫色など、他の領域とは異なる色で表示されている。

　黄色で表示された領域R11乃至領域R13は、音源種別が「音声」であるオーディオ信号（トラック）における編集作業E2(1)の音量調整、つまりゲイン調整が行われた時間区間を示しており、それらの領域にはゲイン調整での調整量が表示されている。

　例えば領域R11には、調整量を示す数値「+3.0」が表示されており、領域R11に対応する時間区間では、ゲイン調整により3.0dBだけ音量を上げる調整が行われたことが分かる。特に、この例では音源種別が「音声」である３つのトラックの同じ時間区間に対してゲイン調整が行われている。

　紫色で表示された領域R14および領域R15は、音源種別が「音声」以外であるオーディオ信号（トラック）における、編集作業E2(1)のゲイン調整が行われた時間区間を示しており、それらの領域にはゲイン調整での調整量が表示されている。

　ここでは、音源種別が「音声」以外であるトラックは、音源種別が「効果音」、「音楽」、および「背景音」であるトラックである。

　例えば領域R14には、調整量を示す数値「-1.8」が表示されており、領域R14に対応する時間区間では、ゲイン調整により1.8dBだけ音量を下げる調整が行われたことが分かる。特に、この例では音源種別が「音声」以外である３つのトラックの同じ時間区間に対してゲイン調整が行われている。

　編集作業E2(1)の処理によりゲイン調整が行われた時間区間を示す領域R11乃至領域R15内に、ゲイン調整での調整量を表示させることで、ユーザはどの時間区間でどれだけのゲイン調整が行われたかを瞬時に把握することができる。これにより、本技術を適用したDAW、つまりコンテンツの編集ソフトウェアの使い勝手を向上させることができる。

　編集作業E2(1)の処理によるゲイン調整によっても、まだ差分label_diff(ifrm)が閾値threよりも大きい時間区間ifrmがある場合、さらに編集作業E2(2)の処理が自動で行われる。すなわち、音源種別が「音声」であるオーディオ信号の所定のEQバンドのレベルを増加させるイコライザ処理や、音源種別が「音声」以外であるオーディオ信号の所定のEQバンドのレベルを減少させるイコライザ処理が行われる。

　その結果、編集作業E2(2)の処理結果が編集画面の表示に反映され、例えば図５に示すように編集画面の表示が更新される。

　この例では、編集作業E2(2)の処理によりイコライザ処理が行われたトラック（音源）の時間区間の領域が他の領域とは異なる色で表示されている。

　具体的には、領域SC2の音源種別「音声」の部分における領域R11および領域R12が黄色など、他の領域とは異なる色で表示されている。なお、領域R13の表示は図４における場合と同じとなっており、領域R13に対応する時間区間に対しては、編集作業E2(2)の処理が行われなかったことが分かる。

　これらの領域R11、領域R12、領域R14、および領域R15内には、その領域に対応する時間区間に対してイコライザ処理が行われたことを示す文字列「EQ」も表示されている。このような表示を行うことで、ユーザはどのトラックのどの時間区間に対してイコライザ処理が施されたのかを瞬時に把握することができる。

　このような編集作業E2(2)の処理によっても、まだ差分label_diff(ifrm)が閾値threよりも大きい時間区間ifrmがある場合、さらに編集作業E2(3)の処理が自動で行われる。

　すなわち、音源種別が「音声」以外である１または複数のトラック（オーディオ信号）における、差分label_diff(ifrm)が閾値threよりも大きい時間区間ifrmの部分が、他の音源の信号へと置き換えられる（差し替えられる）置き換え処理が行われる。

　なお、音源種別が「音声」以外である全てのトラックに対して置き換え処理を行うようにしてもよいし、差分label_diff(ifrm)が閾値thre以下となるまで、１つずつトラックを選択して置き換え処理を行うようにしてもよい。

　このとき、置き換え処理を行うトラックとして選択していく順番は、音源種別や、差分label_diff(ifrm)が閾値threよりも大きい時間区間ifrmにおけるオーディオ信号の音圧値などに基づいて定められるようにすればよい。

　また、一部の時間区間の信号を置き換えるのではなく、トラックのオーディオ信号全体を他の音源のオーディオ信号に置き換えるようにしてもよい。

　図５に示した状態からさらに編集作業E2(3)の処理、すなわち置き換え処理が行われると、その結果、編集作業E2(3)の処理結果が編集画面の表示に反映され、例えば図６に示すように編集画面の表示が更新される。

　この例では、領域SC2の音源種別「音声」の部分における、編集作業E2(1)や編集作業E2(2)の処理が行われたトラック（音源）の時間区間の領域R11乃至領域R13が黄色など、他の領域とは異なる色で表示されている。

　また、領域SC2の音源種別が「音声」以外である部分における、編集作業E2(3)の処理により置き換えが行われたトラック（音源）の時間区間の領域R14および領域R15が紫色など、他の領域とは異なる色で表示されている。

　領域R14および領域R15内には、それらの領域に対応する時間区間に対して置き換え処理が行われたことを示す文字列「REPLACE」も表示されている。このような表示を行うことで、ユーザはどのトラックのどの時間区間に対して置き換え処理が行われたのかを瞬時に把握することができる。

　以上の図２乃至図６を参照して説明したGUIをDAWに搭載することで、ユーザは編集作業中のコンテンツについて必要に応じて本技術を適用することができるだけでなく、適用後にDAWでさらなる編集を行うこともでき、編集作業が効率化される。その結果、コンテンツの制作コストを低く抑えることが可能となる。

〈信号処理装置の構成例〉
　図７は、以上において説明した本技術を適用した信号処理装置の一実施の形態の構成例を示す図である。

　図７に示す信号処理装置１１は、例えばパーソナルコンピュータやタブレット型端末装置などからなり、プログラムを実行することでDAW等を実現する。

　信号処理装置１１は、入力部２１、正解ラベル生成部２２、オーディオ信号編集部２３、音声検出部２４、音声判定部２５、表示制御部２６、および表示部２７を有している。

　入力部２１は、例えばマウスやキーボード、タッチパネルなどからなり、ユーザの操作に応じた信号をオーディオ信号編集部２３や表示制御部２６に供給する。

　正解ラベル生成部２２は、供給されたコンテンツを構成する各音源のオーディオ信号のうちの音源種別が「音声」であるオーディオ信号を加算して音声オーディオ加算信号を生成し、音声オーディオ加算信号に音声正解ラベルを付与する。換言すれば、音声オーディオ加算信号に基づいて各時間区間の音声正解ラベルが生成される。

　この音声正解ラベルは、音声オーディオ加算信号の時間区間が音源種別「音声」の音の有音区間であるか否かを示すラベル情報であり、「０」または「１」の何れかの値とされる。

　正解ラベル生成部２２は、音声オーディオ加算信号の各時間区間の音声正解ラベルを、音声判定部２５に供給する。

　なお、信号処理装置１１に正解ラベル生成部２２が設けられず、ユーザ等の人手により生成された各時間区間の音声正解ラベルが音声判定部２５に供給されるようにしてもよい。

　オーディオ信号編集部２３は、供給されたコンテンツを構成する各音源のオーディオ信号に対して、適宜、編集処理を行い、その結果得られた各音源のオーディオ信号を音声検出部２４および表示制御部２６に供給する。

　例えばオーディオ信号編集部２３は、編集処理として上述した編集作業E2の処理を行い、その編集に関する編集情報を表示制御部２６に供給する。

　ここで、編集情報とは、オーディオ信号に対して行った編集内容や編集箇所を示す情報である。すなわち、例えば編集情報には、編集対象とされたオーディオ信号、オーディオ信号の編集が行われた時間区間、およびその時間区間で行われた編集処理の内容を示す情報が含まれている。特に、編集処理の内容を示す情報には、ゲイン調整やイコライザ処理、置き換え処理等の編集処理の種別だけでなく、編集処理時の音量の調整量や置き換え後の音源などを示す情報も含まれている。

　音声検出部２４は、予め機械学習により生成された音声検出器を保持しており、保持している音声検出器に基づいて、オーディオ信号編集部２３から供給されたコンテンツを構成する音源のオーディオ信号に対して音声検出ラベルを付与する。換言すれば、コンテンツの各時間区間における音声検出ラベルが生成される。

　上述したように音声検出器は、例えば学習用のデータセットに基づいて機械学習を行うことにより生成されたニューラルネットワーク等により構成される。

　音声検出器の学習用のデータセットは、複数のコンテンツについて得られた、目的音源である「音声」のオーディオ信号と、目的外音源、つまり「音声」とは異なる音源のオーディオ信号とが混合されたオーディオ信号（オーディオ加算信号）、および目的音源のオーディオ信号（音声オーディオ加算信号）に対して付与された音声正解ラベルからなる。

　この音声検出器は、目的音源の音および目的外音源の音が混合されたオーディオ信号を入力として、入力されたオーディオ信号における目的音源の音の時間区間を検出し、その検出結果として音声検出ラベルを出力する。上述したように音声検出ラベルは「０」から「１」までの間の数値とされる。音声検出部２４は、音声検出器の出力である音声検出ラベルを音声判定部２５に供給する。

　音声判定部２５は、正解ラベル生成部２２から供給された音声正解ラベルと、音声検出部２４から供給された音声検出ラベルとに基づいて、時間区間ごとに、目的とする音源種別「音声」の音が聞こえやすいかの判定処理を行い、その判定結果をオーディオ信号編集部２３や表示制御部２６に供給する。

　表示制御部２６は、入力部２１からの信号、音声判定部２５からの判定結果、オーディオ信号編集部２３からのオーディオ信号や編集情報に基づいて表示部２７を制御し、表示部２７にDAW等によるコンテンツの編集画面を表示させる。

　この編集画面は、例えば図２乃至図６を参照して説明したコンテンツの各音源のオーディオ信号の編集のための画面であり、表示制御部２６は表示部２７を制御して、編集画面上に検出ボタンB11乃至テキストボックスB17等のGUIコンポーネントを表示させる。

　表示部２７は、ディスプレイ等の表示デバイスであり、表示制御部２６の制御に従って編集画面等の画像を表示する。

〈自動編集処理の説明〉
　次に、信号処理装置１１の動作について説明する。

　例えば信号処理装置１１で編集対象とするコンテンツの各音源（トラック）のオーディオ信号が読み込まれ、表示部２７に図２に示した編集画面が表示されているとする。

　このとき、例えばユーザが入力部２１を操作することにより、適宜、検出閾値バーB12やテキストボックスB13を操作して閾値threを指定し、さらに検出ボタンB11を操作すると、信号処理装置１１は自動編集処理を開始する。

　以下、図８のフローチャートを参照して、信号処理装置１１による自動編集処理について説明する。

　ステップＳ１１において正解ラベル生成部２２は、供給されたコンテンツのオーディオ信号に対して音声正解ラベルを付与する。

　すなわち、例えば正解ラベル生成部２２は、供給されたコンテンツを構成する各音源のオーディオ信号のうちの音源種別が「音声」であるオーディオ信号を加算して音声オーディオ加算信号を生成する。

　また、正解ラベル生成部２２は、例えば音声オーディオ加算信号の音圧値に対する閾値判定処理や、予め学習されたニューラルネットワーク等の識別器を構成するパラメータと音声オーディオ加算信号とに基づく演算処理を行うことで、音声オーディオ加算信号の各時間区間に音源種別「音声」の音が含まれているかの検出を行う。

　正解ラベル生成部２２は、音源種別「音声」の音が含まれているかの検出の結果として得られた各時間区間の音声正解ラベルを音声判定部２５に供給する。

　また、オーディオ信号編集部２３は、供給されたコンテンツを構成する各音源のオーディオ信号をそのまま音声検出部２４に供給する。

　ステップＳ１２において音声検出部２４は、予め保持している音声検出器と、オーディオ信号編集部２３から供給されたコンテンツを構成する各音源のオーディオ信号とに基づいて、コンテンツのオーディオ信号に対して音声検出ラベルを付与する。

　例えば音声検出部２４は、供給されたコンテンツを構成する全音源（トラック）のオーディオ信号を加算してオーディオ加算信号を生成するとともに、そのオーディオ加算信号と、音声検出器を構成するパラメータとに基づく演算処理を行うことで、各時間区間の音声検出ラベルを得る。

　音声検出部２４は、このようにして得られた各時間区間の音声検出ラベルを音声判定部２５に供給する。

　ステップＳ１３において音声判定部２５は、正解ラベル生成部２２から供給された音声正解ラベルと、音声検出部２４から供給された音声検出ラベルとに基づいて上述の式（１）を計算し、時間区間ごとに差分label_diff(ifrm)を求める。

　ステップＳ１４において音声判定部２５は、入力部２１から供給された信号等に応じて定まる閾値threと、ステップＳ１３で求めた差分label_diff(ifrm)とを比較し、差分label_diff(ifrm)が閾値thre以下であるか否かを判定する。

　換言すれば、差分label_diff(ifrm)に対する閾値処理を行うことで、オーディオ加算信号において、音声（音源種別が「音声」である音）が聞こえやすいかの判定処理が行われる。

　ここでは、全時間区間のうち、１つの時間区間でも差分label_diff(ifrm)が閾値threより大きいときには、閾値thre以下ではないと判定される。

　音声判定部２５は、閾値thre以下であるか否かの判定結果をオーディオ信号編集部２３および表示制御部２６に供給する。

　ステップＳ１４において閾値thre以下ではないと判定された場合、すなわち、音声が聞こえにくい時間区間があると判定された場合、その後、処理はステップＳ１５へと進む。

　この場合、例えばユーザにより検出ボタンB11が操作された直後、すなわち、まだ編集作業E2の処理が行われる前の状態であるときには、表示制御部２６は、音声判定部２５から供給された判定結果に基づいて表示部２７を制御し、編集画面の表示を更新させる。

　このような判定結果に応じた表示の制御により、例えば編集画面において音声が聞こえにくいと判定された時間区間が他の時間区間とは異なる表示形式で表示される。換言すれば、音声が聞こえにくいと判定された時間区間を示す表示が行われる。

　具体的には、例えば図２に示した編集画面の表示が更新されて、図３に示した編集画面が表示部２７に表示される。

　この状態で、ユーザは適宜、入力部２１を操作することで、調整閾値バーB15や、テキストボックスB16、テキストボックスB17に対する操作を行い、音量調整範囲（調整閾値）の上限値と下限値を指定する。すると、ユーザの操作に応じた信号が入力部２１からオーディオ信号編集部２３や表示制御部２６に供給される。

　さらにユーザが入力部２１を操作することで調整ボタンB14に対する操作を行い、編集作業E2の処理の実行を指示すると、その操作に応じた信号が入力部２１からオーディオ信号編集部２３へと供給され、その後、ステップＳ１５の処理が行われる。

　ステップＳ１５においてオーディオ信号編集部２３は、コンテンツを構成する所定の音源のオーディオ信号に対して、上述した編集作業E2の処理を編集処理として行う。

　特に、ステップＳ１５では、差分label_diff(ifrm)が閾値threより大きい時間区間が対象とされて、その時間区間に対して編集処理が行われる。

　この場合、音源種別「音声」のオーディオ信号、および音源種別が「音声」以外のオーディオ信号の少なくとも何れか一方に対して、音源種別「音声」の音（音声）を聞こえやすくするための編集処理が行われる。

　例えば調整ボタンB14が操作された直後である場合には、編集作業E2の処理として、編集作業E2(1)の処理、つまり各音源のオーディオ信号に対するゲイン調整が行われる。このとき、オーディオ信号編集部２３は、入力部２１から供給された信号に応じて定まる、つまりユーザにより指定された音量調整範囲内でゲイン調整を行う。

　また、オーディオ信号編集部２３は、音量調整範囲内で編集作業E2(1)の処理を行ってもステップＳ１４において閾値thre以下ではないと判定された場合には、編集作業E2の処理として、編集作業E2(2)の処理、つまり各音源のオーディオ信号に対するイコライザ処理を行う。この場合、差分label_diff(ifrm)が閾値threより大きい時間区間が対象とされて編集作業E2(2)の処理が行われる。

　さらにオーディオ信号編集部２３は、音量調整範囲内で編集作業E2(2)の処理を行ってもステップＳ１４において閾値thre以下ではないと判定された場合には、編集作業E2の処理として、編集作業E2(3)の処理、つまり各音源のオーディオ信号に対する置き換え処理を行う。ここでも、差分label_diff(ifrm)が閾値threより大きい時間区間が対象とされて編集作業E2(3)の処理が行われる。

　なお、ステップＳ１５では、編集処理として、編集作業E2(1)乃至編集作業E2(3)の処理のうちの少なくとも何れか１つが行われるようにすればよい。

　ステップＳ１６においてオーディオ信号編集部２３は、編集作業E2の処理結果に基づいて、行った編集処理（編集作業E2の処理）に関する編集情報を生成する。

　オーディオ信号編集部２３は、編集情報を生成すると、その編集情報と編集後のコンテンツの各音源のオーディオ信号を表示制御部２６に供給するとともに、編集後のコンテンツの各音源のオーディオ信号を音声検出部２４に供給する。

　ステップＳ１７において表示制御部２６は、必要に応じて、入力部２１からの信号や、オーディオ信号編集部２３からの編集情報およびオーディオ信号に基づき表示部２７を制御し、表示部２７に表示されている編集画面を更新する。

　例えば図３に示した編集画面が表示されている状態で編集作業E2(1)の処理が行われた場合、表示制御部２６は、編集画面の表示を更新し、図４に示した編集画面を表示させる。

　その他、例えば編集作業E2(2)の処理が行われた場合には、図５に示した編集画面が表示されるなど、適宜、必要な表示の更新が行われる。

　これにより、例えば図４や図５に示したように、領域R11乃至領域R15など、編集処理が行われた時間区間が他の時間区間とは異なる表示形式で表示される。

　また、領域R11乃至領域R15等の編集処理が行われた時間区間の領域には、「EQ」などの行われた編集処理の内容を示す情報や、「+3.0」などの編集処理時に行われた調整の調整量を示す情報などが表示される。

　なお、図４乃至図６では、編集処理が行われた時間区間の領域には、編集処理の内容を示す情報と編集処理時に行われた調整の調整量を示す情報の何れか一方のみが表示されているが、それらの両方が表示されるようにしてもよい。

　ステップＳ１７の処理が行われると、その後、処理はステップＳ１２に戻り、上述した処理が繰り返し行われる。

　この場合、例えば編集後の各音源のオーディオ信号に基づいてステップＳ１２乃至ステップＳ１４の処理が行われ、閾値thre以下であると判定されるまで、すなわち音声が聞こえやすいと判定されるまで、編集処理が繰り返し行われる。

　また、ステップＳ１４において閾値thre以下であると判定された場合、音声が聞こえやすいコンテンツの各音源のオーディオ信号が得られたので、自動編集処理は終了する。

　このとき、オーディオ信号編集部２３は、適宜、編集により得られたコンテンツの各音源のオーディオ信号を外部に出力したり、図示せぬ記録部に供給して記録させたりする。また、表示制御部２６は、例えば図６に示した編集画面を表示させるなど、必要に応じて編集画面の表示を更新する。このとき、編集作業E2の処理が終了し、音声が聞こえやすくなった旨のメッセージ等が編集画面に表示されるようにしてもよい。

　以上のようにして信号処理装置１１は、コンテンツの音声が聞こえやすいかの判定を行い、その判定結果に応じて、音声を聞こえやすくするための編集処理を行う。このようにすることで、編集時の作業効率を向上させ、コンテンツの制作コストを削減することができる。

〈コンピュータの構成例〉
　ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

　図９は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

　コンピュータにおいて、CPU（Central Processing Unit）５０１，ROM（Read Only Memory）５０２，RAM（Random Access Memory）５０３は、バス５０４により相互に接続されている。

　バス５０４には、さらに、入出力インターフェース５０５が接続されている。入出力インターフェース５０５には、入力部５０６、出力部５０７、記録部５０８、通信部５０９、及びドライブ５１０が接続されている。

　入力部５０６は、キーボード、マウス、マイクロフォン、撮像素子などよりなる。出力部５０７は、ディスプレイ、スピーカなどよりなる。記録部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインターフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体５１１を駆動する。

　以上のように構成されるコンピュータでは、CPU５０１が、例えば、記録部５０８に記録されているプログラムを、入出力インターフェース５０５及びバス５０４を介して、RAM５０３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ（CPU５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

　コンピュータでは、プログラムは、リムーバブル記録媒体５１１をドライブ５１０に装着することにより、入出力インターフェース５０５を介して、記録部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記録部５０８にインストールすることができる。その他、プログラムは、ROM５０２や記録部５０８に、あらかじめインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、本技術は、以下の構成とすることも可能である。

（１）
　目的音源の音、および前記目的音源とは異なる目的外音源の音が含まれる混合オーディオ信号に基づいて、前記混合オーディオ信号から前記目的音源の音の時間区間を検出する音声検出部と、
　前記目的音源のオーディオ信号における前記目的音源の音の時間区間を示すラベル情報と、前記目的音源の音の時間区間の検出結果とに基づいて、前記混合オーディオ信号において前記目的音源の音が聞こえやすいかの判定処理を行う音声判定部と
　を備える信号処理装置。
（２）
　前記音声判定部は、時間区間ごとに、前記ラベル情報と前記検出結果とに基づく値に対する閾値処理を行うことで、前記判定処理を行う
　（１）に記載の信号処理装置。
（３）
　前記判定処理により前記目的音源の音が聞こえにくいと判定された場合、前記目的音源のオーディオ信号、および前記目的外音源のオーディオ信号の少なくとも何れか一方に対して、前記目的音源の音を聞こえやすくするための編集処理を行う編集部をさらに備える
　（１）または（２）に記載の信号処理装置。
（４）
　前記音声検出部は、前記編集処理により得られたオーディオ信号を用いて生成された、前記目的音源および前記目的外音源の音が含まれる編集混合オーディオ信号に基づいて、前記目的音源の音の時間区間を検出し、
　前記音声判定部は、前記編集混合オーディオ信号に基づく前記目的音源の音の時間区間の検出結果と、前記ラベル情報とに基づいて前記判定処理を行い、
　前記編集部は、前記判定処理により前記目的音源の音が聞こえやすいと判定されるまで、前記編集処理を繰り返し行う
　（３）に記載の信号処理装置。
（５）
　前記編集部は、ゲイン調整、イコライザ処理、および前記目的外音源のオーディオ信号を他のオーディオ信号に置き換える置き換え処理のうちの少なくとも何れかを前記編集処理として行う
　（３）または（４）に記載の信号処理装置。
（６）
　前記目的音源のオーディオ信号、および前記目的外音源のオーディオ信号の編集のための編集画面における、前記判定処理の結果に応じた表示を制御する表示制御部をさらに備える
　（３）乃至（５）の何れか一項に記載の信号処理装置。
（７）
　前記表示制御部は、前記編集画面において、前記判定処理により前記目的音源の音が聞こえにくいと判定された時間区間を他の時間区間とは異なる表示形式で表示させる
　（６）に記載の信号処理装置。
（８）
　前記表示制御部は、前記編集画面上に、前記編集処理において用いられるパラメータを指定するためのGUIコンポーネントを表示させる
　（６）または（７）に記載の信号処理装置。
（９）
　前記表示制御部は、前記編集画面上に、前記判定処理の実行を指示するためのGUIコンポーネントを表示させる
　（６）乃至（８）の何れか一項に記載の信号処理装置。
（１０）
　前記表示制御部は、前記編集画面上に、前記編集処理の実行を指示するためのGUIコンポーネントを表示させる
　（６）乃至（９）の何れか一項に記載の信号処理装置。
（１１）
　前記表示制御部は、前記編集処理を行った場合、前記編集画面における前記編集処理が行われた時間区間を、他の時間区間とは異なる表示形式で表示させる
　（６）乃至（１０）の何れか一項に記載の信号処理装置。
（１２）
　前記表示制御部は、前記編集処理を行った場合、前記編集画面における前記編集処理が行われた時間区間に、行われた前記編集処理を示す情報、および前記編集処理時に行われた調整の調整量を示す情報の少なくとも何れか一方を表示させる
　（１１）に記載の信号処理装置。
（１３）
　前記音声検出部は、前記混合オーディオ信号を入力とし、前記目的音源の音の時間区間の検出結果を出力とする音声検出器に基づいて、前記目的音源の音の時間区間を検出する
　（１）乃至（１２）の何れか一項に記載の信号処理装置。
（１４）
　前記音声検出器は機械学習により予め生成される
　（１３）に記載の信号処理装置。
（１５）
　前記音声検出器はニューラルネットワークにより構成される
　（１４）に記載の信号処理装置。
（１６）
　前記音声検出部は、前記目的音源のオーディオ信号と、前記目的外音源のオーディオ信号とを加算することで前記混合オーディオ信号を生成する
　（１）乃至（１５）の何れか一項に記載の信号処理装置。
（１７）
　前記目的音源のオーディオ信号に基づいて、前記ラベル情報を生成するラベル情報生成部をさらに備える
　（１）乃至（１６）の何れか一項に記載の信号処理装置。
（１８）
　信号処理装置が、
　目的音源の音、および前記目的音源とは異なる目的外音源の音が含まれる混合オーディオ信号に基づいて、前記混合オーディオ信号から前記目的音源の音の時間区間を検出し、
　前記目的音源のオーディオ信号における前記目的音源の音の時間区間を示すラベル情報と、前記目的音源の音の時間区間の検出結果とに基づいて、前記混合オーディオ信号において前記目的音源の音が聞こえやすいかの判定処理を行う
　信号処理方法。
（１９）
　目的音源の音、および前記目的音源とは異なる目的外音源の音が含まれる混合オーディオ信号に基づいて、前記混合オーディオ信号から前記目的音源の音の時間区間を検出し、
　前記目的音源のオーディオ信号における前記目的音源の音の時間区間を示すラベル情報と、前記目的音源の音の時間区間の検出結果とに基づいて、前記混合オーディオ信号において前記目的音源の音が聞こえやすいかの判定処理を行う
　ステップを含む処理をコンピュータに実行させるプログラム。

　１１　信号処理装置，　２１　入力部，　２２　正解ラベル生成部，　２３　オーディオ信号編集部，　２４　音声検出部，　２５　音声判定部，　２６　表示制御部，　２７　表示部

Claims

　目的音源の音、および前記目的音源とは異なる目的外音源の音が含まれる混合オーディオ信号に基づいて、前記混合オーディオ信号から前記目的音源の音の時間区間を検出する音声検出部と、
　前記目的音源のオーディオ信号における前記目的音源の音の時間区間を示すラベル情報と、前記目的音源の音の時間区間の検出結果とに基づいて、前記混合オーディオ信号において前記目的音源の音が聞こえやすいかの判定処理を行う音声判定部と
　を備える信号処理装置。
　前記音声判定部は、時間区間ごとに、前記ラベル情報と前記検出結果とに基づく値に対する閾値処理を行うことで、前記判定処理を行う
　請求項１に記載の信号処理装置。
　前記判定処理により前記目的音源の音が聞こえにくいと判定された場合、前記目的音源のオーディオ信号、および前記目的外音源のオーディオ信号の少なくとも何れか一方に対して、前記目的音源の音を聞こえやすくするための編集処理を行う編集部をさらに備える
　請求項１に記載の信号処理装置。
　前記音声検出部は、前記編集処理により得られたオーディオ信号を用いて生成された、前記目的音源および前記目的外音源の音が含まれる編集混合オーディオ信号に基づいて、前記目的音源の音の時間区間を検出し、
　前記音声判定部は、前記編集混合オーディオ信号に基づく前記目的音源の音の時間区間の検出結果と、前記ラベル情報とに基づいて前記判定処理を行い、
　前記編集部は、前記判定処理により前記目的音源の音が聞こえやすいと判定されるまで、前記編集処理を繰り返し行う
　請求項３に記載の信号処理装置。
　前記編集部は、ゲイン調整、イコライザ処理、および前記目的外音源のオーディオ信号を他のオーディオ信号に置き換える置き換え処理のうちの少なくとも何れかを前記編集処理として行う
　請求項３に記載の信号処理装置。
　前記目的音源のオーディオ信号、および前記目的外音源のオーディオ信号の編集のための編集画面における、前記判定処理の結果に応じた表示を制御する表示制御部をさらに備える
　請求項３に記載の信号処理装置。
　前記表示制御部は、前記編集画面において、前記判定処理により前記目的音源の音が聞こえにくいと判定された時間区間を他の時間区間とは異なる表示形式で表示させる
　請求項６に記載の信号処理装置。
　前記表示制御部は、前記編集画面上に、前記編集処理において用いられるパラメータを指定するためのGUIコンポーネントを表示させる
　請求項６に記載の信号処理装置。
　前記表示制御部は、前記編集画面上に、前記判定処理の実行を指示するためのGUIコンポーネントを表示させる
　請求項６に記載の信号処理装置。
　前記表示制御部は、前記編集画面上に、前記編集処理の実行を指示するためのGUIコンポーネントを表示させる
　請求項６に記載の信号処理装置。
　前記表示制御部は、前記編集処理を行った場合、前記編集画面における前記編集処理が行われた時間区間を、他の時間区間とは異なる表示形式で表示させる
　請求項６に記載の信号処理装置。
　前記表示制御部は、前記編集処理を行った場合、前記編集画面における前記編集処理が行われた時間区間に、行われた前記編集処理を示す情報、および前記編集処理時に行われた調整の調整量を示す情報の少なくとも何れか一方を表示させる
　請求項１１に記載の信号処理装置。
　前記音声検出部は、前記混合オーディオ信号を入力とし、前記目的音源の音の時間区間の検出結果を出力とする音声検出器に基づいて、前記目的音源の音の時間区間を検出する
　請求項１に記載の信号処理装置。
　前記音声検出器は機械学習により予め生成される
　請求項１３に記載の信号処理装置。
　前記音声検出器はニューラルネットワークにより構成される
　請求項１４に記載の信号処理装置。
　前記音声検出部は、前記目的音源のオーディオ信号と、前記目的外音源のオーディオ信号とを加算することで前記混合オーディオ信号を生成する
　請求項１に記載の信号処理装置。
　前記目的音源のオーディオ信号に基づいて、前記ラベル情報を生成するラベル情報生成部をさらに備える
　請求項１に記載の信号処理装置。
　信号処理装置が、
　目的音源の音、および前記目的音源とは異なる目的外音源の音が含まれる混合オーディオ信号に基づいて、前記混合オーディオ信号から前記目的音源の音の時間区間を検出し、
　前記目的音源のオーディオ信号における前記目的音源の音の時間区間を示すラベル情報と、前記目的音源の音の時間区間の検出結果とに基づいて、前記混合オーディオ信号において前記目的音源の音が聞こえやすいかの判定処理を行う
　信号処理方法。
　目的音源の音、および前記目的音源とは異なる目的外音源の音が含まれる混合オーディオ信号に基づいて、前記混合オーディオ信号から前記目的音源の音の時間区間を検出し、
　前記目的音源のオーディオ信号における前記目的音源の音の時間区間を示すラベル情報と、前記目的音源の音の時間区間の検出結果とに基づいて、前記混合オーディオ信号において前記目的音源の音が聞こえやすいかの判定処理を行う
　ステップを含む処理をコンピュータに実行させるプログラム。