WO2017057531A1

WO2017057531A1 - 音響処理装置

Info

Publication number: WO2017057531A1
Application number: PCT/JP2016/078753
Authority: WO
Inventors: 慶太有元
Original assignee: ヤマハ株式会社
Priority date: 2015-09-29
Filing date: 2016-09-29
Publication date: 2017-04-06
Also published as: JP6657713B2; CN108369800B; JP2017067902A; US10298192B2; US20180219521A1; CN108369800A

Abstract

音響処理装置は、発音源が発音した収録音を表す収録信号を再生する再生制御部と、演奏信号が表す演奏音の発音源の種類を特定する音源識別部とを具備し、前記再生制御部は、前記音源識別部が特定した発音源の種類に前記収録信号の発音源が対応する場合に当該収録信号の音量を低下させる。

Description

音響処理装置

　本発明は、音響信号の再生を制御する技術に関する。

　歌唱音や楽器の演奏音等の各種の音響から発音源の種類を特定する技術が従来から提案されている。例えば特開２０１３－１５６０１号公報には、収録音の解析で生成された特徴データを、音源データベースに発音源の種類毎に登録された登録特徴データと順次に照合することで、収録音の発音源の種類を特定する技術が開示されている。

　ところで、収録済の音響の再生に並行して利用者が楽器を演奏（セッション）する場面が想定される。しかし、利用者による楽器の演奏音と収録済の音響との間で発音内容（例えば旋律）が共通する場合など、演奏音と収録音とが併存すると音楽的に不自然な印象となる場合がある。また、利用者による楽器の演奏に収録音が邪魔になる可能性もある。以上の事情を考慮して、本発明は、収録信号の再生に並行した演奏を容易化することを目的とする。

　本発明の音響処理装置は、発音源が発音した収録音を表す収録信号を再生する再生制御部と、演奏信号が表す演奏音の発音源の種類を特定する音源識別部とを具備し、前記再生制御部は、前記音源識別部が特定した発音源の種類に前記収録信号の発音源が対応する場合に当該収録信号の音量を低下させることを特徴とする。

　本発明の音響処理方法は、再生制御部により、発音源が発音した収録音を表す収録信号を再生し、音源識別部により、演奏信号が表す演奏音の発音源の種類を特定し、前記再生制御部は、前記音源識別部が特定した発音源の種類に前記収録信号の発音源が対応する場合に当該収録信号の音量を低下させることを特徴とする。

本発明の第１実施形態に係る音響処理装置の構成図である。音響解析部の構成図である。音響信号の各発音区間の説明図である。音源識別部の構成図である。調波解析処理のフローチャートである。音源識別処理のフローチャートである。再生制御部の構成図である。関係情報の模式図である。第２実施形態の音響処理装置の構成図である。第３実施形態の音響処理装置の構成図である。変形例における収録音の音源識別情報の生成の説明図である。

＜第１実施形態＞
　図１は、本発明の第１実施形態の音響処理装置１２の構成図である。図１に例示される通り、音響処理装置１２には演奏装置１３と放音装置１６とが接続される。なお、図１では演奏装置１３と放音装置１６とを音響処理装置１２とは別個の要素として図示したが、演奏装置１３と放音装置１６とを音響処理装置１２に搭載することも可能である。

　演奏装置１３は、利用者による演奏動作に応じた音響（以下「演奏音」という）を表す音響信号（以下「演奏信号」という）Ｙを生成する。具体的には、利用者が演奏した楽音の演奏信号Ｙを生成する電子楽器や、利用者が歌唱により発音した歌唱音声の演奏信号Ｙを生成する収音機器が演奏装置１３として利用され得る。なお、演奏装置１３が生成した演奏信号Ｙをアナログからデジタルに変換するＡ/Ｄ変換器の図示は便宜的に省略した。

　演奏信号Ｙで表現される演奏音は、調波音または非調波音である。調波音は、基本周波数の基音成分と複数の倍音成分とを周波数軸上に配列した調波構造が明瞭に観測される調波性の音響である。例えば弦楽器または管楽器等の調波楽器の楽音や歌唱音声等の人間の発声音が調波音の典型例である。他方、非調波音は、調波構造が明瞭に観測されない非調波性の音響である。例えばドラムやシンバル等の打楽器の楽音が非調波音の典型例である。

　なお、調波音は、調波性の音響成分を非調波性の音響成分と比較して優勢に含有する音響を意味する。したがって、調波性の音響成分のみで構成される音響のほか、調波性の音響成分と非調波性の音響成分との双方を含有するが全体としては調波性が優勢である音響も、調波音の概念に包含される。同様に、非調波音は、非調波性の音響成分を調波性の音響成分と比較して優勢に含有する音響を意味する。したがって、非調波性の音響成分のみで構成される音響のほか、調波性の音響成分と非調波性の音響成分との双方を含有するが全体としては非調波性が優勢である音響も、非調波音の概念に包含される。以下の説明では、調波音に関連する要素の符号に添字Ｈ（Ｈ：Harmonic）を付加し、非調波音に関連する要素の符号に添字Ｐ（Ｐ：Percussive）を付加する場合がある。

　音響処理装置１２は、制御装置１２２と記憶装置１２４とを具備するコンピュータシステムで実現される。記憶装置１２４は、例えば磁気記録媒体や半導体記録媒体等の公知の記録媒体または複数種の記録媒体の組合せであり、制御装置１２２が実行するプログラムや制御装置１２２が使用する各種のデータを記憶する。

　第１実施形態の記憶装置１２４は、相異なる発音源が発音した音響（以下「収録音」という）を表す複数の音響信号（以下「収録信号」という）ＸAを記憶する。複数の収録信号ＸAの各々の収録音は、相異なる発音源（例えば演奏により楽音を発音する楽器や歌唱音声を発音する歌唱者）の近傍に配置された収音機器で収録された音響である。具体的には、収録スタジオ等の音響空間の内部で任意の楽曲の各演奏パートの楽器の音響を複数の収録機器により収録することで複数の収録信号ＸAが生成される。複数の収録信号ＸAの各々には、当該収録信号ＸAが表す収録音の発音源の種類を示す音源識別情報ＤXが付加される。音源識別情報ＤXは、例えば発音源の名称（具体的には楽器名や演奏パート名）である。なお、収録信号ＸAと音源識別情報ＤXとを音響処理装置１２の外部の記憶装置（例えばクラウドストレージ）に記憶することも可能である。すなわち、収録信号ＸAや音源識別情報ＤXを記憶する機能は音響処理装置１２から省略され得る。

　制御装置１２２は、記憶装置１２４が記憶するプログラムを実行することで、音響解析部２０と再生制御部３０とを実現する。なお、制御装置１２２の機能の一部または全部を専用の電子回路で実現する構成や、制御装置１２２の機能を複数の装置に分散した構成も採用され得る。

　音響解析部２０は、演奏装置１３から供給される演奏信号Ｙが表す演奏音の発音源の種類を特定する。具体的には、音響解析部２０は、演奏音の発音源の種類を示す音源識別情報ＤYを生成する。音源識別情報ＤYは、音源識別情報ＤXと同様に、例えば発音源の名称である。他方、再生制御部３０は、記憶装置１２４に記憶された複数の収録信号ＸAを放音装置１６から再生する。複数の収録信号ＸAの再生に並行して、利用者は、楽曲の所望の演奏パートを演奏装置１３により演奏（すなわちセッション）する。第１実施形態の再生制御部３０は、複数の収録信号ＸAと演奏信号Ｙとから音響信号ＸBを生成する。放音装置１６（例えばスピーカやヘッドホン）は、音響処理装置１２（再生制御部３０）が生成した音響信号ＸBに応じた音響を放音する。なお、音響処理装置１２が生成した音響信号ＸBをデジタルからアナログに変換するＤ/Ａ変換器の図示は便宜的に省略した。音響解析部２０および再生制御部３０の具体例を以下に詳述する。

＜音響解析部２０＞
　図２は、音響解析部２０の構成図である。図２に例示される通り、第１実施形態の音響解析部２０は、発音区間検出部４０と特徴量抽出部５０と音源識別部６０とを具備する。

　図２の発音区間検出部４０は、演奏信号Ｙについて複数の発音区間Ｐを検出する。図３には、演奏信号Ｙの波形と発音区間Ｐとの関係が図示されている。図３から理解される通り、各発音区間Ｐは、演奏信号Ｙが表す演奏音が発音される時間軸上の区間であり、演奏音の発音が開始する時点（以下「発音始点」という）ＴSから終点（以下「発音終点」という）ＴEまでの区間である。

　具体的には、第１実施形態の発音区間検出部４０は、演奏信号Ｙの強度が閾値ＡTHを上回る時点を発音始点ＴSとして特定し、発音始点ＴSから所定の時間が経過した時点を発音終点ＴEとして特定する。閾値ＡTHの選定方法は任意であるが、演奏信号Ｙの強度の最大値Ａmaxに対して１未満の正数（例えば０.５）を乗算した数値が閾値ＡTHとして好適である。なお、発音始点ＴSの経過後に演奏信号Ｙの強度が所定の閾値（例えば最大値Ａmaxに応じた数値）まで減衰した時点を発音終点ＴEとして特定することも可能である。

　図２の特徴量抽出部５０は、演奏信号Ｙの特徴量Ｆを抽出する。第１実施形態の特徴量抽出部５０は、発音区間検出部４０が検出した発音区間Ｐ毎に特徴量Ｆを順次に抽出する。特徴量Ｆは、発音区間Ｐ内の演奏信号Ｙの音響的な特徴を表す指標である。第１実施形態の特徴量Ｆは、相異なる複数種の特性値ｆ（ｆ1，ｆ2，……）を包含するベクトルで表現される。具体的には、演奏信号Ｙの音色を表すＭＦＣＣ（Mel-frequency cepstral coefficients），発音区間Ｐ内の音響の立上がりの急峻度，基音成分に対する倍音成分の強度比，演奏信号Ｙの強度の符号が反転する回数または頻度である零交差数等の複数種の特性値ｆが特徴量Ｆに包含される。

　各発音源が発音する音響の特徴は、発音始点ＴSの直後に特に顕著となる。第１実施形態では、演奏信号Ｙの発音始点ＴS毎（発音区間Ｐ毎）に演奏信号Ｙの特徴量Ｆが抽出されるから、発音の有無や時点とは無関係に演奏信号Ｙを区分した区間毎に特徴量Ｆを抽出する構成と比較して、発音源の種類毎に固有の特徴が顕著に反映された特徴量Ｆを抽出できるという利点がある。もっとも、発音源による発音の有無や時点とは無関係に演奏信号Ｙを時間軸上で区分した区間毎に特徴量Ｆを抽出する（したがって発音区間検出部４０は省略される）ことも可能である。

　音源識別部６０は、特徴量抽出部５０が抽出した特徴量Ｆを利用して演奏信号Ｙの発音源の種類を識別することで音源識別情報ＤYを生成する。図４は、第１実施形態の音源識別部６０の構成図である。図４に例示される通り、第１実施形態の音源識別部６０は、調波性解析部６２と第１解析部６４と第２解析部６６と音源特定部６８とを具備する。

　調波性解析部６２は、演奏信号Ｙが表す演奏音が調波音および非調波音の何れに該当するかを演奏信号Ｙの特徴量Ｆから解析する。第１実施形態の調波性解析部６２は、演奏音が調波音に該当する確度ＷH（第１確度）と演奏音が非調波音に該当する確度ＷP（第２確度）とを算定する。

　具体的には、特徴量Ｆの解析で調波音と非調波音とを判別する公知のパターン認識器が調波性解析部６２として任意に利用される。第１実施形態では、教師あり学習を利用した統計モデルの代表例であるサポートベクターマシーン（ＳＶＭ：Support Vector Machine）を調波性解析部６２として例示する。すなわち、調波性解析部６２は、調波音と非調波音とを含む多数の音響の学習データを適用した機械学習で事前に決定された超平面を利用して、特徴量Ｆの演奏音が調波音および非調波音の何れに該当するかを特徴量Ｆ毎（発音区間Ｐ毎）に順次に判別する。そして、調波性解析部６２は、例えば所定の期間内に演奏音が調波音であると判別した回数の比率（調波音と判別した回数／当該期間内の判別の総回数）を調波音の確度ＷHとして算定する一方、演奏音が非調波音であると判別した回数の比率を非調波音の確度ＷPとして算定する（ＷH＋ＷP＝１）。以上の説明から理解される通り、演奏信号Ｙの演奏音が調波音である可能性（尤度）が高いほど確度ＷHは大きい数値となり、演奏音が非調波音である可能性が高いほど確度ＷPは大きい数値となる。

　第１解析部６４は、演奏信号Ｙの演奏音の発音源が複数種の調波音源の何れに該当するかを演奏信号Ｙの特徴量Ｆから解析する。調波音源は、調波音を発音する発音源（例えば調波楽器）を意味する。図４では、ベース（Bass），ギター（Guitar），男性歌唱者（male Vo.），女性歌唱者（female Vo.）の４種類が、演奏音の発音源の候補となる調波音源として例示されている。具体的には、第１実施形態の第１解析部６４は、Ｎ種類（Ｎは２以上の自然数）の調波音源の各々について、演奏音の発音源が当該調波音源に該当する確度に応じた評価値ＥH(n)（ＥH(1)～ＥH(N)）を設定する。

　図５は、第１解析部６４が評価値ＥH(1)～ＥH(N)を設定する処理（以下「調波解析処理」という）のフローチャートである。特徴量抽出部５０による特徴量Ｆの抽出毎（したがって発音区間Ｐ毎）に図５の調波解析処理が実行される。

　調波解析処理を開始すると、第１解析部６４は、事前に選定されたＮ種類の調波音源から任意の２種類の調波音源を選択する全通り（_NＣ₂通り）の組合せの各々について、演奏音の発音源が当該組合せの２種類の調波音源の何れに該当するかを、特徴量Ｆを利用して判別する（ＳA1）。以上の判別には、２種類の調波音源を判別候補とするサポートベクターマシーンが好適に利用される。すなわち、調波音源の組合せに相当する_NＣ₂通りのサポートベクターマシーンに特徴量Ｆを適用することで、当該組合せ毎に演奏音の発音源が２種類の調波音源から選択される。

　第１解析部６４は、Ｎ種類の調波音源の各々について、演奏音の発音源が当該調波音源に該当する確度ＣH(n)（ＣH(1)～ＣH(N)）を算定する（ＳA2）。任意の１個（第ｎ番目）の調波音源の確度ＣH(n)は、例えば、合計_NＣ₂回にわたる判別のうち演奏音の発音源が第ｎ番目の調波音源に該当すると判別された回数の比率（調波音源に該当すると判別された回数／_NＣ₂）である。以上の説明から理解される通り、演奏信号Ｙの演奏音の発音源がＮ種類のうち第ｎ番目の調波音源に該当する可能性（尤度）が高いほど確度ＣH(n)は大きい数値となる。

　第１解析部６４は、調波音源毎に算定された確度ＣH(n)の順位に対応した数値（得点）を評価値ＥH(n)としてＮ種類の調波音源の各々について設定する（ＳA3）。具体的には、確度ＣH(n)が大きいほど評価値ＥH(n)が大きい数値となるように確度ＣH(n)の順位に応じた数値が各調波音源の評価値ＥH(n)に付与される。例えば、確度ＣH(n)の降順で最上位に位置する調波音源の評価値ＥH(n)は数値ε1（例えばε1＝１００）に設定され、確度ＣH(n)が第２位に位置する調波音源の評価値ＥH(n)は数値ε1を下回る数値ε2（例えばε2＝８０）に設定され、確度ＣH(n)が第３位に位置する調波音源の評価値ＥH(n)は数値ε2を下回る数値ε3（例えばε3＝６０）に設定され、所定の順位を下回る残余の調波音源の評価値ＥH(n)は最小値（例えば０）に設定される、という具合である。以上の説明から理解される通り、演奏信号Ｙの演奏音の発音源がＮ種類のうち第ｎ番目の調波音源に該当する可能性が高いほど評価値ＥH(n)は大きい数値となる。以上が調波解析処理の好適例である。

　図４の第２解析部６６は、演奏信号Ｙの演奏音の発音源が複数種の非調波音源の何れに該当するかを演奏信号Ｙの特徴量Ｆから解析する。非調波音源は、非調波音を発音する発音源（例えば打楽器等の非調波楽器）を意味する。図４では、バスドラム（Kick），スネアドラム（Snare），ハイハット（Hi-Hat），フロアタム（F-Tom），シンバル（Cymbal）の５種類が、演奏音の発音源の候補となる非調波音源として例示されている。具体的には、第１実施形態の第２解析部６６は、Ｍ種類（Ｍは２以上の自然数）の非調波音源の各々について、演奏音の発音源が当該非調波音源に該当する確度に応じた評価値ＥP(m)（ＥP(1)～ＥP(M)）を設定する。なお、調波音源の種類数Ｎと非調波音源の種類数Ｍとの異同は不問である。

　第２解析部６６によるＭ個の評価値ＥP(1)～ＥP(M)の設定（非調波解析処理）は、図５に例示した調波解析処理（第１解析部６４による評価値ＥH(n)の設定）と同様である。具体的には、第２解析部６６は、Ｍ種類の非調波音源から２種類を選択する全通り（_MＣ₂通り）の組合せの各々について、演奏音の発音源が当該組合せの２種類の非調波音源の何れに該当するかを判別し、演奏音の発音源が第ｍ番目の非調波音源に該当する確度ＣP(m)を非調波音源毎に算定する。非調波音源の判別には、調波解析処理での調波音源の判別と同様にサポートベクターマシーンが好適に利用される。

　そして、第２解析部６６は、Ｍ種類の非調波音源の各々について、確度ＣP(m)の順位に対応した数値を評価値ＥP(m)として設定する。確度ＣP(m)の任意の順位に位置する非調波音源の評価値ＥP(m)には、確度ＣH(n)の順番で同順位に位置する調波音源の評価値ＥH(n)と同等の数値が付与される。具体的には、確度ＣP(m)の降順で最上位に位置する非調波音源の評価値ＥP(m)は数値ε1に設定され、確度ＣP(m)が第２位に位置する非調波音源の評価値ＥP(m)は数値ε2に設定され、確度ＣP(m)が第３位に位置する非調波音源の評価値ＥP(m)は数値ε3に設定され、所定の順位を下回る残余の調波音源の評価値ＥP(m)は最小値（例えば０）に設定される。したがって、演奏信号Ｙの演奏音の発音源がＭ種類のうち第ｍ番目の非調波音源に該当する可能性（尤度）が高いほど評価値ＥP(m)は大きい数値となる。

　特徴量抽出部５０が演奏信号Ｙから抽出する任意の１個の特徴量Ｆは、前述の通り、相異なる特性値ｆ1（第１特性値）および特性値ｆ2（第２特性値）を含む複数の特性値ｆで構成される。第１実施形態の第１解析部６４は、特徴量Ｆの特性値ｆ1を利用して、演奏音の発音源がＮ種類の調波音源の各々に該当する確度ＣH(n)を解析する。他方、第２解析部６６は、特徴量Ｆの特性値ｆ2を利用して、演奏音の発音源がＭ種類の非調波音源の各々に該当する確度ＣP(m)を解析する。すなわち、第１解析部６４が調波音源の確度ＣH(n)の算定に利用する特徴量Ｆ（特性値ｆ1）と第２解析部６６が非調波音源の確度ＣP(m)の算定に適用する特徴量Ｆ（特性値ｆ2）とは相違する。

　具体的には、第１解析部６４による確度ＣH(n)の算定には、調波音源の種類毎に相違が顕著となる特性値ｆ1が利用される。例えば、音色を表すＭＦＣＣや、基音成分に対する倍音成分の強度比等の特性値ｆ1が、調波音の確度ＣH(n)の算定に好適に利用される。他方、第２解析部６６による確度ＣP(m)の算定には、非調波音源の種類毎に相違が顕著となる特性値ｆ2が利用される。例えば、音響の立上がりの急峻度や零交差数等の特性値ｆ2が、非調波音の確度ＣP(m)の算定に好適に利用される。なお、第１解析部６４が利用する特性値ｆ1と第２解析部６６が利用する特性値ｆ2とを部分的に共通させることも可能である。

　図４の音源特定部６８は、調波性解析部６２と第１解析部６４と第２解析部６６とによる以上の解析の結果に応じて演奏信号Ｙの発音源の種類を特定する。発音源の種類の特定は発音区間Ｐ毎に実行される。図４に例示される通り、第１実施形態の音源特定部６８は、乗算部６８２と乗算部６８４と選択処理部６８６とを包含する。

　乗算部６８２は、第１解析部６４がＮ種類の調波音源について設定したＮ個の評価値ＥH(1)～ＥH(N)の各々に、調波性解析部６２が解析した調波音の確度ＷHを乗算することでＮ個の識別指標Ｒ（Ｒ＝ＥH(n)×ＷH）を算定する。他方、乗算部６８４は、第２解析部６６がＭ種類の非調波音源について設定したＭ個の評価値ＥP(1)～ＥP(M)の各々に、調波性解析部６２が解析した非調波音の確度ＷPを乗算することでＭ個の識別指標Ｒ（Ｒ＝ＥP(m)×ＷP）を算定する。乗算部６８２および乗算部６８４の処理により、Ｎ種類の調波音源とＭ種類の非調波音源とを含むＫ種類（Ｋ＝Ｎ＋Ｍ）の候補音源の各々について識別指標Ｒが算定される。以上の説明から理解される通り、確度ＷHは、調波音の各評価値ＥH(n)に対する加重値に相当し、確度ＷPは、非調波音の各評価値ＥP(m)に対する加重値に相当する。演奏音が調波音に該当する確度ＷHが大きいほど調波音源の識別指標Ｒが相対的に優勢となり、演奏音が非調波音に該当する確度ＷPが大きいほど非調波音源の識別指標Ｒが相対的に優勢となる。

　選択処理部６８６は、乗算部６８２および乗算部６８４が算定したＫ個の識別指標Ｒに応じて演奏信号Ｙの演奏音の発音源の種類を特定し、当該発音源の種類を示す音源識別情報ＤY（例えば楽器名）を生成する。具体的には、選択処理部６８６は、Ｋ種類の候補音源のうち識別指標Ｒが最大となる１種類の候補音源を演奏音の発音源として選択し、当該候補音源を指定する音源識別情報ＤYを生成する。すなわち、演奏信号Ｙの演奏音の発音源の種類が識別される。

　図６は、第１実施形態の音源識別部６０が任意の１系統の演奏信号Ｙについて演奏音の発音源の種類を特定する処理（以下「音源識別処理」という）のフローチャートである。複数の演奏信号Ｙの各々について、特徴量抽出部５０による特徴量Ｆの抽出毎（発音区間Ｐ毎）に図６の音源識別処理が実行される。

　音源識別処理を開始すると、調波性解析部６２は、演奏信号Ｙが表す演奏音が調波音および非調波音の何れに該当するかを演奏信号Ｙの特徴量Ｆから解析する（ＳB1）。他方、第１解析部６４は、図５を参照して説明した調波解析処理によりＮ種類の調波音源の各々について評価値ＥH(n)（ＥH(1)～ＥH(N)）を算定し（ＳB2）、第２解析部６６は、調波解析処理と同様の非調波解析処理によりＭ種類の非調波音源の各々について評価値ＥP(m)（ＥP(1)～ＥP(M)）を算定する（ＳB3）。そして、音源特定部６８は、調波性解析部６２と第１解析部６４と第２解析部６６とによる以上の解析の結果に応じて演奏信号Ｙの発音源の種類を特定する（ＳB4）。なお、調波性解析部６２による調波性の解析と、第１解析部６４による調波解析処理と、第２解析部６６による非調波解析処理との順序は任意である。例えば調波解析処理（ＳB2）および非調波解析処理（ＳB3）の実行後に調波性解析部６２が調波性を解析することも可能である。音響解析部２０の構成および動作の具体例は以上の通りである。

　以上に説明した通り、第１実施形態では、調波音と非調波音とを相互に区別して演奏音の発音源の種類が特定される。具体的には、演奏音が調波音および非調波音の各々に該当する確度（ＷH，ＷP）を調波性解析部６２が解析した結果と、演奏音の発音源がＮ種類の調波音源の各々に該当する確度ＣH(n)を第１解析部６４が解析した結果と、演奏音の発音源がＭ種類の非調波音源の各々に該当する確度ＣP(m)を第２解析部６６が解析した結果とを利用して、演奏音の発音源の種類が特定される。したがって、調波音と非調波音とを区別せずに発音源の種類を特定する構成と比較して演奏音の発音源の種類を高精度に特定することが可能である。第１解析部６４や第２解析部６６の未学習の発音源についても再生制御部３０による調波音／非調波音の識別は可能であるという利点もある。

　また、第１実施形態では、演奏音が調波音に該当する確度ＷHと各調波音源の評価値ＥH(n)との乗算、および、演奏音が非調波音に該当する確度ＷPと各非調波音源の評価値ＥP(m)との乗算により、Ｋ種類の候補楽器（Ｎ種類の調波音源およびＭ種類の非調波音源）の各々について識別指標Ｒが算定され、各識別指標Ｒに応じて演奏音の発音源の種類が特定される。すなわち、演奏音が調波音に該当する確度ＷHが大きいほど調波音源の識別指標Ｒが相対的に優勢となり、演奏音が非調波音に該当する確度ＷPが大きいほど非調波音源の識別指標Ｒが相対的に優勢となる。したがって、Ｋ個の識別指標Ｒの比較により演奏音の発音源の種類を簡便かつ高精度に特定できるという利点がある。

　ところで、例えば演奏音の発音源が調波音源に該当する確度ＣH(n)を評価値ＥH(n)として利用するとともに演奏音の発音源が非調波音源に該当する確度ＣP(m)を評価値ＥP(m)として利用する構成（以下「比較例」という）では、評価値ＥH(n)の数値が調波音源の種類数Ｎに依存するとともに評価値ＥP(m)の数値が非調波音源の種類数Ｍに依存する。例えば、調波音源の種類数Ｎが多いほど確度ＣH(n)は小さい数値となる。したがって、調波音源の種類数Ｎと非調波音源の種類数Ｍとが相違する場合には、評価値ＥH(n)と評価値ＥP(m)とを適切に比較できないという問題がある。第１実施形態では、演奏音の発音源が調波音源に該当する確度ＣH(n)の順位に応じた数値が評価値ＥH(n)として調波音源毎に設定され、演奏音の発音源が非調波音源に該当する確度ＣP(m)の順位に応じた数値が評価値ＥP(m)として非調波音源毎に設定される。すなわち、評価値ＥH(n)は調波音源の種類数Ｎに依存しない数値に設定され、評価値ＥP(m)は非調波音源の種類数Ｍに依存しない数値に設定される。したがって、第１実施形態によれば、例えば調波音源の種類数Ｎと非調波音源の種類数Ｍとが相違する場合でも評価値ＥH(n)と評価値ＥP(m)とを適切に比較できるという利点がある。調波音源の種類数Ｎおよび非調波音源の種類数Ｍの制約が緩和されると換言することも可能である。ただし、前述の比較例も本発明の範囲には包含される。

　また、第１実施形態では、第１解析部６４が調波音源の確度ＣH(n)の算定に利用する特徴量Ｆ（特性値ｆ1）と第２解析部６６が非調波音源の確度ＣP(m)の算定に適用する特徴量Ｆ（特性値ｆ2）とが相違する。具体的には、例えば第１解析部６４による確度ＣH(n)の算定には調波音の識別に好適な特性値ｆ1が利用され、第２解析部６６による確度ＣP(m)の算定には非調波音の識別に好適な特性値ｆ2が利用される。したがって、調波音源の確度ＣH(n)の算定と非調波音源の確度ＣP(m)の算定とに同種の特徴量を利用する構成と比較して、演奏音の発音源を高精度に特定できるという利点がある。ただし、第１解析部６４と第２解析部６６とが共通の特徴量Ｆを利用することも可能である。

＜再生制御部３０＞
　図１の再生制御部３０は、以上に説明した音響解析部２０による解析結果（音源識別部６０が生成した音源識別情報ＤY）に応じて複数の収録信号ＸAと演奏信号Ｙとを混合することで音響信号ＸBを生成する。図７は、再生制御部３０の構成図である。図７に例示される通り、第１実施形態の再生制御部３０は、音響処理部３２と音量調整部３４と混合処理部３６とを具備する。なお、音響処理部３２と音量調整部３４との前後は逆転され得る。

　音響処理部３２は、記憶装置１２４に記憶された各収録信号ＸAと演奏装置１３から供給される演奏信号Ｙとに対して各種の音響処理を実行する。例えば残響効果や歪効果等の各種の音響効果を付与する効果付与処理（エフェクタ），周波数帯域毎の音量を調整する特性調整処理（イコライザ），音像が定位する位置を調整する定位調整処理（パン）等の各種の音響処理が、音響処理部３２により各収録信号ＸAおよび演奏信号Ｙに実行される。

　音量調整部３４は、音響処理部３２による処理後の各収録信号ＸAおよび演奏信号Ｙの音量（混合比）を調整する。例えば利用者からの指示に応じて音量を調整するほか、第１実施形態の音量調整部３４は、複数の収録信号ＸAのうち音響解析部２０（音源識別部６０）が特定した演奏音の発音源の種類に対応する収録信号（以下「対象信号」という）ＸAの音量を低下させる。第１実施形態の音量調整部３４は、対象信号ＸAの音量をゼロ（消音）に変更する。

　音量調整部３４による対象信号ＸAの選択には図８の関係情報Ｇが使用される。関係情報Ｇは、収録音の発音源と演奏音の発音源との対応を指定する情報であり、事前に用意されて記憶装置１２４に格納される。具体的には、関係情報Ｇは、図８に例示される通り、収録信号ＸAに付加され得る各音源識別情報ＤX（ＤX1，ＤX2，……）と演奏信号Ｙから特定され得る各音源識別情報ＤY（ＤY1，ＤY2，……）とを相互に対応付けるデータテーブルである。

　音量調整部３４は、記憶装置１２４に記憶された関係情報Ｇを参照し、音源識別部６０が特定した演奏音の発音源に関係情報Ｇで対応付けられた発音源の収録信号ＸAを対象信号ＸAとして選択する。具体的には、音量調整部３４は、音源識別部６０が生成した音源識別情報ＤYに対応する音源識別情報ＤXを関係情報Ｇから探索し、当該音源識別情報ＤXが付加された収録信号ＸAを対象信号ＸAとして音量を低下させる。例えば「歌唱音声」の音源識別情報ＤXと「サックス」の音源識別情報ＤYとの対応を指定する関係情報Ｇを想定すると、演奏装置１３の一例である「サックス」を利用者が演奏した場合、複数の収録信号ＸAのうち「歌唱音声」の収録信号ＸAが対象信号ＸAとして選択されて音量が低減（例えば消音）される。なお、上記音量の低下は、徐々に音量を低下させるように構成してもよい。

　音量調整部３４による対象信号ＸAの選択と当該対象信号ＸAの音量の調整とは、例えば所定の周期で反復的に実行される。したがって、利用者が演奏装置１３の演奏を開始していない期間では全部の収録信号ＸAが適度な音量で再生され、利用者が演奏装置１３の演奏を開始した場合に対象信号ＸAの音量が低下する。また、利用者が演奏装置１３の演奏を終了した場合には対象信号ＸAの音量が再び増加する。

　関係情報Ｇでは、例えば音楽的に両立し難い発音源間の対応が指定される。例えば、音響特性が相互に近似するため再生音と収録音とが並列に再生されると受聴者が違和感を知覚する２種類の発音源の組合せや、音楽的な表情や印象が極端に相違するため再生音と収録音とが並列に再生されると受聴者が違和感を知覚する２種類の発音源の組合せが、関係情報Ｇで指定される。したがって、演奏信号Ｙの演奏音の発音源と並列に再生された場合に受聴者に違和感を付与し得る傾向がある発音源の対象信号ＸAについて音量が低減される。

　図７の混合処理部３６は、音響処理部３２および音量調整部３４による処理後の複数の収録信号ＸAと演奏信号Ｙとを混合（ミキシング）することで音響信号ＸBを生成する。以上の処理の結果、楽曲の複数の演奏パートの一部（対象信号ＸAに対応する収録音）を利用者が演奏した演奏音に置換した再生音が放音装置１６から再生される。すなわち、第１実施形態の再生制御部３０は、音源識別部６０による発音源の識別結果を反映した自動ミキシングを実現する。

　以上に説明した通り、第１実施形態では、複数の収録信号ＸAのうち演奏信号Ｙが表す演奏音の発音源の種類に対応する収録信号ＸAの音量が低下する。したがって、演奏音の発音源の種類に応じた収録信号ＸAの音量の制御を実行しない構成と比較して、複数の収録信号ＸAの再生に並行した演奏を容易化する（収録音の再生に邪魔されずに演奏する）ことが可能である。第１実施形態では特に、複数の収録信号ＸAのうち関係情報Ｇにて演奏音の発音源に対応付けられた発音源の収録信号ＸA（対象信号ＸA）の音量が低下するから、例えば音楽的に両立し難い発音源間の対応を関係情報Ｇにて事前に指定することで、複数の収録信号ＸAの再生に並行した演奏を容易化することが可能である。

＜第２実施形態＞
　本発明の第２実施形態を説明する。なお、以下に例示する各形態において作用や機能が第１実施形態と同様である要素については、第１実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。

　図９は、第２実施形態の音響処理装置１２の構成図である。図９に例示される通り、第２実施形態の音響処理装置１２は、第１実施形態と同様の要素（音響解析部２０および再生制御部３０）に類否解析部７２を追加した構成である。類否解析部７２は、音響解析部２０および再生制御部３０と同様に、記憶装置１２４に記憶されたプログラムを制御装置１２２が実行することで実現される。

　図９の類否解析部７２は、記憶装置１２４に記憶された複数の収録信号ＸAの各々と演奏装置１３から供給される演奏信号Ｙとの間の発音内容の類否を解析する。類否解析部７２による解析対象となる発音内容は、例えば複数の音高の配列である旋律（メロディ）や音響の時間的な変動（例えば拍点の時系列）を意味するリズム等の音楽的な要素である。類否解析部７２は、複数の収録信号ＸAの各々について、当該収録信号ＸAと演奏信号Ｙとの発音内容の類似度（例えば距離や相関）Ｌを算定する。発音内容の類否の解析には公知の技術が任意に採用され得る。例えば、収録信号ＸAと演奏信号Ｙとの間において時間的に近い発音区間Ｐでの音高が類似する度合（すなわち収録音と演奏音とで旋律が類似する度合）や、収録信号ＸAと演奏信号Ｙとの間において発音区間Ｐの時間軸上の位置や個数が類似する度合（すなわち収録音と演奏音とでリズムが類似する度合）に応じて類似度Ｌを算定することが可能である。なお、収録信号ＸAと演奏信号Ｙとの間で時間軸上の対応を解析する公知の同期解析を類否解析部７２による解析に利用することも可能である。

　第２実施形態の音量調整部３４（再生制御部３０）は、音響処理部３２による処理後の複数の収録信号ＸAのうち演奏信号Ｙとの間で発音内容が類似すると類否解析部７２が判断した収録信号ＸAを対象信号ＸAに選択して音量を低下（例えば消音）させる。具体的には、音量調整部３４は、複数の収録信号ＸAのうち類似度Ｌが最大値である収録信号ＸA（すなわち、発音内容が演奏信号Ｙに最も類似する収録信号ＸA）を対象信号ＸAとして選択する。類否解析部７２による類似度Ｌの算定と音量調整部３４による対象信号ＸAの音量の調整とは、例えば所定の周期で反復的に実行される。したがって、利用者が演奏装置１３の演奏を開始していない期間では全部の収録信号ＸAが適度な音量で再生され、利用者が演奏装置１３の演奏を開始した場合に、当該演奏装置１３の演奏音に類似する対象信号ＸAの音量が低下する。また、利用者が演奏装置１３の演奏を終了した場合には対象信号ＸAの音量が再び増加する。なお、音響処理部３２および音量調整部３４による処理後の複数の収録信号ＸAおよび演奏信号Ｙから混合処理部３６が音響信号ＸBを生成する動作は第１実施形態と同様である。

　第２実施形態では、複数の収録信号ＸAのうち演奏信号Ｙとの間で発音内容が類似する収録信号（対象信号）ＸAの音量が低減される。したがって、楽曲内の同じ演奏パートの収録音のように発音内容が演奏音に類似する収録音に邪魔されずに、利用者は所望の演奏パートを演奏することが可能である。また、収録音の発音源と演奏音の発音源との対応を関係情報Ｇで事前に指定する第１実施形態と比較して、発音源間の対応を事前に登録する必要がないという利点や、未登録の発音源の収録信号ＸAについても演奏信号Ｙとの関係を加味して適切に音量を低減できるという利点がある。

＜第３実施形態＞
　図１０は、第３実施形態の音響処理装置１２の構成図である。図１０に例示される通り、第３実施形態の音響処理装置１２は、第１実施形態と同様の要素（音響解析部２０および再生制御部３０）に演奏解析部７４を追加した構成である。演奏解析部７４は、音響解析部２０および再生制御部３０と同様に、記憶装置１２４に記憶されたプログラムを制御装置１２２が実行することで実現される。

　図１０の演奏解析部７４は、演奏信号Ｙが表す演奏音が旋律音および伴奏音の何れに該当するかを解析する。例えば、旋律音は単音（単独の音高）で演奏される場合が多く、伴奏音は和音で演奏される場合が多いという概略的な傾向がある。以上の傾向を考慮して、演奏解析部７４は、演奏信号Ｙにて単音の頻度が高い場合には演奏音を旋律音と推定し、演奏信号Ｙにて和音の頻度が高い場合には演奏音を伴奏音と推定する。演奏音の単音／和音は、例えば周波数スペクトルのピークの総数を計数することで判別可能である。すなわち、演奏解析部７４は、周波数スペクトルのピークの総数が閾値を下回る場合には演奏音を単音と判断し、ピークの総数が閾値を上回る場合には演奏音を和音と判断する。また、演奏解析部７４が、１２種類の音階音の各々における演奏信号Ｙの強度を複数のオクターブにわたって加算した１２次元のクロマベクトルを算定し、クロマベクトルの１２個の要素のうち閾値を上回る要素の個数が少ない場合に演奏音を単音と判断し、個数が多い場合に演奏音を和音と判断することも可能である。

　第３実施形態の音量調整部３４（再生制御部３０）は、第１実施形態と同様の方法で複数の収録信号ＸAから対象信号ＸAを選択し、当該対象信号ＸAの音量を低下させるか否かを演奏解析部７４による解析結果に応じて決定する。旋律音を演奏する場合には他の演奏パートの再生音が利用者にとって特に邪魔になり易いが、伴奏音については、他の演奏パートの再生音が存在しても利用者が比較的に容易に演奏できるという概略的な傾向がある。以上の傾向を想定して、第３実施形態の音量調整部３４は、演奏信号Ｙの演奏音が旋律音であると演奏解析部７４が判断した場合には対象信号ＸAの音量を低下させる一方、演奏信号Ｙの演奏音が伴奏音であると演奏解析部７４が判断した場合には対象信号ＸAの音量を低下させない。なお、音響処理部３２および音量調整部３４による処理後の複数の収録信号ＸAおよび演奏信号Ｙから混合処理部３６が音響信号ＸBを生成する動作は第１実施形態と同様である。

　第３実施形態では、演奏音が旋律音および伴奏音の何れに該当するかに応じて収録信号（対象信号）ＸAの音量を低下させるか否かが決定される。したがって、演奏音および収録音の一方が旋律音であり他方が伴奏音である場合のように両者が相互に両立し得る場合にまで必要以上に収録信号ＸAの音量が低下する可能性を低減できるという利点がある。

＜変形例＞
　以上に例示した各態様は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２個以上の態様は、相互に矛盾しない範囲で適宜に併合され得る。

　（１）前述の各形態では、調波性解析部６２がサポートベクターマシンにより調波音と非調波音とを判別したが、調波性解析部６２による調波音／非調波音の判別方法は以上の例示に限定されない。例えば、調波音および非調波音の各々の特徴量Ｆの分布傾向を表現する混合正規分布を利用して演奏音を調波音と非調波音とに判別する方法や、K-meansアルゴリズムを利用したクラスタリングで演奏音を調波音と非調波音とに判別する方法も採用され得る。第１解析部６４および第２解析部６６の各々が演奏音の発音源の種類を推定する方法についても同様に、前述の各形態で例示したサポートベクターマシンには限定されず、公知のパターン認識技術を任意に採用することが可能である。

　（２）前述の各形態では、調波性解析部６２が解析した調波音の確度ＷHをＮ個の評価値ＥH(1)～ＥH(N)に乗算するとともに非調波音の確度ＷPをＭ個の評価値ＥP(1)～ＥP(M)に乗算したが、調波音の確度ＷHおよび非調波音の確度ＷPを収録信号ＸAの発音源の種類に反映させる方法は以上の例示に限定されない。例えば、収録信号ＸAの演奏音が調波音および非調波音の何れに該当するかを確度ＷHおよび確度ＷPに応じて判別し、Ｎ個の評価値ＥH(1)～ＥH(N)およびＭ個の評価値ＥP(1)～ＥP(M)の何れかを調波性の判別結果に応じて選択的に利用して、音源特定部６８が発音源の種類を特定することも可能である。

　具体的には、調波性解析部６２は、確度ＷHが確度ＷPを上回る場合には演奏音を調波音と判別し、確度ＷPが確度ＷHを上回る場合には演奏音を非調波音と判別する。音源特定部６８は、演奏音が調波音であると判別された場合には、第１解析部６４が算定したＮ個の評価値ＥH(1)～ＥH(N)のなかの最大値に対応する調波音源を発音源の種類として特定する一方、演奏音が非調波音であると判別された場合には、第２解析部６６が算定したＭ個の評価値ＥP(1)～ＥP(M)のなかの最大値に対応する非調波音源を発音源の種類として特定する。以上に例示した構成は、前述の各形態において、確度ＷHおよび確度ＷPの一方を１に設定するとともに他方を０に設定した構成とも換言される。なお、演奏音が調波音であると調波性解析部６２が判別した場合に第２解析部６６による非調波解析処理（Ｍ個の評価値ＥP(1)～ＥP(M)の算定）を省略する構成や、演奏音が非調波音であると調波性解析部６２が解析した場合に第１解析部６４による調波解析処理（Ｎ個の評価値ＥH(1)～ＥH(N)の算定）を省略する構成も採用され得る。

　以上の例示から理解される通り、音源特定部６８は、調波性解析部６２と第１解析部６４と第２解析部６６とによる解析結果に応じて演奏音の発音源の種類を特定する要素として包括的に表現され、第１解析部６４および第２解析部６６の双方の解析結果を利用するか一方の解析結果のみを利用するかは、本発明において不問である。

　（３）前述の各形態では、記憶装置１２４に記憶された複数の収録信号ＸAの各々に音源識別情報ＤXが事前に付加された構成を例示したが、各収録信号ＸAが表す収録音の発音源の特定（音源識別情報ＤXの生成）には、第１実施形態で例示した音響解析部２０（音源識別部６０）が利用され得る。具体的には、利用者による演奏装置１３の演奏前に（例えば収録音の収録に並行して）、図１１に例示される通り、複数の収録信号ＸAの各々が音響解析部２０に供給される。音響解析部２０は、第１実施形態において演奏信号Ｙに実行した処理と同様の処理を複数の収録信号ＸAの各々について実行することで収録信号ＸA毎の音源識別情報ＤXを生成する。音響解析部２０（音源識別部６０）が各収録信号ＸAについて生成した音源識別情報ＤXが当該収録信号ＸAに付加されて記憶装置１２４に格納される。

　（４）前述の各形態では、複数の収録信号ＸAのうちひとつの収録信号ＸAの音量を音量調整部３４が選択的に低下させたが、音響解析部２０による解析の結果に応じて２以上の収録信号ＸAの音量を低下させることも可能である。例えば、第１実施形態の関係情報Ｇにおいて任意の１個の音源識別情報ＤYに対して対象音の複数の音源識別情報ＤXを対応付けた構成や、第２実施形態の構成において類似度Ｌの降順で上位に位置する２以上の収録信号ＸAの音量を低下させる構成が採用され得る。

　（５）前述の各形態では、複数の収録信号ＸAを再生する場合を例示したが、１系統の収録信号ＸAを再生する場合にも、音響解析部２０（音源識別部６０）が特定した演奏音の発音源の種類に対応する収録信号ＸAの音量を低下させる構成は採用され得る。具体的には、再生制御部３０は、音源識別部６０が特定した発音源の種類に収録信号ＸAの発音源が対応する場合に当該収録信号ＸAの音量を低下させる。例えば、事前に収録された歌唱音声の収録信号ＸAを再生する一方で演奏装置１３（収音機器）が利用者の歌唱音声の演奏信号Ｙを生成する場面では、演奏信号Ｙの発音源（利用者）が特定された場合に再生制御部３０が収録信号ＸAの音量を低下させることで、収録信号ＸAをガイドボーカルとして利用して利用者が歌唱できる。また、例えば鍵盤ハーモニカ等の楽器の模範的な演奏音（例えば教師による演奏音）を収録した収録信号ＸAを再生する一方で演奏装置１３（例えば鍵盤ハーモニカ等の楽器）が利用者による演奏音の演奏信号Ｙを生成する場面では、演奏信号Ｙの発音源が特定された場合に再生制御部３０が収録信号ＸAの音量を低下させる。したがって、収録信号ＸAの演奏音を随時に確認しながら効果的に楽器演奏を練習することが可能である。以上の説明から理解される通り、再生制御部３０は、音源識別部６０が特定した発音源の種類に収録信号ＸAの発音源が対応する場合に当該収録信号ＸAの音量を低下させる要素として包括的に表現され、収録信号ＸAの総数（単数／複数）は本発明において任意である。

　（６）移動体通信網やインターネット等の通信網を介して端末装置（例えば携帯電話機やスマートフォン）と通信するサーバ装置で音響処理装置１２を実現することも可能である。具体的には、音響処理装置１２は、端末装置から通信網を介して受信した複数の収録信号ＸAから前述の各形態と同様の処理で音響信号ＸBを生成して端末装置に送信する。なお、収録信号ＸAの発音区間Ｐ毎の特徴量Ｆが端末装置から音響処理装置１２に送信される構成（例えば端末装置が発音区間検出部４０および特徴量抽出部５０を具備する構成）では、音響処理装置１２の音響解析部２０から発音区間検出部４０と特徴量抽出部５０とが省略される。

　（７）前述の各形態で例示した音響処理装置１２は、前述の通り制御装置１２２とプログラムとの協働で実現される。プログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、以上に例示したプログラムは、通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。

　（８）本発明は、前述の各形態に係る音響処理装置１２の動作方法としても特定される。例えば、相異なる発音源が発音した収録音を表す複数の収録信号ＸAを再生する方法（音響再生方法）においては、コンピュータ（単体の装置のほか、相互に別体の複数の装置で構成されたコンピュータシステムも含む）が、演奏信号Ｙが表す演奏音の発音源の種類を特定する一方（図６の音源識別処理）、複数の収録信号ＸAのうち当該特定した発音源の種類に対応する収録信号ＸAの音量を低下させる。

　なお、本発明の音響処理装置は、発音源が発音した収録音を表す収録信号を再生する再生制御部と、演奏信号が表す演奏音の発音源の種類を特定する音源識別部とを具備し、再生制御部は、音源識別部が特定した発音源の種類に収録信号の発音源が対応する場合に当該収録信号の音量を低下させる。以上の構成では、演奏信号が表す演奏音の発音源の種類に対応する収録信号の音量が低下する。したがって、演奏音の発音源の種類に応じた収録信号の音量の制御が実行されない構成と比較して、収録信号の再生に並行した演奏を容易化する（収録音の再生に邪魔されずに演奏する）ことが可能である。なお、演奏音は、例えば各種の楽器が発音する楽音や歌唱者が発声した歌唱音声である。

　本発明の好適な態様において、再生制御部は、相異なる発音源が発音した収録音を表す複数の収録信号を再生し、複数の収録信号のうち音源識別部が特定した発音源の種類に対応する収録信号の音量を低下させる。以上の構成では、複数の収録信号のうち演奏信号が表す演奏音の発音源の種類に対応する収録信号の音量が低下する。したがって、演奏音の発音源の種類に応じた収録信号の音量の制御が実行されない構成と比較して、複数の収録信号の再生に並行した演奏を容易化する（収録音の再生に邪魔されずに演奏する）ことが可能である。なお、演奏音は、例えば各種の楽器が発音する楽音や歌唱者が発声した歌唱音声である。

　本発明の第１態様において、再生制御部は、収録音の発音源と演奏音の発音源との対応を指定する関係情報を参照して、複数の収録信号のうち、音源識別部が特定した発音源に関係情報で対応付けられた発音源の収録信号の音量を低下させる。第１態様では、複数の収録信号のうち関係情報にて演奏音の発音源に対応付けられた発音源の収録信号の音量が低下する。したがって、例えば音楽的に両立し難い発音源間の対応を関係情報にて事前に指定することで、複数の収録信号の再生に並行した演奏を容易化することが可能である。

　本発明の第２態様に係る音響処理装置は、複数の収録信号の各々と演奏信号との間の発音内容の類否を解析する類否解析部を具備し、再生制御部は、複数の収録信号のうち、演奏信号との間で発音内容が類似すると類否解析部が判断した収録信号の音量を低下させる。第２態様では、複数の収録信号のうち演奏信号との間で発音内容が類似すると判断された収録信号の音量が低下する。したがって、発音内容が演奏音に類似する収録音（例えば楽曲内の同じパートの収録音）に邪魔されずに演奏することが可能である。また、収録音の発音源と演奏音の発音源との対応を関係情報で事前に指定する前述の態様と比較して、発音源間の対応を事前に登録する必要がないという利点や、未登録の発音源の収録信号についても演奏信号との関係を加味して適切に音量を低下させることができるという利点がある。

　本発明の第３態様に係る音響処理装置は、演奏信号が表す演奏音が旋律音および伴奏音の何れに該当するかを解析する演奏解析部を具備し、再生制御部は、収録信号の音量を低下させるか否かを、演奏解析部による解析結果に応じて決定する。第３態様では、演奏音が旋律音および伴奏音の何れに該当するかに応じて収録信号の音量を低下させるか否かが決定される。したがって、演奏音および収録音の一方が旋律音であり他方が伴奏音である場合のように両者が相互に両立し得る場合にまで必要以上に収録信号の音量が低下する可能性を低減できるという利点がある。

　前述の各態様の好適例において、音源識別部は、演奏信号が表す演奏音が調波音および非調波音の各々に該当する確度を演奏信号の特徴量から解析する調波性解析部と、調波音を発音する複数種の調波音源の各々に演奏音の発音源が該当する確度を演奏信号の特徴量から解析する第１解析部と、非調波音を発音する複数種の非調波音源の各々に演奏音の発音源が該当する確度を演奏信号の特徴量から解析する第２解析部と、調波性解析部と第１解析部と第２解析部とによる解析の結果に応じて演奏音の発音源の種類を特定する音源特定部とを含む。以上の態様では、調波音と非調波音とを相互に区別して演奏音の発音源の種類が特定される。具体的には、演奏音が調波音および非調波音の各々に該当する確度を調波性解析部が解析した結果と、演奏音の発音源が複数種の調波音源の各々に該当する確度を第１解析部が解析した結果と、演奏音の発音源が複数種の非調波音源の各々に該当する確度を第２解析部が解析した結果とを利用して、演奏音の発音源の種類が特定される。したがって、調波音と非調波音とを区別せずに発音源の種類を特定する構成と比較して演奏音の発音源の種類を高精度に特定することが可能である。

　なお、再生制御部３０が「音量を低下させる」とは、音量調整部が対象信号XAの音量を低下させて（０にする場合を含む）再生する場合の他、対象信号XAの混合処理部３６への入力をしないで再生する場合も含む。

Claims

　発音源が発音した収録音を表す収録信号を再生する再生制御部と、
　演奏信号が表す演奏音の発音源の種類を特定する音源識別部とを具備し、
　前記再生制御部は、前記音源識別部が特定した発音源の種類に前記収録信号の発音源が対応する場合に当該収録信号の音量を低下させる
　音響処理装置。
　前記再生制御部は、相異なる発音源が発音した収録音を表す複数の収録信号を再生し、前記複数の収録信号のうち前記音源識別部が特定した発音源の種類に対応する収録信号の音量を低下させる
　請求項１の音響処理装置。
　前記再生制御部は、前記複数の収録信号に応じた複数の信号と前記演奏信号を混合して再生する
　請求項２の音響処理装置。
　前記再生制御部は、収録音の発音源と演奏音の発音源との対応を指定する関係情報を参照して、前記複数の収録信号のうち、前記音源識別部が特定した発音源に前記関係情報で対応付けられた発音源の収録信号の音量を低下させる
　請求項２又は３の音響処理装置。
　前記複数の収録信号の各々と前記演奏信号との間の発音内容の類否を解析する類否解析部を具備し、
　前記再生制御部は、前記複数の収録信号のうち、前記演奏信号との間で発音内容が類似すると前記類否解析部が判断した収録信号の音量を低下させる
　請求項２乃至４のいずれかの音響処理装置。
　前記演奏信号が表す演奏音が旋律音および伴奏音の何れに該当するかを解析する演奏解析部を具備し、
　前記再生制御部は、前記収録信号の音量を低下させるか否かを、前記演奏解析部による解析結果に応じて決定する
　請求項２乃至５のいずれかの音響処理装置。
　前記再生制御部は、利用者の演奏中に、前記収録信号の音量を低下させ、演奏終了後に前記収録信号の音量の低下を解除する
　請求項１乃至６のいずれかの音響処理装置。
　前記音源識別部は、
　前記演奏信号が表す演奏音が調波音および非調波音の各々に該当する確度を前記演奏信号の特徴量から解析する調波性解析部と、
　調波音を発音する複数種の調波音源の各々に前記演奏音の発音源が該当する確度を前記演奏信号の特徴量から解析する第１解析部と、
　非調波音を発音する複数種の非調波音源の各々に前記演奏音の発音源が該当する確度を前記演奏信号の特徴量から解析する第２解析部と、
　前記調波性解析部と前記第１解析部と前記第２解析部とによる解析の結果に応じて前記演奏音の発音源の種類を特定する音源特定部とを含む
　請求項１乃至７のいずれかの音響処理装置。
　再生制御部により、発音源が発音した収録音を表す収録信号を再生し、
　音源識別部により、演奏信号が表す演奏音の発音源の種類を特定し、
　前記再生制御部は、前記音源識別部が特定した発音源の種類に前記収録信号の発音源が対応する場合に当該収録信号の音量を低下させる
　音響処理方法。