WO2010095622A1

WO2010095622A1 - 音楽音響信号生成システム

Info

Publication number: WO2010095622A1
Application number: PCT/JP2010/052293
Authority: WO
Inventors: 武宏安部; 直希安良岡; 克寿糸山; 博奥乃
Original assignee: 国立大学法人京都大学
Priority date: 2009-02-17
Filing date: 2010-02-16
Publication date: 2010-08-26
Also published as: EP2400488A1; EP2400488B1; KR101602194B1; JP5283289B2; EP2400488A4; KR20110129883A; US20120046771A1; JPWO2010095622A1; US8831762B2

Abstract

　既存の音楽音響信号中の音色を任意の音色に変えることができる音楽音響信号の音色変更システムを提供する。分離音響信号分析保存部３に保存された、第１の種類の楽器の単音ごとのｎ次倍音成分の相対強度を示す倍音ピーク・パラメータに含まれる複数の倍音ピークを、置換用パラメータデータ保存部６に保存された、第１の種類の楽器の単音に対応する第２の種類の楽器の単音のｎ次倍音成分の相対強度を示す倍音ピーク・パラメータに含まれる複数の倍音ピークと置き換えることにより置換倍音ピーク・パラメータを作成する。合成分離音響信号生成部７は、倍音ピーク・パラメータを除く他のパラメータと置換倍音ピーク・パラメータとを用いて、単音ごとの合成分離音響信号を生成する。

Description

音楽音響信号生成システム

　本発明は、音楽音響信号の音色を変更することができる音楽音響信号生成システム及び方法並びに該方法をコンピュータで実施するために用いられるコンピュータプログラムに関するものである。

　近年、音楽音響信号に特化し、楽器単位での音量の操作や音色の置換が可能な楽器音イコライザと呼ばれる新技術が開発されてきている。多くのオーディオプレーヤに実装されているイコライザは周波数帯域の操作によって楽曲の音響を変化させるが、楽器音イコライザが提供する楽器単位の操作によって音楽鑑賞の幅はさらに広がると期待される。非特許文献１に記載された吉井等のDrumixでは、スネアドラムやバスドラムといった打楽器単位での音量操作と音色変更を実現している。一方、非特許文献２に示された糸山等の楽器音イコライザでは、打楽器だけではなく、全ての楽器単位の音量操作が可能だが、Drumixで実現されていた音色変更は扱われていない。なお非特許文献２に記載された発明を含むものとして、ＰＣＴ／ＪＰ２００８／５７３１０号（ＷＯ２００８／１３３０９７）［特許文献１］がある。

ＷＯ２００８／１３３０９７

Yoshii, K., Goto, M. and G., O. H.: Drumix: An Audio Player with Realtime Drum-part Rearrangement Functions for Active Music Listening,IPSJ Journal, Vol. 48, No. 3, pp. 1229～1239 (2007) 糸山克寿，後藤真孝，駒谷和範，尾形哲也，奥乃博「楽譜情報を援用した多重奏音楽音響信号の音源分離と調波・非調波統合モデルの制約付パラメータ推定の同時実現」，情報処理学会論文誌,Vol.49,No.3,pp.1465～1479(2008) 安部武宏, 糸山克寿, 吉井和佳, 駒谷和範, 尾形哲也, 奥乃博:「音高による音色変化を考慮した楽器音の音高・音長操作手法」, 音楽情報科学研究会, Vol. 76,pp. 155－160 (2008). Abe, T., Itoyama, K., Yoshii, K., Komatani, K., Ogata, T. and Okuno, H. G.: Analysis-and-Manipulation Approach to Pitch And Duration of Musical Instrument Sounds without Distorting Timbral Characteristics,International Conference on Digital Audio Effects, Vol. 11, pp. 249－256(2008) 河原英紀「Vocoder のもう一つの可能性を探る－音声分析変換合成システムSTRAIGHT の背景と展開」, 日本音響学会誌, Vol. 63, No. 8, pp. 442－449(2007) 安部武宏, 糸山克寿, 吉井和佳, 駒谷和範, 尾形哲也, 奥乃博:音色の音高依存性を考慮した楽器音の音高操作手法」,情報処理学会論文誌, Vol. 50, No. 3(2009)

　従来の技術では、任意の楽器パートをユーザの好みの音色に変更することはできなかった。また従来の技術では、未知の演奏の楽譜に対する演奏表情付き演奏音響信号を合成することはできなかった。

　本発明の目的は、既存の音楽音響信号中の任意の楽器パートの音色を任意の音色に変えることができる音楽音響信号生成システム及び方法並びに音色変更用コンピュータプログラムを提供することにある。

本発明の他の目的は、既存の音楽音響信号中の任意の楽器パートの音色を用いて未知の演奏の楽譜に対する演奏表情付き演奏を合成することができる音楽音響信号生成システムを提供することにある。

　任意の楽器パートをユーザの好みの音色に変更することができれば、例えば、ロック風の楽曲を構成するギター、ベース、キーボードなどの楽器音を、ヴァイオリン、ウッドベース、ピアノなどの楽器音で置き換えることで、ユーザはその楽曲をクラシック風にアレンジして楽しむことができる。また、好きなギタリストが演奏した楽曲からギター音を抽出し、別の楽曲のギターパートをそのギター音で置き換えることで、ユーザはそのギタリストにさまざまなフレーズを演奏させることもできる。さらに、置き換える対象音から中間音を合成することにより、音色変更のバリエーションが広がると同時に幅の広い音楽鑑賞が可能となる。

　本願第１の発明の基本的な音楽音響信号の音色変更システムは、信号抽出保存部と、分離音響信号分析保存部と、置換用パラメータ保存部と、置換パラメータ作成保存部と、合成分離音響信号生成部と、信号加算部とを備えている。

　信号抽出保存部は、第１の種類の楽器から発生した楽器音を含む音楽音響信号から抽出した、分離音響信号を単音ごとに保存し、また残差音響信号を保存する。分離音響信号は、第１の種類の楽器から発生した楽器音の単音のみを含む音響信号であり、残差音響信号は他の楽器の音響信号等のその他の音響信号を含むものである。音楽音響信号は、複数種類の楽器の音響信号が含まれる混合音響信号から分離されたものでも、最初から１つの楽器を演奏して得た単一楽器の音響信号でもよい。混合音響信号から音色変更の対象とする音響信号を分離するためには、公知の音響信号分離技術を実行する音響信号分離部を設ければよい。混合音響信号から音楽音響信号を分離する場合に、前述の非特許文献２に糸山等が提案した分離技術を用いると、他の楽器のパートの音響信号もすべて個別に分離するこができ、同時に倍音ピーク・パラメータ等の各種のパラメータの分析もできる。

　分離音響信号分析保存部は、単音ごとの分離音響信号を、少なくともｎ次倍音成分の相対強度を示す倍音ピーク・パラメータ（通常、１単音あたりｎ個（ｎ次倍音分）の倍音ピーク・パラメータがある）とｎ次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを含む複数のパラメータ（通常、１単音あたり、倍音ピークの個数分のパワーエンベロープ・パラメータがある）によって定式化された調波モデルにより表現するために、１音あたりの複数のパラメータを分析して、分離音響信号中の複数音の単音についてそれぞれ複数のパラメータを保存する。このような複数のパラメータからなる調波モデルについては、前述の非特許文献２及びＰＣＴ／ＪＰ２００８／５７３１０号（ＷＯ２００８／１３３０９７：特許文献１）に詳しく説明されている。なお調波モデルは、少なくともｎ次倍音成分の相対強度を示す倍音ピーク・パラメータとｎ次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを含む複数のパラメータによって構成されるものであればよく、特に上記非特許文献２に記載された調波モデルに限定されるものではない。例えば、調波モデルとして、倍音構造の非調和性を組み込んだ調波モデルを用いると、第１の種類の楽器が、弦楽器の場合におけるパラメータの生成精度を高めることができる。弦楽器音の倍音構造は厳密な整数倍をとらず、弦のスティフネスや長さによって各倍音ピークの周波数が若干高くなる。これは非調和性(インハーモニシティ) と呼ばれる。この非調和性は、周波数が高くなるほど影響が大きくなる。そこで非調和性を考慮した調波モデルを用いれば、第１の種類の楽器が弦楽器の場合に、倍音ピークの周波数の高い方向へのずれを考慮してパラメータを定めることができる。なおこの非調和性を考慮した調波モデルは、分析において利用するだけでなく、合成の際にも当然にして使用される。合成の際に調波モデルを使用する場合には、倍音構造の非調和性を示す変数（非調和度）は、音高依存特徴関数を用いて予測することができる。

１つの倍音ピーク・パラメータは、典型的には、周波数方向に現れる倍音ピークの強度を表す実数として表現される。またパワーエンベロープ・パラメータは、ｎ個のｎ次倍音成分の相対強度を示す倍音ピーク・パラメータにそれぞれ含まれる同じ時間における倍音ピークのパワーの時間方向（周波数が同じで時間が異なる複数の倍音ピークのパワー）の変化を示すものであり、上記非特許文献２に記載されたパワーエンベロープ・パラメータに限定されるものではない。同じ楽器分類に属する楽器の音響信号であれば、各周波数におけるパワーエンベロープ・パラメータは、良く似た形状になる。例えば、ピアノ及び打弦楽器等の減衰楽器の単音のパワーエンベロープ・パラメータの形状は、大きく立ち上がった後に減衰する変化パターンを有している。またトランペット及び吹奏楽器等の持続楽器の単音のパワーエンベロープ・パラメータの形状は、立ち上がり部と立ち下がり部との間に緩やかな変化部分を持つ変化パターンを有している。なお保存する倍音ピーク・パラメータ及びパワーエンベロープ・パラメータのデータ形式は任意である。

　置換用パラメータ保存部は、第１の種類の楽器とは異なる第２の種類の楽器から発生した楽器音の音響信号から作成した、音楽音響信号に含まれる全ての第１の種類の楽器の単音に対応する第２の種類の楽器から発生した複数の単音の音響信号を調波モデルにより表現する場合に必要となる、第２の種類の楽器から発生した複数の単音のｎ次倍音成分の相対強度を示す倍音ピーク・パラメータ及びパワーエンベロープ・パラメータを保存する。第２の種類の楽器から発生した複数の単音のｎ次倍音成分の相対強度を示す倍音ピーク・パラメータは、事前に作成してもよい。作成した倍音ピーク・パラメータのデータ形式は、実数の形式でもよいが、関数の形式でもよく、任意である。また第２の種類の楽器から発生した楽器音の単音の音響信号は、信号抽出保存部に保存した全ての単音に対応するものを用意する必要はない。少なくとも第２の種類の楽器から発生した楽器音の音響信号として使用される単音信号が２単音分あれば、補間法等を用いてその他の単音の倍音ピーク・パラメータを作成してもよい。なお使用可能な単音の種類が多いほど、その他の単音の作成精度を高めることができるのは勿論である。

　置換パラメータ作成保存部は、分離音響信号分析保存部に保存された、第１の種類の楽器の単音ごとのｎ次倍音成分の相対強度を示す倍音ピーク・パラメータに含まれる複数の倍音ピークを、置換用パラメータデータ保存部に保存された、第１の種類の楽器の単音に対応する第２の種類の楽器の単音のｎ次倍音成分の相対強度を示す倍音ピーク・パラメータに含まれる複数の倍音ピークと置き換えることにより置換倍音ピーク・パラメータを作成して保存する。置換倍音ピーク・パラメータは、全ての倍音ピーク・パラメータが第２の種類の楽器の楽器音から得られる倍音ピーク・パラメータによって置換されたものである。

　合成分離音響信号生成部は、分離音響信号分析保存部に保存された倍音ピーク・パラメータを除く他のパラメータと置換用パラメータ保存部に保存された置換倍音ピーク・パラメータとを用いて、単音ごとの合成分離音響信号を生成する。そして信号加算部は、合成分離音響信号と残差音響信号とを加算して、第２の種類の楽器から発生した楽器音を含む音楽音響信号を出力する。

　本発明によれば、調波モデルを構成する複数のパラメータのうち音色に係わるパラメータの置換（変更）により、音色の変更（操作）をすることができるので、簡単に各種の楽器パートの音色変更を実現することができる。なお第１の種類の楽器の単音から得られるパワーエンベロープ・パラメータの変化パターンと第２の種類の楽器の単音から得られるパワーエンベロープ・パラメータの変化パターンとが近似していれば、音色の変更精度は高くなる。逆に両者の変化パターンが大きく異なると、音色は変わるものの、第２の種類の楽器の楽器音とは、第１の種類の楽器の雰囲気またはイメージが残なった印象を受ける音色の変更となる。このような音色の変更も、ユーザによっては望まれる場合がある。音色の変更精度を高めるためには、パワーエンベロープ・パラメータの変化パターンが共通した楽器間の音色変更を実施するのが好ましい。

　そこで第２の発明では、置換用パラメータ保存部が、第２の種類の楽器の複数の単音ごとのｎ次倍音成分の相対強度を示す倍音ピーク・パラメータの他に、ｎ次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータも保存する。そして置換パラメータ作成保存部は、置換倍音ピーク・パラメータを保存することに加えて、分離音響信号分析保存部に保存された、第１の種類の楽器の単音ごとのｎ次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを、置換用パラメータ保存部に保存された、第１の種類の楽器の単音に対応する第２の種類の楽器の単音についての、ｎ次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータと置き換えることにより作成した置換パワーエンベロープ・パラメータを保存する。なおこの置き換えでは、時間方向の長さを一致させる必要があるときには、第２の種類の楽器のパワーエンベロープ・パラメータと音楽音響信号のパワーエンベロープ・パラメータのオンセットとオフセットが合うようにパワーエンベロープを伸縮させて置き換えを行う。なおこの音長操作に関しては、非特許文献３に記載されている。

　そして合成分離音響信号生成部は、分離音響信号分析保存部に保存された倍音ピーク・パラメータ及びパワーエンベロープ・パラメータを除く他のパラメータと置換パラメータ作成保存部に保存された置換倍音ピーク・パラメータ及び置換パワーエンベロープ・パラメータとを用いて、単音ごとの合成分離音響信号を生成する。その他は、第１の発明と同じである。このようにすると倍音ピークの置き換えだけでなく、第１の楽器の単音から得られるパワーエンベロープ・パラメータの変化パターンに変えて第２の種類の楽器の単音から得られるパワーエンベロープ・パラメータの変化パターンを用いることになるため、音色の変化の精度を高めることができる。

　第３の発明では、第２の発明の要件に加えて、第１の種類の楽器と第２の種類の楽器とが、同じ楽器分類に属するか否かを判定する楽器分類判定部をさらに備えている。第３の発明で用いる合成分離音響信号生成部は、楽器分類判定部が、第１の種類の楽器と第２の種類の楽器とが、同じ楽器分類に属すると判定したときには、第１の発明と同様に、分離音響信号分析保存部に保存された倍音ピーク・パラメータを除く他のパラメータと置換パラメータ作成保存部に保存された置換倍音ピーク・パラメータとを用いて、単音ごとの合成分離音響信号を生成する。また合成分離音響信号生成部は、楽器分類判定部が、第１の種類の楽器と第２の種類の楽器とが、異なる楽器分類に属すると判定したときには、分離音響信号分析保存部に保存された倍音ピーク・パラメータ及びパワーエンベロープ・パラメータを除く他のパラメータと置換パラメータ作成保存部に保存された置換倍音ピーク・パラメータ及び置換パワーエンベロープ・パラメータとを用いて、単音ごとの合成分離音響信号を生成する。このようにすると第２の種類の楽器がどのようなものであっても、自動的に最適な音色変更を行うことができる。

また第３の発明では、楽器分類判定部を設けることに加えて、分離音響信号分析保存部が、単音ごとの分離音響信号中の非調波成分分布パラメータを分析して保存する機能を備えていてもよい。この場合、置換パラメータ作成保存部は、分離音響信号分析保存部に保存された、第１の種類の楽器の単音ごとの非調波成分分布パラメータを、置換用パラメータ保存部に保存された、第１の種類の楽器の単音に対応する第２の種類の楽器の単音の非調波成分分布パラメータと置き換えることにより作成した置換非調波成分分布パラメータ（第１の楽器の単音のオンセットにそろえた第２の楽器の単音の非調波成分分布パラメータ）を更に保存することになる。そして合成分離音響信号生成部は、分離音響信号分析保存部に保存された倍音ピーク・パラメータ、パワーエンベロープ・パラメータ及び非調波成分分布パラメータを除く他のパラメータと置換パラメータ作成保存部に保存された置換倍音ピーク・パラメータ、置換パワーエンベロープ・パラメータ及び置換非調波成分分布パラメータとを用いて、単音ごとの合成分離音響信号を生成するように構成することになる。このようにすると非調波成分も考慮して音色の変更を行えるので、更に音色の変更（操作）精度が高くなる。ただし、非調波成分分布パラメータは音色の操作に対する影響度が低いため、必ずしも考慮する必要はない。なお非調波成分分布パラメータの置換をするには、分離音響信号に調波成分だけでなく非調波成分も含む必要がある。そこで非調波成分分布パラメータを扱う場合には、上記非特許文献２に記載の調波モデル・非調波モデル統合モデルを用いることが必要になる。なお音楽音響信号が、混合音ではなく一種類の楽器の単音だけから構成されている場合には、残差音響信号そのものを非調波成分とみなせるので、上記非特許文献２に記載の調波モデル・非調波モデル統合モデルを用いることなく、非調波成分分布パラメータの置換を適用することができる。

　なお置換用パラメータ保存部は、第２の種類の楽器から発生した楽器音の音響信号の前記複数種類の単音ごとの非調波成分分布パラメータを保存する機能を更に備えている。置換用パラメータ保存部は、パラメータ分析保存部とパラメータ補間生成保存部とを備えて構成してもよい。パラメータ分析保存部は、第２の種類の楽器から発生した楽器音の音響信号から得た複数種類の単音ごとの分離音響信号を調波モデルにより表現する場合に必要となる、第２の種類の楽器から発生する複数種類の単音ごとの少なくともｎ次倍音成分の相対強度を示す倍音ピーク・パラメータを分析して保存する。なお第２の種類の楽器から発生する複数種類の単音についての、ｎ次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータは、事前に分析することにより得た倍音ピーク・パラメータと一緒にパラメータ分析保存部に保存してある。さらにパラメータ分析保存部には、非調波成分分布パラメータを保存してある。そしてパラメータ補間生成保存部は、パラメータ分析保存部に保存した複数種類の単音についての倍音ピーク・パラメータに基づいて、音楽音響信号に含まれる全ての単音に対応する第２の種類の楽器から発生する複数の単音のうち複数種類の単音以外の単音についての音響信号をモデルにより表現する場合に必要となる第２の種類の楽器の複数の単音ごとの倍音ピーク・パラメータ及び前記パワーエンベロープ・パラメータを補間法を用いて生成して保存する。このような構成を採用すると、第２の種類の楽器の単音のデータが少ない場合でも、置換に必要なパラメータを得ることができる。なおパラメータ分析保存部は、分析により得られた前記ｎ次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを、代表パワーエンベロープ・パラメータとして保存してもよい。

　また置換用パラメータ保存部は、パラメータ分析保存部及びパラメータ補間生成保存部に保存されたデータに基づいて、第２の種類の複数の単音ごとの倍音ピーク・パラメータを音高依存特徴関数として保存する関数生成保存部をさらに備えてもよい。この場合には、置換パラメータ作成保存部は、第２の種類の楽器の単音の倍音ピーク・パラメータに含まれる複数の倍音ピークを音高依存特徴関数から取得するように構成するのが好ましい。このようにすると保存データのデータ量を少なくすることができる。また関数化することで複数の学習データの分析時の誤差を軽減することが期待される。

　分離音響信号分析保存部が分析する複数のパラメータには、音高に関する音高パラメータと音長に関する音長パラメータ（なお音長パラメータはパワーエンベロープ・パラメータを包括する）とが含まれている場合には、音高パラメータを操作する音高操作部と、音長パラメータを操作する音長パラメータ操作部をさらに備えているのが好ましい。これら２つの操作部を備えていると、音色の変更（操作）の他に、音高、音長の変更（操作）も行うことができる。

分離音響信号分析保存部が分析する複数のパラメータが第１の種類の楽器から発生したすべての単音に対してそれぞれ別個に得られる場合には、楽譜構造と音響特徴の間の対応をもとに、任意の構造の楽譜の各単音に対する音高パラメータ、音長パラメータ、及び音色に関わるパラメータを構成するための楽譜操作部を備えることが可能である。

楽譜操作部は、「似た構造の楽譜は似たような音で演奏される」という仮定のもと、第１の種類の楽器によって演奏された楽譜上の各単音に対応する音高パラメータ、音長パラメータ、及び音色に関わるパラメータのすべてを用いて、ユーザが指定する任意の楽譜構造中の各単音にふさわしい音高パラメータ、音長パラメータ、及び音色に関わるパラメータを生成する。ここでの「ふさわしさ」は、注目している単音の前後の単音との音高差などから定義される。

　そこで本発明の音楽音響信号生成システムでは、第１の種類の楽器または第２の種類の楽器を用いて演奏したときに第１の種類の楽器または第２の種類の楽器から発生する楽器音の音響信号を、分離音響信号分析保存部に保存された単音ごとの複数のパラメータを利用して生成するための操作を行う楽譜操作部を更に備えていてもよい。楽譜操作部は、他の楽譜の楽譜構造中の各単音にふさわしい、音高に関する音高パラメータ、音長に関する音長パラメータ及び調波モデルを構成するパラメータのうち音色に関わるパラメータを生成するように構成されている。

楽譜操作部の機能は音高操作部及び音長操作部を包含しているが、ユーザが指定する任意の楽譜構造が第１の種類の楽器によって演奏されていた楽譜と類似している場合、音高操作部及び音長操作部の機能によってユーザが指定する任意の楽譜構造中の各単音の音高パラメータ及び音長パラメータを変更した方が高い精度による操作が可能であるため、楽譜操作部の機能は必要に応じて音高操作部及び音長操作部の機能と使い分けることが望ましい。

本発明の実施形態の音楽音響信号生成システムをコンピュータを用いて実現する場合の構成例を示すブロック図である。分離音響信号及び置換に用いる置換音響信号のパラメータ分析を説明するために用いる図である。ｎ次倍音成分の相対強度を示す倍音ピーク・パラメータを含む周波数エンベロープの一例を示す図である。ｎ次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータ（時間エンベロープ）の一例を示す図である。本発明の実施の形態の一例としての、音楽音響信号生成システムの構成を示すブロック図である。周波数エンベロープの操作を示す図である。（Ａ）乃至（Ｄ）は、トランペットの第1次倍音，第4次倍音，第10次倍音の相対強度、および調波成分と非調波成分のエネルギー比の音高特徴依存関数を示す図である。時間エンベロープの操作を説明するために用いる図である。音高軌跡の操作を説明するために用いる図である。（Ａ）乃至（Ｃ）は、倍音ピーク間の相対強度、時間方向のパワーエンベロープ・パラメータ及び非調波成分の分布の例を示す図である。図５に示した実施の形態を具体的にコンピュータを用いて実現する場合に用いるコンピュータプログラムの一例のアルゴリズムを示すフローチャートである。置換用パラメータ保存部の具体的な構成を示す図である。音高依存特徴関数による置換パラメータの生成を説明するために用いる図である。倍音ピークの相対強度からのスペクトル包絡の導出を説明するために用いる図である。学習用特徴量を補間法を利用して生成する場合の式を説明するために用いる図である。同期パワーエンベロープ・パラメータEn(r)を得ることを説明するために用いる図である。パワーエンベロープ・パラメータの補間の概要図である。音楽音響信号内の単音のオンセットで同期をとることを示す図である。非調波成分分布パラメータの補間の概要図である。楽譜操作の概要を説明するために用いる図である。楽譜操作の概要を示す図である。

　以下、本発明を実施するための形態（以下「実施形態」という。）を詳細に説明する。図１は、本発明の実施形態の音楽音響信号生成システムをコンピュータ１０を用いて実現する場合の構成例を示すブロック図である。コンピュータ１０は、ＣＰＵ（Central Processing Unit）１１と、ＤＲＡＭ等のＲＡＭ（Random Access Memory）１２と、ハードディスクドライブ（以下、「ハードディスク」という。）その他の大容量記憶手段１３と、フレキシブルディスクドライブ又はＣＤ－ＲＯＭドライブ等の外部記憶部１４と、ＬＡＮ（Local Area Network）又はインターネットなどの通信ネットワーク２０との通信を行う通信部１８とを備える。また、コンピュータ１０は、キーボード又はマウス等の入力部１５と、液晶ディスプレイ等の表示部１６とを備えている。さらに、コンピュータ１０は、ＭＩＤＩ音源等の音源１７を搭載している。

　ＣＰＵ１１は、パワースペクトルの分離処理と更新モデルパラメータのパラメータの推定（モデル適応）処理と、音色変更（操作）処理とを行うための各ステップを実行する計算手段として動作する。

　音源１７は、後述する入力音響信号を備えている。また音源分離を行うための入力音響信号と時間的に同期した標準ＭＩＤＩファイル（Standard MIDI File、以下「ＳＭＦ」という。）を楽譜情報データとして備えている。ＳＭＦはＣＤ－ＲＯＭ等や、通信ネットワーク２０を介してハードディスク１３に記録される。なお、「時間的に同期した」とは、ＳＭＦ中の各楽器パートの単音（楽譜の音符に相当するもの）のオンセット時刻（発音時刻）と音長が実際の入力楽曲の音響信号における各楽器パートの単音と完全に同期しているということである。

　なお、ＭＩＤＩ信号の記録、編集、再生などは、シーケンサ、またはシーケンスソフトウェア（図示を省略する）で行われる。ここでＭＩＤＩ信号は、ＭＩＤＩファイルとして扱われる。ＳＭＦとは、ＭＩＤＩ音源の演奏データを記録するための基本ファイルフォーマットである。ＳＭＦは、異なるシーケンサ、あるいはシーケンスソフトウェア間でのＭＩＤＩファイルの互換性を保つ統一規格である"チャンク"と呼ばれるデータ単位によって構成されている。ＳＭＦフォーマット化されたＭＩＤＩファイルデータのイベントとしては、大きく分けて、ミディ・イベント（MIDI Event）、システム・エクスクルーシブ・イベント（SysEx Event）、そしてメタ・イベント（Meta Event）の３種類がある。ミディ・イベントには、演奏データそのものが示されている。システム・エクスクルーシブ・イベントには、主にＭＩＤＩのシステム・エクスクルーシブ・メッセージが示されている。システム・エクスクルーシブ・メッセージは、特定の楽器にしかない情報を交換したり、特別の非音楽情報、イベント情報などを伝達するために用いられる。メタ・イベントには、テンポや拍子などの演奏全体の情報や、シーケンサやシーケンスソフトが利用する歌詞や著作権情報などの付加的な情報が示されている。全てのメタ・イベントは0xFFで始まり、次にイベント・タイプを表すバイトが続き、更にデータ長及びデータ自体が続く。ＭＩＤＩ演奏プログラムは、自分が認識できないメタ・イベントを無視するように設計されている。また、各イベントには、そのイベントを実行する時間的タイミングに関するタイミンダ情報が付加されている。このタイミング情報は、直前のイベントの実行からの時間差で示されている。例えば、このタイミング情報が"0"のときは、直前のイベントと同時にこのタイミング情報が付加されたイベントが実行されることになる。

　一般に、ＭＩＤＩ規格を用いた音楽再生では、各種信号、楽器固有の音色をモデル化し、そのデータを格納した音源を各種パラメータで制御するシステムをとっている。そして、ＳＭＦの各トラックはそれぞれの楽器パートに対応しており、各楽器パートごとの分離信号が含まれている。また、ＳＭＦには、音高とオンセット時刻と音長又はオフセット時刻と楽器ラベルなどの情報が含まれている。

　したがって、ＳＭＦが与えられていれば、これをＭＩＤＩ音源で演奏することによって、入力される音響信号中の各単音にある程度近い音のサンプル（これを、「テンプレート音」という。）を生成することができる。テンプレート音から、ある楽器から生じる単音に対応した標準的なパワースペクトルにより表現されたデータのテンプレートを作成することができる。

　テンプレート音またはテンプレートは、実際の入力音響信号の単音または単音のパワースペクトルとは完全には同一でなく、必ず音響的な違いがある。そのためテンプレート音またはテンプレートをそのまま分離音または分離のためのパワースペクトルとして使用することはできない。非特許文献２に糸山等が提案した音源分離システムを利用すれば、単音の更新パワースペクトルが後述する初期パワースペクトルに近い状態から、入力音響信号から分離した単音の最新のパワースペクトルに近い状態に徐々に近付ける学習（これを「モデル適応」という。）を行うことにより、更新モデルパラメータに含まれる複数のパラメータを最終的に望ましい形で収束させることができて、分離が可能になる。なお音源分離システムについては、その他の技術を用いることができるのは勿論である。

具体的な実施の形態の説明をする前に、本明細書中で使用する音色特徴を表現する音色特徴量を定義し、音楽音響信号（楽器音）の分析及び合成に用いる調波・非調波統合モデルについて説明する。

［音色特徴量の定義］
ある楽器個体の実際の音がいくつか得られているとき、それらを元にして同個体の任意の音高・音長をもつ音、及び複数の音色特徴を含有する音を合成することにより合成音が得られる。このとき重要な点は、音色特徴が歪まないようにすることである。例えば、ある音高をもつ楽器音から音長操作により他の音高をもつ音を合成したとき、これらの音は同一の楽器個体から発せられていると感じられなければならない。

　音色の音響特徴の歪みを抑えて楽器音を合成するために、以下の３つの特徴量を定義する。

(i) 倍音ピーク間の相対強度（倍音ピーク・パラメータ）
(ii) 非調波成分の分布（非調波成分分布パラメータ）
(iii) 時間方向エンベロープ（パワーエンベロープ・パラメータ）
音響心理学の分野では、音色の聴感上の知覚の差はおもに、(i) 高周波数領域での倍音ピークの有無、(ii) 発音時に発生する非調波成分、(iii) 各ピークの時間方向における振幅の変動、の３つに起因する傾向があると指摘されている。上記の音色特徴量は、これらの知見にそれぞれ対応する。

図２に、分離音響信号及び置換に用いる置換音響信号のパラメータ分析を説明するために用いる図である。前述の特徴量(i) 及び(iii) は調波成分に関するもの、特徴量(ii) は非調波成分に関するものである。複数の実際の単音が与えられると、まず、各実際の単音の調波成分と非調波成分を分離後、各特徴量を分析することになる。

　本実施の形態では、音色特徴量を分析するために、非特許文献２に示された糸山等が開発した調波・非調波統合モデルを拡張する。なお非特許文献２に示された調波・非調波統合モデルをそのまま利用してもよいのは勿論である。拡張した部分を以下に述べる。

　Ａ．インハーモニシティ（非調和性）の組み込み
弦楽器音の倍音構造は厳密な整数倍をとらず、弦のスティフネスや長さによって各倍音ピークの周波数が若干高くなる。これは非調和性(インハーモニシティ) と呼ばれる。これを分析できるよう倍音ピークの周波数軸での配置間隔にインハーモニシティの理論式を適用した。

Ｂ．時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータの実数表現
ピアノ音やギター音といった急嵯な立ち上がりを持つ楽器音のパワーエンベロープ・パラメータを詳細に分析するために、ガウス関数の線形加算で表現されているパワーエンベロープ・パラメータを実数で表現した。

　本実施の形態では、上記拡張した調波・非調波統合モデルを用いて調波成分と非調波成分とを明示的に分けて取り扱う。すなわち、単音のスペクトログラムM (f, r) に対し、調波成分に対応するモデルM^(H)(f, r) と非調波成分に対応するモデルM^(I)(f, r) をω^(H) 及びω^(I)で重み付けした混合モデルを次式のように表現する。

ここで、f とr はそれぞれパワースペクトルにおける周波数と時間を表す。また、Σ_f,r M^(I)(f, r)dfdr =1 という制約の付与により重みω^(I) は非調波成分のエネルギーと考えることができ、ω^(I)M^(I)(f, r) は非調波成分のスペクトログラムそのものを表す。一方、M^(H)(f, r) は、各倍音n に対するパラメトリックモデルの重み付き混合モデルとして表現される。

ここで、F_n(f, r) 及びE_n(r) は、図３と図４に示すようなｎ次倍音成分の相対強度を示す倍音ピーク・パラメータが一要素として含まれる周波数エンベロープ及びｎ次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータ（パワーエンベロープ・パラメータ）を含むモデルとなっている。なおv_nがｎ次倍音成分の相対強度を示す倍音ピーク・パラメータに対応する。なお非調波モデルω^(I)M^(I)(f, r)が非調波成分分布パラメータに対応する。そしてF_n(f, r) は混合正規分布を構成するひとつの要素の正規分布に混合比を乗じたものとして表現される。

ここで、σは倍音ピークの周波数方向への分散、v_n はΣ_nv_n =1 を満たす重みであり、これが倍音ピーク・パラメータである。μ_n(r) はn 次倍音ピークの周波数軌跡で、次式のインハーモニシティの理論式に基づいて音高軌跡μ(r) と非調和性を組み込むための非調和度Ｂから次式のように表現される。

ここで非調和性は弦楽器音の倍音ピーク特有の性質であり、弦の張力、硬さ、長さによって非調和度Ｂが変わることになる。非調和性を有する倍音ピークの発生する周波数は上記式から求めることができる。注目する点は非調和度Ｂを0 にすればμn(r)= nμ(r) となり，非調和性の有無を非調和度Ｂというパラメータで表現することができるところである．そこで非調和性を表現できるように調波モデルを拡張することで分析精度(モデル適応の精度) と合成時の音質(分析音の再現精度) の両方を高めることができる。そこで非調和性を表現できるように拡張された調波モデルを用いると、後述する分離音響信号分析保存部３及び置換用パラメータ保存部４においてより正確な倍音ピークの分析を提供することができる。なお基本的には、従来通りの調波モデル（非調和度Ｂが０のモデル）を用いても、本発明の効果が得られることは勿論である。また非調和性は音高依存性を持っている。そのため音高の異なる楽器音(分離音響信号) の音高操作及び音色操作を行う場合には、後述する置換パラメータ作成保存部６において、音高依存特徴関数から予測した非調和度を用いるのが好ましい。ｎ次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータ（パワーエンベロープ・パラメータ）E_n(r)は∫E_n(r)dr =1 を満たす関数である。この統合モデルにおいて、前述の音色特徴量(i)，(ii) 及び(iii) は、それぞれv_n，ω^(I)M^(I)(f, r) 及びE_n(r)（置換されるパラメータ）に対応する。これらの求め方は後に詳しく説明する。なおパワーエンベロープ・パラメータは、正弦波重畳モデルで扱われる振幅エンベロープとは異なり、各倍音ピークの時間方向のエネルギーの分布を表す。

　Ｃ．楽器音の合成
調波成分に対応する調波信号s_H (t) を合成するには、特徴量(i) 及び(iii) をパラメータとする正弦波重畳モデルを用いる。非調波成分に対応する非調波信号s_I (t) を合成するには、特徴量(ii) を入力とするオーバーラップ加算法を用いる。各々に合成された調波信号と非調波信号を以下のように重ね合わせることによって最終的な楽器音s(t) を合成する。

ここで、t は信号のサンプル番地を表す。

　図５は、上記に説明した拡張した調波・非調波統合モデルを用いる本発明の実施の形態の一例としての、音楽音響信号の音色変更システムの構成を示すブロック図である。この音楽音響信号の音色変更システムは、音響信号分離部１と、信号抽出保存部２と、分離音響信号分析保存部３と、置換パラメータ作成保存部４と、楽器分類判定部５と、置換用パラメータ保存部６と、合成分離音響信号生成部７と、信号加算部８と、音高操作部９Ａと、音長操作部９Ｂとを備えている。

音響信号分離部１では、前述の拡張した調波・非調波統合モデルを用いて混合音楽音響信号から各音楽パートの音楽音響信号を分離する。調波・非調波統合モデルを用いる場合に、問題となるのは、先に示した統合モデルにおける未知パラメータω^(H),ω^(I), F_n(f, r), E_n(r), v_n, μ,(r) σ, M^(I)(f, r) を推定することである。そのため、非特許文献２の著者であり本願発明者の一人である糸山等は、統合モデルの単音のスペクトログラムとのKullback-Leibler Divergence を減少させるようにパラメータを反復更新する手法を提案している。この反復過程はExpectation-Maximization アルゴリズムで、効率的にパラメータを推定することができる。具体的には以下のコスト関数Ｊを最小化することによって、本実施の形態で用いるモデルが単音のスペクトログラムへ適応される。

ここで、M￣^(I)(f, r) は周波数方向で平滑化した非調波モデルである。非調波モデルは非常に高い自由度を持つため、調波モデルで表現すべき調波構造までも過剰に適応する。この非調波モデルの過剰適応を防ぐために、平滑化した非調波モデルとの距離をコスト関数に加算する。E￣(r) は各倍音ピークごとに平均したパワーエンベロープ・パラメータである。各倍音ピークのパワーが倍音ピーク間の相対強度とパワーエンベロープ・パラメータといったベクトル量及び調波エネルギーといったスカラー量の積算によって表現される。しかし、弱小なピークへのモデル適応時に、倍音ピーク間の相対強度が0 に近くなるため、パワーエンベロープ・パラメータが非常に高い自由度を持つようになる。このため、音高操作時、音高依存特徴関数によって弱小だったピークの倍音ピーク間の相対強度が強くなったときに、高調波成分において強い歪みが発生する。この弱小ピークへのパワーエンベロープ・パラメータの過剰適応を防ぐため、平均化したパワーエンベロープ・パラメータとの距離をコスト関数に加算する。λ(v)とλ(E_n) はそれぞれv_n とE_n(r) に対応するラグランジュの未定乗数項である。β^(I) とβ^(E) はそれぞれ、非調波成分とパワーエンベロープ・パラメータへの制約重みとする。Sn ^(H)(f, r) とS^(I)(f, r) はそれぞれ分離された各ピークの成分と非調波成分である。これらの分離は次式のように分配関数Dn ^(H)(f, r) とD^(I)(f, r) をそれぞれ積算することによって行われる。

分離に用いられる分配関数はモデルのパラメータを固定してコスト関数Ｊを最小化することによって求められ、次式のような方程式で導出される。

ただし、このとき最小化にあたって以下の制約を設ける。

さらに、前述した非調波成分の自由度の高さを制限するために、次式のように非調波成分の分離に用いる分配関数に制約重み0 ≦ γ≦ 1 を積算する。

制約重みγ は反復過程の初期においては低い値が割り振られ、徐々に１に近づくように更新される。音響信号分離部１で、上記のモデルを用いて各楽器パートを構成する楽器音の音響信号の分離（分離音響信号の生成）と同時に、単音ごとの分離音響信号から上記パラメータを推定する。その結果、上記モデルを用いた場合には、音響信号分離部１、信号抽出保存部２及び分離音響信号分析保存部３の大部分が実現される。上記モデルを用いない場合、音響信号分離部１では、公知の分離技術を用いて音楽音響信号を分離することになる。パラメータを推定することにより、１つの音楽音響信号の分離が完了する。

　音響信号分離部１で音楽音響信号を分離した後、信号抽出保存部２は、音響信号分離部１において分離した第１の種類の楽器から発生した楽器音を含む音楽音響信号から抽出した、分離音響信号を単音ごとに保存し且つ残差音響信号を保存する。前述のように、非特許文献２の分離技術を用いる場合には、分離音響信号と残差音響信号の分離・抽出を行っている。なお音楽音響信号は、本実施の形態のように、音響信号分離部１を用いて複数種類の楽器の楽器音が含まれる混合音響信号から分離されたものでも、音響信号分離部１を用いずに、最初から１つの楽器を演奏して得た単一楽器の音楽音響信号でもよい。なお本実施の形態のように、混合音響信号から分離した音楽音響信号を用いる場合には、音響信号分離部１で分離した他の楽器のパートの音楽音響信号は、残差音響信号に含めることになる。

　分離音響信号分析保存部３は、単音ごとの分離音響信号を、少なくともｎ次倍音成分の相対強度を示す倍音ピーク・パラメータ（通常、１単音あたりｎ次倍音分のｎ個の倍音ピーク・パラメータがある）とｎ次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを含む複数のパラメータ（通常、１単音あたり、倍音ピークの個数分のパワーエンベロープ・パラメータがある。）によって定式化された調波モデルにより表現するために、複数のパラメータを分析して保存する。なお非特許文献２に記載の調波・非調波統合モデルを音響信号分離部１で用いる場合には、分離音響信号分析保存部３は、音響信号分離部１に含まれることになる。なお調波モデルは、少なくともｎ次倍音成分の相対強度を示す倍音ピーク・パラメータとｎ次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを含む複数のパラメータによって構成されるものであればよく、特に上記非特許文献２に記載された調波モデルに限定されるものではない。後に説明するように、調波モデルとして、倍音構造の非調和性を組み込んだ調波モデルを用いると、第１の種類の楽器が、弦楽器の場合におけるパラメータの生成精度を高めることができる。１つの倍音ピーク・パラメータは、典型的には、前述の図３に示すように、周波数方向に倍音ピークが並ぶパワースペクトル中の倍音ピークの強度の実数として表現される。図２のＡ欄には、第１の種類の楽器の楽器音の音響信号から作成したパラメータを示してある。図２において、Ａ欄内の左端領域には、分析されたｎ次倍音成分の相対強度を示す倍音ピーク・パラメータの一つを示している。そしてＡ欄の右端領域には、非調波成分のパワースペクトル（非調波成分分布パラメータ）が示されている。さらにＡ欄の中央領域には、分析されたｎ次倍音成分の時間方向のパワーエンベロープ・パラメータの一つが示されている。パワーエンベロープ・パラメータは、図４に示すように、Ｎ個のｎ次倍音成分の相対強度を示す倍音ピーク・パラメータにそれぞれ含まれる同じ時間における倍音ピークのパワーの時間方向（周波数が同じで時間が異なる複数の倍音ピークのパワー）の変化を示すものであればよく、使用可能なパワーエンベロープ・パラメータは、上記非特許文献２に記載されたパワーエンベロープ・パラメータのみに限定されるものではない。

置換用パラメータ保存部６は、第１の種類の楽器とは異なる第２の種類の楽器から発生した楽器音の音響信号から作成した、音楽音響信号に含まれる全ての単音に対応する第２の種類の楽器から発生する複数の単音についての音響信号を調波モデルにより表現する場合に必要となる、第２の種類の楽器の複数の単音のｎ次倍音成分の相対強度を示す倍音ピーク・パラメータを保存する。また置換用パラメータ保存部６は、非調波成分分布パラメータも置換する場合には、第２の種類の楽器から発生した楽器音の音響信号の複数種類の単音ごとの非調波成分分布パラメータも保存する機能を備えている必要がある。

図２のＢ欄には、第１の種類の楽器とは異なる第２の種類の楽器から発生した楽器音の音響信号から作成した、音楽音響信号に含まれる全ての単音に対応する第２の種類の楽器から発生する複数の単音についての音響信号を調波モデルにより表現する場合に必要となる、第２の種類の楽器の単音のｎ次倍音成分の相対強度を示す倍音ピーク・パラメータの一例と、非調波成分と、ｎ次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータの一例が示されている。

同じ楽器分類に属する楽器の音響信号であれば、各周波数におけるパワーエンベロープ・パラメータは、良く似た形状になる。図１のＡ欄のパワーエンベロープ・パラメータの形状は、トランペット及び吹奏楽器等の持続楽器の単音のパワーエンベロープ・パラメータの形状であり、立ち上がり部と立ち下がり部との間に緩やかな変化部分を持つ変化パターンを有している。またＢ欄に示したパワーエンベロープ・パラメータの形状は、ピアノ及び打弦楽器等の減衰楽器の単音のパワーエンベロープ・パラメータの形状であり、大きな立ち上がりを持って減衰する変化パターンを有している。なお保存する倍音ピーク・パラメータ及びパワーエンベロープ・パラメータのデータ形式は任意である。非調波成分分布の形状も、楽器の形状に応じて相違する。非調波成分部分は、音の周波数をなす倍音ピーク以外の弱小な強度の周波数成分である。よって非調波成分分布パラメータも楽器の種類に応じて異なる。非調波成分分布の分析は、単音のみからなる音楽音響信号においては、考慮するのに十分に値する。

第２の種類の楽器の複数の単音のｎ次倍音成分の相対強度を示す倍音ピーク・パラメータは、事前に作成してもよいが、本システムで作成してもよい。なお音響信号分離部１において混合音響信号から分離した他の楽器パートの音楽音響信号から得た単音を第２の種類の楽器音としても用いることができるのは勿論である。

楽器分類判定部５は、第１の種類の楽器と第２の種類の楽器とが、同じ楽器分類に属するか否かを判定する。これは楽器分類が異なると、前述のパワーエンベロープのパターンが異なるためである。

　そして置換パラメータ作成保存部４は、分離音響信号分析保存部３に保存された、第１の種類の楽器の単音ごとのｎ次倍音成分の相対強度を示す倍音ピーク・パラメータに含まれる複数の倍音ピークを、置換用パラメータデータ保存部６に保存された、第１の種類の楽器の単音に対応する第２の種類の楽器の単音のｎ次倍音成分の相対強度を示す倍音ピーク・パラメータに含まれる複数の倍音ピークと置き換えることにより置換倍音ピーク・パラメータを作成して保存する。置換倍音ピーク・パラメータは、全ての倍音パラメータが第２の種類の楽器の楽器音から得られる倍音パラメータによって置換されたものである。また置換パラメータ作成保存部４は、分離音響信号分析保存部３に保存された、第１の種類の楽器の単音ごとのｎ次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを、置換用パラメータ保存部６に保存された、第１の種類の楽器の単音に対応する第２の種類の楽器の単音のｎ次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータと置き換えることにより作成した置換パワーエンベロープ・パラメータを保存する。なおこの置き換えでは、時間方向の長さを一致させる必要があるときには、第２の種類の楽器のパワーエンベロープ・パラメータと音楽音響信号のパワーエンベロープ・パラメータのオンセットとオフセットが合うようにパワーエンベロープを伸縮させて置き換えを行う。

　さらに置換パラメータ作成保存部４は、分離音響信号分析保存部３に保存された、第１の種類の楽器の単音ごとの非調波成分分布パラメータを、置換用パラメータ保存部に保存された、第１の種類の楽器の単音に対応する第２の種類の楽器の単音の非調波成分分布パラメータと置き換えることにより作成した置換非調波成分分布パラメータを更に保存する。

　合成分離音響信号生成部７は、楽器分類判定部５が、第１の種類の楽器と第２の種類の楽器とが、同じ楽器分類に属すると判定したときには、分離音響信号分析保存部に保存された倍音ピーク・パラメータ除く他のパラメータと置換パラメータ作成保存部に保存された置換倍音ピーク・パラメータとを用いて、単音ごとの合成分離音響信号を生成する。また合成分離音響信号生成部７は、楽器分類判定部５が、第１の種類の楽器と第２の種類の楽器とが、異なる楽器分類に属すると判定したときには、分離音響信号分析保存部３に保存された倍音ピーク・パラメータ、パワーエンベロープ・パラメータ及び非調波成分分布パラメータを除く他のパラメータと置換パラメータ作成保存部に保存された置換倍音ピーク・パラメータ及び置換パワーエンベロープ・パラメータとを用いて、単音ごとの合成分離音響信号を生成する。このようにすると第２の種類の楽器がどのようなものであっても、自動的に最適な音色変更を行うことができる。そして信号加算部８は、合成分離音響信号生成部７から出力された合成分離音響信号と分離音響信号分析保存部３から得た残差音響信号とを加算して、第２の種類の楽器から発生した楽器音を含む音楽音響信号を出力する。図２の最下部には、残差音響信号を足す以前のパワースペクトルを示している。

　本実施の形態によれば、調波モデルを構成するパラメータのうち音色に係わるパラメータの置換（変更）により、音色の変更（操作）をすることができるので、簡単に各種の音色変更を実現することができる。

　なお楽器分類判定部５を設けず、また置換パラメータ作成保存部４には置換倍音ピーク・パラメータだけを保存するようにしてもよい。このようにすると、第１の種類の楽器の単音から得られるパワーエンベロープ・パラメータの変化パターンと第２の種類の楽器の単音から得られるパワーエンベロープ・パラメータの変化パターンとが近似していれば、音色の変更精度は高くなる。逆に両者の変化パターンが大きく異なると、所望の音色への変更精度は低くなるものの、第２の種類の楽器の楽器音とは、第１の種類の楽器の雰囲気またはイメージが残った印象を受ける音色の変更となる。このような音色の変更も、ユーザによっては望まれる場合があるので、許容される。

　また置換の対象とするパラメータのうち、非調波成分分布パラメータの重要度は低いため、高い精度を要求されない場合には、置換の対象から除外してもよいのは勿論である。

　本実施の形態では、分離音響信号分析保存部３が分析する複数のパラメータに、音高に関する音高パラメータと音長に関する音長パラメータとが含まれている。そこで音高パラメータを操作する音高操作部９Ａと、音長パラメータを操作する音長パラメータ操作部９Ｂをさらに備えている。その結果、本実施の形態によれば、音高操作部９Ａ及び音長操作部９Ｂを備えているので、音色の変更（操作）の他に、音高、音長の変更（操作）も行うことができる。

また本実施の形態では、分離音響信号分析保存部３が分析する複数のパラメータは第１の種類の楽器から発生したすべての単音に対してそれぞれ別個に得られる。そこでユーザが指定する任意の楽譜構造中の各単音にふさわしい、音高に関する音高パラメータ、音長に関する音長パラメータ、及び調波モデルを構成するパラメータのうち音色に関わるパラメータを生成するための楽譜操作部９Ｃを備えている。本実施の形態では、楽譜操作部９Ｃを備えているので、音色の変更（操作）の他に、楽譜の変更（操作）も行うことができる。

次に、音高、音長、音色、楽譜の操作（変更）の技術について説明する。JIS では、音色は「聴感上の音の性質の一つで、２音の大きさ及び高さがともに等しくてもその２音が異なった感じを与えるとき、その相違に対応する性質」と定義されている。この定義では、音色は音高と音量とは独立の音の性質として扱われている。しかし、音色には音高への依存性があることが知られている。そのため音高によって変化するべき特徴量を保持したまま音高操作を行うと操作された楽器音に音色の歪みが生じる。また音色に関係する物理量としてスペクトル包絡が知られている。しかし一つのスペクトル包絡だけで異なる音高の倍音ピーク間の相対強度を正確に表現することは出来ない。これら音色特徴量のみで音色の特徴を捉えられるとはいいがたい。そこで発明者は音色特徴量とそれらの依存関係を分析しなければ、音色の特徴を捉えることができないという立場で、音色特徴量に加え、複数の楽器音から音色特徴量の音高依存性を分析することで、楽器個体の音色を扱うことを試みた。すなわち、操作は音色特徴量の音高依存性を考慮して行う。そして最後に、調波成分・非調波成分を別々に再合成して、足し合わせる。

　発明者は、音高依存性を考慮した公知の論文［北原鉄朗, 後藤真孝, 奥乃博「音高による音色変化に着目した楽器音の音源同定：F0 依存多次元正規分布に基づく識別手法」, 情報処理学会論文誌, Vol. 44, No. 10, pp. 2448.2458 (2003)］に着目した。この論文には、音高に対する音響特徴量を回帰関数（音高依存特徴関数）を用いて近似し、音高依存性を除去したあとの特徴量分布を学習することで、楽器音識別率が向上したと報告されている。なおこの論文中には、回帰関数を音高操作に使用することが開示されているだけで、音色置換にこの関数を用いることや、学習パラメータの補間生成を行うことは記載されていない。音色が音高に依存する理由として以下のことが知られている。

音高を操作するには、音高軌跡μ(r)に所望の倍率を乗算すればよいが、このとき音色特徴量の値を変化させずにそのまま利用することはできない。なぜなら、音色は音高依存性をもつことが知られており、音高の操作が大きくなるにつれて音色の歪みは増加するからである。

図６に示すように、音高をμ(r)からμ′(r)に変化させる場合には、相対強度をv_nからv_n′へと適切に変化させる必要がある。

　この問題を解決するため、発明者は、北原鉄朗, 後藤真孝及び奥乃博が発表した「音高による音色変化に着目した楽器音の音源同定：F0 依存多次元正規分布に基づく識別手法」［情報処理学会論文誌,Vol. 44, No. 10, pp. 2448.2458 (2003)］の論文で提案された音高依存性を考慮した楽器音識別手法に着目した。この論文では、音高に対する音響的特徴量を３次関数を用いて近似し、音高依存性を除去したあとの特徴量分布を学習することで、楽器音識別率が向上したと報告されている。

音色が音高に依存する理由として以下が知られている。

１．音高が低くなれば、発音体は大きくなる。発音体の質量が大きくなると慣性も大きくなり、パワーエンベロープの立ち上がりや減衰により多くの時間を要する。

２．音高が高くなると振動損失が大きくなるために、高次の高調波は発生されにくくなる。

３．一部の楽器では音高により発音体が異なり、各発音体は異なる材質からできている。

これらの知見から、楽器の音色は低域から高域にいくに従って連続的に変わるといえる。よって、本実施の形態では、音高よりも奏法に依存すると考えられる特徴量(iii)パワーエンベロープ・パラメータを除き、音高に対する特徴量(i)倍音ピーク間の相対強度（倍音ピーク・パラメータ），(ii)非調波成分の分布をn次関数（音高依存特徴関数と呼ぶ）（非調波成分分布パラメータ）で近似する。

本実施の形態では、音高依存特徴関数の次数に３次を用いた。この次数は、限られた学習データから音色の音高依存性を学習でき、音色特徴量の音高による変化を十分に扱えるという基準を設け、予備実験より決定した。

具体的には、以下の２つのパラメータに着目した。
（1）各倍音の倍音ピーク間の相対強度v_n
（2）調波成分のエネルギーに対する非調波成分のエネルギーの比ω^(H)/ω^(I)
(1)のv_nに関しては、n毎に独立に音高依存特徴関数を作成する。これによって、必ずしも v_nに関する制約 Σ_n v_n =1は満たされなくなるが、この場合でΣ_n v_n の値はほぼすべての音高に対して0.9～1.1程度に収まっており、生成される楽器音の音色がこれによって大きく変化することはないと考える。異なった音高をもつ複数のseed（単音）が与えられれば、それらの音色特徴量を分析し、最小二乗法によって音高依存特徴関数を求めることができる。得られた音高依存特徴関数を用いれば、所望の音高における音色特徴量を予測することができる。例として、図７（Ａ）乃至（Ｄ）にトランペットの第１次倍音，第４次倍音，第１０次倍音の相対強度、および調波成分と非調波成分のエネルギー比の音高特徴依存関数を示す。なお図７において、点と実線はそれぞれ、音高ごとに分析された音色の特徴量と、導出された音高依存特徴関数である。

音長を操作するには、パワーエンベロープ・パラメータ En(r)を所望の音長になるように伸縮させる方法は適切ではない。なぜなら、同一楽器個体では音長にかかわらず、発音の立ち上がりと立ち下がり、および音高の変動周期は類似することが知られており、音長の操作が大きくなるにつれて歪みは増加するからである。特に楽器音の立ち上がりや立ち下がりはエネルギーが大きく変化する部分で音色の印象への関わりが深い。また、音高の変動周期は、特にビブラート奏法が多用される演奏される楽器にとっては重要であり、聴感に与える印象への影響が大きい。

この問題を解決するため、発明者はパワーエンベロープ・パラメータにおける立ち上がりと立ち下がり部分を保存及び音高軌跡の時間的変動を再現する。まず、特徴量(iii) において、エネルギーの急峻な立ち上がり終了時をオンセットron、エネルギーの急峻な立ち下がり開始時をオフセットroffとして定義する。音長を操作するには、図８に示すようにオンセット－オフセット区間のみを伸縮させればよい。また、図９に示すように、正弦波重畳モデルを用いてオンセット－オフセット区間の音高軌跡を表現し、操作前と同じ周波数特性をもつ所望の長さの音高軌跡を生成する。オンセット以前及びオフセット以降の音高軌跡は操作前のものを用い、オンセット－オフセット付近の軌跡はガウシアンによって平滑化される。

次に、楽譜の変更方法について説明する。本実施例において、楽譜を変更することは、変更後の楽譜中の各単音それぞれに対する音高軌跡、パワーエンベロープ・パラメータ、及び音色特徴量を用意することである。変更後の楽譜が変更前のものと本質的に異なる場合、前述の音高操作、音長操作によってこれらの特徴量を得ることは適切ではない。なぜなら、実演奏から分析した音高軌跡、パワーエンベロープ・パラメータ、及び音色特徴量には、楽譜構造に依存して発生する特徴量の揺らぎ、すなわち演奏表情が含まれているからである。従って、変更後の楽譜に対する上記特徴量は、変更前の楽譜演奏から得た特徴量を元に、「似た構造の楽譜は似たような音で演奏される」という仮定のもとで新たに生成するのが望ましい。

発明者は、図２０に概念的に示すように、変更後の楽譜の全単音の特徴量を、１）前音の音高、前音の音長、当該音の音高、当該音の音長の４要素が最も近い変更前の楽譜の単音と、２）当該音の音高、当該音の音長、高音の音高、高音の音長の４要素が最も近い変更前の楽譜の単音、の２単音を分析して得た特徴量を混合比1:0 から0:1 へと時間変化させて重み付き混合する方法によって得る。この操作は変更前の楽譜演奏中で隣り合った音の組を、変更後の楽譜に合わせて次々と滑らかに連結させていく操作となる。

次に、音色（変更）操作について説明する。音色を操作するには、各音色特徴量に実数の混合率を乗算する．各音色特徴量の補間方法には以下のような２通りがある。

線形混合

対数混合

Feture にはvn, M(I)(f, r), En(r) といった音色特徴量が当てはまる。また，k,P は、それぞれ各単音へのインデックスと、補間された特徴量へのインデックスである。各単音の混合率αk は制約条件Σk αk = 1 を満たし、0 < αk < 1 では内挿、1 < αk あるいはαk < 0 では外挿となる。線形混合は、内挿と外挿の特徴量の変化率が一定であるが、音のエネルギーを対数的に捉える人間の聴覚特性を考慮できていない。これに対して対数混合は、人間の聴覚特性を考慮した補間方法であるが、混合した特徴量を最終的に指数化するため、外挿には注意が必要である。

音色特徴量のアラインメントの取り方を図１０に示す。図１０（Ａ）は、上段の第１の種類の楽器の単音ごとのｎ次倍音成分の相対強度を示す倍音ピーク・パラメータに含まれる複数の倍音ピークと、第１の種類の楽器の単音に対応する下段の第２の種類の楽器の単音のｎ次倍音成分の相対強度を示す倍音ピーク・パラメータに含まれる複数の倍音ピークと置き換える場合のアラインメントの取り方を示す。図１０（Ｂ）は、第１の種類の楽器の単音から得られるパワーエンベロープ・パラメータと第２の種類の楽器の単音から得られるパワーエンベロープ・パラメータのアラインメントの取り方を示す。第２の種類の楽器のパワーエンベロープ・パラメータと第１の種類の楽器の単音のパワーエンベロープ・パラメータのオンセットとオフセットが合うようにパワーエンベロープを伸縮させて操作を行う。そして図１０（Ｃ）は、上段の第１の種類の楽器の単音ごとの非調波成分と、下段の第２の種類の楽器の非調波成分のアラインメントの取り方を示す。両者のオンセットの部分を一致させるようにアラインメントを取ればよい。

図１１は、図５に示した実施の形態を具体的にコンピュータを用いて実現する場合に用いるコンピュータプログラムの一例のアルゴリズムを示すフローチャートである。また図１３は、音色操作の状況を説明するために用いる図である。このプログラムでは、複数の単音ごとのｎ次倍音成分の相対強度を示す倍音ピーク・パラメータとパワーエンベロープ・パラメータを置換して、音色の変更（操作）を行う。まずステップＳＴ１では、第１の種類の楽器から発生した楽器音を含む音楽音響信号から、分離音響信号と残差音響信号とを単音ごとにそれぞれ抽出する。またこのステップＳＴ１では、単音ごとの分離音響信号を、少なくともｎ次倍音成分の相対強度を示す倍音ピーク・パラメータとｎ次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを含む複数のパラメータによって定式化された調波モデルにより表現するために、複数のパラメータを分析する（特徴量変換）。

　次にステップＳＴ２乃至ステップＳＴ４は、第１の種類の楽器とは異なる第２の種類の楽器から発生した楽器音の音響信号（置換音響信号）から、倍音ピーク強度及びパワーエンベロープに関する特徴量を抽出する。これらステップＳＴ２乃至ステップＳＴ４により、図１２に示すように構成要素から構成される置換用パラメータ保存部６が構成される。すなわち図１２に示す置換用パラメータ保存部６は、パラメータ分析保存部６１と、パラメータ補間生成保存部６２と、関数生成保存部６３とを備えている。パラメータ分析保存部６１は、ステップＳＴ２で実現される機能実現手段であり、第２の種類の楽器から発生した楽器音の音響信号から得た複数種類の単音の分離音響信号を調波モデルにより表現する場合に必要となる、複数種類の単音ごとの少なくともｎ次倍音成分の相対強度を示す倍音ピーク・パラメータ及びｎ次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを分析して保存する。なおパラメータ分析保存部６１は、分析により得られたｎ次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを、代表パワーエンベロープ・パラメータとして保存してもよい。

図１３の最上段には、置換音響信号の特徴量として、１つの単音のｎ個のｎ次倍音成分の相対強度を示す倍音ピーク・パラメータのうちの２つの倍音ピーク・パラメータをパワースペクトルで示してある。パラメータ補間生成保存部６２は、ステップＳＴ３で実現される機能実現手段である。ステップＳＴ３では、補間により学習用特徴量を生成する。具体的には、パラメータ分析保存部６１に保存した複数種類の単音についての倍音ピーク・パラメータとパワーエンベロープ・パラメータとに基づいて、音楽音響信号に含まれる全ての単音に対応する第２の種類の楽器から発生する複数の単音のうち複数種類の単音以外の単音についての音響信号をモデルにより表現する場合に必要となる第２の種類の楽器の複数の単音ごとの倍音ピーク・パラメータ及びパワーエンベロープ・パラメータを補間法を用いて生成して保存する。このステップＳＴ３で行うことは、例えば２つの単音しかない場合において、必要なその他の複数の単音を補間法により生成して保存することである。

　ステップＳＴ２乃至ステップＳＴ４で、第１の種類の楽器とは異なる第２の種類の楽器から発生した楽器音の音響信号（置換音響信号）から倍音ピーク・パラメータ、パワーエンベロープ・パラメータ、非調波成分分布パラメータを抽出し、これらを補間することで置換に用いる各々のパラメータ（置換パラメータ) を生成する。補間により置換パラメータを生成することで、音色置換を所望する音楽音響信号中の単音と同じ音高、音長を持つ第２の種類の楽器の音響信号を限られた数の置換音響信号で置換することができる。音色は音高依存性を持っており、特に、倍音ピーク・パラメータは特に強い音高依存性を持っていることが非特許文献４の実験で知られている。

一方、スペクトル包絡は小さな音高依存性しか持っておらず、非特許文献５でスペクトル包絡を保持した品質の高い音声の音高操作手法が報告されている。

このスペクトル包絡を保持した音高操作手法は、非特許文献４にて評価実験における比較対象ともなっており、実験でスペクトル包絡の音高依存性の小ささが示されている。また、音響心理学の分野では、各ピークの時間方向における振幅の変動と発音時に発生する非調波成分で音色の時間変化が知覚される傾向があると指摘されている。すなわち、パワーエンベロープ・パラメータは発音時及び発音が持続している間、非調波成分分布パラメータは発音時が音色の知覚に重要な特徴を含んでいるといえる。

　本実施の形態の倍音ピーク・パラメータの補間では、倍音ピーク・パラメータよりもスペクトル包絡のほうが、音高依存性が小さいことに着目し、倍音ピーク・パラメータをスペクトル包絡に変換する。スペクトル包絡v(f) への変換は、図１４に示すように隣接する各倍音ピーク・パラメータvn を補間（線形補間、スプライン補間etc.) することで実現される。このとき、補間区間を超えた周波数（音高より下及び最高次の倍音ピーク周波数より上）のスペクトル包絡の変換には最近傍周波数の倍音ピーク・パラメータを用いる。以下、同様に補間区間を超えた範囲の補間には最近傍に位置するパラメータ値を用いるものとする。

さらに、変換して得られたスペクトル包絡v(f) を次式に基づいて補間することで、音色置換を所望する音楽音響信号中の任意の音高μ を持つ単音の補間スペクトル包絡を得られる。

ここで、k は置換音響信号に付与されているインデックスであり、v(k)(f)、v(k+1)(f) はそれぞれ低域、高域において最近傍の音高を持つ置換音響信号のスペクトル包絡である。また、α はこれら置換音響信号の音高μ(k)、μ(k+1)から決定される補間率であり、次式により決定される。

ここで音高μｎは以下のように定義される。

最後に、次式のように各倍音ピーク周波数の補間スペクトル包絡から補間倍音ピーク・パラメータを得る。

以上の倍音ピーク・パラメータの補間の概要図を図１５に示す。

本実施の形態のパワーエンベロープ・パラメータの補間では、発音時及び発音の持続している間が各ピークの振幅における音色の知覚に重要であることに着目し、置換音響信号のオンセットとオフセットを、置換を所望する音楽音響信号内の単音のオンセットとオフセットに同期させる。同期させるオンセットron とオフセットroff はそれぞれ、平均パワーエンベロープ・パラメータにおけるパワーが十分に大きくなった地点とパワーが急嵯に減少する地点を表すものであり、検出には手法を問わない。置換を所望する音楽音響信号内の単音のオンセットron、オフセットroff で同期をとるにはパワーエンベロープ・パラメータを時間軸上で操作する必要がある。これには非特許文献６で報告されている手法を用い、図１６に示すようにオンセット・オフセット区間(ron－roff) のみを操作することで同期パワーエンベロープ・パラメータEn(r) を得る。

同期パワーエンベロープ・パラメータEn(r) を次式に基づいて補間することで、音色置換を所望する音楽音響信号中の任意の音長を持つ単音の補間パワーエンベロープ・パラメータEn(r) を得られる。

ここで、E (k)n (f)、E (k+1)n (f) はそれぞれ低域、高域において最近傍の音高を持つ置換音響信号のパワーエンベロープ・パラメータである．パワーエンベロープ・パラメータの補間にも倍音ピーク・パラメータの補間で用いた補間率も用いる。以上のパワーエンベロープ・パラメータの補間の概要図を図１７に示す。

本実施の形態の非調波成分分布パラメータの補間では、発音時が非調波成分における音色の知覚に重要であることに着目し、置換音響信号のオンセットを置換を所望する音楽音響信号内の単音のオンセットに同期させる。同期させるオンセットron はパワーエンベロープ・パラメータの同期で用いたものと同様である。置換を所望する音楽音響信号内の単音のオンセットron で同期をとるには、図１８に示すように非調波成分分布パラメータを時間軸上で平行移動させればよく、これにより同期非調波成分分布パラメータM (I,k)(f, r)を得る。同期非調波成分分布パラメータM (I,k)(f, r) を次式に基づいて補間することで、音色置換を所望する音楽音響信号中の任意の音長を持つ単音の補間非調波成分分布パラメータM (I,k)(f, r) を得ることができる。

ここで、M (I,k)(f, r)，M (I,k+1)(f, r) はそれぞれ低域、高域において最近傍の音高を持つ置換音響信号の非調波成分分布パラメータである。非調波成分分布パラメータの補間にも倍音ピーク・パラメータの補間で用いた補間率も用いる。以上の非調波成分分布パラメータの補間の概要図を図１９に示す。さらに、倍音ピーク・パラメータ及び非調波成分分布パラメータを構成する非調波成分エネルギーw(I) においては、関数化することで置換音響信号のパラメータ分析時の誤差を軽減させることができる。このとき、補間に用いる置換音響信号は多いほうが望ましい。この関数化には非特許文献５で報告されている音高依存特徴関数を用い、倍音ピーク・パラメータ及び非調波成分分布パラメータを学習した音高依存特徴関数から予測する。

　ステップＳＴ４では、音高依存性特徴関数の学習を行う。なお学習方法及び学習させるパラメータは、前述の音高操作時に使われる音高依存性特徴関数と同じである。ステップＳＴ４により、図１２の関数生成保存部６３が構成されている。関数生成保存部６３は、パラメータ分析保存部６１及びパラメータ補間生成保存部６２に保存されたデータに基づいて、第２の種類の複数の単音ごとの倍音ピーク・パラメータを音高依存特徴関数として保存する。具体的にステップＳＴ４では、ステップＳＴ３で生成したいくつかの単楽器音の特徴量から最小二乗法によって回帰関数の係数を推定する（図１３の上から３段目の図参照）。この回帰関数は、音高依存特徴関数と呼ばれるものである。具体的には、１つの単音についてのｎ個のｎ次倍音成分の相対強度を示す倍音ピーク・パラメータから、同じ周波数を持って発生する倍音ピークを各次元のデータから（１次からｎ次まで）集めてそれらの包絡線を表したものである。このような関数が得られれば、第２の種類の楽器の単音の倍音ピーク・パラメータに含まれる複数の倍音ピークを各次元の音高依存特徴関数から取得することができる。このように関数化することで、複数の学習データの分析時の誤差を軽減することができる。

　本発明において、ステップＳＴ４を用いた関数化は必須要件ではなく、ステップＳＴ３の精度が高ければ、ステップＳＴ３で取得したデータをそのまま利用してもよい。また第２の種類の楽器の複数の単音ごとの必要なパラメータは、どのように作成してもよく、本実施の形態に限定されるものではない。

　図１１に戻って、ステップＳＴ５では、第１の種類の楽器の単音ごとのｎ次倍音成分の相対強度を示す倍音ピーク・パラメータに含まれる複数の倍音ピークを、第１の種類の楽器の単音に対応する第２の種類の楽器の単音のｎ次倍音成分の相対強度を示す倍音ピーク・パラメータに含まれる複数の倍音ピークと置き換えることにより置換倍音ピーク・パラメータを作成する。ステップ５では、ステップＳＴ４で求めた音高依存特徴関数から置き換えに必要な第２の楽器の倍音ピークを取得している。そしてステップＳＴ６では、第１の種類の楽器と第２の種類の楽器とが、同じ楽器分類に属するか否かを判定する。ステップＳＴ６で、第１の種類の楽器と第２の種類の楽器とが、同じ楽器分類に属すると判定したときには、ステップＳＴ８へと進む。ステップＳＴ６で、第１の種類の楽器と第２の種類の楽器とが、同じ楽器分類に属するものではないと判定したときには、ステップＳＴ７へと進む。ステップＳＴ７では、ステップＳＴ２乃至ステップＳＴ４で求めた、第２の種類の楽器の複数の単音のｎ次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを取得する。そして第１の種類の楽器の単音ごとのｎ次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを、第１の種類の楽器の単音に対応する第２の種類の楽器の単音のｎ次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータと置き換えることにより置換パワーエンベロープ・パラメータを作成する。非調波成分分布パラメータについても、このステップＳＴ７で置換非調波成分分布パラメータを作成する。

　ステップＳＴ６で、２つの楽器が同じ楽器分類に属することが判定された場合、ステップＳＴ８では、分離音響信号分析保存部に保存された倍音ピーク・パラメータ除く他のパラメータと置換用パラメータ保存部に保存された置換倍音ピーク・パラメータとを用いて、単音ごとの合成分離音響信号を生成する。ステップＳＴ６で、２つの楽器が同じ楽器分類に属するものではないことが判定された場合、ステップＳＴ８では、倍音ピーク・パラメータ及びパワーエンベロープ・パラメータを除く他のパラメータと置換倍音ピーク・パラメータ及び置換パワーエンベロープ・パラメータとを用いて、単音ごとの合成分離音響信号を生成する。そして最後のステップＳＴ９では、単音ごとの合成分離音響信号と残差音響信号とを加算して、第２の種類の楽器から発生した楽器音を含む音楽音響信号を出力する。

　図１１のアルゴリズムでは、ステップＳＴ６で、楽器分類を判定しているが、楽器分類の判定はステップＳＴ５よりも前において行ってもよい。また当初より、同じ楽器分類に属する楽器の音響信号間でのみ音色変更をすることが決まっている場合には、ステップＳＴ７は不要であり、ステップＳＴ２乃至ステップＳＴ４でもパワーエンベロープ・パラメータを扱う必要はない。

　次に、図１の実施の形態を処理する具体的な実装について説明する。

［音高操作］
音高操作を行うには、周波数エンベロープを構成する音高軌跡μ(r)に対して、実数α（音高を低くする場合:０≦α＜１、音高を高くする場合：１＜α）を乗算する。ここで、μ(r)を所望する操作後の音高とすると以下が成り立つ。

例えば、αを2とすれば、seed（単音）の１オクターブ上の音高の楽器音が合成できる。操作後の楽器音の倍音ピーク間の相対強度v_nは、音高依存特徴関数から予測される各倍音ごとの倍音ピーク間の相対強度を制約条件Σ_ｎｖ_ｎ＝１より正規化することで得られる。また、操作後の楽器音の非調波成分のエネルギーω^(I)は、調波成分のエネルギー ω^(H)を音高特徴依存関数から予測される調波成分に対する非調波成分のエネルギーの比 ω^(H)/ω^(I)で割ることで得られる。

［音長操作］
　音長操作を行うには、オンセット・オフセット間の時間方向エンベロープE_n(r)と音高軌跡μ(r)を操作する。操作によって得られた時間方向エンベロープと音高軌跡をそれぞれ E_nとμ(r)とする。

［オンセットとオフセットの検出］
本願明細書におけるオンセットとは、楽器音の時間方向の振幅が十分に大きくなってから、振幅の変動が一定になる瞬間である。オフセットとは、時間方向の振幅が十分な大きさを持っており、振幅の変動が一定の状態が得られなくなる瞬間である。この定義に従い、オンセットとオフセットを以下の通り検出する。

　ここでＴhは、楽器音の時間方向の振幅の十分な大きさを示す閾値である。持続系の楽器はこれでよいが、打弦楽器や撥弦楽器といった減衰楽器のオンセットとオフセットは、ほぼ同時時刻となり、オンセット・オフセット間を伸縮させることができない。よって、シンセサイザーにおける減衰楽器の振幅制御を参考に、パワーエンベロープ・パラメータの終端を減衰楽器音のオフセットとみなし、オンセット以降のパワーエンベロープ・パラメータを伸縮の対象とする。

[楽譜操作]
ユーザが指定する変更後の楽譜の各単音の特徴量は, 分析した変更前（元演奏）の楽譜との楽譜構造の類似性に基づいて生成される。図２１は、楽譜操作における操作の流れを示しており、変更前の楽譜演奏音響信号から演奏表情を含む特徴量を抽出し、これを用いて楽譜構造の類似性に基づき変更後の楽譜に対する特徴量を生成する。そこで発明者は、変更後の楽譜の第j 音に対する特徴量Featureを, 変更前の楽譜中のノートナンバーＮと音長Ｌの類似する単音の特徴量から算出する方法をとった。まず、変更後の楽譜の第j 音に対して以下の条件を満たす分析済変更前の楽譜中の２音を選出する。

ここで、 N_k, L_k は変更前の楽譜のノートナンバーと音長であり, N￣_j, L￣_jは変更後の楽譜のノートナンバーと音長であり、α はそれらの重みを決定する定数である。次に, 得られた二つの単音の特徴量を混合して、第j 音にふさわしい音モデルを算出する。

ただし、上記式において、 Feature^(j)(r) は第j 音の特徴量中の時間フレームr に対するものであり、その四則演算は各パラメータ同士のものと定義する。また、

外１

はそれぞれ変更前の楽譜のq^- _j 音, q⁺ _j 音の特徴量を音高がN￣_j, 音長がL￣_j となるように操作をしたものである. この式は二つの音特徴量の混合比を１：０から０：１へと時間変化させることを意味しており, q⁺ _j = q￣_j+1 であることから, 変更前の楽譜中で隣り合った音の組を変更後の楽譜の楽譜に合わせて次々と滑らかに連結させていく操作となっている。

［音高軌跡のモデル化］
オンセット・オフセット間の音高軌跡 μ(r)をモデル化するため、音高の周期的変動が時不変であることを仮定し、正弦波重畳モデルに基づく音高軌跡モデルを構築する。すなわち、音長操作後の音高軌跡は次式のように表現される。

ここで、Ｒはフレーム数である。未知パラメータは、音高軌跡を構成する各正弦波の振幅Ａk(μ)と、周波数ωk(μ)，位相φk(μ)である。これらは既存の正弦波重畳モデルのパラメータ推定手法によって導出することが可能である。

［音色操作］
補間された各音色特徴量は次式によって得られる。

ここでFeatureには、v_n,M^(I)(f,r),E_n(r)といった音色特徴量が当てはまる。また、ｋ,Ｐは、それぞれ各seed（単音）へのインデックスと、補間された特徴量へのインデックスである。倍音ピーク間の相対強度v_nではアラインメントは不要である。非調波成分の分布M^(I)(f,r)ではオンセットのみでアラインメントがとられる。一方、時間方向の振幅エンベロープE_n(r)ではオンセットとオフセットが揃うように音長操作された後アラインメントがとられる。

［楽器音の合成］
調波モデルから調波信号s_H(t)を、非調波モデルs_I (t)から非調波信号を合成し、以下のように重ね合わせることで最終的な楽器音s(t)を合成する。

ここで、tはサンプリングされた信号のサンプル番地を表す。

［調波信号の合成］
調波信号s_H (t)を合成するには、次式によって表現される正弦波重畳モデルを用いる。

ここで、Ａ_n(t)，φ_n(t)とはそれぞれn番目の正弦波の瞬時振幅と瞬時位相である。このモデルでは、各正弦波の振幅と周波数が定常性を持っていることが仮定されている。瞬時位相は、フレーム単位で分析されている音高軌跡をスプライン補間によってサンプル単位を補間した操作後の音高軌跡μ(t)を積分することによって得られる。

ここで、φ_n(0)は任意の初期位相である。正弦波重畳モデルではトラッキングしたピークを瞬時振幅として用いる。調波構造の概形をモデル化した調波モデルにおいては、周波数エンベロープを構成する各ガウス関数の平均にパワーエンベロープ・パラメータと調波エネルギーを積算したものをトラッキングしたピークとみなすことができる。特徴量抽出のモデルと楽器音合成のモデルが異なるために合成音が持つ倍音の相対強度は分析対象の楽器音のものとは必ずしも一致しないが、実験的にはこの操作を経ても特徴量が大きく変化することはなかったため、モデルの違いの音色への影響は小さいと考える。よって、瞬時振幅は次式から求めることができる。

ここで、時間方向エンベロープE_n(r)にはスプライン補間を用いてサンプル単位にしたものが用いられる。

［非調波信号の合成］
　非調波信号s_I (t)を合成するには、オーバーラップ加算法を用いる。このとき、非調波エネルギーω^(I)を乗算した非調波モデルω^(I)M^(I)(f，r)をスペクトログラムとみなして信号に変換する。位相はseedのものをそのまま利用する。

　次に、オンセット・オフセット情報に基づく制約を付加したコスト関数の使用について説明する。

以下に示すコスト関数を最小化することによって、調波非調波統合モデルを分離の対象音が存在する混合音へ適応する。

上記コスト関数は、上記［数６］に示したコスト関数とは、以下の２点で相違する。

１．コスト関数に倍音ピークの相対強度v_nと制約パラメータv￣_nとの独立性を示す距離が付加されている。

２．時間方向エンベロープの制約パラメータE￣(r)が平均の時間方向エンベロープとは異なったものとなっている。

　制約パラメータv￣_nはオン－オフセット区間のスペクトログラムに対してのみ上記コスト関数を最小化することによって得られるパラメータである。v￣_nは次式より得られる。

さらに、倍音ピークの相対強度に関する制約コストの付加より、倍音ピークの相対強度の更新式は次式のように改訂される。

また、時間方向のエンベロープに関する制約パラメータE￣(r)は次の式から求められる。

これらの式を用いると、さらに精度の高い音色の変更（操作）が可能になる。

　なお音高軌跡の更新式は、下記のようになる。

　また非調和度の更新式は、下記のようになる。

　さらに時間方向のエンベロープの更新式は下記のようになる。

　上記実施の形態では、音高、音長、音色、楽譜の操作を行って第１の種類の楽器の単音を第２の種類の楽器の単音に置換して、しかも第１の種類の楽器で未知の楽譜を演奏した場合の音楽音響信号を生成することができる。しかしながら、本発明は第１の種類の楽器を用いて未知の楽譜を演奏した場合の音楽音響信号を生成する場合にも当然にして適用することができる。

　本発明によれば、調波モデルを構成するパラメータのうち音色に係わるパラメータの置換（変更）により、音色の変更（操作）をすることができるので、簡単に各種の音色変更を実現することができる。

　１　音響信号分離部
２　信号抽出保存部
３　分離音響信号分析保存部
４　置換パラメータ作成保存部
５　楽器分類判定部
６　置換用パラメータ保存部
７　合成分離音響信号生成部
８　信号加算部
９Ａ　音高操作部
９Ｂ　音長操作部　

Claims

　第１の種類の楽器から発生した楽器音の音響信号を含む音楽音響信号から抽出した、前記第１の種類の楽器から発生した楽器音の音響信号のみを含む分離音響信号を単音ごとに保存し且つ残差音響信号を保存する信号抽出保存部と、
　前記単音ごとの分離音響信号を、少なくともｎ次倍音成分の相対強度を示す倍音ピーク・パラメータとｎ次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを含む複数のパラメータによって定式化された調波モデルにより表現するために、前記単音ごとに前記複数のパラメータを分析して保存する分離音響信号分析保存部と、
　前記第１の種類の楽器とは異なる第２の種類の楽器から発生した楽器音の音響信号から作成した、前記分離音響信号に含まれる全ての単音に対応する前記第２の種類の楽器から発生する複数の単音についての音響信号を前記調波モデルにより表現する場合に必要となる、前記第２の種類の楽器から発生した前記複数の単音のｎ次倍音成分の相対強度を示す倍音ピーク・パラメータを保存する置換用パラメータ保存部と、
　前記分離音響信号分析保存部に保存された、前記第１の種類の楽器の単音ごとの前記ｎ次倍音成分の相対強度を示す倍音ピーク・パラメータに含まれる複数の倍音ピークを、前記置換用パラメータ保存部に保存された、前記第１の種類の楽器の単音に対応する前記第２の種類の楽器の前記単音のｎ次倍音成分の相対強度を示す倍音ピーク・パラメータに含まれる複数の倍音ピークと置き換えることにより作成した置換倍音ピーク・パラメータを保存する置換パラメータ作成保存部と、
　前記分離音響信号分析保存部に保存された前記倍音ピーク・パラメータを除く他のパラメータと前記置換用パラメータ保存部に保存された前記置換倍音ピーク・パラメータとを用いて、単音ごとの合成分離音響信号を生成する合成分離音響信号生成部と、
　前記合成分離音響信号と前記残差音響信号とを加算して、第２の種類の楽器から発生した楽器音を含む音楽音響信号を出力する信号加算部とからなる音楽音響信号生成システム。
　第１の種類の楽器から発生した楽器音を含む音楽音響信号から抽出した、前記第１の種類の楽器から発生した楽器音の音響信号のみを含む分離音響信号を単音ごとに保存し且つ残差音響信号を保存する信号抽出保存部と、
　単音ごとの前記分離音響信号を、少なくともｎ次倍音成分の相対強度を示す倍音ピーク・パラメータとｎ次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを含む複数のパラメータによって定式化された調波モデルにより表現するために、前記単音ごとに前記複数のパラメータを分析して保存する分離音響信号分析保存部と、
　前記第１の種類の楽器とは異なる第２の種類の楽器から発生した楽器音の音響信号から作成した、前記分離音響信号に含まれる全ての単音に対応する前記第２の種類の楽器から発生する複数の単音についての音響信号を前記調波モデルにより表現する場合に必要となる、前記第２の種類の楽器の前記複数の単音ごとのｎ次倍音成分の相対強度を示す倍音ピーク・パラメータ及びｎ次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを保存する置換用パラメータ保存部と、
　前記分離音響信号分析保存部に保存された、前記第１の種類の楽器の単音ごとの前記ｎ次倍音成分の相対強度を示す倍音ピーク・パラメータに含まれる複数の倍音ピークを、前記置換用パラメータ保存部に保存された、前記第１の種類の楽器の単音に対応する前記第２の種類の楽器の前記単音のｎ次倍音成分の相対強度を示す倍音ピーク・パラメータに含まれる複数の倍音ピークと置き換えることにより作成した置換倍音ピーク・パラメータを保存し、且つ前記分離音響信号分析保存部に保存された、前記第１の種類の楽器の単音ごとの前記ｎ次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを、前記置換用パラメータ保存部に保存された、前記第１の種類の楽器の単音に対応する前記第２の種類の楽器の前記単音のｎ次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータと置き換えることにより作成した置換パワーエンベロープ・パラメータを保存する置換パラメータ作成保存部と、
　前記分離音響信号分析保存部に保存された前記倍音ピーク・パラメータ及び前記パワーエンベロープ・パラメータを除く他のパラメータと前記置換パラメータ作成保存部に保存された前記置換倍音ピーク・パラメータ及び前記置換パワーエンベロープ・パラメータとを用いて、単音ごとの合成分離音響信号を生成する合成分離音響信号生成部と、
　前記合成分離音響信号と前記残差音響信号とを加算して、第２の種類の楽器から発生した楽器音を含む音楽音響信号を出力する信号加算部とからなる音楽音響信号生成システム。
　第１の種類の楽器から発生した楽器音を含む音楽音響信号から抽出した、前記第１の種類の楽器から発生した楽器音の音響信号のみを含む分離音響信号を単音ごとに保存し且つ残差音響信号を保存する信号抽出保存部と、
　前記単音ごとの分離音響信号を、少なくともｎ次倍音成分の相対強度を示す倍音ピーク・パラメータとｎ次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを含む複数のパラメータによって定式化された調波モデルにより表現するために、前記単音ごとに前記複数のパラメータを分析して保存する分離音響信号分析保存部と、
　前記第１の種類の楽器とは異なる第２の種類の楽器から発生した楽器音の音響信号から作成した、前記音楽音響信号に含まれる全ての単音に対応する前記第２の種類の楽器から発生する複数の単音についての音響信号を前記調波モデルにより表現する場合に必要となる、前記第２の種類の楽器から発生した前記複数の単音ごとのｎ次倍音成分の相対強度を示す倍音ピーク・パラメータ及び次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを保存する置換用パラメータ保存部と、
　前記第１の種類の楽器と前記第２の種類の楽器とが、同じ楽器分類に属するか否かを判定する楽器分類判定部と、
　前記分離音響信号分析保存部に保存された、前記第１の種類の楽器の単音ごとの前記ｎ次倍音成分の相対強度を示す倍音ピーク・パラメータに含まれる複数の倍音ピークを、前記置換用パラメータ保存部に保存された、前記第１の種類の楽器の単音に対応する前記第２の種類の楽器の前記単音のｎ次倍音成分の相対強度を示す倍音ピーク・パラメータに含まれる複数の倍音ピークと置き換えることにより作成した置換倍音ピーク・パラメータを保存し、且つ前記分離音響信号分析保存部に保存された、前記第１の種類の楽器の単音ごとの前記ｎ次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを、前記置換用パラメータ保存部に保存された、前記第１の種類の楽器の単音に対応する前記第２の種類の楽器の前記単音のｎ次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータと置き換えることにより作成した置換パワーエンベロープ・パラメータを保存する置換パラメータ作成保存部と、
　前記楽器分類判定部が、前記第１の種類の楽器と前記第２の種類の楽器とが、同じ楽器分類に属すると判定したときには、前記分離音響信号分析保存部に保存された前記倍音ピーク・パラメータを除く他のパラメータと前記置換パラメータ作成保存部に保存された前記置換倍音ピーク・パラメータとを用いて、単音ごとの合成分離音響信号を生成し、前記楽器分類判定部が、前記第１の種類の楽器と前記第２の種類の楽器とが、異なる楽器分類に属すると判定したときには、前記分離音響信号分析保存部に保存された前記倍音ピーク・パラメータ及び前記パワーエンベロープ・パラメータを除く他のパラメータと前記置換パラメータ作成保存部に保存された前記置換倍音ピーク・パラメータ及び前記置換パワーエンベロープ・パラメータとを用いて、単音ごとの合成分離音響信号を生成する合成分離音響信号生成部と、
　前記合成分離音響信号と前記残差音響信号とを加算して、第２の種類の楽器から発生した楽器音を含む音楽音響信号を出力する信号加算部とからなる音楽音響信号生成システム。
　前記分離音響信号分析保存部は、第１の種類の楽器の単音ごとの非調波成分分布パラメータを保存する機能を更に備えており、
前記置換用パラメータ保存部は、前記第２の種類の楽器から発生した楽器音の音響信号の前記複数種類の単音ごとの非調波成分分布パラメータを保存する機能を更に備えており、
前記置換パラメータ作成保存部は、前記分離音響信号分析保存部に保存された、前記第１の種類の楽器の単音ごとの前記非調波成分分布パラメータを、前記置換用パラメータ保存部に保存された、前記第１の種類の楽器の単音に対応する前記第２の種類の楽器の前記単音の前記非調波成分分布パラメータと置き換えることにより作成した置換非調波成分分布パラメータを更に保存し、
前記合成分離音響信号生成部は、前記分離音響信号分析保存部に保存された前記倍音ピーク・パラメータ、前記パワーエンベロープ・パラメータ及び前記非調波成分分布パラメータを除く他のパラメータと前記置換パラメータ作成保存部に保存された前記置換倍音ピーク・パラメータ、前記置換パワーエンベロープ・パラメータ及び前記非調波成分分布パラメータとを用いて、単音ごとの合成分離音響信号を生成する請求項２または３に記載の音楽音響信号生成システム。
　前記置換用パラメータ保存部は、前記第２の種類の楽器から発生した楽器音の音響信号から得た複数種類の単音の分離音響信号を前記調波モデルにより表現する場合に必要となる、前記複数種類の単音ごとの少なくともｎ次倍音成分の相対強度を示す倍音ピーク・パラメータを分析して保存し、併せて前記複数種類の単音ごとのｎ次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを保存するパラメータ分析保存部と、
　前記パラメータ分析保存部に保存した前記複数種類の単音についての前記倍音ピーク・パラメータと前記パワーエンベロープ・パラメータとに基づいて、前記音楽音響信号に含まれる全ての単音に対応する前記第２の種類の楽器から発生する複数の単音のうち前記複数種類の単音以外の単音についての音響信号を前記調波モデルにより表現する場合に必要となる前記第２の種類の楽器の前記複数の単音ごとの前記倍音ピーク・パラメータを補間法を用いて生成して保存するパラメータ補間生成保存部とからなり、
　前記パラメータ分析保存部は、分析により得られた前記ｎ次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを、代表パワーエンベロープ・パラメータとして保存する請求項２または３に記載の音楽音響信号生成システム。
　前記置換用パラメータ保存部は、前記複数種類の単音ごとの少なくともｎ次倍音成分の相対強度を示す倍音ピーク・パラメータ及びｎ次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを分析して保存するパラメータ分析保存部と、
　前記パラメータ分析保存部に保存した前記複数種類の単音についての前記倍音ピーク・パラメータと前記パワーエンベロープ・パラメータとに基づいて、前記音楽音響信号に含まれる全ての単音に対応する前記第２の種類の楽器から発生する複数の単音のうち前記複数種類の単音以外の単音についての音響信号を前記調波モデルにより表現する場合に必要となる前記第２の種類の楽器の前記複数の単音ごとの前記倍音ピーク・パラメータ及び前記パワーエンベロープ・パラメータを補間法を用いて生成して保存するパラメータ補間生成保存部とからなる請求項２または３に記載の音楽音響信号生成システム。
　前記置換用パラメータ保存部は、前記パラメータ分析保存部及び前記パラメータ補間生成保存部に保存されたデータに基づいて、前記第２の種類の前記複数の単音ごとの前記倍音ピーク・パラメータを音高依存特徴関数として保存する関数生成保存部をさらに備え、
　前記置換パラメータ作成保存部は、前記第２の種類の楽器の前記単音の前記倍音ピーク・パラメータに含まれる複数の倍音ピークを前記音高依存特徴関数から取得するように構成されている請求項５に記載の音楽音響信号生成システム。
　前記音楽音響信号を含む混合音響信号から前記音楽音響信号を分離する音響信号分離部をさらに備えている請求項１，２または３に記載の音楽音響信号生成システム。
　前記音楽音響信号を含む混合音響信号から前記音楽音響信号を分離する音響信号分離部をさらに備えており、前記音楽音響信号以外の音響信号が前記残差音響信号中に含まれる請求項１，２または３に記載の音楽音響信号生成システム。
　前記音楽音響信号を含む混合音響信号から得た別の音楽音響信号から前記第２の種類の楽器の楽器音を取得する請求項９に記載の音楽音響信号生成変更システム。
　前記調波モデルが、倍音構造の非調和性を組み込んだ調波モデルである請求項１，２または３に記載の音楽音響信号生成システム。
　前記分離音響信号分析保存部が分析する複数のパラメータには、音高に関する音高パラメータと音長に関する音長パラメータとが含まれており、
　前記音高パラメータを操作する音高操作部と、前記音長パラメータを操作する音長パラメータ操作部をさらに備えている請求項１，２または３に記載の音楽音響信号生成システム。
　第１の種類の楽器から発生した楽器音を含む音楽音響信号から、前記第１の種類の楽器から発生した楽器音の音響信号のみを含む分離音響信号を単音ごとにそれぞれ抽出し且つ残差音響信号を抽出するステップと、
　単音ごとの前記分離音響信号を、少なくともｎ次倍音成分の相対強度を示す倍音ピーク・パラメータとｎ次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを含む複数のパラメータによって定式化された調波モデルにより表現するために、前記単音ごとに前記複数のパラメータを分析するステップと、
　前記第１の種類の楽器とは異なる第２の種類の楽器から発生した楽器音の音響信号から、前記音楽音響信号に含まれる全ての単音に対応する前記第２の種類の楽器から発生する複数の単音についての音響信号を前記調波モデルにより表現する場合に必要となる、前記第２の種類の楽器の前記複数の単音のｎ次倍音成分の相対強度を示す倍音ピーク・パラメータを作成するステップと、
　前記第１の種類の楽器の単音ごとの前記ｎ次倍音成分の相対強度を示す倍音ピーク・パラメータに含まれる複数の倍音ピークを、前記第１の種類の楽器の単音に対応する前記第２の種類の楽器の前記単音のｎ次倍音成分の相対強度を示す倍音ピーク・パラメータに含まれる複数の倍音ピークと置き換えることにより置換倍音ピーク・パラメータを作成するステップと、
　前記倍音ピーク・パラメータ除く他のパラメータと前記置換用パラメータ保存部に保存された前記置換倍音ピーク・パラメータとを用いて、単音ごとの合成分離音響信号を生成するステップと、
　前記合成分離音響信号と前記残差音響信号とを加算して、第２の種類の楽器から発生した楽器音を含む音楽音響信号を出力するステップとをコンピュータが実施する音響信号生成方法。
　第１の種類の楽器から発生した楽器音を含む音楽音響信号から、前記第１の種類の楽器から発生した楽器音の音響信号のみを含む分離音響信号を単音ごとにそれぞれ抽出し且つ残差音響信号を抽出するステップと、
　単音ごとの前記分離音響信号を、少なくともｎ次倍音成分の相対強度を示す倍音ピーク・パラメータとｎ次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを含む複数のパラメータによって定式化された調波モデルにより表現するために、前記単音ごとに前記複数のパラメータを分析するステップと、
　前記第１の種類の楽器とは異なる第２の種類の楽器から発生した楽器音の音響信号から、前記音楽音響信号に含まれる全ての単音に対応する前記第２の種類の楽器から発生する複数の単音についての音響信号を前記調波モデルにより表現する場合に必要となる、前記第２の種類の楽器の前記複数の単音ごとのｎ次倍音成分の相対強度を示す倍音ピーク・パラメータ及びｎ次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを作成するステップと、
　前記第１の種類の楽器の単音ごとの前記ｎ次倍音成分の相対強度を示す倍音ピーク・パラメータに含まれる複数の倍音ピークを、前記第１の種類の楽器の単音に対応する前記第２の種類の楽器の前記単音のｎ次倍音成分の相対強度を示す倍音ピーク・パラメータに含まれる複数の倍音ピークと置き換えることにより置換倍音ピーク・パラメータを作成し、且つ前記第１の種類の楽器の単音ごとの前記ｎ次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータの特徴領域を、前記第１の種類の楽器の単音に対応する前記第２の種類の楽器の前記単音のｎ次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータの特徴領域と置き換えることにより置換パワーエンベロープ・パラメータを作成するステップと、
　前記倍音ピーク・パラメータ及び前記パワーエンベロープ・パラメータを除く他のパラメータと前記置換倍音ピーク・パラメータ及び前記置換パワーエンベロープ・パラメータとを用いて、単音ごとの合成分離音響信号を生成するステップと、
　前記合成分離音響信号と前記残差音響信号とを加算して、第２の種類の楽器から発生した楽器音を含む音楽音響信号を出力するステップとをコンピュータが実施することを特徴とする音楽音響信号生成方法。
　第１の種類の楽器から発生した楽器音を含む音楽音響信号から、前記第１の種類の楽器から発生した楽器音の音響信号のみを含む分離音響信号を単音ごとにそれぞれ抽出し且つ残差音響信号を抽出するステップと、
　単音ごとの前記分離音響信号を、少なくともｎ次倍音成分の相対強度を示す倍音ピーク・パラメータとｎ次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを含む複数のパラメータによって定式化された調波モデルにより表現するために、前記単音ごとに前記複数のパラメータを分析するステップと、
　前記第１の種類の楽器とは異なる第２の種類の楽器から発生した楽器音の音響信号から、前記音楽音響信号に含まれる全ての単音に対応する前記第２の種類の楽器から発生する複数の単音についての音響信号を前記調波モデルにより表現する場合に必要となる、前記第２の種類の楽器の前記複数の単音ごとのｎ次倍音成分の相対強度を示す倍音ピーク・パラメータ及びｎ次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを作成するステップと、
　前記第１の種類の楽器と前記第２の種類の楽器とが、同じ楽器分類に属するか否かを判定するステップと、
　前記第１の種類の楽器の単音ごとの前記ｎ次倍音成分の相対強度を示す倍音ピーク・パラメータに含まれる複数の倍音ピークを、前記置換用パラメータ保存部に保存された、前記第１の種類の楽器の単音に対応する前記第２の種類の楽器の前記単音のｎ次倍音成分の相対強度を示す倍音ピーク・パラメータに含まれる複数の倍音ピークと置き換えることにより置換倍音ピーク・パラメータを作成し、且つ前記第１の種類の楽器の単音ごとの前記ｎ次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータの特徴領域を、前記第１の種類の楽器の単音に対応する前記第２の種類の楽器の前記単音のｎ次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータの特徴領域と置き換えることにより置換パワーエンベロープ・パラメータを作成するステップと、
　前記楽器分類判定部が、前記第１の種類の楽器と前記第２の種類の楽器とが、同じ楽器分類に属すると判定したときには、前記倍音ピーク・パラメータ除く他のパラメータと前記置換倍音ピーク・パラメータとを用いて、単音ごとの合成分離音響信号を生成し、前記楽器分類判定部が、前記第１の種類の楽器と前記第２の種類の楽器とが、異なる楽器分類に属すると判定したときには、前記倍音ピーク・パラメータ及び前記パワーエンベロープ・パラメータを除く他のパラメータと前記置換倍音ピーク・パラメータ及び前記置換パワーエンベロープ・パラメータとを用いて、単音ごとの合成分離音響信号を生成するステップと、
　前記合成分離音響信号と前記残差音響信号とを加算して、第２の種類の楽器から発生した楽器音を含む音楽音響信号を出力するステップとをコンピュータが実施する音楽音響信号生成方法。
　第１の種類の楽器から発生した楽器音を含む音楽音響信号から、前記第１の種類の楽器から発生した楽器音の音響信号のみを含む分離音響信号を単音ごとにそれぞれ抽出し且つ残差音響信号を抽出するステップと、
　単音ごとの前記分離音響信号を、少なくともｎ次倍音成分の相対強度を示す倍音ピーク・パラメータとｎ次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを含む複数のパラメータによって定式化された調波モデルにより表現するために、前記単音ごとに前記複数のパラメータを分析するステップと、
　前記第１の種類の楽器とは異なる第２の種類の楽器から発生した楽器音の音響信号から、前記音楽音響信号に含まれる全ての単音に対応する前記第２の種類の楽器から発生する複数の単音についての音響信号を前記調波モデルにより表現する場合に必要となる、前記第２の種類の楽器の前記複数の単音のｎ次倍音成分の相対強度を示す倍音ピーク・パラメータを作成するステップと、
　前記第１の種類の楽器の単音ごとの前記ｎ次倍音成分の相対強度を示す倍音ピーク・パラメータに含まれる複数の倍音ピークを、前記第１の種類の楽器の単音に対応する前記第２の種類の楽器の前記単音のｎ次倍音成分の相対強度を示す倍音ピーク・パラメータに含まれる複数の倍音ピークと置き換えることにより置換倍音ピーク・パラメータを作成するステップと、
　前記倍音ピーク・パラメータ除く他のパラメータと前記置換用パラメータ保存部に保存された前記置換倍音ピーク・パラメータとを用いて、単音ごとの合成分離音響信号を生成するステップと、
　前記合成分離音響信号と前記残差音響信号とを加算して、第２の種類の楽器から発生した楽器音を含む音楽音響信号を出力するステップとをコンピュータを用いて実施するために前記コンピュータで用いられる音楽音響信号生成用コンピュータプログラム。
　第１の種類の楽器から発生した楽器音を含む音楽音響信号から、前記第１の種類の楽器から発生した楽器音の音響信号のみを含む分離音響信号を単音ごとにそれぞれ抽出し且つ残差音響信号を抽出するステップと、
　単音ごとの前記分離音響信号を、少なくともｎ次倍音成分の相対強度を示す倍音ピーク・パラメータとｎ次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを含む複数のパラメータによって定式化された調波モデルにより表現するために、前記単音ごとに前記複数のパラメータを分析するステップと、
　前記第１の種類の楽器とは異なる第２の種類の楽器から発生した楽器音の音響信号から、前記音楽音響信号に含まれる全ての単音に対応する前記第２の種類の楽器から発生する複数の単音についての音響信号を前記調波モデルにより表現する場合に必要となる、前記第２の種類の楽器の前記複数の単音ごとのｎ次倍音成分の相対強度を示す倍音ピーク・パラメータ及びｎ次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータ前記第１の種類の楽器から発生した楽器音の音響信号のみを含む作成するステップと、
　前記第１の種類の楽器の単音ごとの前記ｎ次倍音成分の相対強度を示す倍音ピーク・パラメータに含まれる複数の倍音ピークを、前記第１の種類の楽器の単音に対応する前記第２の種類の楽器の前記単音のｎ次倍音成分の相対強度を示す倍音ピーク・パラメータに含まれる複数の倍音ピークと置き換えることにより置換倍音ピーク・パラメータを作成し、且つ前記第１の種類の楽器の単音ごとの前記ｎ次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータの特徴領域を、前記第１の種類の楽器の単音に対応する前記第２の種類の楽器の前記単音のｎ次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータの特徴領域と置き換えることにより置換パワーエンベロープ・パラメータを作成するステップと、
　前記倍音ピーク・パラメータ及び前記パワーエンベロープ・パラメータを除く他のパラメータと前記置換倍音ピーク・パラメータ及び前記置換パワーエンベロープ・パラメータとを用いて、単音ごとの合成分離音響信号を生成するステップと、
　前記合成分離音響信号と前記残差音響信号とを加算して、第２の種類の楽器から発生した楽器音を含む音楽音響信号を出力するステップとをコンピュータを用いて実施するために前記コンピュータで用いられる音楽音響信号生成用コンピュータプログラム。
　第１の種類の楽器から発生した楽器音を含む音楽音響信号から、前記第１の種類の楽器から発生した楽器音の音響信号のみを含む分離音響信号を単音ごとにそれぞれ抽出し且つ残差音響信号を抽出するステップと、
　単音ごとの前記分離音響信号を、少なくともｎ次倍音成分の相対強度を示す倍音ピーク・パラメータとｎ次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを含む複数のパラメータによって定式化された調波モデルにより表現するために、前記単音ごとに前記複数のパラメータを分析するステップと、
　前記第１の種類の楽器とは異なる第２の種類の楽器から発生した楽器音の音響信号から、前記音楽音響信号に含まれる全ての単音に対応する前記第２の種類の楽器から発生する複数の単音についての音響信号を前記調波モデルにより表現する場合に必要となる、前記第２の種類の楽器の前記複数の単音ごとのｎ次倍音成分の相対強度を示す倍音ピーク・パラメータ及びｎ次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを作成するステップと、
　前記第１の種類の楽器と前記第２の種類の楽器とが、同じ楽器分類に属するか否かを判定するステップと、
　前記第１の種類の楽器の単音ごとの前記ｎ次倍音成分の相対強度を示す倍音ピーク・パラメータに含まれる複数の倍音ピークを、前記置換用パラメータ保存部に保存された、前記第１の種類の楽器の単音に対応する前記第２の種類の楽器の前記単音のｎ次倍音成分の相対強度を示す倍音ピーク・パラメータに含まれる複数の倍音ピークと置き換えることにより置換倍音ピーク・パラメータを作成し、且つ前記第１の種類の楽器の単音ごとの前記ｎ次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータの特徴領域を、前記第１の種類の楽器の単音に対応する前記第２の種類の楽器の前記単音のｎ次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータの特徴領域と置き換えることにより置換パワーエンベロープ・パラメータを作成するステップと、
　前記楽器分類判定部が、前記第１の種類の楽器と前記第２の種類の楽器とが、同じ楽器分類に属すると判定したときには、前記倍音ピーク・パラメータ除く他のパラメータと前記置換倍音ピーク・パラメータとを用いて、単音ごとの合成分離音響信号を生成し、前記楽器分類判定部が、前記第１の種類の楽器と前記第２の種類の楽器とが、異なる楽器分類に属すると判定したときには、前記倍音ピーク・パラメータ及び前記パワーエンベロープ・パラメータを除く他のパラメータと前記置換倍音ピーク・パラメータ及び前記置換パワーエンベロープ・パラメータとを用いて、単音ごとの合成分離音響信号を生成するステップと、
　前記合成分離音響信号と前記残差音響信号とを加算して、第２の種類の楽器から発生した楽器音を含む音楽音響信号を出力するステップとをコンピュータを用いて実施するために前記コンピュータで用いられる音楽音響信号生成用コンピュータプログラム。
　請求項１６乃至１８のいずれか１項に記載の音楽音響信号生成用コンピュータプログラムが記録されたコンピュータ読み取り可能な記録媒体。
　前記第１の種類の楽器または前記第２の種類の楽器を用いて演奏したときに前記第１の種類の楽器または前記第２の種類の楽器から発生する楽器音の音響信号を、前記分離音響信号分析保存部に保存された前記単音ごとの前記複数のパラメータを利用して生成するための操作を行う楽譜操作部を更に備えていることを特徴とする請求項１乃至１２のいずれか１項に記載の音楽音響信号生成システム。
　前記楽譜操作部は、前記他の楽譜の楽譜構造中の各単音にふさわしい、音高に関する音高パラメータ、音長に関する音長パラメータ及び調波モデルを構成するパラメータのうち音色に関わるパラメータを生成するように構成されている請求項２０に記載の音楽音響信号生成システム。
　演奏者がある楽譜を楽器で演奏して前記楽器から発生した楽器音の音響信号を含む音楽音響信号から抽出した、前記楽器音の音響信号のみを含む分離音響信号を単音ごとに保存する信号抽出保存部と、
　前記単音ごとの分離音響信号を、少なくともｎ次倍音成分の相対強度を示す倍音ピーク・パラメータとｎ次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを含む複数のパラメータによって定式化された調波モデルにより表現するために、前記単音ごとに前記複数のパラメータを分析して保存する分離音響信号分析保存部と、
　前記楽譜とは異なる他の楽譜を前記演奏者が前記楽器を用いて演奏したときに前記楽器から発生する楽器音の音響信号を、前記分離音響信号分析保存部に保存された前記単音ごとの前記複数のパラメータを用いて生成するための操作を行う楽譜操作部とを含んでいることを特徴とする音楽音響信号生成システム。