WO2024053122A1

WO2024053122A1 - 音声信号処理装置、音声信号処理方法、及び、プログラム

Info

Publication number: WO2024053122A1
Application number: PCT/JP2022/044499
Authority: WO
Inventors: 隆山尾; 勲角張; 忠義奥田
Original assignee: パナソニックＩｐマネジメント株式会社
Priority date: 2022-09-05
Filing date: 2022-12-02
Publication date: 2024-03-14

Abstract

音声信号処理装置（１００）は、音声信号（ＡＳ１）を取得する取得部（１１０）と、音声信号（ＡＳ１）に基づいて、人の可聴領域よりも高い第１周波数よりも高い周波数帯域の高音域成分を含む第１高音域信号を生成する第１信号処理部（１２０ａ）と、音声信号（ＡＳ１）に第１高音域信号を加算して、高音域が拡張された拡張音声信号を生成する加算部（１３０）と、を備え、第１信号処理部（１２０ａ）は、（ｉ）音声信号（ＡＳ１）に対して、第１振幅でクリップする第１クリップ処理を含む第１信号処理を行い、（ｉｉ）第１クリップ処理後の音声信号（ＡＳ３）に対して、第１周波数よりも高い周波数帯域を通過させる第１ハイパスフィルタ処理を行う。

Description

音声信号処理装置、音声信号処理方法、及び、プログラム

　本開示は、音声信号処理装置、音声信号処理方法、及び、プログラムに関する。

　特許文献１には、オーディオ信号の高音域を拡張する技術が開示されている。

国際公開第２０００／０７０７６９号

　本開示は、自然音などの音声信号のような１／ｆ特性を有していない音声信号の高音域を、人に与える違和感が少ないように拡張することが容易にできる音声信号処理装置などを提供する。

　本開示の一態様に係る音声信号処理装置は、音声信号を取得する取得部と、前記音声信号に基づいて、人の可聴領域よりも高い第１周波数よりも高い周波数帯域の高音域成分を含む第１高音域信号を生成する第１信号処理部と、前記音声信号に前記第１高音域信号を加算して、高音域が拡張された拡張音声信号を生成する加算部と、を備え、前記第１信号処理部は、（ｉ）前記音声信号に対して、第１振幅でクリップする第１クリップ処理を含む第１信号処理を行い、（ｉｉ）前記第１クリップ処理後の音声信号に対して、前記第１周波数よりも高い周波数帯域を通過させる第１ハイパスフィルタ処理を行うことで、前記第１高音域信号を生成する。

　また、本開示の一態様に係る音声信号処理方法は、音声信号を取得し、前記音声信号に基づいて、人の可聴領域よりも高い第１周波数よりも高い周波数帯域の高音域成分を含む第１高音域信号を生成し、前記音声信号に前記第１高音域信号を加算して、高音域が拡張された拡張音声信号を生成し、前記第１高音域信号の生成では、前記音声信号に対して、第１振幅でクリップする第１クリップ処理を含む第１信号処理を行い、前記第１クリップ処理後の音声信号に対して、前記第１周波数よりも高い周波数帯域を通過させる第１ハイパスフィルタ処理を行うことで、前記第１高音域信号を生成する。

　なお、これらの全般的または具体的な態様は、装置、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なＣＤ－ＲＯＭなどの非一時的な記録媒体で実現されてもよく、装置、集積回路、コンピュータプログラム及び非一時的な記録媒体の任意な組み合わせで実現されてもよい。

　本開示における音声信号処理装置などは、自然音などの音声信号のような１／ｆ特性を有していない音声信号の高音域を、人に与える違和感が少ないように拡張することが容易にできる。

図１は、実施の形態に係る音声信号処理システムの構成の一例を示すブロック図である。図２は、実施の形態に係る第１信号処理部の構成の一例を示す図である。図３は、実施の形態に係る第１信号処理部による各処理について説明するための各処理の前後の音声信号の波形の一例を示す図である。図４は、実施の形態に係る第２信号処理部の構成の一例を示す図である。図５は、実施の形態に係る第２信号処理部による各処理について説明するための各処理の前後の音声信号の波形の一例を示す図である。図６は、実施の形態に係る音声信号処理装置の音声信号処理の一例を示すフローチャートである。図７は、実施の形態に係るＮ個の高音域信号のうちの第１高音域信号を生成する処理の一例を示すフローチャートである。図８は、実施の形態に係るＮ個の高音域信号のうちの第２高音域信号を生成する動作の一例を示すフローチャートである。

　（本開示の基礎となった知見）
　特許文献１に記載の技術では、１／ｆ特性フィルタによるフィルタ処理を行うことが前提であるため、自然音などのような１／ｆ特性を有していない音声信号の高音域を拡張することが考慮されていない。つまり、従来技術では、自然音などのような１／ｆ特性を有していない音声信号の高音域を、人に与える違和感が少ないように拡張することが難しいという課題がある。

　本発明者らは、鋭意検討の上、自然音などの音声信号のような１／ｆ特性を有していない音声信号の高音域を、人に与える違和感が少ないように拡張するために、下記に示すような音声信号処理装置、音声信号処理方法、及び、プログラムを見出すに至った。

　本開示の第１の態様に係る音声信号処理装置は、音声信号を取得する取得部と、前記音声信号に基づいて、人の可聴領域よりも高い第１周波数よりも高い周波数帯域の高音域成分を含む第１高音域信号を生成する第１信号処理部と、前記音声信号に前記第１高音域信号を加算して、高音域が拡張された拡張音声信号を生成する加算部と、を備え、前記第１信号処理部は、（ｉ）前記音声信号に対して、第１振幅でクリップする第１クリップ処理を含む第１信号処理を行い、（ｉｉ）前記第１クリップ処理後の音声信号に対して、前記第１周波数よりも高い周波数帯域を通過させる第１ハイパスフィルタ処理を行うことで、前記第１高音域信号を生成する。

　これによれば、第１増幅処理後の音声信号を第１振幅でクリップする第１クリップ処理を行うことで、元の音声信号に基づく高周波成分（高調波）をより多く含む音声信号を生成することができる。そして、第１クリップ処理後の音声信号に対して第１ハイパスフィルタ処理を行うため、主に高音域の音圧が大きい第１高音域信号を生成することができ、元の音声信号に第１高音域信号を加算することで、元の音声信号の高音域が拡張された拡張音声信号を生成することができる。これにより、自然音などのような１／ｆ特性を有していない音声信号の高音域を、人に与える違和感が少ないように拡張することが容易にできる。

　本開示の第２の態様に係る音声信号処理装置は、第１の態様に係る音声信号処理装置であって、前記第１信号処理は、前記音声信号を第１ゲインで増幅させる第１増幅処理と、前記第１増幅処理後の音声信号に対して行う前記第１クリップ処理とを含む。

　これによれば、増幅処理によって、元の音声信号の波形の、第１振幅に基づく音圧の範囲における傾きを増幅処理前よりも急にすることができるため、クリップ処理後の音声信号の波形の屈曲した形状の角度を９０度に近づけることができる。よって、より多くの高周波成分（例えば、元の音声信号の周波数帯域よりも高く、かつ、非可聴領域となる高周波成分）を含む音声信号を生成することができる。

　本開示の第３の態様に係る音声信号処理装置は、第１の態様または第２の態様に係る音声信号処理装置であって、前記第１信号処理部は、さらに、前記第１クリップ処理後の音声信号を第２ゲインで減衰させる第１減衰処理を行い、前記第１高音域信号は、さらに前記第１減衰処理が実行された後の音声信号である。

　このため、元の音声信号に基づく高周波成分をより多く含む、第１クリップ処理後の音声信号の振幅の調整を行うことができる。これにより、適切に振幅が調整された第１高音域信号を生成することができ、元の音声信号の高音域を適切に拡張することができる。

　本開示の第４の態様に係る音声信号処理装置は、第１の態様または第２の態様に係る音声信号処理装置であって、前記第１信号処理部は、さらに、前記第１ハイパスフィルタ処理後の音声信号の特定の周波数帯域を増幅または減衰させる第１イコライザ処理を行い、前記第１高音域信号は、さらに前記第１イコライザ処理が実行された後の音声信号である。

　このため、第１ハイパスフィルタ処理後の音声信号の周波数特性の調整を行うことができる。これにより、適切に振幅が調整された第１高音域信号を生成することができ、元の音声信号の高音域を適切に拡張することができる。

　本開示の第５の態様に係る音声信号処理装置は、第１の態様または第２の態様に係る音声信号処理装置であって、前記第１信号処理部は、さらに、前記第１クリップ処理後の音声信号を第２ゲインで減衰させる第１減衰処理を行い、前記第１減衰処理後の音声信号の特定の周波数帯域を増幅または減衰させる第１イコライザ処理を行い、前記第１高音域信号は、さらに前記第１イコライザ処理が実行された後の音声信号である。

　このため、第１ハイパスフィルタ処理後の音声信号の振幅及び周波数特性の調整を行うことができる。これにより、適切に振幅が調整された第１高音域信号を生成することができ、元の音声信号の高音域を適切に拡張することができる。

　本開示の第６の態様に係る音声信号処理装置は、第１の態様から第５の態様のいずれか１つの態様に係る音声信号処理装置であって、さらに、前記音声信号に基づいて、前記第１高音域信号とは異なる第２高音域信号を生成する第２信号処理部を備え、前記第２信号処理部は、（ｉ）前記音声信号に対して所定の音圧分をオフセットさせるオフセット処理を含む第２信号処理を行い、（ｉｉ）前記第２信号処理後の音声信号を第２振幅でクリップする第２クリップ処理を行い、（ｉｉｉ）前記第２クリップ処理後の音声信号に対して、前記可聴領域よりも高い第２周波数よりも高い周波数帯域を通過させる第２ハイパスフィルタ処理を行うことで、前記第２高音域信号を生成し、前記加算部は、前記音声信号に、前記第１高音域信号と前記第２高音域信号とを加算して、前記拡張音声信号を生成する。

　これによれば、オフセット処理後及び第２増幅処理後の音声信号を第２振幅でクリップする第２クリップ処理を行うことで、元の音声信号に基づく高周波成分をより多く含む音声信号を生成することができる。第１クリップ処理後の音声信号は、オフセット処理されずにクリップ処理されている場合、奇数次の周波数成分を多く含み、第２クリップ処理後の音声信号は、オフセット処理後にクリップ処理されているため偶数次の周波数成分を多く含む。このため、この場合に第１高音域信号及び第２高音域信号の周波数特性を異ならせることができ、より効果的に元の音声信号の高音域を拡張することができる。

　本開示の第７の態様に係る音声信号処理装置は、第６の態様に係る音声信号処理装置であって、前記第２信号処理は、前記オフセット処理と、前記オフセット処理後の音声信号を第３ゲインで増幅させる第２増幅処理とを含む。

　これによれば、増幅処理によって、オフセット処理後の音声信号の波形の、第２振幅に基づく音圧の範囲における傾きを増幅処理前よりも急にすることができるため、クリップ処理後の音声信号の波形の屈曲した形状の角度を９０度に近づけることができる。よって、より多くの高周波成分（例えば、元の音声信号の周波数帯域よりも高く、かつ、非可聴領域となる高周波成分）を含む音声信号を生成することができる。

　本開示の第８の態様に係る音声信号処理装置は、第６の態様または第７の態様に係る音声信号処理装置であって、前記第２信号処理部は、さらに、前記第２クリップ処理後の音声信号を第４ゲインで減衰させる第２減衰処理を行い、前記第２高音域信号は、さらに前記第２減衰処理が実行された後の音声信号である。

　このため、元の音声信号に基づく高周波成分をより多く含む、第２クリップ処理後の音声信号の振幅の調整を行うことができる。これにより、適切に振幅が調整された第２高音域信号を生成することができ、元の音声信号の高音域をより適切に拡張することができる。

　本開示の第９の態様に係る音声信号処理装置は、第６の態様または第７の態様に係る音声信号処理装置であって、前記第２信号処理部は、さらに、前記第２ハイパスフィルタ処理後の音声信号の特定の周波数帯域を増幅または減衰させる第２イコライザ処理を行い、前記第２高音域信号は、さらに前記第２イコライザ処理が実行された後の音声信号である。

　このため、第２ハイパスフィルタ処理後の音声信号の周波数特性の調整を行うことができる。これにより、適切に振幅が調整された第２高音域信号を生成することができ、元の音声信号の高音域をより適切に拡張することができる。

　本開示の第１０の態様に係る音声信号処理装置は、第６の態様または第７の態様に係る音声信号処理装置であって、前記第２信号処理部は、さらに、前記第２クリップ処理後の音声信号を第４ゲインで減衰させる第２減衰処理を行い、前記第２減衰処理後の音声信号の特定の周波数帯域を増幅または減衰させる第２イコライザ処理を行い、前記第２高音域信号は、さらに前記第２イコライザ処理が実行された後の音声信号である。

　このため、第２ハイパスフィルタ処理後の音声信号の振幅及び周波数特性の調整を行うことができる。これにより、適切に振幅が調整された第２高音域信号を生成することができ、元の音声信号の高音域をより適切に拡張することができる。

　本開示の第１１の態様に係る音声信号処理装置は、第１の態様から第５の態様のいずれか１つの態様に係る音声信号処理装置であって、さらに、前記音声信号に基づいて、前記第１高音域信号とは異なる第３高音域信号を生成する第３信号処理部を備え、前記第３信号処理部は、（ｉ）前記音声信号を第５ゲインで増幅させる第３増幅処理を行い、（ｉｉ）前記第３増幅処理後の音声信号を第３振幅でクリップする第３クリップ処理を行い、（ｉｉｉ）前記第３クリップ処理後の音声信号に対して、前記可聴領域よりも高い第３周波数よりも高い周波数帯域を通過させる第３ハイパスフィルタ処理を行うことで、前記第３高音域信号を生成し、前記加算部は、前記音声信号に、前記第１高音域信号と前記第３高音域信号とを加算して、前記拡張音声信号を生成する。

　これによれば、第３増幅処理後の音声信号を第３振幅でクリップする第３クリップ処理を行うことで、元の音声信号に基づく高周波成分をより多く含む音声信号を生成することができる。そして、第３クリップ処理後の音声信号に対して第３ハイパスフィルタ処理を行うため、主に高音域の音圧が大きい第３高音域信号を生成することができる。これにより、元の音声信号に第１高音域信号及び第３高音域信号を加算することで、元の音声信号の高音域がより効果的に拡張された拡張音声信号を生成することができる。

　本開示の第１２の態様に係る音声信号処理装置は、第１１の態様に係る音声信号処理装置であって、前記第１ゲインと前記第５ゲインとの値の組、前記第１振幅と前記第３振幅との値の組、及び、前記第１周波数と前記第３周波数との値の組の少なくともいずれか１つの値の組は、互いに異なる。

　これによれば、第１ゲインと第５ゲインとの値の組、第１振幅と第３振幅との値の組、及び、第１周波数と第３周波数との値の組の少なくともいずれか１つの値の組は、互いに異なっているため、第１高音域信号を生成する処理とは異なる処理で第３高音域信号を生成することができる。このため、第１高音域信号及び第３高音域信号の周波数特性を異ならせることができる。これにより、元の音声信号に第１高音域信号及び第３高音域信号を加算することで、元の音声信号の高音域がより効果的に拡張された拡張音声信号を生成することができる。

　本開示の第１３の態様に係る音声信号処理方法は、音声信号を取得し、前記音声信号に基づいて、人の可聴領域よりも高い第１周波数よりも高い周波数帯域の高音域成分を含む第１高音域信号を生成し、前記音声信号に前記第１高音域信号を加算して、高音域が拡張された拡張音声信号を生成し、前記第１高音域信号の生成では、前記音声信号に対して、第１振幅でクリップする第１クリップ処理を含む第１信号処理を行い、前記第１クリップ処理後の音声信号に対して、前記第１周波数よりも高い周波数帯域を通過させる第１ハイパスフィルタ処理を行うことで、前記第１高音域信号を生成する。

　これによれば、第１増幅処理後の音声信号を第１振幅でクリップする第１クリップ処理を行うことで、元の音声信号に基づく高周波成分をより多く含む音声信号を生成することができる。そして、第１クリップ処理後の音声信号に対して第１ハイパスフィルタ処理を行うため、主に高音域の音圧が大きい第１高音域信号を生成することができ、元の音声信号に第１高音域信号を加算することで、元の音声信号の高音域が拡張された拡張音声信号を生成することができる。これにより、自然音などのような１／ｆ特性を有していない音声信号の高音域を、人に与える違和感が少ないように拡張することが容易にできる。

　本開示の第１４の態様に係るプログラムは、第１３の態様に係る音声信号処理方法をコンピュータに実行させるためのプログラムである。

　以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。

　なお、発明者は、当業者が本開示を十分に理解するために添付図面及び以下の説明を提供するのであって、これらによって請求の範囲に記載の主題を限定することを意図するものではない。

　（実施の形態）
　［１．構成］
　図１は、実施の形態に係る音声信号処理システム１の構成の一例を示すブロック図である。

　音声信号処理システム１は、音源の音声信号ＡＳ１（元の音声信号）の高音域を拡張した音声を出力するシステムである。音声信号処理システム１は、図１に示されるように音声信号処理装置１００と、スピーカ２００とを備える。

　音声信号処理装置１００は、音源の音声信号ＡＳ１に対して、当該音声信号ＡＳ１の高音域を拡張する信号処理を行う装置である。音声信号処理装置１００は、音声信号ＡＳ１の高音域が拡張された拡張音声信号を出力する。音声信号処理装置１００は、例えば、アンプ装置（プリアンプ、インテグレーテッドアンプなど）、ＴＶ、録画再生装置、ＳＴＢ（Set Top Box）などのＡＶ（Audio Visual）機器で実現されてもよいし、ＰＣ（Personal Computer）、スマートフォン、タブレット端末などの情報処理端末で実現されてもよい。

　スピーカ２００は、音声信号処理装置１００から出力された拡張音声信号に基づく出力音声を出力する。スピーカ２００は、アンプ装置に接続されるパッシブスピーカであってもよいし、アンプを内蔵しているアクティブスピーカであってもよい。また、スピーカ２００は、ＴＶ、スマートフォン、タブレット端末が備えるスピーカであってもよい。この場合、音声信号処理システム１は、ＴＶ、スマートフォン、タブレット端末などの単体の機器で実現されてもよい。

　＜音声信号処理装置の構成＞
　音声信号処理装置１００は、通信ＩＦ（Interface）１０１と、音声入力ＩＦ（Interface）１０２と、ストレージ１０３と、信号処理回路１０４とを備える。

　通信ＩＦ１０１は、外部機器と通信を行うためのインターフェースである。通信ＩＦ１０１は、例えば、外部機器と通信を行うことで、音源としての音声信号ＡＳ１を外部機器から取得してもよい。通信ＩＦ１０１は、ネットワークを介して外部機器と通信を行ってもよいし、外部機器と直接通信を行ってもよい。通信を行う外部機器は、サーバであってもよいし、スマートフォン、タブレット端末などの携帯端末などであってもよい。また、通信ＩＦ１０１は、無線通信インターフェースであってもよいし、有線通信インターフェースであってもよい。無線通信インターフェースは、例えば、無線ＬＡＮ、Bluetooth（登録商標）などを含む。有線通信インターフェースは、例えば、有線ＬＡＮを含む。有線通信インターフェースは、ＵＳＢを含んでいてもよい。

　音声入力ＩＦ１０２は、外部機器から音源としての音声信号ＡＳ１を受け付けるインターフェースである。音声入力ＩＦ１０２は、例えば、ＲＣＡ端子、フォーン端子などのアナログの音声信号の入力を受け付ける入力端子や、光デジタル端子、同軸デジタル端子などのデジタルの音声信号の入力を受け付ける入力端子を含む。なお、音声入力ＩＦ１０２は、音声信号のみの入力を受け付ける入力端子に限らずに、映像信号の入力と共に音声信号の入力を受け付けるＨＤＭＩ（登録商標）端子などの入力端子であってもよい。

　ストレージ１０３は、音源としての音声信号ＡＳ１を格納している。ストレージ１０３は、例えば、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、メモリカードなどの不揮発性の記憶装置である。

　なお、音声信号処理装置１００は、通信ＩＦ１０１、音声入力ＩＦ１０２及びストレージ１０３の全てを備えていなくてもよく、通信ＩＦ１０１、音声入力ＩＦ１０２及びストレージ１０３の少なくとも１つを備えていればよい。

　音源としての音声信号ＡＳ１は、例えば、渓谷における流れる川や滝の音、虫や鳥などの鳴き声の音などのような、自然の中などで予め収音された自然音（環境音）の音声信号である。なお、音源としての音声信号ＡＳ１は、自然音に限らずに、音楽の音声信号であってもよい。

　信号処理回路１０４は、音源としての音声信号ＡＳ１を取得して、音声信号ＡＳ１に対して高音域を拡張する音声信号処理を実行することで、高音域が拡張された拡張音声信号を生成する。信号処理回路１０４は、例えば、ＤＳＰ（Digital Signal Processor）である。信号処理回路１０４は、取得部１１０と、第１～第Ｎ信号処理部１２０ａ～１２０Ｘと、加算部１３０と、出力部１４０とを備える。信号処理回路１０４が備える各機能ブロックの一部または全部は、ＤＳＰにより実現される。

　なお、信号処理回路１０４は、ＣＰＵ（Central Processing Unit）を含んでもよいし、ＣＰＵのみで構成されてもよい。信号処理回路１０４が備える各機能ブロックの一部または全部は、ＣＰＵがストレージなどに記憶されているプログラムを実行することで実現されてもよい。

　取得部１１０は、音声信号ＡＳ１を取得する。具体的には、取得部１１０は、通信ＩＦ１０１、音声入力ＩＦ１０２及びストレージ１０３のうちの少なくとも１つから音声信号ＡＳ１を取得する。

　第１～第Ｎ信号処理部１２０ａ～１２０Ｘは、Ｎ個（Ｎは、３以上の整数）の信号処理部である。第１～第Ｎ信号処理部１２０ａ～１２０Ｘのそれぞれは、音声信号ＡＳ１に基づいて、音声信号ＡＳ１の周波数帯域よりも高い周波数帯域の成分を含む高音域信号を生成する。つまり、高音域信号は、音声信号ＡＳ１に含まれない、高い周波数帯域の成分を含む信号である。第１～第Ｎ信号処理部１２０ａ～１２０Ｘは、各信号処理部が異なる処理を実行するため、それぞれが互いに異なる高音域信号を生成する。つまり、第１～第Ｎ信号処理部１２０ａ～１２０ＸはＮ個の高音域信号を生成し、生成されたＮ個の高音域信号は互いに異なる信号である。第１～第Ｎ信号処理部１２０ａ～１２０Ｘの具体的な処理については後述する。

　加算部１３０は、取得部１１０により取得された音声信号ＡＳ１と、Ｎ個の第１～第Ｎ信号処理部１２０ａ～１２０Ｘにより生成されたＮ個の高音域信号とを加算して、高音域が拡張された拡張音声信号を生成する。

　出力部１４０は、加算部１３０により生成された拡張音声信号を出力する。具体的には、出力部１４０は、スピーカ２００に拡張音声信号を出力する。なお、出力部１４０は、ストレージ１０３に拡張音声信号を出力して、ストレージに１０３に拡張音声信号を格納させてもよい。また、出力部１４０は、通信ＩＦ１０１を介して外部機器に拡張音声信号を出力してもよい。

　＜第１～第Ｎ信号処理部の構成＞
　図２は、実施の形態に係る第１信号処理部１２０ａの構成の一例を示す図である。図３は、実施の形態に係る第１信号処理部１２０ａによる各処理について説明するための各処理の前後の音声信号の波形の一例を示す図である。図３における音声信号の波形は、縦軸が音圧を示し、横軸が時間を示す。

　第１信号処理部１２０ａは、増幅部１２１ａと、クリップ部１２２ａと、フィルタ部１２３ａと、減衰部１２４ａとを備える。

　増幅部１２１ａは、取得部１１０により取得された音声信号ＡＳ１をゲインＧ１で増幅させる増幅処理を行う。増幅部１２１ａは、図３の（ａ）に示す音声信号ＡＳ１の音圧を１より大きいゲインＧ１で増幅させることで、図３の（ｂ）に示す増幅処理後の音声信号ＡＳ２を生成する。これにより、音声信号ＡＳ１における音圧ＳＰ１は、音圧ＳＰ２（＝ＳＰ１＊Ｇ１）に増幅される。増幅部１２１ａによる増幅処理は、第１増幅処理の一例である。ゲインＧ１は、第１ゲインの一例である。

　クリップ部１２２ａは、増幅部１２１による増幅処理後の音声信号ＡＳ２を振幅Ａ１でクリップするクリップ処理を行う。つまり、クリップ部１２２ａは、例えば、図３の（ｂ）及び（ｃ）に示すように、－Ａ１以上Ａ１以下の音圧の範囲が残るように音声信号ＡＳ２をクリップする。これにより、音圧がＡ１である場合、及び、音圧が－Ａ１である場合で直線的で音圧が変化しない形状を含む波形を有する音声信号ＡＳ３が生成される。音声信号ＡＳ３の波形は、図３の（ｃ）に示すように、音圧が変化しない直線状の形状の始点または終点を含む部分において屈曲した形状を有するため、音声信号ＡＳ３は、高周波成分をより多く含む。特に、音声信号ＡＳ２については、増幅処理によって、音声信号ＡＳ２の波形の－Ａ１以上Ａ１以下の音圧の範囲における傾きを増幅処理前よりも急にすることができる。このため、クリップ処理後の音声信号ＡＳ３の波形の屈曲した形状の角度を、音声信号ＡＳ１を増幅せずにクリップ処理した場合の音声信号の波形のクリップにより生じる屈曲した形状の角度よりも、９０度に近い角度とすることができる。なお、波形の傾きを急にするとは、具体的には、波形の接線の傾きの絶対値を大きくすることである。よって、より多くの高周波成分（例えば、元の音声信号ＡＳ１の周波数帯域よりも高く、かつ、非可聴領域となる高周波成分）を含む音声信号ＡＳ３を生成することができる。クリップ部１２２ａによるクリップ処理は、第１クリップ処理の一例である。振幅Ａ１は、第１振幅の一例である。

　フィルタ部１２３ａは、クリップ部１２２ａによるクリップ処理後の音声信号ＡＳ３に対して、人の可聴領域よりも高い周波数ｆ１よりも高い周波数帯域（高音域）を通過させるハイパスフィルタ処理を行う。周波数ｆ１は、非可聴領域に含まれる。ハイパスフィルタ処理は、言い換えると、音声信号ＡＳ３に対して周波数ｆ１以下の周波数帯域（低音域）をカットする処理である。これにより、フィルタ部１２３ａは、図３の（ｄ）に示すように、高音域の音圧が低音域の音圧よりも大きい音声信号ＡＳ４を生成する。フィルタ部１２３ａによるハイパスフィルタ処理は、第１ハイパスフィルタ処理の一例である。周波数ｆ１は、第１周波数の一例である。

　減衰部１２４ａは、フィルタ部１２３ａによるハイパスフィルタ処理後の音声信号ＡＳ４をゲインＧ２で減衰させる減衰処理を行う。減衰部１２４ａは、例えば、図３の（ｄ）に示す音声信号ＡＳ４の音圧を１より小さいゲインＧ２で減衰させることで、図３の（ｅ）に示す減衰処理後の音声信号ＡＳ５を生成する。これにより、音声信号ＡＳ４における音圧ＳＰ３は、音圧ＳＰ４（＝ＳＰ３＊Ｇ２）に減衰される。音声信号ＡＳ５は、第１高音域信号である。減衰部１２４ａによる減衰処理は、第１減衰処理の一例である。ゲインＧ２は、第２ゲインの一例である。なお、ゲインＧ２は、ゲインＧ１の逆数であってもよいし、ゲインＧ１の逆数とは異なる値であってもよい。

　ここで、減衰部１２４ａによる減衰処理は、フィルタ部１２３ａによるハイパスフィルタ処理の次に行われるとしたが、これに限らずに、クリップ部１２２ａによるクリップ処理の次に行われてもよい。この場合、ハイパスフィルタ処理は、減衰処理の次に行われる。つまり、減衰処理は、クリップ部１２２ａによるクリップ処理の後に行われれば、ハイパスフィルタ処理の前に行われてもよいし後に行われてもよい。

　図４は、実施の形態に係る第２信号処理部１２０ｂの構成の一例を示す図である。図５は、実施の形態に係る第２信号処理部１２０ｂによる各処理について説明するための各処理の前後の音声信号の波形の一例を示す図である。図５における音声信号の波形は、縦軸が音圧を示し、横軸が時間を示す。

　第２信号処理部１２０ｂは、オフセット部１２５と、増幅部１２１ｂと、クリップ部１２２ｂと、フィルタ部１２３ｂと、減衰部１２４ｂとを備える。

　オフセット部１２５は、取得部１１０により取得された音声信号ＡＳ１に対して所定の音圧分をオフセットさせるオフセット処理を行う。オフセット部１２５は、例えば、図５の（ａ）に示す音声信号ＡＳ１の音圧を所定の音圧ΔＳＰだけ加算することで、図５の（ｂ）に示すオフセット処理後の音声信号ＡＳ１２を生成する。なお、オフセット部１２５は、音声信号ＡＳ１の音圧から所定の音圧だけ減算するオフセット処理を行ってもよい。

　増幅部１２１ｂは、オフセット部１２５によるオフセット処理後の音声信号ＡＳ１２をゲインＧ３で増幅させる増幅処理を行う。増幅部１２１ｂは、例えば、図５の（ｂ）に示す音声信号ＡＳ１２の音圧を１より大きいゲインＧ３で増幅させることで、図５の（ｃ）に示す増幅処理後の音声信号ＡＳ１３を生成する。これにより、音声信号ＡＳ１２における音圧ＳＰ１１は、音圧ＳＰ１２（＝ＳＰ１１＊Ｇ３）に増幅される。増幅部１２１ｂによる増幅処理は、第２増幅処理の一例である。ゲインＧ３は、第３ゲインの一例である。

　ここで、オフセット部１２５によるオフセット処理は、増幅部１２１ｂによる増幅処理の前に行われるとしたが、これに限らずに、増幅部１２１ｂによる増幅処理の次に行われてもよい。オフセット処理は、クリップ部１２２ｂによるクリップ処理より前に行われればよく、増幅部１２１ｂによる増幅処理の前に行われてもよいし後に行われてもよい。

　クリップ部１２２ｂは、増幅部１２１ｂによる増幅処理後の音声信号ＡＳ１３を振幅Ａ２でクリップするクリップ処理を行う。つまり、クリップ部１２２ｂは、例えば、図５の（ｃ）及び（ｄ）に示すように、－Ａ２以上Ａ２以下の音圧の範囲が残るように音声信号ＡＳ１３をクリップする。これにより、音圧がＡ２である場合、及び、音圧が－Ａ２である場合で直線的で音圧が変化しない形状を含む波形を有する音声信号ＡＳ１４が生成される。音声信号ＡＳ１４の波形は、図５の（ｄ）に示すように、音圧が変化しない直線状の形状の始点または終点を含む部分において屈曲した形状を有するため、音声信号ＡＳ１４は、高周波成分をより多く含む。特に、音声信号ＡＳ１３は、増幅処理によって、音声信号ＡＳ１３の波形の－Ａ２以上Ａ２以下の音圧の範囲における傾きが増幅処理前よりも急になるため、クリップ処理後の音声信号ＡＳ１４の波形の屈曲した形状の角度を９０度に近い角度とすることができる。よって、より多くの高周波成分を含む音声信号ＡＳ１４を生成することができる。クリップ部１２２ｂによるクリップ処理は、第２クリップ処理の一例である。振幅Ａ２は、第２振幅の一例である。

　なお、オフセット部１２５によるオフセット量の所定の音圧ΔＳＰは、クリップ部１２２ｂによるクリップする振幅Ａ２よりも大きくてもよいし、小さくてもよいし、同じであってもよい。

　フィルタ部１２３ｂは、第１クリップ処理後の音声信号ＡＳ１４に対して、人の可聴領域よりも高い周波数ｆ２よりも高い周波数帯域（高音域）を通過させるハイパスフィルタ処理を行う。周波数ｆ２は、非可聴領域に含まれる。ハイパスフィルタ処理は、言い換えると、音声信号ＡＳ１４に対して周波数ｆ２以下の周波数帯域（低音域）をカットする処理である。これにより、フィルタ部１２３ｂは、図５の（ｅ）に示すように、高音域の音圧が低音域の音圧よりも大きい音声信号ＡＳ１５を生成する。フィルタ部１２３ｂによるハイパスフィルタ処理は、第２ハイパスフィルタ処理の一例である。周波数ｆ２は、第２周波数の一例である。

　減衰部１２４ｂは、フィルタ部１２３ｂによるハイパスフィルタ処理後の音声信号ＡＳ１５をゲインＧ４で減衰させる減衰処理を行う。減衰部１２４ｂは、例えば、図５の（ｅ）に示す音声信号ＡＳ１５の音圧を１より小さいゲインＧ４で減衰させることで、図５の（ｆ）に示す減衰処理後の音声信号ＡＳ１６を生成する。これにより、音声信号ＡＳ１５における音圧ＳＰ１３は、音圧ＳＰ１４（＝ＳＰ１３＊Ｇ４）に減衰される。音声信号ＡＳ１６は、第２高音域信号である。減衰部１２４ｂによる減衰処理は、第２減衰処理の一例である。ゲインＧ４は、第４ゲインの一例である。なお、ゲインＧ４は、ゲインＧ３の逆数であってもよいし、ゲインＧ３の逆数とは異なる値であってもよい。

　ここで、減衰部１２４ｂによる減衰処理は、フィルタ部１２３ｂによるハイパスフィルタ処理の次に行われるとしたが、これに限らずに、クリップ部１２２ｂによるクリップ処理の次に行われてもよい。この場合、ハイパスフィルタ処理は、減衰処理の次に行われる。つまり、減衰処理は、クリップ部１２２ｂによるクリップ処理の後に行われれば、ハイパスフィルタ処理の前に行われてもよいし後に行われてもよい。

　なお、第１信号処理部１２０ａ及び第２信号処理部１２０ｂにおける各処理に用いられるパラメータは、互いに同じであってもよいし、互いに異なっていてもよい。具体的には、増幅部１２１ａによる増幅処理に用いられるパラメータであるゲインＧ１と、増幅部１２１ｂによる増幅処理に用いられるパラメータであるゲインＧ３とは、同じであってもよいし異なっていてもよい。また、クリップ部１２２ａによるクリップ処理に用いられるパラメータである振幅Ａ１と、クリップ部１２２ｂによるクリップ処理に用いられるパラメータである振幅Ａ２とは、同じであってもよいし異なっていてもよい。また、フィルタ部１２３ａによるハイパスフィルタ処理に用いられるパラメータである周波数ｆ１と、フィルタ部１２３ｂによるハイパスフィルタ処理に用いられるパラメータである周波数ｆ２とは、同じであってもよいし異なっていてもよい。また、減衰部１２４ａによる減衰処理に用いられるパラメータであるゲインＧ２と、減衰部１２４ｂによる減衰処理に用いられるパラメータであるゲインＧ４とは、同じであってもよいし異なっていてもよい。

　また、Ｎ個の第１～第Ｎ信号処理部１２０ａ～１２０Ｘのうちの、第１信号処理部１２０ａ及び第２信号処理部１２０ｂを除く他の信号処理部は、第１信号処理部１２０ａ及び第２信号処理部１２０ｂとは異なる処理によって高音域信号を生成できればどのような構成であってもよい。

　他の信号処理部は、例えば、第１信号処理部１２０ａと同じ処理部を有し、各処理部の処理に用いられるパラメータのいずれかが第１信号処理部１２０ａと異なっていてもよい。具体的には、他の信号処理部は、音声信号ＡＳ１をゲインＧ５で増幅させる増幅処理（第３増幅処理）を行う増幅部と、当該増幅処理（第３増幅処理）後の音声信号を振幅Ａ３でクリップするクリップ処理（第３クリップ処理）を行うクリップ部と、当該クリップ処理（第３クリップ処理）後の音声信号に対して、人の可聴領域よりも高い周波数ｆ３よりも高い周波数帯域を通過させるハイパスフィルタ処理（第３ハイパスフィルタ処理）を行うフィルタ部と、当該ハイパスフィルタ処理（第３ハイパスフィルタ処理）後の音声信号をゲインＧ６で減衰させる減衰処理を行う減衰部とを有していてもよい。そして、各処理において用いられるパラメータのいずれかが、第１信号処理部１２０ａの各処理において用いられるパラメータであると異なっていればよい。つまり、ゲインＧ１とゲインＧ５との値の組、振幅Ａ１と振幅Ａ３との値の組、周波数ｆ１と周波数ｆ３との値の組、及び、ゲインＧ２とゲインＧ６との値の組の少なくともいずれか１つの値の組が、互いに異なっていればよい。この場合の他の信号処理部は、第３信号処理部の一例である。

　また、他の信号処理部は、例えば上記と同様に、第２信号処理部１２０ｂと同じ処理部を有し、各処理部の処理に用いられるパラメータのいずれかが第２信号処理部１２０ｂと異なっていてもよい。つまり、他の信号処理部が有する複数の処理部（オフセット部、増幅部、クリップ部、フィルタ部、及び、減衰部）の少なくとも１つの処理部の処理に用いられるパラメータは、第２信号処理部１２０ｂが有する複数の処理部（オフセット部１２５、増幅部１２１ｂ、クリップ部１２２ｂ、フィルタ部１２３ｂ、及び、減衰部１２４ｂ）のうち上記の少なくとも１つの処理部に対応する少なくとも１つの処理部の処理に用いられるパラメータと異なっていてもよい。

　また、他の信号処理部は、さらに、イコライザ部を有していてもよい。イコライザ部は、ハイパスフィルタ処理後の音声信号の特定の周波数帯域を増幅または減衰させるイコライザ処理を行う。イコライザ処理は、処理対象の音声信号の、周波数における第１帯域と、第１帯域とは異なる第２帯域とで異なるゲイン調整を行う処理である。異なるゲイン調整とは、増幅処理及び減衰処理であってもよいし、増幅処理におけるゲインが異なる処理であってもよいし、減衰処理におけるゲインが異なる処理であってもよい。このため、ハイパスフィルタ処理後の音声信号の周波数特性の調整を行うことができる。これにより、適切に振幅が調整された高音域信号を生成することができ、音声信号の高音域を適切に拡張することができる。

　イコライザ処理は、減衰部における減衰処理を含んでいてもよい。つまり、イコライザ処理は、周波数帯域の全体を減衰させる処理を含んでもよい。この場合、他の信号処理部は、減衰部を有していなくてもよい。

　また、他の信号処理部は、増幅部、クリップ部、フィルタ部、減衰部、イコライザ部、及び、オフセット部のうち、少なくとも、クリップ部、及び、フィルタ部を有していればよい。

　また、他の信号処理部が有する処理部の構成（処理部の組合せ）が同じである場合には、各処理に用いられるパラメータのうちの少なくとも１つのパラメータが、同じ組合せの処理部を有する信号処理部の各処理に用いられるパラメータであって、上記少なくとも１つのパラメータに対応する処理に用いられるパラメータと異なっていればよい。

　このように、Ｎ個の第１～第Ｎ信号処理部１２０ａ～１２０Ｘは、処理部の組合せが異なるか、処理部の組合せが同じであっても処理部による処理に用いられるパラメータが異なるかのいずれかによって、互いの処理が異なる。これにより、互いに異なるＮ個の高音域信号を生成することができる。

　［２．動作］
　次に、音声信号処理装置１００の動作を説明する。

　図６は、実施の形態に係る音声信号処理装置１００の音声信号処理の一例を示すフローチャートである。

　まず、取得部１１０は、音声信号ＡＳ１を取得する（Ｓ１１）。

　次に、第１～第Ｎ信号処理部１２０ａ～１２０Ｘは、音声信号ＡＳ１に基づいて、低音域よりも高音域の音圧が大きいＮ個の高音域信号を生成する（Ｓ１２）。

　次に、加算部１３０は、取得部１１０により取得された音声信号ＡＳ１と、Ｎ個の第１～第Ｎ信号処理部１２０ａ～１２０Ｘにより生成されたＮ個の高音域信号とを加算して、高音域が拡張された拡張音声信号を生成する（Ｓ１３）。

　次に、出力部１４０は、加算部１３０により生成された拡張音声信号を出力する（Ｓ１４）。

　図７は、実施の形態に係るＮ個の高音域信号のうちの第１高音域信号を生成する処理の一例を示すフローチャートである。つまり、図７は、Ｎ個の高音域信号を生成するステップＳ１２の処理の一部の処理を示す。

　まず、増幅部１２１ａは、取得部１１０により取得された音声信号ＡＳ１をゲインＧ１で増幅させる増幅処理を行う（Ｓ２１）。

　次に、クリップ部１２２ａは、増幅部１２１による増幅処理後の音声信号ＡＳ２を振幅Ａ１でクリップするクリップ処理を行う（Ｓ２２）。

　次に、フィルタ部１２３ａは、第１クリップ処理後の音声信号ＡＳ３に対して、人の可聴領域よりも高い周波数ｆ１よりも高い周波数帯域（高音域）を通過させるハイパスフィルタ処理を行う（Ｓ２３）。

　次に、減衰部１２４ａは、フィルタ部１２３ａによるハイパスフィルタ処理後の音声信号ＡＳ４をゲインＧ２で減衰させる減衰処理を行う（Ｓ２４）。

　ステップＳ２１～Ｓ２４の処理が実行されることで第１高音域信号が生成される。

　図８は、実施の形態に係るＮ個の高音域信号のうちの第２高音域信号を生成する動作の一例を示すフローチャートである。つまり、図８は、Ｎ個の高音域信号を生成するステップＳ１２の処理の一部の処理を示す。

　まず、オフセット部１２５は、取得部１１０により取得された音声信号ＡＳ１に対して所定の音圧分をオフセットさせるオフセット処理を行う（Ｓ２５）。

　次に、増幅部１２１ｂは、オフセット部１２５によるオフセット処理後の音声信号ＡＳ１２をゲインＧ３で増幅させる増幅処理を行う（Ｓ３１）。

　次に、クリップ部１２２ｂは、増幅部１２１ｂによる増幅処理後の音声信号ＡＳ１３を振幅Ａ２でクリップするクリップ処理を行う（Ｓ３２）。

　次に、フィルタ部１２３ｂは、第１クリップ処理後の音声信号ＡＳ１４に対して、人の可聴領域よりも高い周波数ｆ２よりも高い周波数帯域（高音域）を通過させるハイパスフィルタ処理を行う（Ｓ３３）。

　次に、減衰部１２４ｂは、フィルタ部１２３ｂによるハイパスフィルタ処理後の音声信号ＡＳ１５をゲインＧ４で減衰させる減衰処理を行う（Ｓ３４）。

　ステップＳ２５～Ｓ３４の処理が実行されることで第２高音域信号が生成される。

　第３～第Ｎ信号処理部においても、各信号処理部が有する処理部の構成の組合せ、及び、各処理部の処理に用いられるパラメータに基づいた信号処理が行われることで、第３～第Ｎ高音域信号が生成される。

　［３．効果など］
　本実施の形態に係る音声信号処理装置１００は、取得部１１０と、第１信号処理部１２０ａと、加算部１３０とを備える。取得部１１０は、音声信号ＡＳ１を取得する。第１信号処理部１２０ａは、音声信号ＡＳ１に基づいて、人の可聴領域よりも高い第１周波数（周波数ｆ１）よりも高い周波数帯域の高音域成分を含む第１高音域信号を生成する。加算部１３０は、音声信号ＡＳ１に第１高音域信号を加算して、高音域が拡張された拡張音声信号を生成する。第１信号処理部１２０ａは、（ｉ）音声信号ＡＳ１に対して、第１振幅（振幅Ａ１）でクリップする第１クリップ処理を含む第１信号処理を行い、（ｉｉ）第１クリップ処理後の音声信号ＡＳ３に対して、第１周波数（周波数ｆ１）よりも高い周波数帯域を通過させる第１ハイパスフィルタ処理を行うことで、第１高音域信号を生成する。

　これによれば、音声信号ＡＳ１に対して、第１振幅（振幅Ａ１）でクリップする第１クリップ処理を含む第１信号処理を行うことで、音声信号ＡＳ１に基づく高周波成分をより多く含む音声信号を生成することができる。そして、第１クリップ処理後の音声信号ＡＳ３に対して第１ハイパスフィルタ処理を行うため、主に高音域の音圧が大きい第１高音域信号を生成することができ、音声信号ＡＳ１に第１高音域信号を加算することで、音声信号ＡＳ１の高音域が拡張された拡張音声信号を生成することができる。これにより、自然音などのような１／ｆ特性を有していない音声信号ＡＳ１の高音域を、人に与える違和感が少ないように拡張することが容易にできる。

　また、本実施の形態に係る音声信号処理装置１００において、第１信号処理は、音声信号ＡＳ１を第１ゲイン（ゲインＧ１）で増幅させる第１増幅処理と、第１増幅処理後の音声信号ＡＳ２に対して行う第１クリップ処理とを含む。

　これによれば、増幅処理によって、音声信号ＡＳ２の波形の振幅Ａ１に基づく－Ａ１以上Ａ１以下の音圧の範囲における傾きを増幅処理前よりも急にすることができるため、クリップ処理後の音声信号ＡＳ３の波形の屈曲した形状の角度を９０度に近づけることができる。よって、より多くの高周波成分（例えば、元の音声信号ＡＳ１の周波数帯域よりも高く、かつ、非可聴領域となる高周波成分）を含む音声信号ＡＳ３を生成することができる。

　また、本実施の形態に係る音声信号処理装置１００において、第１信号処理部１２０ａは、さらに、第１クリップ処理後の音声信号ＡＳ３を第２ゲイン（ゲインＧ２）で減衰させる第１減衰処理を行う。第１高音域信号は、さらに第１減衰処理が実行された後の音声信号ＡＳ５である。

　このため、音声信号ＡＳ１に基づく高周波成分をより多く含む、第１クリップ処理後（本実施の形態では第１クリップ処理及び第１ハイパスフィルタ処理後）の音声信号ＡＳ４の振幅の調整を行うことができる。これにより、適切に振幅が調整された第１高音域信号を生成することができ、音声信号ＡＳ１の高音域を適切に拡張することができる。

　また、本実施の形態に係る音声信号処理装置１００は、さらに、第２信号処理部１２０ｂを備える。第２信号処理部１２０ｂは、音声信号ＡＳ１に基づいて、第１高音域信号とは異なる第２高音域信号を生成する。第２信号処理部１２０ｂは、（ｉ）音声信号ＡＳ１に対して所定の音圧ΔＳＰをオフセットさせるオフセット処理を含む第２信号処理を行い、（ｉｉ）第２信号処理後の音声信号ＡＳ１３を第２振幅（振幅Ａ２）でクリップする第２クリップ処理を行い、（ｉｉｉ）第２クリップ処理後の音声信号ＡＳ１４に対して、人の可聴領域よりも高い第２周波数（周波数ｆ２）よりも高い周波数帯域を通過させる第２ハイパスフィルタ処理を行うことで、第２高音域信号を生成する。加算部１３０は、音声信号ＡＳ１に、第１高音域信号と第２高音域信号とを加算して（本実施の形態では第１高音域信号と第２高音域信号とを含むＮ個の高音域信号を加算して）、拡張音声信号を生成する。

　これによれば、オフセット処理後及び第２増幅処理後の音声信号ＡＳ１３を第２振幅（振幅Ａ２）でクリップする第２クリップ処理を行うことで、音声信号ＡＳ１に基づく高周波成分をより多く含む音声信号を生成することができる。第１クリップ処理後の音声信号ＡＳ３は、オフセット処理されずにクリップ処理されており、偶数次の周波数成分が打ち消されるため、奇数次の周波数成分を多く含み、第２クリップ処理後の音声信号ＡＳ１４は、オフセット処理後にクリップ処理されており、偶数次の周波数成分が打ち消されずに多く残るため偶数次の周波数成分を多く含む。このため、第１高音域信号及び第２高音域信号の周波数特性を異ならせることができ、より効果的に音声信号ＡＳ１の高音域を拡張することができる。

　また、本実施の形態に係る音声信号処理装置１００において、第２信号処理は、オフセット処理と、オフセット処理後の音声信号ＡＳ１２を第３ゲイン（ゲインＧ３）で増幅させる第２増幅処理とを含む。

　これによれば、増幅処理によって、音声信号ＡＳ１２の波形の振幅Ａ２に基づく－Ａ２以上Ａ２以下の音圧の範囲における傾きを増幅処理前よりも急にすることができるため、クリップ処理後の音声信号ＡＳ１４の波形の屈曲した形状の角度を９０度に近づけることができる。よって、より多くの高周波成分（例えば、元の音声信号ＡＳ１の周波数帯域よりも高く、かつ、非可聴領域となる高周波成分）を含む音声信号ＡＳ１４を生成することができる。

　また、本実施の形態に係る音声信号処理装置１００において、第２信号処理部１２０ｂは、さらに、第２クリップ処理後の音声信号ＡＳ１４を第４ゲイン（ゲインＧ４）で減衰させる第２減衰処理を行う。第２高音域信号は、さらに第２減衰処理が実行された後の音声信号ＡＳ１６である。

　このため、音声信号ＡＳ１に基づく高周波成分をより多く含む、第２クリップ処理後（本実施の形態では第２クリップ処理及び第２ハイパスフィルタ処理後）の音声信号ＡＳ１５の振幅の調整を行うことができる。これにより、適切に振幅が調整された第２高音域信号を生成することができ、音声信号ＡＳ１の高音域をより適切に拡張することができる。

　また、本実施の形態に係る音声信号処理装置１００は、さらに、第３信号処理部を備える。第３信号処理部は、音声信号ＡＳ１に基づいて、第１高音域信号とは異なる第３高音域信号を生成する。第３信号処理部は、（ｉ）音声信号ＡＳ１を第５ゲイン（ゲインＧ５）で増幅させる第３増幅処理を行い、（ｉｉ）第３増幅処理後の音声信号を第３振幅（振幅Ａ３）でクリップする第３クリップ処理を行い、第３クリップ処理後の音声信号に対して、人の可聴領域よりも高い第３周波数（周波数ｆ３）よりも高い周波数帯域を通過させる第３ハイパスフィルタ処理を行うことで、第３高音域信号を生成する。加算部１３０は、音声信号ＡＳ１に、第１高音域信号と第３高音域信号とを加算して（本実施の形態では第１高音域信号と第３高音域信号とを含むＮ個の高音域信号を加算して）、拡張音声信号を生成する。

　これによれば、第３増幅処理後の音声信号を第３振幅でクリップする第３クリップ処理を行うことで、音声信号ＡＳ１に基づく高周波成分をより多く含む音声信号を生成することができる。そして、第３クリップ処理後の音声信号に対して第３ハイパスフィルタ処理を行うため、主に高音域の音圧が大きい第３高音域信号を生成することができる。これにより、音声信号ＡＳ１に第１高音域信号及び第３高音域信号を加算することで、音声信号ＡＳ１の高音域がより効果的に拡張された拡張音声信号を生成することができる。

　また、本実施の形態に係る音声信号処理装置１００において、第１ゲイン（ゲインＧ１）と第５ゲイン（ゲインＧ５）との値の組、第１振幅（振幅Ａ１）と第３振幅（振幅Ａ３）との値の組、及び、第１周波数（周波数ｆ１）と第３周波数（周波数ｆ３）との値の組の少なくともいずれか１つの値の組は、互いに異なる。

　これによれば、第１ゲイン（ゲインＧ１）と第５ゲイン（ゲインＧ５）との値の組、第１振幅（振幅Ａ１）と第３振幅（振幅Ａ３）との値の組、及び、第１周波数（周波数ｆ１）と第３周波数（周波数ｆ３）との値の組の少なくともいずれか１つの値の組は、互いに異なっているため、第１高音域信号を生成する処理とは異なる処理で第３高音域信号を生成することができる。このため、第１高音域信号及び第３高音域信号の周波数特性を異ならせることができる。これにより、音声信号ＡＳ１に第１高音域信号及び第３高音域信号を加算することで、音声信号ＡＳ１の高音域がより効果的に拡張された拡張音声信号を生成することができる。

　［４．変形例］
　上記実施の形態に係る音声信号処理装置１００は、Ｎ個の第１～第Ｎ信号処理部１２０ａ～１２０Ｘを備えるとしたが、Ｎ個の第１～第Ｎ信号処理部１２０ａ～１２０Ｘのうちの少なくとも１つを備える構成であればよい。少なくとも１つの信号処理部により、少なくとも１つの高音域信号を生成でき、音声信号ＡＳ１の高音域が拡張された拡張音声信号を生成することができるからである。つまり、上記実施の形態では、Ｎは３以上の整数としたが、これに限らずに、Ｎは１以上の整数であってもよい。

　また、上記実施の形態において、信号処理回路１０４が有する各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。

　また、各構成要素は、回路（または集積回路）でもよい。これらの回路は、全体として１つの回路を構成してもよいし、それぞれ別々の回路でもよい。また、これらの回路は、それぞれ、汎用的な回路でもよいし、専用の回路でもよい。

　また、本開示の全般的または具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なＣＤ－ＲＯＭなどの非一時的な記録媒体で実現されてもよい。また、システム、装置、方法、集積回路、コンピュータプログラム及びコンピュータ読み取り可能な非一時的な記録媒体の任意な組み合わせで実現されてもよい。

　例えば、本開示は、音声信号処理装置（コンピュータまたはＤＳＰ）が実行する音声信号処理方法として実現されてもよいし、上記音声信号処理方法をコンピュータまたはＤＳＰに実行させるためのプログラムとして実現されてもよい。

　また、上記実施の形態において、特定の処理部が実行する処理を別の処理部が実行してもよい。また、上記実施の形態において説明された音声信号処理装置１００の動作における複数の処理の順序は、変更されてもよいし、複数の処理は、並行して実行されてもよい。

　その他、各実施の形態に対して当業者が思いつく各種変形を施して得られる形態、または、本開示の趣旨を逸脱しない範囲で各実施の形態に係る構成要素及び機能を任意に組み合わせることで実現される形態も本開示に含まれる。

　本開示は、自然音などの音声信号のような１／ｆ特性を有していない音声信号の高音域を、人に与える違和感が少ないように拡張することが容易にできる音声信号処理装置などとして有用である。

　　１　　音声信号処理システム
１００　　音声信号処理装置
１０１　　通信ＩＦ
１０２　　音声入力ＩＦ
１０３　　ストレージ
１０４　　信号処理回路
１１０　　取得部
１２０ａ　　第１信号処理部
１２０ｂ　　第２信号処理部
１２０Ｘ　　第Ｎ信号処理部
１２１ａ、１２１ｂ　　増幅部
１２２ａ、１２２ｂ　　クリップ部
１２３ａ、１２３ｂ　　フィルタ部
１２４ａ、１２４ｂ　　減衰部
１２５　　オフセット部
１３０　　加算部
１４０　　出力部
２００　　スピーカ

Claims

　音声信号を取得する取得部と、
　前記音声信号に基づいて、人の可聴領域よりも高い第１周波数よりも高い周波数帯域の高音域成分を含む第１高音域信号を生成する第１信号処理部と、
　前記音声信号に前記第１高音域信号を加算して、高音域が拡張された拡張音声信号を生成する加算部と、を備え、
　前記第１信号処理部は、（ｉ）前記音声信号に対して、第１振幅でクリップする第１クリップ処理を含む第１信号処理を行い、（ｉｉ）前記第１クリップ処理後の音声信号に対して、前記第１周波数よりも高い周波数帯域を通過させる第１ハイパスフィルタ処理を行うことで、前記第１高音域信号を生成する
　音声信号処理装置。
　前記第１信号処理は、前記音声信号を第１ゲインで増幅させる第１増幅処理と、前記第１増幅処理後の音声信号に対して行う前記第１クリップ処理とを含む
　請求項１に記載の音声信号処理装置。
　前記第１信号処理部は、さらに、前記第１クリップ処理後の音声信号を第２ゲインで減衰させる第１減衰処理を行い、
　前記第１高音域信号は、さらに前記第１減衰処理が実行された後の音声信号である
　請求項２に記載の音声信号処理装置。
　前記第１信号処理部は、さらに、前記第１ハイパスフィルタ処理後の音声信号の特定の周波数帯域を増幅または減衰させる第１イコライザ処理を行い、
　前記第１高音域信号は、さらに前記第１イコライザ処理が実行された後の音声信号である
　請求項２に記載の音声信号処理装置。
　前記第１信号処理部は、さらに、
　前記第１クリップ処理後の音声信号を第２ゲインで減衰させる第１減衰処理を行い、
　前記第１減衰処理後の音声信号の特定の周波数帯域を増幅または減衰させる第１イコライザ処理を行い、
　前記第１高音域信号は、さらに前記第１イコライザ処理が実行された後の音声信号である
　請求項２に記載の音声信号処理装置。
　さらに、
　前記音声信号に基づいて、前記第１高音域信号とは異なる第２高音域信号を生成する第２信号処理部を備え、
　前記第２信号処理部は、（ｉ）前記音声信号に対して所定の音圧分をオフセットさせるオフセット処理を含む第２信号処理を行い、（ｉｉ）前記第２信号処理後の音声信号を第２振幅でクリップする第２クリップ処理を行い、（ｉｉｉ）前記第２クリップ処理後の音声信号に対して、前記可聴領域よりも高い第２周波数よりも高い周波数帯域を通過させる第２ハイパスフィルタ処理を行うことで、前記第２高音域信号を生成し、
　前記加算部は、前記音声信号に、前記第１高音域信号と前記第２高音域信号とを加算して、前記拡張音声信号を生成する
　請求項１から５のいずれか１項に記載の音声信号処理装置。
　前記第２信号処理は、前記オフセット処理と、前記オフセット処理後の音声信号を第３ゲインで増幅させる第２増幅処理とを含む
　請求項６に記載の音声信号処理装置。
　前記第２信号処理部は、さらに、前記第２クリップ処理後の音声信号を第４ゲインで減衰させる第２減衰処理を行い、
　前記第２高音域信号は、さらに前記第２減衰処理が実行された後の音声信号である
　請求項７に記載の音声信号処理装置。
　前記第２信号処理部は、さらに、前記第２ハイパスフィルタ処理後の音声信号の特定の周波数帯域を増幅または減衰させる第２イコライザ処理を行い、
　前記第２高音域信号は、さらに前記第２イコライザ処理が実行された後の音声信号である
　請求項７に記載の音声信号処理装置。
　前記第２信号処理部は、さらに、
　前記第２クリップ処理後の音声信号を第４ゲインで減衰させる第２減衰処理を行い、
　前記第２減衰処理後の音声信号の特定の周波数帯域を増幅または減衰させる第２イコライザ処理を行い、
　前記第２高音域信号は、さらに前記第２イコライザ処理が実行された後の音声信号である
　請求項７に記載の音声信号処理装置。
　さらに、
　前記音声信号に基づいて、前記第１高音域信号とは異なる第３高音域信号を生成する第３信号処理部を備え、
　前記第３信号処理部は、（ｉ）前記音声信号を第５ゲインで増幅させる第３増幅処理を行い、（ｉｉ）前記第３増幅処理後の音声信号を第３振幅でクリップする第３クリップ処理を行い、（ｉｉｉ）前記第３クリップ処理後の音声信号に対して、前記可聴領域よりも高い第３周波数よりも高い周波数帯域を通過させる第３ハイパスフィルタ処理を行うことで、前記第３高音域信号を生成し、
　前記加算部は、前記音声信号に、前記第１高音域信号と前記第３高音域信号とを加算して、前記拡張音声信号を生成する
　請求項２から５のいずれか１項に記載の音声信号処理装置。
　前記第１ゲインと前記第５ゲインとの値の組、前記第１振幅と前記第３振幅との値の組、及び、前記第１周波数と前記第３周波数との値の組の少なくともいずれか１つの値の組は、互いに異なる
　請求項１１に記載の音声信号処理装置。
　音声信号を取得し、
　前記音声信号に基づいて、人の可聴領域よりも高い第１周波数よりも高い周波数帯域の高音域成分を含む第１高音域信号を生成し、
　前記音声信号に前記第１高音域信号を加算して、高音域が拡張された拡張音声信号を生成し、
　前記第１高音域信号の生成では、
　前記音声信号に対して、第１振幅でクリップする第１クリップ処理を含む第１信号処理を行い、
　前記第１クリップ処理後の音声信号に対して、前記第１周波数よりも高い周波数帯域を通過させる第１ハイパスフィルタ処理を行うことで、前記第１高音域信号を生成する
　音声信号処理方法。
　請求項１３に記載の音声処理方法をコンピュータに実行させるためのプログラム。