WO2008065730A1

WO2008065730A1 - Dispositif et méthode de traitement audio

Info

Publication number: WO2008065730A1
Application number: PCT/JP2007/000698
Authority: WO
Inventors: Kosei Yamashita; Shinichi Honda
Original assignee: Sony Computer Entertainment Inc.
Priority date: 2006-11-27
Filing date: 2007-06-26
Publication date: 2008-06-05
Also published as: US20100222904A1; US8204614B2; EP2088589A1; EP2088589B1; EP2088589B8; CN101361123A; JP2008135891A; EP2088589A4; CN101361123B; JP4766491B2

Description

明細書

音声処理装置および音声処理方法

技術分野

[0001 ] 本発明は音声信号を処理する技術に関し、特に複数の音声信号を混合して出力する音声処理装置、およびそれに適用される音声処理方法に関する。背景技術

[0002] 近年の情報処理技術の発展により、記録媒体ゃネットワーク、放送波などを介して膨大な数のコンテンツを容易に入手できるようになった。例えば音楽のコンテンツは、それを記録した C D (Compact D i sk) などの記録媒体を購入する他、ネットワークを介して音楽配信サイ卜からダウンロードすることが一般的に行われている。ユーザが自分で録画、録音したデータも含めると、 P Cや再生装置、記録媒体に保存したコンテンツは増大化する一方となる。そのため、このような膨大な数のコンテンツから所望の一のコンテンツを容易に捜索するための技術が必要になってきた。その技術の一つにサムネィル表示がある。

[0003] サムネイル表示は複数の静止画や動画を、サイズの小さい静止画像または動画像としてディスプレイに 1度に並べて表示する技術である。サムネイル表示により、例えばカメラや録画装置で撮り貯めたりダウンロードしたりした画像データが多数保存され、それらのファイル名や録画日時などの属性情報が分かりづらい場合であっても、一見して内容が把握でき、所望のデータを正確に選択することが可能となった。また複数の画像データを一覧することで、全てのデータをざっと鑑賞したり、それを保存した記録媒体などの中身を短時間で把握したりすることもできるようになった。

発明の開示

発明が解決しょうとする課題

[0004] サムネイル表示はユーザに対し視覚的に並列に、複数のコンテンツの一部をインプットする技術である。したがって、視覚的に並べることのできない音楽などの音声データについては当然、アルバムのジャケットなど付加的な画像データの仲介なくしてはサムネイル表示を利用することができない。しかしながら個人が所有する音楽コンテンツなどの音声データの数は増加する一方であり、例えば題名や入手日時、付加的な画像データなどの手がかりにおいて判断がつかない場合であっても所望の音声データを容易に選択したり、ざっと鑑賞したりするニーズがあるのは画像データの場合と同様である。

[0005] 本発明はこのような課題に鑑みてなされたものであり、その目的は、複数の音声データを聴覚上分離して同時に聴かせる技術を提供することにある。課題を解決するための手段

[0006] 本発明のある態様は音声処理装置に関する。この音声処理装置は、ユーザから入力された、入力音声信号に対して要求される強調の度合いを示す指標に応じて、複数の入力音声信号をそれぞれ処理し強調の度合いを調整する音声処理部と、音声処理部により強調の度合いが調整された複数の入力音声信号を混合し所定のチャンネル数を有する出力音声信号として出力する出力部と、を備え、音声処理部は、複数の入力音声信号のそれぞれに対して前記指標に応じた周波数帯域を割り当て、各入力音声信号から、割り当てた周波数帯域に属する周波数成分を抽出する周波数帯域分割フィルタを備えたことを特徴とする。

[0007] 本発明の別の態様も音声処理装置に関する。この音声処理装置は、ユーザから入力された、入力音声信号に対して要求される強調の度合いを示す指標に応じて、複数の入力音声信号をそれぞれ処理し強調の度合いを調整する音声処理部と、音声処理部により強調の度合いが調整された複数の入力音声信号を混合し所定のチャンネル数を有する出力音声信号として出力する出力部と、を備えた音声処理装置であって、音声処理部は、複数の入力音声信号のそれぞれに対して指標に応じた周波数帯域を割り当て、各入力音声信号から、割り当てた周波数帯域に属する周波数成分を抽出する周波数帯域分割フィルタと、複数の入力音声信号のそれぞれの振幅を、共通の周期で位相を異ならせて時間変調させる時分割フィルタと、複数の入力音声信号の少なくともいずれかに対し、所定の周期で所定の音響加工処理を施す変調フィルタと、複数の入力音声信号の少なくともいずれかに対し、定常的に所定の音響加工処理を施す加工フィルタと、複数の入力音声信号のそれぞれに対して異なる定位を与える定位設定フィルタと、の少なくともいずれかを備え、音声処理装置はさらに、前記周波数帯域分割フィルタ、前記時分割フィルタ、前記変調フィルタ、前記加工フィルタ、および前記定位設定フィルタのうち前記音声処理部に備えられたフィルタから選択するフィルタのいずれかの組み合わせを、指標に対応づけて記憶する記憶部をさらに備え、出力部は指標に応じて、記憶部に記憶されたフィルタの組み合わせに基づき選択されたフィルタによってフィルタ処理が施された複数の入力音声信号を混合することを特徴とする。

[0008] 本発明のさらに別の態様は音声処理方法に関する。この音声処理方法は、ユーザから入力された、入力音声信号に対して要求される強調の度合いが高いほど広い帯域幅となるように、複数の入力音声信号のそれぞれに周波数帯域を割り当てるステップと、各入力音声信号から、割り当てた周波数帯域に属する周波数成分を抽出するステップと、各入力音声信号から抽出された周波数成分からなる複数の音声信号を混合し所定のチャンネル数を有する出力音声信号として出力するステップと、を含むことを特徴とする。

[0009] なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。

発明の効果

[0010] 本発明によれば、複数の音声データを聴覚上区別して同時に聴くことがでさる。

図面の簡単な説明

[001 1 ] [図 1 ]本実施の形態における音声処理装置を含む音声処理システムの全体構造を示す図である。

[図 2]本実施の形態における音声信号の周波数帯域分割について説明するための図である。

[図 3]本実施の形態こおける音声信号の時分割について説明するための図である。

[図 4]本実施の形態こおける音声処理部の構成を詳細に示す図である。

[図 5]本実施の形態こおいて音声処理装置の入力部に表示される画面の例を示す図である。

[図 6]本実施の形態こおいてブロックの割り当て方のパターンを模式的に示す図である。

[図 7]本実施の形態こおいて記憶部に記憶される音楽データの情報の一例を示す図である。

[図 8]本実施の形態おいて記憶部に記憶させる、フォーカス値と各フィルタの設定とを対応付けたテーブルの例を示す図である。

[図 9]本実施の形態における音声処理装置の動作を示すフローチヤ一トである符号の説明

[0012] 1 0…音声処理システム、 1 2…記憶装置、 1 4…再生装置、 1 6 …音声処理装置、 1 8…入力部、 2 0…制御部、 2 2…記憶部、 2 4…音声処理部、 2 6…ダウンミキサー、 3 0…出力装置、 4 0…前処理部、 4 2…周波数帯域分割フィルタ、 4 4…時分割フィルタ、 4 6…変調フィルタ、 4 8…加工フィルタ、 5 0…定位設定フィルタ。発明を実施するための最良の形態

[0013] 図 1は本実施の形態における音声処理装置を含む音声処理システムの全体構造を示している。本実施の形態における音声処理システムは、ユーザがハ一ドディスクなどの記憶装置や記録媒体に保存した複数の音声データを同時に再生し、得られた複数の音声信号にフィルタ処理を施した後、混合して所望のチャンネル数を有する出力音声信号とし、ステレオやイヤホンなどの出力装置から出力する。

[0014] 複数の音声信号を単に混合して出力するだけでは、それらが互いに打ち消しあつたりひとつの音声信号のみが際立って聴こえたりして、画像データのサムネィル表示のようにそれぞれを独立に認識することが難しい。そこで本実施の形態における音声処理装置は、人間が音声を認識するためのメカニズムのうち聴覚抹消系すなわち内耳のレベルでそれぞれの音声信号を相対的に分離し、聴覚中枢系すなわち脳のレベルで独立に認識するための手がかりを与えることにより、複数の音声信号の聴覚上の分離を行う。この処理が上述のフィルタ処理である。

[0015] さらに本実施の形態の音声処理装置は、画像データのサムネイル表示においてユーザが 1つのサムネイル画像に注目するが如く、ユーザが注意を向ける対象となった音声データの信号を、混合された出力音声信号の中でも強調されるようにする。またはユーザが画像データのサムネイル表示において視点をずらしていくように、複数の音声信号のそれぞれの強調の度合いを多段階的にまたは連続的に変化させて出力する。ここで「強調の度合い」とは、複数の音声信号の "聴こえ易さ" 、すなわち聴覚上の認識しやすさを意味する。例えば強調の度合いが他より大きいとき、その音声信号は他の音声信号より鮮明に、大きく、あるいは近くに聞こえる音かもしれない。強調の度合いはそのような人間の感じ方を総合的に考慮した主観的なパラメータである

[0016] 強調の度合いを変化させる場合に、単に音量調節をするだけでは、強調したい音声データの信号が別の音声信号にかき消されて結局よく聞き取れず、強調の効果が十分得られなかつたり、強調しない音声データの音が聴こえな <なってしまい同時に再生する意味がなくなってしまう可能性は十分残される。これは人間の聴覚上の聴こえ易さが音量の他、周波数特性などと密接に関わっているためである。そのため、ユーザが要求する強調の度合いの変化をユーザ自身が十分認識できるように、上述のフィルタ処理の内容を調整する。以上述べたフィルタ処理の原理、および具体的な処理内容は後に詳述する。

[0017] 以下の説明において音声データは音楽データとするが、それに限る趣旨ではなく、落語や会議などにおける人声、環境音、放送波に含まれる音声など、音声信号のデータであればよく、それらが混合していてもよい。

[0018] 音声処理システム 1 0は、複数の音楽データを記憶する記憶装置 1 2、複数の音楽データをそれぞれ再生して生成した複数の音声信号が分離して聴こえるように処理を施し、ユーザが要求する強調の度合いを反映させた上で混合する音声処理装置 1 6、混合された音声信号を音響として出力する出力装置 3 0を含む。

[0019] 音声処理システム 1 0はパーソナルコンピュータや、ポータブルプレーヤなどの音楽再生機器など、一体的またはローカルな接続によって構成してよしゝ。この場合、記憶装置 1 2はハードディスクやフラッシュメモリ、音声処理装置 1 6はプロセッサユニット、出力装置 3 0は内蔵スピーカや外部に接続したスピーカ、イヤホンなどを用いることができる。あるいは記憶装置 1 2を、音声処理装置 1 6とネットワークを介して接続されるサーバ内のハードディスクなどで構成してもよい。また記憶装置 1 2が記憶する音楽データは、 M P 3など一般的な符号化形式によって符号化されていてもよい。

[0020] 音声処理装置 1 6は、再生する音楽データの選択や強調に係るユーザの指示を入力する入力部 1 8、ユーザが選択した複数の音楽データをそれぞれ再生して複数の音声信号とする複数の再生装置 1 4、音声信号の区別や強調をユーザに認識させるために複数の音声信号のそれぞれに対し所定のフィルタ処理を施す音声処理部 2 4、フィルタ処理が施された複数の音声信号を混合して所望のチヤンネル数を有する出力信号を生成するダウンミキサー 2 6、再生や強調に関するユーザからの選択指示に応じて再生装置 1 4や音声処理部 2 4の動作を制御する制御部 2 0、制御部 2 0による制御に必要なテープル、すなわちあらかじめ設定されているパラメータや、記憶装置 1 2に記憶されている音楽データ個々の情報を記憶する記憶部 2 2を含む。

[0021 ] 入力部 1 8は、記憶装置 1 2に記憶されている音楽データから所望の複数の音楽データを選択したり、再生中の複数の音楽データのうち強調する対象を変化させたりするための指示を入力するインターフェースを提供する。入力部 1 8は例えば、選択対象の音楽データを象徴するアイコンなどの情報を記憶部 2 2から読み出して一覧表示するとともにカーソルを表示する表示装置と、当該カーソルを動かし画面上のポイントを選択するポインティングデバイスにより構成する。その他、キーボード、トラックボール、ボタン、タツチパネルなど一般的な入力装置、表示装置、それらの組み合わせのいずれでもよい。

[0022] なお以後の説明では、記憶装置 1 2に記憶される音楽データはそれぞれひとつの曲のデータであるとし、曲単位の指示入力、処理を行うものとするが、 1つの音楽データがアルバムなど複数の曲の集合であっても同様である。

[0023] 制御部 2 0は、入力部 1 8において、ユーザから再生する音楽データの選択入力があった場合に、その情報を再生装置 1 4に与えるとともに、再生する音楽データの音声信号ごとに適切な処理が行われるように、必要なパラメ一夕を記憶部 2 2から取得し、音声処理部 2 4に対し初期設定を行う。さらに強調する音楽データの選択入力があった場合に、音声処理部 2 4の設定を変更することによりその入力を反映させる。設定内容は後に詳述する。

[0024] 再生装置 1 4は、記憶装置 1 2に記憶された音楽データのうち、選択されたものを適宜復号して音声信号を生成する。図 1では同時に再生可能な音楽データを 4つとして、 4つの再生装置 1 4を示しているが、その数はこれに限らない。また、マルチプロセッサなどによって並列に再生処理が可能な場合は、再生装置 1 4は外観上 1つであるが、ここでは各音楽データを再生し、それぞれの音声信号を生成する処理ュニットとして別々に示している。

[0025] 音声処理部 2 4は選択された音楽データに対応する音声信号のそれぞれに上述のようなフィルタ処理を施すことにより、ユーザが要求する強調の度合いを反映させた、聴覚上分離して認識できる複数の音声信号を生成する。詳細は後に述べる。

[0026] ダウンミキサー 2 6は入力された複数の音声信号を、必要に応じて各種の調整を行ったうえで混合し、モノラル、ステレオ、 5 . 1チャンネルなど所定のチャンネル数を有する出力信号として出力する。チャンネル数は固定でもよいし、ユーザによりハードウェア的、ソフトウェア的に切り替え設定が可能な構成としてもよい。ダウンミキサー 2 6は一般的なダウンミキサーで構成してもよい。

[0027] 記憶部 2 2はメモリ、ハードディスクなどの記憶素子、記憶装置でよく、記憶装置 1 2に記憶された音楽データの情報、強調の度合いを示す指標と音声処理部 2 4に設定されるパラメータとを対応づけたテーブルなどを記憶する。音楽データの情報には、音楽データに対応した曲の曲名、演奏者名、ァイコン、ジャンルなど一般的な情報のいずれが含まれていてもよく、さらに音声処理部 2 4において必要となるパラメータの一部が含まれていてもよい。音楽データの情報は当該音楽データを記憶装置 1 2に記憶させたときに読み出して記憶部 2 2に記憶させてもよいし、音声処理装置 1 6を動作させるたびに記憶装置 1 2から読み出して記憶部 2 2に格納するようにしてもよい

[0028] ここで音声処理部 2 4において行われる処理の内容を明らかにするために、同時に聴こえる複数の音を聞き分ける原理について説明する。人間は、耳における音の感知と、脳における音の解析との 2段階によって音を認識する。人間が異なる音源から同時に発せられた音を聞き分けるには、この 2段階のいずれかまたは双方において別の音源であることを表す情報、すなわち分離情報を取得できればよい。例えば右耳と左耳とで異なる音を聴くことは、内耳レベルで分離情報を得たことになり、脳において別の音として解析され認識できる。最初から混合されている音の場合は、音脈や音色の違いなどを、これまでの生活で学習し記憶された分離情報と照らして解析することにより、脳レベルで分離することが可能である。

[0029] 複数の音楽を混合して 1組のスピーカやイヤホンなどから聴く場合は、本来、内耳レベルでの分離情報が得られないため、上述のように音脈や音色の違いなどを頼りに脳で別の音であることを認識することになるが、そのようにして聞き分けることのできる音は限定的であり、多種多様な音楽に適用することはほとんど不可能である。そこで本発明者は、最終的に混合しても分離して認識できる音声信号を生成するために、以下に述べるように内耳または脳に働きかけを行う分離情報を音声信号に人工的に付加する手法に想到した。

[0030] まず内耳レベルで分離情報を与える手法として、周波数帯域での音声信号の分割、および音声信号の時分割について説明する。図 2は、周波数帯域分割について説明するための図である。図の横軸は周波数であり周波数 f 0から f 8までを可聴帯域とする。同図では曲 a、曲 bの 2曲の音声信号を混合して聴く場合について示しているが曲の数はいくつでもよい。周波数帯域分割の手法では、可聴帯域を複数のブロックに分割し、各ブロックを複数の音声信号の少なくともいずれかに割り当てる。そして各音声信号から、割り当てられたブロックに属する周波数成分のみを抽出する。

[0031] 図 2では、可聴帯域を f 1、 f 2、 ■ ■ ■、 f 7の周波数で 8つのブロックに分割している。そして例えば斜線にて示すように、曲 aに対し周波数 f 1 ~ f 2、 f 3~ f 4、 f 5~ f 6、 f 7 ~ f 8の 4つのブロックを、曲 b に対し周波数 f O~ f 1、 f 2~ f 3、 f 4~ f 5、 f 6~ f 7の 4つのブロックを割り当てる。ここでブロックの境界となる周波数 f 1、 f 2、 ■ ■ ■、 f 7を、例えば B a r kの 24臨界帯域の境界周波数のいずれかとすることにより、周波数帯域分割の効果をより発揮することができる。

[0032] 臨界帯域とは、ある周波数帯域を有する音が、それ以上帯域幅を広げても他の音に対するマスキング量が増加しなくなる周波数帯域のことである。ここでマスキングとはある音に対する最小可聴値が他の音の存在によって上昇する現象、すなわち聴きづらくなる現象であり、マスキング量はその最小可聴値の上昇量である。すなわち、異なる臨界帯域にある音どうしは互いにマスキングされにくい。実験によって判明した B a r kの 24個の臨界帯域を利用して周波数帯域を分割することにより、例えば周波数 f 1〜 f 2のプロックに属する曲 aの周波数成分が、周波数 f 2〜 f 3のブロックに属する曲 bの周波数成分をマスキングするなどの影響を抑えることができる。他のブロックについても同様であり、結果として、曲 aと曲 bは互いに打ち消しあうことの少ない音声信号となる。

[0033] なお、ブロックへの分割は臨界帯域によらなくてもよい。いずれの場合でも、重複する周波数帯域を少なくすることにより、内耳の周波数分解能を利用して分離情報を与えることができる。

[0034] 図 2に示した例では、各ブロックが同程度の帯域幅を有しているが、実際には帯域幅を周波数帯によって変化させてもよい。例えば臨界帯域 2つ分を 1つのブロックとする帯域と 4つ分を 1つのブロックとする帯域があってもよい。ブロックへの分割の仕方（以後、分割パターンと呼ぶ）は、例えば低域の周波数を有する音はマスキングされにくい、などの一般的な音の特性を考慮して決定してもよいし、曲ごとの特徴的な周波数帯域を考慮して決定してもよい。ここで特徴的な周波数帯域とは、例えば主旋律が占める周波数帯域など曲の表現上、重要となる周波数帯域である。特徴的な周波数帯域が重なると予想される場合は、その帯域を細かく分割して均等に割り当て、どちらかの曲において主旋律が聞こえないなどの不具合が発生しないようにすることが望ましい。

[0035] また図 2に示した例では、一連のブロックを交互に曲 a、曲 bに割り当てたが、連続した 2つのブロックを曲 aに割り当てるなど、割り当て方はこれに限らない。この場合も、例えばある曲の特徴的な周波数帯域が連続したブロック 2つ分に渡るときは当該 2つのブロックをその曲に割り当てるなど、周波数帯域分割を行ったことによる悪影響の発生が曲の重要な部分では最低限抑制されるように割り当て方を決定することが望ましい。

[0036] —方で、明らかに高域、中域、低域に偏った 3曲を混合したい場合など特殊な場合を除き、ブロック数は混合する曲の数より多くし、ひとつの曲に不連続な複数のブロックを割り当てるようにすることが望ましい。これも上述と同様の理由で、特徴的な周波数帯域が重なった場合でも、ある曲の特徴的な周波数帯域の全てが別の曲に割り当てられてしまうことを防止し、より幅広い帯域でおよそ均等に割り当てを行うようにして、平均的に全ての曲が聞こえるようにするためである。 [0037] 図 3は音声信号の時分割について説明するための図である。同図において横軸は時間、縦軸は音声信号の振幅、すなわち音量を示している。この場合も曲 a、曲 bの 2曲の音声信号を混合して聴く場合を一例として示している。時分割の手法では、共通の周期で音声信号の振幅を変調させる。そしてそのピークが曲によって異なるタイミングで表れるように位相をずらす。内耳レベルへの働きかけのため、このときの周期は数十ミリ秒から数百ミリ秒程度でよい。

[0038] 図 3では共通の周期 Tで曲 a、曲 bの振幅を変調させている。そして曲 a の振幅がピークとなる時刻 t 0、 t 2、 t 4、 t 6において曲 bの振幅を小さくし、曲 bの振幅がピークとなる時刻 t 1、 t 3、 t 5において曲 aの振幅を小さくする。実際には、同図に示すように振幅が最大となる時刻、最小となる時刻がある程度の時間的幅を有するように振幅の変調を行ってもよい。この場合、曲 aの振幅が最小となる時間を曲 bの振幅が最大となる時間と合わせるようにすることができる。 3曲以上を混合する場合でも、曲 aの振幅が最小となる時間に、曲 bの振幅が最大の時間、曲 cの振幅が最大の時間を設けることができる。

[0039] —方、ピークとなる時刻に時間的幅を持たない正弦波状の変調を行ってもよい。この場合は単に位相をずらして、ピークとなるタイミングを異ならせる。いずれの場合によっても、内耳の時間的分解能を利用して分離情報を与えることができる。

[0040] 次に脳レベルで分離情報を与える手法について説明する。 fl¾レベルで与える分離情報は、脳において音を分析する際に、各音の音脈を認識する手がかりを与える。本実施の形態では、音声信号に周期的に特定の変化を与える手法、音声信号に定常的に加工処理を施す手法、定位を変化させる手法を導入する。音声信号に周期的に特定の変化を与える手法では、混合する全てまたは一部の音声信号の振幅を変調させたり、周波数特性を変調させたりする。変調は短期間にパルス状に発生させてもよいし、数秒の長時間に渡って緩やかに変化するようにしてもよい。複数の音声信号に共通の変調を行う場合は、そのピークのタイミングを音声信号ごとに異ならせる。

[0041 ] あるいは、周期的にクリック音などのノイズを付加したり一般的なオーディォフィルタによって実現できる加工処理を施したり定位を左右に振ったりしてもよい。これらの変調を組み合わせたり、音声信号によって別の変調を適用したり、タイミングをずらしたりすることにより、音声信号の音脈を気づかせる手がかりを与えることができる。

[0042] 音声信号に定常的に加工処理を施す手法では、混合する全てまたは一部の音声信号に、一般的なエフヱクタ一で実現できる、エコー、リバーブ、ピッチシフトなどの様々な音響加工の 1つまたは組み合わせを施す。定常的に周波数特性を元の音声信号と異ならせてもよい。例えば同じ楽器による同じ亍ンポの曲であっても一方にエコー処理が施されることにより、別の曲として認識しやすくなる。複数の音声信号に加工処理を施す場合は当然、加工内容や加工の強度を音声信号によって異ならせる。

[0043] 定位を変化させる手法では、混合する全ての音声信号のそれぞれに異なる定位を与える。これにより内耳との協働により脳において音響の空間的な情報解析を行うことで、音声信号を分離しやすくなる。

[0044] 以上述べた原理を用い、本実施の形態の音声処理装置 1 6における音声処理部 2 4は、混合したときに聴感上分離して認識できるように音声信号のそれぞれに対し処理を施す。図 4は音声処理部 2 4の構成を詳細に示している。音声処理部 2 4は、前処理部 4 0、周波数帯域分割フィルタ 4 2、時分割フィルタ 4 4、変調フィルタ 4 6、加工フィルタ 4 8、定位設定フィルタ 5 0を含む。前処理部 4 0は、一般的なオートゲインコントローラなどでよく、再生装置 1 4から入力した複数の音声信号の音量がおよそ揃うようにゲイン調整を行う。

[0045] 周波数帯域分割フィルタ 4 2は、上述したように、可聴帯域を分割してなるブロックを各音声信号に割り当て、それぞれの音声信号から割り当てられたブロックに属する周波数成分を抽出する。例えば周波数帯域分割フィルタ 4 2を、音声信号のチャンネルごと、ブロックごとに設けたバンドパスフィルタ（図示せず）として構成することにより、周波数成分の抽出が可能となる。分割パターンや音声信号へのブロックの割り当て方（以後、割り当てパターンと呼ぶ）は、制御部 2 0が各バンドパスフィルタなどを制御して周波数帯域の設定や有効なバンドバスフィルタの設定を行うことにより変更することができる。割り当てパターンに関しては、具体例を後に述べる。

[0046] 時分割フィルタ 4 4は上述した音声信号の時分割の手法を実施し、各音声信号の振幅を、数十ミリ秒から数百ミリ秒程度の周期で位相を異ならせて時間変調させる。時分割フィルタ 4 4は、例えばゲインコントローラを時間軸で制御することによって実現できる。変調フィルタ 4 6は上述した、音声信号に周期的に特定の変化を与える手法を実施し、例えばゲインコントローラ、イコライザ、オーディオフィルタなどを時間軸で制御することによって実現できる。加工フィルタ 4 8は上述した、音声信号に定常的に特殊効果（以下、加工処理と呼ぶ）を施す手法を実施し、例えばエフェクターなどで実現できる。定位設定フィルタ 5 0は上述した、定位を変化させる手法を実施し、例えばパンポットなどで実現できる。

[0047] 本実施の形態では上述のとおり、混合した複数の音声信号を聴覚上分離して認識させたうえで、ある音声信号を強調して聴かせることを実現する。そのため周波数帯域分割フィルタ 4 2やその他のフィルタ内部で、ユーザが要求する強調の度合いに応じて処理を変更する。さらに音声信号を通過させるフィルタも強調の度合いに応じて選択する。後者の場合、各フィルタにおける音声信号の出力端子にデマルチプレクサを接続するなどする。このとき、制御部 2 0からの制御信号によって次のフィルタへの入力の可否を設定することにより、次のフィルタの選択、非選択を変更できる。

[0048] 次に強調の度合いを変化させる具体的な手法について説明する。まず、ュ一ザが強調したい音楽データを選択する模様について一例を説明する。図 5 は、 4つの音楽データが選択されそれらの音声信号が混合されて出力されている状態において、音声処理装置 1 6の入力部 1 8に表示される画面の例を示している。入力画面 9 0は、題名力《「曲 a」、「曲 b」、「曲 c」、「曲 d」なる再生中の音楽データのアイコン 9 2 a、 9 2 b、 9 2 c、 9 2 dと、再生を停止するための「停止」ポタン 9 4、およびカーソル 9 6を含む。

[0049] 音声処理装置 1 6は、再生中の状態でユーザがカーソル 9 6を入力画面 9 0上で移動させると、そのカーソルの指し示すアイコンが表す音楽データを強調させたい対象と判断する。図 5においてはカーソル 9 6は「曲 b」のァイコン 9 2 bを示しているため、「曲 b」のアイコン 9 2 bに対応する音楽データを強調対象とし、その音声信号を音声処理部 2 4にて強調するように制御部 2 0が動作する。このとき、他の 3つの音楽データは非強調対象として、音声処理部 2 4にて同一のフィルタ処理を行うようにしてもよい。これによりユーザには、 4つの曲が同時かつ分離して聞こえるとともに、「曲」のみが特によく聴こえる状態となる。

[0050] —方で、カーソル 9 6からアイコンまでの距離に従い、強調対象の音楽デ一夕以外の音楽データの強調の度合いを変化させてもよい。図 5の例では、カーソル 9 6が示す「曲 b」のアイコン 9 2 bに対応する音楽データの強調の度合いを最も高くし、カーソル 9 6が示すポイントから同程度の近距離にある「曲 a」のアイコン 9 2 aおよび「曲 c」のアイコン 9 2 cに対応する音楽データの強調の度合いを中程度とする。そしてカーソル 9 6が示すボイントから最も離れた「曲 d」のアイコン 9 2 dに対応する音楽データの強調の度合いを最も低くする。

[0051 ] この態様においては、たとえカーソル 9 6がいずれかのアイコンを指し示していなくても、指し示しているポイントからの距離で強調の度合いを決定できる。例えば強調の度合いをカーソル 9 6からの距離に応じて連続的に変化させるとすると、サムネイル表示において視点を徐々にずらしていくのと同様に、カーソル 9 6の動きに合わせて曲が近づいたり遠のいたりするように聴かせることができる。カーソル 9 6を導入せず、ユーザからの左右の指示入力によってアイコン自体を画面上で移動させ、画面の真ん中に近いアイコンほど強調の度合いを高くするなどしてもよい。

[0052] 制御部 2 0は、入力部 1 8におけるカーソル 9 6の動きに係る情報を取得し、それが指し示すポイントからの距離などに応じて、各アイコンに対応する音楽データに対し、強調の度合いを示す指標を設定する。この指標を以後、フォーカス値と呼ぶ。なおここで説明するフォーカス値は一例であり、強調の度合いを決定できる指標であればいかなる数値、図形などでもよい。例えばカーソルの位置に関わらず、それぞれのフォーカス値を独立に設定できるようにしてもよいし、全体を 1 として割合で決定するようにしてもよい。

[0053] 次に周波数帯域分割フィルタ 4 2において強調の度合いを変化させる手法について説明する。図 2では複数の音声信号を分離して認識させる手法を説明するため、「曲 a」と「曲 b」とでほぼ均等に周波数帯域のブロックの割り当てを行った。一方、ある音声信号を強調して聞かせ、ある音声信号を目立たなくさせるためには、ブロックを割り当てる数に大小をつける。図 6はブロックの割り当てパターンを模式的に示している。

[0054] 同図は、可聴帯域を 7個のブロックに分割した場合について示している。

図 2と同様、横軸に周波数をとり、説明の便宜上、低域側のブロックからブロック 1、ブロック 2、 ■ ■ ■、ブロック 7とする。まず「パターン群 A」と記載された上から 3つの割り当てパターンに着目する。各割り当てパターンの左に記載された数値はフォーカス値であり、例として「1 . 0」、「0 . 5」、「0 . 1」の場合を示している。この場合のフォーカス値は大きいほど強調の度合いが高いとし、最大値を 1 . 0、最小値を 0 . 1 とする。ある音声信号の強調の度合いを最高とする場合、すなわち他の音声信号と比較し最も聞き取り易くする場合、フォーカス値が 1 . 0の割り当てパターンを当該音声信号に適用する。同図の「パターン群 A」では、ブロック 2、プロック 3、ブロック 5、およびブロック 6の 4つのブロックが同音声信号に割り当てられる。

[0055] ここで同じ音声信号の強調の度合いを少し低下させる場合、割り当てバターンを例えばフォーカス値が 0 . 5の割り当てパターンに変更する。同図の「パターン群 A」では、ブロック 1、ブロック 2、ブロック 3の 3つのブロックが割り当てられる。同様に同じ音声信号の強調の度合いを最低としたい場合、すなわち聞き取れる範囲で最も目立たなくする場合は、割り当てバターンを、フォーカス値が 0 . 1の割り当てパターンに変更する。同図の「パターン群 A」では、ブロック 1の 1つのブロックが割り当てられる。このように、求められる強調の度合いによってフォーカス値を変化させ、フォー力ス値が大きい場合は多数のブロックを、小さい場合は少数のブロックを割り当てる。これにより内耳レベルで強調の度合いについての情報を与えることができ、強調、非強調を認識させることができる。

[0056] 同図に示すとおり、強調の度合いが最高である、フォーカス値が 1 . 0の音声信号に対しても、全てのプロックを割り当ててしまわないようにすることが望ましい。同図ではブロック 1、ブロック 4、およびブロック 7が割り当てられていない。これは、例えばブロック 1をフォーカス 1 . 0の音声信号にも割り当ててしまうと、ブロック 1のみを割り当てられたフォーカス値 0 . 1の別の音声信号の周波数成分をマスキングしてしまう可能性があるためである。本実施の形態では、複数の音声信号を分離して聴かせつつ、強調の度合いに高低をつけるため、強調の度合いが低くても聞き取りが可能となることが望ましい。そのため、強調の度合いが最低の、または低い音声信号に割り当てられたブロックは、強調の度合いが最高の、または高い音声信号には割り当てないようにする。

[0057] 同図では、フォーカス値が 0 . 1、 0 . 5、 1 . 0の 3段階の割り当てパタ一ンのみを示したが、割り当てバターンを多数のフオーカス値であらかじめ設定する場合は、フォーカス値にしきい値を設け、それ以下のフォーカス値を有する音声信号を、非強調対象としてもよい。そして非強調対象の音声信号に対して割り当てるブロックを、当該しきい値より大きなフォーカス値を有する強調対象の音声信号には割り当てないように割り当てパターンを設定してもよい。強調対象、非強調対象の区別は 2つのしきい値によって行つてもよい。

[0058] 以上の説明は「パターン群 A」に着目して行ったが、「パターン群 B」、

「パターン群 C」についても同様である。ここで割り当てパターン群が「パターン群 A」、「パターン群 B」、「パターン群 C」と 3種類存在するのは、フォーカス値 0 . 5や 0 . 1などの音声信号において割り当てるブロックができるだけ重複しないようにするためである。例えば 3つの音楽データを再生する場合には、対応する 3つの音声信号にそれぞれ「パターン群 A」、「パターン群 B」、「パターン群 C」を適用する。

[0059] このとき全ての音声信号がフォーカス値 0 . 1であったとしても、「バターン群 A」、「パターン群 B」、「パターン群 C」で異なるブロックが割り当てられ、分離して聞き取りやすくなる。なおいずれのパターン群においても、フォーカス値 0 . 1で割り当てられるブロックは、フォーカス値 1 . 0 では割り当てられないブロックである。この理由は既に述べたとおりである

[0060] フォーカス値 0 . 5の場合は「パターン群 A」、「パターン群 B」、「パターン群 C」で重複するブロックが存在するが、 2つのパターン群の組み合わせでは重複するブロックは最大でも 1つである。このように、混合する音声信号に強調の度合いを設定する場合は、音声信号同士で割り当てるブロックに重複を許してよいが、重複するブロックの個数を最小限に抑えることや、強調の度合いが低い音声信号へ割り当てるブロックの、他の音声信号への割り当てを制限するなどの工夫により、分離と強調を同時に達成することができる。また重複するブロックがあっても、周波数帯域分割フィルタ 4 2以外のフィルタにおいて分離のレベルを補うように処理を調整してもよい。

[0061 ] 図 6に示したブロックの割り当てパターンは、フォーカス値と対応づけて記憶部 2 2に記憶させておく。そして制御部 2 0は入力部 1 8におけるカーソル 9 6の動きなどに応じて各音声信号のフォーカス値を決定し、その音声信号にあらかじめ割り当てられたパターン群のうち、そのフォーカス値に対応ずる割り当てパターンを記憶部 2 2から読み出すことにより割り当てるブロックを取得する。そのブロックに対応させて有効となるバンドパスフィルタの設定などを周波数帯域分割フィルタ 4 2に対して行う。

[0062] ここで記憶部 2 2に記憶させておく割り当てパターンは、フォーカス値 0 . 1、 0 . 5、 1 . 0以外のフォーカス値を含んでよい。しかしながらプロックの個数は有限であるため、あらかじめ準備できる割り当てパターンは限られる。そのため記憶部 2 2に記憶されていないフォーカス値の場合は、その前後のフォーカス値で、記憶部 2 2に記憶されている直近のフォーカス値の割り当てパターンを補間することによって割り当てパターンを決定する。補間の方法としては、ブロックをさらに分割して割り当てる周波数帯域を調整したり、あるブロックに属する周波数成分の振幅を調整したりする。後者の場合、周波数帯域分割フィルタ 4 2にはゲインコントローラを含める。

[0063] 例えばフォーカス値 0 . 5において、ある 3つのブロックを割り当て、フオーカス値 0 . 3でそのうち 2つのブロックを割り当てる場合、フォーカス値 0 . 4ではフォーカス値 0 . 3で与えられない残りの 1つのブロックの周波数帯域を 2分割したうちの一方を割り当てるか、当該 1つのブロックを割り当ててしまい、その周波数成分のみ振幅を 2分の 1にする。この例では線形補間を行っているが、強調の度合いを示すフォーカス値が人間の聴覚による感覚的、主観的な値であることを考慮した場合、必ずしも線形補間である必要はなく、実際の聴こえ方を実験するなどしてあらかじめテーブルまたは数式などによって補間のルールを設定してよい。制御部 2 0はその設定に従い補間を行い、周波数帯域分割フィルタ 4 2に対して設定を行う。これにより、フォーカス値をほぼ連続的に設定することができ、強調の度合いをカーソル 9 6の動きに合わせて見かけ上連続的に変化させることができる。

[0064] 記憶部 2 2に記憶させる割り当てパターンは、分割パターンが異なる数種類のシリーズを含んでいてもよい。この場合、最初に音楽データが選択された時点で、どの分割パターンを適用するかを決定しておく。決定に際しては、後述するように各音楽データの情報を手がかりにできる。分割パターンは、制御部 2 0がバンドバスフィルタの上限および下限の周波数の設定を行うことなどによって周波数帯域分割フィルタ 4 2に反映される。

[0065] 各音声信号にどの割り当てパターン群を割り当てるかは、対応する音楽デ一夕の情報に基づいて決定してよい。図 7は記憶部 2 2に記憶される音楽デ一夕の情報の一例を示している。音楽データ情報テーブル 1 1 0は、題名欄 1 1 2、およびパターン群欄 1 1 4を含む。題名欄 1 1 2には各音楽データに対応する曲の題名が記載される。同欄は音楽データの I Dなど音楽データを識別するものであれば他の属性を記載する欄としてもよい。

[0066] パターン群欄 1 1 4には、各音楽データについて推奨される割り当てバターン群の名前または I Dが記載される。ここで推奨されるパターン群を選択する根拠として、当該音楽データの特徴的な周波数帯域を利用してもよい。例えば、音声信号がフォーカス値 0 . 1 となったときに、特徴的な周波数帯域が割り当てられるようなパターン群を推奨する。これにより、非強調の状態にあっても音声信号の最も重要な成分が、同じフォー力ス値の別の音声信号や高いフォーカス値の音声信号にマスキングされづらくなり、より聞き取りやすくなる。

[0067] この態様は、例えばパターン群とその I Dを標準化し、音楽データを提供するベンダーなどが、推奨されるパターン群を音楽データの情報として音楽データに付加することなどによって実現できる。一方、音楽データに付加する情報を、パターン群の名前や I Dに代わり、特徴的な周波数帯域とすることもできる。この場合、制御部 2 0はあらかじめ、それぞれの音楽データの特徴的な周波数帯域を記憶装置 1 2より読み出し、その周波数帯に最も適したパターン群をそれぞれ選択して音楽データ情報テーブル 1 1 0を生成し、記憶部 2 2に保存してもよい。あるいは音楽のジャンルや楽器の種類などに基づき特徴的な周波数帯域を判断し、それによりパターン群を選択するようにしてもよい。

[0068] 音楽データに付加する情報が特徴的な周波数帯域であった場合は、その情報そのものを記憶部 2 2に記憶させておいてもよい。この場合、再生する複数の音楽データの特徴的な周波数帯域を総合的に判断して、まず最適な分割パターンを選択し、次いで割り当てパターンを選択することができる。さらには特徴的な周波数帯域に基づき処理の最初に新たな分割パターンを生成してもよい。ジャンルなどで判断する場合も同様である。 [0069] 次に周波数帯域分割フィルタ 4 2以外のフィルタにおいて、強調の度合いを変化させる場合について説明する。図 8は記憶部 2 2に記憶させる、フォ一カス値と各フィルタの設定とを対応付けたテーブルの例を示している。フィルタ情報テーブル 1 2 0は、フォーカス値欄 1 2 2、時分割欄 1 2 4、変調欄 1 2 6、加工欄 1 2 8、および定位設定欄 1 3 0を含む。フォーカス値欄 1 2 2にはフォーカス値の範囲が記載される。時分割欄 1 2 4、変調欄 1 2 6、加工欄 1 2 8には、フォーカス値欄の各範囲において、それぞれ時分割フィルタ 4 4、変調フィルタ 4 6、加工フィルタ 4 8による処理を行う場合は「〇」、行わない場合は「X」が記載される。フィルタ処理実行の可否が識別できれば「〇」、「X」以外の記載方法でもよい。

[0070] 定位設定欄 1 3 0には、フォーカス値欄の各範囲において、どの定位を与えるかが「中央」、「右寄り ■左寄り」、「端」などで表される。同図に示すように、フォーカス値が高いときは定位を中央に置き、フォーカス値が低くなるにつれ定位を中央から離していくようにすると、強調の度合いの変化を定位によっても認識し易くなる。定位の左右はランダムに割り振ってもよいし、音楽データのアイコンの画面上の位置などに基づいてもよい。さらに、フォーカス値に対する定位の変化がないように定位設定欄 1 3 0の設定を無効とし、それぞれの音声信号に対し常にアイコンの位置に対応した定位を与えれば、カーソルの動きに対応して強調される音声信号の聴こえる方向も変化するような態様とすることができる。なおフィルタ情報テーブル 1 2 0 にはさらに、周波数帯域分割フィルタ 4 2の選択、非選択を含めてもよい。

[0071 ] 変調フィルタ 4 6や加工フィルタ 4 8が行うことのできる処理が複数ある場合や、処理の度合いを内部パラメータで調整できる場合は、各欄に具体的な処理の内容や内部パラメータを表すようにしてもよい。例えば時分割フィルタ 4 4において音声信号のピークとなる時間を強調の度合いの範囲によつて変化させる場合、時分割欄 1 2 4にその時間を記載する。フィルタ情報亍一ブル 1 2 0は、各フィルタの相互の影響などを考慮して、実験などによつてあらかじめ作成しておく。これにより非強調音声信号にふさわしい音響効果を選択したり、すでに分離して聴こえる音声信号に過剰な加工を行わないようにしたりする。フィルタ情報テーブル 1 2 0を複数用意し、音楽データの情報に基づき最適なものを選択するようにしてもよい。

[0072] 制御部 2 0はフォーカス値がフォーカス値欄 1 2 2に示される範囲の境界を越えるたびに、フィルタ情報テーブル 1 2 0を参照して各フィルタの内部パラメータや、デマルチプレクサなどの設定に反映させる。これにより、フオーカス値の大きい音声信号は中央からはっきり聞こえ、フォーカス値の小さい音声信号は端の方からくぐもったように聞こえるなど、強調の度合いを反映して音声信号にさらにメリハリをつけることができる。

[0073] 図 9は、本実施の形態における音声処理装置 1 6の動作を示すフローチヤートである。まずユーザは入力部 1 8に対して記憶装置 1 2に記憶された音楽データの中から、同時に再生したい複数の音楽データの選択入力を行う。入力部 1 8において当該選択入力を検出したら（S 1 0の Y ) 、制御部 2 0 による制御のもと、それらの音楽データの再生、各種フィルタ処理、混合処理を行い、出力装置 3 0から出力する（S 1 2 ) 。周波数帯域分割フィルタ 4 2で用いられるブロックの分割パターンの選択や割り当てパターン群の各音声信号への割り当てもここで行われ、周波数帯域分割フィルタ 4 2に設定される。その他のフィルタへの初期設定も同様である。なおこの段階での出力信号は、全てのフォーカス値を同一にして強調の度合いを等しくしてよい。このときユーザには各音声信号が均等に、分離して聴こえる。

[0074] 同時に入力部 1 8には入力画面 9 0を表示させ、ユーザがカーソル 9 6を画面上で移動させるかどうかを監視しながら、混合した出力信号を出力し続ける（S 1 4の N、 S 1 2 ) 。カーソル 9 6が移動したら（S 1 4の Y ) 、制御部 2 0はその動きに合わせて各音声信号のフォーカス値を更新し（S 1 6 ) 、その値に対応するブロックの割り当てパターンを記憶部 2 2から読み出して、周波数帯域分割フィルタ 4 2の設定を更新する（S 1 8 ) 。さらにフォーカス値の範囲に対して設定された、処理を行うべきフィルタの選択情報と、各フィルタでの処理の内容や内部パラメータなどの情報を記憶部 2 2 から読み出し、それぞれのフィルタの設定を適宜更新する（S 2 0、 S 2 2 ) 。なお S 1 4から S 2 2までの処理は、 S 1 2の音声信号の出力と並列に行ってよい。

[0075] これらの処理を、カーソルが移動するたびに繰り返す（5 2 4の1\1、 S 1 2〜2 2 ) 。これにより、各音声信号に強調の度合いの高低がつくとともにカーソル 9 6の動きに合わせてその度合いが経時変化する態様を実現できる。結果としてユーザはカーソル 9 6の動きに合わせて音声信号が遠のいたり近づいたりする感覚を得ることができる。そして例えばユーザが、入力画面 9 0の「停止」ボタン 9 4を選択した場合（ 2 4の丫）、全ての処理を終了する。

[0076] 以上述べた本実施の形態によれば、混合した際に分離して聴くことができるように、それぞれの音声信号に対してフィルタ処理を施す。具体的には各音声信号に周波数帯域や時間を分配することにより、内耳レベルで分離情報を与えたり、一部または全ての音声信号に対し周期的に変化を与える、音響加工処理を施す、異なる定位を与える、といったことを行うことにより、脳レベルで分離情報を与える。これにより、それぞれの音声信号を混合したときに、内耳レベル、脳レベルの双方で分離情報を取得でき、最終的には分離して認識することが容易になる。結果として、サムネイル表示を眺めるが如く音声そのものを同時に観測することができ、多数の音楽コンテンツなどの内容を確認したい場合でも時間をかけずに容易に行うことができる。

[0077] また本実施の形態では、各音声信号の強調の度合いを変化させる。具体的には、強調の度合いによって割り当てる周波数帯域を増やしたり、フィルタ処理の施し方に強弱をつけたり、施すフィルタ処理を変更したりする。これにより、強調の度合いの高い音声信号を他の音声信号より際立たせて聴こえるようにすることができる。この場合も、強調の度合いの低い音声信号を打ち消してしまうことがないように、低い音声信号に割り当てる周波数帯域は使用しないなどの配慮を行う。結果的には、複数の音声信号のそれぞれが聴こえつつも、焦点を絞るように、着目したい音声信号が際立って聴こえるようにできる。この態様を、ユーザが移動させるカーソルの動きに追随させて経時変化させることにより、サムネイル表示において視点をずらしていくように、カーソルからの距離に応じた聴こえ方の変化を生むことができるため、多くの音楽コンテンツなどから所望のコンテンツを容易かつ感覚的に選択することができる。

[0078] 以上、本発明を実施の形態をもとに説明した。上記実施の形態は例示であり、それらの各構成要素や各処理プ口セスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

[0079] 例えば本実施の形態では、音声信号が分離して聴こえるようにしながら強調の度合いも変化させたが、目的によっては、強調の度合いを変化させずに全ての音声信号を均一に聴かせるのみでもよい。強調の度合いに高低をつけない態様は、例えばフォーカス値の設定を無効にしたりフォーカス値を固定とすることにより同様の構成で実現することができる。これによつても複数の音声信号の分離受聴が可能となり、多数の音楽コンテンツなどを容易に把握することができる。

[0080] また本実施の形態では主に、音楽コンテンツを鑑賞する場合を想定して説明したが、本発明はそれに限らない。例えばテレビ受像機のオーディオ系統に、実施の形態で示した音声処理装置を設けてもよい。そして、ユーザのテレビ受像機への指示により多チャンネルの画像表示が行われている間は、各チャンネルの音声も、フィルタ処理後、混合して出力するようにする。これにより、多チャンネルの画像に加え音声も同時に区別して鑑賞することができる。この状態でユーザがチャンネル選択を行うと、当該チャンネルの音声を強調させつつ、別のチャンネルの音声も聴こえるようにしておくことも可能となる。さらに単一のチャンネルの画像表示においても、主音声と副音声を同時に聴く際、強調の度合いを段階的に変化させることが可能となり、互いに打ち消しあうことなく主として聴きたい音声を強調させることができる [0081 ] さらに図 6に示したように本実施の形態の周波数帯域分割フィルタでは、フォーカス値 0 . 1の音声信号に対して割り当てたブロックを、フォーカス値 1 . 0の音声信号に対しては割り当てない、というルールに基づいて、各フォーカス値の割り当てパターンを固定的とした例を主に説明した。一方、例えばフォーカス値 0 . 1 となる音声信号がない期間や状態においては、フオーカス値 0 . 1の音声信号に対してに割り当てるべきブロックを全てフォ一カス値 1 . 0の音声信号に割り当ててもよい。

[0082] 例えば図 6の例で、再生する音楽データが 3つのみ選択された場合は、対応ずる 3つの音声信号にパターン群 A、パターン群 B、パターン群 Cをそれぞれ割り当てれば、同一パターン群のフォーカス値 1 . 0とフォーカス値 0 . 1の割り当てパターンが共存することはない。この場合、例えばパターン群 Aが割り当てられた音声信号は、フォーカス値 1 . 0のときに、フォー力ス値 0 . 1で割り当てる最も低域のブロックも一緒に割り当てることができる。このように、各フォーカス値に対する音声信号の数などに応じて、割り当てパターンを動的にしてもよい。これにより、強調対象の音声信号に割り当てられるブロック数を、非強調対象の音声信号を認識できる範囲で可能な限り多くすることができ、強調対象の音声信号の音質を高めることができる

[0083] さらに、最も強調したい音声信号に全周波数帯域を割り当てるようにしてもよい。これにより当該音声信号はより強調されるとともに、その音質はさらに向上する。この場合も、他の音声信号は周波数帯域分割フィルタ以外のフィルタによって分離情報を与えることにより分離して認識させることは可能である。

産業上の利用可能性

[0084] 以上のように本発明はオーディオ再生装置、コンピュータ、テレビ受像機などの電子機器に利用可能である。

Claims

請求の範囲

[1 ] ユーザから入力された、入力音声信号に対して要求される強調の度合いを示す指標に応じて、複数の入力音声信号をそれぞれ処理し強調の度合いを調整する音声処理部と、

前記音声処理部により強調の度合いが調整された複数の入力音声信号を混合し所定のチャンネル数を有する出力音声信号として出力する出力部と、を備え、

前記音声処理部は、複数の入力音声信号のそれぞれに対して前記指標に応じた周波数帯域を割り当て、各入力音声信号から、割り当てた周波数帯域に属する周波数成分を抽出する周波数帯域分割フィルタを備えたことを特徴とする音声処理装置。

[2] 前記周波数帯域分割フィルタは、前記複数の入力音声信号の少なくともいずれかに対し、不連続な複数の周波数帯域を割り当て、要求される強調の度合いが高い入力音声信号ほど割り当てる周波数帯の帯域幅の合計を大きくすることを特徴とする請求項 1に記載の音声処理装置。

[3] 前記複数の入力音声信号のうち、要求される強調の度合いが最高の入力音声信号に割り当てられた周波数帯域は、要求される強調の度合いが最低の入力音声信号に割り当てられた周波数帯域の少なくとも一部を含まないことを特徴とする請求項 2に記載の音声処理装置。

[4] 前記音声処理部は、ユーザからの入力に応じた前記指標の連続的な変化を受け付け、前記複数の入力音声信号のうち少なくともいずれかの前記強調の度合いを、前記指標の変化に応じて経時変化させることを特徴とする請求項 1に記載の音声処理装置。

[5] 前記音声処理部は、複数の入力音声信号のそれぞれの振幅を、共通の周期で位相を異ならせて時間変調させる時分割フィルタをさらに備えたことを特徴とする請求項 1に記載の音声処理装置。

[6] 前記音声処理部は、複数の入力音声信号の少なくともいずれかに対し、所定の周期で所定の音響加工処理を施す変調フィルタをさらに備えたことを特徴とする請求項 1に記載の音声処理装置。

[7] 前記音声処理部は、複数の入力音声信号の少なくともいずれかに対し、定常的に所定の音響加工処理を施す加工フィルタをさらに備えたことを特徴とする請求項 1に記載の音声処理装置。

[8] 前記音声処理部は、複数の入力音声信号のそれぞれに対して異なる定位を与える定位設定フィルタをさらに備えたことを特徴とする請求項 1に記載の音声処理装置。

[9] 前記定位設定フィルタは、前記指標に応じた定位を各入力音声信号に与えることを特徴とする請求項 8に記載の音声処理装置。

[10] 複数の前記指標と入力音声信号に割り当てる周波数帯域の割り当て方のパターンとを対応づけて記憶した記憶部をさらに備え、

前記周波数帯域分割フィルタは、ユーザからの入力に応じた前記指標が前記記憶部に記憶されていない場合、当該指標に基づき前記記憶部に記憶されている割り当て方のパターンを参照し、割り当てる周波数帯域を補間することにより、前記入力に応じた指標に対応する周波数帯域の割り当てを決定することを特徴とする請求項 1に記載の音声処理装置。

[11 ] 複数の前記指標と入力音声信号に割り当てる周波数帯域の割り当て方のパターンとを対応づけて記憶した記憶部をさらに備え、

前記周波数帯域分割フィルタは、ユーザからの入力に応じた前記指標が前記記憶部に記憶されていない場合、当該指標に基づき前記記憶部に記憶されている割り当て方のパターンのいずれかを前記入力に応じた指標に対応するパターンとして決定するとともに、割り当てた周波数帯域のうち一部の周波数成分の振幅を前記入力に応じた指標に応じて調整することを特徴とする請求項 1に記載の音声処理装置。

[12] 複数の前記指標と入力音声信号に割り当てる周波数帯域の割り当て方のパターンとを対応づけて記憶した記憶部をさらに備え、

前記記憶部は、前記指標の変化に対して割り当て方のパターンの変化が異なる複数のパターン群を記憶することを特徴とする請求項 1に記載の音声処理装置。

[13] ユーザから入力された、入力音声信号に対して要求される強調の度合いを示す指標に応じて、複数の入力音声信号をそれぞれ処理し強調の度合いを調整する音声処理部と、

前記音声処理部により強調の度合いが調整された複数の入力音声信号を混合し所定のチャンネル数を有する出力音声信号として出力する出力部と、を備えた音声処理装置であって、

前記音声処理部は、

複数の入力音声信号のそれぞれに対して前記指標に応じた周波数帯域を割り当て、各入力音声信号から、割り当てた周波数帯域に属する周波数成分を抽出する周波数帯域分割フィルタと、

複数の入力音声信号のそれぞれの振幅を、共通の周期で位相を異ならせて時間変調させる時分割フィルタと、

複数の入力音声信号の少なくともいずれかに対し、所定の周期で所定の音響加工処理を施す変調フィルタと、

複数の入力音声信号の少なくともいずれかに対し、定常的に所定の音響加ェ処理を施す加工フィルタと、

複数の入力音声信号のそれぞれに対して異なる定位を与える定位設定フィルタと、

の少なくともいずれかを備え、

前記音声処理装置はさらに、前記周波数帯域分割フィルタ、前記時分割フィルタ、前記変調フィルタ、前記加工フィルタ、および前記定位設定フィルタのうち前記音声処理部に備えられたフィルタから選択するフィルタのいずれかの組み合わせを、前記指標に対応づけて記憶する記憶部をさらに備え、前記出力部は前記指標に応じて、前記記憶部に記憶されたフィルタの組み合わせに基づき選択されたフィルタによってフィルタ処理が施された前記複数の入力音声信号を混合することを特徴とする音声処理装置。

[14] 前記時分割フィルタ、前記変調フィルタ、前記加工フィルタ、および前記定位設定フィルタの少なくともいずれかは、前記指標に応じて、フィルタ処理に必要な内部パラメータを変化させて各入力音声信号を処理することを特徴とする請求項 1 3に記載の音声処理装置。

[15] ユーザから入力された、入力音声信号に対して要求される強調の度合いが高いほど広い帯域幅となるように、複数の入力音声信号のそれぞれに周波数帯域を割り当てるステップと、

各入力音声信号から、割り当てた周波数帯域に属する周波数成分を抽出するステップと、

各入力音声信号から抽出された周波数成分からなる複数の音声信号を混合し所定のチャンネル数を有する出力音声信号として出力するステップと、を含む音声処理方法。

[1 6] 前記割り当てるステップは、

割り当てる帯域幅が所定の値以下である非強調入力音声信号に優先的に割り当てる優先周波数帯域を取得するステップと、

取得した前記優先周波数帯域を対応する非強調入力音声信号に割り当てるステップと、

割り当てる帯域幅が所定の値より大きい強調入力音声信号に対し、割り当て済みの前記優先周波数帯域以外の周波数帯域を割り当てるステップと、を含むことを特徴とする請求項 1 5に記載の音声処理方法。

[17] 要求される音声信号の強調の度合いを示す指標と周波数帯域の割り当て方のパターンとを対応づけて記憶したメモリを参照して、複数の入力音声信号のそれぞれに対してユーザが入力した前記指標に応じた周波数帯域を割り当てる機能と、

各入力音声信号から、割り当てた周波数帯域に属する周波数成分を抽出する機能と、

各入力音声信号から抽出された周波数成分からなる音声信号を混合し所定のチャンネル数を有する出力音声信号として出力する機能と、

をコンピュータに実現させることを特徴とするコンピュータプログラム。