WO2008065730A1 - Dispositif et méthode de traitement audio - Google Patents

Dispositif et méthode de traitement audio Download PDF

Info

Publication number
WO2008065730A1
WO2008065730A1 PCT/JP2007/000698 JP2007000698W WO2008065730A1 WO 2008065730 A1 WO2008065730 A1 WO 2008065730A1 JP 2007000698 W JP2007000698 W JP 2007000698W WO 2008065730 A1 WO2008065730 A1 WO 2008065730A1
Authority
WO
WIPO (PCT)
Prior art keywords
frequency band
audio signal
input
filter
input audio
Prior art date
Application number
PCT/JP2007/000698
Other languages
English (en)
French (fr)
Inventor
Kosei Yamashita
Shinichi Honda
Original Assignee
Sony Computer Entertainment Inc.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Computer Entertainment Inc. filed Critical Sony Computer Entertainment Inc.
Priority to CN2007800016366A priority Critical patent/CN101361123B/zh
Priority to US12/093,047 priority patent/US8204614B2/en
Priority to EP07790220.3A priority patent/EP2088589B8/en
Publication of WO2008065730A1 publication Critical patent/WO2008065730A1/ja

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/01Input selection or mixing for amplifiers or loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/03Synergistic effects of band splitting and sub-band processing

Description

明 細 書
音声処理装置および音声処理方法
技術分野
[0001 ] 本発明は音声信号を処理する技術に関し、 特に複数の音声信号を混合して 出力する音声処理装置、 およびそれに適用される音声処理方法に関する。 背景技術
[0002] 近年の情報処理技術の発展により、 記録媒体ゃネットワーク、 放送波など を介して膨大な数のコンテンツを容易に入手できるようになった。 例えば音 楽のコンテンツは、 それを記録した C D (Compact D i sk) などの記録媒体を 購入する他、 ネットワークを介して音楽配信サイ 卜からダウンロードするこ とが一般的に行われている。 ユーザが自分で録画、 録音したデータも含める と、 P Cや再生装置、 記録媒体に保存したコンテンツは増大化する一方とな る。 そのため、 このような膨大な数のコンテンツから所望の一のコンテンツ を容易に捜索するための技術が必要になってきた。 その技術の一つにサムネ ィル表示がある。
[0003] サムネイル表示は複数の静止画や動画を、 サイズの小さい静止画像または 動画像としてディスプレイに 1度に並べて表示する技術である。 サムネイル表 示により、 例えばカメラや録画装置で撮り貯めたりダウンロードしたりした 画像データが多数保存され、 それらのファイル名や録画日時などの属性情報 が分かりづらい場合であっても、 一見して内容が把握でき、 所望のデータを 正確に選択することが可能となった。 また複数の画像データを一覧すること で、 全てのデータをざっと鑑賞したり、 それを保存した記録媒体などの中身 を短時間で把握したりすることもできるようになった。
発明の開示
発明が解決しょうとする課題
[0004] サムネイル表示はユーザに対し視覚的に並列に、 複数のコンテンツの一部を インプットする技術である。 したがって、 視覚的に並べることのできない音 楽などの音声データについては当然、 アルバムのジャケットなど付加的な画 像データの仲介なくしてはサムネイル表示を利用することができない。 しか しながら個人が所有する音楽コンテンツなどの音声データの数は増加する一 方であり、 例えば題名や入手日時、 付加的な画像データなどの手がかりにお いて判断がつかない場合であっても所望の音声データを容易に選択したり、 ざっと鑑賞したりするニーズがあるのは画像データの場合と同様である。
[0005] 本発明はこのような課題に鑑みてなされたものであり、 その目的は、 複数 の音声データを聴覚上分離して同時に聴かせる技術を提供することにある。 課題を解決するための手段
[0006] 本発明のある態様は音声処理装置に関する。 この音声処理装置は、 ユーザ から入力された、 入力音声信号に対して要求される強調の度合いを示す指標 に応じて、 複数の入力音声信号をそれぞれ処理し強調の度合いを調整する音 声処理部と、 音声処理部により強調の度合いが調整された複数の入力音声信 号を混合し所定のチャンネル数を有する出力音声信号として出力する出力部 と、 を備え、 音声処理部は、 複数の入力音声信号のそれぞれに対して前記指 標に応じた周波数帯域を割り当て、 各入力音声信号から、 割り当てた周波数 帯域に属する周波数成分を抽出する周波数帯域分割フィルタを備えたことを 特徴とする。
[0007] 本発明の別の態様も音声処理装置に関する。 この音声処理装置は、 ユーザ から入力された、 入力音声信号に対して要求される強調の度合いを示す指標 に応じて、 複数の入力音声信号をそれぞれ処理し強調の度合いを調整する音 声処理部と、 音声処理部により強調の度合いが調整された複数の入力音声信 号を混合し所定のチャンネル数を有する出力音声信号として出力する出力部 と、 を備えた音声処理装置であって、 音声処理部は、 複数の入力音声信号の それぞれに対して指標に応じた周波数帯域を割り当て、 各入力音声信号から 、 割り当てた周波数帯域に属する周波数成分を抽出する周波数帯域分割フィ ルタと、 複数の入力音声信号のそれぞれの振幅を、 共通の周期で位相を異な らせて時間変調させる時分割フィルタと、 複数の入力音声信号の少なくとも いずれかに対し、 所定の周期で所定の音響加工処理を施す変調フィルタと、 複数の入力音声信号の少なくともいずれかに対し、 定常的に所定の音響加工 処理を施す加工フィルタと、 複数の入力音声信号のそれぞれに対して異なる 定位を与える定位設定フィルタと、 の少なくともいずれかを備え、 音声処理 装置はさらに、 前記周波数帯域分割フィルタ、 前記時分割フィルタ、 前記変 調フィルタ、 前記加工フィルタ、 および前記定位設定フィルタのうち前記音 声処理部に備えられたフィルタから選択するフィルタのいずれかの組み合わ せを、 指標に対応づけて記憶する記憶部をさらに備え、 出力部は指標に応じ て、 記憶部に記憶されたフィルタの組み合わせに基づき選択されたフィルタ によってフィルタ処理が施された複数の入力音声信号を混合することを特徴 とする。
[0008] 本発明のさらに別の態様は音声処理方法に関する。 この音声処理方法は、 ユーザから入力された、 入力音声信号に対して要求される強調の度合いが高 いほど広い帯域幅となるように、 複数の入力音声信号のそれぞれに周波数帯 域を割り当てるステップと、 各入力音声信号から、 割り当てた周波数帯域に 属する周波数成分を抽出するステップと、 各入力音声信号から抽出された周 波数成分からなる複数の音声信号を混合し所定のチャンネル数を有する出力 音声信号として出力するステップと、 を含むことを特徴とする。
[0009] なお、 以上の構成要素の任意の組合せ、 本発明の表現を方法、 装置、 シス テム、 コンピュータプログラムなどの間で変換したものもまた、 本発明の態 様として有効である。
発明の効果
[0010] 本発明によれば、 複数の音声データを聴覚上区別して同時に聴くことがで さる。
図面の簡単な説明
[001 1 ] [図 1 ]本実施の形態における音声処理装置を含む音声処理システムの全体構造 を示す図である。
[図 2]本実施の形態における音声信号の周波数帯域分割について説明するため の図である。
[図 3]本実施の形態こおける音声信号の時分割について説明するための図であ る。
[図 4]本実施の形態こおける音声処理部の構成を詳細に示す図である。
[図 5]本実施の形態こおいて音声処理装置の入力部に表示される画面の例を示 す図である。
[図 6]本実施の形態こおいてブロックの割り当て方のパターンを模式的に示す 図である。
[図 7]本実施の形態こおいて記憶部に記憶される音楽データの情報の一例を示 す図である。
[図 8]本実施の形態 おいて記憶部に記憶させる、 フォーカス値と各フィルタ の設定とを対応付けたテーブルの例を示す図である。
[図 9]本実施の形態における音声処理装置の動作を示すフローチヤ一トである 符号の説明
[0012] 1 0…音声処理システム、 1 2…記憶装置、 1 4…再生装置、 1 6 …音声処理装置、 1 8…入力部、 2 0…制御部、 2 2…記憶部、 2 4…音声処理部、 2 6…ダウンミキサー、 3 0…出力装置、 4 0…前 処理部、 4 2…周波数帯域分割フィルタ、 4 4…時分割フィルタ、 4 6…変調フィルタ、 4 8…加工フィルタ、 5 0…定位設定フィルタ。 発明を実施するための最良の形態
[0013] 図 1は本実施の形態における音声処理装置を含む音声処理システムの全体 構造を示している。 本実施の形態における音声処理システムは、 ユーザがハ 一ドディスクなどの記憶装置や記録媒体に保存した複数の音声データを同時 に再生し、 得られた複数の音声信号にフィルタ処理を施した後、 混合して所 望のチャンネル数を有する出力音声信号とし、 ステレオやイヤホンなどの出 力装置から出力する。
[0014] 複数の音声信号を単に混合して出力するだけでは、 それらが互いに打ち消 しあつたりひとつの音声信号のみが際立って聴こえたりして、 画像データの サムネィル表示のようにそれぞれを独立に認識することが難しい。 そこで本 実施の形態における音声処理装置は、 人間が音声を認識するためのメカニズ ムのうち聴覚抹消系すなわち内耳のレベルでそれぞれの音声信号を相対的に 分離し、 聴覚中枢系すなわち脳のレベルで独立に認識するための手がかりを 与えることにより、 複数の音声信号の聴覚上の分離を行う。 この処理が上述 のフィルタ処理である。
[0015] さらに本実施の形態の音声処理装置は、 画像データのサムネイル表示にお いてユーザが 1つのサムネイル画像に注目するが如く、 ユーザが注意を向け る対象となった音声データの信号を、 混合された出力音声信号の中でも強調 されるようにする。 またはユーザが画像データのサムネイル表示において視 点をずらしていくように、 複数の音声信号のそれぞれの強調の度合いを多段 階的にまたは連続的に変化させて出力する。 ここで 「強調の度合い」 とは、 複数の音声信号の "聴こえ易さ" 、 すなわち聴覚上の認識しやすさを意味す る。 例えば強調の度合いが他より大きいとき、 その音声信号は他の音声信号 より鮮明に、 大きく、 あるいは近くに聞こえる音かもしれない。 強調の度合 いはそのような人間の感じ方を総合的に考慮した主観的なパラメータである
[0016] 強調の度合いを変化させる場合に、 単に音量調節をするだけでは、 強調し たい音声データの信号が別の音声信号にかき消されて結局よく聞き取れず、 強調の効果が十分得られなかつたり、 強調しない音声データの音が聴こえな <なってしまい同時に再生する意味がなくなってしまう可能性は十分残され る。 これは人間の聴覚上の聴こえ易さが音量の他、 周波数特性などと密接に 関わっているためである。 そのため、 ユーザが要求する強調の度合いの変化 をユーザ自身が十分認識できるように、 上述のフィルタ処理の内容を調整す る。 以上述べたフィルタ処理の原理、 および具体的な処理内容は後に詳述す る。
[0017] 以下の説明において音声データは音楽データとするが、 それに限る趣旨で はなく、 落語や会議などにおける人声、 環境音、 放送波に含まれる音声など 、 音声信号のデータであればよく、 それらが混合していてもよい。
[0018] 音声処理システム 1 0は、 複数の音楽データを記憶する記憶装置 1 2、 複 数の音楽データをそれぞれ再生して生成した複数の音声信号が分離して聴こ えるように処理を施し、 ユーザが要求する強調の度合いを反映させた上で混 合する音声処理装置 1 6、 混合された音声信号を音響として出力する出力装 置 3 0を含む。
[0019] 音声処理システム 1 0はパーソナルコンピュータや、 ポータブルプレーヤ などの音楽再生機器など、 一体的またはローカルな接続によって構成してよ しゝ。 この場合、 記憶装置 1 2はハードディスクやフラッシュメモリ、 音声処 理装置 1 6はプロセッサユニット、 出力装置 3 0は内蔵スピーカや外部に接 続したスピーカ、 イヤホンなどを用いることができる。 あるいは記憶装置 1 2を、 音声処理装置 1 6とネットワークを介して接続されるサーバ内のハー ドディスクなどで構成してもよい。 また記憶装置 1 2が記憶する音楽データ は、 M P 3など一般的な符号化形式によって符号化されていてもよい。
[0020] 音声処理装置 1 6は、 再生する音楽データの選択や強調に係るユーザの指 示を入力する入力部 1 8、 ユーザが選択した複数の音楽データをそれぞれ再 生して複数の音声信号とする複数の再生装置 1 4、 音声信号の区別や強調を ユーザに認識させるために複数の音声信号のそれぞれに対し所定のフィルタ 処理を施す音声処理部 2 4、 フィルタ処理が施された複数の音声信号を混合 して所望のチヤンネル数を有する出力信号を生成するダウンミキサー 2 6、 再生や強調に関するユーザからの選択指示に応じて再生装置 1 4や音声処理 部 2 4の動作を制御する制御部 2 0、 制御部 2 0による制御に必要なテープ ル、 すなわちあらかじめ設定されているパラメータや、 記憶装置 1 2に記憶 されている音楽データ個々の情報を記憶する記憶部 2 2を含む。
[0021 ] 入力部 1 8は、 記憶装置 1 2に記憶されている音楽データから所望の複数 の音楽データを選択したり、 再生中の複数の音楽データのうち強調する対象 を変化させたりするための指示を入力するインターフェースを提供する。 入 力部 1 8は例えば、 選択対象の音楽データを象徴するアイコンなどの情報を 記憶部 2 2から読み出して一覧表示するとともにカーソルを表示する表示装 置と、 当該カーソルを動かし画面上のポイントを選択するポインティングデ バイスにより構成する。 その他、 キーボード、 トラックボール、 ボタン、 タ ツチパネルなど一般的な入力装置、 表示装置、 それらの組み合わせのいずれ でもよい。
[0022] なお以後の説明では、 記憶装置 1 2に記憶される音楽データはそれぞれひ とつの曲のデータであるとし、 曲単位の指示入力、 処理を行うものとするが 、 1つの音楽データがアルバムなど複数の曲の集合であっても同様である。
[0023] 制御部 2 0は、 入力部 1 8において、 ユーザから再生する音楽データの選 択入力があった場合に、 その情報を再生装置 1 4に与えるとともに、 再生す る音楽データの音声信号ごとに適切な処理が行われるように、 必要なパラメ 一夕を記憶部 2 2から取得し、 音声処理部 2 4に対し初期設定を行う。 さら に強調する音楽データの選択入力があった場合に、 音声処理部 2 4の設定を 変更することによりその入力を反映させる。 設定内容は後に詳述する。
[0024] 再生装置 1 4は、 記憶装置 1 2に記憶された音楽データのうち、 選択され たものを適宜復号して音声信号を生成する。 図 1では同時に再生可能な音楽 データを 4つとして、 4つの再生装置 1 4を示しているが、 その数はこれに 限らない。 また、 マルチプロセッサなどによって並列に再生処理が可能な場 合は、 再生装置 1 4は外観上 1つであるが、 ここでは各音楽データを再生し 、 それぞれの音声信号を生成する処理ュニットとして別々に示している。
[0025] 音声処理部 2 4は選択された音楽データに対応する音声信号のそれぞれに 上述のようなフィルタ処理を施すことにより、 ユーザが要求する強調の度合 いを反映させた、 聴覚上分離して認識できる複数の音声信号を生成する。 詳 細は後に述べる。
[0026] ダウンミキサー 2 6は入力された複数の音声信号を、 必要に応じて各種の 調整を行ったうえで混合し、 モノラル、 ステレオ、 5 . 1チャンネルなど所 定のチャンネル数を有する出力信号として出力する。 チャンネル数は固定で もよいし、 ユーザによりハードウェア的、 ソフトウェア的に切り替え設定が 可能な構成としてもよい。 ダウンミキサー 2 6は一般的なダウンミキサーで 構成してもよい。
[0027] 記憶部 2 2はメモリ、 ハードディスクなどの記憶素子、 記憶装置でよく、 記憶装置 1 2に記憶された音楽データの情報、 強調の度合いを示す指標と音 声処理部 2 4に設定されるパラメータとを対応づけたテーブルなどを記憶す る。 音楽データの情報には、 音楽データに対応した曲の曲名、 演奏者名、 ァ イコン、 ジャンルなど一般的な情報のいずれが含まれていてもよく、 さらに 音声処理部 2 4において必要となるパラメータの一部が含まれていてもよい 。 音楽データの情報は当該音楽データを記憶装置 1 2に記憶させたときに読 み出して記憶部 2 2に記憶させてもよいし、 音声処理装置 1 6を動作させる たびに記憶装置 1 2から読み出して記憶部 2 2に格納するようにしてもよい
[0028] ここで音声処理部 2 4において行われる処理の内容を明らかにするために 、 同時に聴こえる複数の音を聞き分ける原理について説明する。 人間は、 耳 における音の感知と、 脳における音の解析との 2段階によって音を認識する 。 人間が異なる音源から同時に発せられた音を聞き分けるには、 この 2段階 のいずれかまたは双方において別の音源であることを表す情報、 すなわち分 離情報を取得できればよい。 例えば右耳と左耳とで異なる音を聴くことは、 内耳レベルで分離情報を得たことになり、 脳において別の音として解析され 認識できる。 最初から混合されている音の場合は、 音脈や音色の違いなどを 、 これまでの生活で学習し記憶された分離情報と照らして解析することによ り、 脳レベルで分離することが可能である。
[0029] 複数の音楽を混合して 1組のスピーカやイヤホンなどから聴く場合は、 本 来、 内耳レベルでの分離情報が得られないため、 上述のように音脈や音色の 違いなどを頼りに脳で別の音であることを認識することになるが、 そのよう にして聞き分けることのできる音は限定的であり、 多種多様な音楽に適用す ることはほとんど不可能である。 そこで本発明者は、 最終的に混合しても分 離して認識できる音声信号を生成するために、 以下に述べるように内耳また は脳に働きかけを行う分離情報を音声信号に人工的に付加する手法に想到し た。
[0030] まず内耳レベルで分離情報を与える手法として、 周波数帯域での音声信号 の分割、 および音声信号の時分割について説明する。 図 2は、 周波数帯域分 割について説明するための図である。 図の横軸は周波数であり周波数 f 0か ら f 8までを可聴帯域とする。 同図では曲 a、 曲 bの 2曲の音声信号を混合 して聴く場合について示しているが曲の数はいくつでもよい。 周波数帯域分 割の手法では、 可聴帯域を複数のブロックに分割し、 各ブロックを複数の音 声信号の少なくともいずれかに割り当てる。 そして各音声信号から、 割り当 てられたブロックに属する周波数成分のみを抽出する。
[0031] 図 2では、 可聴帯域を f 1、 f 2、 ■ ■ ■、 f 7の周波数で 8つのブロッ クに分割している。 そして例えば斜線にて示すように、 曲 aに対し周波数 f 1 ~ f 2、 f 3~ f 4、 f 5~ f 6、 f 7 ~ f 8の 4つのブロックを、 曲 b に対し周波数 f O~ f 1、 f 2~ f 3、 f 4~ f 5、 f 6~ f 7の 4つのブ ロックを割り当てる。 ここでブロックの境界となる周波数 f 1、 f 2、 ■ ■ ■、 f 7を、 例えば B a r kの 24臨界帯域の境界周波数のいずれかとする ことにより、 周波数帯域分割の効果をより発揮することができる。
[0032] 臨界帯域とは、 ある周波数帯域を有する音が、 それ以上帯域幅を広げても 他の音に対するマスキング量が増加しなくなる周波数帯域のことである。 こ こでマスキングとはある音に対する最小可聴値が他の音の存在によって上昇 する現象、 すなわち聴きづらくなる現象であり、 マスキング量はその最小可 聴値の上昇量である。 すなわち、 異なる臨界帯域にある音どうしは互いにマ スキングされにくい。 実験によって判明した B a r kの 24個の臨界帯域を 利用して周波数帯域を分割することにより、 例えば周波数 f 1〜 f 2のプロ ックに属する曲 aの周波数成分が、 周波数 f 2〜 f 3のブロックに属する曲 bの周波数成分をマスキングするなどの影響を抑えることができる。 他のブ ロックについても同様であり、 結果として、 曲 aと曲 bは互いに打ち消しあ うことの少ない音声信号となる。
[0033] なお、 ブロックへの分割は臨界帯域によらなくてもよい。 いずれの場合で も、 重複する周波数帯域を少なくすることにより、 内耳の周波数分解能を利 用して分離情報を与えることができる。
[0034] 図 2に示した例では、 各ブロックが同程度の帯域幅を有しているが、 実際 には帯域幅を周波数帯によって変化させてもよい。 例えば臨界帯域 2つ分を 1つのブロックとする帯域と 4つ分を 1つのブロックとする帯域があっても よい。 ブロックへの分割の仕方 (以後、 分割パターンと呼ぶ) は、 例えば低 域の周波数を有する音はマスキングされにくい、 などの一般的な音の特性を 考慮して決定してもよいし、 曲ごとの特徴的な周波数帯域を考慮して決定し てもよい。 ここで特徴的な周波数帯域とは、 例えば主旋律が占める周波数帯 域など曲の表現上、 重要となる周波数帯域である。 特徴的な周波数帯域が重 なると予想される場合は、 その帯域を細かく分割して均等に割り当て、 どち らかの曲において主旋律が聞こえないなどの不具合が発生しないようにする ことが望ましい。
[0035] また図 2に示した例では、 一連のブロックを交互に曲 a、 曲 bに割り当て たが、 連続した 2つのブロックを曲 aに割り当てるなど、 割り当て方はこれ に限らない。 この場合も、 例えばある曲の特徴的な周波数帯域が連続したブ ロック 2つ分に渡るときは当該 2つのブロックをその曲に割り当てるなど、 周波数帯域分割を行ったことによる悪影響の発生が曲の重要な部分では最低 限抑制されるように割り当て方を決定することが望ましい。
[0036] —方で、 明らかに高域、 中域、 低域に偏った 3曲を混合したい場合など特 殊な場合を除き、 ブロック数は混合する曲の数より多くし、 ひとつの曲に不 連続な複数のブロックを割り当てるようにすることが望ましい。 これも上述 と同様の理由で、 特徴的な周波数帯域が重なった場合でも、 ある曲の特徴的 な周波数帯域の全てが別の曲に割り当てられてしまうことを防止し、 より幅 広い帯域でおよそ均等に割り当てを行うようにして、 平均的に全ての曲が聞 こえるようにするためである。 [0037] 図 3は音声信号の時分割について説明するための図である。 同図において 横軸は時間、 縦軸は音声信号の振幅、 すなわち音量を示している。 この場合 も曲 a、 曲 bの 2曲の音声信号を混合して聴く場合を一例として示している 。 時分割の手法では、 共通の周期で音声信号の振幅を変調させる。 そしてそ のピークが曲によって異なるタイミングで表れるように位相をずらす。 内耳 レベルへの働きかけのため、 このときの周期は数十ミリ秒から数百ミリ秒程 度でよい。
[0038] 図 3では共通の周期 Tで曲 a、 曲 bの振幅を変調させている。 そして曲 a の振幅がピークとなる時刻 t 0、 t 2、 t 4、 t 6において曲 bの振幅を小 さくし、 曲 bの振幅がピークとなる時刻 t 1、 t 3、 t 5において曲 aの振 幅を小さくする。 実際には、 同図に示すように振幅が最大となる時刻、 最小 となる時刻がある程度の時間的幅を有するように振幅の変調を行ってもよい 。 この場合、 曲 aの振幅が最小となる時間を曲 bの振幅が最大となる時間と 合わせるようにすることができる。 3曲以上を混合する場合でも、 曲 aの振 幅が最小となる時間に、 曲 bの振幅が最大の時間、 曲 cの振幅が最大の時間 を設けることができる。
[0039] —方、 ピークとなる時刻に時間的幅を持たない正弦波状の変調を行っても よい。 この場合は単に位相をずらして、 ピークとなるタイミングを異ならせ る。 いずれの場合によっても、 内耳の時間的分解能を利用して分離情報を与 えることができる。
[0040] 次に脳レベルで分離情報を与える手法について説明する。 fl¾レベルで与え る分離情報は、 脳において音を分析する際に、 各音の音脈を認識する手がか りを与える。 本実施の形態では、 音声信号に周期的に特定の変化を与える手 法、 音声信号に定常的に加工処理を施す手法、 定位を変化させる手法を導入 する。 音声信号に周期的に特定の変化を与える手法では、 混合する全てまた は一部の音声信号の振幅を変調させたり、 周波数特性を変調させたりする。 変調は短期間にパルス状に発生させてもよいし、 数秒の長時間に渡って緩や かに変化するようにしてもよい。 複数の音声信号に共通の変調を行う場合は 、 そのピークのタイミングを音声信号ごとに異ならせる。
[0041 ] あるいは、 周期的にクリック音などのノイズを付加したり一般的なオーデ ィォフィルタによって実現できる加工処理を施したり定位を左右に振ったり してもよい。 これらの変調を組み合わせたり、 音声信号によって別の変調を 適用したり、 タイミングをずらしたりすることにより、 音声信号の音脈を気 づかせる手がかりを与えることができる。
[0042] 音声信号に定常的に加工処理を施す手法では、 混合する全てまたは一部の 音声信号に、 一般的なエフヱクタ一で実現できる、 エコー、 リバーブ、 ピッ チシフトなどの様々な音響加工の 1つまたは組み合わせを施す。 定常的に周 波数特性を元の音声信号と異ならせてもよい。 例えば同じ楽器による同じ亍 ンポの曲であっても一方にエコー処理が施されることにより、 別の曲として 認識しやすくなる。 複数の音声信号に加工処理を施す場合は当然、 加工内容 や加工の強度を音声信号によって異ならせる。
[0043] 定位を変化させる手法では、 混合する全ての音声信号のそれぞれに異なる 定位を与える。 これにより内耳との協働により脳において音響の空間的な情 報解析を行うことで、 音声信号を分離しやすくなる。
[0044] 以上述べた原理を用い、 本実施の形態の音声処理装置 1 6における音声処 理部 2 4は、 混合したときに聴感上分離して認識できるように音声信号のそ れぞれに対し処理を施す。 図 4は音声処理部 2 4の構成を詳細に示している 。 音声処理部 2 4は、 前処理部 4 0、 周波数帯域分割フィルタ 4 2、 時分割 フィルタ 4 4、 変調フィルタ 4 6、 加工フィルタ 4 8、 定位設定フィルタ 5 0を含む。 前処理部 4 0は、 一般的なオートゲインコントローラなどでよく 、 再生装置 1 4から入力した複数の音声信号の音量がおよそ揃うようにゲイ ン調整を行う。
[0045] 周波数帯域分割フィルタ 4 2は、 上述したように、 可聴帯域を分割してな るブロックを各音声信号に割り当て、 それぞれの音声信号から割り当てられ たブロックに属する周波数成分を抽出する。 例えば周波数帯域分割フィルタ 4 2を、 音声信号のチャンネルごと、 ブロックごとに設けたバンドパスフィ ルタ (図示せず) として構成することにより、 周波数成分の抽出が可能とな る。 分割パターンや音声信号へのブロックの割り当て方 (以後、 割り当てパ ターンと呼ぶ) は、 制御部 2 0が各バンドパスフィルタなどを制御して周波 数帯域の設定や有効なバンドバスフィルタの設定を行うことにより変更する ことができる。 割り当てパターンに関しては、 具体例を後に述べる。
[0046] 時分割フィルタ 4 4は上述した音声信号の時分割の手法を実施し、 各音声 信号の振幅を、 数十ミリ秒から数百ミリ秒程度の周期で位相を異ならせて時 間変調させる。 時分割フィルタ 4 4は、 例えばゲインコントローラを時間軸 で制御することによって実現できる。 変調フィルタ 4 6は上述した、 音声信 号に周期的に特定の変化を与える手法を実施し、 例えばゲインコントローラ 、 イコライザ、 オーディオフィルタなどを時間軸で制御することによって実 現できる。 加工フィルタ 4 8は上述した、 音声信号に定常的に特殊効果 (以 下、 加工処理と呼ぶ) を施す手法を実施し、 例えばエフェクターなどで実現 できる。 定位設定フィルタ 5 0は上述した、 定位を変化させる手法を実施し 、 例えばパンポットなどで実現できる。
[0047] 本実施の形態では上述のとおり、 混合した複数の音声信号を聴覚上分離し て認識させたうえで、 ある音声信号を強調して聴かせることを実現する。 そ のため周波数帯域分割フィルタ 4 2やその他のフィルタ内部で、 ユーザが要 求する強調の度合いに応じて処理を変更する。 さらに音声信号を通過させる フィルタも強調の度合いに応じて選択する。 後者の場合、 各フィルタにおけ る音声信号の出力端子にデマルチプレクサを接続するなどする。 このとき、 制御部 2 0からの制御信号によって次のフィルタへの入力の可否を設定する ことにより、 次のフィルタの選択、 非選択を変更できる。
[0048] 次に強調の度合いを変化させる具体的な手法について説明する。 まず、 ュ 一ザが強調したい音楽データを選択する模様について一例を説明する。 図 5 は、 4つの音楽データが選択されそれらの音声信号が混合されて出力されて いる状態において、 音声処理装置 1 6の入力部 1 8に表示される画面の例を 示している。 入力画面 9 0は、 題名力《 「曲 a」 、 「曲 b」 、 「曲 c」 、 「曲 d」 なる再生中の音楽データのアイコン 9 2 a、 9 2 b、 9 2 c、 9 2 dと 、 再生を停止するための 「停止」 ポタン 9 4、 およびカーソル 9 6を含む。
[0049] 音声処理装置 1 6は、 再生中の状態でユーザがカーソル 9 6を入力画面 9 0上で移動させると、 そのカーソルの指し示すアイコンが表す音楽データを 強調させたい対象と判断する。 図 5においてはカーソル 9 6は 「曲 b」 のァ イコン 9 2 bを示しているため、 「曲 b」 のアイコン 9 2 bに対応する音楽 データを強調対象とし、 その音声信号を音声処理部 2 4にて強調するように 制御部 2 0が動作する。 このとき、 他の 3つの音楽データは非強調対象とし て、 音声処理部 2 4にて同一のフィルタ処理を行うようにしてもよい。 これ によりユーザには、 4つの曲が同時かつ分離して聞こえるとともに、 「曲 」 のみが特によく聴こえる状態となる。
[0050] —方で、 カーソル 9 6からアイコンまでの距離に従い、 強調対象の音楽デ 一夕以外の音楽データの強調の度合いを変化させてもよい。 図 5の例では、 カーソル 9 6が示す 「曲 b」 のアイコン 9 2 bに対応する音楽データの強調 の度合いを最も高くし、 カーソル 9 6が示すポイントから同程度の近距離に ある 「曲 a」 のアイコン 9 2 aおよび 「曲 c」 のアイコン 9 2 cに対応する 音楽データの強調の度合いを中程度とする。 そしてカーソル 9 6が示すボイ ントから最も離れた 「曲 d」 のアイコン 9 2 dに対応する音楽データの強調 の度合いを最も低くする。
[0051 ] この態様においては、 たとえカーソル 9 6がいずれかのアイコンを指し示 していなくても、 指し示しているポイントからの距離で強調の度合いを決定 できる。 例えば強調の度合いをカーソル 9 6からの距離に応じて連続的に変 化させるとすると、 サムネイル表示において視点を徐々にずらしていくのと 同様に、 カーソル 9 6の動きに合わせて曲が近づいたり遠のいたりするよう に聴かせることができる。 カーソル 9 6を導入せず、 ユーザからの左右の指 示入力によってアイコン自体を画面上で移動させ、 画面の真ん中に近いアイ コンほど強調の度合いを高くするなどしてもよい。
[0052] 制御部 2 0は、 入力部 1 8におけるカーソル 9 6の動きに係る情報を取得 し、 それが指し示すポイントからの距離などに応じて、 各アイコンに対応す る音楽データに対し、 強調の度合いを示す指標を設定する。 この指標を以後 、 フォーカス値と呼ぶ。 なおここで説明するフォーカス値は一例であり、 強 調の度合いを決定できる指標であればいかなる数値、 図形などでもよい。 例 えばカーソルの位置に関わらず、 それぞれのフォーカス値を独立に設定でき るようにしてもよいし、 全体を 1 として割合で決定するようにしてもよい。
[0053] 次に周波数帯域分割フィルタ 4 2において強調の度合いを変化させる手法 について説明する。 図 2では複数の音声信号を分離して認識させる手法を説 明するため、 「曲 a」 と 「曲 b」 とでほぼ均等に周波数帯域のブロックの割 り当てを行った。 一方、 ある音声信号を強調して聞かせ、 ある音声信号を目 立たなくさせるためには、 ブロックを割り当てる数に大小をつける。 図 6は ブロックの割り当てパターンを模式的に示している。
[0054] 同図は、 可聴帯域を 7個のブロックに分割した場合について示している。
図 2と同様、 横軸に周波数をとり、 説明の便宜上、 低域側のブロックからブ ロック 1、 ブロック 2、 ■ ■ ■、 ブロック 7とする。 まず 「パターン群 A」 と記載された上から 3つの割り当てパターンに着目する。 各割り当てパター ンの左に記載された数値はフォーカス値であり、 例として 「1 . 0」 、 「0 . 5」 、 「0 . 1」 の場合を示している。 この場合のフォーカス値は大きい ほど強調の度合いが高いとし、 最大値を 1 . 0、 最小値を 0 . 1 とする。 あ る音声信号の強調の度合いを最高とする場合、 すなわち他の音声信号と比較 し最も聞き取り易くする場合、 フォーカス値が 1 . 0の割り当てパターンを 当該音声信号に適用する。 同図の 「パターン群 A」 では、 ブロック 2、 プロ ック 3、 ブロック 5、 およびブロック 6の 4つのブロックが同音声信号に割 り当てられる。
[0055] ここで同じ音声信号の強調の度合いを少し低下させる場合、 割り当てバタ ーンを例えばフォーカス値が 0 . 5の割り当てパターンに変更する。 同図の 「パターン群 A」 では、 ブロック 1、 ブロック 2、 ブロック 3の 3つのブロ ックが割り当てられる。 同様に同じ音声信号の強調の度合いを最低としたい 場合、 すなわち聞き取れる範囲で最も目立たなくする場合は、 割り当てバタ ーンを、 フォーカス値が 0 . 1の割り当てパターンに変更する。 同図の 「パ ターン群 A」 では、 ブロック 1の 1つのブロックが割り当てられる。 このよ うに、 求められる強調の度合いによってフォーカス値を変化させ、 フォー力 ス値が大きい場合は多数のブロックを、 小さい場合は少数のブロックを割り 当てる。 これにより内耳レベルで強調の度合いについての情報を与えること ができ、 強調、 非強調を認識させることができる。
[0056] 同図に示すとおり、 強調の度合いが最高である、 フォーカス値が 1 . 0の 音声信号に対しても、 全てのプロックを割り当ててしまわないようにするこ とが望ましい。 同図ではブロック 1、 ブロック 4、 およびブロック 7が割り 当てられていない。 これは、 例えばブロック 1をフォーカス 1 . 0の音声信 号にも割り当ててしまうと、 ブロック 1のみを割り当てられたフォーカス値 0 . 1の別の音声信号の周波数成分をマスキングしてしまう可能性があるた めである。 本実施の形態では、 複数の音声信号を分離して聴かせつつ、 強調 の度合いに高低をつけるため、 強調の度合いが低くても聞き取りが可能とな ることが望ましい。 そのため、 強調の度合いが最低の、 または低い音声信号 に割り当てられたブロックは、 強調の度合いが最高の、 または高い音声信号 には割り当てないようにする。
[0057] 同図では、 フォーカス値が 0 . 1、 0 . 5、 1 . 0の 3段階の割り当てパ タ一ンのみを示したが、 割り当てバターンを多数のフオーカス値であらかじ め設定する場合は、 フォーカス値にしきい値を設け、 それ以下のフォーカス 値を有する音声信号を、 非強調対象としてもよい。 そして非強調対象の音声 信号に対して割り当てるブロックを、 当該しきい値より大きなフォーカス値 を有する強調対象の音声信号には割り当てないように割り当てパターンを設 定してもよい。 強調対象、 非強調対象の区別は 2つのしきい値によって行つ てもよい。
[0058] 以上の説明は 「パターン群 A」 に着目して行ったが、 「パターン群 B」 、
「パターン群 C」 についても同様である。 ここで割り当てパターン群が 「パ ターン群 A」 、 「パターン群 B」 、 「パターン群 C」 と 3種類存在するのは 、 フォーカス値 0 . 5や 0 . 1などの音声信号において割り当てるブロック ができるだけ重複しないようにするためである。 例えば 3つの音楽データを 再生する場合には、 対応する 3つの音声信号にそれぞれ 「パターン群 A」 、 「パターン群 B」 、 「パターン群 C」 を適用する。
[0059] このとき全ての音声信号がフォーカス値 0 . 1であったとしても、 「バタ ーン群 A」 、 「パターン群 B」 、 「パターン群 C」 で異なるブロックが割り 当てられ、 分離して聞き取りやすくなる。 なおいずれのパターン群において も、 フォーカス値 0 . 1で割り当てられるブロックは、 フォーカス値 1 . 0 では割り当てられないブロックである。 この理由は既に述べたとおりである
[0060] フォーカス値 0 . 5の場合は 「パターン群 A」 、 「パターン群 B」 、 「パ ターン群 C」 で重複するブロックが存在するが、 2つのパターン群の組み合 わせでは重複するブロックは最大でも 1つである。 このように、 混合する音 声信号に強調の度合いを設定する場合は、 音声信号同士で割り当てるブロッ クに重複を許してよいが、 重複するブロックの個数を最小限に抑えることや 、 強調の度合いが低い音声信号へ割り当てるブロックの、 他の音声信号への 割り当てを制限するなどの工夫により、 分離と強調を同時に達成することが できる。 また重複するブロックがあっても、 周波数帯域分割フィルタ 4 2以 外のフィルタにおいて分離のレベルを補うように処理を調整してもよい。
[0061 ] 図 6に示したブロックの割り当てパターンは、 フォーカス値と対応づけて 記憶部 2 2に記憶させておく。 そして制御部 2 0は入力部 1 8におけるカー ソル 9 6の動きなどに応じて各音声信号のフォーカス値を決定し、 その音声 信号にあらかじめ割り当てられたパターン群のうち、 そのフォーカス値に対 応ずる割り当てパターンを記憶部 2 2から読み出すことにより割り当てるブ ロックを取得する。 そのブロックに対応させて有効となるバンドパスフィル タの設定などを周波数帯域分割フィルタ 4 2に対して行う。
[0062] ここで記憶部 2 2に記憶させておく割り当てパターンは、 フォーカス値 0 . 1、 0 . 5、 1 . 0以外のフォーカス値を含んでよい。 しかしながらプロ ックの個数は有限であるため、 あらかじめ準備できる割り当てパターンは限 られる。 そのため記憶部 2 2に記憶されていないフォーカス値の場合は、 そ の前後のフォーカス値で、 記憶部 2 2に記憶されている直近のフォーカス値 の割り当てパターンを補間することによって割り当てパターンを決定する。 補間の方法としては、 ブロックをさらに分割して割り当てる周波数帯域を調 整したり、 あるブロックに属する周波数成分の振幅を調整したりする。 後者 の場合、 周波数帯域分割フィルタ 4 2にはゲインコントローラを含める。
[0063] 例えばフォーカス値 0 . 5において、 ある 3つのブロックを割り当て、 フ オーカス値 0 . 3でそのうち 2つのブロックを割り当てる場合、 フォーカス 値 0 . 4ではフォーカス値 0 . 3で与えられない残りの 1つのブロックの周 波数帯域を 2分割したうちの一方を割り当てるか、 当該 1つのブロックを割 り当ててしまい、 その周波数成分のみ振幅を 2分の 1にする。 この例では線 形補間を行っているが、 強調の度合いを示すフォーカス値が人間の聴覚によ る感覚的、 主観的な値であることを考慮した場合、 必ずしも線形補間である 必要はなく、 実際の聴こえ方を実験するなどしてあらかじめテーブルまたは 数式などによって補間のルールを設定してよい。 制御部 2 0はその設定に従 い補間を行い、 周波数帯域分割フィルタ 4 2に対して設定を行う。 これによ り、 フォーカス値をほぼ連続的に設定することができ、 強調の度合いをカー ソル 9 6の動きに合わせて見かけ上連続的に変化させることができる。
[0064] 記憶部 2 2に記憶させる割り当てパターンは、 分割パターンが異なる数種 類のシリーズを含んでいてもよい。 この場合、 最初に音楽データが選択され た時点で、 どの分割パターンを適用するかを決定しておく。 決定に際しては 、 後述するように各音楽データの情報を手がかりにできる。 分割パターンは 、 制御部 2 0がバンドバスフィルタの上限および下限の周波数の設定を行う ことなどによって周波数帯域分割フィルタ 4 2に反映される。
[0065] 各音声信号にどの割り当てパターン群を割り当てるかは、 対応する音楽デ 一夕の情報に基づいて決定してよい。 図 7は記憶部 2 2に記憶される音楽デ 一夕の情報の一例を示している。 音楽データ情報テーブル 1 1 0は、 題名欄 1 1 2、 およびパターン群欄 1 1 4を含む。 題名欄 1 1 2には各音楽データ に対応する曲の題名が記載される。 同欄は音楽データの I Dなど音楽データ を識別するものであれば他の属性を記載する欄としてもよい。
[0066] パターン群欄 1 1 4には、 各音楽データについて推奨される割り当てバタ ーン群の名前または I Dが記載される。 ここで推奨されるパターン群を選択 する根拠として、 当該音楽データの特徴的な周波数帯域を利用してもよい。 例えば、 音声信号がフォーカス値 0 . 1 となったときに、 特徴的な周波数帯 域が割り当てられるようなパターン群を推奨する。 これにより、 非強調の状 態にあっても音声信号の最も重要な成分が、 同じフォー力ス値の別の音声信 号や高いフォーカス値の音声信号にマスキングされづらくなり、 より聞き取 りやすくなる。
[0067] この態様は、 例えばパターン群とその I Dを標準化し、 音楽データを提供 するベンダーなどが、 推奨されるパターン群を音楽データの情報として音楽 データに付加することなどによって実現できる。 一方、 音楽データに付加す る情報を、 パターン群の名前や I Dに代わり、 特徴的な周波数帯域とするこ ともできる。 この場合、 制御部 2 0はあらかじめ、 それぞれの音楽データの 特徴的な周波数帯域を記憶装置 1 2より読み出し、 その周波数帯に最も適し たパターン群をそれぞれ選択して音楽データ情報テーブル 1 1 0を生成し、 記憶部 2 2に保存してもよい。 あるいは音楽のジャンルや楽器の種類などに 基づき特徴的な周波数帯域を判断し、 それによりパターン群を選択するよう にしてもよい。
[0068] 音楽データに付加する情報が特徴的な周波数帯域であった場合は、 その情 報そのものを記憶部 2 2に記憶させておいてもよい。 この場合、 再生する複 数の音楽データの特徴的な周波数帯域を総合的に判断して、 まず最適な分割 パターンを選択し、 次いで割り当てパターンを選択することができる。 さら には特徴的な周波数帯域に基づき処理の最初に新たな分割パターンを生成し てもよい。 ジャンルなどで判断する場合も同様である。 [0069] 次に周波数帯域分割フィルタ 4 2以外のフィルタにおいて、 強調の度合い を変化させる場合について説明する。 図 8は記憶部 2 2に記憶させる、 フォ 一カス値と各フィルタの設定とを対応付けたテーブルの例を示している。 フ ィルタ情報テーブル 1 2 0は、 フォーカス値欄 1 2 2、 時分割欄 1 2 4、 変 調欄 1 2 6、 加工欄 1 2 8、 および定位設定欄 1 3 0を含む。 フォーカス値 欄 1 2 2にはフォーカス値の範囲が記載される。 時分割欄 1 2 4、 変調欄 1 2 6、 加工欄 1 2 8には、 フォーカス値欄の各範囲において、 それぞれ時分 割フィルタ 4 4、 変調フィルタ 4 6、 加工フィルタ 4 8による処理を行う場 合は 「〇」 、 行わない場合は 「X」 が記載される。 フィルタ処理実行の可否 が識別できれば 「〇」 、 「X」 以外の記載方法でもよい。
[0070] 定位設定欄 1 3 0には、 フォーカス値欄の各範囲において、 どの定位を与 えるかが 「中央」 、 「右寄り ■左寄り」 、 「端」 などで表される。 同図に示 すように、 フォーカス値が高いときは定位を中央に置き、 フォーカス値が低 くなるにつれ定位を中央から離していくようにすると、 強調の度合いの変化 を定位によっても認識し易くなる。 定位の左右はランダムに割り振ってもよ いし、 音楽データのアイコンの画面上の位置などに基づいてもよい。 さらに 、 フォーカス値に対する定位の変化がないように定位設定欄 1 3 0の設定を 無効とし、 それぞれの音声信号に対し常にアイコンの位置に対応した定位を 与えれば、 カーソルの動きに対応して強調される音声信号の聴こえる方向も 変化するような態様とすることができる。 なおフィルタ情報テーブル 1 2 0 にはさらに、 周波数帯域分割フィルタ 4 2の選択、 非選択を含めてもよい。
[0071 ] 変調フィルタ 4 6や加工フィルタ 4 8が行うことのできる処理が複数ある 場合や、 処理の度合いを内部パラメータで調整できる場合は、 各欄に具体的 な処理の内容や内部パラメータを表すようにしてもよい。 例えば時分割フィ ルタ 4 4において音声信号のピークとなる時間を強調の度合いの範囲によつ て変化させる場合、 時分割欄 1 2 4にその時間を記載する。 フィルタ情報亍 一ブル 1 2 0は、 各フィルタの相互の影響などを考慮して、 実験などによつ てあらかじめ作成しておく。 これにより非強調音声信号にふさわしい音響効 果を選択したり、 すでに分離して聴こえる音声信号に過剰な加工を行わない ようにしたりする。 フィルタ情報テーブル 1 2 0を複数用意し、 音楽データ の情報に基づき最適なものを選択するようにしてもよい。
[0072] 制御部 2 0はフォーカス値がフォーカス値欄 1 2 2に示される範囲の境界 を越えるたびに、 フィルタ情報テーブル 1 2 0を参照して各フィルタの内部 パラメータや、 デマルチプレクサなどの設定に反映させる。 これにより、 フ オーカス値の大きい音声信号は中央からはっきり聞こえ、 フォーカス値の小 さい音声信号は端の方からくぐもったように聞こえるなど、 強調の度合いを 反映して音声信号にさらにメリハリをつけることができる。
[0073] 図 9は、 本実施の形態における音声処理装置 1 6の動作を示すフローチヤ ートである。 まずユーザは入力部 1 8に対して記憶装置 1 2に記憶された音 楽データの中から、 同時に再生したい複数の音楽データの選択入力を行う。 入力部 1 8において当該選択入力を検出したら (S 1 0の Y ) 、 制御部 2 0 による制御のもと、 それらの音楽データの再生、 各種フィルタ処理、 混合処 理を行い、 出力装置 3 0から出力する (S 1 2 ) 。 周波数帯域分割フィルタ 4 2で用いられるブロックの分割パターンの選択や割り当てパターン群の各 音声信号への割り当てもここで行われ、 周波数帯域分割フィルタ 4 2に設定 される。 その他のフィルタへの初期設定も同様である。 なおこの段階での出 力信号は、 全てのフォーカス値を同一にして強調の度合いを等しくしてよい 。 このときユーザには各音声信号が均等に、 分離して聴こえる。
[0074] 同時に入力部 1 8には入力画面 9 0を表示させ、 ユーザがカーソル 9 6を 画面上で移動させるかどうかを監視しながら、 混合した出力信号を出力し続 ける (S 1 4の N、 S 1 2 ) 。 カーソル 9 6が移動したら (S 1 4の Y ) 、 制御部 2 0はその動きに合わせて各音声信号のフォーカス値を更新し (S 1 6 ) 、 その値に対応するブロックの割り当てパターンを記憶部 2 2から読み 出して、 周波数帯域分割フィルタ 4 2の設定を更新する (S 1 8 ) 。 さらに フォーカス値の範囲に対して設定された、 処理を行うべきフィルタの選択情 報と、 各フィルタでの処理の内容や内部パラメータなどの情報を記憶部 2 2 から読み出し、 それぞれのフィルタの設定を適宜更新する (S 2 0、 S 2 2 ) 。 なお S 1 4から S 2 2までの処理は、 S 1 2の音声信号の出力と並列に 行ってよい。
[0075] これらの処理を、 カーソルが移動するたびに繰り返す (5 2 4の1\1、 S 1 2〜2 2 ) 。 これにより、 各音声信号に強調の度合いの高低がつくとともに カーソル 9 6の動きに合わせてその度合いが経時変化する態様を実現できる 。 結果としてユーザはカーソル 9 6の動きに合わせて音声信号が遠のいたり 近づいたりする感覚を得ることができる。 そして例えばユーザが、 入力画面 9 0の 「停止」 ボタン 9 4を選択した場合 ( 2 4の丫) 、 全ての処理を終 了する。
[0076] 以上述べた本実施の形態によれば、 混合した際に分離して聴くことができ るように、 それぞれの音声信号に対してフィルタ処理を施す。 具体的には各 音声信号に周波数帯域や時間を分配することにより、 内耳レベルで分離情報 を与えたり、 一部または全ての音声信号に対し周期的に変化を与える、 音響 加工処理を施す、 異なる定位を与える、 といったことを行うことにより、 脳 レベルで分離情報を与える。 これにより、 それぞれの音声信号を混合したと きに、 内耳レベル、 脳レベルの双方で分離情報を取得でき、 最終的には分離 して認識することが容易になる。 結果として、 サムネイル表示を眺めるが如 く音声そのものを同時に観測することができ、 多数の音楽コンテンツなどの 内容を確認したい場合でも時間をかけずに容易に行うことができる。
[0077] また本実施の形態では、 各音声信号の強調の度合いを変化させる。 具体的 には、 強調の度合いによって割り当てる周波数帯域を増やしたり、 フィルタ 処理の施し方に強弱をつけたり、 施すフィルタ処理を変更したりする。 これ により、 強調の度合いの高い音声信号を他の音声信号より際立たせて聴こえ るようにすることができる。 この場合も、 強調の度合いの低い音声信号を打 ち消してしまうことがないように、 低い音声信号に割り当てる周波数帯域は 使用しないなどの配慮を行う。 結果的には、 複数の音声信号のそれぞれが聴 こえつつも、 焦点を絞るように、 着目したい音声信号が際立って聴こえるよ うにできる。 この態様を、 ユーザが移動させるカーソルの動きに追随させて 経時変化させることにより、 サムネイル表示において視点をずらしていくよ うに、 カーソルからの距離に応じた聴こえ方の変化を生むことができるため 、 多くの音楽コンテンツなどから所望のコンテンツを容易かつ感覚的に選択 することができる。
[0078] 以上、 本発明を実施の形態をもとに説明した。 上記実施の形態は例示であ り、 それらの各構成要素や各処理プ口セスの組合せにいろいろな変形例が可 能なこと、 またそうした変形例も本発明の範囲にあることは当業者に理解さ れるところである。
[0079] 例えば本実施の形態では、 音声信号が分離して聴こえるようにしながら強 調の度合いも変化させたが、 目的によっては、 強調の度合いを変化させずに 全ての音声信号を均一に聴かせるのみでもよい。 強調の度合いに高低をつけ ない態様は、 例えばフォーカス値の設定を無効にしたりフォーカス値を固定 とすることにより同様の構成で実現することができる。 これによつても複数 の音声信号の分離受聴が可能となり、 多数の音楽コンテンツなどを容易に把 握することができる。
[0080] また本実施の形態では主に、 音楽コンテンツを鑑賞する場合を想定して説 明したが、 本発明はそれに限らない。 例えばテレビ受像機のオーディオ系統 に、 実施の形態で示した音声処理装置を設けてもよい。 そして、 ユーザのテ レビ受像機への指示により多チャンネルの画像表示が行われている間は、 各 チャンネルの音声も、 フィルタ処理後、 混合して出力するようにする。 これ により、 多チャンネルの画像に加え音声も同時に区別して鑑賞することがで きる。 この状態でユーザがチャンネル選択を行うと、 当該チャンネルの音声 を強調させつつ、 別のチャンネルの音声も聴こえるようにしておくことも可 能となる。 さらに単一のチャンネルの画像表示においても、 主音声と副音声 を同時に聴く際、 強調の度合いを段階的に変化させることが可能となり、 互 いに打ち消しあうことなく主として聴きたい音声を強調させることができる [0081 ] さらに図 6に示したように本実施の形態の周波数帯域分割フィルタでは、 フォーカス値 0 . 1の音声信号に対して割り当てたブロックを、 フォーカス 値 1 . 0の音声信号に対しては割り当てない、 というルールに基づいて、 各 フォーカス値の割り当てパターンを固定的とした例を主に説明した。 一方、 例えばフォーカス値 0 . 1 となる音声信号がない期間や状態においては、 フ オーカス値 0 . 1の音声信号に対してに割り当てるべきブロックを全てフォ 一カス値 1 . 0の音声信号に割り当ててもよい。
[0082] 例えば図 6の例で、 再生する音楽データが 3つのみ選択された場合は、 対 応ずる 3つの音声信号にパターン群 A、 パターン群 B、 パターン群 Cをそれ ぞれ割り当てれば、 同一パターン群のフォーカス値 1 . 0とフォーカス値 0 . 1の割り当てパターンが共存することはない。 この場合、 例えばパターン 群 Aが割り当てられた音声信号は、 フォーカス値 1 . 0のときに、 フォー力 ス値 0 . 1で割り当てる最も低域のブロックも一緒に割り当てることができ る。 このように、 各フォーカス値に対する音声信号の数などに応じて、 割り 当てパターンを動的にしてもよい。 これにより、 強調対象の音声信号に割り 当てられるブロック数を、 非強調対象の音声信号を認識できる範囲で可能な 限り多くすることができ、 強調対象の音声信号の音質を高めることができる
[0083] さらに、 最も強調したい音声信号に全周波数帯域を割り当てるようにして もよい。 これにより当該音声信号はより強調されるとともに、 その音質はさ らに向上する。 この場合も、 他の音声信号は周波数帯域分割フィルタ以外の フィルタによって分離情報を与えることにより分離して認識させることは可 能である。
産業上の利用可能性
[0084] 以上のように本発明はオーディオ再生装置、 コンピュータ、 テレビ受像機 などの電子機器に利用可能である。

Claims

請求の範囲
[1 ] ユーザから入力された、 入力音声信号に対して要求される強調の度合いを 示す指標に応じて、 複数の入力音声信号をそれぞれ処理し強調の度合いを調 整する音声処理部と、
前記音声処理部により強調の度合いが調整された複数の入力音声信号を混 合し所定のチャンネル数を有する出力音声信号として出力する出力部と、 を 備え、
前記音声処理部は、 複数の入力音声信号のそれぞれに対して前記指標に応 じた周波数帯域を割り当て、 各入力音声信号から、 割り当てた周波数帯域に 属する周波数成分を抽出する周波数帯域分割フィルタを備えたことを特徴と する音声処理装置。
[2] 前記周波数帯域分割フィルタは、 前記複数の入力音声信号の少なくともい ずれかに対し、 不連続な複数の周波数帯域を割り当て、 要求される強調の度 合いが高い入力音声信号ほど割り当てる周波数帯の帯域幅の合計を大きくす ることを特徴とする請求項 1に記載の音声処理装置。
[3] 前記複数の入力音声信号のうち、 要求される強調の度合いが最高の入力音 声信号に割り当てられた周波数帯域は、 要求される強調の度合いが最低の入 力音声信号に割り当てられた周波数帯域の少なくとも一部を含まないことを 特徴とする請求項 2に記載の音声処理装置。
[4] 前記音声処理部は、 ユーザからの入力に応じた前記指標の連続的な変化を 受け付け、 前記複数の入力音声信号のうち少なくともいずれかの前記強調の 度合いを、 前記指標の変化に応じて経時変化させることを特徴とする請求項 1に記載の音声処理装置。
[5] 前記音声処理部は、 複数の入力音声信号のそれぞれの振幅を、 共通の周期 で位相を異ならせて時間変調させる時分割フィルタをさらに備えたことを特 徴とする請求項 1に記載の音声処理装置。
[6] 前記音声処理部は、 複数の入力音声信号の少なくともいずれかに対し、 所 定の周期で所定の音響加工処理を施す変調フィルタをさらに備えたことを特 徴とする請求項 1に記載の音声処理装置。
[7] 前記音声処理部は、 複数の入力音声信号の少なくともいずれかに対し、 定 常的に所定の音響加工処理を施す加工フィルタをさらに備えたことを特徴と する請求項 1に記載の音声処理装置。
[8] 前記音声処理部は、 複数の入力音声信号のそれぞれに対して異なる定位を 与える定位設定フィルタをさらに備えたことを特徴とする請求項 1に記載の 音声処理装置。
[9] 前記定位設定フィルタは、 前記指標に応じた定位を各入力音声信号に与え ることを特徴とする請求項 8に記載の音声処理装置。
[10] 複数の前記指標と入力音声信号に割り当てる周波数帯域の割り当て方のパ ターンとを対応づけて記憶した記憶部をさらに備え、
前記周波数帯域分割フィルタは、 ユーザからの入力に応じた前記指標が前 記記憶部に記憶されていない場合、 当該指標に基づき前記記憶部に記憶され ている割り当て方のパターンを参照し、 割り当てる周波数帯域を補間するこ とにより、 前記入力に応じた指標に対応する周波数帯域の割り当てを決定す ることを特徴とする請求項 1に記載の音声処理装置。
[11 ] 複数の前記指標と入力音声信号に割り当てる周波数帯域の割り当て方のパ ターンとを対応づけて記憶した記憶部をさらに備え、
前記周波数帯域分割フィルタは、 ユーザからの入力に応じた前記指標が前 記記憶部に記憶されていない場合、 当該指標に基づき前記記憶部に記憶され ている割り当て方のパターンのいずれかを前記入力に応じた指標に対応する パターンとして決定するとともに、 割り当てた周波数帯域のうち一部の周波 数成分の振幅を前記入力に応じた指標に応じて調整することを特徴とする請 求項 1に記載の音声処理装置。
[12] 複数の前記指標と入力音声信号に割り当てる周波数帯域の割り当て方のパ ターンとを対応づけて記憶した記憶部をさらに備え、
前記記憶部は、 前記指標の変化に対して割り当て方のパターンの変化が異 なる複数のパターン群を記憶することを特徴とする請求項 1に記載の音声処 理装置。
[13] ユーザから入力された、 入力音声信号に対して要求される強調の度合いを 示す指標に応じて、 複数の入力音声信号をそれぞれ処理し強調の度合いを調 整する音声処理部と、
前記音声処理部により強調の度合いが調整された複数の入力音声信号を混 合し所定のチャンネル数を有する出力音声信号として出力する出力部と、 を 備えた音声処理装置であって、
前記音声処理部は、
複数の入力音声信号のそれぞれに対して前記指標に応じた周波数帯域を割 り当て、 各入力音声信号から、 割り当てた周波数帯域に属する周波数成分を 抽出する周波数帯域分割フィルタと、
複数の入力音声信号のそれぞれの振幅を、 共通の周期で位相を異ならせて 時間変調させる時分割フィルタと、
複数の入力音声信号の少なくともいずれかに対し、 所定の周期で所定の音 響加工処理を施す変調フィルタと、
複数の入力音声信号の少なくともいずれかに対し、 定常的に所定の音響加 ェ処理を施す加工フィルタと、
複数の入力音声信号のそれぞれに対して異なる定位を与える定位設定フィ ルタと、
の少なくともいずれかを備え、
前記音声処理装置はさらに、 前記周波数帯域分割フィルタ、 前記時分割フ ィルタ、 前記変調フィルタ、 前記加工フィルタ、 および前記定位設定フィル タのうち前記音声処理部に備えられたフィルタから選択するフィルタのいず れかの組み合わせを、 前記指標に対応づけて記憶する記憶部をさらに備え、 前記出力部は前記指標に応じて、 前記記憶部に記憶されたフィルタの組み 合わせに基づき選択されたフィルタによってフィルタ処理が施された前記複 数の入力音声信号を混合することを特徴とする音声処理装置。
[14] 前記時分割フィルタ、 前記変調フィルタ、 前記加工フィルタ、 および前記 定位設定フィルタの少なくともいずれかは、 前記指標に応じて、 フィルタ処 理に必要な内部パラメータを変化させて各入力音声信号を処理することを特 徴とする請求項 1 3に記載の音声処理装置。
[15] ユーザから入力された、 入力音声信号に対して要求される強調の度合いが 高いほど広い帯域幅となるように、 複数の入力音声信号のそれぞれに周波数 帯域を割り当てるステップと、
各入力音声信号から、 割り当てた周波数帯域に属する周波数成分を抽出す るステップと、
各入力音声信号から抽出された周波数成分からなる複数の音声信号を混合 し所定のチャンネル数を有する出力音声信号として出力するステップと、 を含む音声処理方法。
[1 6] 前記割り当てるステップは、
割り当てる帯域幅が所定の値以下である非強調入力音声信号に優先的に割 り当てる優先周波数帯域を取得するステップと、
取得した前記優先周波数帯域を対応する非強調入力音声信号に割り当てる ステップと、
割り当てる帯域幅が所定の値より大きい強調入力音声信号に対し、 割り当 て済みの前記優先周波数帯域以外の周波数帯域を割り当てるステップと、 を含むことを特徴とする請求項 1 5に記載の音声処理方法。
[17] 要求される音声信号の強調の度合いを示す指標と周波数帯域の割り当て方 のパターンとを対応づけて記憶したメモリを参照して、 複数の入力音声信号 のそれぞれに対してユーザが入力した前記指標に応じた周波数帯域を割り当 てる機能と、
各入力音声信号から、 割り当てた周波数帯域に属する周波数成分を抽出す る機能と、
各入力音声信号から抽出された周波数成分からなる音声信号を混合し所定 のチャンネル数を有する出力音声信号として出力する機能と、
をコンピュータに実現させることを特徴とするコンピュータプログラム。
PCT/JP2007/000698 2006-11-27 2007-06-26 Dispositif et méthode de traitement audio WO2008065730A1 (fr)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN2007800016366A CN101361123B (zh) 2006-11-27 2007-06-26 声音处理装置和声音处理方法
US12/093,047 US8204614B2 (en) 2006-11-27 2007-06-26 Audio processing apparatus and audio processing method
EP07790220.3A EP2088589B8 (en) 2006-11-27 2007-06-26 Audio processing device and audio processing method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2006319367A JP4766491B2 (ja) 2006-11-27 2006-11-27 音声処理装置および音声処理方法
JP2006-319367 2006-11-27

Publications (1)

Publication Number Publication Date
WO2008065730A1 true WO2008065730A1 (fr) 2008-06-05

Family

ID=39467533

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2007/000698 WO2008065730A1 (fr) 2006-11-27 2007-06-26 Dispositif et méthode de traitement audio

Country Status (5)

Country Link
US (1) US8204614B2 (ja)
EP (1) EP2088589B8 (ja)
JP (1) JP4766491B2 (ja)
CN (1) CN101361123B (ja)
WO (1) WO2008065730A1 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5149991B2 (ja) * 2009-05-29 2013-02-20 シャープ株式会社 音声再生装置、音声再生方法及びプログラム
US8903525B2 (en) 2010-09-28 2014-12-02 Sony Corporation Sound processing device, sound data selecting method and sound data selecting program
EP2463861A1 (en) * 2010-12-10 2012-06-13 Nxp B.V. Audio playback device and method
WO2012088336A2 (en) * 2010-12-22 2012-06-28 Genaudio, Inc. Audio spatialization and environment simulation
EP2571280A3 (en) 2011-09-13 2017-03-22 Sony Corporation Information processing device and computer program
JP5884348B2 (ja) * 2011-09-13 2016-03-15 ソニー株式会社 情報処理装置およびコンピュータプログラム
US9264812B2 (en) 2012-06-15 2016-02-16 Kabushiki Kaisha Toshiba Apparatus and method for localizing a sound image, and a non-transitory computer readable medium
US9338552B2 (en) 2014-05-09 2016-05-10 Trifield Ip, Llc Coinciding low and high frequency localization panning
JP2018159759A (ja) * 2017-03-22 2018-10-11 株式会社東芝 音声処理装置、音声処理方法およびプログラム
US11036462B2 (en) 2017-04-24 2021-06-15 Maxim Integrated Products, Inc. System and method for reducing power consumption in an audio system by disabling filter elements based on signal level
CN110139206B (zh) * 2019-04-28 2020-11-27 北京雷石天地电子技术有限公司 一种立体声音频的处理方法及系统
US20220174450A1 (en) * 2020-12-01 2022-06-02 Samsung Electronics Co., Ltd. Display apparatus and control method thereof

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1031500A (ja) * 1996-07-15 1998-02-03 Atr Ningen Joho Tsushin Kenkyusho:Kk 可変レート符号化方法および可変レート符号化装置
JP2000075876A (ja) * 1998-08-28 2000-03-14 Ricoh Co Ltd 文書読み上げシステム
JP2000181593A (ja) * 1998-12-18 2000-06-30 Sony Corp プログラム選択方法、音声出力装置

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6431500A (en) 1987-07-28 1989-02-01 Sumitomo 3M Ltd Method and apparatus for shielding joint between adjacent panels of assembly type shield room shielding chamber
JPH03236691A (ja) * 1990-02-14 1991-10-22 Hitachi Ltd テレビジョン受信機用音声回路
JP2002023778A (ja) * 2000-06-30 2002-01-25 Canon Inc 音声合成装置、音声合成システム、音声合成方法及び記憶媒体
FR2814891B1 (fr) * 2000-10-04 2003-04-04 Thomson Multimedia Sa Procede de reglages de niveau audio provenant de plusieurs canaux et dispositif de reglage
JP2002116045A (ja) * 2000-10-11 2002-04-19 Clarion Co Ltd 音量制御装置
KR100542129B1 (ko) * 2002-10-28 2006-01-11 한국전자통신연구원 객체기반 3차원 오디오 시스템 및 그 제어 방법
US7885420B2 (en) * 2003-02-21 2011-02-08 Qnx Software Systems Co. Wind noise suppression system
JP4271550B2 (ja) * 2003-10-27 2009-06-03 アルパイン株式会社 オーディオシステム、オーディオ装置及び音声信号出力処理方法
US7970144B1 (en) * 2003-12-17 2011-06-28 Creative Technology Ltd Extracting and modifying a panned source for enhancement and upmix of audio signals
JP4349123B2 (ja) * 2003-12-25 2009-10-21 ヤマハ株式会社 音声出力装置
JP2005341538A (ja) * 2004-04-28 2005-12-08 Yamaha Corp ミキサモジュール、ミキサ装置およびプログラム
JP2006019908A (ja) * 2004-06-30 2006-01-19 Denso Corp 車両用報知音出力装置及びプログラム
JP2006139818A (ja) * 2004-11-10 2006-06-01 Yamaha Corp 再生装置
JP2006201654A (ja) * 2005-01-24 2006-08-03 Yamaha Corp 伴奏追従システム
JP4493530B2 (ja) * 2005-03-25 2010-06-30 クラリオン株式会社 車載音響処理装置、および、ナビゲーション装置
US7760886B2 (en) * 2005-12-20 2010-07-20 Fraunhofer-Gesellschaft zur Foerderung der Angewandten Forscheng e.V. Apparatus and method for synthesizing three output channels using two input channels

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1031500A (ja) * 1996-07-15 1998-02-03 Atr Ningen Joho Tsushin Kenkyusho:Kk 可変レート符号化方法および可変レート符号化装置
JP2000075876A (ja) * 1998-08-28 2000-03-14 Ricoh Co Ltd 文書読み上げシステム
JP2000181593A (ja) * 1998-12-18 2000-06-30 Sony Corp プログラム選択方法、音声出力装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
KAWAHARA H.: "'Tutorial Koen' Chokaku Jokei Bunseki to Onsei Chikaku (Auditory Scene Analysis and Speech Perception A magical function for enabling speech communications in a world of full sounds)", IEICE TECHNICAL REPORT, vol. 105, no. 478, 9 December 2005 (2005-12-09), pages 1 - 6, XP003022670 *
MATSUMOTO M. ET AL.: "Zatsuonchu kara no Renzokuon Chikaku ni Okeru Kurikaeshi Gakushu no Koka (Learning Effect on Perception of Tone Sequences with Noise)", IEICE TECHNICAL REPORT, vol. 100, no. 490, 1 December 2000 (2000-12-01), pages 53 - 58, XP003022669 *
See also references of EP2088589A4 *

Also Published As

Publication number Publication date
US20100222904A1 (en) 2010-09-02
US8204614B2 (en) 2012-06-19
EP2088589A1 (en) 2009-08-12
EP2088589B1 (en) 2016-05-18
EP2088589B8 (en) 2016-09-21
CN101361123A (zh) 2009-02-04
JP2008135891A (ja) 2008-06-12
EP2088589A4 (en) 2013-08-14
CN101361123B (zh) 2011-06-01
JP4766491B2 (ja) 2011-09-07

Similar Documents

Publication Publication Date Title
JP4823030B2 (ja) 音声処理装置および音声処理方法
JP4766491B2 (ja) 音声処理装置および音声処理方法
Thompson Understanding audio: getting the most out of your project or professional recording studio
EP1635611B1 (en) Audio signal processing apparatus and method
EP2434491B1 (en) Sound processing device and sound processing method
US10623879B2 (en) Method of editing audio signals using separated objects and associated apparatus
JP4372169B2 (ja) オーディオ再生装置およびオーディオ再生方法
EP2115912A1 (en) System and method for intelligent equalization
US10484776B2 (en) Headphones with multiple equalization presets for different genres of music
JP2011244196A (ja) 音声信号処理装置、方法、プログラム、及び記録媒体
JP2011244197A (ja) 音声信号処理装置、方法、プログラム、及び記録媒体
Case Mix smart: Professional techniques for the home studio
EP3772224B1 (en) Vibration signal generation apparatus and vibration signal generation program
JP6905332B2 (ja) マルチチャンネル音響の音声信号変換装置及びそのプログラム
Exarchos et al. Audio processing
De Villiers Mastering Paradigms: A South African Perspective
Bazil Sound Equalization Tips and Tricks
GB2561594A (en) Spatially extending in the elevation domain by spectral extension
Liston et al. LISTENER PREFERENCE OF REVERBERATION IN THE POST-PRODUCTION OF LIVE MUSIC RECORDINGS
KR20030093868A (ko) 오디오 다채널 방식을 이용한 노래반주장치

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200780001636.6

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 12093047

Country of ref document: US

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 07790220

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2007790220

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE