WO2000018112A1

WO2000018112A1 - Apparatus and method for presenting sound and image

Info

Publication number: WO2000018112A1
Application number: PCT/JP1998/004301
Authority: WO
Inventors: Shinsuke Nishida
Original assignee: Fourie, Inc.
Priority date: 1998-09-24
Filing date: 1998-09-24
Publication date: 2000-03-30
Also published as: AU756265B2; EP1035732A1; CA2311817A1; AU9185398A

Description

明細書音と映像を提示する装置および方法技術分野

本発明は、音とともに映像を提示する技術に関し、特に、大型のディスプレィ装置を用いて聴衆に音と映像を提示する技術に関する。背景技術

コンピュータの性能向上とともに、音や映像をデジタルデータとして取り扱う技術が普及してきており、現在では、一般家庭でも、パーソナルコンビユー夕を用いて種々のデジタルコンテンツに含まれる音や映像を再生することが可能である。一方、ディスプレイ装置を^ 化する技術も急速に究展しつつあり、電光掲示板や広告表示板などの形態で利用できる大型のディスプレイ装置も街頭で目にする機会が増えてきている。

このような大型のディスプレイ装置に、デジタル映像を表示させる技術は、たとえば、特許協力条約に基づく国際公開公報第 WO 9 6/ 1 024 4号公報 (米国特許第 576 78 1 8号）、第 W09 7/2 5 705号公報（米国特許出願第 0 8Z89488 3号）、第 WO 97/3 62 79号公報（米国特許出願第 08 /952 1 3 5号）などに開示されている。これらの技術によれば、多数の表示素子をマトリックス状に配置することにより、街頭などへの設置に適した大型のディスプレイ装置を用いて、非常に効率的な手法により、デジタル映像を提示することが可能になる。また、映像と音とを提示する際に、両者に一体感をもたせるための技術が、第 WO 9 7Z03 433号公報（米国特許出願第 08/793625号）に開示されている。

しかしながら、上述した従来の技術では、音と映像との間に十分な調和を図ることが困難である。たとえば、複数の映像をそれぞれ関連した音とともに同時に提示する場合や、発音体を含む映像を拡大または縮小表示する場合に、映像と音との間に十分な調和が保たれるような提示方法は、本願発明者が認識する限りにおいて知られていない。

そこで本発明は、音と映像とを調和をもって提示することカ^?可能な提示方法および提示装置を提供することを目的とする。発明の開示

(1) 本発明の第 1の態様は、音と映像を提示する装置において、

映像を提示するための表示画面を有する表示装置と、

表示画面の周囲に配置された複数の音源を有し、これらの音源を用いて、表示画面内の任意の領域に音像が形成されるように音を提示する音響装置と、提示対象となる映像を示す映像データと、提示対象となる音を示す音響データと、音響データを再生すべき音響再生領域を示す領域データと、を含む提示情報を格納する提示情報格納装置と、

表示画面上の所定の映像再生領域に映像データに基づく映像を再生する映像再生装置と、

表示画面上の音響再生領域に音像が形成されるように、音響装置の複数の音源を用いて、音響データに基づく音を再生する音響再生装置と、

を設けるようにしたものである。

(2) 本発明の第 2の態様は、上述の第 1の態様に係る音と映像を提示する装置において、

領域データが、音響データを再生すべき音響再生領域を示すとともに、映像データを再生すべき映像再生領域を示す情報を含むようにしたものである。

(3) 本発明の第 3の態様は、上述の第 1または第 2の態様に係る音と映像を提示する装置において、オペレータの指示を入力する指示入力装置と、

この指示に基づいて、提示情報格納装置内の提示情報に修正を加え、音および映像の提示態様を変更する提示態様変更装置と、

を更に設けるようにしたものである。

(4) 本発明の第 4の態様は、上述の第 1〜第 3の態様に係る音と映像を提示する装置において、

情報記録媒体に記録されている提示情報を読み込んで、提示情報格納装置内に格納する処理を行う情報読込装置を更に設けるようにしたものである。

(5) 本発明の第 5の態様は、上述の第 1〜第 4の態様に係る音と映像を提示する装置において、

矩形の表示画面を有する表示装置と、この表示画面のほぼ 4隅に位置する配置点に配置された 4つの音源を有する音響装置と、を用いるようにし、

音響再生領域を矩形の領域として定義するようにし、この矩形領域の 4頂点位置に音響再生領域を代表する代表点を定め、

音響再生領域に再生すべき音響データが 4チャンネルの音響信号によって構成されていた場合に、 4つの代表点のそれぞれに 4チャンネルの音響信号をそれぞれ対応させ、

各配置点と各代表点との距離を演算し、この距離に応じた音量制御を行うことにより、各代表点の位置にそれぞれ対応する音響信号の音像が得られるように、音響再生装置による音の再生が行われるようにしたものである。

(6) 本発明の第 6の態様は、上述の第 1〜第 4の態様に係る音と映像を提示する装置において、

音響再生領域を矩形の領域として定義するようにし、この矩形領域の 4頂点位置に音響再生領域を代表する代表点を定め、音響再生領域に再生すべき音響デ一タが 2チャンネルのステレオ音響信号によつて構成されていた場合に、 4つの代表点のうちの左側の 2つの代表点に左側音響信号を対応させ、右側の 2つの代表点に右側音響信号を対応させ、各配置点と各代表点との距離を演算し、この距離に応じた音量制御を行うことにより、各代表点の位置にそれぞれ対応する音響信号の音像が得られるように、音響再生装置による音の再生が行われるようにしたものである。

(7) 本発明の第 7の態様は、上述の第 1〜第 4の態様に係る音と映像を提示する装置において、

矩形の表示画面を有する表示装置と、この表示画面のほぼ 4隅に位置する配置点に配置された 4つの音源を有する音響装置と、を用いるようにし、音響再生領域を矩形の領域として定義するようにし、この矩形領域の 4頂点位置に音響再生領域を代表する代表点を定め、

音響再生領域に再生すべき音響データがモノラル音響信号によって構成されていた場合に、 4つの代表点のそれぞれにモノラル音響信号を対応させ、各配置点と各代表点との距離を演算し、この距離に応じた音量制御を行うことにより、各代表点の位置にそれぞれ対応する音響信号の音像が得られるように、音響再生装置による音の再生が行われるようにしたものである。

(8) 本発明の第 8の態様は、上述の第 1〜第 7の態様に係る音と映像を提示する装置において、

それぞれ異なる音響再生領域に再生すべき複数の音響データが用意されていた場合に、各音響データに基づく音像が重畳して得られるように、音響再生装置による音の再生が行われるようにしたものである。

(9) 本発明の第 9の態様は、上述の第 1〜第 7の態様に係る音と映像を提示する装置において、

互いに重なり合う領域データをもつた複数組の提示情報を同時に提示する場合に、複数の提示情報に優先順位を定義し、互いに重なりを生じている部分については、優先順位の高い提示情報についての映像のみを再生し、優先順位の低い提示情報についての映像が隠蔽されるようにし、

各提示情報についての音を再生する際に、映像の隠蔽部分の面積に対応する量だけ音量を低減させて再生する機能を有するようにしたものである。

( 10) 本発明の第 1 0の態様は、上述の第 1〜第 7の態様に係る音と映像を提示する装置において、

それぞれ異なる音響再生領域に再生すべき複数の音響デ一タが用意されていた場合に、オペレータの操作入力に基づいて選択された特定の音響再生領域についての音響データのみの再生が行われるようにしたものである。

(11) 本発明の第 1 1の態様は、所定の表示画面上に映像を提示するとともに、この映像に関連した音を提示するための音と ίί¾ί象を提示する方法において、上位階層の領域が、 1つまたは複数の下位階層の領域を包含するように階層構造をもつた領域が定義され、下位階層の領域には下位発音体が表示され、上位階層の領域には下位発音体を含む上位発音体力表示されている映像画面を再生するための映像データを用意する段階と、

下位発音体によって生成される音と、上位発音体によつて生成される音と、を再生するための音響データを用意する段階と、

映像データに基づいて映像画面の全体または一部を再生するとともに、音響データに基づいて所定の発音体に関する音を再生する段階と、

を行うようにしたものである。

( 12) 本発明の第 1 2の態様は、上述の第 1 1の態様に係る音と映像を提示する方法において、

再生中の映像画面内の特定の発音体を指定する入力がなされた場合に、この特定の発音体に関する音が選択的に再生されるようにしたものである。

( 13) 本発明の第 1 3の態様は、上述の第 1 2の態様に係る音と映像を提示する方法において、

下位発音体を拡大表示すべき入力がなされた場合に、この下位発音体を含む領域を拡大表示するとともに、この下位発音体に関する音が選択的に再生されるようにしたものである。

( 14) 本発明の第 1 4の態様は、上述の第 1 1の態様に係る音と映像を提示する方法において、

映像画面を任意に拡大または縮小して表示させることができるようにし、現時点において、全体が表示されている最も上位階層の発音体に関する音が選択的に再生されるようにしたものである。

( 15) 本発明の第 1 5の態様は、上述の第 1 4の態様に係る音と映像を提示する方法において、

発音体の表示倍率に基づいて、当該発音体に関する音の音量を制御するようにしたものである。

( 16) 本発明の第 1 6の態様は、上述の第 1 1の態様に係る音と映像を提示する方法において、

オペレータの指示に基づいて、個々の発音体の再生音量を特定の音量値に設定できるようにし、音量値が設定された発音体に関する音を再生する際に、当該設定音量値による再生が行われるようにしたものである。

( 17) 本発明の第 1 7の態様は、上述の第 1 1の態様に係る音と映像を提示する方法において、

主として下位発音体の発生する音を集音することが可能な指向性をもったマイクを、下位発音体の近傍に設置することにより下位発音体の音を録音し、上位発音体の発生する音全体を集音することが可能な指向性をもったマイクを、上位発音体の発生する音全体を集音するのに適した位置に設置することにより上位発音体の音を録音し、

これらの録音によって得られた信号に基づいて音響データを用意するようにしたものである。図面の簡単な説明

第 1図は、大型のディスプレイ装置に提示された自動車の映像の一例を示す平面図である。

第 2図は、第 1図に示す映像内の一部分の領域にエンジンの音の音像が形成されるように音を提示する手法を示す平面図である。

第 3図は、本発明に係る音と映像を提示する装置において用いられる提示情報 Iの構成を示すブロック図である。

第 4図は、第 3図に示す提示情報の構成例を示すブロック図である。

第 5図は、表示画面を分割し、その一部分の領域をデジタルデータとして示す手法の一例を説明する原理図である。

第 6図は、第 5図に示す手法におけるビット表現の一例を示す図である。第 7図は、第 5図に示す手法を用いて構成した提示情報の一例を示すプロック図である。

第 8図は、本発明に係る方法により、表示画面の一部分に映像と音とを提示した状態の一例を示す平面図およびこのような提示に対応する提示情報を示すブロック図である。

第 9図は、本発明に係る方法により、表示画面の一部分に映像と音とを提示した状態の別な一例を示す平面図およびこのような提示に対応する提示情報を示すブロック図である。

第 1 0図は、本発明に係る方法により、表示画面の一部分に映像ど音とを提示した状態の更に別な一例を示す平面図およびこのような提示に対応する提示情報を示すプロック図である。

第 1 1図は、本発明に係る方法により、 2つの異なる発音体を同一画面上に提示した状態を示す平面図である。第 1 2図は、第 1 1図に示す提示を行うために用意すべき提示情報を示す図である。

第 1 3図は、本発明に係る方法により、階層構造をもった 2組の発音体を同一画面上に提示した状態の一例を示す平面図である。

第 1 4図は、第 1 3図に示す提示を行うために用意すべき提示情報を示す図である。

第 1 5図は、本発明に係る方法により、 P皆層構造をもった 2組の発音体を同一画面上に提示した状態の別な一例を示す平面図である。

第 1 6図は、第 1 5図に示す提示を行うために用意すべき提示情報を示す図でめる。

第 1 7図は、本発明に係る方法により、階層構造をもった 6組の発音体を同一画面上に提示した状態の一例を示す平面図である。

第 1 8図は、第 1 7図に示す提示を行うために用意すべき提示情報を示す図である。

第 1 9図は、第 1 7図に示す 6組の発音体のうちの 1組の発音体のみを表示させた状態を示す平面図である。

第 2 0図は、第 1 9図に示す 1組の発音体を拡大表示させた状態を示す平面図である。

第 2 1図は、第 2 0図に示す提示を行うために用意すべき提示情報を示す図でめる。

第 2 2図は、第 1 9図に示す 2組の発音体を拡大表示させた状態を示す平面図である。

第 2 3図は、第 2 2図に示す提示を行うために用意すべき提示情報の一部を示す図である。

第 2 4図は、本発明に係る方法により、同一の映像中に階層構造をもった複数の発音体を定義した例を示す平面図である。第 2 5図は、第 2 4図に示す提示を行うために用意すべき提示情報を示す図である。

第 2 6図は、第 2 4図に示す発音体の一部を拡大表示した状態を示す平面図である。

第 2 7図は、第 2 6図に示す提示を行うために用意すべき提示情報を示す図である。

第 2 8図は、第 2 4図に示す複数の発音体の別な定義態様を示す平面図である o

第 2 9図は、第 2 8図に示す発音体定義に対応した提示情報を示す図である。第 3 0図は、第 2 8図に示す発音体定義を利用した別な映像提示を示す平面図である。

第 3 1図は、第 3 0に示す提示を行うために用意すべき提示情報を示す図でめる。

第 3 2図は、本発明に係る音と映像を提示する装置における音源と表示画面との位置関係を示す正面図である。

第 3 3図は、第 3 2図に示す装置を用いて、表示画面上の所定の領域に音像を形成させる方法を説明する図である。

第 3 4図は、 4チャンネルの音響データを含む ίΐ^情報の構成例を示すプロック図である。

第 3 5図は、第 3 4図に示す提示情報に基づいて、各スピーカに与える再生音信号を演算する方法を示す図である。

第 3 6図は、第 3 2図に示す装置を用いて、 2組の提示情報を同時に提示した状態を示す正面図である。

第 3 7図は、第 3 6図に示す提示を行うために用意すべき提示情報を示す図である。

第 3 8図は、第 3 2図に示す装置を用いて、 4組の提示情報を同時に提示した状態を示す正面図である。

第 3 9図は、第 3 8図に示す提示を行うために用意すべき提示情報を示す図である。

第 4 0図は、本発明に係る音と映像を提示する方法を実行する際に用意すベき映像デ一タおよび音響デ一タの実用的な構成例を示す図である。

第 4 1図は、本発明に係る音と映像を提示する方法を実行する際に定義された階層構造をもった領域を示す平面図である。

第 4 2図は、本発明に係る音と映像を提示する装置の基本構成を示すブロック図である。発明を実施するための最良の形態

以下、本発明を図示する実施形態に基づいて説明する。

§ 1 . 本発明の基本概念

いま、第 1図に示すように、大型のディスプレイ装置に自動車の映像が提示されている場合を考える。この自動車の映像は、静止画であっても動画であつてもかまわない。ここでは、エンジンを動作させた状態で停車中の自動車力表示されているものとし、エンジンフードの部分が振動で揺れているような動画が提示されているものとする。また、この動画には、エンジン音が付加されているものとしょう。

このように、音と映像とを同時に提示する手法は、映画やビデオなどで古くから利用されており、音をステレオスピーカや 4チャンネルスピー力を用いてマルチチャンネルで提示する手法も広く利用されている。しかしな力ら、従来から利用されてきた手法では、エンジン音の音像を形成する領域を正確に提示することはできない。

たとえば、従来の手法では、第 1図に示す映像に音を付加する場合、音像の位置を映像の中心位置よりもやや右側へ変位させてエンジン音を提示することにより、エンジン音が映像のエンジン付近から聞こえてくるような効果を加えることは可能である。このような効果を加えるには、映像を撮影するときに、複数のマイクを配置してマルチチャンネルの音響信号を採取しておき、各マイクに応じた位置に配置した複数のスピーカを用いて、各チャンネルの音響信号を再生すればよい。

ところ力このような従来の手法では、「右下の方からエンジン音が聞こえてくる」といったェンジン音の漠然とした位置に関する情報を伝えることはできる力 ^?、「映像として表示された自動車のエンジン位置からエンジン音が聞こえてくる」というように、映像上の発音体（この例ではエンジン）の位置と音の位置との関係を正確に提示することはできない。もちろん、一般家庭で利用されているような比較的小型のディスプレイ装置を用いて映像と音とを提示する場合には、発音体の位置を厳密に提示する必要性は乏しい。しかし、大勢の聴衆に情報を提示するために街頭に設置されるような大型のディスプレイ装置を用いて映像と音とを提示する場合には、発音体の位置をより厳密に提示すればする程、より臨場感の高い情報提示力不可能になる。

本発明はこのような着想に基づいてなされたものであり、その基本概念は、個々の発音体の音響信号に、それぞれ音像を形成すべき領域を指定する情報を付加する点にある。たとえば、上述した自動車の例の場合、第 2図に示すように、映像領域を 1 6分割し、図にハッチングを施した領域をエンジン音の音響再生領域として定義し、エンジン音の音響信号にこの音像形成領域を示す情報を付加しておくようにする。そして、再生時には、自動車の映像を表示画面上に再生するとともに、エンジン音をこの音響再生領域内に音像が形成されるように再生するのである。第 2図にハッチングを施して示すように、この音響再生領域は、自動車の映像中のエンジン部分に相当する領域であり、この領域にエンジン音の音像を形成することにより、臨場感のある情報が可能になる。本発明における音と映像を提示する方法は、面積をもった音響再生領域を定義するという点において、従来のステレオ音響再生の方法とは根本的に異なつている。すなわち、第 2図に示す例では、情報の提示を受ける聴衆の受ける印象は、「映像画面の右下の方からエンジン音が聞こえてくる」という印象ではなく、「映像画面に示された自動車のエンジン部分からエンジン音が聞こえてくる」という印象になる。なお、面積をもった二次元平面領域に音像力 ^S得られるような具体的な音の提示方法については、 § 6において詳述する力、表示画面上で二次元的な広がりをもった音像を形成するためには、この表示画面の周囲に複数の音源（スピーカ一など）を配置しておけばよい。

第 3図は、本発明に係る音と映像を提示する装置において用いられる提示情報 Iの構成を示すブロック図である。図示のとおり、提示情報 Iは、映像データ Ί 音響データ A、領域データ Tによって構成されている。映像データ Vは、提示対象となる映像を示すデータであり、第 2図の例の場合、エンジンを動作させた状態で停車中の自動車の動画映像を示すデータとなる。また、音響デー夕 Aは、提示対象となる音を示すデータであり、通常は、映像データ Vに基づいて提示されている映像内に存在する発音体（第 2図の例の場合はエンジン）の音を示すデータである。一方、領域データ Tは、音響データ Aを再生すべき音響再生領域を示すデータであり、第 2図の例の場合、ハッチングが施された矩形領域を示すデータということになる。

本発明を実施する上では、第 3図に示すように、映像データ V、音響データ A、領域データ Tの 3つのデータによって提示情報 I を構成しておけばよい。もっとも、提示情報 Iの構成は、提示すべき情報の内容によって適宜変えることが可能である。たとえば、エンジン音の発生から終了に至るまでの全時間帯にわたつて、音響再生領域が同一の場合であれば、第 3図に示すように、映像データ V、音響データ A、領域データ Tをそれぞれ 1つずつ用意することにより提示情報 Iを構成すればよい。ところ力 ^?、たとえば、エンジンをスタータモ一タを用いて始動させるときの始動音 A 1 については、スタータモ一タカ位置する領域 T 1を音響再生領域とし、エンジンが始動後のアイドリング音 Α 2については、エンジン全体が位置する領域 Τ 2を音響再生領域とし、アクセルをふかしてエンジンの回転数を上昇させたときのエンジン音 A 3については、自動車全体に振動力 ^?伝達されるため、自動車全体の領域 T 3を音 ^生領域とする、というように、時間とともに音響再生領域を変化させるような場合であれば、第 4図の提示情報 I ( 1 ) に示すように、映像データ Vについては共通のデータを用意し、音響データおよび領域データについては、データ A l， T 1からなる第 1の組（スタータ時の再生用）、データ A 2， T 2からなる第 2の組（ァイドリング時の再生用）、データ A 3， T 3からなる第 3の組（高回転時の再生用）なる 3組を用意しておけばよい。もちろん、映像データ Vについても、スタータ時の映像を示すデータ V 1、アイドリング時の映像を示すデータ V 2、高回転時の映像を示すデータ V 3なる 3組を用意し、第 4図の提示情報 I ( 2 ) に示すような構成を採ってもかまわない。

§ 2 . 領域データの構成例

上述したように、本発明では、音響データ Aを再生する音響再生領域を定義するために領域データが用意される。そこで、ここでは、領域データの具体的な構成例を示すことにする。

第 5図は、表示画面をいくつかのブロックに分割し、その一部分の領域を領域データとして示す手法の一例を説明する原理図であり、表示画面を複数のブロックに分割する 4通りの分割態様と、個々の分割態様において得られる各ブロックについて定義されたアドレス力示されている。各分割態様は、分割レべル nによって示される。

ここで、第 1段目に示されている分割態様は、分割レベル n = 0で示される分割態様であり、実際には、何ら分割は行われていない。すなわち、全表示画面が同一のブロックに所属することになる。一方、第 2段目に示されている分割態様は、分割レベル n = 1で示される分割態様であり、縦横にそれぞれ 2分割ずつ、合計 4分割を行ったものである。これにより、表示画面はブロック a, b， c， dの 4つに分割される。また、第 3段目に示されている分割態様は、分割レベル n=2で示される分割態様であり、縦横にそれぞれ 4分割ずつ、合計 1 6分割を行ったものであり、第 4段目に示されている分割態様は、分割レベル n = 3で示される分割態様であり、縦横にそれぞれ 8 !!ずつ、合計 64 分割を行ったものである。

この例では、分割レベル n = 3までしか示されていない力 ^?、同様に分割数を増やしてゆけば、たとえば、分割レベル n = 8で示される分割態様においては、縦横にそれぞれ 2 56分割が行われ、 6 553 6個のブロックカ^?形成されることになる。要するに、分割レベル nで示される分割態様では、二次元画素配列を縦横にそれぞれ 2 ⁿ分割することにより 2^{2 n}個のブロックが得られることになる。

このように、複数通りの分割態様力定義できたら、個々の分割態様ごとにそれぞれのブロックを示すためのアドレスを定義する。第 5図に示す例では、分割レベル n = 0についてはアドレスの定義は行われていない力？（単一のブロックしかないため、アドレスは不要である）、分割レベル n = 1で示される分割態様において得られる 4個のブロックについては、図示のとおり、それぞれ、 00， 0 1， 1 0, 1 1なる 2ビットからなるアドレスが定義されており、分割レベル n = 2で示される分割態様において得られる 1 6個のブロックについては、図示のとおり、それぞれ、 000 0， 000 1， 00 1 0， 0 0 1 1， …なる 4ビットからなるアドレス力 ^?定義されており、分割レベル n= 3で示される分割態様において得られる 64個のブロックについては、図示のとおり、それぞれ、 000000， 00000 1 , …なる 6ビットからなるアドレス力定義されている。

結局、この第 5図に示す実施例では、分割レベル n = iで示される分割態様において得られる 2² '個のブロックについてのァドレスを、 1つ下の分割レべル n = ( i - 1) で示される分割態様において得られる 2² 個のブロックを示すアドレスの下位に、 00， 01， 10， 1 1のうちのいずれかを付加してなるァドレスによって示すようなアドレス定義が行われていることになる。たとえば、分割レベル n = 2で示される分割態様において得られるブロック e, f , g, hについてのアドレスは、 1つ下の分割レベル n = 1で示される分割態様において得られるプロック a (ブロック e , f ， g， hと同じ位置を占めるブロック）を示すアドレス " 0 0 " の下位に、それぞれ 00， 0 1， 10， 1 1を付加したものになっている。ここで、下位にどの 2 ビットを付加すべきかは、 4つのブロック a， b， c， dにするアドレス定義と同様の方法で決定される。たとえば、 4つのブロック e， f ， g， hの相互位置関係は、 4つのブロック a， b， c， dの相互位置と等価であるから、ブロック eのアドレスの下位 2 ビットは、ブロック aのアドレスと同じ "00" とし、ブロック f のアドレスの下位 2ビットは、ブロック bのァドレスと同じ "01" とし、ブロック gのァドレスの下位 2ビットは、ブロック c のアドレスと同じ "1 0 " とし、ブロック hのアドレスの下位 2ビットは、ブロック dのアドレスと同じ "1 1" としている。

もちろん、本発明を実施するにあたっては、必ずしも上述のようなアドレス定義を行う必要はないが、演算負担を軽減し、効率的な表示動作を行わせる上では、上述のようなアドレス定義を行うのカ^?好ましい。このようなアドレス定義を行っておけば、特定のブロックのアドレスから下位 2ビットを削除すると、 1つ下の分割レベルの同じ位置のブロックのァドレスを得ることができる。また、このようなアドレス定義に必要なビット数は、図 1に示すように、 2 nビットで示される。また、各分割レベル nにおける表示分解能、すなわち、得られるブロックの総数は、第 5図に示されているように、 2²ⁿとなる。

第 6図は、上述した個々の分割態様についての分割レベルおよびアドレスのビット表現を示す図である。この例では、分割レベル nは、 4ビットで表現されており、 n = 0〜 1 5 までの 1 6通りの分割態様を定義することができる。一方、各ブロックを示すために必要なアドレスのビット数は、前述したように、個々の分割レベルごとに異なり、一般に、分割レベルが 1つ上がるごとに、ァドレスは 2ビットだけ余分に必要となる。したがって、たとえば、分割レベル n = 1 5では、 3 0ビットものァドレスカ^?必要になる力 ^?、この分割レベルでは、 1 Gもの高精細な表示分解能力得られることになる。

本発明において、領域データ Tを上述のような手法で定義すれば、提示情報 Iは、第 7図に示すような構成で表現できる。すなわち、領域データ Tは、分割レベルを示すビット列と、アドレスを示すビット列とによって構成され、ァドレスを示すビット列の長さは分割レベルによって決定されることになる。但し、領域データ T、音響データ Α、映像データ Vを相互に区別できるようなデータ構造を採れば、分割レベルを示すビット列は省略してもかまわない。この場合、 5^!Jレベルは、アドレスを示すビット列の長さに基づいて決定すればよい。たとえば、領域データ T力「0 1」なる 2ビットのデータから構成されていた場合には、第 5図において、分割レベル n = 1のブロック bなる領域を示すものとして認識することができ、領域デ一タ Tカ？「 0 0 0 1」なる 4ビットのデータから構成されていた場合には、第 5図において、分割レベル n = 2のブロック f なる領域を示すものとして認識することができる。また、領域データ Tを示すビットカ全く存在しない場合には、第 5図において、分割レベル n = 0に相当する全表示領域を示すものとして認識することができる。

§ 3 . 本発明を用いた具体的な提示例

第 8図は、本発明に係る方法により、表示画面の一部分に映像と音とを提示した状態の一例を示す平面図およびこのような提示に対応した提示情報を示すブロック図である。図の左に示す平面図は、表示画面を四分割し、図にハッチングを施して示す左下の領域 T ( a ) に所定の内容を提示した状態を示している。このような提示を行うには、図の右に示すような提示情報 I ( a ) を用意しておけばよレ、。ここで、映像データ V (a) は、ハッチングを施して示す領域に映像を提示するためのデータであり、音響データ A (a) は、同領域に音像が形成されるような態様で提示される音のデータである。また、領域データ T (a) は、ハッチングを施して示す領域 T (a) を示すためのデータである。具体的には、 § 2で述べた手法を用いることにより、 "10" なる 2ビットのデータ列によつて領域定義が行われている。

第 9図には、別な一例力 s示されている。この例では、表示画面が 1 6分割され、そのうちの図にハッチングを施して示された領域 T (b) に所定の内容を提示した状態が示されている。このような提示を行うには、図の右に示すような提示情報 I (b) を用意しておけばよレ、。ここで、映像データ V (b) および音響データ A (b) は、このハッチング領域に映像および音を提示するためのデータであり、領域デ一タ T (b) は、ハッチング領域 T (b) を示すためのデータである。具体的には、 § 2で述べた手法を用いることにより、 "01 1 0" なる 4ビットのデータ列によって領域定義が行われている。

第 1 0図には、更に別な一例力 ^s示されている。この例では、ハッチングカ s '施された全表示画面に所定の内容を提示した状態力 ^s示されている。このような提示を行うには、図の右に示すような提示情報 I (c) を用意しておけばよい。ここで、映像データ V (c) および音響データ A (c ) は、この全表示画面に映像および音を提示するためのデータであり、領域データ T (c) は、ハッチングが施された全表示画面に相当する領域 T (c) を示すデータである。実際には、 § 2で述べたように、領域データ T (c) はビット列としては存在しないデータ（いわゆる「ヌルデータ」、図ではなる記号で示す）であり、 0ビットからなる領域データによって、全表示画面が示されることになる。

ここで留意しておくべき点は、この第 1 0図の例のように、領域データ T (c ) が全表示画面を示していた場合であっても、単なるモノラル音響再生が行われるわけではないという点である。後の § 6で述べるように、本発明を実施する場合、表示画面の周囲に複数の音源（スピーカ）力設けられることになる。したがって、音響再生領域が表示画面の全領域になっていた場合、この複数の音源によって、全表示画面に相当する二次元的な広がりをもつた音像が形成されるように、音の提示が行われることになる。このように、領域データ T ( C ) で指定された音響再生領域に相当する広がりをもった音力是示されるという点において、第 1 0図に示す本発明の実施形態は、単なるモノラル音響再生とは明確に区別されることになる。

なお、いずれの場合も提示される音の音量は、各音響データ A ( a ) , A ( b ) ， A ( c ) 内の音量データに基づいて決定されるので、ハツチングで示された領域の面積の大小は、直接的には音量に関係しない。もちろん、領域の面積を考慮して音量を増減させるような手法を採ることも可能であり、後述するように、領域の拡大や縮/』作に連動させて音量を増減させることもできる。また、上述の例では、各領域データ T ( a ) ， T ( b ) ， T ( c ) は、いずれも音像を生成する音響再生領域を示すとともに、映像を再生する映像再生領域を示している。たとえば、第 8図の例では、映像データ V ( a ) で示される映像は、領域デ一タ T ( a ) で示されるハッチング領域に再生され、音響デ一タ A ( a ) で示される音は、領域データ T ( a ) で示されるハッチング領域に音像が生じるように再生されることになる。このように、映像再生領域と音響再生領域とが同一の場合は、領域データ Tを、音響再生領域を示すデータとして用いるとともに、映像再生領域を示すデータとして用いることができる。もちろん、必要に応じて、音響再生領域を示す領域データと映像再生領域を示す領域データとを別個に用意するようにし、音と映像とをそれぞれ別個の領域に提示することも可能である。'たとえば、第 2図に示す自動車の例では、全表示画面に自動車の映像が提示されているのに対し、エンジン音はハッチングを施した領域に音像が生成するように提示されており、映像再生領域が全表示領域であるのに対し、音響再生領域はノ、ツチングを施した部分的な領域となつている。このような場合、映像再生領域を示す領域データは省略し、音響再生領域を示す領域データのみを用意しておけばよい。

第 1 1図は、本発明に係る方法により、 2つの異なる発音体を同一画面上に提示した状態を示す平面図である。より具体的には、表示画面が 1 6分割され、そのうちの 1区画分の領域にピアノ力表示され、別な 2区画分の領域にはトランペット力 ^?表示されている。第 1 2図は、この第 1 1図に示す提示を行うために用意すべき提示情報を示す図である。第 12図の左には、各発音体（この例では、ピアノおよびトランペット）の位置する領域にハッチングを施した表示画面の分割図が示されており、図示の各領域 T (a) ， T (b) に、それぞれピアノに関する提示情報 I (a) とトランペットに関する提示情報 I (b) と力提示されることになる。

第 12図の右に示されているように、提示情報 I ( a) は、ピアノの映像からなる映像データ V (a) と、ピアノの演奏音からなる音響データ A (a) と、これらを提示するための領域を示す領域データ T (a) とによって構成されている。同様に、提示情報 I (b) は、トランペットの映像からなる映像データ V (b) と、トランペットの演奏音からなる音響データ A (b) と、これらを提示するための領域を示す領域データ T (b) とによって構成されている。より具体的には、領域データ T (a) は、 "01 1 0" なるビット列から構成され、 ϋ/示情報 I (a) に関する映像再生領域および音響再生領域を示している。また、領域データ T (b ) は、 "101 1" なるビット列と "1 1 1 0" なるビット列とから構成され、提示情報 I (b) に関する映像再生領域および音響再生領域を示している。

このような 2組の提示情報 I ( a ) および I ( b ) の双方に基づいて、表示画面への提示を行うと、第 1 1図に示すような結果が得られることになる。視聴者は、図示された各領域 T (a) ， T (b) に、ピアノおよびトランペットの映像を認識することができ、しかも、ピアノの演奏音はピアノの映像のある領域 T ( a ) に音像が得られ、トランペットの演奏音はトランペットの映像のある領域 T ( b ) に音像が得られることになる。このように、各発音体についての映像の位置と音の位置とを一致させることにより、高い臨場感をもった映像および音の提示が可能になる。

第 1 1図には、 2つの発音体を提示する例を述べたが、 3つ以上の発音体の提示も同様の手法で行うことができるようになる。また、第 1 1図の例では、各発音体ごとの提示領域（映像再生領域および音響再生領域）を、表示画面を 1 6分割したブロックの集合として表現している力 ^?、分割数を増やすことにより、提示領域の形状をより正確に定義することも可能である。たとえば、表示画面を 1 0 0分割あるいはそれ以上に分割して得られるブロックの集合として各提示領域を定義すれば、ピアノあるレまトランぺットといった楽器の輪郭形状に近い領域定義が可能になる。もっとも、人間の聴覚による音響定位機能は、それほど細かな象領域を認識する機能を有していないため、実用上は、第 1 1 図に示す例のように、かなり粗い分割により得られるプロックの集合によって各提示領域を定義すれば十分である。

§ 4 . 階層構造をもった発音体定義を行う提示例 (1)

本発明のもうひとつの特徴は、階層構造をもった発音体定義を行い、この階層構造の情報をそのまま視聴者に提示できるようにする点にある。以下、この特徴を、具体例を示しながら説明する。

第 1 3図は、本発明に係る方法により、階層構造をもった 2組の発音体を同一画面上に提示した状態の一例を示す平面図である。この例では、表示画面は 1 6分割されており、その左下部分に、ドラムと、このドラムを収容した部屋の映像が示されている（分割線は、必要に応じて表示してもよいし、表示しなくてもょレ。第 1 4図は、このような提示を行うために用意すべき提示情報を示す図である。第 1 4図の左には、各発音体（この例では、ドラムおよびこのドラムを含む部屋全体）の位置する領域にハツチングを施した表示画面の分割図が示されており、図示の各領域 T ( a) ， T (b) に、それぞれドラムに関する提示情報 I (a) と部屋全体に関する提示情報 I (b) と力提示されることになる。なお、本明細書における「発音体」とは、楽器のように自ら音を発生する物だけではなく、部屋の床、壁、天井、家具のように、音を反射する物も含む広い概念を意味している。

さて、第 14図の右に示されているように、提示情報 I (a) は、ドラムの演奏音からなる音響データ A (a) と、このドラムの演奏音を提示するための領域を示す領域データ T (a) とによって構成されている。一方、提示情報 I (b) は、ドラムの置かれた部屋（ドラムを含む）の映像からなる映像データ V (b) と、部屋全体についてのドラムの反響音からなる音響データ A (b) と、これらを提示するための領域を示す領域データ T (b) とによって構成されている。より具体的には、領域データ T (a) は、 " 1 01 1" なるビット列から構成され、提示情報 I (a) に関する音響再生領域 T (a) を示している。また、領域データ T (b) は、 "1 0" なるビット列から構成され、提示情報 I (b) に関する映像領域および音響再生領域 T (b) を示している。なお、提示情報 I (a) には、ドラム自体の映像を示す映像データ V (a) は含まれていないが、これは、提示情報 I (b) に含まれている「ドラムの置かれた部屋」を示す映像データ V (b) の一部分を、ドラム自体の映像を示す映像データ V (a) として利用することができるためである。もちろん、必要に応じて、ドラム自体の映像を示す映像データ V (a) を、提示情報 I (a) 内に別個に用意してもかまわない。

ここで、 " 10" なるビット列で示される領域 T (b) と、 "10 1 1" なるビット列で示される領域 T (a) との関係に着目すると、前者は後者を包含していることがわかる。そこで領域 T (b) を上位階層の領域、領域 T (a) を下位階層の領域と定義すれば、階層構造をもった領域が定義されていることになり、下位階層の領域 T (a) には下位発音体としてのドラム力 ^s存在し、上位階層の領域 T ( b ) には上位発音体としての部屋全体力 ^?存在することになる。ここで、上位発音体は、下位発音体を含んだ発音体であり、音響データ A ( a ) が下位発音体としての純粋なドラムの演奏音のみを収録したデータであるのに対し、音響データ A ( b ) は、このドラムからの直接音とともに、部屋の床、壁、天井などから反射したドラムの間接的な反響音をも含んだデータとレ、つことになる。

このように、階層構造をもった 2種類の音響データ A ( a ) ， A ( b ) を用意するには、次のようにすればよい。まず、主として下位発音体たるドラムの発生する音を集音することが可能な指向性をもったマイクを、この下位発音体たるドラムの近傍に設置することにより、下位階層に所属する音響データ A ( a ) を録音する。一方、上位発音体たる部屋全体の発生する音を集音することが可能な指向性をもつたマイクを、この上位発音体たる部屋で発生する音全体を集音するのに適した位置（たとえば、部屋の 4隅）に設置することにより、上位階層に所属する音響データ A ( b ) を録音すればよい。

なお、ここに示す例では、 1つの上位階層の領域内に下位階層の領域が 1つだけ定義されている力 1つの上位階層の領域内に複数の下位階層の領域を定義し、上位発音体が、複数の下位発音体を含むような構成にしてもかまわない。また、ここに示す例では、上位と下位との二階層のみが定義されている力 ^?、より多重の階層を定義してもよレ、。

以上のようにして、表示画面上に階層構造をもった領域を定義し、下位階層の領域には下位発音体が表示され、上位階層の領域にはこの下位発音体を含む上位発音体が表示されている映像画面を再生するための映像データを用意するとともに、下位発音体によって生成される音と、上位発音体によって生成される音と、を再生するための音響データを用意することができれば、用意した映像データに基づいて映像画面を再生するとともに、用意した音響データに基づレて所定の発音体に関する音を再生すること力 ^?可能になる。たとえば、第 1 3図に示すように、表示画面の左下部分に映像データ V (b) に基づく映像を再生させた状態において、音響データ A (b) に基づく音をすると、部屋全体の映像が表示されている上位階層の領域 T (b) に、部屋全体についてのドラムの反響音の音像が生成されることになり、臨場感の豊かな表現が可能になる。

また、視聴者力'指定した特定の発音体の音のみを選択的に再生することも可能である。たとえば、視聴者がドラムからなる下位階層の発音体のみを指定した場合には、音響データ A (a) に基づく音のみを、ドラムの映像が表示されている下位階層の領域 T (a) に音像が生じるように再生すればよい。もちろん、この視聴者の指定に応じて、映像データ V (b) の再生形態を変えるようにしてもよい。たとえば、音響データ A (a) に基づく音のみを再生しているときには、映像データ V (b) のうちのドラム力表示されている一部分のみを表示させ、音響データ A (b) に基づく音を再生しているときには、映像データ V (b) の全映像を表示させるようにすることができる。

第 15図は、階層構造をもった 2組の発音体を同一画面上に提示した別な一例を示す平面図である。この例では、表示画面は 4分割されており、街の景色力描かれている（分割線は、必要に応じて表示してもよいし、表示しなくてもよい）。この景色には、階層構造をもった 2組の発音体が定義されている。下位階層の発音体は、左下に描かれた教会であり、特に、教会が主たる発音体として機能する。一方、上位階層の発音体は、この教会の鐘を含む街全体の環境である。第 1 6図は、このような提示を行うために用意すべき提示情報を示す図である。第 1 6図の左には、各発音体（この例では、教会およびこの教会を含む街全体）の位置する領域にハッチングを施した表示画面の分割図が示されており、図示の各領域 T (a) ， T (b) に、教会に関する提示情報 I (a) と街全体に関する提示情報 I (b) と力 ^?提示されることになる。

第 16図の右に示されているように、提示情報 I ( a) は、教会の鐘の音からなる音響データ A (a) と、教会に関する音を提示するための領域を示す領域データ T (a) とによって構成されている。一方、提示情報 I (b) は、教会を含む街全体の映像からなる映像データ V (b) と、教会の鐘の音を含む街全体の環境音からなる音響データ A (b) と、これらを提示するための領域を示す領域データ T (b) とによって構成されている。

より具体的には、領域データ T (a) は、 "10" なるビット列から構成され、提示情報 I (a) に関する音響再生領域を示している。また、領域データ T (b) は、ビットなしのデータから構成され、提示情報 I (b) に関する映像再生領域および音響再生領域が全表示画面であることを示している。ここで、上位発音体は、下位発音体を含んだ発音体であり、音響データ A (a) 力'下位発音体としての教会の鐘の音のみを収録したデータであるのに対し、音響データ A (b ) は、この教会の鐘の音とともに、街の種々の雑踏音を含んだデータということになる。

このように、階層構造をもった 2種類の音響データ A (a) ， A (b) を用意するには、次のようにすればよい。まず、主として教会の鐘の音を集音することカ呵能な指向性をもったマイクを、この教会の近傍に設置することにより、下位階層に所属する音響データ A (a) を録音する。一方、上位発音体たる街全体の発生する音を集音する際には、たとえば、カメラの左右にそれぞれ所定の指向性をもったマイクを取りつけ、街全体の画像を撮影するときに同時にステレオ録音を行い、上位階層に所属する音響データ A (b) とすればよレ。また、カメラの上下左右の 4隅の位置にそれぞれ所定の指向性をもったマイクを取りつけて録音すれば、 4チャンネルの音響デ一タを取り込むことができる。こうして、必要な提示情報が用意できたら、第 1 5図に示すように、表示画面に映像データ V (b) に基づく映像を再生させた状態において、音響データ A (b) に基づく音を再生すると、街全体の映像が表示されている上位階層の領域 T (b) に、街全体についての環境音の音像が生成されることになる。もちろん、視聴者が指定した特定の発音体の音のみを選択的に再生することも可能である。たとえば、視聴者が教会からなる下位階層の発音体のみを指定した場合には、音響データ A (a) に基づく音のみを、教会の映像が表示されている下位階層の領域 T (a) に音像が生じるように再生すればよい。また、この視聴者の指定に応じて、映像データ V (b) の再生形態を変えるようにしてもよい。たとえば、音響データ A (a) に基づく音のみを再生しているときには、映像データ V (b) の中の教会の映像部分を拡大表示させるようにしてもよい。

第 1 7図は、本発明に係る方法により、階層構造をもった 6組の発音体を同一画面上に提示した状態の一例を示す平面図である。この例では、表示画面は 16分割されており（分割線は、必要に応じて表示してもよいし、表示しなくてもよい）、このうち 4つの領域 T (a) , T (b) ， T (c) ， T (d) に、それぞれ 4人の演奏者が下位階層の発音体として表示されている。一方、領域 T (a) ， T (b) を下位領域として包含する上位階層の領域 T (e) と、領域 T (c) ， T (d) を下位領域として包含する上位階層の領域 T (f ) とが、図に破線で示すように定義されている。ここで、 4人の演奏者は、それぞれ下位発音体を構成している。また、領域 T (a) ， T (b) に表示された二人の演奏者は、全体として 1つの上位発音体を構成しており、領域 T (c ) ， T (d) に表示された二人の演奏者も、全体として 1つの上位発音体を構成してレ、る。

第 18図は、このような提示を行うために用意すべき提示情報を示す図である。提示情報 I (a) は、第 1バイオリンの映像からなる映像デ― V (a) と、第 1バイオリンの演奏音からなる音響データ A (a) と、これらを提示する領域を示す領域データ T (a) = " 1 000" とによって構成されている。提示情報 I (b) 〜I (d) も同様に、それぞれ領域 T (b) 〜T (d) に提示すべき情報および領域を示すデータによって構成されている。また、提示情報 I (e) は、第 1ノィォリンおよび第 2バイオリンの演奏音からなる音響デ一タ A (e) と、これを提示する領域を示す領域データ T (e) = "1 0" とによって構成されており、提示情報 I (f ) は、第 3バイオリンおよびピアノの演奏音からなる音響データ A (f) と、これを提示する領域を示す領域データ T (f ) = "1 1" とによって構成されている。提示情報 I (e) および I (f ) には、映像データは含まれていないが、これは下位階層の提示情報についての映像データを利用することができるためである。

下位発音体についての音響データ A (a) 〜A (d) は、各楽器の音のみを直接集音すること力 ^?可能な指向性をもったマイクを、各楽器の近傍に設置する力、、あるいは各演奏者の衣服に取り付けて録音することにより用意することが可能である。一方、上位発音体は、二人の演奏者の奏でる楽器の音とともに、その周囲の床や壁などからの反響音とを発生させる発音体として定義され、たとえば、音響データ A (e) は、この反響音を含めた集音力 ^?可能な指向性をもつたマイクを、二人の演奏者の前方にやや距離をおいて設置して録音することにより用意することができる。

こうして、第 18図に示すような提示情報が用意できれば、視聴者に好みの態様で四重奏の情報を提示すること力可能になる。たとえば、第 17図に示すような標準的な提示態様においては、第 18図に示す提示情報のうち、現時点において、全体力 ^?表示されている最も上位階層の発音体に関する音を選択的に提示すればよい。具体的には、音響データ A (e) ， A (f ) に基づく音を、上位領域 T (e) ， T (f ) に音像が生成されるように再生すればよい。

もちろん、視聴者が指定した特定の発音体の音のみを選択的に再生することも可能である。たとえば、視聴者がマウスなどのポインティングデバイスを用いて、第 17図の領域 T (a) をクリックする操作を行うことにより、提示情報 I ( a ) を選択する意思表示をしたとしょう。この場合、たとえば、選択された提示情報 I (a) のみを提示するようにすれば、第 19図に示すように、領域 T (a) に映像データ V (a) に基づく第 1バイオリンの映像のみ力 ^?表示され、音響データ A (a) に基づく第 1バイオリンの演奏音のみ力 ^?、この領域 T (a) に音像を生じるように再生されることになる。視聴者は、特定の楽器の音色のみを聞きたい場合には、このような選択指示を行えばよい。なお、第 1 9図に示す例では、選択された提示情報 I (a) の映像のみが表示されているカ^ 視聴者に選択されなかった提示情報の映像については低輝度表示（いわゆるディマ一表示）を行うようにしてもよレ、。

前述したように、各発音体の再生音量を示す情報は、各音響データ内に予め用意されている。したがって、第 19図に示す状態では、音響データ A (a) 内の情報に応じた音量で第 1バイオリンの演^ が再生されることになり、第 17図に示すように四重奏すベての音響データを再生している状態に比べると、第 1バイオリンの演奏音量自体は変わらない力 ^?、全体の音量は低下する。また、実際に映像が表示される領域も全表示画面の 1 1 6のみとなってしまう。そこで、実用上は、映像および音を拡大させる機能を設けておくのが好ましい。たとえば、視聴者の拡大指示に応じて、第 19図に示す表示態様を第 20 図に示すように変更するような機能を設けておけばょレ ₀ このとき、映像の表示倍率に基づいて、音量も増加するような制御を行うの力 ^?好ましい。図示の例の場合、第 1バイオリンの映像が 4倍に拡大表示されたので、第 1バイオリンの演奏音も 4倍にすればよい（必ずしも物理的な音量を 4倍にする必要はなく、感覚的に音量が 4倍になればよい）。

第 19図に示す提示態様から、第 20図に示す態様に変更するためには、第 18図に示す提示情報 I (a) に対して修正を加え、第 2 1図に示すような提示情報 I (a 2) を生成すればよい。この提示情報 I (a 2) は、もとの映像データ V (a) の映像サイズを 4倍の大きさに拡大した映像データ V (a 2) と、もとの音響データ A (a) の音量を感覚的に 4倍の音量に拡大した音響データ A (a 2) と、もとの提示領域 T (a) を 4倍の大きさに拡大した領域データ T (a 2) = "10" とによって構成されている。

第 22図は、第 1 7図に示す状態において、領域 T (a) とともに隣接する領域の映像を 4倍に拡大する指示が与えられた場合の提示態様を示す平面図である。第 20図に示す例と同様に、領域 T (a 2) には第 1バイオリンの映像力？4倍に拡大表示されている力 ^?、この第 22図に示す例では、更に、その右に隣接する領域 T (b 2) に、第 2バイオリンの映像が 4倍に拡大表示されることになる。このような提示態様を得るためには、もとの提示情報 I (a) を第 2 1図に示すように変更するとともに、もとの提示情報 I (b) に対しても変更を加えて、第 23図に示すような提示情報 I (b 2) を得るようにすればよレ、。この変更後の提示情報 I (b 2) は、もとの映像データ V (b) の映像サィズを 4倍の大きさに拡大した映像データ V (b 2) と、もとの音響データ A (b) の音量を感覚的に 4倍の音量に拡大した音響データ A (b 2) と、もとの提示領域 T (b ) を 4倍の大きさに拡大した領域データ T (b 2 ) = "1 1" とによって構成されている。

第 2 2図に示す提示態様では、再生される音響データは、音響データ A (a 2) および A (b 2 ) のみとなり、これらの音響データは、それぞれ領域 T (a 2 ) および T (b 2 ) に音像が形成されるように再生され、しかも音量はもとの音量に比べて感覚的に 4倍になる。したがって、第 1 7図に示す表示態様から、第 22図に示す表示態様に切り替えた場合、映像の切り替えとともに音の切り替えも行われることになり、常に、映像と調和のとれた音を提示することが可能になる。すなわち、第 22図に示す提示態様では、表示画面の左下の位置から第 1バイオリンの演奏音が聞こえるとともに、表示画面の右下の位置から第 2バイオリンの演奏音が聞こえることになり、その音量も映像の大きさに応じたものになるため、違和感のない自然な状態で、映像と音とが提示されることになる。

以上、提示情報を拡大する指示が与えられた例を示した力 ^?、逆に縮小する指示力 S与えられた場合の処理も同様に行うことができる。この場合、映像が縮小表示されるとともに、音量も縮小することになり、映像および音の提示領域も変更されることになる。

また、上述の例では、画面に表示されている発音体の音のみが提示されることになる力'、場合によっては、表示されていない発音体の音も聞きたいことがある。たとえば、第 2 0図に示す表示の場合、第 1バイオリンの音を主として聞きつつ、第 2バイオリン、第 3バイオリン、ピアノの音もある程度の音量で同時に聞くことができれば、曲の全体的な雰囲気を把握することができ便利である。このような要求に応えるためには、オペレータの指示に基づいて、個々の発音体（現在表示されているか否かを問わず）の再生音量を任意の音量値に設定できるような機能を設けておき、音量値が設定された発音体に関する音を再生する際には、当該設定音量値による再生が行われるようにすればよい。たとえば、第 2 0図に示すような表示カ^?行われている状態では、通常は第 1バイォリンの音のみが領域 T ( a 2 ) に応じた音量で提示されることになる力ォペレータの指示により、第 2バイオリン、第 3バイオリン、ピアノの再生音量値の設定がなされた場合には、これらの楽器音も設定された音量値で提示されることになる。なお、画面に表示されていない発音体に関する音を提示する場合は、たとえば、全画面の領域に音像が形成されるように提示すればよい。もちろん、第 1 7図に示すような表示状態において、たとえば、第 1バイオリンの再生音量だけを大きく設定するようなことも可能である。

§ 5 . 階層構造をもった発音体定義を行う提示例 (2)

ここでは、階層構造をもつた発音体定義を行う別な実施形態を述べることにする。第 2 4図は、学習用の恐竜の映像（動画でも静止画でもかまわない）を音とともに提示した状態を示す平面図である。図では説明の便宜上、いくつかの分割線が描かれている力'、実際の表示画面上では、これらの分割線を表示する必要はない。ここでは、この表示画面上に、第 2 5図の左に示すように、領域 T (a) 〜Τ (e) が定義されているものとし、各領域には、第 2 5図の右に示すような提示情報 I (a) 〜 I (e) に基づいて映像および音が提示されるものとする。

領域 T (a) は、この表示画面全体に相当する上位階層の領域であり、この中に下位階層の領域 T (b) 〜T (e) 力含まれることになる。下位階層の領域 T (b) 〜T (e) は、恐竜の特定の部分を示す領域であり、具体的には、領域 T (b) は恐竜の頭部、領域 T (c ) は恐竜の胸部、領域 T (d) は恐竜の脚部、領域 T (e) は恐竜の尾部に相当し、これら各部はそれぞれが独立した下位発音体として機能する。提示情報 I (b) 〜 I (e) は、これら各発音体が発生する音を提示するための音響データ A (b) 〜A (e) と、これら各部の領域を示す領域データ T (b) 〜T (e) とによって構成されている。たとえば、音響データ A (b) は恐竜の咆哮音のデータであり、音響データ A (c) は恐竜の心臓音のデータであり、音響データ A (d) は恐竜の足音のデータであり、音響データ A (e) は恐竜の尾擦音のデータである。

一方、提示情報 I (a) は、恐竜および背景の映像からなる映像データ V (a) と、上記各下位発音体のすべてを含む上位発音体の発生する音（具体的には、恐竜の発生する音のすべてと、背景の木々の発生する背景音）を示す音響データ A (a) と、全表示画面に相当する領域を示す領域データ T (a) とによって構成されている。なお、恐竜は現存生物ではないので、実在の恐竜の生成する音を実際に録音することにより各音響データを用意することはできなレ。したがって、各音響データは、シンセサイザ一などを用いた合成手法により用意されることになる。

こうして、第 25図に示すような提示情報が用意できれば、視聴者の要望に応じた種々の提示態様で、恐竜に関する映像および音の情報を提示することができる。たとえば、第 2 4図に示すような初期状態の表示では、第 2 5図に示す全提示情報のうち、全体が表示されている最も上位階層の発音体に関する音響データを全領域に再生すればよい。そして、必要に応じて、視聴者が指定した特定の発音体の音のみが選択的に再生されるようにする。たとえば、視聴者がマウスなどのボインティングデバイスを用いて、恐竜の頭部近傍をクリックする操作を行った場合、提示情報 I (b) を選択する意思表示がなされたものとして、音響データ A (b) に基づく音のみを、領域 T (b) に音像が生成されるように再生すればよい。視聴者には、恐竜の咆哮音のみが提示されることになる。また、前述した例と同様に、特定の映像部分を拡大表示したり、縮小表示したりする機能を設けておき、この拡大縮小倍率に基づいて音量を変化させて提示することも可能である。

たとえば、第 26図は、領域 T (e) の部分を中心として、恐竜の尾部を 4 倍に拡大表示させた状態を示す図である。このように提示態様を変更した場合、第 25図に示す提示情報 I (e) は、第 27図に示すように修正されることになる。すなわち、恐竜の尾擦音を示す音響データ A (e) は、音量が感覚的に 4倍に増加した音響データ A (e 2) に修正され、音響再生領域を示す領域データ T (e) は、 4倍大の領域データ T ( e 2) に修正されることになる。その結果、 4倍の音量からなる尾擦音が、 4倍大の領域に音像力 s生成されるような態様で提示されることになる。

なお、第 24図に示す例では、表示画面上の特定の分割領域として、各発音体の位置を定義している力 ^?、恐竜を動画として提示する場合には、第 28図に示すように、表示画面上の領域ではなく映像データ上の領域として各発音体の位置を定義する必要がある。すなわち、映像データ上の恐竜頭部の領域 T (b) 、恐竜胸部の領域 T (c) 、恐竜脚部の領域 T (d) 、恐竜尾部の領域 T (e) 、そして背景領域 T (g) のように、各領域を映像データと関連させて定義し、提示情報としては、第 29図に示すような提示情報 I (b) 〜 1 (g) を用意しておけばよい。このように、発音体の位置を映像データ上の領域として定義しておけば、表示画面上の絶対的な位置とは無関係に発音体の領域を特定することができるので、恐竜を動画として提示する場合にも何ら支障は生じない。

このように、恐竜を動画として提示する場合、たとえば、第 30図に示すように、恐竜の映像の一部が岩などによって隠されてしまうようなことも考えられる。図示の例では、領域 T (h) に表示された岩によって、第 28図に示す恐竜の尾部の領域 T (e ) の 100%が隠蔽されてしまっており、恐竜の脚部の領域 T (d) 、恐竜の輪郭領域 T (f ) 、背景領域 T (g) の一部分が隠蔽されてしまっている。

このような場合、映像の隠蔽部分の面積に対応する量だけ音量を低減させて再生するようにするのが好ましい。たとえば、恐竜の尾部の領域 T (e) は 100%が隠蔽されてしまっているので、音響データ A (e) に基づく音は、再生時に 1 00%の音量低減を行うようにし、尾摩音力 ^?全く聞こえないようにする。また、恐竜の脚部の領域 T (d) 、恐竜の輪郭領域 T (f) 、背景の領域 T (g) if それぞれ x%、 y%、 z %に低減し、新たな領域 T (d 2) 、領域 T ( f 2) 、領域 T (g 2) となった場合には、第 29図に示す各提示情報を、第 3 1図に示すように修正すればよレ。領域データによって示される領域の面積は、隠蔽された分だけ低減することになり、同時に、音響データによつて示される音量値も、隠蔽された分だけ低減することになる。

要するに、互いに重なり合う領域データをもった複数組の提示情報を同時に提示する場合に、複数の提示情報に優先順位を定義し、互いに重なりを生じている部分については、優先順位の高い提示情報についての映像のみを再生し、優先順位の低い提示情報についての映像が隠蔽されるようにし、各提示情報についての音を再生する際に、映像の隠蔽部分の面積に対応する量だけ音量を低減させて再生するような処理を行えばよい。

§ 6. 所定の領域への音像形成方法

前述したように、本発明を実施する上では、領域データ Tによって示される所定の領域に音像が形成されるように、音響データ Aを再生する必要がある。ここでは、表示画面上の所定の領域に音像を形成するための具体的な方法を述ベることにする。

第 3 2図は、本発明に係る音と映像を提示する装置における音源と表示画面との位置関係を示す正面図である。この装置では、矩形の表示画面 1 1 0を有する表示装置が用いられており、この表示画面 1 1 0のほぼ 4隅に位置する配置点 P 1〜P 4に、 4つの音源 2 1 0〜2 4 0 (スピーカ）力己置されている。このように、表示画面 1 1 0の 4隅に配置された 4つの音源を用いて音響信号を提示すると、表示画面 1 1 0上の任意の位置 Pに音像を形成させることができる。音像の位置 Pは、各音源の音量を制御することにより自由に設定することができる。

たとえば、 4つの音源から同一の音響信号に基づく音を、すべて等しい音量で再生すると、表示画面 1 1 0の中心位置に音像カ^?形成されることになる。このような中立状態から、左側の音源 2 1 0， 2 3 0の音量を増加させると音像は左側へと移動し、逆に、右側の音源 2 2 0 , 2 4 0の音量を増加させると音像は右側へと移動する。同様に、上記中立状態から、上側の音源 2 1 0 , 2 2 0の音量を増加させると音像は上側へと移動し、逆に、下側の音源 2 3 0， 2 4 0の音量を増加させると音像は下側へと移動する。結局、任意の位置 Pに音像を形成させたい場合、 4隅の配置点 P 1〜P 4のそれぞれと、位置 Pとの距離を求め、これらの距離に応じて各音源 2 1 0〜2 4 0の音量を制御すればよいことになる。

なお、 4つの音源を用いる代わりに、 2つの音源を用いても、音像位置をある程度制御することは可能である。たとえば、左右に配した一対の音源を用いれば、音像位置を左右方向に制御することができ、上下に配した一対の音源を用いれば、音像位置を上下方向に制御することができる。したがって、 2つの音源のみを用いても、本発明の効果はある程度得ることができる。しかしな力？ら、より効果的な音像位置制御を行う上では、上述した例のように、表示画面

1 10の 4隅に設けた 4つの音源を用いるの力好ましい。なお、図示の例では、正方形状の表示画面 1 1 0を用いているカ^ もちろん、長方形状の表示画面を用いても問題はない。また、この 4つの音源は、理論的には、表示画面 1 10 の 4隅に配置するのが理想的であるが、人間の聴覚による定位機能は、あまり正確ではないため、実用上は、必ずしも表示画面 1 1 0の 4隅の位置に正確に各音源を配置する必要はない。

さて、第 32図に示すように、表示画面 1 10の 4隅の位置に配置された 4 つの音源 2 10〜240を用い、これら各音源の音量制御を行なえば、任意の位置 Pに音像を形成させること力 ^?可能である力 ^?、こうして形成された音像はあくまでも点として与えられる音像である。これに対して、本発明を実施する上で必要な音像は、所定の領域に分布した面としての音像である。そこで、ここでは、第 33図に示すように、 4つの音源 2 10〜2 40を用いて、表示画面 1 10上の任意の矩形領域 T ( X ) に、面としての音像を形成するための方法を以下に述べる。

ここでは、まず、第 3 4図に示すような提示情報 I ( X ) 力 ^?与えられた場合を考える。この提示情報 I ( X ) は、映像データ V ( X ) と、領域データ T ( X ) と、 4チャンネルの音響データ A 1 (x) 〜A 4 (x) とによって構成されている。領域データ T ( X) は、第 33図に示す領域 T (X ) を定義するためのデータであり、映像再生領域および音響再生領域として機能する。したがって、映像データ V (X) は、この領域 T ( X) 内に再生されることになり、また、 4チャンネルの音響データ A 1 ( X ) 〜A4 (x) に基づく音は、この領域 T ( X ) 内に音像を形成するような態様で再生されることになる。

このような提示情報 I ( X ) に基づく音の提示は、次のような方法により行われる。まず、矩形領域として定義された領域 T ( X ) の 4頂点位置に代表点

P 1 1〜P 14を定める。そして、この 4つの代表点のそれぞれに 4チャンネルの音響データ A l (x) 〜A4 (x) をそれぞれ対応させる。具体的には、音響データ A 1 (x) は代表点 P I 1に、音響データ A 2 (X ) は代表点 P 12に、音響データ A 3 ( X ) は代表点 P 13に、音響データ A 4 (x) は代表点 P 14に、それぞれ対応づけられることになる。通常、 4チャンネルの音響データは、所定の発音体の前後左右に配置された 4つのマイクで録音することにより得られる。したがって、各音響データと代表点とを対応づける場合、各音響データの録音時のマイクの^ Ϊ置が、各代表点位置と整合性を有するようにするの力 ^s好ましい。

続いて、各音源の配置点 P 1〜P 4と各代表点 P 1 1〜P 14との距離を演算し、この距離に応じた音量制御を行うことにより、各代表点？ 1 1〜？ 14 の位置にそれぞれ対応する音響データの音像が得られるように、 4チャンネルの音響データ A 1 (x) 〜A4 (x) の再生を行うのである。たとえば、各音源 2 10〜240に音響データ A 1 (X ) に基づく音響信号を供給し、それぞれの音量を適当に制御することにより、代表点 P 1 1の位置に、第 1チャンネルの音響データ A l (X ) の音像力 ^?得られるようにすることは、第 3 2図で説明したように可能である。全く同様に、各音源 2 1 0〜 24 0に音響データ A 2 (x) に基づく音響信号を供給し、代表点 P 12の位置に第 2チャンネルの音響データ A2 ( X) の音像力得られるように音量制御することも可能であり、各音源 2 10〜240に音響データ A 3 (x) に基づく音響信号を供給し、代表点 P 13の位置に第 3チャンネルの音響データ A 3 ( X ) の音像が得られるように音量制御することも可能であり、各音源 2 1 0〜240に音響データ A 4 (x) に基づく音響信号を供給し、代表点 P 14の位置に第 4チャンネルの音響データ A4 ( X) の音像力 ^?得られるように音量制御することも可能である o

そこで、各音源 2 10〜 240に、 4チャンネルの音響データ A 1 (x) 〜 A 4 (x) に基づく音響信号を合成して供給し、このとき、上述した位置に各音像が得られるように、各チャンネルごとの音量制御を行つた上で信号合成を行うようにすれば、代表点 P 1 1には音響データ A 1 ( X ) に基づく音の音像力 s得られ、代表点 p 12には音響データ A 2 ( X ) に基づく音の音像が得られ、代表点 P 1 3には音響データ A3 (X ) に基づく音の音像が得られ、代表点 P 14には音響データ A4 ( X) に基づく音の音像が得られることになる。このように、原理的には、 4つの代表点にそれぞれ各チャンネルの音の音像を形成するようにしていることになるカ^ 人間の耳にとっては、この 4つの代表点 P 1 1〜P 14を 4頂点とする矩形領域 T (X ) に平面的な広がりをもった音像が認識されることになる。

このような手法により、表示画面 1 1 0上の任意の領域に音像を形成すること力不可能になる。第 35図は、第 34図に示す提示情報 I (X) に基づいて、各音源（スピーカ） 2 1 0〜240に与える再生音信号を演算する方法を示す図である。ここで、 f (Pm, P n) は、 2点 Pm、 P n間の距離に応じて定まる関数であり、 2点間の麟隹カ ^s小さくなればなるほど大きな値をとる。また、 AAk ( x ) は、第 k番目のチャンネルの音響信号の振幅を示している。たとえば、 f (P 1， P 1 1 ) は、代表点 P 1 1と配置点 P 1との距離に応じて定まる関数であり、 AA 1 ( X) は第 1チャンネルの音響データ A 1 ( X) に基づく音響信号の振幅を示している。音源 2 1 0の再生音は、 4チャンネルの音響信号 AA 1 ( X) 〜AA4 (x ) を合成することにより得られることになるが、それぞれ代表点と配置点との距離に応じて定まる関数が係数として乗じられることになる。

以上、与えられた音響デ一タカ 4チャンネルの場合について説明したが、左右 2チャンネルの音響データ（ステレオ音響データ）力 ^?与えられた場合には、第 33図に示す矩形領域 T ( X ) の 4隅に定義された 4つの代表点 P 1 1〜 P 14のうちの左側の 2つの代表点 P 1 1， P 13に左側音響デ一タを対応させ、右側の 2つの代表点 P 12， P 14に右側音響信号を対応させるようにすればよい。別言すれば、代表点 P 1 1の位置および代表点 P 1 3の位置のそれぞれには、左側音響データに基づく再生音の音像が形成され、代表点 P 1 2の位置および代表点 P 1 4の位置のそれぞれには、右側音響データに基づく再生音の音像が形成されることになる。

また、モノラル（ 1チャンネル）の音響データが、与えられた場合には、第 3 3 図に示す矩形領域 T (X ) の 4隅に定義された 4つの代表点 P 1 1〜 P 1 4のすべてに、モノラル音響データを対応させるようにすればよい。この場合、代表点 P 1 1， P 12 , P 1 3, P 1 4の各位置のそれぞれに、モノラル音響デー夕に基づく再生音の音像が形成されることになる。もともとの音響データ自体はモノラルである力 ^?、音像は 4つの代表点位置にそれぞれ形成されることになるため、全体として、矩形領域 T ( X) 内に分布した平面的な広がりをもった音像が得られることになる。

第 3 6図は、第 3 2図に示す装置を用いて、 2組の提示情報を同時に提示した状態を示す正面図であり、第 3 7図は、第 3 6図に示す提示を行うために用意すべき提示情報を示す図である。第 1の提示情報 I (a) は、バスケットポールの試合に関する情報であり、バスケットボールの映像を示す映像データ V (a) と、バスケットボールのステレオ音声を示す 2チャンネルの音響データ A (a) =A 1 (a) ， A 2 (a) と、映像再生領域および音響再生領域を示す領域データ T (a) = "0 1 1 0" とによって構成されている。一方、第 2 の提示情報 I (b) は、コンサートに関する情報であり、コンサートの映像を示す映像データ V (b) と、コンサートの 4チャンネル音声を示す音響データ A (b) =A 1 (b) 〜A4 (b) と、映像再生領域および音響再生領域を示す領域データ T (b) = " 1 0 1 1 " とによって構成されている。

第 3 6図に示すように、表示画面 1 1 0上の領域 T (a) には、映像データ V (a) に基づく映像が提示され、領域 T (b) には、映像データ V (b) に基づく映像が提示されている。また、提示される音に関しては、領域 T (a) には音響データ A ( a) に基づいて再生された音の音像が形成され、領域 T (b) には音響データ A (b) に基づいて再生された音の音像が形成される。このように、それぞれ異なる音響再生領域に再生すべき複数の音響データが用意されていた場合に、各音響データに基づく音像が重畳して得られるように、各音源による音の再生を行えばよい。

より具体的には、第 3 6図に示す代表点 P a 1， P a 3には、音響データ A 1 (a) に基づく音の音像が形成され、代表点 Pa 2， P a4には、音響データ A2 (a) に基づく音の音像が形成され、代表点 P b 1には、音響データ A 1 (b ) に基づく音の音像が形成され、代表点 P b 2には、音響データ A 2 (b) に基づく音の音像が形成され、代表点 P b 3には、音響データ A 3 (b ) に基づく音の音像が形成され、代表点 P b 4には、音響データ A 4

(b) に基づく音の音像が形成されるように、各音源 2 1 0〜 240の音量制御を行えばよい。

なお、ここに示す実施形態では、各提示情報の提示位置および提示倍率を、視聴者の指示に基づいて任意に変更できるようにしている。たとえば、第 38 図は、第 36図において提示されていた提示情報 I ( a) ， I (b) の提示位置を、領域 T (a 2 ) ， T (b 2 ) に変更し、更に、新たな提示情報 I

(c) , I (d) を提示した状態を示す正面図である。第 39図は、第 38図に示す提示を行うために用意すべき提示情報を示す図である。提示情報 I (a) ， I (b) については、領域データがそれぞれ T (a 2) , T (b 2) に修正されている。

また、新たに加わった第 3の提示情報 I (c) は、ベースボールの試合に関する情報であり、ベースボールの映像を示す映像データ V (c) と、ベースボールの音声を示す音響データ A (c) と、映像再生領域および音響再生領域を示す領域データ T (c) = "10" とによって構成されている。一方、第 4の提示情報 I (d) は、ョットに関する情報であり、ョットの映像を示す映像データ V (d) と、ヨットの音声を示す音響データ A (d) と、映像再生領域および音響再生領域を示す領域データ T ( d) = " 00 01 " , "001 1" ， "01" ， "1 1 " とによって構成されている。

なお、ここに示す実施形態では、各提示情報の音響データを再生する際の音量は、映像再生領域が基準面積、すなわち、表示画面 1 1 0の 1/1 6に相当する面積である場合に基準音量とし、映像カ^?拡大表示された場合には、表示倍率に基づいて音量を増減制御するようにしている。したがって、図 3 8に示す例では、基準面積の領域 T (a 2) , T (b 2) に表示されているバスケットボールの音およびコンサ一トの音については、基準音量で再生されることになるが、 4倍大の領域 T (c) に表示されているベースボールの音は、基準音量の 4倍の音量で再生され、 1 0倍大の領域 T (d) に表示されているヨットの音は、基準音量の 10倍の音量で再生されることになる（ヨットの本来の映像は、基準面積の 12倍大の領域に表示されるべきである力^ その一部はベースボールの映像によって隠蔽されているため、実表示面積は基準面積の 10倍となっている）。

もっとも、人間の聴覚の性能を考慮すると、第 38図に示された 4種類の提示情報に関する音をすベて聞き分けることは困難である。したがって、実用上は、最も表示面積の大きなョットに関する音のみを再生するか、表示面積が 2 位までの提示情報の音のみ（すなわち、ヨットに関する音とベースボールに関する音のみ）を再生するようにするの力好ましい。

§ 7. 映像データおよび音響データの実用的構成例

第 40図は、本発明に係る音と映像を提示する方法を実行する際に用意すベき映像データおよび音響データの実用的な構成例を示す図である。まず、映像データ Vとしては、最大拡大率に応じた高解像度の映像データを用意しておく。すなわち、最も高い拡大倍率で表示した場合にも、良好な映像が再生できるような解像度の高い映像データを用意しておくようにする。たとえば、映像データ Vとして、オーケストラのメンバー全員の映像を用意する場合、最大拡大率で表示したときにバイオリンの弦 1本 1本の拡大映像までが提示可能であるならば、この弦 1本 1本の映像を良好に再生できるような高い解像度の映像デ一タを用意しておくことになる。

一方、音響データ Aとしては、階層構造をもったデータを用意しておく。図示の例では、第 1階層の音響データ Aに、第 2階層の音響データ A 1， A 2， …が包含されており、更に、第 2階層の音響データ A 1には、第 3階層の音響データ A 1 1， A 1 2， A 1 3， …が包含され、第 2階層の音響データ A 2には、第 3階層の音響データ A 2 1， A 2 2 , …が包含される、という形態になつている。映像データとしてオーケストラの映像を用意した場合、たとえば、第 1階層の音響データ Aは、ォ一ケストラ全体の演 ^を収録したデータとなり、第 2階層の音響データ A 1は、第 1バイオリンのメンバ一全員の演奏音を収録したデ一タとなり、第 3階層の音響データ A 1 1は、第 1バイォリンの特定の 1人のメンバーの演奏音を収録したデータとなる。更に細かな階層構造を定義すれば、この特定のメンバーの所有するバイオリンの第 1の弦についての振動音のみを収録した音響データを用意することも可能である。

第 4 1図には、階層構造をもった領域定義の一例を示す。図示の例では、第 1階層の領域 T内に、一点鎖線で示す第 2階層の領域 T 1， T 2 , …が包含されており、更に、これら第 2階層の領域内には、破線で示す第 3階層の領域 T 1 1， T 1 2， T 1 3， …が包含される、という形態になっている。上述したオーケストラの例に対応させるのであれば、たとえば、第 1階層の領域 Τは、オーケストラ全体の映像に対応した領域となり、第 2階層の領域 Τ Γは、第 1 バイオリンのメンバ一全員の映像に対応した領域となり、第 3階層の領域 T 1 1は、第 1バイオリンの特定の 1人のメンバ一の映像に対応した領域となる。更に細かな領域を定義すれば、この特定のメンバ一の所有するバイオリンの第 1の弦についての映像に対応する領域などを定義することも可能である。なお、ここでは個々の領域を矩形領域として定義している力 ^?、必要に応じて、任意の形状をもつた領域定義が可能である。

このような構成で用意された提示情報は、一種のデータベースの形態で利用可能である。たとえば、視聴者がオーケストラ全体についての学習を行いたい場合には、第 1階層の領域 Tに対応するオーケストラ全体の映像を表示させる指示を与え、ォ一ケストラ全体の音響データを再生させるようにすればよいし、第 1バイオリンについての学習を行いたい場合には、第 2階層の領域 T 1に対応する第 1バイォリンのみの映像を表示させる指示を与え、第 1バイオリンの音響データを再生させるようにすればよレ、。この場合、領域 T 1内の映像が、表示画面全体に拡大表示されるようにするのが好ましい。

なお、このように、映像画面を任意に拡大または縮小して表示させることができるようにした場合、現時点において、全体が表示されている最も上位階層の発音体に関する音が選択的に再生されるようにしておくと便利である。たとえば、視聴者がォーケストラ全体の映像を表示画面一杯に表示させる指示を与えると、最も上位階層の発音体であるオーケストラ全体の音のみ力 ^選択的に再生されることになり、第 1バイオリンのみの映像を表示画面一杯に表示させる指示を与えると、その時点において、全体力表示されている最も上位階層の発音体である第 1バイオリンの音のみ力 ^?選択的に再生されることになる。すなわち、視聴者が映像データに対する選択操作を行うと、これに応じて自動的に音響データ力 ^?選択されるようになる。このような機能は、本発明に係る装置をデ一タベースの閲覧装置として利用するような場合に、操作性を向上させる上で重要である。

近年、高速なデータ伝送技術力発達してきており、かなり大きな容量のデータを比較的短時間で伝送すること力 ^?可能になってきている。したがって、美術館や博物館などに設置したコンピュータ内に、上述のような階層構造をもった提示情報を用意しておき、必要に応じて必要なデ一タを伝送するようにすれば、データベースとしての利用形態が可能になる。たとえば、上述の例では、視聴者がオーケストラ全体の情報を要求している場合には、第 1階層の情報提示に必要なデータのみを伝送するようにすればよいし、下位階層のより細かな情報を要求している場合には、要求に応じた階層の情報提示に必要なデータを改めて伝送するようにすればよい。また、最近では、 D V Dなどの大容量の記憶媒体も普及し始めており、このような記' β体にデータベースを構築しておけば、伝送路を介さずに直接データベースにアクセスすることカ^?可能になる。また、このようなデータベース自身を、コンピュータによって利用させることも可能であり、たとえば、心臓音を空間的階層構造をもって収録した音響データからなるデータべ一ス（たとえば、特定の弁の直近における収録音と、心臓全体の音の収録音とでは、前者が下位発音体、後者が上位発音体となる階層構造が得られる）を用意しておけば、コンピュータによる医療診断技術への応用も可能になる。

§ 8 . 本発明に係る音と映像を提示する装置の構成

最後に、本発明に係る装置の構成例を簡単に述べておく。第 4 2図は、本発明に係る音と映像を提示する装置の基本構成を示すブロック図である。図示のとおり、この装置は、表示装置 1 0 0、音響装置 2 0 0、映像再生装置 3 0 0、音響再生装置 4 0 0、提示情報格納装置 5 0 0、提示態様変更装置 6 0 0、指示入力装置 7 0 0、情報読込装置 8 0 0によって構成されている。ここで、表示装置 1 0 0は、映像を提示するための表示画面 1 1 0を有する装置であり、たとえば、多数の発光ダイオードをマトリックス状に配置してなる大型のディスプレイ装置などによって構成される。音響装置 2 0 0は、この表示画面 1 1 0内の任意の領域に音像力形成されるように音を提示することができるように、表示画面 1 1 0の周囲に配置された複数の音源 2 1 0〜 2 4 0を有する装置であり、具体的には、表示画面 1 1 0の周囲に配置されたスピーカシステムから構成されている。提示情報格納装置 5 0 0は、提示対象となる映像を示す映像データ Vと、提示対象となる音を示す音響データ Aと、映像データ Vを再生すべき映像再生領域および音響データ Aを再生すべき音響再生領域を示す領域データ Tと、を含む提示情報 Iを格納する装置であり、実際にはコンピュータのメモリや外部記憶装置などによって構成される。また、映像再生装置 3 0 0は、表示画面 1 1 0上の映像再生領域に映像データ Vに基づく映像を再生する機能を有し、音響再生装置 4 0 0は、表示画面 1 1 0上の音響再生領域に音像が形成されるように、音響装置 2 0 0の複数の音源 2 1 0〜 2 4 0を用いて、音響データ A に基づく音を再生する機能を有する。

更に、指示入力装置 7 0 0は、オペレータ（視聴者）の指示を入力する装置であり、提示態様変更装置 6 0 0は、この入力された指示に基づいて、提示情報格納装置 5 0 0内の提示情報 Iに修正を加え、音および映像の提示態様を変更する機能を果たす。提示対象となる音響データの選択指示や、映像データを拡大表示させる指示などは、この指示入力装置 7 0 0から入力され、提示態様変更装置 6 0 0によって、提示態様を変更するための処理が実行されることになる。

また、情報読込装置 8 0 0は、 C D— R 0 Mや D V Dなどの情報記録媒体 9 0 0に記録されている提示情報 Iを読み込んで、提示情報格納装置 5 0 0内に格納する処理を行う装置であり、実用上は、種々の提示情報は、情報記録媒体 9 0 0に収録されて提供されることになる。産業上の利用可能性

本発明に係る音と映像を提示する装置および方法は、音とともに映像を提示する必要がある技術分野に広く利用すること力可能であり、コンピュータを用いたマルチメディアコンテンツの提供ゃデ一タベースの提供などに応用することができる。

Claims

請求の範囲

1. 映像を提示するための表示画面（ 1 1 0 ) を有する表示装置 (100) と、

前記表示画面の周囲に配置された複数の音源（2 1 0— 240) を有し前記表示画面内の任意の領域に音像が形成されるように音を提示する、音響装置 (200) と、

提示対象となる映像を示す映像データ（V) と、提示対象となる音を示す音響データ（A) と、前記音響データを再生すべき音響再生領域を示す領域デー夕（T) と、を含む提示情報（I) を ¾H¾する提示情報格納装置 (500) と、前記表示画面上の所定の映像再生領域に前記映像データに基づく映像を再生する映像再生装置（300) と、

前記表示画面上の前記音響再生領域に音像が形成されるように、前記音響装置の複数の音源を用いて、前記音響データに基づく音を再生する音響再生装置 (400) と、

を備えることを特徴とする音と映像を提示する装置。

2. 請求項 1に記載の音と映像を提供する装置において、

領域データ（τ) 力 ^?、音響データをすべき音響再生領域を示すとともに、映像デ一タを再生すべき映像再生領域を示す情報を含むことを特徴とする音と映像を提示する装置。

3. 請求項 1または 2に記載の音と映像を提供する装置において、オペレ一夕の指示を入力する指示入力装置（700) と、

前記指示に基づいて、提示情報格納装置（500) 内の提示情報（ I) に修正を加え、音および映像の ^態様を変更する提示態様変更装置（600) と、を更に備えることを特徴とする音と映像を提示する装置。

4. 請求項 1〜 3のいずれかに記載の音と映像を提示する装置において、情報記録媒体（900 ) に記録されている提示情報（I) を読み込んで、提示情報格納装置（ 500 ) 内に格納する処理を行う情報読込装置（800) を更に備えることを特徴とする音と映像を提示する装置。

5. 請求項 1〜4のいずれかに記載の音と映像を提示する装置において、矩形の表示画面（1 1 0) を有する表示装置（1 00) と、この表示画面のほぼ 4隅に位置する配置点（P 1〜P 4) に配置された 4つの音源（2 10〜 240) を有する音響装置（200) と、を用いるようにし、

音響再生領域（T (X ) ) を矩形の領域として定義するようにし、この矩形領域の 4頂点位置に前記音響再生領域を代表する代表点（P 1 1〜P 14) を定め、

前記音響再生領域に再生すべき音響データ（A) が 4チャンネルの音響信号 (A l ( X ) 〜A4 (X ) ) によって構成されていた場合に、前記 4つの代表点のそれぞれに前記 4チャンネルの音響信号をそれぞれ対応させ、

前記各配置点と前記各代表点との距離を演算し、この距離に応じた音量制御を行うことにより、前記各代表点の位置にそれぞれ対応する音響信号の音像が得られるように、音響再生装置（400 ) による音の再生力行われるようにしたことを特徴とする音と映像を提示する装置。

6. 請求項 1〜4のいずれかに記載の音と映像を提示する装置において、矩形の表示画面（1 1 0) を有する表示装置（10 0) と、この表示画面のほぼ 4隅に位置する配置点（P 1〜P 4 ) に配置された 4つの音源（2 10〜 240) を有する音響装置（200) と、を用いるようにし、音響再生領域（T (x) ) を矩形の領域として定義するようにし、この矩形領域の 4頂点位置に前記音響再生領域を代表する代表点（P 1 1〜P 14) を定め、

前記音響再生領域に再生すべき音響データ（A) が 2チャンネルのステレオ音響信号によって構成されていた場合に、前記 4つの代表点のうちの左側の 2 つの代表点に左側音響信号を対応させ、右側の 2つの代表点に右側音響信号を対応させ、

前記各配置点と前記各代表点との距離を演算し、この距離に応じた音量制御を行うことにより、前記各代表点の位置にそれぞれ対応する音響信号の音像が得られるように、音響再生装置（400 ) による音の再生が行われるようにしたことを特徴とする音と映像を提示する装置。

7. 請求項 1〜 4のいずれかに記載の音と映像を提示する装置において、矩形の表示画面（1 1 0) を有する表示装置（100) と、この表示画面のほぼ 4隅に位置する配置点（P 1〜P 4) に配置された 4つの音源（2 10〜

240) を有する音響装置（200) と、を用いるようにし、

前記音響再生領域に再生すべき音響データ（A) がモノラル音響信号によつて構成されていた場合に、前記 4つの代表点のそれぞれに前記モノラル音響信号を対応させ、

前記各配置点と前記各代表点との距離を演算し、この距離に応じた音量制御を行うことにより、前記各代表点の位置にそれぞれ対応する音響信号の音像が得られるように、音響再生装置（400 ) による音の再生力 ^?行われるようにしたことを特徴とする音と映像を提示する装置。

8 . 請求項 1〜 7のいずれかに記載の音と映像を提示する装置において、それぞれ異なる音響再生領域に再生すべき複数の音響データが用意されていた場合に、各音響データに基づく音像が重畳して得られるように、音響再生装置（4 0 0 ) による音の再生カ行われるようにしたことを特徴とする音と映像を提示する装置。

9 . 請求項 1〜 7のいずれかに記載の音と映像を提示する装置において、互いに重なり合う領域データをもつた複数組の提示情報を同時に提示する場合に、

複数の提示情報に優先順位を定義し、互いに重なりを生じている部分については、優先順位の高い提示情報についての映像のみを再生し、優先順位の低い提示情報についての映像が隠蔽されるようにし、

各提示情報についての音を再生する際に、映像の隠蔽部分の面積に対応する量だけ音量を低減させて再生する機能を有することを特徴とする音と映像を提示する装置。

1 0. 請求項 1〜 7のいずれかに言己載の音と映像を提示する装置において、それぞれ異なる音響再生領域に再生すべき複数の音響デ一タ力用意されていた場合に、オペレータの操作入力に基づいて選択された特定の音響再生領域についての音響データのみの再生が行われるようにしたことを特徴とする音と映像を提示する装置。

1 1 . 所定の表示画面上に映像を提示するとともに、この映像に関連した音を提示するための方法であって、

上位階層の領域が 1つまたは複数の下位階層の領域を包含するように階層構造をもった領域が定義され、下位階層の領域には下位発音体が表示され、上位階層の領域には前記下位発音体を含む上位発音体力表示されている映像画面を再生するための映像データを用意する段階と、

前記下位発音体によって生成される音と、前記上位発音体によって生成される音と、を再生するための音響データを用意する段階と、

前記映像データに基づいて前記映像画面の全体または一部を再生するとともに、前記音響データに基づいて所定の発音体に関する音を再生する段階と、を有することを特徴とする音と映像を提示する方法。

1 2 . 請求項 1 1に記載の音と映像を提示する方法において、

再生中の映像画面内の特定の発音体を指定する入力がなされた場合に、前記特定の発音体に関する音力 ^?選択的に再生されるようにしたことを特徴とする音と映像を提示する方法。

1 3 . 請求項 1 2に記載の音と映像を提示する方法において、

特定の下位発音体を拡大表示すべき入力がなされた場合に、前記下位発音体を含む領域を拡大表示するとともに、前記下位発音体に関する音が選択的に再生されるようにしたことを特徴とする音と映像を提示する方法。

1 4 . 請求項 1 1に記載の音と映像を提示する方法において、

映像画面を任意に拡大または縮小して表示させることができるようにし、現時点において、全体が表示されている最も上位階層の発音体に関する音が選択的に再生されるようにしたことを特徴とする音と映像を提示する方法。

1 5 . 請求項 1 4に記載の音と映像を提示する方法において、

発音体の表示倍率に基づいて、当該発音体に関する音の音量を制御するようにしたことを特徴とする音と映像を提示する方法。

1 6 . 請求項 1 1に記載の音と映像を提示する方法において、

オペレータの指示に基づいて、個々の発音体の再生音量を特定の音量値に設定できるようにし、音量値が設定された発音体に関する音を再生する際に、当該設定音量値による再生が行われるようにしたことを特徴とする音と映像を提示する方法。

1 7 . 請求項 1 1に記載の音と映像を提示する方法において、

主として下位発音体の発生する音を集音することが可能な指向性をもったマイクを、前記下位発音体の近傍に設置することにより前記下位発音体の音を録音し、

上位発音体の発生する音全体を集音すること力可能な指向性をもったマイクを、前記上位発音体の発生する音全体を集音するのに適した位置に設置することにより前記上位発音体の音を録音し、

これらの録音によって得られた信号に基づいて音響デ一タを用意することを特徴とする音と映像を提示する方法。