WO2000018112A1 - Apparatus and method for presenting sound and image - Google Patents

Apparatus and method for presenting sound and image Download PDF

Info

Publication number
WO2000018112A1
WO2000018112A1 PCT/JP1998/004301 JP9804301W WO0018112A1 WO 2000018112 A1 WO2000018112 A1 WO 2000018112A1 JP 9804301 W JP9804301 W JP 9804301W WO 0018112 A1 WO0018112 A1 WO 0018112A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
video
data
area
presenting
Prior art date
Application number
PCT/JP1998/004301
Other languages
English (en)
French (fr)
Inventor
Shinsuke Nishida
Original Assignee
Fourie, Inc.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fourie, Inc. filed Critical Fourie, Inc.
Priority to EP98944238A priority Critical patent/EP1035732A1/en
Priority to PCT/JP1998/004301 priority patent/WO2000018112A1/ja
Priority to AU91853/98A priority patent/AU756265B2/en
Priority to CA002311817A priority patent/CA2311817A1/en
Publication of WO2000018112A1 publication Critical patent/WO2000018112A1/ja

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • G06F3/1423Digital output to display device ; Cooperation and interconnection of the display device with other functional units controlling a plurality of local displays, e.g. CRT and flat panel display
    • G06F3/1446Digital output to display device ; Cooperation and interconnection of the display device with other functional units controlling a plurality of local displays, e.g. CRT and flat panel display display composed of modules, e.g. video walls
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/06Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/02Synthesis of acoustic waves
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/426Internal components of the client ; Characteristics thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • H04N21/4316Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations for displaying supplemental content in a region of the screen, e.g. an advertisement in a separate window
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4341Demultiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4348Demultiplexing of additional data and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/60Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/60Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
    • H04N5/602Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals for digital sound signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/445Receiver circuitry for the reception of television signals according to analogue transmission standards for displaying additional information
    • H04N5/45Picture in picture, e.g. displaying simultaneously another television channel in a region of the screen
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/60Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
    • H04N5/607Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals for more than one sound signal, e.g. stereo, multilanguages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/64Constructional details of receivers, e.g. cabinets or dust covers
    • H04N5/642Disposition of sound reproducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/12Picture reproducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field

Definitions

  • the present invention relates to a technique for presenting an image together with sound, and more particularly to a technique for presenting a sound and an image to an audience using a large display device.
  • the present invention aims at providing a mosquito? Possible presentation method and presentation device that presents with a harmony of sound and video. Disclosure of the invention
  • a first aspect of the present invention provides a device for presenting sound and video
  • a display device having a display screen for presenting an image
  • An audio device that has a plurality of sound sources arranged around a display screen, and that uses these sound sources to present sound so that a sound image is formed in an arbitrary region in the display screen;
  • a presentation information storage device for storing presentation information including: video data indicating a video; audio data indicating a sound to be presented; and area data indicating an audio reproduction area in which the audio data is to be reproduced.
  • a video playback device that plays back video based on video data in a predetermined video playback area on a display screen
  • a sound reproduction device that reproduces sound based on sound data using a plurality of sound sources of the sound device so that a sound image is formed in a sound reproduction region on a display screen;
  • the area data indicates an audio reproduction area in which audio data is to be reproduced, and includes information indicating a video reproduction area in which video data is to be reproduced.
  • a third aspect of the present invention provides a device for presenting sound and video according to the first or second aspect, An instruction input device for inputting an operator's instruction,
  • a presentation mode changing device that modifies the presentation mode in the presentation information storage apparatus based on the instruction to change the presentation mode of sound and video;
  • a fourth aspect of the present invention is the apparatus for presenting sound and video according to the first to third aspects
  • An information reading device for reading the presentation information recorded on the information recording medium and storing the presentation information in the presentation information storage device is further provided.
  • a fifth aspect of the present invention is the apparatus for presenting sound and video according to the first to fourth aspects
  • a display device having a rectangular display screen, and an audio device having four sound sources arranged at arrangement points located at almost four corners of the display screen,
  • the sound reproduction area is defined as a rectangular area, and representative points representing the sound reproduction area are defined at four vertex positions of the rectangular area.
  • the sound data to be reproduced in the sound reproduction area is composed of four-channel sound signals
  • the four-channel sound signals correspond to the four representative points, respectively.
  • the sound reproducing device By calculating the distance between each arrangement point and each representative point, and performing volume control in accordance with this distance, the sound reproducing device is used to obtain a sound image of an acoustic signal corresponding to the position of each representative point. The sound is reproduced.
  • a sixth aspect of the present invention provides the apparatus for presenting sound and video according to the first to fourth aspects, wherein
  • a display device having a rectangular display screen, and an audio device having four sound sources arranged at arrangement points located at almost four corners of the display screen,
  • the sound reproduction area is defined as a rectangular area, and representative points representing the sound reproduction area are defined at four vertex positions of the rectangular area. If the sound data to be reproduced in the sound reproduction area is composed of two-channel stereo sound signals, the left sound signal is made to correspond to two representative points on the left of the four representative points, By assigning the right acoustic signal to the two representative points on the right side, calculating the distance between each arrangement point and each representative point, and performing volume control according to this distance, it corresponds to each representative point position The sound is reproduced by the sound reproducing device so that a sound image of the sound signal can be obtained.
  • a display device having a rectangular display screen and an audio device having four sound sources arranged at arrangement points located at almost four corners of the display screen are used, and a sound reproduction area is defined as a rectangular area.
  • a representative point representing the sound reproduction area is set at the four vertices of this rectangular area,
  • the monaural sound signal is made to correspond to each of the four representative points, and the distance between each arrangement point and each representative point is calculated.
  • volume control By performing volume control according to the distance, sound is reproduced by the sound reproducing device so that sound images of sound signals corresponding to the positions of the respective representative points can be obtained.
  • An eighth aspect of the present invention is the apparatus for presenting sound and video according to the first to seventh aspects
  • a ninth aspect of the present invention is the apparatus for presenting sound and video according to the first to seventh aspects described above,
  • Priorities are defined for multiple pieces of presentation information, and for parts that overlap each other, only the video for the presentation information with a higher priority is played back, and the video for the presentation information with a lower priority is hidden. West,
  • the function of reproducing the sound by reducing the volume by an amount corresponding to the area of the concealed portion of the video is provided.
  • a first aspect of the present invention provides a method for presenting a video on a predetermined display screen and presenting a sound and an object for presenting a sound related to the video,
  • An area having a hierarchical structure is defined so that the area includes one or more lower-level areas, lower-level pronunciation areas are displayed in lower-level areas, and lower-level pronunciation areas are displayed in upper-level areas.
  • Preparing video data for reproducing the video screen on which the higher sounding physical strength is displayed including:
  • the thirteenth aspect of the present invention provides the sound and the video according to the above-described first and second aspects. In the method
  • the area including the lower sounding body is enlarged and the sound related to the lower sounding body is selectively reproduced.
  • a fourteenth aspect of the present invention is the method for presenting sound and video according to the above-mentioned first aspect
  • the video screen can be arbitrarily enlarged or reduced to be displayed, and at this time, the sound related to the highest-level sounding body whose entirety is displayed is selectively reproduced.
  • the sound volume of the sound related to the sounding body is controlled based on the display magnification of the sounding body.
  • the playback volume of each sounding body can be set to a specific volume value based on the operator's instruction, and when the sound relating to the sounding body for which the volume value has been set is played, the playback using the set volume value is performed. It is intended to be performed.
  • a seventeenth aspect of the present invention is the method for presenting sound and video according to the above-mentioned first aspect
  • a microphone with directivity that can mainly collect sounds generated by the lower sounding body is installed near the lower sounding body, so that the sound of the lower sounding body is recorded and the upper sounding body is generated.
  • FIG. 1 is a plan view showing an example of an image of a car presented on a large display device.
  • FIG. 2 is a plan view showing a method of presenting a sound so that a sound image of the sound of the engine is formed in a partial area in the video shown in FIG.
  • FIG. 3 is a block diagram showing a configuration of presentation information I used in the device for presenting sound and video according to the present invention.
  • FIG. 4 is a block diagram showing a configuration example of the presentation information shown in FIG.
  • FIG. 5 is a principle diagram illustrating an example of a method of dividing a display screen and showing a partial area as digital data.
  • FIG. 6 is a diagram showing an example of a bit expression in the method shown in FIG.
  • FIG. 7 is a block diagram showing an example of presentation information configured using the method shown in FIG.
  • FIG. 8 is a plan view showing an example of a state where video and sound are presented on a part of a display screen by the method according to the present invention, and a block diagram showing presentation information corresponding to such presentation.
  • FIG. 9 is a plan view showing another example of a state where video and sound are presented on a part of the display screen by the method according to the present invention, and a block diagram showing presentation information corresponding to such presentation.
  • FIG. 10 is a plan view showing another example of a state where video and sound are presented on a part of the display screen by the method according to the present invention, and a block diagram showing presentation information corresponding to such presentation. It is.
  • FIG. 11 is a plan view showing a state in which two different sounding bodies are presented on the same screen by the method according to the present invention.
  • FIG. 12 is a diagram showing presentation information to be prepared for making the presentation shown in FIG.
  • FIG. 13 is a plan view showing an example of a state in which two sets of sounding bodies having a hierarchical structure are presented on the same screen by the method according to the present invention.
  • FIG. 14 is a diagram showing presentation information to be prepared for making the presentation shown in FIG.
  • FIG. 15 is a plan view showing another example of a state where two sets of sounding bodies having a P-layer structure are presented on the same screen by the method according to the present invention.
  • FIG. 16 shows the presentation information to be prepared in order to make the presentation shown in FIG.
  • FIG. 17 is a plan view showing an example of a state in which six sets of sounding bodies having a hierarchical structure are presented on the same screen by the method according to the present invention.
  • FIG. 18 is a diagram showing presentation information to be prepared for making the presentation shown in FIG.
  • FIG. 19 is a plan view showing a state in which only one of the six sounding bodies shown in FIG. 17 is displayed.
  • FIG. 20 is a plan view showing a state in which one set of the sounding bodies shown in FIG. 19 is enlarged and displayed.
  • FIG. 21 shows the presentation information to be prepared in order to make the presentation shown in FIG.
  • FIG. 22 is a plan view showing a state in which the two sets of sounding bodies shown in FIG. 19 are enlarged and displayed.
  • FIG. 23 is a diagram showing a part of presentation information to be prepared for making the presentation shown in FIG.
  • FIG. 24 is a plan view showing an example in which a plurality of sounding bodies having a hierarchical structure are defined in the same video by the method according to the present invention.
  • FIG. 25 is a diagram showing presentation information to be prepared for making the presentation shown in FIG.
  • FIG. 26 is a plan view showing a state where a part of the sounding body shown in FIG. 24 is enlarged and displayed.
  • FIG. 27 is a diagram showing presentation information to be prepared for making the presentation shown in FIG.
  • FIG. 28 is a plan view showing another definition form of the plurality of sounding bodies shown in FIG.
  • FIG. 29 is a diagram showing presentation information corresponding to the pronunciation body definition shown in FIG.
  • FIG. 30 is a plan view showing another video presentation using the sounding body definition shown in FIG.
  • FIG. 31 shows the presentation information to be prepared in order to make the presentation shown in FIG.
  • FIG. 32 is a front view showing a positional relationship between a sound source and a display screen in the device for presenting sound and video according to the present invention.
  • FIG. 33 is a view for explaining a method of forming a sound image in a predetermined area on a display screen using the apparatus shown in FIG.
  • FIG. 34 is a block diagram showing a configuration example of ⁇ ⁇ information including sound data of four channels.
  • FIG. 35 is a diagram showing a method of calculating a reproduced sound signal to be given to each speaker based on the presentation information shown in FIG.
  • FIG. 36 is a front view showing a state in which two sets of presentation information are simultaneously presented using the apparatus shown in FIG. 32.
  • FIG. 37 is a diagram showing presentation information to be prepared for performing the presentation shown in FIG.
  • Fig. 38 shows the simultaneous presentation of four sets of presentation information using the device shown in Fig. 32.
  • FIG. 38 shows the simultaneous presentation of four sets of presentation information using the device shown in Fig. 32.
  • FIG. 39 is a diagram showing presentation information to be prepared for making the presentation shown in FIG.
  • FIG. 40 is a diagram showing a practical configuration example of video data and audio data to be prepared when executing the method for presenting sound and video according to the present invention.
  • FIG. 41 is a plan view showing an area having a hierarchical structure defined when the method for presenting sound and video according to the present invention is performed.
  • FIG. 42 is a block diagram showing a basic configuration of a device for presenting sound and video according to the present invention.
  • the image of this car may be a still image or a moving image.
  • the power of the vehicle stopped while the engine is running is displayed, and that a moving image in which the engine hood is shaking due to vibration is presented.
  • this video has engine sound added.
  • the engine sound is presented by displacing the position of the sound image slightly to the right of the center position of the image.
  • when shooting video arrange multiple microphones to collect multi-channel audio signals, and use multiple speakers arranged at positions corresponding to each microphone. The audio signal of each channel may be reproduced.
  • the present invention has been made based on such an idea, and its basic concept is to add information for designating a region where a sound image is to be formed to an acoustic signal of each sounding body.
  • the image area is divided into 16 parts, and the hatched area in the figure is defined as the sound reproduction area of the engine sound.
  • Information indicating this sound image forming area is added.
  • the video of the car is reproduced on the display screen, and the engine sound is reproduced so that a sound image is formed in the sound reproduction area.
  • this sound reproduction area is an area corresponding to the engine part in the image of the car, and by forming a sound image of the engine sound in this area, there is a sense of presence. Information becomes possible.
  • the method for presenting sound and video according to the present invention comprises defining a sound reproduction area having an area. This is fundamentally different from the conventional stereo sound reproduction method. In other words, in the example shown in Fig. 2, the impression received by the audience receiving the information is not the impression that "the engine sound is heard from the lower right of the video screen", but "the video is displayed on the video screen. You can hear the engine sound from the engine part of the car.
  • the method of presenting a specific sound such that the sound image power S can be obtained in a two-dimensional plane area having a large area has a two-dimensional spread on the display screen, as described in ⁇ 6.
  • a plurality of sound sources such as a speaker
  • FIG. 3 is a block diagram showing a configuration of presentation information I used in the device for presenting sound and video according to the present invention.
  • the presentation information I is composed of video data, audio data A, and area data T.
  • the video data V is data representing a video to be presented, and in the case of the example of FIG. 2, is data representing a moving image of a stopped vehicle with the engine running.
  • the sound data A is data representing the sound to be presented, and is usually a sounding body present in the video presented based on the video data V (the engine shown in FIG. ).
  • the region data T is data indicating a sound reproduction region in which the sound data A is to be reproduced. In the example of FIG. 2, the region data T is data indicating a hatched rectangular region.
  • the presentation information I may be constituted by three data of video data V, audio data A, and area data T.
  • the structure of the presentation information I can be appropriately changed depending on the content of the information to be presented. For example, if the sound reproduction area is the same over the entire time period from the generation of the engine sound to the end, as shown in Fig. 3, the video data V, the sound data A, and the area data T
  • the presentation information I may be configured by preparing one each.
  • the area T1 is the sound reproduction area
  • the idling sound after the engine starts ⁇ ⁇ 2 is the area where the entire engine is located ⁇ 2
  • the sound reproduction area, and the engine speed is increased by increasing the accelerator.
  • common data is prepared for the video data V, and the data A l and T 1 are used for the audio data and the area data.
  • the first set for playback during starter
  • the second set of data A2 and T2 for playback during idling
  • the third set of data A3 and T3 for high speed It is sufficient to prepare three sets.
  • the video data V three sets of data V1 indicating the video at the starter, data V2 indicating the video at the time of idling, and data V3 indicating the video at the high rotation speed are prepared.
  • the configuration shown in presentation information I (2) may be adopted.
  • area data is prepared to define an audio reproduction area for reproducing the audio data A. Therefore, here, a specific configuration example of the area data will be shown.
  • FIG. 5 is a principle diagram for explaining an example of a method of dividing the display screen into several blocks and showing a partial area as area data, and dividing the display screen into a plurality of blocks.
  • the partitioning scheme and the addressing power defined for each block obtained in the individual partitioning scheme are shown.
  • Each division mode is indicated by a division level n.
  • the division configuration shown by the division level n so that the 2 2 n blocks is obtained by respectively 2 n divided into vertical and horizontal two-dimensional pixel array.
  • an address for indicating each block is defined for each division mode.
  • the lower two bits of the address of block e are ,
  • the address of block a is set to "00”
  • the lower two bits of the address of block f are set to "01” which is the same as the address of block b
  • the lower two bits of the address of block g are set to block c.
  • "1 0" is the same as the address of block h
  • the lower 2 bits of the address of block h are "1 1" which is the same as the address of block d.
  • the above-described address definition is performed. Is preferred. With such an address definition, by removing the lower two bits from the address of a specific block, the address of the block at the same position at the next lower division level can be obtained.
  • the number of bits required for such an address definition is indicated by 2 n bits as shown in FIG. Also, the total number of display resolution, i.e., resulting that blocks in each division level n, as shown in Figure 5, a 2 2n.
  • FIG. 6 is a diagram showing the bit levels of the division levels and addresses for the individual division modes described above.
  • the division level n is represented by 4 bits.
  • the number of address bits required to indicate each block is different for each division level, as described above.
  • each additional division level increases the address by 2 bits. Required.
  • the presentation information I can be represented by a configuration as shown in FIG. That is, the area data T is composed of a bit string indicating the division level and a bit string indicating the address, and the length of the bit string indicating the address is determined by the division level.
  • the bit string indicating the division level may be omitted. In this case, the 5 ⁇ ! J level may be determined based on the length of the bit string indicating the address.
  • the area data is composed of 2-bit data of "0 1”
  • it can be recognized as indicating the area of block b with a division level of n 1 in Fig. 5.
  • FIG. 8 is a plan view showing an example of a state in which video and sound are presented on a part of a display screen by a method according to the present invention, and a block diagram showing presentation information corresponding to such presentation.
  • the plan view shown on the left of the figure shows a state in which the display screen is divided into four parts and predetermined contents are presented in a lower left area T (a) shown by hatching.
  • presentation information I (a) as shown on the right of the figure. I hope you keep it.
  • the video data V (a) is data for presenting a video in the hatched area
  • the audio data A (a) is in such a form that a sound image is formed in the same area. This is the data of the sound to be presented.
  • the area data T (a) is data for indicating the area T (a) indicated by hatching. Specifically, by using the method described in ⁇ 2, the area is defined by a 2-bit data string of "10".
  • FIG. 9 shows another example of the force.
  • a state is shown in which the display screen is divided into 16 and predetermined contents are presented in an area T (b) indicated by hatching in the figure.
  • the video data V (b) and the audio data A (b) are data for presenting video and sound in the hatched area
  • the area data T (b) is the hatched area T ( This is data to show b).
  • the area is defined by a 4-bit data string of "01 1 0".
  • the first 0 drawing shows yet another example power s.
  • a state force s showing predetermined contents is shown on all the display screens on which hatching is performed.
  • presentation information I (c) as shown on the right of the figure should be prepared.
  • the video data V (c) and the audio data A (c) are data for presenting video and sound on the entire display screen
  • the area data T (c) is the entire hatched area. This is data indicating an area T (c) corresponding to the display screen.
  • the area data T (c) is data that does not exist as a bit string (so-called “null data”, which is indicated by a symbol in the figure), and is composed of 0 bits.
  • the entire display screen will be shown by the area data.
  • the present invention is practiced.
  • multiple sound sources are provided around the display screen. Therefore, when the sound reproduction area is the entire area of the display screen, the sound is presented so that a sound image having a two-dimensional spread corresponding to the entire display screen is formed by the plurality of sound sources. Will be performed.
  • the embodiment of the present invention shown in FIG. 10 is simply a monaural sound, in that the sound power has a spread corresponding to the sound reproduction area specified by the area data T (C). It will be clearly distinguished from playback.
  • each of the area data T (a), T (b), and T (c) indicates a sound reproduction area for generating a sound image and a video reproduction area for reproducing a video. Is shown. For example, in the example of FIG.
  • a video represented by video data V (a) is reproduced in a hatched area represented by area data T (a), and a sound represented by sound data A (a) is reproduced. Is reproduced such that a sound image is generated in the hatched area indicated by the area data T (a).
  • the area data T can be used as data indicating the audio reproduction area and also as data indicating the video reproduction area.
  • the area data indicating the sound reproduction area and the area data indicating the video reproduction area can be separately prepared, and the sound and the image can be presented in separate areas.
  • the image of the car is presented on the entire display screen, while the engine sound is presented so that a sound image is generated in the hatched area.
  • the playback area is the entire display area, while the sound playback area is a partial area with no and tching. ing.
  • the region data indicating the video reproduction region may be omitted, and only the region data indicating the sound reproduction region may be prepared.
  • FIG. 11 is a plan view showing a state in which two different sounding bodies are presented on the same screen by the method according to the present invention. More specifically, the display screen is 1 6 divided, appears piano force in the region of one section portion of them, in the region of another two compartments content is tiger Npe' DOO force? Display.
  • FIG. 12 is a diagram showing presentation information to be prepared in order to make the presentation shown in FIG. On the left side of FIG. 12, there is shown a divided view of the display screen in which the area where each sounding body (in this example, the piano and the trumpet) is located is hatched, and each area T (a), At T (b), the presentation information I (a) about the piano and the presentation information I (b) about the trumpet will be presented.
  • the display screen is 1 6 divided, appears piano force in the region of one section portion of them, in the region of another two compartments content is tiger Npe' DOO force? Display.
  • FIG. 12 is a diagram showing presentation information to be prepared in order to make the presentation
  • the presentation information I (a) is composed of video data V (a) composed of a video of a piano and acoustic data A (a) composed of the sound of a piano. And area data T (a) indicating an area for presenting the information.
  • the presentation information I (b) includes video data V (b) composed of trumpet video, audio data A (b) composed of trumpet performance sound, and an area indicating an area for presenting these.
  • the area data T (a) is composed of a bit string of "0110", and indicates a video reproduction area and an audio reproduction area related to the indication / indicating information I (a).
  • the area data T (b) is composed of a bit string of “101 1” and a bit string of “1 110”, and indicates a video reproduction area and a sound reproduction area related to the presentation information I (b). ing.
  • Fig. 11 shows an example in which two sounding bodies are presented, but three or more sounding bodies can be presented in a similar manner.
  • a presentation area for each sounding body (video playback area and sound reproducing area)
  • the force is expressed as a set of blocks 1 6 divides the display screen?, Increasing the number of divisions
  • each presentation area is defined as a set of blocks obtained by dividing the display screen into 100 or more divisions
  • the sound localization function based on human hearing does not have the function of recognizing such a small elephant area, in practice, the block obtained by a fairly coarse division as shown in Fig. 11 is used. It is sufficient to define each presentation area by a set.
  • Another feature of the present invention is that a sounding body definition having a hierarchical structure is defined, and information of this hierarchical structure can be presented to a viewer as it is.
  • this feature will be described with reference to specific examples.
  • FIG. 13 is a plan view showing an example of a state in which two sets of sounding bodies having a hierarchical structure are presented on the same screen by the method according to the present invention.
  • the display screen is divided into 16, and the lower left part shows the drum and the image of the room containing the drum. (The dividing line may be displayed as necessary.
  • Fig. 14 is a diagram showing presentation information to be prepared in order to make such a presentation. In this example, the area where the drum and the entire room including the drum are located is hatched on the display screen. A split diagram is shown, and the presentation information I (a) about the drum and the presentation information I (b) about the whole room are shown in each area T (a) and T (b) in the figure. Become.
  • "pronunciation body” is a broad concept that includes not only objects that generate sound by themselves, such as musical instruments, but also objects that reflect sound, such as floors, walls, ceilings, and furniture in rooms. Means.
  • the presentation information I (a) indicates the sound data A (a) composed of the drum performance sound and the area for presenting the drum performance sound.
  • the area data T (a) is composed of video data V (b) composed of an image of the room (including the drum) where the drum is placed, and audio data A (b) composed of the reverberation sound of the drum for the entire room.
  • region data T (b) indicating a region for presenting these.
  • the area data T (a) is composed of a bit string “101 1”, and indicates the sound reproduction area T (a) related to the presentation information I (a).
  • the area data T (b) is composed of a bit string of "10", and indicates a video area and a sound reproduction area T (b) related to the presentation information I (b).
  • the presentation information I (a) does not include the video data V (a) indicating the image of the drum itself
  • the presentation information I (a) does not include the video data V (a) included in the presentation information I (b). This is because a part of the video data V (b) indicating the "room” can be used as the video data V (a) indicating the video of the drum itself.
  • video data V (a) indicating the video of the drum itself may be separately prepared in the presentation information I (a).
  • the former includes the latter. You can see that it is doing. Therefore, if the area T (b) is defined as an area of the upper hierarchy and the area T (a) is defined as an area of the lower hierarchy, an area having a hierarchical structure is defined, and the area T (a) of the lower hierarchy is defined. There is a drum power s as a lower sounding body, Position will be room the entire force? The presence of as an upper sounding body in the hierarchy of the area T (b).
  • the upper sounding body is a sounding body including the lower sounding body
  • the sound data A (a) is data containing only pure drum performance sound as the lower sounding body
  • Data A (b) is data that includes not only the direct sound from the drum but also the indirect reverberation of the drum reflected from the floor, walls, ceiling, etc. of the room.
  • a microphone with directivity capable of collecting the sound generated by the drum, which is the lower sounding body is installed near the drum, which is the lower sounding body, so that the sound belonging to the lower hierarchy can be obtained.
  • Record data A (a) On the other hand, a microphone with directivity that can collect the sound generated by the entire upper sounding room is placed in a position suitable for collecting the entire sound generated by the higher sounding room. (For example, in the four corners of a room), it is sufficient to record the sound data A (b) belonging to the higher hierarchy.
  • only one lower layer area is defined within one upper layer area.
  • a plurality of lower layer areas are defined within one upper layer area, and
  • the body may include a plurality of lower sounding bodies.
  • the force only two hierarchy of the upper and lower are defined?, It may also be to define a multiple of hierarchy Ri good record,.
  • an area having a hierarchical structure is defined on the display screen, a lower phonetic body is displayed in a lower hierarchical area, and a higher phonetic body including the lower phonemic body is displayed in an upper hierarchical area.
  • the reproduction mode of the video data V (b) may be changed according to the specification of the viewer. For example, when only the sound based on the sound data A (a) is reproduced, only a part of the video data V (b) where the drum force is displayed is displayed, and the sound based on the sound data A (b) is displayed. During playback, it is possible to display all of the video data V (b).
  • FIG. 15 is a plan view showing another example in which two sets of sounding bodies having a hierarchical structure are presented on the same screen.
  • the display screen is divided into four parts and the scenery of the city is drawn (partition lines may or may not be displayed as needed).
  • two sets of pronunciation units with a hierarchical structure are defined.
  • the lower-level pronunciation body is the church drawn at the lower left, and the church functions as the main pronunciation body.
  • the upper-level pronunciation body is the environment of the whole city including the bell of this church.
  • FIG. 16 is a diagram showing presentation information to be prepared for making such a presentation. On the left side of Fig.
  • T (a), the T (b), will be presenting information about the church I (a) and presented for the entire city information I (b) is a force? presented.
  • the presentation information I (a) is the sound of the church bell. It is composed of acoustic data A (a) and domain data T (a) indicating a region for presenting sounds related to the church.
  • the presentation information I (b) is composed of video data V (b) composed of images of the entire city including the church, and acoustic data A (b) composed of environmental sounds of the entire city including the sound of church bells. It consists of area data T (b) indicating the area for presenting these.
  • the area data T (a) is composed of a bit string “10” and indicates a sound reproduction area related to the presentation information I (a).
  • the area data T (b) is composed of data without bits, and indicates that the video reproduction area and the sound reproduction area related to the presentation information I (b) are the entire display screen.
  • the upper sounding body is a sounding body including the lower sounding body
  • the sound data A (a) is a data recording only the sound of the church bell as the lower sounding body.
  • Tag A (b) is the data that includes the noise of the church bell and various noises of the city.
  • acoustic data A (a) and A (b) having a hierarchical structure the following should be performed.
  • sound data A (a) belonging to the lower hierarchy is recorded by installing a microphone near the church that has the best directivity for collecting the sound of the church bell.
  • microphones with predetermined directivity are attached to the left and right of the camera, and the microphones are simultaneously scanned when capturing images of the entire city. Tele-recording is performed, and the sound data A (b) belonging to the higher hierarchy can be obtained.
  • the reproduction mode of the video data V (b) may be changed according to the specification of the viewer. For example, when only the sound based on the audio data A (a) is being reproduced, the image portion of the church in the image data V (b) may be enlarged and displayed.
  • FIG. 17 is a plan view showing an example of a state in which six sets of sounding bodies having a hierarchical structure are presented on the same screen by the method according to the present invention.
  • the display screen is divided into 16 (partition lines may or may not be displayed as needed), and four areas T (a) and T (b) , T (c), and T (d) show four performers as lower-layer pronunciation bodies, respectively.
  • an upper layer area T (e) that includes the areas T (a) and T (b) as lower areas, and an upper layer area T that includes the areas T (c) and T (d) as lower areas (f) is defined as shown by the broken line in the figure.
  • each of the four performers constitutes a lower sounding body.
  • the two performers displayed in the regions T (a) and T (b) constitute one overall higher sounding body, and are displayed in the regions T (c) and T (d). The two performers also form one higher sounding body as a whole.
  • FIG. 18 is a diagram showing presentation information to be prepared for making such a presentation.
  • the presentation information I (b) to I (d) are also composed of information to be presented in the areas T (b) to T (d) and data indicating the area, respectively.
  • the presentation information I (e) and I (f) do not include the video data, but this is because the video data for the lower-layer presentation information can be used.
  • Acoustic data A (a) to A of the lower sounding body (d) is a microphone having the force? Possible directivity to only the direct sound collection sound of each instrument, installed in the vicinity of each instrument force, Alternatively, it can be prepared by attaching to the performer's clothes and recording.
  • the upper sounding body is defined as a sounding body that generates the sound of the musical instrument played by the two players and the reverberation sound from the surrounding floor and walls.
  • the sound data A (e) is , a microphone with a collected force? possible directional, including the reverberation, it is possible to prepare more to record installed at a slightly distance in front of the two performers.
  • the presentation information as shown in FIG. 18 can be prepared, it becomes possible to present the quartet information to the viewer in a preferred manner.
  • the overall strength ? do it.
  • the sound based on the sound data A (e) and A (f) may be reproduced so that sound images are generated in the upper regions T (e) and T (f).
  • the presentation information I (a 2) is composed of the video data V (a 2), which is a four-fold increase in the video size of the original video data V (a), and the original audio data A (a).
  • FIG. 22 is a plan view showing a presentation mode when an instruction to enlarge the image of the adjacent area together with the area T (a) by 4 times in the state shown in FIG. 17 is given.
  • the area T (a2) has the image power of the first violin. Force four times is enlarged?
  • this video of the second violin is enlarged four times become.
  • the original presentation information I (a) is changed as shown in FIG. 21 and the original presentation information I (b) is also modified.
  • the presentation information I (b 2) as shown in FIG. 23 should be obtained.
  • the presentation information I (b 2) after this change is composed of the video data V (b 2), which is a four-fold enlarged video size of the original video data V (b), and the original audio data
  • the acoustic data A (b 2) in which the volume of A (b) is intuitively increased to four times the volume and the region data T (b 2) in which the original presentation region T (b) is enlarged four times in size ) "1 1".
  • the sound data to be reproduced are only sound data A (a 2) and A (b 2), and these sound data correspond to the regions T (a 2) and T (b 2)
  • the sound is reproduced in such a way that a sound image is formed, and the volume is sensibly quadrupled compared to the original volume. Therefore, when switching from the display mode shown in FIG. 17 to the display mode shown in FIG. 22, the sound is switched together with the video, and the sound that is in harmony with the video is always displayed. It can be presented. That is, in the presentation mode shown in FIG. 22, the performance sound of the first violin is heard from the lower left position of the display screen, and the performance sound of the second violin is heard from the lower right position of the display screen. Since the volume also depends on the size of the video, the video and sound are presented in a natural state without any discomfort.
  • the force instruction is an example that has been given to expand the presentation information?
  • Finger be reduced to reverse The processing when the power S is given can be performed in the same manner. In this case, the image is reduced and displayed, and the volume is also reduced, so that the presentation area of the image and the sound is also changed.
  • the user may want to hear the sound of a sounding body that is not displayed, in some cases, the ability to present only the sound of the sounding body displayed on the screen.
  • the display shown in Fig. 20 if you can hear the sound of the first violin mainly and the sounds of the second violin, the third violin, and the piano at a certain volume at the same time, the overall atmosphere of the song It is convenient because it is possible to understand In order to respond to such demands, a function has been provided that allows the playback volume of each sounding body (regardless of whether it is currently displayed or not) to be set to an arbitrary volume value based on the instructions of the operator.
  • the reproduction may be performed using the set volume value.
  • the force in the state where the second 0 are displayed mosquitoes? Conducted as shown in the figure, normally that is to be presented at the volume only the sound of the first by Orin is in accordance with the area T (a 2)
  • these instrument sounds are also presented at the set volume value.
  • the sound may be presented so that a sound image is formed in the entire screen area.
  • Fig. 24 is a plan view showing a dinosaur video for learning (either video or still image) with sound.
  • some dividing lines are drawn, and it is not necessary to display these dividing lines on the actual display screen.
  • Regions T (a) to ⁇ (e) are defined, and each region has video and sound based on presentation information I (a) to I (e) as shown on the right of Fig. 25. Shall be presented.
  • the region T (a) is a region of the upper hierarchy corresponding to the entire display screen, and includes the regions T (b) to T (e) of the lower hierarchy.
  • Areas T (b) to T (e) in the lower hierarchy are areas indicating a specific part of the dinosaur, and specifically, the area T (b) is the head of the dinosaur, and the area T (c) is the dinosaur Region T (d) corresponds to the dinosaur's leg, region T (e) corresponds to the dinosaur's tail, and each of these functions as an independent sub-pronouncer.
  • the presentation information I (b) to I (e) are sound data A (b) to A (e) for presenting the sound generated by each of these sounding bodies, and area data T ( b) ⁇ T (e).
  • sound data A (b) is data of a dinosaur roar
  • sound data A (c) is data of a dinosaur heart sound
  • sound data A (d) is data of a dinosaur footstep
  • sound data A (e) is the data of the dinosaur tail sibilance.
  • the presentation information I (a) is composed of video data V (a) consisting of a dinosaur and a background image, and the sound generated by the upper sounding body including all of the lower sounding bodies (specifically, the dinosaur generation Sound data A (a) indicating all the sounds to be played, background sounds generated by background trees, and area data T (a) indicating an area corresponding to the entire display screen. Since dinosaurs are not living creatures, it is not possible to prepare sound data by actually recording the sound generated by real dinosaurs. Therefore, each sound data is prepared by a synthesis method using a synthesizer or the like.
  • the presentation information as shown in FIG. 25 it is possible to present video and sound information about the dinosaur in various presentation modes according to the needs of the viewer.
  • the sound related to the highest-level sounding body in which the whole is displayed The sound data may be reproduced in all areas. If necessary, only the sound of the specific sounding body specified by the viewer is selectively reproduced. For example, if a viewer clicks near the head of a dinosaur using a pointing device such as a mouse, the audio data A ( Only the sound based on b) needs to be reproduced so that a sound image is generated in the area T (b). Viewers will only be presented with the dinosaur roar. Also, as in the above-described example, it is possible to provide a function of enlarging or reducing a specific video portion, and to present the image by changing the volume based on the scaling factor. .
  • Fig. 26 shows a state where the tail of the dinosaur is magnified 4 times with the area T (e) as the center.
  • the presentation information I (e) shown in FIG. 25 will be modified as shown in FIG. That is, the acoustic data A (e) indicating the dinosaur's tail sibilance is modified to the acoustic data A (e 2) whose sound volume is intuitively increased fourfold, and the area data T (e) indicating the sound reproduction area Is corrected to quadruple-size region data T (e 2).
  • the tail sibilance having a fourfold volume is presented in such a manner that the sound image power s is generated in a fourfold large area.
  • the force that defines the position of each sounding body? When presenting the dinosaurs as video, as shown in FIG. 28
  • it is necessary to define the position of each sounding body not as an area on the display screen but as an area on video data. That is, the dinosaur head region T (b), dinosaur chest region T (c), dinosaur leg region T (d), dinosaur tail region T (e), and background region T (g) on the video data ).
  • Each area is defined in association with video data, and presentation information I (b) to 1 (g) as shown in Fig. 29 should be prepared.
  • presentation information I (b) to 1 (g) as shown in Fig. 29 should be prepared.
  • a part of the dinosaur's image may be hidden by a rock as shown in Fig. 30.
  • the rock displayed in the area T (h) obscures 100% of the dinosaur tail area T (e) shown in Fig. 28, and the dinosaur leg area T ( d), part of the dinosaur outline area T (f) and part of the background area T (g) are hidden.
  • the volume by an amount corresponding to the area of the concealed portion of the video to reproduce the video.
  • the area T (e) of the dinosaur's tail is 100% obscured, the sound based on the sound data A (e) will have its volume reduced by 100% during playback, Power ? Make it inaudible at all.
  • the area of the dinosaur legs T (d), the outline area of the dinosaur T (f), and the area of the background T (g) are reduced to x%, y%, and z%, respectively, and a new area T (d 2)
  • the presentation information shown in FIG. 29 may be modified as shown in FIG. 31.
  • the area of the area indicated by the area data is reduced by the concealed amount, and at the same time, the volume value indicated by the acoustic data is also reduced by the concealed amount.
  • the region data T As described above, in implementing the present invention, it is indicated by the region data T. It is necessary to reproduce the sound data A so that a sound image is formed in a predetermined area.
  • a specific method for forming a sound image in a predetermined area on the display screen will be described.
  • FIG. 32 is a front view showing a positional relationship between a sound source and a display screen in the device for presenting sound and video according to the present invention.
  • a display device having a rectangular display screen 110 is used, and four sound sources 21 are located at arrangement points P1 to P4 located at almost four corners of the display screen 110.
  • 0 to 240 (speaker) Power Self-placed By presenting an acoustic signal using the four sound sources arranged at the four corners of the display screen 110, a sound image can be formed at an arbitrary position P on the display screen 110.
  • the position P of the sound image can be set freely by controlling the volume of each sound source.
  • a sound based on the same audio signals from the four sound sources, all to play at the same volume, will be sound mosquito? Formed at the central position of the display screen 1 1 0.
  • the volume of the left sound source 210, 230 is increased, the sound image moves to the left, and conversely, the volume of the right sound source 220, 240 is increased. And the sound image moves to the right.
  • the volume of the upper sound sources 210 and 220 is increased from the neutral state, the sound image moves upward, and conversely, the volume of the lower sound sources 230 and 240 is reduced. When increased, the sound image moves downward.
  • each sound source 210 to 24 is determined according to these distances. You only have to control the volume of 0.
  • the sound image position can be controlled in the left-right direction by using a pair of sound sources arranged on the left and right, and the sound image position can be controlled in the vertical direction by using the pair of sound sources arranged vertically. Therefore, even if only two sound sources are used, the effect of the present invention can be obtained to some extent. But what power? In order to perform more effective sound image position control, the display screen
  • each sound source provided in the four corners of 110.
  • a square display screen 110 is used.
  • these four sound sources are theoretically arranged at the four corners of the display screen 110.However, since the localization function by human hearing is not very accurate, in practice, it is not necessarily It is not necessary to arrange each sound source exactly at the four corners of the display screen 110.
  • a sound image can be placed at an arbitrary position P.
  • force is that force? possible to form?, a sound image given as a point in this and Ha sound image formed by bears.
  • a sound image necessary for carrying out the present invention is a sound image as a surface distributed in a predetermined area. Therefore, here, as shown in FIG. 33, four sound sources 210 to 240 are used to form a sound image as a surface in an arbitrary rectangular area T (X) on the display screen 110. The method is described below.
  • the presentation information I (X) is composed of video data V (X), area data T (X), and four-channel sound data A1 (x) to A4 (x).
  • the area data T (X) is data for defining the area T (X) shown in FIG. 33, and functions as a video reproduction area and a sound reproduction area. Therefore, the video data V (X) is reproduced in this area T (X), and the sound based on the four-channel sound data A 1 (X) to A4 (x) is The reproduction is performed in such a manner that a sound image is formed in this area T (X).
  • the presentation of a sound based on such presentation information I (X) is performed by the following method. First, a representative point is set at the four vertices of a region T (X) defined as a rectangular region.
  • the sound data A 1 (x) is at the representative point PI 1
  • the sound data A 2 (X) is at the representative point P 12
  • the sound data A 3 (X) is at the representative point P 13
  • the sound data A 4 (x) is associated with the representative point P14.
  • four channels of sound data are obtained by recording with four microphones arranged before, after, left and right of a given sounding body. Therefore, when associating the representative point and each acoustic data, ⁇ I location of microphones during recording of the sound data, the force s preferred to have a consistency between each representative point position.
  • the distance between the arrangement points P1 to P4 of each sound source and each of the representative points P11 to P14 is calculated, and the volume control is performed according to this distance, so that each representative point? 1 1?
  • the four-channel sound data A1 (x) to A4 (x) are reproduced so that sound images of the sound data corresponding to the fourteen positions are obtained.
  • a sound signal based on the sound data A 1 (X) is supplied to each sound source 210 to 240, and the volume of each sound source is appropriately controlled so that the first channel is located at the position of the representative point P 11.
  • sound power of the acoustic data a l (X) Le? to be obtained can be as discussed in the third 2 FIG.
  • a sound signal based on the sound data A 2 (x) is supplied to each sound source 210 to 240, and the sound image power of the sound data A2 (X) of the second channel is obtained at the position of the representative point P12. It is also possible to control the sound volume in such a way that the sound signal based on the sound data A 3 (x) is supplied to each sound source 210 to 240, and the sound data A 3 ( It is also possible to control the volume so that a sound image of (X) is obtained.
  • a sound signal based on the sound data A 4 (x) is supplied to each of the sound sources 210 to 240, and a sound signal is provided at the position of the representative point P14. sound force of the 4-channel audio data A4 (X)? Ru also possible der be a volume control so as to obtain o
  • a sound signal based on the four-channel sound data A 1 (x) to A 4 (x) is synthesized and supplied to each of the sound sources 210 to 240. If signal synthesis is performed after controlling the volume of each channel so that a sound image can be obtained, the sound image power s of the sound based on the acoustic data A 1 (X) can be obtained at the representative point P11.
  • a sound image of the sound based on the sound data A2 (X) is obtained at the representative point p12
  • a sound image of the sound based on the sound data A3 (X) is obtained at the representative point P13
  • a sound image of the sound based on the sound data A3 (X) is obtained at the representative point P14.
  • a sound image of the sound based on the acoustic data A4 (X) can be obtained.
  • the sound image of the sound of each channel is formed at each of the four representative points.
  • these four representative points P 11 1 to A sound image having a planar spread in a rectangular area T (X) having four vertices of P14 is recognized.
  • FIG. 35 is a diagram showing a method of calculating a reproduced sound signal to be given to each of the sound sources (speakers) 210 to 240 based on the presentation information I (X) shown in FIG.
  • f (Pm, P n) are two points Pm, a constant round function according to the distance between P n, taking ⁇ mosquitoes s small familiar if made higher the value between two points.
  • AAk (x) indicates the amplitude of the sound signal of the k-th channel.
  • f (P1, P11) is a function determined according to the distance between the representative point P11 and the arrangement point P1
  • AA1 (X) is the acoustic data A1 of the first channel.
  • the amplitude of the sound signal based on (X) is shown.
  • the playback sound of sound source 210 is obtained by synthesizing four-channel sound signals AA 1 (X) to AA 4 (x), each of which is determined according to the distance between the representative point and the arrangement point.
  • the function will be multiplied as a coefficient.
  • FIG. 36 is a front view showing a state in which two sets of presentation information are presented at the same time using the device shown in FIG. 32
  • FIG. 37 shows the presentation shown in FIG. FIG. 6 is a diagram showing presentation information to be prepared for the above.
  • the second presentation information I (b) is information about the concert
  • a video based on the video data V (a) is presented, and in the area T (b), the video data V (b ) Is presented.
  • a sound image of a sound based on the acoustic data A 1 (a) is formed at the representative points Pa 1 and Pa 3 shown in FIG. 36, and at the representative points Pa 2 and Pa 4,
  • a sound image of a sound based on the sound data A2 (a) is formed, a sound image of the sound based on the sound data A 1 (b) is formed at the representative point Pb1, and a sound image is formed at the representative point Pb2.
  • a sound image of the sound based on A 2 (b) is formed, a sound image of the sound based on the sound data A 3 (b) is formed at the representative point P b 3, and the sound data A 4 is formed at the representative point P b 4.
  • the volume control of each of the sound sources 210 to 240 may be performed so that a sound image of the sound based on (b) is formed.
  • the presentation position and the presentation magnification of each presentation information can be arbitrarily changed based on a viewer's instruction.
  • the presentation positions of the presentation information I (a) and I (b) presented in FIG. 36 are changed to regions T (a 2) and T (b 2).
  • FIG. 39 is a diagram showing presentation information to be prepared for making the presentation shown in FIG. 38.
  • the area data is modified to T (a 2) and T (b 2), respectively.
  • the newly added third presentation information I (c) is information on the baseball game, and includes video data V (c) showing the baseball video and audio data showing the baseball sound.
  • a (c) and area data T (c) “10” indicating a video reproduction area and an audio reproduction area.
  • the sound volume at the time of reproducing the acoustic data of each presentation information is based on the case where the video reproduction area has a reference area, that is, an area corresponding to 1/16 of the display screen 110.
  • a reference sound volume when it is displayed video Ca? expansion, so that increased or decreased control the volume based on the display magnification. Therefore, in the example shown in Fig. 38, basketball sounds and concert sounds displayed in the areas T (a 2) and T (b 2) of the reference area must be played back at the reference volume.
  • the baseball sound displayed in the four times larger area T (c) is played at four times the reference volume and displayed in the ten times larger area T (d).
  • the sound of the yacht will be played at 10 times the reference volume (the original image of the yacht should be displayed in an area 12 times larger than the reference area). Is concealed by the baseball image, so the actual display area is 10 times the reference area.)
  • FIG. 40 is a diagram showing a practical configuration example of video data and audio data to be prepared when executing the method for presenting sound and video according to the present invention.
  • the video data V high-resolution video data corresponding to the maximum magnification is prepared. That is, high-resolution video data is prepared so that good video can be reproduced even when displayed at the highest magnification. For example, video day If a video of all the orchestra members is prepared as a video V, and if it is possible to present an enlarged video of only one string of the violin when displayed at the maximum magnification, this string It is necessary to prepare high-resolution video data that can reproduce video well.
  • the first-layer sound data A includes the second-layer sound data A 1, A 2,..., And the second-layer sound data A 1 includes the third-layer sound data A 1.
  • the sound data A11, A12, A13, ... of the second layer are included, and the sound data A2 of the second layer include the sound data A21, A22, ... of the third layer.
  • orchestral images are prepared as video data, for example, the first-layer sound data A is data recording the performance of the entire orchestra, and the second-layer sound data A 1 is a member of the first violin.
  • the sound data of all members is recorded, and the sound data A11 of the third hierarchy is the data of the sound of one specific member of the first violin.
  • the sound data A11 of the third hierarchy is the data of the sound of one specific member of the first violin.
  • Fig. 41 shows an example of an area definition having a hierarchical structure.
  • the area T of the first hierarchy includes the areas T 1, T 2,... Of the second hierarchy indicated by a dashed line, and furthermore, the areas of the second hierarchy include dashed lines.
  • the area of the third hierarchy T11, T12, T13, ... is included.
  • the first layer area ⁇ is an area corresponding to the entire orchestra image
  • the second layer area ⁇ ⁇ is a member of the first violin.
  • the region corresponding to the video of all members, and the region T11 of the third hierarchy is a region corresponding to the video of one specific member of the first violin.
  • the presentation information prepared in such a configuration can be used in the form of a kind of database. For example, if the viewer wants to learn about the entire orchestra, he or she may give an instruction to display the video of the entire orchestra corresponding to the area T of the first hierarchy and reproduce the sound data of the entire orchestra. If it is necessary to learn about the first violin, an instruction to display only the image of the first violin corresponding to the area T1 of the second hierarchy is given, and the sound data of the first violin is reproduced. I'll do it. In this case, it is preferable that the image in the area T1 is displayed enlarged on the entire display screen.
  • the video screen can be arbitrarily enlarged or reduced and displayed, the sound related to the highest-level sounding body that is currently displayed in its entirety is selectively reproduced at this time. It is convenient to do so. For example, if the viewer gives an instruction to display the entire orchestra's video on the entire display screen, only the sound of the orchestra, which is the highest-ranking sounding body, will be selectively played back. Given an instruction to display an image of only 1 violin on the display screen full, at which point, the only force? selectively reproduced sound of the first violin is sounded of the most upper hierarchy displayed entire force Will be. Chi words, the viewer when a selective operation on the video data, to be automatically acoustic data force? Selected accordingly. Such a function is important for improving operability when the device according to the present invention is used as a database browsing device.
  • the presentation information having the above-described hierarchical structure is prepared in a computer installed in an art museum, a museum, or the like, and necessary data is transmitted as needed, It can be used as a database.
  • the viewer requests information of the entire orchestra, only the data necessary for presenting the information on the first layer may be transmitted, and more detailed information on the lower layer may be transmitted.
  • the data necessary for the information presentation of the hierarchy according to the request may be transmitted again.
  • a database composed of acoustic data obtained by recording heart sounds in a spatial hierarchical structure (for example, a sound recording immediately adjacent to a specific valve). With the recorded sound of the whole heart, the former has a hierarchical structure in which the former is the lower pronunciation body and the latter is the upper pronunciation body.) .
  • FIG. 42 is a block diagram showing a basic configuration of a device for presenting sound and video according to the present invention.
  • this device includes a display device 100, an audio device 200, a video reproduction device 300, a sound reproduction device 400, a presentation information storage device 500, a presentation mode change device 600, It is composed of an instruction input device 700 and an information reading device 800.
  • the display device 100 is a device having a display screen 110 for presenting an image, and includes, for example, a large display device in which a large number of light emitting diodes are arranged in a matrix. Is done.
  • the acoustic device 200 is provided with a plurality of sound devices arranged around the display screen 110 so that sound can be presented so that sound image power is formed in an arbitrary area in the display screen 110. And a speaker system arranged around the display screen 110.
  • the presentation information storage device 500 stores video data V indicating a video to be presented, audio data A indicating a sound to be presented, and a video reproduction area and audio data A in which the video data V is to be reproduced. This is a device that stores region data T indicating a sound reproduction region to be reproduced, and presentation information I including, and is actually configured by a computer memory or an external storage device.
  • the video playback device 300 has a function of playing back video based on the video data V in a video playback area on the display screen 110, and the sound playback device 400 It has a function of reproducing a sound based on the sound data A using a plurality of sound sources 210 to 240 of the sound device 200 so that a sound image is formed in the sound reproduction area.
  • the instruction input device 700 is a device for inputting an instruction of an operator (viewer)
  • the presentation mode changing device 600 is a presentation information storage device 500 based on the input instruction. It performs the function of modifying the presentation information I in, and changing the presentation mode of sound and video.
  • the instruction to select the audio data to be presented, the instruction to enlarge the video data, and the like are input from the instruction input device 700, and the process for changing the presentation mode is performed by the presentation mode changing device 600. Will be executed.
  • the information reading device 800 reads the presentation information I recorded on the information recording medium 900 such as a CD-ROM or a DVD, and stores the presentation information I in the presentation information storage device 500. It is a device for performing the above, and in practice, various pieces of presentation information are provided by being recorded in the information recording medium 900. Industrial availability
  • the apparatus and method for presenting sound and video according to the present invention can be widely used in a technical field that needs to present video together with sound, and provide multimedia contents using a computer. It can be applied to provision.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Acoustics & Sound (AREA)
  • Marketing (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Controls And Circuits For Display Device (AREA)
  • Stereophonic System (AREA)

Description

明 細 書 音と映像を提示する装置および方法 技 術 分 野
本発明は、 音とともに映像を提示する技術に関し、 特に、 大型のディスプレ ィ装置を用いて聴衆に音と映像を提示する技術に関する。 背 景 技 術
コンピュータの性能向上とともに、 音や映像をデジタルデータとして取り扱 う技術が普及してきており、 現在では、 一般家庭でも、 パーソナルコンビユー 夕を用いて種々のデジタルコンテンツに含まれる音や映像を再生することが可 能である。 一方、 ディスプレイ装置を^ 化する技術も急速に究展しつつあり、 電光掲示板や広告表示板などの形態で利用できる大型のディスプレイ装置も街 頭で目にする機会が増えてきている。
このような大型のディスプレイ装置に、 デジタル映像を表示させる技術は、 たとえば、 特許協力条約に基づく国際公開公報第 WO 9 6/ 1 024 4号公報 (米国特許第 576 78 1 8号) 、 第 W09 7/2 5 705号公報 (米国特許 出願第 0 8Z89488 3号) 、 第 WO 97/3 62 79号公報 (米国特許出 願第 08 /952 1 3 5号) などに開示されている。 これらの技術によれば、 多数の表示素子をマトリ ックス状に配置することによ り、 街頭などへの設置に 適した大型のディスプレイ装置を用いて、 非常に効率的な手法により、 デジタ ル映像を提示することが可能になる。 また、 映像と音とを提示する際に、 両者 に一体感をもたせるための技術が、 第 WO 9 7Z03 433号公報 (米国特許 出願第 08/793625号) に開示されている。
しかしながら、 上述した従来の技術では、 音と映像との間に十分な調和を図 ることが困難である。 たとえば、 複数の映像をそれぞれ関連した音とともに同 時に提示する場合や、 発音体を含む映像を拡大または縮小表示する場合に、 映 像と音との間に十分な調和が保たれるような提示方法は、 本願発明者が認識す る限りにおいて知られていない。
そこで本発明は、 音と映像とを調和をもって提示することカ?可能な提示方法 および提示装置を提供することを目的とする。 発 明 の 開 示
(1) 本発明の第 1の態様は、 音と映像を提示する装置において、
映像を提示するための表示画面を有する表示装置と、
表示画面の周囲に配置された複数の音源を有し、 これらの音源を用いて、 表 示画面内の任意の領域に音像が形成されるように音を提示する音響装置と、 提示対象となる映像を示す映像データと、 提示対象となる音を示す音響デー タと、 音響データを再生すべき音響再生領域を示す領域データと、 を含む提示 情報を格納する提示情報格納装置と、
表示画面上の所定の映像再生領域に映像データに基づく映像を再生する映像 再生装置と、
表示画面上の音響再生領域に音像が形成されるように、 音響装置の複数の音 源を用いて、 音響データに基づく音を再生する音響再生装置と、
を設けるようにしたものである。
(2) 本発明の第 2の態様は、 上述の第 1の態様に係る音と映像を提示する装 置において、
領域データが、 音響データを再生すべき音響再生領域を示すとともに、 映像 データを再生すべき映像再生領域を示す情報を含むようにしたものである。
(3) 本発明の第 3の態様は、 上述の第 1または第 2の態様に係る音と映像を 提示する装置において、 オペレータの指示を入力する指示入力装置と、
この指示に基づいて、 提示情報格納装置内の提示情報に修正を加え、 音およ び映像の提示態様を変更する提示態様変更装置と、
を更に設けるようにしたものである。
(4) 本発明の第 4の態様は、 上述の第 1〜第 3の態様に係る音と映像を提示 する装置において、
情報記録媒体に記録されている提示情報を読み込んで、 提示情報格納装置内 に格納する処理を行う情報読込装置を更に設けるようにしたものである。
(5) 本発明の第 5の態様は、 上述の第 1〜第 4の態様に係る音と映像を提示 する装置において、
矩形の表示画面を有する表示装置と、 この表示画面のほぼ 4隅に位置する配 置点に配置された 4つの音源を有する音響装置と、 を用いるようにし、
音響再生領域を矩形の領域として定義するようにし、 この矩形領域の 4頂点 位置に音響再生領域を代表する代表点を定め、
音響再生領域に再生すべき音響データが 4チャンネルの音響信号によって構 成されていた場合に、 4つの代表点のそれぞれに 4チャンネルの音響信号をそ れぞれ対応させ、
各配置点と各代表点との距離を演算し、 この距離に応じた音量制御を行うこ とにより、 各代表点の位置にそれぞれ対応する音響信号の音像が得られるよう に、 音響再生装置による音の再生が行われるようにしたものである。
(6) 本発明の第 6の態様は、 上述の第 1〜第 4の態様に係る音と映像を提示 する装置において、
矩形の表示画面を有する表示装置と、 この表示画面のほぼ 4隅に位置する配 置点に配置された 4つの音源を有する音響装置と、 を用いるようにし、
音響再生領域を矩形の領域として定義するようにし、 この矩形領域の 4頂点 位置に音響再生領域を代表する代表点を定め、 音響再生領域に再生すべき音響デ一タが 2チャンネルのステレオ音響信号に よつて構成されていた場合に、 4つの代表点のうちの左側の 2つの代表点に左 側音響信号を対応させ、 右側の 2つの代表点に右側音響信号を対応させ、 各配置点と各代表点との距離を演算し、 この距離に応じた音量制御を行うこ とにより、 各代表点の位置にそれぞれ対応する音響信号の音像が得られるよう に、 音響再生装置による音の再生が行われるようにしたものである。
(7) 本発明の第 7の態様は、 上述の第 1〜第 4の態様に係る音と映像を提示 する装置において、
矩形の表示画面を有する表示装置と、 この表示画面のほぼ 4隅に位置する配 置点に配置された 4つの音源を有する音響装置と、 を用いるようにし、 音響再生領域を矩形の領域として定義するようにし、 この矩形領域の 4頂点 位置に音響再生領域を代表する代表点を定め、
音響再生領域に再生すべき音響データがモノラル音響信号によって構成され ていた場合に、 4つの代表点のそれぞれにモノラル音響信号を対応させ、 各配置点と各代表点との距離を演算し、 この距離に応じた音量制御を行うこ とにより、 各代表点の位置にそれぞれ対応する音響信号の音像が得られるよう に、 音響再生装置による音の再生が行われるようにしたものである。
(8) 本発明の第 8の態様は、 上述の第 1〜第 7の態様に係る音と映像を提示 する装置において、
それぞれ異なる音響再生領域に再生すべき複数の音響データが用意されてい た場合に、 各音響データに基づく音像が重畳して得られるように、 音響再生装 置による音の再生が行われるようにしたものである。
(9) 本発明の第 9の態様は、 上述の第 1〜第 7の態様に係る音と映像を提示 する装置において、
互いに重なり合う領域データをもつた複数組の提示情報を同時に提示する場 合に、 複数の提示情報に優先順位を定義し、 互いに重なりを生じている部分につい ては、 優先順位の高い提示情報についての映像のみを再生し、 優先順位の低い 提示情報についての映像が隠蔽されるようにし、
各提示情報についての音を再生する際に、 映像の隠蔽部分の面積に対応する 量だけ音量を低減させて再生する機能を有するようにしたものである。
( 10) 本発明の第 1 0の態様は、 上述の第 1〜第 7の態様に係る音と映像を 提示する装置において、
それぞれ異なる音響再生領域に再生すべき複数の音響デ一タが用意されてい た場合に、 オペレータの操作入力に基づいて選択された特定の音響再生領域に ついての音響データのみの再生が行われるようにしたものである。
(11) 本発明の第 1 1の態様は、 所定の表示画面上に映像を提示するととも に、 この映像に関連した音を提示するための音と ίί¾ί象を提示する方法において、 上位階層の領域が、 1つまたは複数の下位階層の領域を包含するように階層 構造をもつた領域が定義され、 下位階層の領域には下位発音体が表示され、 上 位階層の領域には下位発音体を含む上位発音体力表示されている映像画面を再 生するための映像データを用意する段階と、
下位発音体によって生成される音と、 上位発音体によつて生成される音と、 を再生するための音響データを用意する段階と、
映像データに基づいて映像画面の全体または一部を再生するとともに、 音響 データに基づいて所定の発音体に関する音を再生する段階と、
を行うようにしたものである。
( 12) 本発明の第 1 2の態様は、 上述の第 1 1の態様に係る音と映像を提示 する方法において、
再生中の映像画面内の特定の発音体を指定する入力がなされた場合に、 この 特定の発音体に関する音が選択的に再生されるようにしたものである。
( 13) 本発明の第 1 3の態様は、 上述の第 1 2の態様に係る音と映像を提示 する方法において、
下位発音体を拡大表示すべき入力がなされた場合に、 この下位発音体を含む 領域を拡大表示するとともに、 この下位発音体に関する音が選択的に再生され るようにしたものである。
( 14) 本発明の第 1 4の態様は、 上述の第 1 1の態様に係る音と映像を提示 する方法において、
映像画面を任意に拡大または縮小して表示させることができるようにし、 現 時点において、 全体が表示されている最も上位階層の発音体に関する音が選択 的に再生されるようにしたものである。
( 15) 本発明の第 1 5の態様は、 上述の第 1 4の態様に係る音と映像を提示 する方法において、
発音体の表示倍率に基づいて、 当該発音体に関する音の音量を制御するよう にしたものである。
( 16) 本発明の第 1 6の態様は、 上述の第 1 1の態様に係る音と映像を提示 する方法において、
オペレータの指示に基づいて、 個々の発音体の再生音量を特定の音量値に設 定できるようにし、 音量値が設定された発音体に関する音を再生する際に、 当 該設定音量値による再生が行われるようにしたものである。
( 17) 本発明の第 1 7の態様は、 上述の第 1 1の態様に係る音と映像を提示 する方法において、
主として下位発音体の発生する音を集音することが可能な指向性をもったマ イクを、 下位発音体の近傍に設置することにより下位発音体の音を録音し、 上位発音体の発生する音全体を集音することが可能な指向性をもったマイク を、 上位発音体の発生する音全体を集音するのに適した位置に設置することに より上位発音体の音を録音し、
これらの録音によって得られた信号に基づいて音響データを用意するように したものである。 図 面 の 簡 単 な 説 明
第 1図は、 大型のディスプレイ装置に提示された自動車の映像の一例を示す 平面図である。
第 2図は、 第 1図に示す映像内の一部分の領域にエンジンの音の音像が形成 されるように音を提示する手法を示す平面図である。
第 3図は、 本発明に係る音と映像を提示する装置において用いられる提示情 報 Iの構成を示すブロック図である。
第 4図は、 第 3図に示す提示情報の構成例を示すブロック図である。
第 5図は、 表示画面を分割し、 その一部分の領域をデジタルデータとして示 す手法の一例を説明する原理図である。
第 6図は、 第 5図に示す手法におけるビッ ト表現の一例を示す図である。 第 7図は、 第 5図に示す手法を用いて構成した提示情報の一例を示すプロッ ク図である。
第 8図は、 本発明に係る方法により、 表示画面の一部分に映像と音とを提示 した状態の一例を示す平面図およびこのような提示に対応する提示情報を示す ブロック図である。
第 9図は、 本発明に係る方法により、 表示画面の一部分に映像と音とを提示 した状態の別な一例を示す平面図およびこのような提示に対応する提示情報を 示すブロック図である。
第 1 0図は、 本発明に係る方法により、 表示画面の一部分に映像ど音とを提 示した状態の更に別な一例を示す平面図およびこのような提示に対応する提示 情報を示すプロック図である。
第 1 1図は、 本発明に係る方法により、 2つの異なる発音体を同一画面上に 提示した状態を示す平面図である。 第 1 2図は、 第 1 1図に示す提示を行うために用意すべき提示情報を示す図 である。
第 1 3図は、 本発明に係る方法により、 階層構造をもった 2組の発音体を同 一画面上に提示した状態の一例を示す平面図である。
第 1 4図は、 第 1 3図に示す提示を行うために用意すべき提示情報を示す図 である。
第 1 5図は、 本発明に係る方法により、 P皆層構造をもった 2組の発音体を同 一画面上に提示した状態の別な一例を示す平面図である。
第 1 6図は、 第 1 5図に示す提示を行うために用意すべき提示情報を示す図 でめる。
第 1 7図は、 本発明に係る方法により、 階層構造をもった 6組の発音体を同 一画面上に提示した状態の一例を示す平面図である。
第 1 8図は、 第 1 7図に示す提示を行うために用意すべき提示情報を示す図 である。
第 1 9図は、 第 1 7図に示す 6組の発音体のうちの 1組の発音体のみを表示 させた状態を示す平面図である。
第 2 0図は、 第 1 9図に示す 1組の発音体を拡大表示させた状態を示す平面 図である。
第 2 1図は、 第 2 0図に示す提示を行うために用意すべき提示情報を示す図 でめる。
第 2 2図は、 第 1 9図に示す 2組の発音体を拡大表示させた状態を示す平面 図である。
第 2 3図は、 第 2 2図に示す提示を行うために用意すべき提示情報の一部を 示す図である。
第 2 4図は、 本発明に係る方法により、 同一の映像中に階層構造をもった複 数の発音体を定義した例を示す平面図である。 第 2 5図は、 第 2 4図に示す提示を行うために用意すべき提示情報を示す図 である。
第 2 6図は、 第 2 4図に示す発音体の一部を拡大表示した状態を示す平面図 である。
第 2 7図は、 第 2 6図に示す提示を行うために用意すべき提示情報を示す図 である。
第 2 8図は、 第 2 4図に示す複数の発音体の別な定義態様を示す平面図であ る o
第 2 9図は、 第 2 8図に示す発音体定義に対応した提示情報を示す図である。 第 3 0図は、 第 2 8図に示す発音体定義を利用した別な映像提示を示す平面 図である。
第 3 1図は、 第 3 0に示す提示を行うために用意すべき提示情報を示す図で める。
第 3 2図は、 本発明に係る音と映像を提示する装置における音源と表示画面 との位置関係を示す正面図である。
第 3 3図は、 第 3 2図に示す装置を用いて、 表示画面上の所定の領域に音像 を形成させる方法を説明する図である。
第 3 4図は、 4チャンネルの音響データを含む ίΐ^情報の構成例を示すプロッ ク図である。
第 3 5図は、 第 3 4図に示す提示情報に基づいて、 各スピーカに与える再生 音信号を演算する方法を示す図である。
第 3 6図は、 第 3 2図に示す装置を用いて、 2組の提示情報を同時に提示し た状態を示す正面図である。
第 3 7図は、 第 3 6図に示す提示を行うために用意すべき提示情報を示す図 である。
第 3 8図は、 第 3 2図に示す装置を用いて、 4組の提示情報を同時に提示し た状態を示す正面図である。
第 3 9図は、 第 3 8図に示す提示を行うために用意すべき提示情報を示す図 である。
第 4 0図は、 本発明に係る音と映像を提示する方法を実行する際に用意すベ き映像デ一タおよび音響デ一タの実用的な構成例を示す図である。
第 4 1図は、 本発明に係る音と映像を提示する方法を実行する際に定義され た階層構造をもった領域を示す平面図である。
第 4 2図は、 本発明に係る音と映像を提示する装置の基本構成を示すブロッ ク図である。 発明を実施するための最良の形態
以下、 本発明を図示する実施形態に基づいて説明する。
§ 1 . 本発明の基本概念
いま、 第 1図に示すように、 大型のディスプレイ装置に自動車の映像が提示 されている場合を考える。 この自動車の映像は、 静止画であっても動画であつ てもかまわない。 ここでは、 エンジンを動作させた状態で停車中の自動車力表 示されているものとし、 エンジンフードの部分が振動で揺れているような動画 が提示されているものとする。 また、 この動画には、 エンジン音が付加されて いるものとしょう。
このように、 音と映像とを同時に提示する手法は、 映画やビデオなどで古く から利用されており、 音をステレオスピーカや 4チャンネルスピー力を用いて マルチチャンネルで提示する手法も広く利用されている。 しかしな力 ら、 従来 から利用されてきた手法では、 エンジン音の音像を形成する領域を正確に提示 することはできない。
たとえば、 従来の手法では、 第 1図に示す映像に音を付加する場合、 音像の 位置を映像の中心位置よ りもやや右側へ変位させてエンジン音を提示すること により、 エンジン音が映像のエンジン付近から聞こえてくるような効果を加え ることは可能である。 このような効果を加えるには、 映像を撮影するときに、 複数のマイクを配置してマルチチャンネルの音響信号を採取しておき、 各マイ クに応じた位置に配置した複数のスピーカを用いて、 各チャンネルの音響信号 を再生すればよい。
ところ力 このような従来の手法では、 「右下の方からエンジン音が聞こえ てくる」 といったェンジン音の漠然とした位置に関する情報を伝えることはで きる力 ?、 「映像として表示された自動車のエンジン位置からエンジン音が聞こ えてくる」 というように、 映像上の発音体 (この例ではエンジン) の位置と音 の位置との関係を正確に提示することはできない。 もちろん、 一般家庭で利用 されているような比較的小型のディスプレイ装置を用いて映像と音とを提示す る場合には、 発音体の位置を厳密に提示する必要性は乏しい。 しかし、 大勢の 聴衆に情報を提示するために街頭に設置されるような大型のディスプレイ装置 を用いて映像と音とを提示する場合には、 発音体の位置をより厳密に提示すれ ばする程、 より臨場感の高い情報提示力不可能になる。
本発明はこのような着想に基づいてなされたものであり、 その基本概念は、 個々の発音体の音響信号に、 それぞれ音像を形成すべき領域を指定する情報を 付加する点にある。 たとえば、 上述した自動車の例の場合、 第 2図に示すよう に、 映像領域を 1 6分割し、 図にハッチングを施した領域をエンジン音の音響 再生領域として定義し、 エンジン音の音響信号にこの音像形成領域を示す情報 を付加しておくようにする。 そして、 再生時には、 自動車の映像を表示画面上 に再生するとともに、 エンジン音をこの音響再生領域内に音像が形成されるよ うに再生するのである。 第 2図にハッチングを施して示すように、 この音響再 生領域は、 自動車の映像中のエンジン部分に相当する領域であり、 この領域に エンジン音の音像を形成することにより、 臨場感のある情報 が可能になる。 本発明における音と映像を提示する方法は、 面積をもった音響再生領域を定 義するという点において、 従来のステレオ音響再生の方法とは根本的に異なつ ている。 すなわち、 第 2図に示す例では、 情報の提示を受ける聴衆の受ける印 象は、 「映像画面の右下の方からエンジン音が聞こえてくる」 という印象では なく、 「映像画面に示された自動車のエンジン部分からエンジン音が聞こえて くる」 という印象になる。 なお、 面積をもった二次元平面領域に音像力 S得られ るような具体的な音の提示方法については、 § 6において詳述する力、 表示画 面上で二次元的な広がりをもった音像を形成するためには、 この表示画面の周 囲に複数の音源 (スピーカ一など) を配置しておけばよい。
第 3図は、 本発明に係る音と映像を提示する装置において用いられる提示情 報 Iの構成を示すブロック図である。 図示のとおり、 提示情報 Iは、 映像デー タ Ί 音響データ A、 領域データ Tによって構成されている。 映像データ Vは、 提示対象となる映像を示すデータであり、 第 2図の例の場合、 エンジンを動作 させた状態で停車中の自動車の動画映像を示すデータとなる。 また、 音響デー 夕 Aは、 提示対象となる音を示すデータであり、 通常は、 映像データ Vに基づ いて提示されている映像内に存在する発音体 (第 2図の例の場合はエンジン) の音を示すデータである。 一方、 領域データ Tは、 音響データ Aを再生すべき 音響再生領域を示すデータであり、 第 2図の例の場合、 ハッチングが施された 矩形領域を示すデータということになる。
本発明を実施する上では、 第 3図に示すように、 映像データ V、 音響データ A、 領域データ Tの 3つのデータによって提示情報 I を構成しておけばよい。 もっとも、 提示情報 Iの構成は、 提示すべき情報の内容によって適宜変えるこ とが可能である。 たとえば、 エンジン音の発生から終了に至るまでの全時間帯 にわたつて、 音響再生領域が同一の場合であれば、 第 3図に示すように、 映像 データ V、 音響データ A、 領域データ Tをそれぞれ 1つずつ用意することによ り提示情報 Iを構成すればよい。 ところ力 ?、 たとえば、 エンジンをスタータモ一 タを用いて始動させるときの始動音 A 1 については、 スタータモ一タカ位置す る領域 T 1を音響再生領域とし、 エンジンが始動後のアイ ドリング音 Α 2につ いては、 エンジン全体が位置する領域 Τ 2を音響再生領域とし、 アクセルをふ かしてエンジンの回転数を上昇させたときのエンジン音 A 3については、 自動 車全体に振動力 ?伝達されるため、 自動車全体の領域 T 3を音 ^生領域とする、 というように、 時間とともに音響再生領域を変化させるような場合であれば、 第 4図の提示情報 I ( 1 ) に示すように、 映像データ Vについては共通のデー タを用意し、 音響データおよび領域データについては、 データ A l, T 1から なる第 1の組 (スタータ時の再生用) 、 データ A 2, T 2からなる第 2の組 (ァ イドリング時の再生用) 、 データ A 3, T 3からなる第 3の組 (高回転時の再 生用) なる 3組を用意しておけばよい。 もちろん、 映像データ Vについても、 スタータ時の映像を示すデータ V 1、 アイ ドリング時の映像を示すデータ V 2、 高回転時の映像を示すデータ V 3なる 3組を用意し、 第 4図の提示情報 I ( 2 ) に示すような構成を採ってもかまわない。
§ 2 . 領域データの構成例
上述したように、 本発明では、 音響データ Aを再生する音響再生領域を定義 するために領域データが用意される。 そこで、 ここでは、 領域データの具体的 な構成例を示すことにする。
第 5図は、 表示画面をいくつかのブロックに分割し、 その一部分の領域を領 域データとして示す手法の一例を説明する原理図であり、 表示画面を複数のブ ロックに分割する 4通りの分割態様と、 個々の分割態様において得られる各ブ ロックについて定義されたアドレス力示されている。 各分割態様は、 分割レべ ル nによって示される。
ここで、 第 1段目に示されている分割態様は、 分割レベル n = 0で示される 分割態様であり、 実際には、 何ら分割は行われていない。 すなわち、 全表示画 面が同一のブロックに所属することになる。 一方、 第 2段目に示されている分 割態様は、 分割レベル n = 1で示される分割態様であり、 縦横にそれぞれ 2分 割ずつ、 合計 4分割を行ったものである。 これによ り、 表示画面はブロック a, b, c, dの 4つに分割される。 また、 第 3段目に示されている分割態様 は、 分割レベル n=2で示される分割態様であり、 縦横にそれぞれ 4分割ずつ、 合計 1 6分割を行ったものであり、 第 4段目に示されている分割態様は、 分割 レベル n = 3で示される分割態様であり、 縦横にそれぞれ 8 !!ずつ、 合計 64 分割を行ったものである。
この例では、 分割レベル n = 3までしか示されていない力 ?、 同様に分割数を 増やしてゆけば、 たとえば、 分割レベル n = 8で示される分割態様においては、 縦横にそれぞれ 2 56分割が行われ、 6 553 6個のブロックカ?形成されるこ とになる。 要するに、 分割レベル nで示される分割態様では、 二次元画素配列 を縦横にそれぞれ 2 n分割することにより 22 n個のブロックが得られることに なる。
このように、 複数通りの分割態様力定義できたら、 個々の分割態様ごとにそ れぞれのブロックを示すためのアドレスを定義する。 第 5図に示す例では、 分 割レベル n = 0についてはアドレスの定義は行われていない力? (単一のブロッ クしかないため、 アドレスは不要である) 、 分割レベル n = 1で示される分割 態様において得られる 4個のブロックについては、 図示のとおり、 それぞれ、 00, 0 1, 1 0, 1 1なる 2ビッ トからなるアドレスが定義されており、 分 割レベル n = 2で示される分割態様において得られる 1 6個のブロックについ ては、 図示のとおり、 それぞれ、 000 0, 000 1, 00 1 0, 0 0 1 1, …なる 4ビッ トからなるアドレス力 ?定義されており、 分割レベル n= 3で示さ れる分割態様において得られる 64個のブロックについては、 図示のとおり、 それぞれ、 000000, 00000 1 , …なる 6ビッ トからなるア ドレス力 定義されている。
結局、 この第 5図に示す実施例では、 分割レベル n = iで示される分割態様 において得られる 22 '個のブロックについてのァドレスを、 1つ下の分割レべ ル n = ( i - 1) で示される分割態様において得られる 22 個のブロッ クを示すアドレスの下位に、 00, 01, 10, 1 1のうちのいずれかを付加 してなるァドレスによって示すようなアドレス定義が行われていることになる。 たとえば、 分割レベル n = 2で示される分割態様において得られるブロック e, f , g, hについてのアドレスは、 1つ下の分割レベル n = 1で示される 分割態様において得られるプロック a (ブロック e , f , g, hと同じ位置を 占め る ブロ ッ ク) を示すア ド レス " 0 0 " の下位に、 それぞれ 00, 0 1, 10, 1 1を付加したものになっている。 ここで、 下位にどの 2 ビットを付加すべきかは、 4つのブロック a, b, c, dに するア ドレス定 義と同様の方法で決定される。 たとえば、 4つのブロック e, f , g, hの相 互位置関係は、 4つのブロック a, b, c, dの相互位置と等価であるから、 ブロ ック eのアドレスの下位 2 ビッ トは、 ブロ ック aのアドレスと同じ "00" とし、 ブロック f のアドレスの下位 2ビッ トは、 ブロック bのァドレ スと同じ "01" とし、 ブロック gのァドレスの下位 2ビッ トは、 ブロック c のアドレスと同じ "1 0 " とし、 ブロック hのアドレスの下位 2ビッ トは、 ブ ロック dのアドレスと同じ "1 1" としている。
もちろん、 本発明を実施するにあたっては、 必ずしも上述のようなアドレス 定義を行う必要はないが、 演算負担を軽減し、 効率的な表示動作を行わせる上 では、 上述のようなアドレス定義を行うのカ?好ましい。 このようなアドレス定 義を行っておけば、 特定のブロックのアドレスから下位 2ビットを削除すると、 1つ下の分割レベルの同じ位置のブロックのァドレスを得ることができる。 ま た、 このようなアドレス定義に必要なビッ ト数は、 図 1に示すように、 2 nビッ トで示される。 また、 各分割レベル nにおける表示分解能、 すなわち、 得られ るブロックの総数は、 第 5図に示されているように、 22nとなる。
第 6図は、 上述した個々の分割態様についての分割レベルおよびア ドレスの ビッ ト表現を示す図である。 この例では、 分割レベル nは、 4ビッ トで表現さ れており、 n = 0〜 1 5 までの 1 6通りの分割態様を定義することができる。 一方、 各ブロックを示すために必要なアドレスのビッ ト数は、 前述したように、 個々の分割レベルごとに異なり、 一般に、 分割レベルが 1つ上がるごとに、 ァ ドレスは 2ビッ トだけ余分に必要となる。 したがって、 たとえば、 分割レベル n = 1 5では、 3 0ビッ トものァドレスカ?必要になる力 ?、 この分割レベルでは、 1 Gもの高精細な表示分解能力得られることになる。
本発明において、 領域データ Tを上述のような手法で定義すれば、 提示情報 Iは、 第 7図に示すような構成で表現できる。 すなわち、 領域データ Tは、 分 割レベルを示すビッ ト列と、 アドレスを示すビッ ト列とによって構成され、 ァ ドレスを示すビッ ト列の長さは分割レベルによって決定されることになる。 但 し、 領域データ T、 音響データ Α、 映像データ Vを相互に区別できるようなデー タ構造を採れば、 分割レベルを示すビッ ト列は省略してもかまわない。 この場 合、 5^!Jレベルは、 アドレスを示すビット列の長さに基づいて決定すればよい。 たとえば、 領域データ T力 「0 1」 なる 2ビッ トのデータから構成されていた 場合には、 第 5図において、 分割レベル n = 1のブロック bなる領域を示すも のとして認識することができ、 領域デ一タ Tカ? 「 0 0 0 1」 なる 4ビッ トのデー タから構成されていた場合には、 第 5図において、 分割レベル n = 2のブロッ ク f なる領域を示すものとして認識することができる。 また、 領域データ Tを 示すビッ トカ全く存在しない場合には、 第 5図において、 分割レベル n = 0に 相当する全表示領域を示すものとして認識することができる。
§ 3 . 本発明を用いた具体的な提示例
第 8図は、 本発明に係る方法により、 表示画面の一部分に映像と音とを提示 した状態の一例を示す平面図およびこのような提示に対応した提示情報を示す ブロック図である。 図の左に示す平面図は、 表示画面を四分割し、 図にハッチ ングを施して示す左下の領域 T ( a ) に所定の内容を提示した状態を示してい る。 このような提示を行うには、 図の右に示すような提示情報 I ( a ) を用意 しておけばよレ、。 ここで、 映像データ V (a) は、 ハッチングを施して示す領 域に映像を提示するためのデータであり、 音響データ A (a) は、 同領域に音 像が形成されるような態様で提示される音のデータである。 また、 領域データ T (a) は、 ハッチングを施して示す領域 T (a) を示すためのデータである。 具体的には、 § 2で述べた手法を用いることにより、 "10" なる 2ビッ トの データ列によつて領域定義が行われている。
第 9図には、 別な一例力 s示されている。 この例では、 表示画面が 1 6分割さ れ、 そのうちの図にハッチングを施して示された領域 T (b) に所定の内容を 提示した状態が示されている。 このような提示を行うには、 図の右に示すよう な提示情報 I (b) を用意しておけばよレ、。 ここで、 映像データ V (b) およ び音響データ A (b) は、 このハッチング領域に映像および音を提示するため のデータであり、 領域デ一タ T (b) は、 ハッチング領域 T (b) を示すため のデータである。 具体的には、 § 2で述べた手法を用いることによ り、 "01 1 0" なる 4ビットのデータ列によって領域定義が行われている。
第 1 0図には、 更に別な一例力 s示されている。 この例では、 ハッチングカ s '施 された全表示画面に所定の内容を提示した状態力 s示されている。 このような提 示を行うには、 図の右に示すような提示情報 I (c) を用意しておけばよい。 ここで、 映像データ V (c) および音響データ A (c ) は、 この全表示画面に 映像および音を提示するためのデータであり、 領域データ T (c) は、 ハッチ ングが施された全表示画面に相当する領域 T (c) を示すデータである。 実際 には、 § 2で述べたように、 領域データ T (c) はビッ ト列としては存在しな いデータ (いわゆる 「ヌルデータ」 、 図では なる記号で示す) であり、 0ビッ トからなる領域データによって、 全表示画面が示されることになる。
ここで留意しておくべき点は、 この第 1 0図の例のように、 領域データ T (c ) が全表示画面を示していた場合であっても、 単なるモノラル音響再生が 行われるわけではないという点である。 後の § 6で述べるように、 本発明を実 施する場合、 表示画面の周囲に複数の音源 (スピーカ) 力設けられることにな る。 したがって、 音響再生領域が表示画面の全領域になっていた場合、 この複 数の音源によって、 全表示画面に相当する二次元的な広がりをもつた音像が形 成されるように、 音の提示が行われることになる。 このように、 領域データ T ( C ) で指定された音響再生領域に相当する広がりをもった音力 是示されると いう点において、 第 1 0図に示す本発明の実施形態は、 単なるモノラル音響再 生とは明確に区別されることになる。
なお、 いずれの場合も提示される音の音量は、 各音響データ A ( a ) , A ( b ) , A ( c ) 内の音量データに基づいて決定されるので、 ハツチングで示 された領域の面積の大小は、 直接的には音量に関係しない。 もちろん、 領域の 面積を考慮して音量を増減させるような手法を採ることも可能であり、 後述す るように、 領域の拡大や縮/』 作に連動させて音量を増減させることもできる。 また、 上述の例では、 各領域データ T ( a ) , T ( b ) , T ( c ) は、 いず れも音像を生成する音響再生領域を示すとともに、 映像を再生する映像再生領 域を示している。 たとえば、 第 8図の例では、 映像データ V ( a ) で示される 映像は、 領域デ一タ T ( a ) で示されるハッチング領域に再生され、 音響デ一 タ A ( a ) で示される音は、 領域データ T ( a ) で示されるハッチング領域に 音像が生じるように再生されることになる。 このよう に、 映像再生領域と音響 再生領域とが同一の場合は、 領域データ Tを、 音響再生領域を示すデータとし て用いるとともに、 映像再生領域を示すデータとして用いることができる。 もちろん、 必要に応じて、 音響再生領域を示す領域データと映像再生領域を 示す領域データとを別個に用意するようにし、 音と映像とをそれぞれ別個の領 域に提示することも可能である。'たとえば、 第 2図に示す自動車の例では、 全 表示画面に自動車の映像が提示されているのに対し、 エンジン音はハッチング を施した領域に音像が生成するように提示されており、 映像再生領域が全表示 領域であるのに対し、 音響再生領域はノ、ツチングを施した部分的な領域となつ ている。 このような場合、 映像再生領域を示す領域データは省略し、 音響再生 領域を示す領域データのみを用意しておけばよい。
第 1 1図は、 本発明に係る方法により、 2つの異なる発音体を同一画面上に 提示した状態を示す平面図である。 より具体的には、 表示画面が 1 6分割され、 そのうちの 1区画分の領域にピアノ力表示され、 別な 2区画分の領域にはトラ ンペッ ト力 ?表示されている。 第 1 2図は、 この第 1 1図に示す提示を行うため に用意すべき提示情報を示す図である。 第 12図の左には、 各発音体 (この例 では、 ピアノおよびトランペッ ト) の位置する領域にハッチングを施した表示 画面の分割図が示されており、 図示の各領域 T (a) , T (b) に、 それぞれ ピアノに関する提示情報 I (a) と トランペッ トに関する提示情報 I (b) と 力提示されることになる。
第 12図の右に示されているように、 提示情報 I ( a) は、 ピアノの映像か らなる映像データ V (a) と、 ピアノの演奏音からなる音響データ A (a) と、 これらを提示するための領域を示す領域データ T (a) とによって構成されて いる。 同様に、 提示情報 I (b) は、 トランペッ トの映像からなる映像データ V (b) と、 トランペッ トの演奏音からなる音響データ A (b) と、 これらを 提示するための領域を示す領域データ T (b) とによって構成されている。 よ り具体的には、 領域データ T (a) は、 "01 1 0" なるビッ ト列から構成さ れ、 ϋ/示情報 I (a) に関する映像再生領域および音響再生領域を示している。 また、 領域データ T (b ) は、 "101 1" なるビッ ト列と "1 1 1 0" なる ビッ ト列とから構成され、 提示情報 I (b) に関する映像再生領域および音響 再生領域を示している。
このような 2組の提示情報 I ( a ) および I ( b ) の双方に基づいて、 表示 画面への提示を行うと、 第 1 1図に示すような結果が得られることになる。 視 聴者は、 図示された各領域 T (a) , T (b) に、 ピアノおよびトランペッ ト の映像を認識することができ、 しかも、 ピアノの演奏音はピアノの映像のある 領域 T ( a ) に音像が得られ、 トランペッ トの演奏音はトランペッ トの映像の ある領域 T ( b ) に音像が得られることになる。 このように、 各発音体につい ての映像の位置と音の位置とを一致させることにより、 高い臨場感をもった映 像および音の提示が可能になる。
第 1 1図には、 2つの発音体を提示する例を述べたが、 3つ以上の発音体の 提示も同様の手法で行うことができるようになる。 また、 第 1 1図の例では、 各発音体ごとの提示領域 (映像再生領域および音響再生領域) を、 表示画面を 1 6分割したブロックの集合として表現している力 ?、 分割数を増やすことによ り、 提示領域の形状をよ り正確に定義することも可能である。 たとえば、 表示 画面を 1 0 0分割あるいはそれ以上に分割して得られるブロックの集合として 各提示領域を定義すれば、 ピアノあるレ まトランぺッ トといった楽器の輪郭形 状に近い領域定義が可能になる。 もっとも、 人間の聴覚による音響定位機能は、 それほど細かな 象領域を認識する機能を有していないため、 実用上は、 第 1 1 図に示す例のように、 かなり粗い分割により得られるプロックの集合によって 各提示領域を定義すれば十分である。
§ 4 . 階層構造をもった発音体定義を行う提示例 (1)
本発明のもうひとつの特徴は、 階層構造をもった発音体定義を行い、 この階 層構造の情報をそのまま視聴者に提示できるようにする点にある。 以下、 この 特徴を、 具体例を示しながら説明する。
第 1 3図は、 本発明に係る方法によ り、 階層構造をもった 2組の発音体を同 一画面上に提示した状態の一例を示す平面図である。 この例では、 表示画面は 1 6分割されており、 その左下部分に、 ドラムと、 このドラムを収容した部屋 の映像が示されている (分割線は、 必要に応じて表示してもよいし、 表示しな くてもょレ 。 第 1 4図は、 このような提示を行うために用意すべき提示情報 を示す図である。 第 1 4図の左には、 各発音体 (この例では、 ドラムおよびこ のドラムを含む部屋全体) の位置する領域にハツチングを施した表示画面の分 割図が示されており、 図示の各領域 T ( a) , T (b) に、 それぞれドラムに 関する提示情報 I (a) と部屋全体に関する提示情報 I (b) と力提示される ことになる。 なお、 本明細書における 「発音体」 とは、 楽器のように自ら音を 発生する物だけではなく、 部屋の床、 壁、 天井、 家具のように、 音を反射する 物も含む広い概念を意味している。
さて、 第 14図の右に示されているように、 提示情報 I (a) は、 ドラムの 演奏音からなる音響データ A (a) と、 このドラムの演奏音を提示するための 領域を示す領域データ T (a) とによって構成されている。 一方、 提示情報 I (b) は、 ドラムの置かれた部屋 (ドラムを含む) の映像からなる映像データ V (b) と、 部屋全体についてのドラムの反響音からなる音響データ A (b) と、 これらを提示するための領域を示す領域データ T (b) とによって構成さ れている。 より具体的には、 領域データ T (a) は、 " 1 01 1" なるビッ ト 列から構成され、 提示情報 I (a) に関する音響再生領域 T (a) を示してい る。 また、 領域データ T (b) は、 "1 0" なるビッ ト列から構成され、 提示 情報 I (b) に関する映像 領域および音響再生領域 T (b) を示している。 なお、 提示情報 I (a) には、 ドラム自体の映像を示す映像データ V (a) は 含まれていないが、 これは、 提示情報 I (b) に含まれている 「ドラムの置か れた部屋」 を示す映像データ V (b) の一部分を、 ドラム自体の映像を示す映 像データ V (a) として利用することができるためである。 もちろん、 必要に 応じて、 ドラム自体の映像を示す映像データ V (a) を、 提示情報 I (a) 内 に別個に用意してもかまわない。
ここで、 " 10" なるビッ ト列で示される領域 T (b) と、 "10 1 1" な るビッ ト列で示される領域 T (a) との関係に着目すると、 前者は後者を包含 していることがわかる。 そこで領域 T (b) を上位階層の領域、 領域 T (a) を下位階層の領域と定義すれば、 階層構造をもった領域が定義されていること になり、 下位階層の領域 T (a) には下位発音体としてのドラム力 s存在し、 上 位階層の領域 T ( b ) には上位発音体としての部屋全体力 ?存在することになる。 ここで、 上位発音体は、 下位発音体を含んだ発音体であり、 音響データ A ( a ) が下位発音体としての純粋なドラムの演奏音のみを収録したデータであ るのに対し、 音響データ A ( b ) は、 このドラムからの直接音とともに、 部屋 の床、 壁、 天井などから反射したドラムの間接的な反響音をも含んだデータと レ、つことになる。
このように、 階層構造をもった 2種類の音響データ A ( a ) , A ( b ) を用 意するには、 次のようにすればよい。 まず、 主として下位発音体たる ドラムの 発生する音を集音することが可能な指向性をもったマイクを、 この下位発音体 たるドラムの近傍に設置することによ り、 下位階層に所属する音響データ A ( a ) を録音する。 一方、 上位発音体たる部屋全体の発生する音を集音するこ とが可能な指向性をもつたマイクを、 この上位発音体たる部屋で発生する音全 体を集音するのに適した位置 (たとえば、 部屋の 4隅) に設置することにより、 上位階層に所属する音響データ A ( b ) を録音すればよい。
なお、 ここに示す例では、 1つの上位階層の領域内に下位階層の領域が 1つ だけ定義されている力 1つの上位階層の領域内に複数の下位階層の領域を定 義し、 上位発音体が、 複数の下位発音体を含むような構成にしてもかまわない。 また、 ここに示す例では、 上位と下位との二階層のみが定義されている力 ?、 よ り多重の階層を定義してもよレ、。
以上のようにして、 表示画面上に階層構造をもった領域を定義し、 下位階層 の領域には下位発音体が表示され、 上位階層の領域にはこの下位発音体を含む 上位発音体が表示されている映像画面を再生するための映像データを用意する とともに、 下位発音体によって生成される音と、 上位発音体によって生成され る音と、 を再生するための音響データを用意することができれば、 用意した映 像データに基づいて映像画面を再生するとともに、 用意した音響データに基づ レ て所定の発音体に関する音を再生すること力 ?可能になる。 たとえば、 第 1 3図に示すように、 表示画面の左下部分に映像データ V (b) に基づく映像を再生させた状態において、 音響データ A (b) に基づく 音を すると、 部屋全体の映像が表示されている上位階層の領域 T (b) に、 部屋全体についてのドラムの反響音の音像が生成されることになり、 臨場感の 豊かな表現が可能になる。
また、 視聴者力'指定した特定の発音体の音のみを選択的に再生することも可 能である。 たとえば、 視聴者がドラムからなる下位階層の発音体のみを指定し た場合には、 音響データ A (a) に基づく音のみを、 ドラムの映像が表示され ている下位階層の領域 T (a) に音像が生じるように再生すればよい。 もちろ ん、 この視聴者の指定に応じて、 映像データ V (b) の再生形態を変えるよう にしてもよい。 たとえば、 音響データ A (a) に基づく音のみを再生している ときには、 映像データ V (b) のうちのドラム力表示されている一部分のみを 表示させ、 音響データ A (b) に基づく音を再生しているときには、 映像デー タ V (b) の全映像を表示させるようにすることができる。
第 15図は、 階層構造をもった 2組の発音体を同一画面上に提示した別な一 例を示す平面図である。 この例では、 表示画面は 4分割されており、 街の景色 力描かれている (分割線は、 必要に応じて表示してもよいし、 表示しなくても よい) 。 この景色には、 階層構造をもった 2組の発音体が定義されている。 下 位階層の発音体は、 左下に描かれた教会であり、 特に、 教会が主たる発音体と して機能する。 一方、 上位階層の発音体は、 この教会の鐘を含む街全体の環境 である。 第 1 6図は、 このような提示を行うために用意すべき提示情報を示す 図である。 第 1 6図の左には、 各発音体 (この例では、 教会およびこの教会を 含む街全体) の位置する領域にハッチングを施した表示画面の分割図が示され ており、 図示の各領域 T (a) , T (b) に、 教会に関する提示情報 I (a) と街全体に関する提示情報 I (b) と力 ?提示されることになる。
第 16図の右に示されているように、 提示情報 I ( a) は、 教会の鐘の音か らなる音響データ A (a) と、 教会に関する音を提示するための領域を示す領 域データ T (a) とによって構成されている。 一方、 提示情報 I (b) は、 教 会を含む街全体の映像からなる映像データ V (b) と、 教会の鐘の音を含む街 全体の環境音からなる音響データ A (b) と、 これらを提示するための領域を 示す領域データ T (b) とによって構成されている。
より具体的には、 領域データ T (a) は、 "10" なるビッ ト列から構成さ れ、 提示情報 I (a) に関する音響再生領域を示している。 また、 領域データ T (b) は、 ビッ トなしのデータから構成され、 提示情報 I (b) に関する映 像再生領域および音響再生領域が全表示画面であることを示している。 ここで、 上位発音体は、 下位発音体を含んだ発音体であり、 音響データ A (a) 力'下位 発音体としての教会の鐘の音のみを収録したデータであるのに対し、 音響デー タ A (b ) は、 この教会の鐘の音とともに、 街の種々の雑踏音を含んだデータ ということになる。
このよ うに、 階層構造をもった 2種類の音響データ A (a) , A (b) を用 意するには、 次のようにすればよい。 まず、 主として教会の鐘の音を集音する ことカ呵能な指向性をもったマイクを、 この教会の近傍に設置することにより、 下位階層に所属する音響データ A (a) を録音する。 一方、 上位発音体たる街 全体の発生する音を集音する際には、 たとえば、 カメ ラの左右にそれぞれ所定 の指向性をもったマイクを取りつけ、 街全体の画像を撮影するときに同時にス テレオ録音を行い、 上位階層に所属する音響データ A (b) とすればよレ 。 ま た、 カメラの上下左右の 4隅の位置にそれぞれ所定の指向性をもったマイクを 取りつけて録音すれば、 4チャンネルの音響デ一タを取り込むことができる。 こう して、 必要な提示情報が用意できたら、 第 1 5図に示すように、 表示画 面に映像データ V (b) に基づく映像を再生させた状態において、 音響データ A (b) に基づく音を再生すると、 街全体の映像が表示されている上位階層の 領域 T (b) に、 街全体についての環境音の音像が生成されることになる。 もちろん、 視聴者が指定した特定の発音体の音のみを選択的に再生すること も可能である。 たとえば、 視聴者が教会からなる下位階層の発音体のみを指定 した場合には、 音響データ A (a) に基づく音のみを、 教会の映像が表示され ている下位階層の領域 T (a) に音像が生じるように再生すればよい。 また、 この視聴者の指定に応じて、 映像データ V (b) の再生形態を変えるようにし てもよい。 たとえば、 音響データ A (a) に基づく音のみを再生しているとき には、 映像データ V (b) の中の教会の映像部分を拡大表示させるようにして もよい。
第 1 7図は、 本発明に係る方法により、 階層構造をもった 6組の発音体を同 一画面上に提示した状態の一例を示す平面図である。 この例では、 表示画面は 16分割されており (分割線は、 必要に応じて表示してもよいし、 表示しなく てもよい) 、 このうち 4つの領域 T (a) , T (b) , T (c) , T (d) に、 それぞれ 4人の演奏者が下位階層の発音体として表示されている。 一方、 領域 T (a) , T (b) を下位領域として包含する上位階層の領域 T (e) と、 領 域 T (c) , T (d) を下位領域として包含する上位階層の領域 T (f ) とが、 図に破線で示すように定義されている。 ここで、 4人の演奏者は、 それぞれ下 位発音体を構成している。 また、 領域 T (a) , T (b) に表示された二人の 演奏者は、 全体として 1つの上位発音体を構成しており、 領域 T (c ) , T (d) に表示された二人の演奏者も、 全体として 1つの上位発音体を構成して レ、る。
第 18図は、 このような提示を行うために用意すべき提示情報を示す図であ る。 提示情報 I (a) は、 第 1バイオリ ンの映像からなる映像デ― V (a) と、 第 1バイオリンの演奏音からなる音響データ A (a) と、 これらを提示す る領域を示す領域データ T (a) = " 1 000" とによって構成されている。 提示情報 I (b) 〜I (d) も同様に、 それぞれ領域 T (b) 〜T (d) に提 示すべき情報および領域を示すデータによって構成されている。 また、 提示情 報 I (e) は、 第 1ノ ィォリンおよび第 2バイオリンの演奏音からなる音響デ一 タ A (e) と、 これを提示する領域を示す領域データ T (e) = "1 0" とに よって構成されており、 提示情報 I (f ) は、 第 3バイオリンおよびピアノの 演奏音からなる音響データ A (f) と、 これを提示する領域を示す領域データ T (f ) = "1 1" とによって構成されている。 提示情報 I (e) および I (f ) には、 映像データは含まれていないが、 これは下位階層の提示情報につ いての映像データを利用することができるためである。
下位発音体についての音響データ A (a) 〜A (d) は、 各楽器の音のみを 直接集音すること力 ?可能な指向性をもったマイクを、 各楽器の近傍に設置する 力、、 あるいは各演奏者の衣服に取り付けて録音することにより用意することが 可能である。 一方、 上位発音体は、 二人の演奏者の奏でる楽器の音とともに、 その周囲の床や壁などからの反響音とを発生させる発音体として定義され、 た とえば、 音響データ A (e) は、 この反響音を含めた集音力 ?可能な指向性をもつ たマイクを、 二人の演奏者の前方にやや距離をおいて設置して録音することに より用意することができる。
こうして、 第 18図に示すような提示情報が用意できれば、 視聴者に好みの 態様で四重奏の情報を提示すること力可能になる。 たとえば、 第 17図に示す ような標準的な提示態様においては、 第 18図に示す提示情報のうち、 現時点 において、 全体力 ?表示されている最も上位階層の発音体に関する音を選択的に 提示すればよい。 具体的には、 音響データ A (e) , A (f ) に基づく音を、 上位領域 T (e) , T (f ) に音像が生成されるように再生すればよい。
もちろん、 視聴者が指定した特定の発音体の音のみを選択的に再生すること も可能である。 たとえば、 視聴者がマウスなどのポインティングデバイスを用 いて、 第 17図の領域 T (a) をクリックする操作を行うことにより、 提示情 報 I ( a ) を選択する意思表示をしたと しょう。 この場合、 たとえば、 選択さ れた提示情報 I (a) のみを提示するようにすれば、 第 19図に示すように、 領域 T (a) に映像データ V (a) に基づく第 1バイオリンの映像のみ力 ?表示 され、 音響データ A (a) に基づく第 1バイオリンの演奏音のみ力 ?、 この領域 T (a) に音像を生じるように再生されることになる。 視聴者は、 特定の楽器 の音色のみを聞きたい場合には、 このような選択指示を行えばよい。 なお、 第 1 9図に示す例では、 選択された提示情報 I (a) の映像のみが表示されてい るカ^ 視聴者に選択されなかった提示情報の映像については低輝度表示 (いわ ゆるディマ一表示) を行うようにしてもよレ、。
前述したように、 各発音体の再生音量を示す情報は、 各音響データ内に予め 用意されている。 したがって、 第 19図に示す状態では、 音響データ A (a) 内の 情報に応じた音量で第 1バイオリンの演^ が再生されることになり、 第 17図に示すように四重奏すベての音響データを再生している状態に比べる と、 第 1バイオリンの演奏音量自体は変わらない力 ?、 全体の音量は低下する。 また、 実際に映像が表示される領域も全表示画面の 1 1 6のみとなってしま う。 そこで、 実用上は、 映像および音を拡大させる機能を設けておくのが好ま しい。 たとえば、 視聴者の拡大指示に応じて、 第 19図に示す表示態様を第 20 図に示すように変更するような機能を設けておけばょレ 0 このとき、 映像の表 示倍率に基づいて、 音量も増加するような制御を行うの力 ?好ましい。 図示の例 の場合、 第 1バイオリンの映像が 4倍に拡大表示されたので、 第 1バイオリン の演奏音も 4倍にすればよい (必ずしも物理的な音量を 4倍にする必要はなく、 感覚的に音量が 4倍になればよい) 。
第 19図に示す提示態様から、 第 20図に示す 態様に変更するためには、 第 18図に示す提示情報 I (a) に対して修正を加え、 第 2 1図に示すような 提示情報 I (a 2) を生成すればよい。 この提示情報 I (a 2) は、 もとの映 像データ V (a) の映像サイズを 4倍の大きさに拡大した映像データ V (a 2) と、 もとの音響データ A (a) の音量を感覚的に 4倍の音量に拡大し た音響データ A (a 2) と、 もとの提示領域 T (a) を 4倍の大きさに拡大し た領域データ T (a 2) = "10" とによって構成されている。
第 22図は、 第 1 7図に示す状態において、 領域 T (a) とともに隣接する 領域の映像を 4倍に拡大する指示が与えられた場合の提示態様を示す平面図で ある。 第 20図に示す例と同様に、 領域 T (a 2) には第 1バイオリ ンの映像 力?4倍に拡大表示されている力 ?、 この第 22図に示す例では、 更に、 その右に 隣接する領域 T (b 2) に、 第 2バイオリンの映像が 4倍に拡大表示されるこ とになる。 このような提示態様を得るためには、 もとの提示情報 I (a) を第 2 1図に示すように変更するとともに、 もとの提示情報 I (b) に対しても変 更を加えて、 第 23図に示すような提示情報 I (b 2) を得るようにすればよ レ、。 この変更後の提示情報 I (b 2) は、 もとの映像データ V (b) の映像サ ィズを 4倍の大きさに拡大した映像データ V (b 2) と、 もとの音響データ A (b) の音量を感覚的に 4倍の音量に拡大した音響データ A (b 2) と、 もと の提示領域 T (b ) を 4倍の大きさに拡大した領域データ T (b 2 ) = "1 1" とによって構成されている。
第 2 2図に示す提示態様では、 再生される音響データは、 音響データ A (a 2) および A (b 2 ) のみとなり、 これらの音響データは、 それぞれ領域 T (a 2 ) および T (b 2 ) に音像が形成されるように再生され、 しかも音量 はもとの音量に比べて感覚的に 4倍になる。 したがって、 第 1 7図に示す表示 態様から、 第 22図に示す表示態様に切り替えた場合、 映像の切り替えととも に音の切り替えも行われることになり、 常に、 映像と調和のとれた音を提示す ることが可能になる。 すなわち、 第 22図に示す提示態様では、 表示画面の左 下の位置から第 1バイオリンの演奏音が聞こえるとともに、 表示画面の右下の 位置から第 2バイオリンの演奏音が聞こえることになり、 その音量も映像の大 きさに応じたものになるため、 違和感のない自然な状態で、 映像と音とが提示 されることになる。
以上、 提示情報を拡大する指示が与えられた例を示した力 ?、 逆に縮小する指 示力 S与えられた場合の処理も同様に行うことができる。 この場合、 映像が縮小 表示されるとともに、 音量も縮小することになり、 映像および音の提示領域も 変更されることになる。
また、 上述の例では、 画面に表示されている発音体の音のみが提示されるこ とになる力'、 場合によっては、 表示されていない発音体の音も聞きたいことが ある。 たとえば、 第 2 0図に示す表示の場合、 第 1バイオリンの音を主として 聞きつつ、 第 2バイオリン、 第 3バイオリン、 ピアノの音もある程度の音量で 同時に聞くことができれば、 曲の全体的な雰囲気を把握することができ便利で ある。 このような要求に応えるためには、 オペレータの指示に基づいて、 個々 の発音体 (現在表示されているか否かを問わず) の再生音量を任意の音量値に 設定できるような機能を設けておき、 音量値が設定された発音体に関する音を 再生する際には、 当該設定音量値による再生が行われるようにすればよい。 た とえば、 第 2 0図に示すような表示カ?行われている状態では、 通常は第 1バイ ォリンの音のみが領域 T ( a 2 ) に応じた音量で提示されることになる力 ォ ペレータの指示により、 第 2バイオリン、 第 3バイオリン、 ピアノの再生音量 値の設定がなされた場合には、 これらの楽器音も設定された音量値で提示され ることになる。 なお、 画面に表示されていない発音体に関する音を提示する場 合は、 たとえば、 全画面の領域に音像が形成されるように提示すればよい。 も ちろん、 第 1 7図に示すような表示状態において、 たとえば、 第 1バイオリン の再生音量だけを大きく設定するようなことも可能である。
§ 5 . 階層構造をもった発音体定義を行う提示例 (2)
ここでは、 階層構造をもつた発音体定義を行う別な実施形態を述べることに する。 第 2 4図は、 学習用の恐竜の映像 (動画でも静止画でもかまわない) を 音とともに提示した状態を示す平面図である。 図では説明の便宜上、 いくつか の分割線が描かれている力'、 実際の表示画面上では、 これらの分割線を表示す る必要はない。 ここでは、 この表示画面上に、 第 2 5図の左に示すように、 領 域 T (a) 〜Τ (e) が定義されているものとし、 各領域には、 第 2 5図の右 に示すような提示情報 I (a) 〜 I (e) に基づいて映像および音が提示され るものとする。
領域 T (a) は、 この表示画面全体に相当する上位階層の領域であり、 この 中に下位階層の領域 T (b) 〜T (e) 力含まれることになる。 下位階層の領 域 T (b) 〜T (e) は、 恐竜の特定の部分を示す領域であり、 具体的には、 領域 T (b) は恐竜の頭部、 領域 T (c ) は恐竜の胸部、 領域 T (d) は恐竜 の脚部、 領域 T (e) は恐竜の尾部に相当し、 これら各部はそれぞれが独立し た下位発音体として機能する。 提示情報 I (b) 〜 I (e) は、 これら各発音 体が発生する音を提示するための音響データ A (b) 〜A (e) と、 これら各 部の領域を示す領域データ T (b) 〜T (e) とによって構成されている。 た とえば、 音響データ A (b) は恐竜の咆哮音のデータであり、 音響データ A (c) は恐竜の心臓音のデータであり、 音響データ A (d) は恐竜の足音のデー タであり、 音響データ A (e) は恐竜の尾擦音のデータである。
一方、 提示情報 I (a) は、 恐竜および背景の映像からなる映像データ V (a) と、 上記各下位発音体のすべてを含む上位発音体の発生する音 (具体的 には、 恐竜の発生する音のすべてと、 背景の木々の発生する背景音) を示す音 響データ A (a) と、 全表示画面に相当する領域を示す領域データ T (a) と によって構成されている。 なお、 恐竜は現存生物ではないので、 実在の恐竜の 生成する音を実際に録音することにより各音響データを用意することはできな レ。 したがって、 各音響データは、 シンセサイザ一などを用いた合成手法によ り用意されることになる。
こうして、 第 25図に示すような提示情報が用意できれば、 視聴者の要望に 応じた種々の提示態様で、 恐竜に関する映像および音の情報を提示することが できる。 たとえば、 第 2 4図に示すような初期状態の表示では、 第 2 5図に示 す全提示情報のうち、 全体が表示されている最も上位階層の発音体に関する音 響データを全領域に再生すればよい。 そして、 必要に応じて、 視聴者が指定し た特定の発音体の音のみが選択的に再生されるようにする。 たとえば、 視聴者 がマウスなどのボインティングデバイスを用いて、 恐竜の頭部近傍をクリック する操作を行った場合、 提示情報 I (b) を選択する意思表示がなされたもの として、 音響データ A (b) に基づく音のみを、 領域 T (b) に音像が生成さ れるように再生すればよい。 視聴者には、 恐竜の咆哮音のみが提示されること になる。 また、 前述した例と同様に、 特定の映像部分を拡大表示したり、 縮小 表示したりする機能を設けておき、 この拡大縮小倍率に基づいて音量を変化さ せて提示することも可能である。
たとえば、 第 26図は、 領域 T (e) の部分を中心として、 恐竜の尾部を 4 倍に拡大表示させた状態を示す図である。 このように提示態様を変更した場合、 第 25図に示す提示情報 I (e) は、 第 27図に示すように修正されることに なる。 すなわち、 恐竜の尾擦音を示す音響データ A (e) は、 音量が感覚的に 4倍に増加した音響データ A (e 2) に修正され、 音響再生領域を示す領域デー タ T (e) は、 4倍大の領域データ T ( e 2) に修正されることになる。 その 結果、 4倍の音量からなる尾擦音が、 4倍大の領域に音像力 s生成されるような 態様で提示されることになる。
なお、 第 24図に示す例では、 表示画面上の特定の分割領域として、 各発音 体の位置を定義している力 ?、 恐竜を動画として提示する場合には、 第 28図に 示すように、 表示画面上の領域ではなく映像データ上の領域として各発音体の 位置を定義する必要がある。 すなわち、 映像データ上の恐竜頭部の領域 T (b) 、 恐竜胸部の領域 T (c) 、 恐竜脚部の領域 T (d) 、 恐竜尾部の領域 T (e) 、 そして背景領域 T (g) のように、 各領域を映像データと関連させ て定義し、 提示情報としては、 第 29図に示すような提示情報 I (b) 〜 1 (g) を用意しておけばよい。 このように、 発音体の位置を映像データ上の領 域として定義しておけば、 表示画面上の絶対的な位置とは無関係に発音体の領 域を特定することができるので、 恐竜を動画として提示する場合にも何ら支障 は生じない。
このように、 恐竜を動画として提示する場合、 たとえば、 第 30図に示すよ うに、 恐竜の映像の一部が岩などによって隠されてしまうようなことも考えら れる。 図示の例では、 領域 T (h) に表示された岩によって、 第 28図に示す 恐竜の尾部の領域 T (e ) の 100%が隠蔽されてしまっており、 恐竜の脚部 の領域 T (d) 、 恐竜の輪郭領域 T (f ) 、 背景領域 T (g) の一部分が隠蔽 されてしまっている。
このような場合、 映像の隠蔽部分の面積に対応する量だけ音量を低減させて 再生するようにするのが好ま しい。 たとえば、 恐竜の尾部の領域 T (e) は 100%が隠蔽されてしまっているので、 音響データ A (e) に基づく音は、 再生時に 1 00%の音量低減を行うようにし、 尾摩音力 ?全く聞こえないように する。 また、 恐竜の脚部の領域 T (d) 、 恐竜の輪郭領域 T (f) 、 背景の領 域 T (g) if それぞれ x%、 y%、 z %に低減し、 新たな領域 T (d 2) 、 領域 T ( f 2) 、 領域 T (g 2) となった場合には、 第 29図に示す各提示情 報を、 第 3 1図に示すように修正すればよレ 。 領域データによって示される領 域の面積は、 隠蔽された分だけ低減することになり、 同時に、 音響データによつ て示される音量値も、 隠蔽された分だけ低減することになる。
要するに、 互いに重なり合う領域データをもった複数組の提示情報を同時に 提示する場合に、 複数の提示情報に優先順位を定義し、 互いに重なりを生じて いる部分については、 優先順位の高い提示情報についての映像のみを再生し、 優先順位の低い提示情報についての映像が隠蔽されるようにし、 各提示情報に ついての音を再生する際に、 映像の隠蔽部分の面積に対応する量だけ音量を低 減させて再生するような処理を行えばよい。
§ 6. 所定の領域への音像形成方法
前述したように、 本発明を実施する上では、 領域データ Tによって示される 所定の領域に音像が形成されるように、 音響データ Aを再生する必要がある。 ここでは、 表示画面上の所定の領域に音像を形成するための具体的な方法を述 ベることにする。
第 3 2図は、 本発明に係る音と映像を提示する装置における音源と表示画面 との位置関係を示す正面図である。 この装置では、 矩形の表示画面 1 1 0を有 する表示装置が用いられており、 この表示画面 1 1 0のほぼ 4隅に位置する配 置点 P 1〜P 4に、 4つの音源 2 1 0〜2 4 0 (スピーカ) 力 己置されている。 このように、 表示画面 1 1 0の 4隅に配置された 4つの音源を用いて音響信号 を提示すると、 表示画面 1 1 0上の任意の位置 Pに音像を形成させることがで きる。 音像の位置 Pは、 各音源の音量を制御することにより自由に設定するこ とができる。
たとえば、 4つの音源から同一の音響信号に基づく音を、 すべて等しい音量 で再生すると、 表示画面 1 1 0の中心位置に音像カ?形成されることになる。 こ のような中立状態から、 左側の音源 2 1 0, 2 3 0の音量を増加させると音像 は左側へと移動し、 逆に、 右側の音源 2 2 0 , 2 4 0の音量を増加させると音 像は右側へと移動する。 同様に、 上記中立状態から、 上側の音源 2 1 0 , 2 2 0の音量を増加させると音像は上側へと移動し、 逆に、 下側の音 源 2 3 0, 2 4 0の音量を増加させると音像は下側へと移動する。 結局、 任意 の位置 Pに音像を形成させたい場合、 4隅の配置点 P 1〜P 4のそれぞれと、 位置 Pとの距離を求め、 これらの距離に応じて各音源 2 1 0〜2 4 0の音量を 制御すればよいことになる。
なお、 4つの音源を用いる代わりに、 2つの音源を用いても、 音像位置をあ る程度制御することは可能である。 たとえば、 左右に配した一対の音源を用い れば、 音像位置を左右方向に制御することができ、 上下に配した一対の音源を 用いれば、 音像位置を上下方向に制御することができる。 したがって、 2つの 音源のみを用いても、 本発明の効果はある程度得ることができる。 しかしな力? ら、 より効果的な音像位置制御を行う上では、 上述した例のように、 表示画面
1 10の 4隅に設けた 4つの音源を用いるの力好ましい。 なお、 図示の例では、 正方形状の表示画面 1 1 0を用いているカ^ もちろん、 長方形状の表示画面を 用いても問題はない。 また、 この 4つの音源は、 理論的には、 表示画面 1 10 の 4隅に配置するのが理想的であるが、 人間の聴覚による定位機能は、 あまり 正確ではないため、 実用上は、 必ずしも表示画面 1 1 0の 4隅の位置に正確に 各音源を配置する必要はない。
さて、 第 32図に示すように、 表示画面 1 10の 4隅の位置に配置された 4 つの音源 2 10〜240を用い、 これら各音源の音量制御を行なえば、 任意の 位置 Pに音像を形成させること力 ?可能である力 ?、 こう して形成された音像はあ くまでも点として与えられる音像である。 これに対して、 本発明を実施する上 で必要な音像は、 所定の領域に分布した面としての音像である。 そこで、 ここ では、 第 33図に示すように、 4つの音源 2 10〜2 40を用いて、 表示画面 1 10上の任意の矩形領域 T ( X ) に、 面としての音像を形成するための方法 を以下に述べる。
ここでは、 まず、 第 3 4図に示すような提示情報 I ( X ) 力 ?与えられた場合 を考える。 この提示情報 I ( X ) は、 映像データ V ( X ) と、 領域データ T ( X ) と、 4チャンネルの音響データ A 1 (x) 〜A 4 (x) とによって構成 されている。 領域データ T ( X) は、 第 33図に示す領域 T (X ) を定義する ためのデータであり、 映像再生領域および音響再生領域として機能する。 した がって、 映像データ V (X) は、 この領域 T ( X) 内に再生されることになり、 また、 4チャンネルの音響データ A 1 ( X ) 〜A4 (x) に基づく音は、 この 領域 T ( X ) 内に音像を形成するような態様で再生されることになる。
このような提示情報 I ( X ) に基づく音の提示は、 次のような方法により行 われる。 まず、 矩形領域として定義された領域 T ( X ) の 4頂点位置に代表点
P 1 1〜P 14を定める。 そして、 この 4つの代表点のそれぞれに 4チャンネ ルの音響データ A l (x) 〜A4 (x) をそれぞれ対応させる。 具体的には、 音響データ A 1 (x) は代表点 P I 1に、 音響データ A 2 (X ) は代表点 P 12に、 音響データ A 3 ( X ) は代表点 P 13に、 音響データ A 4 (x) は 代表点 P 14に、 それぞれ対応づけられることになる。 通常、 4チャンネルの 音響データは、 所定の発音体の前後左右に配置された 4つのマイクで録音する ことにより得られる。 したがって、 各音響データと代表点とを対応づける場合、 各音響データの録音時のマイクの^ Ϊ置が、 各代表点位置と整合性を有するよう にするの力 s好ましい。
続いて、 各音源の配置点 P 1〜P 4と各代表点 P 1 1〜P 14との距離を演 算し、 この距離に応じた音量制御を行うことにより、 各代表点? 1 1〜? 14 の位置にそれぞれ対応する音響データの音像が得られるように、 4チャンネル の音響データ A 1 (x) 〜A4 (x) の再生を行うのである。 たとえば、 各音 源 2 10〜240に音響データ A 1 (X ) に基づく音響信号を供給し、 それぞ れの音量を適当に制御することにより、 代表点 P 1 1の位置に、 第 1チャンネ ルの音響データ A l (X ) の音像力 ?得られるようにすることは、 第 3 2図で説 明したように可能である。 全く同様に、 各音源 2 1 0〜 24 0に音響データ A 2 (x) に基づく音響信号を供給し、 代表点 P 12の位置に第 2チャンネル の音響データ A2 ( X) の音像力得られるように音量制御することも可能であ り、 各音源 2 10〜240に音響データ A 3 (x) に基づく音響信号を供給し、 代表点 P 13の位置に第 3チャンネルの音響データ A 3 ( X ) の音像が得られ るように音量制御することも可能であり、 各音源 2 1 0〜240に音響データ A 4 (x) に基づく音響信号を供給し、 代表点 P 14の位置に第 4チャンネル の音響データ A4 ( X) の音像力 ?得られるように音量制御することも可能であ る o
そこで、 各音源 2 10〜 240に、 4チャンネルの音響データ A 1 (x) 〜 A 4 (x) に基づく音響信号を合成して供給し、 このとき、 上述した位置に各 音像が得られるように、 各チャンネルごとの音量制御を行つた上で信号合成を 行うようにすれば、 代表点 P 1 1には音響データ A 1 ( X ) に基づく音の音像 力 s得られ、 代表点 p 12には音響データ A 2 ( X ) に基づく音の音像が得られ、 代表点 P 1 3には音響データ A3 (X ) に基づく音の音像が得られ、 代表点 P 14には音響データ A4 ( X) に基づく音の音像が得られることになる。 こ のように、 原理的には、 4つの代表点にそれぞれ各チャンネルの音の音像を形 成するようにしていることになるカ^ 人間の耳にとっては、 この 4つの代表点 P 1 1〜P 14を 4頂点とする矩形領域 T (X ) に平面的な広がりをもった音 像が認識されることになる。
このような手法により、 表示画面 1 1 0上の任意の領域に音像を形成するこ と力不可能になる。 第 35図は、 第 34図に示す提示情報 I (X) に基づいて、 各音源 (スピーカ) 2 1 0〜240に与える再生音信号を演算する方法を示す 図である。 ここで、 f (Pm, P n) は、 2点 Pm、 P n間の距離に応じて定 まる関数であり、 2点間の麟隹カ s小さくなればなるほど大きな値をとる。 また、 AAk ( x ) は、 第 k番目のチャンネルの音響信号の振幅を示している。 たと えば、 f (P 1, P 1 1 ) は、 代表点 P 1 1と配置点 P 1との距離に応じて定 まる関数であり、 AA 1 ( X) は第 1チャンネルの音響データ A 1 ( X) に基 づく音響信号の振幅を示している。 音源 2 1 0の再生音は、 4チャンネルの音 響信号 AA 1 ( X) 〜AA4 (x ) を合成することにより得られることになる が、 それぞれ代表点と配置点との距離に応じて定まる関数が係数として乗じら れることになる。
以上、 与えられた音響デ一タカ 4チャンネルの場合について説明したが、 左右 2チャンネルの音響データ (ステレオ音響データ) 力 ?与えられた場合には、 第 33図に示す矩形領域 T ( X ) の 4隅に定義された 4つの代表点 P 1 1〜 P 14のうちの左側の 2つの代表点 P 1 1, P 13に左側音響デ一タを対応さ せ、 右側の 2つの代表点 P 12, P 14に右側音響信号を対応させるようにす ればよい。 別言すれば、 代表点 P 1 1の位置および代表点 P 1 3の位置のそれ ぞれには、 左側音響データに基づく再生音の音像が形成され、 代表点 P 1 2の 位置および代表点 P 1 4の位置のそれぞれには、 右側音響データに基づく再生 音の音像が形成されることになる。
また、 モノラル ( 1チャンネル) の音響データが、与えられた場合には、 第 3 3 図に示す矩形領域 T (X ) の 4隅に定義された 4つの代表点 P 1 1〜 P 1 4の すべてに、 モノラル音響データを対応させるようにすればよい。 この場合、 代 表点 P 1 1, P 12 , P 1 3, P 1 4の各位置のそれぞれに、 モノラル音響デー 夕に基づく再生音の音像が形成されることになる。 もともとの音響データ自体 はモノラルである力 ?、 音像は 4つの代表点位置にそれぞれ形成されることにな るため、 全体として、 矩形領域 T ( X) 内に分布した平面的な広がりをもった 音像が得られることになる。
第 3 6図は、 第 3 2図に示す装置を用いて、 2組の提示情報を同時に提示し た状態を示す正面図であり、 第 3 7図は、 第 3 6図に示す提示を行うために用 意すべき提示情報を示す図である。 第 1の提示情報 I (a) は、 バスケットポー ルの試合に関する情報であり、 バスケッ トボールの映像を示す映像データ V (a) と、 バスケッ トボールのステレオ音声を示す 2チャンネルの音響データ A (a) =A 1 (a) , A 2 (a) と、 映像再生領域および音響再生領域を示 す領域データ T (a) = "0 1 1 0" とによって構成されている。 一方、 第 2 の提示情報 I (b) は、 コンサートに関する情報であり、 コンサートの映像を 示す映像データ V (b) と、 コンサートの 4チャンネル音声を示す音響データ A (b) =A 1 (b) 〜A4 (b) と、 映像再生領域および音響再生領域を示 す領域データ T (b) = " 1 0 1 1 " とによって構成されている。
第 3 6図に示すように、 表示画面 1 1 0上の領域 T (a) には、 映像データ V (a) に基づく映像が提示され、 領域 T (b) には、 映像データ V (b) に 基づく映像が提示されている。 また、 提示される音に関しては、 領域 T (a) には音響データ A ( a) に基づいて再生された音の音像が形成され、 領域 T (b) には音響データ A (b) に基づいて再生された音の音像が形成される。 このように、 それぞれ異なる音響再生領域に再生すべき複数の音響データが用 意されていた場合に、 各音響データに基づく音像が重畳して得られるように、 各音源による音の再生を行えばよい。
より具体的には、 第 3 6図に示す代表点 P a 1, P a 3には、 音響データ A 1 (a) に基づく音の音像が形成され、 代表点 Pa 2, P a4には、 音響デー タ A2 (a) に基づく音の音像が形成され、 代表点 P b 1には、 音響データ A 1 (b ) に基づく音の音像が形成され、 代表点 P b 2には、 音響データ A 2 (b) に基づく音の音像が形成され、 代表点 P b 3には、 音響データ A 3 (b ) に基づく音の音像が形成され、 代表点 P b 4には、 音響データ A 4
(b) に基づく音の音像が形成されるように、 各音源 2 1 0〜 240の音量制 御を行えばよい。
なお、 ここに示す実施形態では、 各提示情報の提示位置および提示倍率を、 視聴者の指示に基づいて任意に変更できるようにしている。 たとえば、 第 38 図は、 第 36図において提示されていた提示情報 I ( a) , I (b) の提示位 置を、 領域 T (a 2 ) , T (b 2 ) に変更し、 更に、 新たな提示情報 I
(c) , I (d) を提示した状態を示す正面図である。 第 39図は、 第 38図 に示す提示を行うために用意すべき提示情報を示す図である。 提示情報 I (a) , I (b) については、 領域データがそれぞれ T (a 2) , T (b 2) に修正されている。
また、 新たに加わった第 3の提示情報 I (c) は、 ベースボールの試合に関 する情報であり、 ベースボールの映像を示す映像データ V (c) と、 ベースボー ルの音声を示す音響データ A (c) と、 映像再生領域および音響再生領域を示 す領域データ T (c) = "10" とによって構成されている。 一方、 第 4の提 示情報 I (d) は、 ョッ トに関する情報であり、 ョッ トの映像を示す映像デー タ V (d) と、 ヨッ トの音声を示す音響データ A (d) と、 映像再生領域およ び音響再生領域を示す領域データ T ( d) = " 00 01 " , "001 1" , "01" , "1 1 " とによって構成されている。
なお、 ここに示す実施形態では、 各提示情報の音響データを再生する際の音 量は、 映像再生領域が基準面積、 すなわち、 表示画面 1 1 0の 1/1 6に相当 する面積である場合に基準音量とし、 映像カ?拡大表示された場合には、 表示倍 率に基づいて音量を増減制御するようにしている。 したがって、 図 3 8に示す 例では、 基準面積の領域 T (a 2) , T (b 2) に表示されているバスケット ボールの音およびコンサ一トの音については、 基準音量で再生されることにな るが、 4倍大の領域 T (c) に表示されているベースボールの音は、 基準音量 の 4倍の音量で再生され、 1 0倍大の領域 T (d) に表示されているヨッ トの 音は、 基準音量の 10倍の音量で再生されることになる (ヨッ トの本来の映像 は、 基準面積の 12倍大の領域に表示されるべきである力^ その一部はベース ボールの映像によって隠蔽されているため、 実表示面積は基準面積の 10倍と なっている) 。
もっとも、 人間の聴覚の性能を考慮すると、 第 38図に示された 4種類の提 示情報に関する音をすベて聞き分けることは困難である。 したがって、 実用上 は、 最も表示面積の大きなョッ トに関する音のみを再生するか、 表示面積が 2 位までの提示情報の音のみ (すなわち、 ヨッ トに関する音とベースボールに関 する音のみ) を再生するようにするの力好ましい。
§ 7. 映像データおよび音響データの実用的構成例
第 40図は、 本発明に係る音と映像を提示する方法を実行する際に用意すベ き映像データおよび音響データの実用的な構成例を示す図である。 まず、 映像 データ Vとしては、 最大拡大率に応じた高解像度の映像データを用意しておく。 すなわち、 最も高い拡大倍率で表示した場合にも、 良好な映像が再生できるよ うな解像度の高い映像データを用意しておくようにする。 たとえば、 映像デー タ Vとして、 オーケストラのメンバー全員の映像を用意する場合、 最大拡大率 で表示したときにバイオリンの弦 1本 1本の拡大映像までが提示可能であるな らば、 この弦 1本 1本の映像を良好に再生できるような高い解像度の映像デ一 タを用意しておくことになる。
一方、 音響データ Aとしては、 階層構造をもったデータを用意しておく。 図 示の例では、 第 1階層の音響データ Aに、 第 2階層の音響データ A 1, A 2, …が包含されており、 更に、 第 2階層の音響データ A 1には、 第 3階層の音響 データ A 1 1, A 1 2, A 1 3, …が包含され、 第 2階層の音響データ A 2に は、 第 3階層の音響データ A 2 1, A 2 2 , …が包含される、 という形態になつ ている。 映像データとしてオーケストラの映像を用意した場合、 たとえば、 第 1階層の音響データ Aは、 ォ一ケストラ全体の演 ^を収録したデータとなり、 第 2階層の音響データ A 1は、 第 1バイオリンのメンバ一全員の演奏音を収録 したデ一タとなり、 第 3階層の音響データ A 1 1は、 第 1バイォリンの特定の 1人のメンバーの演奏音を収録したデータとなる。 更に細かな階層構造を定義 すれば、 この特定のメンバーの所有するバイオリンの第 1の弦についての振動 音のみを収録した音響データを用意することも可能である。
第 4 1図には、 階層構造をもった領域定義の一例を示す。 図示の例では、 第 1階層の領域 T内に、 一点鎖線で示す第 2階層の領域 T 1, T 2 , …が包含さ れており、 更に、 これら第 2階層の領域内には、 破線で示す第 3階層の領域 T 1 1, T 1 2, T 1 3, …が包含される、 という形態になっている。 上述し たオーケストラの例に対応させるのであれば、 たとえば、 第 1階層の領域 Τは、 オーケス トラ全体の映像に対応した領域となり、 第 2階層の領域 Τ Γは、 第 1 バイオリ ンのメンバ一全員の映像に対応した領域となり、 第 3階層の領域 T 1 1は、 第 1バイオリ ンの特定の 1人のメンバ一の映像に対応した領域とな る。 更に細かな領域を定義すれば、 この特定のメンバ一の所有するバイオリン の第 1の弦についての映像に対応する領域などを定義することも可能である。 なお、 ここでは個々の領域を矩形領域と して定義している力 ?、 必要に応じて、 任意の形状をもつた領域定義が可能である。
このような構成で用意された提示情報は、 一種のデータベースの形態で利用 可能である。 たとえば、 視聴者がオーケストラ全体についての学習を行いたい 場合には、 第 1階層の領域 Tに対応するオーケストラ全体の映像を表示させる 指示を与え、 ォ一ケストラ全体の音響データを再生させるようにすればよいし、 第 1バイオリンについての学習を行いたい場合には、 第 2階層の領域 T 1に対 応する第 1バイォリンのみの映像を表示させる指示を与え、 第 1バイオリンの 音響データを再生させるようにすればよレ、。 この場合、 領域 T 1内の映像が、 表示画面全体に拡大表示されるようにするのが好ましい。
なお、 このように、 映像画面を任意に拡大または縮小して表示させることが できるようにした場合、 現時点において、 全体が表示されている最も上位階層 の発音体に関する音が選択的に再生されるようにしておくと便利である。 たと えば、 視聴者がォーケストラ全体の映像を表示画面一杯に表示させる指示を与 えると、 最も上位階層の発音体であるオーケストラ全体の音のみ力 ^選択的に再 生されることになり、 第 1バイオリンのみの映像を表示画面一杯に表示させる 指示を与えると、 その時点において、 全体力表示されている最も上位階層の発 音体である第 1バイオリンの音のみ力 ?選択的に再生されることになる。 すなわ ち、 視聴者が映像データに対する選択操作を行うと、 これに応じて自動的に音 響データ力 ?選択されるようになる。 このような機能は、 本発明に係る装置をデ一 タベースの閲覧装置として利用するような場合に、 操作性を向上させる上で重 要である。
近年、 高速なデータ伝送技術力発達してきており、 かなり大きな容量のデー タを比較的短時間で伝送すること力 ?可能になってきている。 したがって、 美術 館や博物館などに設置したコンピュータ内に、 上述のような階層構造をもった 提示情報を用意しておき、 必要に応じて必要なデ一タを伝送するようにすれば、 データベースとしての利用形態が可能になる。 たとえば、 上述の例では、 視聴 者がオーケストラ全体の情報を要求している場合には、 第 1階層の情報提示に 必要なデータのみを伝送するようにすればよいし、 下位階層のより細かな情報 を要求している場合には、 要求に応じた階層の情報提示に必要なデータを改め て伝送するようにすればよい。 また、 最近では、 D V Dなどの大容量の記憶媒 体も普及し始めており、 このような記' β体にデータベースを構築しておけば、 伝送路を介さずに直接データベースにアクセスすることカ?可能になる。 また、 このようなデータベース自身を、 コンピュータによって利用させることも可能 であり、 たとえば、 心臓音を空間的階層構造をもって収録した音響データから なるデータべ一ス (たとえば、 特定の弁の直近における収録音と、 心臓全体の 音の収録音とでは、 前者が下位発音体、 後者が上位発音体となる階層構造が得 られる) を用意しておけば、 コンピュータによる医療診断技術への応用も可能 になる。
§ 8 . 本発明に係る音と映像を提示する装置の構成
最後に、 本発明に係る装置の構成例を簡単に述べておく。 第 4 2図は、 本発 明に係る音と映像を提示する装置の基本構成を示すブロック図である。 図示の とおり、 この装置は、 表示装置 1 0 0、 音響装置 2 0 0、 映像再生装置 3 0 0、 音響再生装置 4 0 0、 提示情報格納装置 5 0 0、 提示態様変更装置 6 0 0、 指示入力装置 7 0 0、 情報読込装置 8 0 0によって構成されている。 ここで、 表示装置 1 0 0は、 映像を提示するための表示画面 1 1 0を有する装 置であり、 たとえば、 多数の発光ダイオードをマトリ ックス状に配置してなる 大型のディスプレイ装置などによって構成される。 音響装置 2 0 0は、 この表 示画面 1 1 0内の任意の領域に音像力形成されるように音を提示することがで きるように、 表示画面 1 1 0の周囲に配置された複数の音源 2 1 0〜 2 4 0を 有する装置であり、 具体的には、 表示画面 1 1 0の周囲に配置されたスピーカ システムから構成されている。 提示情報格納装置 5 0 0は、 提示対象となる映像を示す映像データ Vと、 提 示対象となる音を示す音響データ Aと、 映像データ Vを再生すべき映像再生領 域および音響データ Aを再生すべき音響再生領域を示す領域データ Tと、 を含 む提示情報 Iを格納する装置であり、 実際にはコンピュータのメモリや外部記 憶装置などによって構成される。 また、 映像再生装置 3 0 0は、 表示画面 1 1 0上の映像再生領域に映像データ Vに基づく映像を再生する機能を有し、 音響再生装置 4 0 0は、 表示画面 1 1 0上の音響再生領域に音像が形成される ように、 音響装置 2 0 0の複数の音源 2 1 0〜 2 4 0を用いて、 音響データ A に基づく音を再生する機能を有する。
更に、 指示入力装置 7 0 0は、 オペレータ (視聴者) の指示を入力する装置 であり、 提示態様変更装置 6 0 0は、 この入力された指示に基づいて、 提示情 報格納装置 5 0 0内の提示情報 Iに修正を加え、 音および映像の提示態様を変 更する機能を果たす。 提示対象となる音響データの選択指示や、 映像データを 拡大表示させる指示などは、 この指示入力装置 7 0 0から入力され、 提示態様 変更装置 6 0 0によって、 提示態様を変更するための処理が実行されることに なる。
また、 情報読込装置 8 0 0は、 C D— R 0 Mや D V Dなどの情報記録媒体 9 0 0に記録されている提示情報 Iを読み込んで、 提示情報格納装置 5 0 0内 に格納する処理を行う装置であり、 実用上は、 種々の提示情報は、 情報記録媒 体 9 0 0に収録されて提供されることになる。 産 業 上 の 利 用 可 能 性
本発明に係る音と映像を提示する装置および方法は、 音とともに映像を提示 する必要がある技術分野に広く利用すること力可能であり、 コンピュータを用 いたマルチメディアコンテンツの提供ゃデ一タベースの提供などに応用するこ とができる。

Claims

請 求 の 範 囲
1. 映像を提示するための表示画面 ( 1 1 0 ) を有する表示装置 (100) と、
前記表示画面の周囲に配置された複数の音源 (2 1 0— 240) を有し前記 表示画面内の任意の領域に音像が形成されるように音を提示する、 音響装置 (200) と、
提示対象となる映像を示す映像データ (V) と、 提示対象となる音を示す音 響データ (A) と、 前記音響データを再生すべき音響再生領域を示す領域デー 夕 (T) と、 を含む提示情報 (I) を ¾H¾する提示情報格納装置 (500) と、 前記表示画面上の所定の映像再生領域に前記映像データに基づく映像を再生 する映像再生装置 (300) と、
前記表示画面上の前記音響再生領域に音像が形成されるように、 前記音響装 置の複数の音源を用いて、 前記音響データに基づく音を再生する音響再生装置 (400) と、
を備えることを特徴とする音と映像を提示する装置。
2. 請求項 1に記載の音と映像を提供する装置において、
領域データ (τ) 力 ?、 音響データを すべき音響再生領域を示すとともに、 映像デ一タを再生すべき映像再生領域を示す情報を含むことを特徴とする音と 映像を提示する装置。
3. 請求項 1または 2に記載の音と映像を提供する装置において、 オペ レ一夕の指示を入力する指示入力装置 (700) と、
前記指示に基づいて、 提示情報格納装置 (500) 内の提示情報 ( I) に修 正を加え、 音および映像の ^態様を変更する提示態様変更装置 (600) と、 を更に備えることを特徴とする音と映像を提示する装置。
4. 請求項 1〜 3のいずれかに記載の音と映像を提示する装置において、 情報記録媒体 (900 ) に記録されている提示情報 (I) を読み込んで、 提 示情報格納装置 ( 500 ) 内に格納する処理を行う情報読込装置 (800) を 更に備えることを特徴とする音と映像を提示する装置。
5. 請求項 1〜4のいずれかに記載の音と映像を提示する装置において、 矩形の表示画面 (1 1 0) を有する表示装置 (1 00) と、 この表示画面の ほぼ 4隅に位置する配置点 (P 1〜P 4) に配置された 4つの音源 (2 10〜 240) を有する音響装置 (200) と、 を用いるようにし、
音響再生領域 (T (X ) ) を矩形の領域として定義するようにし、 この矩形 領域の 4頂点位置に前記音響再生領域を代表する代表点 (P 1 1〜P 14) を 定め、
前記音響再生領域に再生すべき音響データ (A) が 4チャンネルの音響信号 (A l ( X ) 〜A4 (X ) ) によって構成されていた場合に、 前記 4つの代表 点のそれぞれに前記 4チャンネルの音響信号をそれぞれ対応させ、
前記各配置点と前記各代表点との距離を演算し、 この距離に応じた音量制御 を行うことにより、 前記各代表点の位置にそれぞれ対応する音響信号の音像が 得られるように、 音響再生装置 (400 ) による音の再生力行われるようにし たことを特徴とする音と映像を提示する装置。
6. 請求項 1〜4のいずれかに記載の音と映像を提示する装置において、 矩形の表示画面 (1 1 0) を有する表示装置 (10 0) と、 この表示画面の ほぼ 4隅に位置する配置点 (P 1〜P 4 ) に配置された 4つの音源 (2 10〜 240) を有する音響装置 (200) と、 を用いるようにし、 音響再生領域 (T (x) ) を矩形の領域として定義するようにし、 この矩形 領域の 4頂点位置に前記音響再生領域を代表する代表点 (P 1 1〜P 14) を 定め、
前記音響再生領域に再生すべき音響データ (A) が 2チャンネルのステレオ 音響信号によって構成されていた場合に、 前記 4つの代表点のうちの左側の 2 つの代表点に左側音響信号を対応させ、 右側の 2つの代表点に右側音響信号を 対応させ、
前記各配置点と前記各代表点との距離を演算し、 この距離に応じた音量制御 を行うことにより、 前記各代表点の位置にそれぞれ対応する音響信号の音像が 得られるように、 音響再生装置 (400 ) による音の再生が行われるようにし たことを特徴とする音と映像を提示する装置。
7. 請求項 1〜 4のいずれかに記載の音と映像を提示する装置において、 矩形の表示画面 (1 1 0) を有する表示装置 (100) と、 この表示画面の ほぼ 4隅に位置する配置点 (P 1〜P 4) に配置された 4つの音源 (2 10〜
240) を有する音響装置 (200) と、 を用いるようにし、
音響再生領域 (T (X ) ) を矩形の領域として定義するようにし、 この矩形 領域の 4頂点位置に前記音響再生領域を代表する代表点 (P 1 1〜P 14) を 定め、
前記音響再生領域に再生すべき音響データ (A) がモノラル音響信号によつ て構成されていた場合に、 前記 4つの代表点のそれぞれに前記モノラル音響信 号を対応させ、
前記各配置点と前記各代表点との距離を演算し、 この距離に応じた音量制御 を行うことにより、 前記各代表点の位置にそれぞれ対応する音響信号の音像が 得られるように、 音響再生装置 (400 ) による音の再生力 ?行われるようにし たことを特徴とする音と映像を提示する装置。
8 . 請求項 1〜 7のいずれかに記載の音と映像を提示する装置において、 それぞれ異なる音響再生領域に再生すべき複数の音響データが用意されてい た場合に、 各音響データに基づく音像が重畳して得られるように、 音響再生装 置 (4 0 0 ) による音の再生カ行われるようにしたことを特徴とする音と映像 を提示する装置。
9 . 請求項 1〜 7のいずれかに記載の音と映像を提示する装置において、 互いに重なり合う領域データをもつた複数組の提示情報を同時に提示する場 合に、
複数の提示情報に優先順位を定義し、 互いに重なりを生じている部分につい ては、 優先順位の高い提示情報についての映像のみを再生し、 優先順位の低い 提示情報についての映像が隠蔽されるようにし、
各提示情報についての音を再生する際に、 映像の隠蔽部分の面積に対応する 量だけ音量を低減させて再生する機能を有することを特徴とする音と映像を提 示する装置。
1 0. 請求項 1〜 7のいずれかに言己載の音と映像を提示する装置において、 それぞれ異なる音響再生領域に再生すべき複数の音響デ一タ力用意されてい た場合に、 オペレータの操作入力に基づいて選択された特定の音響再生領域に ついての音響データのみの再生が行われるようにしたことを特徴とする音と映 像を提示する装置。
1 1 . 所定の表示画面上に映像を提示するとともに、 この映像に関連した 音を提示するための方法であって、
上位階層の領域が 1つまたは複数の下位階層の領域を包含するように階層構 造をもった領域が定義され、 下位階層の領域には下位発音体が表示され、 上位 階層の領域には前記下位発音体を含む上位発音体力表示されている映像画面を 再生するための映像データを用意する段階と、
前記下位発音体によって生成される音と、 前記上位発音体によって生成され る音と、 を再生するための音響データを用意する段階と、
前記映像データに基づいて前記映像画面の全体または一部を再生するととも に、 前記音響データに基づいて所定の発音体に関する音を再生する段階と、 を有することを特徴とする音と映像を提示する方法。
1 2 . 請求項 1 1に記載の音と映像を提示する方法において、
再生中の映像画面内の特定の発音体を指定する入力がなされた場合に、 前記 特定の発音体に関する音力 ?選択的に再生されるようにしたことを特徴とする音 と映像を提示する方法。
1 3 . 請求項 1 2に記載の音と映像を提示する方法において、
特定の下位発音体を拡大表示すべき入力がなされた場合に、 前記下位発音体 を含む領域を拡大表示するとともに、 前記下位発音体に関する音が選択的に再 生されるようにしたことを特徴とする音と映像を提示する方法。
1 4 . 請求項 1 1に記載の音と映像を提示する方法において、
映像画面を任意に拡大または縮小して表示させることができるようにし、 現 時点において、 全体が表示されている最も上位階層の発音体に関する音が選択 的に再生されるようにしたことを特徴とする音と映像を提示する方法。
1 5 . 請求項 1 4に記載の音と映像を提示する方法において、
発音体の表示倍率に基づいて、 当該発音体に関する音の音量を制御するよう にしたことを特徴とする音と映像を提示する方法。
1 6 . 請求項 1 1に記載の音と映像を提示する方法において、
オペレータの指示に基づいて、 個々の発音体の再生音量を特定の音量値に設 定できるようにし、 音量値が設定された発音体に関する音を再生する際に、 当 該設定音量値による再生が行われるようにしたことを特徴とする音と映像を提 示する方法。
1 7 . 請求項 1 1に記載の音と映像を提示する方法において、
主として下位発音体の発生する音を集音することが可能な指向性をもったマ イクを、 前記下位発音体の近傍に設置することにより前記下位発音体の音を録 音し、
上位発音体の発生する音全体を集音すること力可能な指向性をもったマイク を、 前記上位発音体の発生する音全体を集音するのに適した位置に設置するこ とにより前記上位発音体の音を録音し、
これらの録音によって得られた信号に基づいて音響デ一タを用意することを 特徴とする音と映像を提示する方法。
PCT/JP1998/004301 1998-09-24 1998-09-24 Apparatus and method for presenting sound and image WO2000018112A1 (en)

Priority Applications (4)

Application Number Priority Date Filing Date Title
EP98944238A EP1035732A1 (en) 1998-09-24 1998-09-24 Apparatus and method for presenting sound and image
PCT/JP1998/004301 WO2000018112A1 (en) 1998-09-24 1998-09-24 Apparatus and method for presenting sound and image
AU91853/98A AU756265B2 (en) 1998-09-24 1998-09-24 Apparatus and method for presenting sound and image
CA002311817A CA2311817A1 (en) 1998-09-24 1998-09-24 Apparatus and method for presenting sound and image

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP1998/004301 WO2000018112A1 (en) 1998-09-24 1998-09-24 Apparatus and method for presenting sound and image

Publications (1)

Publication Number Publication Date
WO2000018112A1 true WO2000018112A1 (en) 2000-03-30

Family

ID=14209070

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP1998/004301 WO2000018112A1 (en) 1998-09-24 1998-09-24 Apparatus and method for presenting sound and image

Country Status (4)

Country Link
EP (1) EP1035732A1 (ja)
AU (1) AU756265B2 (ja)
CA (1) CA2311817A1 (ja)
WO (1) WO2000018112A1 (ja)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002150130A (ja) * 2000-11-14 2002-05-24 Nippon Telegr & Teleph Corp <Ntt> 電子広告システム
JP2003264900A (ja) * 2002-03-07 2003-09-19 Sony Corp 音響提示システムと音響取得装置と音響再生装置及びその方法並びにコンピュータ読み取り可能な記録媒体と音響提示プログラム
JP2004343376A (ja) * 2003-05-15 2004-12-02 Funai Electric Co Ltd Avシステム
JP2005012255A (ja) * 2003-06-16 2005-01-13 Konica Minolta Holdings Inc 画像表示装置
JP2006067295A (ja) * 2004-08-27 2006-03-09 Sony Corp 音響生成方法、音響生成装置、音響再生方法及び音響再生装置
US7376332B2 (en) 2003-11-05 2008-05-20 Canon Kabushiki Kaisha Information processing method and information processing apparatus
JP2008167032A (ja) * 2006-12-27 2008-07-17 Canon Inc 映像音声出力装置及び映像音声出力方法
JP2009010992A (ja) * 2008-09-01 2009-01-15 Sony Corp 音声信号処理装置、音声信号処理方法、プログラム
JP2010041190A (ja) * 2008-08-01 2010-02-18 Yamaha Corp 音響装置及びプログラム
JP4913038B2 (ja) * 2004-04-08 2012-04-11 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声レベル制御
WO2012105183A1 (ja) * 2011-02-02 2012-08-09 Necカシオモバイルコミュニケーションズ株式会社 音声出力装置
JP2014072661A (ja) * 2012-09-28 2014-04-21 Jvc Kenwood Corp 映像音声記録再生装置
JPWO2015194075A1 (ja) * 2014-06-18 2017-06-01 ソニー株式会社 画像処理装置、画像処理方法及びプログラム
JP2017134713A (ja) * 2016-01-29 2017-08-03 セイコーエプソン株式会社 電子機器、電子機器の制御プログラム
WO2019093155A1 (ja) * 2017-11-10 2019-05-16 ソニー株式会社 情報処理装置、および情報処理方法、並びにプログラム
JP2020025310A (ja) * 2013-03-28 2020-02-13 ドルビー ラボラトリーズ ライセンシング コーポレイション 見かけのサイズをもつオーディオ・オブジェクトの任意のラウドスピーカー・レイアウトへのレンダリング
CN113841426A (zh) * 2019-05-31 2021-12-24 微软技术许可有限责任公司 使用应用位置信息向各种通道发送音频

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1194006A3 (en) * 2000-09-26 2007-04-25 Matsushita Electric Industrial Co., Ltd. Signal processing device and recording medium
US10158958B2 (en) 2010-03-23 2018-12-18 Dolby Laboratories Licensing Corporation Techniques for localized perceptual audio
JP5919201B2 (ja) * 2010-03-23 2016-05-18 ドルビー ラボラトリーズ ライセンシング コーポレイション 音声を定位知覚する技術
KR101632238B1 (ko) 2013-04-05 2016-06-21 돌비 인터네셔널 에이비 인터리브된 파형 코딩을 위한 오디오 인코더 및 디코더
WO2015008538A1 (ja) 2013-07-19 2015-01-22 ソニー株式会社 情報処理装置および情報処理方法
CN104036789B (zh) 2014-01-03 2018-02-02 北京智谷睿拓技术服务有限公司 多媒体处理方法及多媒体装置
CN105590487A (zh) * 2014-11-03 2016-05-18 声活工坊文化事业有限公司 有声书制作复合功能系统
CN105989845B (zh) 2015-02-25 2020-12-08 杜比实验室特许公司 视频内容协助的音频对象提取
CN115442549B (zh) * 2021-06-01 2024-09-17 Oppo广东移动通信有限公司 电子设备的发声方法及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0638122A (ja) * 1992-07-15 1994-02-10 Sanyo Electric Co Ltd 画像分割表示システムの音声処理装置
JPH06311448A (ja) * 1993-04-27 1994-11-04 Sanyo Electric Co Ltd テレビジョン受像機
JPH0830430A (ja) * 1994-07-19 1996-02-02 Matsushita Electric Ind Co Ltd 表示装置
JPH0851580A (ja) * 1994-08-08 1996-02-20 Fujitsu General Ltd 画面分割表示装置の音声回路
JPH0898102A (ja) * 1994-09-22 1996-04-12 Sony Corp テレビジョン受信機
JPH09322094A (ja) * 1996-05-31 1997-12-12 Toshiba Corp 複数画面用音声出力回路

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0638122A (ja) * 1992-07-15 1994-02-10 Sanyo Electric Co Ltd 画像分割表示システムの音声処理装置
JPH06311448A (ja) * 1993-04-27 1994-11-04 Sanyo Electric Co Ltd テレビジョン受像機
JPH0830430A (ja) * 1994-07-19 1996-02-02 Matsushita Electric Ind Co Ltd 表示装置
JPH0851580A (ja) * 1994-08-08 1996-02-20 Fujitsu General Ltd 画面分割表示装置の音声回路
JPH0898102A (ja) * 1994-09-22 1996-04-12 Sony Corp テレビジョン受信機
JPH09322094A (ja) * 1996-05-31 1997-12-12 Toshiba Corp 複数画面用音声出力回路

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002150130A (ja) * 2000-11-14 2002-05-24 Nippon Telegr & Teleph Corp <Ntt> 電子広告システム
JP2003264900A (ja) * 2002-03-07 2003-09-19 Sony Corp 音響提示システムと音響取得装置と音響再生装置及びその方法並びにコンピュータ読み取り可能な記録媒体と音響提示プログラム
JP2004343376A (ja) * 2003-05-15 2004-12-02 Funai Electric Co Ltd Avシステム
JP2005012255A (ja) * 2003-06-16 2005-01-13 Konica Minolta Holdings Inc 画像表示装置
US7376332B2 (en) 2003-11-05 2008-05-20 Canon Kabushiki Kaisha Information processing method and information processing apparatus
JP4913038B2 (ja) * 2004-04-08 2012-04-11 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声レベル制御
US8150061B2 (en) 2004-08-27 2012-04-03 Sony Corporation Sound generating method, sound generating apparatus, sound reproducing method, and sound reproducing apparatus
JP2006067295A (ja) * 2004-08-27 2006-03-09 Sony Corp 音響生成方法、音響生成装置、音響再生方法及び音響再生装置
JP2008167032A (ja) * 2006-12-27 2008-07-17 Canon Inc 映像音声出力装置及び映像音声出力方法
JP2010041190A (ja) * 2008-08-01 2010-02-18 Yamaha Corp 音響装置及びプログラム
JP2009010992A (ja) * 2008-09-01 2009-01-15 Sony Corp 音声信号処理装置、音声信号処理方法、プログラム
US9215523B2 (en) 2011-02-02 2015-12-15 Nec Corporation Audio output device
JP2012160983A (ja) * 2011-02-02 2012-08-23 Nec Casio Mobile Communications Ltd 音声出力装置
WO2012105183A1 (ja) * 2011-02-02 2012-08-09 Necカシオモバイルコミュニケーションズ株式会社 音声出力装置
JP2014072661A (ja) * 2012-09-28 2014-04-21 Jvc Kenwood Corp 映像音声記録再生装置
JP2020025310A (ja) * 2013-03-28 2020-02-13 ドルビー ラボラトリーズ ライセンシング コーポレイション 見かけのサイズをもつオーディオ・オブジェクトの任意のラウドスピーカー・レイアウトへのレンダリング
US11019447B2 (en) 2013-03-28 2021-05-25 Dolby Laboratories Licensing Corporation Rendering of audio objects with apparent size to arbitrary loudspeaker layouts
US11564051B2 (en) 2013-03-28 2023-01-24 Dolby Laboratories Licensing Corporation Methods and apparatus for rendering audio objects
US11979733B2 (en) 2013-03-28 2024-05-07 Dolby Laboratories Licensing Corporation Methods and apparatus for rendering audio objects
JPWO2015194075A1 (ja) * 2014-06-18 2017-06-01 ソニー株式会社 画像処理装置、画像処理方法及びプログラム
JP2017134713A (ja) * 2016-01-29 2017-08-03 セイコーエプソン株式会社 電子機器、電子機器の制御プログラム
WO2019093155A1 (ja) * 2017-11-10 2019-05-16 ソニー株式会社 情報処理装置、および情報処理方法、並びにプログラム
CN113841426A (zh) * 2019-05-31 2021-12-24 微软技术许可有限责任公司 使用应用位置信息向各种通道发送音频

Also Published As

Publication number Publication date
AU756265B2 (en) 2003-01-09
EP1035732A1 (en) 2000-09-13
CA2311817A1 (en) 2000-03-30
AU9185398A (en) 2000-04-10

Similar Documents

Publication Publication Date Title
WO2000018112A1 (en) Apparatus and method for presenting sound and image
JP4674505B2 (ja) 音声信号処理方法、音場再現システム
US5812688A (en) Method and apparatus for using visual images to mix sound
JP4735108B2 (ja) 音声信号処理方法、音場再現システム
Zvonar A history of spatial music
CN103733249B (zh) 信息系统、信息再现装置、信息生成方法及记录介质
JP5168373B2 (ja) 音声信号処理方法、音場再現システム
CN110447071A (zh) 信息处理装置、信息处理方法和程序
JP7003924B2 (ja) 情報処理装置と情報処理方法およびプログラム
JP4883197B2 (ja) 音声信号処理方法、音場再現システム
KR100677156B1 (ko) 음원 관리 방법 및 그 장치
JP2019080188A (ja) オーディオシステム及び車両
Mulder Making things louder: Amplified music and multimodality
JP2016102982A (ja) カラオケシステム、プログラム、カラオケ音声再生方法及び音声入力処理装置
JP6220576B2 (ja) 複数人による通信デュエットに特徴を有する通信カラオケシステム
JP2017092832A (ja) 再生方法および再生装置
Sharma et al. Are Loudspeaker Arrays Musical Instruments
Williams 'You never been on a ride like this befo': Los Angeles, automotive listening, and Dr. Dre's' G-Funk'.
JP6920489B1 (ja) カラオケ装置
JPH1064198A (ja) ディスク及びディスク再生装置及びディスク記録再生装置
Mikkonen Lost in Space: Three Case Studies in Music Production Using Immersive Audio
JPH10240281A (ja) カラオケ装置
Pottier et al. Interpretation and space
Austin et al. Computer Music for Compact Disc: Composition, Production, Audience
JP2002223409A (ja) 記録映画コンテンツ又はフィクション性コンテンツの場面展開システム及び記録媒体

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AU CA JP US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE

WWE Wipo information: entry into national phase

Ref document number: 09554792

Country of ref document: US

ENP Entry into the national phase

Ref document number: 2311817

Country of ref document: CA

Ref country code: CA

Ref document number: 2311817

Kind code of ref document: A

Format of ref document f/p: F

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 91853/98

Country of ref document: AU

WWE Wipo information: entry into national phase

Ref document number: 1998944238

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 1998944238

Country of ref document: EP

WWG Wipo information: grant in national office

Ref document number: 91853/98

Country of ref document: AU

WWW Wipo information: withdrawn in national office

Ref document number: 1998944238

Country of ref document: EP