WO2022064905A1 - 情報処理装置、情報処理方法およびプログラム - Google Patents

情報処理装置、情報処理方法およびプログラム Download PDF

Info

Publication number
WO2022064905A1
WO2022064905A1 PCT/JP2021/030340 JP2021030340W WO2022064905A1 WO 2022064905 A1 WO2022064905 A1 WO 2022064905A1 JP 2021030340 W JP2021030340 W JP 2021030340W WO 2022064905 A1 WO2022064905 A1 WO 2022064905A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
audio data
unit
mapping
audio
Prior art date
Application number
PCT/JP2021/030340
Other languages
English (en)
French (fr)
Inventor
剛 五十嵐
真己 新免
宏平 浅田
善之 黒田
正輝 鎌田
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to CN202180063083.7A priority Critical patent/CN116210234A/zh
Priority to US18/026,880 priority patent/US20230336934A1/en
Priority to EP21872037.3A priority patent/EP4221262A4/en
Priority to JP2022551197A priority patent/JPWO2022064905A1/ja
Publication of WO2022064905A1 publication Critical patent/WO2022064905A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • G06F3/1423Digital output to display device ; Cooperation and interconnection of the display device with other functional units controlling a plurality of local displays, e.g. CRT and flat panel display
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/403Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers loud-speakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/02Spatial or constructional arrangements of loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/02Casings; Cabinets ; Supports therefor; Mountings therein
    • H04R1/028Casings; Cabinets ; Supports therefor; Mountings therein associated with devices performing functions other than acoustics, e.g. electric candles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/22Arrangements for obtaining desired frequency or directional characteristics for obtaining desired frequency characteristic only 
    • H04R1/24Structural combinations of separate transducers or of two parts of the same transducer and responsive respectively to two or more frequency ranges
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/22Arrangements for obtaining desired frequency or directional characteristics for obtaining desired frequency characteristic only 
    • H04R1/26Spatial arrangements of separate transducers responsive to two or more frequency ranges
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/34Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by using a single transducer with sound reflecting, diffracting, directing or guiding means
    • H04R1/345Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by using a single transducer with sound reflecting, diffracting, directing or guiding means for loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/4012D or 3D arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/403Linear arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/15Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R27/00Public address systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/02Spatial or constructional arrangements of loudspeakers
    • H04R5/023Spatial or constructional arrangements of loudspeakers in a chair, pillow
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R7/00Diaphragms for electromechanical transducers; Cones
    • H04R7/02Diaphragms for electromechanical transducers; Cones characterised by the construction
    • H04R7/04Plane diaphragms
    • H04R7/045Plane diaphragms using the distributed mode principle, i.e. whereby the acoustic radiation is emanated from uniformly distributed free bending wave vibration induced in a stiff panel and not from pistonic motion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R9/00Transducers of moving-coil, moving-strip, or moving-wire type
    • H04R9/06Loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/301Automatic calibration of stereophonic sound system, e.g. with test microphone

Definitions

  • the present invention relates to an information processing device, an information processing method and a program.
  • Patent Document 1 discloses a system that controls the position of a phantom sound image in conjunction with the position of a sound source displayed on a display.
  • the audio data is described for each audio data from a sound source extraction unit that extracts one or more audio data corresponding to different sound sources from the audio content and one or more combinable display units having a sounding mechanism.
  • An information processing apparatus having a mapping processing unit for selecting one or more display units to be mapped is provided. Further, according to the present disclosure, there is provided an information processing method in which the information processing of the information processing apparatus is executed by a computer, and a program for realizing the information processing of the information processing apparatus in the computer.
  • FIG. 1 It is a figure which shows the schematic structure of the audio / video content output system. It is a figure which shows the structure of a control system. It is a figure which shows the structure of an audio decoder. It is a figure which shows the schematic structure of the tiling display. It is a figure which shows an example of the configuration and arrangement of a display unit. It is explanatory drawing of the tiling display and the speaker unit reproduction frequency. It is a figure which shows the relationship between the reproduction frequency of a display unit, and the magnitude of vibration at the time of reproduction. It is a figure explaining the logical number of a display unit. It is a figure explaining the logical number of a display unit. It is a figure explaining the logical number of a display unit. It is a figure explaining the logical number of a display unit. It is a figure explaining the logical number of a display unit.
  • connection form of a cabinet and a control system It is a figure which shows an example of the connection form of a cabinet and a control system. It is a figure which shows an example of the connection form of a cabinet and a control system. It is a figure which shows an example of the connection form of a cabinet and a display unit. It is a figure which shows the example which applied the audio / video content output system to a theater. It is a figure which shows an example of the mapping processing of the audio data of a channel-based audio. It is a figure which shows an example of the mapping processing of the audio data of the object-based audio. It is a figure which shows an example of the mapping processing of the audio data of the object-based audio. It is a figure which shows another example of the audio data mapping process of a channel-based audio.
  • Placement of speaker unit] [2-8. How to detect the position of the display unit] [2-9. Directivity control of reproduced sound] [2-10.
  • Information processing method [2-11. effect] [3.
  • Second Embodiment] [3-1. System image] [3-2. Placement of speaker unit] [3-3. Measurement of spatial characteristics and reverberation cancellation by built-in microphone] [4.
  • Third Embodiment] [4-1. System image] [4-2. Collecting and playing object sounds] [5.
  • FIG. 1 is a diagram showing a schematic configuration of an audio / video content output system 1.
  • the audio / video content output system 1 is a system that reproduces audio / video content from a content data CD and presents it to the viewer U.
  • the audio / video content output system 1 includes a tiling display 10, a plurality of speaker units 20, and a control system 30.
  • the tiling display 10 has a plurality of display units 12 arranged in a tile shape.
  • the tiling display 10 has a single large screen SCR formed by one or more display units 12 that can be combined in a matrix.
  • the display unit 12 reproduces both video and audio.
  • the tiling display 10 outputs sound related to the image from the display unit 12 that displays the image.
  • the vertical direction will be referred to as the height direction of the tiling display 10.
  • the arrangement direction of the display units 12 orthogonal to the height direction is described as the width direction of the tiling display 10.
  • the directions orthogonal to the height direction and the width direction are referred to as the depth direction of the tiling display 10.
  • a plurality of speaker units 20 are arranged around the tiling display 10.
  • a first array speaker 21, a second array speaker 22, and a subwoofer 23 are provided as a plurality of speaker units 20, a first array speaker 21, a second array speaker 22, and a subwoofer 23 are provided.
  • the first array speaker 21 and the second array speaker 22 are line array speakers in which a plurality of speaker ASPs (see FIG. 15) are arranged in a line.
  • the first array speaker 21 is arranged along the upper side of the tiling display 10.
  • the second array speaker 22 is arranged along the lower side of the tiling display 10.
  • the plurality of speaker units 20 together with the tiling display 10 output sounds related to the displayed image.
  • the control system 30 is an information processing device that processes various information extracted from the content data CD.
  • the control system 30 extracts one or more audio data ADs (see FIG. 3) corresponding to different sound sources from the content data CD.
  • the control system 30 acquires reproduction environment information 352 (see FIG. 3) regarding the configurations of the plurality of display units 12 and the plurality of speaker units 20 that serve as the reproduction environment.
  • the control system 30 performs rendering based on the reproduction environment information 352, and maps each audio data AD to the reproduction environment.
  • FIG. 2 is a diagram showing the configuration of the control system 30.
  • the control system 30 includes a demultiplexer 31, a video decoder 32, and an audio decoder 33.
  • the demultiplexer 31 acquires a content data CD from an external device.
  • the content data CD includes information about the video content VC and information about the audio content AC.
  • the demultiplexer 31 separately generates the video content VC and the audio content AC from the content data CD.
  • the video decoder 32 generates a video output signal from the video content VC and outputs it to a plurality of display units 12 via the video output signal line VL.
  • the audio decoder 33 extracts one or more audio data ADs from the audio content AC.
  • the audio decoder 33 maps each audio data AD to the plurality of display units 12 and the plurality of speaker units 20.
  • the audio decoder 33 outputs the acoustic output signal generated based on the mapping to the plurality of display units 12 and the plurality of speaker units 20 via the acoustic output signal line AL.
  • the control system 30 can handle various types of audio content AC such as channel-based audio, object-based audio, and scene-based audio.
  • the control system 30 performs a rendering process on the audio content AC based on the reproduction environment information 352.
  • the audio data AD is mapped to the plurality of display units 12 and the plurality of speaker units 20 that serve as the reproduction environment.
  • the audio content AC of channel-based audio includes one or more audio data AD generated for each channel.
  • the control system 30 selects the mapping destination of the audio data AD of the channels other than the subwoofer 23 from the plurality of display units 12 and the plurality of speaker ASPs based on the arrangement of the channels.
  • the audio content AC of the object-based audio includes one or more audio data generated for each object (material sound) and meta information.
  • the meta information includes information such as position OB, sound spread, and various effects for each object.
  • the control system 30 selects the mapping destination of the audio data AD from the plurality of display units 12 and the plurality of speaker ASPs based on the position OB of the object specified in the meta information.
  • the control system 30 changes the display unit 12 to which the audio data AD of the object is mapped according to the movement of the position OB of the object.
  • Scene-based audio is a method of recording and reproducing the physical information of the entire space surrounding the viewer U in a 360 ° spherical space.
  • the audio content AC of the scene-based audio has four audio data ADs corresponding to W (omnidirectional component), X (front and back spread component), Y (left and right spread component) and Z (vertical spread component) channels.
  • the control system 30 selects the mapping destination of the audio data AD from the plurality of display units 12 and the plurality of speaker ASPs based on the recorded physical information.
  • FIG. 3 is a diagram showing the configuration of the audio decoder 33.
  • the audio decoder 33 has a calculation unit 34 and a storage unit 35.
  • the calculation unit 34 includes a sound source extraction unit 341, a band division unit 342, a mapping processing unit 343, a position detection unit 344, and a sound source position estimation unit 345.
  • the sound source extraction unit 341 extracts one or more audio data ADs from the audio content AC.
  • the audio data AD is generated for each sound source.
  • one or more audio data ADs generated for each channel as a sound source are extracted from the audio content AC of the channel-based audio.
  • one or more audio data ADs generated for each object as a sound source are extracted.
  • the band division unit 342 divides the audio data AD for each frequency band.
  • the band division process is performed, for example, after cutting the deep bass component of the audio data AD.
  • the band division unit 342 outputs one or more waveform data PADs obtained by dividing the audio data AD to the mapping processing unit 343.
  • the band division processing is performed on the audio data AD having a frequency component other than the deep bass.
  • the audio data AD having only deep bass is mapped from the sound source extraction unit 341 to the subwoofer 23 via the mapping processing unit 343.
  • the mapping processing unit 343 maps one or more waveform data PADs output from the band division unit 342 to the tiling display 10 (display unit 12) and the plurality of speaker units 20 according to the frequency band.
  • the mapping processing unit 343 has one or more display units 12 or one or more speaker ASPs, or one or more speaker ASPs, to which the audio data AD is mapped, for each audio data AD from the plurality of display units 12 and the plurality of speaker ASPs. Select the display unit 12 and one or more speaker ASPs.
  • the mapping processing unit 343 has one or more display units 12 or one or more determined by the arrangement of the multi-channel speakers. Speaker ASP, or one or more display units 12 and one or more speaker ASPs are selected as mapping destinations.
  • the mapping processing unit 343 may use one or more display units 12 or one or more display units 12 corresponding to the position OB of the object extracted from the audio content AC.
  • One or more speaker ASPs, or one or more display units 12 and one or more speaker ASPs are selected as mapping destinations.
  • the position detection unit 344 detects the spatial arrangement of the plurality of display units 12. The spatial arrangement is detected based on the measurement data MD such as sound or video output from the display unit 12. The position detection unit 344 assigns a logic number LN to each display unit 12 based on the detected spatial arrangement. The mapping processing unit 343 specifies the mapping destination based on the logical number LN.
  • the sound source position estimation unit 345 estimates the position where the sound source of the audio data AD is displayed for each audio data AD.
  • the sound source position estimation unit 345 is used to specify the position of the sound source in the video when the audio data AD having no position information of the sound source is input.
  • the mapping processing unit 343 selects one or more display units 12 corresponding to the display positions of the sound sources as the mapping destination.
  • the sound source position estimation unit 345 fits one or more audio data ADs and video content ACs extracted by the sound source extraction unit 341 into the analysis model 351.
  • the analysis model 351 is a DNN (Deep Neural Network) engine that learns the relationship between the audio data AD and the position of the sound source in the video by machine learning.
  • the sound source position estimation unit 345 estimates the position in the screen SCR on which the sound source is displayed based on the analysis result by the analysis model 351.
  • the storage unit 35 stores, for example, the program 353 executed by the calculation unit 34, the analysis model 351 and the reproduction environment information 352.
  • the program 353 is a program that causes a computer to execute information processing carried out by the control system 30.
  • the calculation unit 34 performs various processes according to the program 353 stored in the storage unit 35.
  • the storage unit 35 may be used as a work area for temporarily storing the processing result of the calculation unit 34.
  • the storage unit 35 includes any non-transient storage medium such as a semiconductor storage medium and a magnetic storage medium.
  • the storage unit 35 includes, for example, an optical disk, a magneto-optical disk, or a flash memory.
  • the program 353 is stored, for example, in a non-transient storage medium readable by a computer.
  • the arithmetic unit 34 is, for example, a computer composed of a processor and a memory.
  • the memory of the calculation unit 34 includes a RAM (Random Access Memory) and a ROM (Read Only Memory).
  • the calculation unit 34 functions as a sound source extraction unit 341, a band division unit 342, a mapping processing unit 343, a position detection unit 344, and a sound source position estimation unit 345.
  • FIG. 4 is a diagram showing a schematic configuration of the tiling display 10.
  • the tiling display 10 has a plurality of cabinets 11 combined in a tile shape.
  • a plurality of display units 12 are attached to the cabinet 11 in a tiled state.
  • the pixels of the plurality of display units 12 are continuously arranged across the boundary portion of the display unit 12 while maintaining the pixel pitch. This forms a tiling display 10 with a single screen SCR that spans the plurality of display units 12.
  • the number and arrangement of display units 12 attached to one cabinet 11 is arbitrary.
  • the number and arrangement of cabinets 11 constituting the tiling display 10 are also arbitrary.
  • a total of 32 cabinets, 4 rows in the height direction and 8 rows in the width direction are two-dimensionally arranged.
  • a total of six display units 12 are mounted in one cabinet 11 in two rows in the height direction and three rows in the width direction. Therefore, the tiling display 10 is composed of a total of 192 display units 12 having 8 rows in the height direction and 24 rows in the width direction.
  • FIG. 5 is a diagram showing an example of the configuration and arrangement of the display unit 12.
  • the display unit 12 has a display panel 121, an actuator 122, and a control circuit 123.
  • the display panel 121 is a self-luminous thin display panel without a backlight.
  • an LED panel in which three types of micro LEDs (Light Emitting Diodes) of red, green, and blue are arranged for each pixel is used.
  • the actuator 122 vibrates the display panel 121 to output sound from the surface of the display panel 121.
  • the control circuit 123 has a pixel drive circuit for driving the pixels and an actuator drive circuit for driving the actuator 122.
  • the actuator 122 and the actuator drive circuit function as a sounding mechanism for generating sound from the display unit 12.
  • the cabinet 11 has a housing 111, a connection board 112, and a cabinet board 113.
  • the connection board 112 is a board that connects the control circuit 123 and the cabinet board 113.
  • the connection board 112 is fixed to the housing 111.
  • the display panel 121 is fixed to the connection board 112 by screwing or the like.
  • the cabinet board 113 is connected to the control system 30.
  • the control system 30 outputs a video output signal and an acoustic output signal to the control circuit 123 via the cabinet board 113.
  • FIG. 6 is an explanatory diagram of the tiling display 10 and the speaker unit 20 reproduction frequency.
  • FIG. 7 is a diagram showing the relationship between the reproduction frequency of the display unit 12 and the magnitude of vibration during reproduction.
  • the sound related to the display image of the tiling display 10 is reproduced by the tiling display 10 (display unit 12) and the plurality of speaker units 20.
  • the reproduction frequency band is classified into four, high frequency HF, midfield MF, low frequency LF, and very low frequency VLF (heavy bass).
  • the high frequency HF is a frequency band equal to or higher than the first frequency FH.
  • the mid-range MF is a frequency band that is equal to or higher than the second frequency FM and lower than the first frequency FH.
  • the low frequency LF is a frequency band having a third frequency FL or higher and a frequency band lower than the second frequency FM.
  • Very low frequency VLF is a frequency band lower than the third frequency FL.
  • the first frequency FH is 1 kHz.
  • the second frequency FM is 500 Hz.
  • the third frequency FL is 100 Hz.
  • the band division unit 342 divides the audio data AD into three waveform data PADs of high frequency HF, mid frequency MF, and low frequency LF.
  • the waveform data of the very low frequency VLF is divided by the band division unit 342.
  • the mapping processing unit 343 maps the waveform data PADs of the high frequency HF, the mid frequency MF, and the low frequency LF to the display unit 12 or the speaker ASP.
  • the sound image localization ability that senses the position of the sound image changes depending on the frequency of the sound. The higher the frequency, the higher the sound image localization ability. Therefore, the mapping processing unit 343 maps the waveform data PAD of the high frequency HF having the highest frequency in the audio data AD to one or more display units 12 to be mapped. Since the high-frequency HF sound having high sound image localization ability is output from the display unit 12, the position of the sound source and the position of the sound image are less likely to be displaced.
  • the mapping processing unit 343 maps the waveform data PADs of the mid-range MF and the low-range LF (mid-low range) to the first array speaker 21 and the second array speaker 22.
  • the mapping processing unit 343 selects one or more speaker ASPs corresponding to the positions of the sound sources of the audio data AD from the plurality of speaker ASPs arranged around the tiling display 10.
  • the mapping processing unit 343 selects one or more of the waveform data PAD of the low frequency LF having the lowest frequency in the audio data AD and the waveform data PAD of the mid frequency MF between the high frequency HF and the low frequency LF. Map to the speaker ASP of.
  • the magnitude of vibration of the display unit 12 changes depending on the sound pressure (volume) of the reproduced sound. If the sound pressure is high, the vibration is large, and if the sound pressure is low, the vibration is small. Therefore, the mapping processing unit 343 can map the waveform data PAD in the mid-low range to the display unit 12 even if the waveform data PAD in the mid-low range is small, when the sound pressure is small. For example, when the amplitude of the waveform data PAD of the mid-range MF having a large sound image localization ability is equal to or less than a preset threshold value among the waveform data PADs of the mid-low range, the mapping processing unit 343 determines the waveform of the mid-range MF. Map the data PAD to the display unit 12. As a result, the sound image localization ability can be enhanced while suppressing the vibration of the image due to the vibration of the display unit 12.
  • the mapping processing unit 343 increases the number of display units 12 to which the waveform data PAD of the middle region MF is mapped larger than the number of display units 12 to which the waveform data PAD of the high region HF is mapped. Even with this configuration, it is possible to enhance the sound image localization ability while suppressing the vibration of the image due to the vibration of the display unit 12.
  • Display unit logical number 8 to 10 are diagrams illustrating the logical numbers of the display unit 12.
  • the plurality of cabinets 11 are assigned a logic number L1 based on the position of each cabinet 11.
  • XY coordinates are set with the width direction as the X direction and the height direction as the Y direction.
  • a logic number L1 is set in each cabinet 11 based on the position on the respective XY coordinates.
  • the cabinet 11 located in the first row and first column is assigned a logical number L1 of "CLX1CLY1".
  • the cabinet 11 located in the fifth row of the second column is assigned a logic number L1 of "CLX5CLY2".
  • a plurality of display units 12 are attached to one cabinet 11.
  • a plurality of display units 12 mounted on the same cabinet 11 are assigned a logic number L2 based on their respective positions in the cabinet 11. For example, the display unit 12 located in the first row and the first column of the cabinet 11 is given a logical number L2 of "ULX1ULY1". The display unit 12 located in the second column and the third row of the cabinet 11 is given a logical number L2 of "ULX3ULY2".
  • each display unit 12 is assigned a logic number LN based on the position of the cabinet 11 to which the display unit 12 belongs and the position of the display unit 12 in the cabinet 11.
  • the display unit 12 in the first row and the first column in the cabinet 11 in the first row and the first column is assigned the logical number LN "CLX1CLY1-ULX1ULY1".
  • the display unit 12 in the first row and the second column in the cabinet 11 in the first row and the first column is assigned a logical number LN of "CLX1CLY1-ULX2ULY1".
  • connection form between cabinet and control system] 11 and 12 are views showing an example of a connection form between the cabinet 11 and the control system 30.
  • the plurality of cabinets 11 are connected to the control system 30 by serial connection, parallel connection, or a combined method thereof.
  • the plurality of cabinets 11 are serially connected to the control system 30.
  • the two adjacent cabinets 11 are connected by connecting the cabinet boards 113 to each other.
  • a cabinet connection number CEk (k is an integer from 1 to 32) is assigned to the plurality of cabinets 11. From the control system 30, the video output signal and the acoustic output signal are output to the plurality of cabinets 11 according to the cabinet connection number.
  • the plurality of cabinets 11 are connected to the control system 30 by a method in which serial connection and parallel connection are combined.
  • a cabinet connection number CEl, m (l is an integer from 1 to 8; m is an integer from 1 to 4) is assigned to the plurality of cabinets 11. From the control system 30, the video output signal and the acoustic output signal are output to the plurality of cabinets 11 according to the cabinet connection number.
  • FIG. 13 is a diagram showing an example of a connection form between the cabinet 11 and the display unit 12.
  • a plurality of display units 12 supported by the same cabinet 11 are connected in parallel to the cabinet board 113.
  • the plurality of display units 12 are electrically connected to the control system 30 via the cabinet board 113.
  • Unit connection numbers UE1 to UE6 are attached to the plurality of display units 12. From the cabinet board 113, the video output signal and the acoustic output signal are output to the plurality of display units 12 according to the unit connection number.
  • FIG. 14 is a diagram showing an example in which the audio / video content output system 1 is applied to the theater CT1.
  • FIG. 14 virtually shows the positions of the multi-channel speakers of the left channel LCH, the center channel CCH, and the right channel RCH.
  • multi-channel speakers are placed behind the sound screen.
  • the sound screen has a large number of tiny sound holes.
  • the sound output from the multi-channel speaker is output to the viewer side (front side of the sound screen) through the sound hole.
  • a plurality of display units 12 are spread tightly on the tiling display 10. Therefore, it is not possible to provide a hole such as a sound hole in the tiling display 10.
  • a method of arranging a multi-channel speaker around the tiling display 10 to generate a phantom sound image is also conceivable, but in this method, the range of the viewing position where the sound image is correctly localized is narrow.
  • the audio data ADs of the left channel LCH, the center channel CCH, and the right channel RCH are mapped to the tiling display 10 (display unit 12).
  • the audio data AD for the multi-channel speaker on the screen SCR a sense of unity between the video and audio like a sound screen is realized.
  • FIG. 15 is a diagram showing an example of a mapping process of audio data AD of channel-based audio.
  • the audio content AC of the channel-based audio is input to the calculation unit 34.
  • the audio content AC includes one or more audio data ADs generated for each channel.
  • the sound source extraction unit 341 extracts audio data AD from the audio content AC for each channel that becomes a sound source. In the example of FIG. 15, four audio data ADs corresponding to the left channel LCH, the center channel CCH, the right channel RCH, and the bass enhancement channel LFE are extracted.
  • Sounds in the frequency band from high frequency HF to low frequency LF are assigned to the audio data AD of the left channel LCH, the center channel CCH, and the right channel RH. Sound in the frequency band of the very low frequency VLF is assigned to the audio data AD of the bass enhancement channel LFE.
  • the sound source extraction unit 341 outputs the audio data AD of the left channel LCH, the center channel CCH, and the right channel RCH to the band division unit 342.
  • the sound source extraction unit 341 outputs the audio data AD of the bass enhancement channel LFE to the subwoofer 23.
  • the band division unit 342 divides the audio data AD of the channels (left channel LCH, center channel CCH and right channel RCH) other than the bass enhancement channel LFE for each frequency band. For example, the band division unit 342 divides each audio data AD of the left channel LCH, the center channel CCH, and the right channel RCH into high-frequency HF waveform data PAD and mid-low frequency waveform data, and outputs them to the mapping processing unit 343. do.
  • the mapping processing unit 343 maps the high-frequency HF and mid-low-frequency waveform data PAD extracted from the audio data AD of each channel to one or more display units 12 and one or more speaker ASPs determined by the position of the multi-channel speaker. do.
  • the position of the multi-channel speaker is extracted from the reproduction environment information 352. In the reproduction environment information 352, for example, the coordinates on the screen SCR where the central portion of the multi-channel speaker is located are defined as the position of the multi-channel speaker.
  • the mapping processing unit 343 extracts a predetermined area on the screen SCR centered on these coordinates as a sound source area SR.
  • the mapping processing unit 343 extracts the sound source area LSR of the left channel LCH, the sound source area CSR of the center channel CCH, and the sound source area RSR of the right channel RCH as the sound source area SR of each channel from the reproduction environment information 352.
  • the region shown by the dark hatching in the example of FIG. 15, the region straddling the eight display units 12 is extracted as the sound source region SR.
  • the mapping processing unit 343 maps the waveform data PAD of the high frequency HF of the left channel LCH to one or more display units 12 arranged in the sound source region LSR of the left channel LCH.
  • the mapping processing unit 343 maps the waveform data PAD in the mid-low range of the left channel LCH to one or more speaker ASPs arranged at the same position on the X-axis as the sound source region LSR of the left channel LCH.
  • the vibration of each display unit 12 becomes large when the set sound pressure is to be realized only by the display unit 12 arranged in the sound source area LSR.
  • the vibration of the display unit 12 becomes large, the shaking of the image may be recognized by the viewer U.
  • the mapping processing unit 343 expands the mapping destination around the sound source area LSR.
  • the mapping processing unit 343 also maps the waveform data PAD to one or more display units 12 (five display units 12 shown by thin hatching in the example of FIG. 15) arranged around the sound source region LSR.
  • the mapping processing unit 343 expands the mapping destination of the waveform data PAD in the mid-low range in accordance with the expansion of the mapping destination of the waveform data PAD in the high frequency range HF. This makes it difficult for a gap between the high-frequency HF sound image and the mid-low frequency sound image to occur.
  • the waveform data PAD of the center channel CCH and the light channel RCH are also mapped by the same method.
  • the mapping processing unit 343 maps the waveform data PAD of the high frequency HF of the center channel CCH to one or more display units 12 arranged in the sound source region CSR of the center channel CCH.
  • the mapping processing unit 343 maps the waveform data PAD in the mid-low range of the center channel CCH to one or more speaker ASPs arranged at the same position on the X-axis as the sound source area CSR.
  • the mapping processing unit 343 expands the mapping destination around the sound source region CSR.
  • the mapping processing unit 343 expands the mapping destination of the waveform data PAD in the mid-low range in accordance with the expansion of the mapping destination of the waveform data PAD in the high frequency range HF.
  • the mapping processing unit 343 maps the waveform data PAD of the high frequency HF of the light channel RH to one or more display units 12 arranged in the sound source region RSR of the light channel RH.
  • the mapping processing unit 343 maps the waveform data PAD in the mid-low range of the light channel RH to one or more speaker ASPs arranged at the same position on the X-axis as the sound source region RSR.
  • the mapping processing unit 343 expands the mapping destination around the sound source region RSR.
  • the mapping processing unit 343 expands the mapping destination of the waveform data PAD in the mid-low range in accordance with the expansion of the mapping destination of the waveform data PAD in the high frequency range HF.
  • the mapping processing unit 343 serializes the waveform data PAD mapped to each display unit 12.
  • the mapping processing unit 343 outputs the acoustic output signal for the display unit 12 generated by the serialization processing to the tiling display 10.
  • the mapping processing unit 343 generates an acoustic output signal for the speaker ASP based on the waveform data PAD mapped to each speaker ASP, and outputs the acoustic output signal to the first array speaker 21 and the second array speaker 22.
  • FIG. 16 and 17 are diagrams showing an example of mapping processing of audio data AD of object-based audio.
  • the audio content AC of the object-based audio is input to the arithmetic unit 34.
  • the audio content AC includes one or more audio data ADs generated for each object.
  • the sound source extraction unit 341 extracts audio data AD for each object that becomes a sound source from the audio content AC.
  • the audio content AC includes audio data AD of the sound of flipping a finger (object) and meta information indicating a position of flipping a finger (position OB of the object).
  • the number of objects is one, but the number of objects is not limited to one.
  • different objects may be arranged at a plurality of position OBs.
  • the sound source extraction unit 341 extracts a plurality of audio data ADs corresponding to different objects from the audio content AC.
  • the band division unit 342 divides the waveform data of the audio data AD of the low frequency LF or higher for each frequency band. For example, the band division unit 342 divides the audio data AD of the object into the waveform data PAD of the high frequency HF and the waveform data of the middle and low frequencies, and outputs the data to the mapping processing unit 343.
  • the mapping processing unit 343 maps the high-frequency HF and the mid-low frequency waveform data PAD extracted from the audio data AD of the object to one or more display units 12 and one or more speaker ASPs corresponding to the position OB of the object. ..
  • the position OB of the object is defined in the meta information as information on the horizontal angle, elevation angle, and distance from the preset viewing position, for example.
  • the mapping processing unit 343 extracts a predetermined area on the screen SCR centered on the position OB as a sound source area OSR. In the example of FIG. 16, the sound source region OSR is extracted as a region having the size of one display unit 12 indicated by dark hatching.
  • FIG. 16 shows a state in which the sound source areas LSR, CSR, RSR of each channel and the sound source area OSR of the object exist at the same time as the sound source area SR.
  • the mapping processing unit 343 maps the waveform data PAD of the high frequency range HF of the object to one or more display units 12 arranged in the sound source area SR of the object.
  • the mapping processing unit 343 maps the waveform data PAD in the mid-low range of the object to one or more speaker ASPs arranged at the same position on the X-axis as the sound source region OSR of the object.
  • the mapping processing unit 343 expands the mapping destination to the periphery of the sound source region SR (in the example of FIG. 16, the three display units 12 shown by thin hatching). ..
  • the mapping processing unit 343 expands the mapping destination of the waveform data PAD in the mid-low range in accordance with the expansion of the mapping destination of the waveform data PAD in the high frequency range HF.
  • the mapping processing unit 343 serializes the waveform data PAD mapped to each display unit 12.
  • the mapping processing unit 343 outputs the acoustic output signal for the display unit 12 generated by the serialization processing to the tiling display 10.
  • the mapping processing unit 343 serializes the waveform data PAD mapped to each speaker ASP.
  • the mapping processing unit 343 outputs the acoustic output signal for the speaker ASP generated by the serialization processing to the first array speaker 21 and the second array speaker 22.
  • FIG. 18 is a diagram showing another example of the mapping process of the audio data AD of the channel-based audio.
  • the audio content AC of the channel-based audio is input to the calculation unit 34.
  • the sound source extraction unit 341 extracts audio data AD for each sound source SS from the audio content AC by using the sound source separation technology.
  • As the sound source separation technique a known sound source separation technique such as blind signal source separation is used.
  • each character reflected on the screen SCR is a sound source SS.
  • the sound source extraction unit 341 extracts the voice of the character serving as the sound source SS as audio data AD for each sound source SS.
  • the sound source SS1, the sound source SS2, and the sound source SS3 are extracted as the sound source SS.
  • the number N of the sound source SS is not limited to this.
  • the number N of the sound source SS can be any number of 1 or more.
  • the position of the sound source SS is estimated by the sound source position estimation unit 345.
  • the sound source position estimation unit 345 fits, for example, one or more audio data ADs and video content ACs extracted by the sound source extraction unit 341 into the analysis model 351 using the DNN engine.
  • the sound source extraction unit 341 estimates the position on the screen SCR on which the sound source SS is displayed as the sound source area SR for each sound source SS based on the analysis result by the analysis model 351.
  • the mapping processing unit 343 maps the audio data AD of the sound source SS to one or more display units 12 arranged at the positions of the sound source SS for each sound source SS.
  • the mapping processing unit 343 serializes the audio data AD of each sound source SS based on the mapping result.
  • the mapping processing unit 343 outputs the acoustic output signal obtained by the serialization processing to the tiling display 10.
  • the sound source region SR1 of the sound source SS1 is estimated as a region straddling the four display units 12.
  • the mapping processing unit 343 selects the four display units 12 in which the sound source area SR1 is arranged as the mapping destination of the audio data AD of the sound source SS1.
  • the sound source area SR2 of the sound source SS2 is estimated as an area that straddles the two display units 12.
  • the mapping processing unit 343 includes two display units 12 (display units 12 with dark hatching) in which the sound source area SR2 is arranged, and five displays arranged around the display units 12 (display units 12 with dark hatching).
  • the unit 12 (display unit 12 with thin hatching) is selected as the mapping destination of the audio data AD of the sound source SS2.
  • the sound source area SR3 of the sound source SS3 is estimated as an area straddling the two display units 12.
  • the mapping processing unit 343 selects the two display units 12 in which the sound source area SR3 is arranged as the mapping destination of the audio data AD of the sound source SS3.
  • Control of sound image in the depth direction 19 to 22 are diagrams illustrating a method of controlling a sound image in the depth direction.
  • the position of the sound image in the depth direction is controlled by known signal processing such as Monopole Synthesis, Wave Field Synthesis (WFS), Spectral Division Method and Mode Matching.
  • WFS Wave Field Synthesis
  • FIGS. 20 and 21 it is assumed that a plurality of point sound source PSs are arranged on the reference plane RF.
  • a sound field having a focal point FS at a position away from the reference plane RF is generated.
  • the sound image is localized at the focal point FS.
  • FIG. 20 when the focal point FS moves deeper than the reference plane RF, a sound image that moves away from the viewer U is generated.
  • FIG. 21 when the focal point FS moves toward the reference plane RF, a sound image that approaches the viewer U is generated.
  • the point sound source PS corresponds to each display unit 12 or speaker ASP.
  • the reference surface RF corresponds to the screen SCR of the tiling display 10 or the audio output surface of the array speakers (first array speaker 21, second array speaker 22).
  • the mapping processing unit 343 controls the sound pressure and phase of the sound output from the display unit 12 and the speaker ASP to be the mapping destination by using the FIR (Finite Impulse Response) filter.
  • FIR Finite Impulse Response
  • the waveform data PAD is subjected to digital filter processing using an FIR filter. That is, the audio data AD extracted by the sound source extraction unit 341 is divided into a high-frequency HF waveform data PAD and a mid-low frequency waveform data PAD by the band division unit 342.
  • the waveform data PAD of the high frequency HF is mapped to n display units 12 (n is an integer of 2 or more) corresponding to the position OB of the object.
  • the mid-low range waveform data PAD is mapped to m speaker ASPs (m is an integer of 2 or more) corresponding to the position OB of the object.
  • the mapping processing unit 343 performs digital filter processing using an FIR filter on the waveform data PAD of the high frequency HF.
  • the mapping processing unit 343 adjusts the sound pressure and phase of the sound output from the n display units 12 which are the mapping destinations of the waveform data PAD of the high frequency HF by the digital filter processing for each display unit 12.
  • the mapping processing unit 343 controls the position of the sound image in the depth direction by adjusting the sound pressure and the phase of the sound output from the display unit 12 for each display unit 12.
  • the mapping processing unit 343 performs digital filter processing using an FIR filter on the waveform data PAD in the mid-low range.
  • the mapping processing unit 343 adjusts the sound pressure and phase of the sound output from the m speaker ASPs, which are the mapping destinations of the waveform data PAD in the mid-low range, for each speaker ASP by digital filter processing.
  • the mapping processing unit 343 controls the position of the sound image in the depth direction by adjusting the sound pressure and the phase of the sound output from the speaker ASP for each speaker ASP.
  • FIG. 22 is a diagram showing an example of the localization enhancement control technique for the sound image.
  • FIG. 22 shows the audio data AD in which the sound pressure level of the high frequency HF is small.
  • the mapping processing unit 343 uses the high-frequency interpolation technique to convert the audio data AD in which the sound pressure level of the high-frequency HF is smaller than the threshold value TH to the corrected audio data CAD in which the sound pressure level of the high-frequency HF is equal to or higher than the threshold value TH. To generate.
  • the mapping processing unit 343 maps the waveform data PAD of the high frequency HF of the corrected audio data CAD to one or more display units 12 to be mapped.
  • FIG. 23 is a diagram showing another example of the localization enhancement control technique of the sound image.
  • FIG. 23 shows the relationship between the frequency band and the phase of the audio data AD.
  • the phase is related to the output timing of the sound.
  • the sound of the mid-low range and the very low frequency VLF having a low sound image localization ability and the sound of the high frequency HF having a high sound image localization ability are output at the same time.
  • the mapping processing unit 343 simultaneously outputs the high frequency HF waveform data PAD at the same time as the mid-low frequency and ultra-low frequency VLF waveform data PAD output, or the mid-low frequency and ultra-low frequency.
  • the timing is earlier than the timing when the waveform data PAD of the region VLF is output.
  • FIG. 24 is a diagram showing an example of the arrangement of the speaker unit 20.
  • An enclosure for accommodating the first array speaker 21 is attached to the uppermost cabinet 11 of the tiling display 10.
  • An enclosure for accommodating the second array speaker 22 is attached to the lowermost cabinet 11 of the tiling display 10.
  • the enclosure is provided with a slit that serves as a sound guide SSG.
  • the width of the slit is narrower than the diameter of the speaker ASP.
  • the sound output from the speaker ASP is emitted to the outside of the enclosure via the sound guide section SSG.
  • the sound guide SSG is arranged close to the edge of the tiling display 10. Since the sound is output from the edge of the tiling display 10, high sound image localization ability can be obtained.
  • the speaker ASP may be housed in the cabinet 11.
  • a speaker-built-in end-dedicated cabinet having a sound guide portion SSG is arranged at the uppermost stage and the lowermost stage of the tiling display 10.
  • FIG. 25 is a diagram showing an example of a method for detecting the position of the display unit 12.
  • FIG. 26 is a diagram showing an arrangement of microphone MCs used for detecting the position of the display unit 12.
  • a display unit 12M with a microphone is arranged at the four corners of the tiling display 10.
  • the microphone MC is attached to the back surface of the display unit 12M with a microphone.
  • a notch serving as a sound guide portion CSG is formed in one corner of the display unit 12M with a microphone.
  • the microphone MC is arranged near the corner of the display unit 12M with a microphone in which the notch is formed.
  • the position detection unit 344 detects the spatial position of the display unit 12 based on the time when the sound (impulse) output from the display unit 12 is transmitted to the microphones MC provided at a plurality of locations.
  • the position detection unit 344 assigns a logic number LN to each display unit 12 based on the spatial arrangement of each display unit 12.
  • the position detection unit 344 selects one display unit 12 for each cabinet 11 and outputs a sound (impulse) from the selected display unit 12.
  • the position detection unit 344 acquires the measurement data MD regarding the sound transmission time from each microphone MC.
  • the position detection unit 344 detects the spatial position of the cabinet 11 based on the measurement data MD acquired from each microphone MC.
  • the arrangement of the display units 12 in the cabinet 11 is specified in the reproduction environment information 352.
  • the position detection unit 344 detects the relative position between the cabinet 11 and each display unit 12 held in the cabinet 11 based on the information of the arrangement defined in the reproduction environment information 352.
  • the position detection unit 344 detects the position of each display unit 12 based on the position of the cabinet 11 and the relative position of each display unit 12 with respect to the cabinet 11.
  • the measurement accuracy is improved by installing the microphone MC in all the display units 12 or a plurality of display units 12 arranged at a constant density.
  • the microphone MC can also be used for acoustic correction of the sound output from the display unit 12.
  • FIG. 27 is a diagram showing another example of the method of detecting the position of the display unit 12.
  • a plurality of microphone MCs are arranged outside the tiling display 10. Although the positions of the microphone MCs are different, the position detection unit 344 can detect the position of each display unit 12 by the same method as described with reference to FIG. 25. In the example of FIG. 27, it is not necessary to provide the tiling display 10 with a sound guide portion CSG for transmitting sound to the microphone MC. Therefore, the deterioration of the image quality due to the sound guide portion CSG is unlikely to occur.
  • FIG. 28 is a diagram illustrating the directivity control of the reproduced sound DS.
  • the directivity of the reproduced sound DS is controlled by utilizing the interference of the wavefronts of a plurality of arranged point sound sources.
  • the directivity of the reproduced sound DS in the height direction is controlled by the interference of the wavefronts of a plurality of point sound sources arranged in the height direction.
  • the directivity of the reproduced sound DS in the width direction is controlled by the interference of the wavefronts of a plurality of point sound sources arranged in the width direction.
  • the point sound source corresponds to the individual display unit 12 or the speaker ASP.
  • the mapping processing unit 343 individually controls the sound pressure and the phase of the sound output from each display unit 12 and the speaker ASP to be the mapping destination by using the FIR filter.
  • the waveform data PAD is subjected to digital filter processing using an FIR filter. That is, the audio data AD extracted by the sound source extraction unit 341 is divided into a high-frequency HF waveform data PAD and a mid-low frequency waveform data PAD by the band division unit 342.
  • the waveform data PAD of the high frequency HF is mapped to n display units (n is an integer of 2 or more) corresponding to the positions of the multi-channel speakers.
  • the mid-low range waveform data PAD is mapped to m (m is an integer of 2 or more) speaker ASPs corresponding to the positions of the multi-channel speakers.
  • the mapping processing unit 343 performs digital filter processing using an FIR filter on the waveform data PAD of the high frequency HF.
  • the mapping processing unit 343 adjusts the sound pressure and phase of the sound output from the n display units 12 which are the mapping destinations of the waveform data PAD of the high frequency HF by the digital filter processing for each display unit 12.
  • the mapping processing unit 343 adjusts the sound pressure and phase of the sound output from the display unit 12 for each display unit 12, so that the directivity and sound pressure uniformity of the reproduced sound DS in the viewing area VA can be adjusted. Control the acoustic characteristics.
  • the mapping processing unit 343 performs digital filter processing using an FIR filter on the waveform data PAD in the mid-low range.
  • the mapping processing unit 343 adjusts the sound pressure and phase of the sound output from the m speaker ASPs, which are the mapping destinations of the waveform data PAD in the mid-low range, for each speaker ASP by digital filter processing.
  • the mapping processing unit 343 has acoustic characteristics such as the directivity and sound pressure uniformity of the reproduced sound DS in the viewing area VA. To control.
  • FIG. 29 is a diagram showing an example of distributing different reproduced sound DS for each viewer U.
  • One or more camera CAs are installed in the vicinity of the tiling display 10.
  • the camera CA is a wide-angle camera capable of photographing the front of the tiling display 10.
  • one camera CA is installed on each side of the tiling display 10 in the width direction in order to cover the entire viewing area VA of the tiling display 10.
  • the control system 30 detects the number of viewers U existing in the viewing area VA and the position of each viewer U based on the shooting data acquired from each camera CA.
  • images of a plurality of sound source SSs set for each viewer U are displayed at different positions on the screen SCR.
  • the mapping processing unit 343 selects a plurality of display units 12 corresponding to the display positions of the sound source SS as the mapping destination of the audio data AD of the sound source SS for each sound source SS.
  • the mapping processing unit 343 generates and outputs a reproduced sound DS having high directivity from the sound source SS toward the viewer U for each viewer U based on the position information of each viewer U.
  • FIG. 30 is a flowchart showing an example of an information processing method performed by the control system 30.
  • step S1 the sound source extraction unit 341 extracts one or more audio data ADs from the audio content AC.
  • the audio content AC various types of audio content such as channel-based audio, object-based audio, and scene-based audio can be used.
  • the sound source extraction unit 341 extracts one or more audio data ADs generated for each channel or object as a sound source from the audio content AC.
  • the mapping processing unit 343 selects one or more display units 12 and one or more speaker ASPs to be mapped to the audio data AD for each audio data AD. For example, the mapping processing unit 343 detects the sound source region SR on the screen SCR corresponding to the position of the multi-channel speaker or the position OB of the object. The mapping processing unit 343 selects one or more display units 12 and one or more speaker ASPs corresponding to the sound source area SR as mapping destinations. The mapping processing unit 343 expands the mapping destination to the outside of the sound source area SR based on the sound pressure of the audio data AD, the position in the depth direction of the sound image, the directivity of the reproduced sound DS, and the like.
  • step S3 the mapping processing unit 343 outputs the audio data AD to one or more display units 12 and one or more speaker ASPs to be mapped, and the position associated with the sound source (sound source area SR or sound source area SR).
  • the sound image is localized at a position deviated from the depth direction.
  • the control system 30 has a sound source extraction unit 341 and a mapping processing unit 343.
  • the sound source extraction unit 341 extracts one or more audio data ADs corresponding to different sound sources from the audio content AC.
  • the mapping processing unit 343 selects one or more display units 12 to be mapped to the audio data AD for each audio data AD from one or more combinable display units 12 having a sounding mechanism.
  • the processing of the control system 30 described above is executed by the computer.
  • the program of the present embodiment causes the computer to realize the processing of the control system 30 described above.
  • the audio data AD is directly reproduced by the display unit 12. Therefore, it is easy to obtain a sense of unity between video and audio.
  • the audio data AD is audio data for a multi-channel speaker extracted from the audio content AC of the channel-based audio.
  • the mapping processing unit 343 selects one or more display units 12 determined by the arrangement of the multi-channel speakers as the mapping destination.
  • the audio data AD is the audio data of the object extracted from the audio content AC of the object-based audio.
  • the mapping processing unit 343 selects one or more display units 12 corresponding to the position OB of the object extracted from the audio content AC as the mapping destination.
  • the sound image of the object can be localized at the position OB of the object.
  • the control system 30 has a sound source position estimation unit 345.
  • the sound source position estimation unit 345 estimates the position where the sound source SS of the audio data AD is displayed for each audio data AD.
  • the mapping processing unit 343 selects one or more display units 12 corresponding to the positions where the sound source SS is displayed as the mapping destination.
  • the sound image of the sound source SS can be localized at the position where the sound source SS is displayed.
  • the mapping processing unit adjusts the sound pressure and phase of the sound output from the plurality of display units 12 to be mapped for each display unit 12 to control the position of the sound image in the depth direction.
  • the position of the sound image in the depth direction can be easily controlled.
  • the control system 30 has a band division unit 342.
  • the band division unit 342 divides the audio data AD into frequency bands.
  • the mapping processing unit 343 maps the waveform data PAD of the high frequency HF having the highest frequency in the audio data AD to one or more display units 12 to be mapped.
  • the high frequency HF sound having high sound image localization ability is output from the display unit 12. Therefore, there is little deviation between the position of the sound source and the position of the sound image.
  • the mapping processing unit 343 selects one or more speaker ASPs corresponding to the positions of the sound sources of the audio data AD from the plurality of speaker ASPs arranged around the plurality of display units 12.
  • the mapping processing unit 343 selects one or more of the waveform data PAD of the low frequency LF having the lowest frequency in the audio data AD and the waveform data PAD of the mid frequency MF between the high frequency HF and the low frequency LF. Map to the speaker ASP of.
  • the sound of the mid-range MF and the low-range LF whose sound image localization ability is lower than that of the high-range HF, is output from the speaker ASP. Since the sound output from the display unit 12 is only the high frequency HF sound, the vibration of the display unit 12 when the sound is output is minimized.
  • the mapping processing unit 343 generates a corrected audio data CAD in which the sound pressure level of the high frequency HF is equal to or higher than the threshold value from the audio data AD in which the sound pressure level of the high frequency HF is smaller than the threshold value.
  • the mapping processing unit 343 maps the waveform data PAD of the high frequency HF of the corrected audio data CAD to one or more display units 12 to be mapped.
  • the mapping processing unit 343 outputs the waveform data PAD of the high frequency HF at the same time as the timing of outputting the waveform data PAD of the mid frequency MF and the low frequency LF, or the waveform of the mid frequency MF and the low frequency LF. Make it earlier than the timing when the data PAD is output.
  • the output timing of the waveform data PAD of the high frequency HF with high sound image localization ability is accelerated. Therefore, the sound image localization ability of the audio data AD is enhanced by the preceding sound effect.
  • the control system 30 has a position detection unit 344.
  • the position detection unit 344 detects the spatial arrangement of the plurality of display units 12.
  • the position detection unit 344 assigns a logic number LN to each display unit 12 based on the detected spatial arrangement.
  • the mapping processing unit 343 specifies the mapping destination based on the logical number LN.
  • addressing of the display unit 12 can be performed automatically.
  • the position detection unit 344 detects the spatial arrangement of the display unit 12 based on the time when the sound output from the display unit 12 is transmitted to the microphones MC provided at a plurality of locations.
  • the spatial arrangement of the display unit 12 can be easily detected.
  • the mapping processing unit adjusts the sound pressure and phase of the sound output from the plurality of display units 12 to be mapped for each display unit 12 to control the directivity of the reproduced sound DS.
  • the directivity of the reproduced sound DS is controlled by the interference of the wavefront output from each display unit 12.
  • the theater CT2 is a theater capable of displaying spherical images.
  • the tiling display 10 is arranged so as to cover the front surface, the left and right surfaces, the ceiling surface, and the floor surface of the audience seat ST. Sound is reproduced from all directions by a large number of display units 12 installed in all directions.
  • FIG. 33 is a diagram showing an example of the arrangement of the speaker unit 20.
  • speaker units 20 for mid-low range are installed along the upper side and the lower side of the tiling display 10.
  • the tiling display 10 since the tiling display 10 is installed in all directions, there is no space for installing the first array speaker 21 and the second array speaker 22.
  • the woofer 24 is installed on the shoulder of the audience seat ST as the speaker unit 20 for the mid-low range.
  • the subwoofer 23, which is a speaker unit 20 for ultra-low frequency VLF, is installed under the seat.
  • the high-frequency HF sound having a high sound image localization ability is output from the display unit 12.
  • FIG. 34 is a diagram showing another example of the arrangement of the speaker unit 20.
  • an open earphone EP is attached to the ear UE of the viewer U as the speaker unit 20 for the mid-low range.
  • the earphone EP has an opening OP in the ear canal portion.
  • the viewer U can view the sound output from the display unit 12 through the opening OP.
  • the speaker unit 20 does not necessarily have to be an earphone EP, and may be a wearable acoustic device (open headphone, shoulder speaker, etc.) that can be worn by the viewer U.
  • the distance from the speaker unit 20 to the viewer U is shortened. Therefore, it is not necessary to reproduce extra sound pressure, and unnecessary reverberation is suppressed.
  • FIG. 35 is a diagram showing an arrangement of microphone MCs used for measuring spatial characteristics.
  • the control system 30 controls the sound pressure and the phase of each display unit 12 based on the spatial characteristics of the theater CT2 measured in advance, and reduces the reverberation.
  • the arrangement of the microphone MC is the same as that described in FIG. In the example of FIG. 26, the microphone MC is installed only in the specific display unit 12, but in the present embodiment, the microphone MC is installed in all the display units 12.
  • the spatial characteristics of the theater CT2 are measured using the microphone MC built into each display unit 12. For example, in the theater CT2, the output characteristics of the output sound of the display unit 12 for all other display units (microphone MC) are measured for each display unit 12. By this measurement, the transmission characteristics of the wave surface (transmission characteristics with frequency and sound pressure as variables, transmission characteristics with frequency and phase (including transmission time) as variables) are measured. The spatial characteristics of the theater CT2 are detected based on the transmission characteristics. The spatial characteristics of the theater CT2 are stored in the storage unit 35 as the reproduction environment information 352.
  • the mapping processing unit 343 adjusts the sound pressure and phase of the sound output from the plurality of display units 12 to be mapped for each display unit 12 based on the spatial characteristics of the theater CT2, and reduces the reverberation.
  • the display unit 12 selected as the mapping destination is set as the mapping destination unit
  • the display unit 12 not selected as the mapping destination is set as the non-mapping destination unit.
  • the mapping processing unit 343 reproduces the sound having the opposite phase to the primary reflected wavefront in the non-mapping destination unit. This reduces reverberation due to reflections at the non-mapping destination unit.
  • FIG. 36 is a diagram showing an example in which the audio / video content output system 1 is applied to the telepresence system TP.
  • Telepresence system TP is a system that connects remote locations and holds two-way video and audio conferences.
  • the entire wall is a tiling display 10 that displays an image of a remote location.
  • the video and audio of the viewer U1 in the first remote location are output to the viewer U2 from the tiling display 10B in the second remote location.
  • the video and audio of the viewer U2 at the second remote location are output to the viewer U1 from the tiling display 10A at the first remote location.
  • FIG. 37 is a diagram showing an example of sound collection processing and reproduction processing of object sounds.
  • One or more camera CAs are installed in the vicinity of the tiling display 10.
  • the camera CA is a wide-angle camera capable of photographing the front of the tiling display 10.
  • one camera CA is installed on each side of the tiling display 10 in the width direction in order to cover the entire viewing area VA of the tiling display 10.
  • the number of viewers U1 existing in the viewing area VA, the position of each viewer U1, the movement of the mouth of each viewer U1, and the like are detected based on the shooting data of each camera CA.
  • the sound of the viewer U1 is collected as the input sound IS by the high directional microphone built in each display unit 12.
  • the control system 30A inputs the sound collection data and the image pickup data of the camera CA to the DNN to separate the sound sources, and generates an audio content AC having the sound of the viewer U1 as the sound source as an object.
  • the control system 30A generates a content data CD using the video content using the image data of the camera CA and the audio content AC generated by using the input sound IS.
  • the second remote location control system 30B acquires the content data CD generated by the first remote location control system 30A via the network NW.
  • the control system 30B separates the audio content AC and the video content VC from the content data CD.
  • the control system 30B uses the video content VC to reproduce the image of the viewer U1 at the first remote location on the tiling display 10B.
  • the control system 30B uses the audio content AC to reproduce the sound of the viewer U1 at the first remote location on the tiling display 10B and the plurality of speaker units 20B.
  • the reproduction process of the audio content AC is the same as that shown in FIG.
  • the control system 30B detects the number of viewers U2 existing in the viewing area VA and the position of each viewer U2 based on the shooting data acquired from each camera CA when playing back the audio content AC.
  • the image of the viewer U1 at the first remote location which is the sound source of the object, is displayed on the screen SCR.
  • the mapping processing unit 343 selects a plurality of display units 12 according to the position of the object (audio of the viewer U1) as the mapping destination of the audio data AD of the object.
  • the mapping processing unit 343 generates a reproduced sound DS having high directivity toward the viewer U2 from a plurality of display units 12 as mapping destinations for each viewer U2 based on the position information of each viewer U2. Output.
  • the method of controlling the direction of the reproduced sound DS is the same as that shown in FIG. 29.
  • FIG. 38 is a diagram showing an example in which the audio / video content output system 1 is applied to the digital signage system DSS.
  • the digital signage system DSS is a system that transmits information using digital video equipment instead of conventional signboards and paper posters.
  • the tiling display 10 is such that the walls of buildings and passages project images.
  • a digital advertisement DC is generated for each viewer U.
  • the mapping processing unit 343 selects a plurality of display units 12 corresponding to the display positions of the digital advertisement DC as the mapping destination of the audio data AD of the digital advertisement DC for each digital advertisement DC as a sound source.
  • the mapping processing unit 343 generates and outputs a reproduced sound having high directivity from the display position of the digital advertisement DC toward the viewer U for each viewer U based on the position information of each viewer U.
  • the present technology can also have the following configurations.
  • a sound source extractor that extracts one or more audio data corresponding to different sound sources from audio content
  • a mapping processing unit that selects one or more display units to be mapped to the audio data for each audio data from one or more display units that have a sounding mechanism and can be combined.
  • the audio data is audio data for a multi-channel speaker extracted from the audio content of the channel-based audio.
  • the information processing apparatus according to (1) above, wherein the mapping processing unit selects one or more display units determined by the arrangement of the multi-channel speakers as the mapping destination.
  • the audio data is audio data of an object extracted from the audio content of object-based audio.
  • mapping processing unit selects one or more display units corresponding to the positions of the objects extracted from the audio content as the mapping destination.
  • Each audio data has a sound source position estimation unit that estimates the position where the sound source of the audio data is displayed.
  • mapping processing unit selects one or more display units corresponding to the positions where the sound sources are displayed as the mapping destination.
  • the mapping processing unit adjusts the sound pressure and phase of the sound output from the plurality of display units to be mapped for each display unit to control the position of the sound image in the depth direction (3) or (4).
  • the information processing device described in. (6) It has a band division unit that divides the audio data into frequency bands.
  • the mapping processing unit maps the waveform data in the high frequency range of the audio data to the one or more display units to be the mapping destination.
  • Information processing equipment (7)
  • the mapping processing unit selects one or more speakers corresponding to the positions of the sound sources of the audio data from the plurality of speakers arranged around the plurality of display units, and has the lowest frequency of the audio data.
  • the information processing apparatus according to (6) above, which maps the waveform data of the region and the waveform data of the mid region between the high region and the low region to the selected one or more speakers.
  • the mapping processing unit generates corrected audio data having a high-frequency sound pressure level equal to or higher than the threshold value from audio data whose high-frequency sound pressure level is smaller than the threshold value, and the high-frequency range of the corrected audio data.
  • the information processing apparatus according to (6) or (7) above which maps waveform data to the one or more display units to be mapped.
  • the timing at which the high-frequency waveform data is output is the same as the timing at which the mid-frequency and low-frequency waveform data are output, or the mid-frequency and low-frequency waveform data are output.
  • the information processing device according to (7) above, which is set earlier than the output timing.
  • (10) It has a position detection unit that detects the spatial arrangement of a plurality of the display units and assigns a logical number to each display unit based on the spatial arrangement.
  • the information processing apparatus according to any one of (1) to (9) above, wherein the mapping processing unit specifies the mapping destination based on the logical number.
  • (11) The information processing according to (10) above, wherein the position detection unit detects the spatial arrangement of the display unit based on the time when the sound output from the display unit is transmitted to microphones provided at a plurality of locations.
  • the mapping processing unit controls the directivity of the reproduced sound by adjusting the sound pressure and phase of the sound output from the plurality of display units to be the mapping destination for each display unit.
  • the information processing device according to any one.
  • the mapping processing unit adjusts the sound pressure and phase of the sound output from the plurality of display units to be mapped for each display unit to reduce reverberation, which is one of the above (1) to (12).
  • the information processing device described in. (14) Extract one or more audio data corresponding to different sound sources from the audio content, From one or more combinable display units having a sounding mechanism, one or more display units to be mapped to the audio data are selected for each audio data.
  • a method of information processing performed by a computer that has. Extract one or more audio data corresponding to different sound sources from the audio content, From one or more combinable display units having a sounding mechanism, one or more display units to be mapped to the audio data are selected for each audio data.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)

Abstract

情報処理装置(30)は、音源抽出部(341)とマッピング処理部(343)とを有する。音源抽出部(341)は、オーディオコンテンツ(AC)から異なる音源に対応する1以上のオーディオデータ(AD)を抽出する。マッピング処理部(343)は、発音機構を有する組み合わせ可能な1以上の表示ユニット(12)から、オーディオデータ(AD)ごとに、オーディオデータ(AD)のマッピング先となる1以上の表示ユニット(12)を選択する。

Description

情報処理装置、情報処理方法およびプログラム
 本発明は、情報処理装置、情報処理方法およびプログラムに関する。
 複数のスピーカを用いて音場と映像とを連動させる技術が知られている。例えば、特許文献1には、ファントム音像の位置を、ディスプレイに表示された音源の位置に連動して制御するシステムが開示されている。
特開2011-259298号公報
 ファントム音像方式では、正しく音像が再現される視聴位置の範囲が狭い。そのため、映像と音声との一体感が得られにくい。
 そこで、本開示では、映像と音声との一体感が得られやすい情報処理装置、情報処理方法およびプログラムを提案する。
 本開示によれば、オーディオコンテンツから異なる音源に対応する1以上のオーディオデータを抽出する音源抽出部と、発音機構を有する組み合わせ可能な1以上の表示ユニットから、オーディオデータごとに、前記オーディオデータのマッピング先となる1以上の表示ユニットを選択するマッピング処理部と、を有する情報処理装置が提供される。また、本開示によれば、前記情報処理装置の情報処理がコンピュータにより実行される情報処理方法、ならびに、前記情報処理装置の情報処理をコンピュータに実現させるプログラムが提供される。
オーディオ・ビデオコンテンツ出力システムの概略構成を示す図である。 制御システムの構成を示す図である。 オーディオデコーダの構成を示す図である。 タイリングディスプレイの概略構成を示す図である。 表示ユニットの構成および配置の一例を示す図である。 タイリングディスプレイおよびスピーカユニット再生周波数の説明図である。 表示ユニットの再生周波数と再生時の振動の大きさとの関係を示す図である。 表示ユニットの論理番号を説明する図である。 表示ユニットの論理番号を説明する図である。 表示ユニットの論理番号を説明する図である。 キャビネットと制御システムとの接続形態の一例を示す図である。 キャビネットと制御システムとの接続形態の一例を示す図である。 キャビネットと表示ユニットとの接続形態の一例を示す図である。 オーディオ・ビデオコンテンツ出力システムをシアターに適用した例を示す図である。 チャンネルベースオーディオのオーディオデータのマッピング処理の一例を示す図である。 オブジェクトベースオーディオのオーディオデータのマッピング処理の一例を示す図である。 オブジェクトベースオーディオのオーディオデータのマッピング処理の一例を示す図である。 チャンネルベースオーディオのオーディオデータのマッピング処理の他の例を示す図である。 奥行方向の音像の制御方法を説明する図である。 奥行方向の音像の制御方法を説明する図である。 奥行方向の音像の制御方法を説明する図である。 奥行方向の音像の制御方法を説明する図である。 音像の定位強調制御技術の他の例を示す図である。 スピーカユニットの配置の一例を示す図である。 表示ユニットの位置の検出方法の一例を示す図である。 表示ユニットの位置の検出に用いられるマイクの配置を示す図である。 表示ユニットの物理位置の検出方法の他の例を示す図である。 再生音の指向性制御を説明する図である。 視聴者ごとに異なる再生音を振り分ける例を示す図である。 制御システムが行う情報処理方法の一例を示すフローチャートである。 オーディオ・ビデオコンテンツ出力システムをシアターに適用した例を示す図である。 オーディオ・ビデオコンテンツ出力システムをシアターに適用した例を示す図である。 スピーカユニットの配置の一例を示す図である。 スピーカユニットの配置の他の例を示す図である。 空間特性の測定に用いられるマイクの配置を示す図である。 オーディオ・ビデオコンテンツ出力システムをテレプレゼンスシステムに適用した例を示す図である。 オブジェクト音の集音処理および再生処理の一例を示す図である。 オーディオ・ビデオコンテンツ出力システムをデジタルサイネージシステムに適用した例を示す図である。
 以下に、本開示の実施形態について図面に基づいて詳細に説明する。以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。
 なお、説明は以下の順序で行われる。
[1.オーディオ・ビデオコンテンツ出力システムの概要]
 [1-1.システムの構成例]
 [1-2.制御システムの構成]
 [1-3.表示ユニットの構成および配置形態]
 [1-4.表示ユニットの論理番号]
 [1-5.キャビネットと制御システムとの接続形態]
 [1-6.キャビネットと表示ユニットとの接続形態]
[2.第1実施形態]
 [2-1.システムのイメージ]
 [2-2.チャンネルベースオーディオのオーディオデータのマッピング処理]
 [2-3.オブジェクトベースオーディオのオーディオデータのマッピング処理]
 [2-4.DNNエンジンを用いた音源配置]
 [2-5.奥行方向の音像の制御]
 [2-6.音像の定位強調制御]
  [2-6-1.帯域の拡大による音像定位能の強化]
  [2-6-2.先行音効果による音像定位能の強化]
 [2-7.スピーカユニットの配置]
 [2-8.表示ユニットの位置の検出方法]
 [2-9.再生音の指向性制御]
 [2-10.情報処理方法]
 [2-11.効果]
[3.第2実施形態]
 [3-1.システムのイメージ]
 [3-2.スピーカユニットの配置]
 [3-3.内蔵マイクによる空間特性の測定および残響キャンセル]
[4.第3実施形態]
 [4-1.システムのイメージ]
 [4-2.オブジェクト音の集音および再生]
[5.第4実施形態]
[1.オーディオ・ビデオコンテンツ出力システムの概要]
[1-1.システムの構成例]
 図1は、オーディオ・ビデオコンテンツ出力システム1の概略構成を示す図である。
 オーディオ・ビデオコンテンツ出力システム1は、コンテンツデータCDからオーディオ・ビデオコンテンツを再生して視聴者Uに提示するシステムである。オーディオ・ビデオコンテンツ出力システム1は、タイリングディスプレイ10と、複数のスピーカユニット20と、制御システム30と、を有する。
 タイリングディスプレイ10は、タイル状に並べられた複数の表示ユニット12を有する。タイリングディスプレイ10は、マトリックス状に組み合わすことが可能な1以上の表示ユニット12により形成される単一の大型のスクリーンSCRを有する。表示ユニット12は、映像と音声の双方を再生する。タイリングディスプレイ10は、映像を表示する表示ユニット12から映像に関連する音を出力する。以下の説明では、鉛直方向をタイリングディスプレイ10の高さ方向と記載する。高さ方向と直交する表示ユニット12の並び方向をタイリングディスプレイ10の幅方向と記載する。高さ方向および幅方向と直交する方向をタイリングディスプレイ10の奥行方向と記載する。
 タイリングディスプレイ10の周囲には複数のスピーカユニット20が配置されている。図1の例では、複数のスピーカユニット20として、第1アレイスピーカ21と、第2アレイスピーカ22と、サブウーファ23と、が設けられている。第1アレイスピーカ21および第2アレイスピーカ22は、複数のスピーカASP(図15参照)がライン状に並ぶラインアレイスピーカである。第1アレイスピーカ21は、タイリングディスプレイ10の上辺に沿って配置されている。第2アレイスピーカ22は、タイリングディスプレイ10の下辺に沿って配置されている。複数のスピーカユニット20は、タイリングディスプレイ10とともに、表示映像に関連する音を出力する。
 制御システム30は、コンテンツデータCDから抽出された各種情報を処理する情報処理装置である。制御システム30は、コンテンツデータCDから異なる音源に対応する1以上のオーディオデータAD(図3参照)を抽出する。制御システム30は、再生環境となる複数の表示ユニット12および複数のスピーカユニット20の構成に関する再生環境情報352(図3参照)を取得する。制御システム30は、再生環境情報352に基づいてレンダリングを行い、各オーディオデータADを再生環境にマッピングする。
[1-2.制御システムの構成]
 図2は、制御システム30の構成を示す図である。
 制御システム30は、デマルチプレクサ31と、ビデオデコーダ32と、オーディオデコーダ33と、を有する。デマルチプレクサ31は、外部機器からコンテンツデータCDを取得する。コンテンツデータCDは、ビデオコンテンツVCに関する情報とオーディオコンテンツACに関する情報とを含む。デマルチプレクサ31は、コンテンツデータCDからビデオコンテンツVCとオーディオコンテンツACとを分離して生成する。
 ビデオデコーダ32は、ビデオコンテンツVCから映像出力信号を生成し、映像出力信号線VLを介して複数の表示ユニット12に出力する。オーディオデコーダ33は、オーディオコンテンツACから1以上のオーディオデータADを抽出する。オーディオデコーダ33は、各オーディオデータADを複数の表示ユニット12および複数のスピーカユニット20にマッピングする。オーディオデコーダ33は、マッピングに基づいて生成された音響出力信号を音響出力信号線ALを介して複数の表示ユニット12および複数のスピーカユニット20に出力する。
 制御システム30は、チャンネルベースオーディオ、オブジェクトベースオーディオおよびシーンベースオーディオの各種方式のオーディオコンテンツACを扱うことができる。制御システム30は、再生環境情報352に基づいてオーディオコンテンツACにレンダリング処理を行う。これにより、再生環境となる複数の表示ユニット12および複数のスピーカユニット20にオーディオデータADがマッピングされる。
 例えば、チャンネルベースオーディオのオーディオコンテンツACは、チャンネルごとに生成された1以上のオーディオデータADを含む。制御システム30は、サブウーファ23以外のチャンネルのオーディオデータADのマッピング先を、チャンネルの配置に基づいて、複数の表示ユニット12および複数のスピーカASPから選択する。
 オブジェクトベースオーディオのオーディオコンテンツACは、オブジェクト(素材音)ごとに生成された1以上のオーディオデータと、メタ情報と、を含む。メタ情報は、オブジェクトごとの、位置OB、音の広がり、および、各種エフェクトなどの情報を含む。制御システム30は、メタ情報に規定されたオブジェクトの位置OBに基づいて、オーディオデータADのマッピング先を複数の表示ユニット12および複数のスピーカASPから選択する。制御システム30は、オブジェクトの位置OBの移動に合わせて、オブジェクトのオーディオデータADのマッピング先となる表示ユニット12を変化させる。
 シーンベースオーディオは、視聴者Uを取り巻く空間全体の物理情報を360°の全天球空間に記録および再生する方式である。シーンベースオーディオのオーディオコンテンツACは、W(無指向成分)、X(前後の広がり成分)、Y(左右の広がり成分)およびZ(上下の広がり成分)のチャンネルに対応した4つのオーディオデータADを含む。制御システム30は、記録された物理情報に基づいて、オーディオデータADのマッピング先を複数の表示ユニット12および複数のスピーカASPから選択する。
 図3は、オーディオデコーダ33の構成を示す図である。
 オーディオデコーダ33は、演算部34と記憶部35とを有する。演算部34は、音源抽出部341と、帯域分割部342と、マッピング処理部343と、位置検出部344と、音源位置推定部345と、を有する。
 音源抽出部341は、オーディオコンテンツACから1以上のオーディオデータADを抽出する。例えば、オーディオデータADは音源ごとに生成されている。例えば、チャンネルベースオーディオのオーディオコンテンツACからは、音源となるチャンネルごとに生成された1以上のオーディオデータADが抽出される。オブジェクトベースオーディオのオーディオコンテンツACからは、音源となるオブジェクトごとに生成された1以上のオーディオデータADが抽出される。
 帯域分割部342は、オーディオデータADを周波数帯域ごとに分割する。帯域分割処理は、例えば、オーディオデータADの重低音成分をカットしてから行われる。帯域分割部342は、オーディオデータADを分割して得られた1以上の波形データPADをマッピング処理部343に出力する。帯域分割処理は、重低音以外の周波数成分を有するオーディオデータADに対して行われる。重低音のみのオーディオデータADは、音源抽出部341からマッピング処理部343を介してサブウーファ23にマッピングされる。
 マッピング処理部343は、帯域分割部342から出力された1以上の波形データPADを周波数帯域に応じてタイリングディスプレイ10(表示ユニット12)および複数のスピーカユニット20にマッピングする。
 マッピング処理部343は、複数の表示ユニット12および複数のスピーカASPから、オーディオデータADごとに、オーディオデータADのマッピング先となる1以上の表示ユニット12または1以上のスピーカASP、もしくは、1以上の表示ユニット12および1以上のスピーカASPを選択する。
 例えば、オーディオデータADがチャンネルベースオーディオのオーディオコンテンツACから抽出されたマルチチャンネルスピーカ用のオーディオデータである場合、マッピング処理部343は、マルチチャンネルスピーカの配置によって決まる1以上の表示ユニット12または1以上のスピーカASP、もしくは、1以上の表示ユニット12および1以上のスピーカASPをマッピング先として選択する。
 オーディオデータADがオブジェクトベースオーディオのオーディオコンテンツACから抽出されたオブジェクトのオーディオデータである場合、マッピング処理部343は、オーディオコンテンツACから抽出されたオブジェクトの位置OBに対応する1以上の表示ユニット12または1以上のスピーカASP、もしくは、1以上の表示ユニット12および1以上のスピーカASPをマッピング先として選択する。
 位置検出部344は、複数の表示ユニット12の空間配置を検出する。空間配置の検出は、表示ユニット12から出力された音または映像などの測定データMDに基づいて行われる。位置検出部344は、検出された空間配置に基づいて各表示ユニット12に論理番号LNを付与する。マッピング処理部343は、論理番号LNに基づいてマッピング先を特定する。
 音源位置推定部345は、オーディオデータADごとに、オーディオデータADの音源が表示された位置を推定する。音源位置推定部345は、音源の位置情報を持たないオーディオデータADが入力された場合に、その音源の映像内での位置を特定するために用いられる。マッピング処理部343は、音源の表示位置に対応する1以上の表示ユニット12をマッピング先として選択する。
 例えば、音源位置推定部345は、音源抽出部341において抽出された1以上のオーディオデータADとビデオコンテンツACとを分析モデル351に当てはめる。分析モデル351は、機械学習によって、オーディオデータADと映像内の音源の位置との関係を学習したDNN(Deep Neural Network)エンジンである。音源位置推定部345は、分析モデル351による分析結果に基づいて、音源が表示されたスクリーンSCR内の位置を推定する。
 記憶部35は、例えば、演算部34が実行するプログラム353と、分析モデル351と、再生環境情報352と、を記憶する。プログラム353は、制御システム30が担う情報処理をコンピュータに実行させるプログラムである。演算部34は、記憶部35に記憶されているプログラム353にしたがって各種の処理を行う。記憶部35は、演算部34の処理結果を一時的に記憶する作業領域として利用されてもよい。記憶部35は、例えば、半導体記憶媒体および磁気記憶媒体などの任意の非一過的な記憶媒体を含む。記憶部35は、例えば、光ディスク、光磁気ディスクまたはフラッシュメモリを含んで構成される。プログラム353は、例えば、コンピュータにより読み取り可能な非一過的な記憶媒体に記憶されている。
 演算部34は、例えば、プロセッサとメモリとで構成されるコンピュータである。演算部34のメモリには、RAM(Random Access Memory)およびROM(Read Only Memory)が含まれる。演算部34は、プログラム353を実行することにより、音源抽出部341、帯域分割部342、マッピング処理部343、位置検出部344および音源位置推定部345として機能する。
[1-3.表示ユニットの構成および配置形態]
 図4は、タイリングディスプレイ10の概略構成を示す図である。
 タイリングディスプレイ10は、タイル状に組み合わされた複数のキャビネット11を有する。キャビネット11には、複数の表示ユニット12がタイル状に並べられた状態で取り付けられている。表示ユニット12の外周部には額縁となる領域が存在しない。複数の表示ユニット12の画素は、画素ピッチを維持したまま、表示ユニット12の境界部をまたいで連続的に配置される。これにより、複数の表示ユニット12にまたがる単一のスクリーンSCRを有するタイリングディスプレイ10が形成されている。
 1つのキャビネット11に取り付けられる表示ユニット12の数および配置は任意である。タイリングディスプレイ10を構成するキャビネット11の数および配置も任意である。例えば、図4の例では、高さ方向に4列および幅方向に8列の合計32個のキャビネットが2次元的に配列されている。1つのキャビネット11には、高さ方向に2列および幅方向に3列の合計6つの表示ユニット12が取り付けられている。よって、タイリングディスプレイ10は、高さ方向に8列および幅方向に24列の合計192個の表示ユニット12によって構成されている。
 図5は、表示ユニット12の構成および配置の一例を示す図である。
 表示ユニット12は、表示パネル121と、アクチュエータ122と、制御回路123と、を有する。表示パネル121は、バックライトを備えない自発光式の薄型表示パネルである。本実施形態では、表示パネル121として、画素ごとに赤、緑および青の3種類のマイクロLED(Light Emitting Diode)が配置されたLEDパネルが用いられる。アクチュエータ122は、表示パネル121を振動させて表示パネル121の表面から音を出力させる。制御回路123は、画素を駆動する画素駆動回路、および、アクチュエータ122を駆動するアクチュエータ駆動回路を有する。アクチュエータ122およびアクチュエータ駆動回路は、表示ユニット12から音を発生させるための発音機構として機能する。
 キャビネット11は、筐体111と、接続基板112と、キャビネット基板113と、を有する。接続基板112は、制御回路123とキャビネット基板113とを接続する基板である。接続基板112は、筐体111に固定される。表示パネル121は接続基板112にねじ止めなどにより固定される。これにより、表示ユニット12はキャビネット11に支持される。キャビネット基板113は、制御システム30に接続される。制御システム30は、キャビネット基板113を介して制御回路123に映像出力信号および音響出力信号を出力する。
 図6は、タイリングディスプレイ10およびスピーカユニット20再生周波数の説明図である。図7は、表示ユニット12の再生周波数と再生時の振動の大きさとの関係を示す図である。
 タイリングディスプレイ10の表示映像に関連する音は、タイリングディスプレイ10(表示ユニット12)および複数のスピーカユニット20によって再生される。図6に示すように、再生周波数帯域は、高域HF、中域MF、低域LFおよび超低域VLF(重低音)の4つに分類される。高域HFは、第1周波数FH以上の周波数帯域である。中域MFは、第2周波数FM以上で且つ第1周波数FH未満の周波数帯域である。低域LFは、第3周波数FL以上で且つ第2周波数FM未満の周波数帯域である。超低域VLFは、第3周波数FL未満の周波数帯域である。例えば、第1周波数FHは1kHzである。第2周波数FMは500Hzである。第3周波数FLは100Hzである。
 帯域分割部342は、オーディオデータADを、高域HF、中域MFおよび低域LFの3つの波形データPADに分割する。超低域VLFの波形データは、帯域分割部342によって分割される。マッピング処理部343は、高域HF、中域MFおよび低域LFの波形データPADを表示ユニット12またはスピーカASPにマッピングする。
 音像の位置を感知させる音像定位能は、音の周波数によって変化する。周波数が高い音ほど音像定位能は高い。そのため、マッピング処理部343は、オーディオデータADのうち最も周波数の高い高域HFの波形データPADをマッピング先となる1以上の表示ユニット12にマッピングする。音像定位能が高い高域HFの音が表示ユニット12から出力されることで、音源の位置と音像の位置との間にずれが生じにくくなる。
 図7に示すように、表示ユニット12の再生周波数が低くなると、表示ユニット12の振動量が大きくなる。そのため、周波数の低い音を表示ユニット12で再生すると、振動による映像の揺れが視聴者Uに認識される可能性がある。そのため、マッピング処理部343は、中域MFおよび低域LF(中低域)の波形データPADを第1アレイスピーカ21および第2アレイスピーカ22にマッピングする。
 例えば、マッピング処理部343は、タイリングディスプレイ10の周囲に配置された複数のスピーカASPから、オーディオデータADの音源の位置に対応した1以上のスピーカASPを選択する。マッピング処理部343は、オーディオデータADのうち最も周波数の低い低域LFの波形データPAD、および、高域HFと低域LFとの間の中域MFの波形データPADを、選択された1以上のスピーカASPにマッピングする。
 表示ユニット12の振動の大きさは、再生される音の音圧(音量)によって変わる。音圧が大きければ振動は大きく、音圧が小さければ振動は小さい。そのため、マッピング処理部343は、中低域の波形データPADであっても、音圧が小さい場合には、中低域の波形データPADを表示ユニット12にマッピングすることができる。例えば、マッピング処理部343は、中低域の波形データPADのうち、音像定位能が大きい中域MFの波形データPADの振幅が予め設定された閾値以下である場合には、中域MFの波形データPADを表示ユニット12にマッピングする。これにより、表示ユニット12の振動による映像の揺れを抑制しつつ、音像定位能を高めることができる。
 音圧が大きい場合でも、振動させる表示ユニット12の数を増やせば、1枚当たりの表示ユニット12の振動の大きさを小さくすることができる。そのため、マッピング処理部343は、中域MFの波形データPADがマッピングされる表示ユニット12の数を高域HFの波形データPADがマッピングされる表示ユニット12の数よりも大きくする。この構成でも、表示ユニット12の振動による映像の揺れを抑制しつつ、音像定位能を高めることができる。
[1-4.表示ユニットの論理番号]
 図8ないし図10は、表示ユニット12の論理番号を説明する図である。
 図8に示すように、複数のキャビネット11には、各キャビネット11の位置に基づく論理番号L1が付されている。図8の例では、幅方向をX方向、高さ方向をY方向とするXY座標が設定されている。各キャビネット11には、それぞれのXY座標上の位置に基づいて論理番号L1が設定されている。例えば、第1行第1列に位置するキャビネット11には「CLX1CLY1」という論理番号L1が付されている。第2列第5行に位置するキャビネット11には「CLX5CLY2」という論理番号L1が付されている。
 図9に示すように、1つのキャビネット11には、複数の表示ユニット12が取り付けられている。同一のキャビネット11に取り付けられた複数の表示ユニット12には、キャビネット11内でのそれぞれの位置に基づいて論理番号L2が付されている。例えば、キャビネット11の第1行第1列に位置する表示ユニット12には「ULX1ULY1」という論理番号L2が付されている。キャビネット11の第2列第3行に位置する表示ユニット12には「ULX3ULY2」という論理番号L2が付されている。
 図10に示すように、各表示ユニット12には、表示ユニット12が属するキャビネット11の位置、および、キャビネット11内での表示ユニット12の位置に基づいて論理番号LNが付されている。例えば、第1行第1列のキャビネット11内の第1行第1列の表示ユニット12には「CLX1CLY1-ULX1ULY1」という論理番号LNが付されている。第1行第1列のキャビネット11内の第1行第2列の表示ユニット12には「CLX1CLY1-ULX2ULY1」という論理番号LNが付されている。
[1-5.キャビネットと制御システムとの接続形態]
 図11および図12は、キャビネット11と制御システム30との接続形態の一例を示す図である。
 複数のキャビネット11は、制御システム30に対してシリアル接続、パラレル接続またはこれらを複合した方式により接続されている。例えば、図11の例では、複数のキャビネット11は制御システム30に対してシリアル接続されている。隣り合う2つのキャビネット11は、キャビネット基板113どうしを接続することにより接続されている。複数のキャビネット11にはキャビネット接続番号CEk(kは1から32までの整数)が付されている。制御システム30からは、キャビネット接続番号にしたがって映像出力信号および音響出力信号が複数のキャビネット11に出力される。
 図12の例では、複数のキャビネット11は制御システム30に対してシリアル接続およびパラレル接続を複合した方式で接続されている。複数のキャビネット11にはキャビネット接続番号CEl,m(lは1から8までの整数。mは1から4までの整数)が付されている。制御システム30からは、キャビネット接続番号にしたがって映像出力信号および音響出力信号が複数のキャビネット11に出力される。
[1-6.キャビネットと表示ユニットとの接続形態]
 図13は、キャビネット11と表示ユニット12との接続形態の一例を示す図である。
 同一キャビネット11に支持される複数の表示ユニット12は、キャビネット基板113に対してパラレルに接続されている。複数の表示ユニット12は、キャビネット基板113を介して制御システム30と電気的に接続されている。複数の表示ユニット12には、ユニット接続番号UE1~UE6が付されている。キャビネット基板113からは、ユニット接続番号にしたがって映像出力信号および音響出力信号が複数の表示ユニット12に出力される。
[2.第1実施形態]
[2-1.システムのイメージ]
 図14は、オーディオ・ビデオコンテンツ出力システム1をシアターCT1に適用した例を示す図である。
 シアターCT1では、チャンネルベースオーディオのオーディオコンテンツACが用いられる。図14には、レフトチャンネルLCH、センターチャンネルCCHおよびライトチャンネルRCHのマルチチャンネルスピーカの位置が仮想的に示されている。
 サウンドスクリーンを用いたシアターでは、サウンドスクリーンの背面にマルチチャンネルスピーカが配置される。サウンドスクリーンには多数の微小なサウンドホールが設けられている。マルチチャンネルスピーカから出力された音声は、サウンドホールを介して視聴者側(サウンドスクリーンの前面側)に出力される。
 しかし、タイリングディスプレイ10には、複数の表示ユニット12が隙間なく敷き詰められている。そのため、サウンドホールのような穴をタイリングディスプレイ10に設けることはできない。タイリングディスプレイ10の周囲にマルチチャンネルスピーカを配置してファンタム音像を生成する方法も考えられるが、この方法では音像が正しく定位される視聴位置の範囲が狭い。
 そのため、シアターCT1では、レフトチャンネルLCH、センターチャンネルCCHおよびライトチャンネルRCHのオーディオデータADがタイリングディスプレイ10(表示ユニット12)にマッピングされる。マルチチャンネルスピーカ用のオーディオデータADがスクリーンSCR上で直接再生されることにより、サウンドスクリーンのような映像と音声との一体感が実現される。
[2-2.チャンネルベースオーディオのオーディオデータのマッピング処理]
 図15は、チャンネルベースオーディオのオーディオデータADのマッピング処理の一例を示す図である。
 演算部34には、チャンネルベースオーディオのオーディオコンテンツACが入力される。オーディオコンテンツACは、チャンネルごとに生成された1以上のオーディオデータADを含む。音源抽出部341は、オーディオコンテンツACから、音源となるチャンネルごとにオーディオデータADを抽出する。図15の例では、レフトチャンネルLCH、センターチャンネルCCH、ライトチャンネルRCHおよび低音増強用チャンネルLFEに対応する4つのオーディオデータADが抽出される。
 レフトチャンネルLCH、センターチャンネルCCHおよびライトチャンネルRCHのオーディオデータADには、高域HFから低域LFまでの周波数帯域の音が割り当てられている。低音増強用チャンネルLFEのオーディオデータADには、超低域VLFの周波数帯域の音が割り当てられている。音源抽出部341は、レフトチャンネルLCH、センターチャンネルCCHおよびライトチャンネルRCHのオーディオデータADを帯域分割部342に出力する。音源抽出部341は、低音増強用チャンネルLFEのオーディオデータADをサブウーファ23に出力する。
 帯域分割部342は、低音増強用チャンネルLFE以外のチャンネル(レフトチャンネルLCH、センターチャンネルCCHおよびライトチャンネルRCH)のオーディオデータADを周波数帯域ごとに分割する。例えば、帯域分割部342は、レフトチャンネルLCH、センターチャンネルCCHおよびライトチャンネルRCHの各オーディオデータADを高域HFの波形データPADと中低域の波形データとに分割し、マッピング処理部343に出力する。
 マッピング処理部343は、各チャンネルのオーディオデータADから抽出された高域HFおよび中低域の波形データPADを、マルチチャンネルスピーカの位置によって決まる1以上の表示ユニット12および1以上のスピーカASPにマッピングする。マルチチャンネルスピーカの位置は再生環境情報352から抽出される。再生環境情報352には、例えば、マルチチャンネルスピーカの中心部が位置するスクリーンSCR上の座標がマルチチャンネルスピーカの位置として規定されている。マッピング処理部343は、この座標を中心としたスクリーンSCR上の所定の領域を音源領域SRとして抽出する。
 例えば、マッピング処理部343は、再生環境情報352から、各チャンネルの音源領域SRとして、レフトチャンネルLCHの音源領域LSR、センターチャンネルCCHの音源領域CSRおよびライトチャンネルRCHの音源領域RSRを抽出する。図15の例では、濃いハッチングで示された領域(図15の例では、8つの表示ユニット12にまたがる領域)が音源領域SRとして抽出されている。
 マッピング処理部343は、レフトチャンネルLCHの高域HFの波形データPADを、レフトチャンネルLCHの音源領域LSRに配置された1以上の表示ユニット12にマッピングする。マッピング処理部343は、レフトチャンネルLCHの音源領域LSRと同じX軸上の位置に配置された1以上のスピーカASPにレフトチャンネルLCHの中低域の波形データPADをマッピングする。
 レフトチャンネルLCHの高域HFの音圧が大きい場合、音源領域LSRに配置された表示ユニット12のみで、設定された音圧を実現しようとすると、個々の表示ユニット12の振動が大きくなる。表示ユニット12の振動が大きくなると、映像の揺れが視聴者Uに認識される可能性がある。
 そのため、マッピング処理部343は、音源領域LSRの周囲にマッピング先を拡大する。マッピング処理部343は、音源領域LSRの周囲に配置される1以上の表示ユニット12(図15の例では、薄いハッチングで示された5つの表示ユニット12)にも波形データPADをマッピングする。マッピング処理部343は、高域HFの波形データPADのマッピング先の拡大に合わせて中低域の波形データPADのマッピング先も拡大する。これにより、高域HFの音像と中低域の音像との間にずれが生じにくくなる。
 センターチャンネルCCHおよびライトチャンネルRCHの波形データPADについても同様の方法でマッピングが行われる。
 すなわち、マッピング処理部343は、センターチャンネルCCHの高域HFの波形データPADを、センターチャンネルCCHの音源領域CSRに配置された1以上の表示ユニット12にマッピングする。マッピング処理部343は、音源領域CSRと同じX軸上の位置に配置された1以上のスピーカASPにセンターチャンネルCCHの中低域の波形データPADをマッピングする。レフトチャンネルLCHの高域HFの音圧が大きい場合には、マッピング処理部343は、音源領域CSRの周囲にマッピング先を拡大する。マッピング処理部343は、高域HFの波形データPADのマッピング先の拡大に合わせて中低域の波形データPADのマッピング先も拡大する。
 マッピング処理部343は、ライトチャンネルRCHの高域HFの波形データPADを、ライトチャンネルRCHの音源領域RSRに配置された1以上の表示ユニット12にマッピングする。マッピング処理部343は、音源領域RSRと同じX軸上の位置に配置された1以上のスピーカASPにライトチャンネルRCHの中低域の波形データPADをマッピングする。ライトチャンネルRCHの高域HFの音圧が大きい場合には、マッピング処理部343は、音源領域RSRの周囲にマッピング先を拡大する。マッピング処理部343は、高域HFの波形データPADのマッピング先の拡大に合わせて中低域の波形データPADのマッピング先も拡大する。
 マッピング処理部343は、各表示ユニット12にマッピングされた波形データPADをシリアライズ処理する。マッピング処理部343は、シリアライズ処理によって生成された表示ユニット12用の音響出力信号をタイリングディスプレイ10に出力する。マッピング処理部343は、各スピーカASPにマッピングされた波形データPADに基づいてスピーカASP用の音響出力信号を生成し、第1アレイスピーカ21および第2アレイスピーカ22に出力する。
[2-3.オブジェクトベースオーディオのオーディオデータのマッピング処理]
 図16および図17は、オブジェクトベースオーディオのオーディオデータADのマッピング処理の一例を示す図である。
 図16に示すように、演算部34には、オブジェクトベースオーディオのオーディオコンテンツACが入力される。オーディオコンテンツACは、オブジェクトごとに生成された1以上のオーディオデータADを含む。音源抽出部341は、オーディオコンテンツACから、音源となるオブジェクトごとにオーディオデータADを抽出する。
 図16の例では、キャラクタが指をはじく映像がスクリーンSCRに表示されている。オーディオコンテンツACには、指をはじく音(オブジェクト)のオーディオデータAD、および、指をはじく位置(オブジェクトの位置OB)を示すメタ情報が含まれている。図16の例では、オブジェクトの数は1つであるが、オブジェクトの数は1つに限られない。図17に示すように、複数の位置OBに、異なるオブジェクトが配置されてもよい。この場合、音源抽出部341は、オーディオコンテンツACから、異なるオブジェクトに対応した複数のオーディオデータADを抽出する。
 帯域分割部342は、低域LF以上のオーディオデータADの波形データを周波数帯域ごとに分割する。例えば、帯域分割部342は、オブジェクトのオーディオデータADを高域HFの波形データPADと中低域の波形データとに分割し、マッピング処理部343に出力する。
 マッピング処理部343は、オブジェクトのオーディオデータADから抽出された高域HFおよび中低域の波形データPADを、オブジェクトの位置OBに対応する1以上の表示ユニット12および1以上のスピーカASPにマッピングする。オブジェクトの位置OBは、例えば、予め設定された視聴位置からの水平角、仰角および距離の情報としてメタ情報に規定されている。マッピング処理部343は、位置OBを中心としたスクリーンSCR上の所定の領域を音源領域OSRとして抽出する。図16の例では、音源領域OSRは、濃いハッチングで示された表示ユニット12ひとつぶんの大きさを持った領域として抽出されている。
 なお、図16には、音源領域SRとして、各チャンネルの音源領域LSR,CSR,RSRと、オブジェクトの音源領域OSRと、が同時に存在した状態が示されている。
 マッピング処理部343は、オブジェクトの高域HFの波形データPADを、オブジェクトの音源領域SRに配置された1以上の表示ユニット12にマッピングする。マッピング処理部343は、オブジェクトの音源領域OSRと同じX軸上の位置に配置された1以上のスピーカASPにオブジェクトの中低域の波形データPADをマッピングする。
 オブジェクトの高域HFの音圧が大きい場合には、マッピング処理部343は、音源領域SRの周囲(図16の例では、薄いハッチングで示された3つの表示ユニット12)にマッピング先を拡大する。マッピング処理部343は、高域HFの波形データPADのマッピング先の拡大に合わせて中低域の波形データPADのマッピング先も拡大する。
 マッピング処理部343は、各表示ユニット12にマッピングされた波形データPADをシリアライズ処理する。マッピング処理部343は、シリアライズ処理によって生成された表示ユニット12用の音響出力信号をタイリングディスプレイ10に出力する。マッピング処理部343は、各スピーカASPにマッピングされた波形データPADをシリアライズ処理する。マッピング処理部343は、シリアライズ処理によって生成されたスピーカASP用の音響出力信号を第1アレイスピーカ21および第2アレイスピーカ22に出力する。
[2-4.DNNエンジンを用いた音源配置]
 図18は、チャンネルベースオーディオのオーディオデータADのマッピング処理の他の例を示す図である。
 演算部34には、チャンネルベースオーディオのオーディオコンテンツACが入力される。音源抽出部341は、音源分離技術を用いて、オーディオコンテンツACから、音源SSごとにオーディオデータADを抽出する。音源分離技術としては、ブラインド信号源分離などの公知の音源分離技術が用いられる。図18の例では、スクリーンSCRに映る個々のキャラクタが音源SSとなる。音源抽出部341は、音源SSごとに、音源SSとなるキャラクタの話し声をオーディオデータADとして抽出する。なお、図18の例では、音源SSとして、音源SS1、音源SS2および音源SS3が抽出される。しかし、音源SSの数Nはこれに限られない。音源SSの数Nは、1以上の任意の数とすることができる。
 音源SSの位置は音源位置推定部345によって推定される。音源位置推定部345は、例えば、DNNエンジンを用いた分析モデル351に、音源抽出部341で抽出された1以上のオーディオデータADとビデオコンテンツACとを当てはめる。音源抽出部341は、分析モデル351による分析結果に基づいて、音源SSごとに、音源SSが表示されたスクリーンSCR上の位置を音源領域SRとして推定する。
 マッピング処理部343は、音源SSごとに、音源SSのオーディオデータADを音源SSの位置に配置された1以上の表示ユニット12にマッピングする。マッピング処理部343は、各音源SSのオーディオデータADをマッピング結果に基づいてシリアライズ処理する。マッピング処理部343は、シリアライズ処理によって得られた音響出力信号をタイリングディスプレイ10に出力する。
 例えば、図18の例では、音源SS1の音源領域SR1は、4つの表示ユニット12にまたがる領域として推定される。音源SS1の話し声が小さい場合には、マッピング処理部343は、音源領域SR1が配置された4つの表示ユニット12を音源SS1のオーディオデータADのマッピング先として選択する。
 音源SS2の音源領域SR2は、2つの表示ユニット12にまたがる領域として推定される。音源SS2の話し声が大きい場合には、マッピング処理部343は、音源領域SR2が配置された2つの表示ユニット12(濃いハッチングが施された表示ユニット12)と、その周囲に配置された5つの表示ユニット12(薄いハッチングが施された表示ユニット12)を音源SS2のオーディオデータADのマッピング先として選択する。
 音源SS3の音源領域SR3は、2つの表示ユニット12にまたがる領域として推定される。音源SS3の話し声が小さい場合には、マッピング処理部343は、音源領域SR3が配置された2つの表示ユニット12を音源SS3のオーディオデータADのマッピング先として選択する。
[2-5.奥行方向の音像の制御]
 図19ないし図22は、奥行方向の音像の制御方法を説明する図である。
 奥行方向の音像の位置は、Monopole Synthesis、Wave Field Synthesis(WFS)、SpectralDivision MethodおよびMode Matchingなどの公知の信号処理によって制御される。
 例えば、図20および図21に示すように、基準面RF上に複数の点音源PSが配列された状態を仮定する。複数の点音源PSの音圧および位相が適切に制御されると、基準面RFから離れた位置に焦点FSを持つ音場が生成される。音像は焦点FSに定位する。図20に示すように、焦点FSが基準面RFよりも奥に移動すると、視聴者Uから遠ざかるような音像が生成される。図21に示すように、焦点FSが基準面RFの手前に移動すると、視聴者Uに近づくような音像が生成される。
 点音源PSは、個々の表示ユニット12またはスピーカASPに相当する。基準面RFは、タイリングディスプレイ10のスクリーンSCRまたはアレイスピーカ(第1アレイスピーカ21、第2アレイスピーカ22)の音声出力面に相当する。
 図19に示すように、マッピング処理部343は、FIR(Finite Impulse Response)フィルタを用いて、マッピング先となる表示ユニット12およびスピーカASPから出力される音の音圧および位相を制御する。
 波形データPADに、FIRフィルタを用いたデジタルフィルタ処理を施す点以外は図16に示したマッピング処理と同様である。すなわち、音源抽出部341で抽出されたオーディオデータADが帯域分割部342によって高域HFの波形データPADと中低域の波形データPADとに分割される。高域HFの波形データPADは、オブジェクトの位置OBに対応するn個(nは2以上の整数)の表示ユニット12にマッピングされる。中低域の波形データPADは、オブジェクトの位置OBに対応するm個(mは2以上の整数)のスピーカASPにマッピングされる。
 マッピング処理部343は、高域HFの波形データPADに、FIRフィルタを用いたデジタルフィルタ処理を施す。マッピング処理部343は、デジタルフィルタ処理によって、高域HFの波形データPADのマッピング先となるn個の表示ユニット12から出力される音の音圧および位相を表示ユニット12ごとに調整する。マッピング処理部343は、表示ユニット12ごとに表示ユニット12から出力される音の音圧および位相を調整することで、奥行方向の音像の位置を制御する。
 マッピング処理部343は、中低域の波形データPADに、FIRフィルタを用いたデジタルフィルタ処理を施す。マッピング処理部343は、デジタルフィルタ処理によって、中低域の波形データPADのマッピング先となるm個のスピーカASPから出力される音の音圧および位相をスピーカASPごとに調整する。マッピング処理部343は、スピーカASPごとにスピーカASPから出力される音の音圧および位相を調整することで、奥行方向の音像の位置を制御する。
[2-6.音像の定位強調制御]
[2-6-1.帯域の拡大による音像定位能の強化]
 図22は、音像の定位強調制御技術の一例を示す図である。
 図22には、高域HFの音圧レベルが小さいオーディオデータADが示されている。オーディオデータADを帯域分割すると、音圧の低い高域HFの波形データPADが生成される。音像定位能は、高域HFの波形データPADの音圧によって変化する。そのため、マッピング処理部343は、高域補間技術を用いて、高域HFの音圧レベルが閾値THよりも小さいオーディオデータADから、高域HFの音圧レベルが閾値TH以上の補正オーディオデータCADを生成する。マッピング処理部343は、補正オーディオデータCADの高域HFの波形データPADをマッピング先となる1以上の表示ユニット12にマッピングする。
[2-6-2.先行音効果による音像定位能の強化]
 図23は、音像の定位強調制御技術の他の例を示す図である。
 図23にはオーディオデータADの周波数帯域と位相との関係が示されている。位相は、音の出力タイミングに関係する。オリジナルのオーディオデータADでは、音像定位能が低い中低域および超低域VLFの音と、音像定位能が高い高域HFの音と、が同時に出力される。
 そのため、マッピング処理部343は、高域HFの波形データPADが出力されるタイミングを、中低域および超低域VLFの波形データPADが出力されるタイミングと同時、または、中低域および超低域VLFの波形データPADが出力されるタイミングよりも早くする。先に高域HFの音が出力されることで、視聴者Uは音像の位置を速やかに認識することができる。中低域および超低域VLFの音が出力されている期間は、視聴者Uは、先行音となる高域HFの音によって定位された位置に音像を認識することができる。
[2-7.スピーカユニットの配置]
 図24は、スピーカユニット20の配置の一例を示す図である。
 タイリングディスプレイ10の最上段のキャビネット11には、第1アレイスピーカ21を収容するエンクロージャが取り付けられている。タイリングディスプレイ10の最下段のキャビネット11には、第2アレイスピーカ22を収容するエンクロージャが取り付けられている。エンクロージャには、音導部SSGとなるスリットが設けられている。スリットの幅はスピーカASPの直径よりも狭い。スピーカASPから出力された音は、音導部SSGを介してエンクロージャの外部に放出される。音導部SSGは、タイリングディスプレイ10の縁に近接して配置される。タイリングディスプレイ10の縁ぎりぎりのところから音が出力されるため、高い音像定位能が得られる。
 なお、拡大図に示すように、スピーカASPはキャビネット11に収容されてもよい。この場合、タイリングディスプレイ10の最上段および最下段には、音導部SSGを有するスピーカ内蔵型の端部専用キャビネットが配置される。
[2-8.表示ユニットの位置の検出方法]
 図25は、表示ユニット12の位置の検出方法の一例を示す図である。図26は、表示ユニット12の位置の検出に用いられるマイクMCの配置を示す図である。
 図25に示すように、タイリングディスプレイ10の4つの角部には、マイク付き表示ユニット12Mが配置されている。図26に示すように、マイクMCはマイク付き表示ユニット12Mの裏面に取り付けられている。マイク付き表示ユニット12Mの1つの角部には、音導部CSGとなる切り欠きが形成されている。マイクMCは、切り欠きが形成されたマイク付き表示ユニット12Mの角部の近傍に配置されている。
 位置検出部344は、表示ユニット12から出力された音(インパルス)が、複数個所に設けられたマイクMCにそれぞれ伝達する時間に基づいて、表示ユニット12の空間的な位置を検出する。位置検出部344は、各表示ユニット12の空間配置に基づいて各表示ユニット12に論理番号LNを付与する。
 例えば、位置検出部344は、キャビネット11ごとに、1つの表示ユニット12を選択し、選択された表示ユニット12から音(インパルス)を出力させる。位置検出部344は、各マイクMCから、音の伝達時間に関する測定データMDを取得する。位置検出部344は、各マイクMCから取得した測定データMDに基づいて、キャビネット11の空間的な位置を検出する。
 キャビネット11内での表示ユニット12の配列は再生環境情報352に規定されている。位置検出部344は、再生環境情報352に規定された配列の情報に基づいて、キャビネット11と、キャビネット11に保持される各表示ユニット12と、の相対位置を検出する。位置検出部344は、キャビネット11の位置と、キャビネット11に対する各表示ユニット12の相対位置と、に基づいて、各表示ユニット12の位置を検出する。
 タイリングディスプレイ10の前面に音を反射する障害物があると、正確な測定が行えない可能性がある。その場合、全ての表示ユニット12または一定の密度で配置された複数の表示ユニット12にマイクMCを設置することで、測定精度が高まる。なお、マイクMCは、表示ユニット12から出力される音の音響補正ために用いることもできる。
 図27は、表示ユニット12の位置の検出方法の他の例を示す図である。
 図27の例では、複数のマイクMCはタイリングディスプレイ10の外部に配置される。マイクMCの位置は異なるが、位置検出部344は、図25で説明したのと同様の方法で各表示ユニット12の位置を検出することができる。図27の例では、マイクMCに音を伝達するための音導部CSGをタイリングディスプレイ10に設ける必要がない。そのため、音導部CSGに起因した画質の低下が生じにくい。
[2-9.再生音の指向性制御]
 図28は、再生音DSの指向性制御を説明する図である。
 再生音DSの指向性は、配列された複数の点音源の波面の干渉を利用して制御される。例えば、高さ方向に並ぶ複数の点音源の波面の干渉によって高さ方向の再生音DSの指向性が制御される。幅方向に並ぶ複数の点音源の波面の干渉によって幅方向の再生音DSの指向性が制御される。点音源は、個々の表示ユニット12またはスピーカASPに相当する。例えば、マッピング処理部343は、FIRフィルタを用いて、マッピング先となる個々の表示ユニット12およびスピーカASPから出力される音の音圧および位相を個別に制御する。
 波形データPADに、FIRフィルタを用いたデジタルフィルタ処理を施す点以外は図15に示したマッピング処理と同様である。すなわち、音源抽出部341で抽出されたオーディオデータADが帯域分割部342によって高域HFの波形データPADと中低域の波形データPADとに分割される。高域HFの波形データPADは、マルチチャンネルスピーカの位置に対応するn個(nは2以上の整数)の表示ユニット12にマッピングされる。中低域の波形データPADは、マルチチャンネルスピーカの位置に対応するm個(mは2以上の整数)のスピーカASPにマッピングされる。
 マッピング処理部343は、高域HFの波形データPADに、FIRフィルタを用いたデジタルフィルタ処理を施す。マッピング処理部343は、デジタルフィルタ処理によって、高域HFの波形データPADのマッピング先となるn個の表示ユニット12から出力される音の音圧および位相を表示ユニット12ごとに調整する。マッピング処理部343は、表示ユニット12ごとに表示ユニット12から出力される音の音圧および位相を調整することで、視聴領域VA内での再生音DSの指向性および音圧の均一性などの音響特性を制御する。
 マッピング処理部343は、中低域の波形データPADに、FIRフィルタを用いたデジタルフィルタ処理を施す。マッピング処理部343は、デジタルフィルタ処理によって、中低域の波形データPADのマッピング先となるm個のスピーカASPから出力される音の音圧および位相をスピーカASPごとに調整する。マッピング処理部343は、スピーカASPごとにスピーカASPから出力される音の音圧および位相を調整することで、視聴領域VA内での再生音DSの指向性および音圧の均一性などの音響特性を制御する。
 図29は、視聴者Uごとに異なる再生音DSを振り分ける例を示す図である。
 タイリングディスプレイ10の近傍には1以上のカメラCAが設置されている。カメラCAは、タイリングディスプレイ10の前方を撮影可能な広角カメラである。図29の例では、タイリングディスプレイ10の視聴領域VA全体をカバーするために、タイリングディスプレイ10の幅方向の両側に1つずつカメラCAが設置されている。
 制御システム30は、各カメラCAから取得した撮影データに基づいて、視聴領域VAに存在する視聴者Uの数および各視聴者Uの位置を検出する。タイリングディスプレイ10には、視聴者Uごとに設定された複数の音源SSの映像がスクリーンSCRの異なる位置に表示される。マッピング処理部343は、音源SSごとに、音源SSの表示位置に対応する複数の表示ユニット12を音源SSのオーディオデータADのマッピング先として選択する。マッピング処理部343は、各視聴者Uの位置情報に基づいて、視聴者Uごとに、音源SSから視聴者Uに向けた高い指向性を有する再生音DSを生成し出力する。
[2-10.情報処理方法]
 図30は、制御システム30が行う情報処理方法の一例を示すフローチャートである。
 ステップS1において、音源抽出部341は、オーディオコンテンツACから1以上のオーディオデータADを抽出する。オーディオコンテンツACとしては、チャンネルベースオーディオ、オブジェクトベースオーディオおよびシーンベースオーディオなどの各種方式のオーディオコンテンツが利用可能である。例えば、音源抽出部341は、オーディオコンテンツACから、音源となるチャンネルごと又はオブジェクトごとに生成された1以上のオーディオデータADを抽出する。
 ステップS2において、マッピング処理部343は、オーディオデータADごとに、オーディオデータADのマッピング先となる1以上の表示ユニット12および1以上のスピーカASPを選択する。例えば、マッピング処理部343は、マルチチャンネルスピーカの位置またはオブジェクトの位置OBに対応したスクリーンSCR上の音源領域SRを検出する。マッピング処理部343は、音源領域SRに対応する1以上の表示ユニット12および1以上のスピーカASPをマッピング先として選択する。マッピング処理部343は、オーディオデータADの音圧、音像の奥行方向の位置および再生音DSの指向性などに基づいて、マッピング先を音源領域SRの外側に広げる。
 ステップS3において、マッピング処理部343は、オーディオデータADをマッピング先となる1以上の表示ユニット12および1以上のスピーカASPに出力し、音源に関連付けられた位置(音源領域SR、または、音源領域SRから奥行方向にずれた位置)に音像を定位させる。
[2-11.効果]
 制御システム30は、音源抽出部341とマッピング処理部343とを有する。音源抽出部341は、オーディオコンテンツACから異なる音源に対応する1以上のオーディオデータADを抽出する。マッピング処理部343は、発音機構を有する組み合わせ可能な1以上の表示ユニット12から、オーディオデータADごとに、オーディオデータADのマッピング先となる1以上の表示ユニット12を選択する。本実施形態の情報処理方法は、上述した制御システム30の処理がコンピュータにより実行される。本実施形態のプログラムは、上述した制御システム30の処理をコンピュータに実現させる。
 この構成によれば、オーディオデータADは表示ユニット12で直接再生される。そのため、映像と音声との一体感が得られやすい。
 オーディオデータADは、チャンネルベースオーディオのオーディオコンテンツACから抽出されたマルチチャンネルスピーカ用のオーディオデータである。マッピング処理部343は、マルチチャンネルスピーカの配置によって決まる1以上の表示ユニット12をマッピング先として選択する。
 この構成によれば、あたかもマルチチャンネルスピーカがスクリーンSCRの前面に配置されたような、迫力のあるサウンドが得られる。
 オーディオデータADは、オブジェクトベースオーディオのオーディオコンテンツACから抽出されたオブジェクトのオーディオデータである。マッピング処理部343は、オーディオコンテンツACから抽出されたオブジェクトの位置OBに対応する1以上の表示ユニット12をマッピング先として選択する。
 この構成によれば、オブジェクトの位置OBにオブジェクトの音像を定位させることができる。
 制御システム30は、音源位置推定部345を有する。音源位置推定部345は、オーディオデータADごとに、オーディオデータADの音源SSが表示された位置を推定する。マッピング処理部343は、音源SSが表示された位置に対応する1以上の表示ユニット12をマッピング先として選択する。
 この構成によれば、音源SSが表示された位置に音源SSの音像を定位させることができる。
 マッピング処理部は、マッピング先となる複数の表示ユニット12から出力される音の音圧および位相を表示ユニット12ごとに調整して奥行方向の音像の位置を制御する。
 この構成によれば、奥行方向の音像の位置が容易に制御される。
 制御システム30は、帯域分割部342を有する。帯域分割部342は、オーディオデータADを周波数帯域ごとに分割する。マッピング処理部343は、オーディオデータADのうち最も周波数の高い高域HFの波形データPADをマッピング先となる1以上の表示ユニット12にマッピングする。
 この構成によれば、音像定位能が高い高域HFの音が表示ユニット12から出力される。そのため、音源の位置と音像の位置との間にずれが生じにくい。
 マッピング処理部343は、複数の表示ユニット12の周囲に配置された複数のスピーカASPから、オーディオデータADの音源の位置に対応した1以上のスピーカASPを選択する。マッピング処理部343は、オーディオデータADのうち最も周波数の低い低域LFの波形データPAD、および、高域HFと低域LFとの間の中域MFの波形データPADを、選択された1以上のスピーカASPにマッピングする。
 この構成によれば、高域HFに比べて音像定位能が低い中域MFおよび低域LFの音がスピーカASPから出力される。表示ユニット12から出力される音が高域HFの音だけであるため、音が出力される際の表示ユニット12の振動が最小限に抑えられる。
 マッピング処理部343は、高域HFの音圧レベルが閾値よりも小さいオーディオデータADから、高域HFの音圧レベルが閾値以上の補正オーディオデータCADを生成する。マッピング処理部343は、補正オーディオデータCADの高域HFの波形データPADをマッピング先となる1以上の表示ユニット12にマッピングする。
 この構成によれば、高域HFの音圧レベルの低いオーディオデータADについても、高い音像定位能が得られる。
 マッピング処理部343は、高域HFの波形データPADが出力されるタイミングを、中域MFおよび低域LFの波形データPADが出力されるタイミングと同時、または、中域MFおよび低域LFの波形データPADが出力されるタイミングよりも早くする。
 この構成によれば、音像定位能の高い高域HFの波形データPADの出力タイミングが早まる。そのため、先行音効果により、オーディオデータADの音像定位能が高まる。
 制御システム30は、位置検出部344を有する。位置検出部344は、複数の表示ユニット12の空間配置を検出する。位置検出部344は、検出された空間配置に基づいて各表示ユニット12に論理番号LNを付与する。マッピング処理部343は、論理番号LNに基づいてマッピング先を特定する。
 この構成によれば、表示ユニット12のアドレッシングを自動で行うことができる。
 位置検出部344は、表示ユニット12から出力された音が、複数個所に設けられたマイクMCにそれぞれ伝達する時間に基づいて、表示ユニット12の空間配置を検出する。
 この構成によれば、表示ユニット12の空間配置を容易に検出することができる。
 マッピング処理部は、マッピング先となる複数の表示ユニット12から出力される音の音圧および位相を表示ユニット12ごとに調整して再生音DSの指向性を制御する。
 この構成によれば、各表示ユニット12から出力される波面の干渉によって再生音DSの指向性が制御される。
[3.第2実施形態]
[3-1.システムのイメージ]
 図31および図32は、オーディオ・ビデオコンテンツ出力システム1をシアターCT2に適用した例を示す図である。
 図31に示すように、シアターCT2は、全天球映像を表示可能なシアターである。図32に示すように、タイリングディスプレイ10は客席STの正面、左右面、天井面および床面を全て覆うように配置されている。全方位に設置された多数の表示ユニット12によって、あらゆる方向から音が再生される。
[3-2.スピーカユニットの配置]
 図33は、スピーカユニット20の配置の一例を示す図である。
 シアターCT2では、多数の表示ユニット12が全方位に隙間なく配置されている。そのため、スピーカユニット20の設置スペースが限られる。例えば、第1実施形態では、タイリングディスプレイ10の上辺および下辺に沿って中低域用のスピーカユニット20(第1アレイスピーカ21、第2アレイスピーカ22)が設置された。しかし、シアターCT2では、タイリングディスプレイ10が全方位に設置されているため、第1アレイスピーカ21および第2アレイスピーカ22を設置するスペースがない。
 そのため、シアターCT2では、中低域用のスピーカユニット20として、ウーファ24が客席STのシートの肩部分に設置されている。超低域VLF用のスピーカユニット20であるサブウーファ23は、シートの下に設置されている。音像定位能の高い高域HFの音は、表示ユニット12から出力される。スピーカユニット20がシートに設置されることにより、スピーカユニット20から視聴者Uまでの距離が短くなる。そのため、余計な音圧を再生する必要がない。よって、シアターCT2内の不要な残響が抑えられる。
 図34は、スピーカユニット20の配置の他の例を示す図である。
 図34の例では、中低域用のスピーカユニット20として、開放型のイヤホンEPが視聴者Uの耳UEに装着されている。イヤホンEPは、耳穴部分に開口部OPを有する。視聴者Uは、開口部OPを介して、表示ユニット12から出力された音を視聴することができる。スピーカユニット20は、必ずしもイヤホンEPである必要はなく、視聴者Uに装着可能なウェアラブルな音響デバイス(開放型ヘッドホン、肩掛けスピーカなど)であればよい。図34の例でも、スピーカユニット20から視聴者Uまでの距離が短くなる。そのため、余計な音圧を再生する必要がなくなり、不要な残響が抑えられる。
[3-3.内蔵マイクによる空間特性の測定および残響キャンセル]
 図35は、空間特性の測定に用いられるマイクMCの配置を示す図である。
 タイリングディスプレイ10は全方位を覆うため、相互に向かい合うスクリーン部分の間で音の反射が起こり、定位感が低減する可能性がある。そのため、制御システム30は、予め測定されたシアターCT2の空間特性に基づいて各表示ユニット12の音圧および位相を制御し、残響を低減する。マイクMCの配置は、図26において説明したものと同様である。図26の例では、特定の表示ユニット12のみにマイクMCが設置されたが、本実施形態では、全ての表示ユニット12にマイクMCが設置される。
 シアターCT2の空間特性は、各表示ユニット12に内蔵されたマイクMCを用いて測定される。例えば、シアターCT2では、表示ユニット12ごとに、表示ユニット12の出力音の他の全ての表示ユニット(マイクMC)に対する出力特性が測定される。この測定によって、波面の伝達特性(周波数と音圧を変数とする伝達特性、周波数と位相(伝達時間を含む)を変数とする伝達特性)が測定される。伝達特性に基づいてシアターCT2の空間特性が検出される。シアターCT2の空間特性は再生環境情報352として記憶部35に記憶される。
 マッピング処理部343は、シアターCT2の空間特性に基づいて、マッピング先となる複数の表示ユニット12から出力される音の音圧および位相を表示ユニット12ごとに調整し、残響を低減する。例えば、マッピング先として選択された表示ユニット12をマッピング先ユニットとし、マッピング先として選択されない表示ユニット12を非マッピング先ユニットとする。マッピング処理部343は、マッピング先ユニットから出力された音が非マッピング先ユニットに到達して反射した際に、非マッピング先ユニットにおいて1次反射波面と逆相の音を再生させる。これにより、非マッピング先ユニットでの反射による残響が低減される。
[4.第3実施形態]
[4-1.システムのイメージ]
 図36は、オーディオ・ビデオコンテンツ出力システム1をテレプレゼンスシステムTPに適用した例を示す図である。
 テレプレゼンスシステムTPは、遠隔地を結んで双方向の映像および音声による会議を行うシステムである。壁一面が遠隔地の映像を映し出すタイリングディスプレイ10となっている。第1遠隔地の視聴者U1の映像および音声は、第2遠隔地にあるタイリングディスプレイ10Bから視聴者U2に出力される。第2遠隔地の視聴者U2の映像および音声は、第1遠隔地にあるタイリングディスプレイ10Aから視聴者U1に出力される。
[4-2.オブジェクト音の集音および再生]
 図37は、オブジェクト音の集音処理および再生処理の一例を示す図である。
 タイリングディスプレイ10の近傍には1以上のカメラCAが設置されている。カメラCAは、タイリングディスプレイ10の前方を撮影可能な広角カメラである。図37の例では、タイリングディスプレイ10の視聴領域VA全体をカバーするために、タイリングディスプレイ10の幅方向の両側に1つずつカメラCAが設置されている。
 第1遠隔地では、各カメラCAの撮影データに基づいて、視聴領域VAに存在する視聴者U1の数、各視聴者U1の位置および各視聴者U1の口の動きなどが検出される。視聴者U1の音声は入力音ISとして、各表示ユニット12に内蔵された高指向性マイクで集音される。制御システム30Aは、集音データとカメラCAの撮像データとをDNNに入力して音源分離を行い、音源となる視聴者U1の音声をオブジェクトとするオーディオコンテンツACを生成する。制御システム30Aは、カメラCAの撮像データを用いてビデオコンテンツと、入力音ISを用いて生成されたオーディオコンテンツACと、を用いてコンテンツデータCDを生成する。
 第2遠隔地の制御システム30Bは、第1遠隔地の制御システム30Aで生成されたコンテンツデータCDをネットワークNWを介して取得する。制御システム30Bは、コンテンツデータCDからオーディオコンテンツACとビデオコンテンツVCとを分離する。制御システム30Bは、ビデオコンテンツVCを用いて第1遠隔地の視聴者U1の映像をタイリングディスプレイ10Bで再生する。制御システム30Bは、オーディオコンテンツACを用いて第1遠隔地の視聴者U1の音声をタイリングディスプレイ10Bおよび複数のスピーカユニット20Bで再生する。オーディオコンテンツACの再生処理は、図16に示したものと同様である。
 制御システム30Bは、オーディオコンテンツACを再生する際に、各カメラCAから取得した撮影データに基づいて、視聴領域VAに存在する視聴者U2の数および各視聴者U2の位置を検出する。タイリングディスプレイ10Bには、オブジェクトの音源となる第1遠隔地の視聴者U1の映像がスクリーンSCRに表示されている。マッピング処理部343は、オブジェクト(視聴者U1の音声)の位置に応じた複数の表示ユニット12をオブジェクトのオーディオデータADのマッピング先として選択する。マッピング処理部343は、各視聴者U2の位置情報に基づいて、視聴者U2ごとに、マッピング先となる複数の表示ユニット12から視聴者U2に向けた高い指向性を有する再生音DSを生成し出力する。再生音DSの指向の制御方法は、図29に示したものと同様である。
[5.第4実施形態]
 図38は、オーディオ・ビデオコンテンツ出力システム1をデジタルサイネージシステムDSSに適用した例を示す図である。
 デジタルサイネージシステムDSSは、従来の看板や紙のポスターに代え、デジタル映像機器を使って情報を発信するシステムである。建物や通路の壁などが映像を映し出すタイリングディスプレイ10となっている。デジタルサイネージシステムDSSでは、視聴者Uごとにデジタル広告DCが生成される。タイリングディスプレイ10には、視聴者Uごとに生成された複数のデジタル広告DCがスクリーンSCR上の異なる位置に表示される。マッピング処理部343は、音源となるデジタル広告DCごとに、デジタル広告DCの表示位置に対応する複数の表示ユニット12をデジタル広告DCのオーディオデータADのマッピング先として選択する。マッピング処理部343は、各視聴者Uの位置情報に基づいて、視聴者Uごとに、デジタル広告DCの表示位置から視聴者Uに向けた高い指向性を有する再生音を生成し出力する。
 なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。
[付記]
 なお、本技術は以下のような構成も取ることができる。
(1)
 オーディオコンテンツから異なる音源に対応する1以上のオーディオデータを抽出する音源抽出部と、
 発音機構を有する組み合わせ可能な1以上の表示ユニットから、オーディオデータごとに、前記オーディオデータのマッピング先となる1以上の表示ユニットを選択するマッピング処理部と、
 を有する情報処理装置。
(2)
 前記オーディオデータは、チャンネルベースオーディオの前記オーディオコンテンツから抽出されたマルチチャンネルスピーカ用のオーディオデータであり、
 前記マッピング処理部は、前記マルチチャンネルスピーカの配置によって決まる1以上の表示ユニットを前記マッピング先として選択する
 上記(1)に記載の情報処理装置。
(3)
 前記オーディオデータは、オブジェクトベースオーディオの前記オーディオコンテンツから抽出されたオブジェクトのオーディオデータであり、
 前記マッピング処理部は、前記オーディオコンテンツから抽出された前記オブジェクトの位置に対応する1以上の表示ユニットを前記マッピング先として選択する
 上記(1)に記載の情報処理装置。
(4)
 前記オーディオデータごとに、前記オーディオデータの音源が表示された位置を推定する音源位置推定部を有し、
 前記マッピング処理部は、前記音源が表示された位置に対応する1以上の表示ユニットを前記マッピング先として選択する
 上記(1)に記載の情報処理装置。
(5)
 前記マッピング処理部は、前記マッピング先となる複数の表示ユニットから出力される音の音圧および位相を表示ユニットごとに調整して奥行方向の音像の位置を制御する
 上記(3)または(4)に記載の情報処理装置。
(6)
 前記オーディオデータを周波数帯域ごとに分割する帯域分割部を有し、
 前記マッピング処理部は、前記オーディオデータのうち最も周波数の高い高域の波形データを前記マッピング先となる前記1以上の表示ユニットにマッピングする
 上記(1)ないし(5)のいずれか1つに記載の情報処理装置。
(7)
 前記マッピング処理部は、複数の前記表示ユニットの周囲に配置された複数のスピーカから、前記オーディオデータの音源の位置に対応した1以上のスピーカを選択し、前記オーディオデータのうち最も周波数の低い低域の波形データ、および、前記高域と前記低域との間の中域の波形データを、選択された前記1以上のスピーカにマッピングする
 上記(6)に記載の情報処理装置。
(8)
 前記マッピング処理部は、前記高域の音圧レベルが閾値よりも小さいオーディオデータから、前記高域の音圧レベルが前記閾値以上の補正オーディオデータを生成し、前記補正オーディオデータの前記高域の波形データを前記マッピング先となる前記1以上の表示ユニットにマッピングする
 上記(6)または(7)に記載の情報処理装置。
(9)
 前記マッピング処理部は、前記高域の波形データが出力されるタイミングを、前記中域および前記低域の波形データが出力されるタイミングと同時、または、前記中域および前記低域の波形データが出力されるタイミングよりも早くする
 上記(7)に記載の情報処理装置。
(10)
 複数の前記表示ユニットの空間配置を検出し、前記空間配置に基づいて各表示ユニットに論理番号を付与する位置検出部を有し、
 前記マッピング処理部は、前記論理番号に基づいて前記マッピング先を特定する
 上記(1)ないし(9)のいずれか1つに記載の情報処理装置。
(11)
 前記位置検出部は、前記表示ユニットから出力された音が、複数個所に設けられたマイクにそれぞれ伝達する時間に基づいて、前記表示ユニットの空間配置を検出する
 上記(10)に記載の情報処理装置。
(12)
 前記マッピング処理部は、前記マッピング先となる複数の表示ユニットから出力される音の音圧および位相を表示ユニットごとに調整して再生音の指向性を制御する
 上記(1)ないし(11)のいずれか1つに記載の情報処理装置。
(13)
 前記マッピング処理部は、前記マッピング先となる複数の表示ユニットから出力される音の音圧および位相を表示ユニットごとに調整して残響を低減する
 上記(1)ないし(12)のいずれか1つに記載の情報処理装置。
(14)
 オーディオコンテンツから異なる音源に対応する1以上のオーディオデータを抽出し、
 発音機構を有する組み合わせ可能な1以上の表示ユニットから、オーディオデータごとに、前記オーディオデータのマッピング先となる1以上の表示ユニットを選択する、
 ことを有する、コンピュータにより実行される情報処理方法。
(15)
 オーディオコンテンツから異なる音源に対応する1以上のオーディオデータを抽出し、
 発音機構を有する組み合わせ可能な1以上の表示ユニットから、オーディオデータごとに、前記オーディオデータのマッピング先となる1以上の表示ユニットを選択する、
 ことをコンピュータに実現させるプログラム。
12 表示ユニット
30 制御システム(情報処理装置)
341 音源抽出部
342 帯域分割部
343 マッピング処理部
344 位置検出部
345 音源位置推定部
AC オーディオコンテンツ
AD オーディオデータ

Claims (15)

  1.  オーディオコンテンツから異なる音源に対応する1以上のオーディオデータを抽出する音源抽出部と、
     発音機構を有する組み合わせ可能な1以上の表示ユニットから、オーディオデータごとに、前記オーディオデータのマッピング先となる1以上の表示ユニットを選択するマッピング処理部と、
     を有する情報処理装置。
  2.  前記オーディオデータは、チャンネルベースオーディオの前記オーディオコンテンツから抽出されたマルチチャンネルスピーカ用のオーディオデータであり、
     前記マッピング処理部は、前記マルチチャンネルスピーカの配置によって決まる1以上の表示ユニットを前記マッピング先として選択する
     請求項1に記載の情報処理装置。
  3.  前記オーディオデータは、オブジェクトベースオーディオの前記オーディオコンテンツから抽出されたオブジェクトのオーディオデータであり、
     前記マッピング処理部は、前記オーディオコンテンツから抽出された前記オブジェクトの位置に対応する1以上の表示ユニットを前記マッピング先として選択する
     請求項1に記載の情報処理装置。
  4.  前記オーディオデータごとに、前記オーディオデータの音源が表示された位置を推定する音源位置推定部を有し、
     前記マッピング処理部は、前記音源が表示された位置に対応する1以上の表示ユニットを前記マッピング先として選択する
     請求項1に記載の情報処理装置。
  5.  前記マッピング処理部は、前記マッピング先となる複数の表示ユニットから出力される音の音圧および位相を表示ユニットごとに調整して奥行方向の音像の位置を制御する
     請求項3に記載の情報処理装置。
  6.  前記オーディオデータを周波数帯域ごとに分割する帯域分割部を有し、
     前記マッピング処理部は、前記オーディオデータのうち最も周波数の高い高域の波形データを前記マッピング先となる前記1以上の表示ユニットにマッピングする
     請求項1に記載の情報処理装置。
  7.  前記マッピング処理部は、複数の前記表示ユニットの周囲に配置された複数のスピーカから、前記オーディオデータの音源の位置に対応した1以上のスピーカを選択し、前記オーディオデータのうち最も周波数の低い低域の波形データ、および、前記高域と前記低域との間の中域の波形データを、選択された前記1以上のスピーカにマッピングする
     請求項6に記載の情報処理装置。
  8.  前記マッピング処理部は、前記高域の音圧レベルが閾値よりも小さいオーディオデータから、前記高域の音圧レベルが前記閾値以上の補正オーディオデータを生成し、前記補正オーディオデータの前記高域の波形データを前記マッピング先となる前記1以上の表示ユニットにマッピングする
     請求項6に記載の情報処理装置。
  9.  前記マッピング処理部は、前記高域の波形データが出力されるタイミングを、前記中域および前記低域の波形データが出力されるタイミングと同時、または、前記中域および前記低域の波形データが出力されるタイミングよりも早くする
     請求項7に記載の情報処理装置。
  10.  複数の前記表示ユニットの空間配置を検出し、前記空間配置に基づいて各表示ユニットに論理番号を付与する位置検出部を有し、
     前記マッピング処理部は、前記論理番号に基づいて前記マッピング先を特定する
     請求項1に記載の情報処理装置。
  11.  前記位置検出部は、前記表示ユニットから出力された音が、複数個所に設けられたマイクにそれぞれ伝達する時間に基づいて、前記表示ユニットの空間配置を検出する
     請求項10に記載の情報処理装置。
  12.  前記マッピング処理部は、前記マッピング先となる複数の表示ユニットから出力される音の音圧および位相を表示ユニットごとに調整して再生音の指向性を制御する
     請求項1に記載の情報処理装置。
  13.  前記マッピング処理部は、前記マッピング先となる複数の表示ユニットから出力される音の音圧および位相を表示ユニットごとに調整して残響を低減する
     請求項1に記載の情報処理装置。
  14.  オーディオコンテンツから異なる音源に対応する1以上のオーディオデータを抽出し、
     発音機構を有する組み合わせ可能な1以上の表示ユニットから、オーディオデータごとに、前記オーディオデータのマッピング先となる1以上の表示ユニットを選択する、
     ことを有する、コンピュータにより実行される情報処理方法。
  15.  オーディオコンテンツから異なる音源に対応する1以上のオーディオデータを抽出し、
     発音機構を有する組み合わせ可能な1以上の表示ユニットから、オーディオデータごとに、前記オーディオデータのマッピング先となる1以上の表示ユニットを選択する、
     ことをコンピュータに実現させるプログラム。
PCT/JP2021/030340 2020-09-25 2021-08-19 情報処理装置、情報処理方法およびプログラム WO2022064905A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202180063083.7A CN116210234A (zh) 2020-09-25 2021-08-19 信息处理设备、信息处理方法和程序
US18/026,880 US20230336934A1 (en) 2020-09-25 2021-08-19 Information processing apparatus, information processing method, and information processing program
EP21872037.3A EP4221262A4 (en) 2020-09-25 2021-08-19 INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD AND PROGRAM
JP2022551197A JPWO2022064905A1 (ja) 2020-09-25 2021-08-19

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020161522 2020-09-25
JP2020-161522 2020-09-25

Publications (1)

Publication Number Publication Date
WO2022064905A1 true WO2022064905A1 (ja) 2022-03-31

Family

ID=80845103

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/030340 WO2022064905A1 (ja) 2020-09-25 2021-08-19 情報処理装置、情報処理方法およびプログラム

Country Status (5)

Country Link
US (1) US20230336934A1 (ja)
EP (1) EP4221262A4 (ja)
JP (1) JPWO2022064905A1 (ja)
CN (1) CN116210234A (ja)
WO (1) WO2022064905A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024025803A1 (en) * 2022-07-27 2024-02-01 Dolby Laboratories Licensing Corporation Spatial audio rendering adaptive to signal level and loudspeaker playback limit thresholds

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008011475A (ja) * 2006-06-30 2008-01-17 Sharp Corp 表示装置およびその音出力方法
JP2008167032A (ja) * 2006-12-27 2008-07-17 Canon Inc 映像音声出力装置及び映像音声出力方法
JP2011259298A (ja) 2010-06-10 2011-12-22 Hitachi Consumer Electronics Co Ltd 3次元音声出力装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008011475A (ja) * 2006-06-30 2008-01-17 Sharp Corp 表示装置およびその音出力方法
JP2008167032A (ja) * 2006-12-27 2008-07-17 Canon Inc 映像音声出力装置及び映像音声出力方法
JP2011259298A (ja) 2010-06-10 2011-12-22 Hitachi Consumer Electronics Co Ltd 3次元音声出力装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024025803A1 (en) * 2022-07-27 2024-02-01 Dolby Laboratories Licensing Corporation Spatial audio rendering adaptive to signal level and loudspeaker playback limit thresholds

Also Published As

Publication number Publication date
EP4221262A4 (en) 2024-05-29
EP4221262A1 (en) 2023-08-02
CN116210234A (zh) 2023-06-02
JPWO2022064905A1 (ja) 2022-03-31
US20230336934A1 (en) 2023-10-19

Similar Documents

Publication Publication Date Title
CN104869335B (zh) 用于局域化感知音频的技术
CN107889033B (zh) 用于波束形成扬声器阵列的空间音频呈现
AU713105B2 (en) A four dimensional acoustical audio system
US20170026750A1 (en) Reflected sound rendering using downward firing drivers
JP2000092578A (ja) スピーカ装置
WO2020047932A1 (zh) 一种数字影院还音系统及其控制方法
WO2022064905A1 (ja) 情報処理装置、情報処理方法およびプログラム
Maempel The virtual concert hall—A research tool for the experimental investigation of audiovisual room perception
KR20180134647A (ko) 표시장치 및 그 구동 방법
KR20120103046A (ko) 음향 출력 장치
KR20180018464A (ko) 입체 영상 재생 방법, 입체 음향 재생 방법, 입체 영상 재생 시스템 및 입체 음향 재생 시스템
JP3282202B2 (ja) 収録装置、再生装置、収録方法および再生方法、および、信号処理装置
KR101488936B1 (ko) 프론트 채널 사운드가 발생되는 미들 레이어 위치 조정 장치 및 그 방법
JP3104348B2 (ja) 収録装置、再生装置、収録方法および再生方法、および、信号処理装置
US11546715B2 (en) Systems and methods for generating video-adapted surround-sound
JP3104349B2 (ja) 収録装置、再生装置、収録方法および再生方法、および、信号処理装置
KR20190034372A (ko) 3차원 입체음향 효과 재생 시스템 및 사용자 음성 인터랙션을 통한 가상현실 체험이 가능한 360도 구체형 상영관
JPH06303693A (ja) マイクロフォン装置
WO2009104117A1 (en) Light controlled audio transducer

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21872037

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022551197

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2021872037

Country of ref document: EP

Effective date: 20230425