WO2021220821A1 - 制御装置、制御装置の処理方法、および、プログラム - Google Patents

制御装置、制御装置の処理方法、および、プログラム Download PDF

Info

Publication number
WO2021220821A1
WO2021220821A1 PCT/JP2021/015526 JP2021015526W WO2021220821A1 WO 2021220821 A1 WO2021220821 A1 WO 2021220821A1 JP 2021015526 W JP2021015526 W JP 2021015526W WO 2021220821 A1 WO2021220821 A1 WO 2021220821A1
Authority
WO
WIPO (PCT)
Prior art keywords
speakers
display
cursor
control device
user
Prior art date
Application number
PCT/JP2021/015526
Other languages
English (en)
French (fr)
Inventor
宏正 大橋
直也 田中
亮 廣田
Original Assignee
パナソニックIpマネジメント株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニックIpマネジメント株式会社 filed Critical パナソニックIpマネジメント株式会社
Priority to JP2022517626A priority Critical patent/JP7457893B2/ja
Publication of WO2021220821A1 publication Critical patent/WO2021220821A1/ja
Priority to US17/967,471 priority patent/US20230037195A1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/301Automatic calibration of stereophonic sound system, e.g. with test microphone
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • G09G5/08Cursor circuits
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • G09G5/36Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators characterised by the display of a graphic pattern, e.g. using an all-points-addressable [APA] memory
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • G09G5/36Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators characterised by the display of a graphic pattern, e.g. using an all-points-addressable [APA] memory
    • G09G5/37Details of the operation on graphic patterns
    • G09G5/377Details of the operation on graphic patterns for mixing or overlaying two or more graphic patterns
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/74Projection arrangements for image reproduction, e.g. using eidophor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Definitions

  • This disclosure relates to a control device, a processing method of the control device, and a program.
  • Stereophonic sound is a concept that refers to all acoustic processing for allowing the viewer to perceive a three-dimensional sound image with a sense of direction.
  • the system can give the user a sense of reality by presenting a relatively wide range of images surrounding the user while presenting stereophonic sound.
  • the drive sound source signal supplied to each speaker is determined based on the positions of a plurality of speakers arranged in the space.
  • a virtual speaker virtually configured by a plurality of speakers may be used.
  • Patent Document 1 there is a technique for effectively outputting video and sound in a system using a plurality of display devices.
  • the viewing position is a position where the user is expected to view stereophonic sound.
  • the present disclosure provides a control device or the like that more easily acquires position information regarding a plurality of speakers used for presenting sound.
  • the control device in the present disclosure is a control device that controls the sound presented to the user by a plurality of speakers arranged in the space.
  • the control device acquires image data to be displayed on the display surface, and uses a conversion process using shape information indicating the shape of the display surface to generate display image data from the acquired image data. Then, using the display image data generated by the generation unit, the display control unit for displaying the display image on the display surface and the display image displayed are superposed with a cursor, and the cursor is visually recognized.
  • the reception unit that receives the position designation of the plurality of speakers on the display image from the user, and the image data before conversion and the image data for display after conversion related to the conversion process.
  • the position of the cursor in the space is calculated from the designation of the position by the user, and the calculated position of the cursor is specified as a position related to the plurality of speakers.
  • the control device of the present disclosure can more easily acquire position information regarding a plurality of speakers used for presenting sound.
  • FIG. 1 is a schematic view showing a presentation system and a control device according to an embodiment.
  • FIG. 2A is a block diagram showing a functional configuration of the control device according to the embodiment.
  • FIG. 2B is a block diagram showing a detailed functional configuration of the control device according to the embodiment.
  • FIG. 3 is a conceptual diagram showing the acquisition of sound in space by a microphone according to the embodiment.
  • FIG. 4 is a conceptual diagram showing a method of calculating the sound output by the speaker according to the embodiment.
  • FIG. 5 is a conceptual diagram showing an image before conversion by the control device according to the embodiment.
  • FIG. 6 is a conceptual diagram showing a state in which a display surface on which an image converted by the control device according to the embodiment is displayed is viewed from a viewing position.
  • FIG. 1 is a schematic view showing a presentation system and a control device according to an embodiment.
  • FIG. 2A is a block diagram showing a functional configuration of the control device according to the embodiment.
  • FIG. 2B is
  • FIG. 7 is a schematic view showing a method of displaying a cursor and acquiring a speaker position by the control device according to the embodiment.
  • FIG. 8 is a schematic view showing a delay and gain adjustment image displayed by the control device according to the embodiment.
  • FIG. 9 is a flow chart showing a processing method executed by the control device according to the embodiment.
  • FIG. 10 is an explanatory diagram showing a first method of calculating the position of the cursor according to the embodiment in space.
  • FIG. 11 is an explanatory diagram showing a second method of calculating the position of the cursor in space according to the embodiment.
  • FIG. 12 is an explanatory diagram of a virtual speaker according to a modified example of the embodiment.
  • FIG. 13 is a schematic view showing a method of acquiring the position of the virtual speaker by the control device according to the modified example of the embodiment.
  • control device In the present embodiment, a control device and the like for more easily acquiring position information regarding a plurality of speakers used for presenting sound will be described. Specifically, the control device of the present embodiment is a control device that more easily acquires information on the positions of a plurality of speakers used for presenting sound.
  • position information may be simply referred to as "position”.
  • FIG. 1 is a schematic diagram showing a presentation system 1 and a control device 10 according to the present embodiment.
  • the presentation system 1 is a system that presents sound in a space and displays an image in the space (for example, a wall surface of the space) so that a user in the space can view the stereophonic sound and the stereoscopic image. ..
  • the presentation system 1 includes a control device 10, a display device 20, and a plurality of speakers 31 to 38 (also referred to as a plurality of speakers 31 and the like).
  • a plurality of speakers 31 and the like may be included in the configuration of the control device 10.
  • the control device 10 is a control device that controls the display of an image by the display device 20 and the output of sound by a plurality of speakers 31 and the like.
  • the control device 10 presents a stereoscopic image to the user by acquiring image data to be displayed on the display device 20, performing appropriate conversion on the acquired image data, and then displaying the image data on the display device 20. Further, the control device 10 acquires an input sound source signal used for generating a drive sound source signal supplied to a plurality of speakers 31 and the like, performs appropriate conversion on the acquired input sound source signal, and then performs a plurality of input sound source signals. By supplying the speaker 31 or the like, stereophonic sound is presented to the user.
  • control device 10 acquires information on the positions of a plurality of speakers 31 and the like. These processes will be described in detail later.
  • the control device 10 is communicably connected to the display device 20 and controls the display of an image by the display device 20 via communication. Further, the control device 10 is connected to a plurality of speakers 31 and the like, and the sound signal to be output by the plurality of speakers 31 and the like is transmitted through this connection.
  • the connection between the control device 10 and the display device 20 and the connection between the control device 10 and the plurality of speakers 31 and the like may be wired or wireless. Note that, in FIG. 1, regarding the connection between the control device 10 and the plurality of speakers 31, only the connection between the control device 10 and the speaker 34 is shown, and the illustration of other connections is omitted.
  • the display device 20 is a display device that allows the user to visually recognize the image by displaying the image on the display surface.
  • the image displayed by the display device 20 is an image based on the image data sent from the control device 10.
  • the image data sent from the control device 10 is created so as to be recognized by the user as a scene around the user. The user can recognize the image displayed around himself as a scene around him by actually looking in that direction.
  • the display device 20 displays, for example, an image in all directions as seen by the user. Since the image is displayed in all directions as seen by the user, the user can visually recognize the image in all directions including the left-right direction and the upward direction by changing the viewing direction as well as the front direction.
  • the image displayed by the display device 20 does not necessarily have to cover all directions as seen by the user.
  • the image displayed by the display device 20 may be displayed in a plurality of directions as seen by the user, specifically, the image displayed in the front direction and the left-right direction for the user. It may be.
  • the display device 20 is, for example, a projection device (projector) that projects an image on a wall surface of a space in which a user exists, that is, a wall surface surrounding the user, and this case will be described as an example.
  • a projection device projector
  • the image may be projected on the wall surface by the plurality of display devices 20.
  • the wall surface corresponds to the display surface.
  • the display device 20 may be a plurality of stationary display devices arranged so as to surround the user.
  • the display panel included in the display corresponds to the display surface.
  • the plurality of speakers 31 and the like are a group of speakers arranged at a plurality of positions surrounding the user.
  • the speaker 31 is arranged forward and in the upper right direction when viewed from a position (also referred to as a viewing position) where the user is expected to view the speaker.
  • the speakers 32, 33, and 34 are arranged in the front and lower right directions, the front and lower left directions, and the front and upper left directions, respectively, when viewed from the viewing position.
  • the speakers 35, 36, 37 and 38 are arranged in the rear and upper right direction, the rear and lower right direction, the rear and lower left direction, and the rear and upper left direction, respectively, when viewed from the viewing position.
  • the sound output by the plurality of speakers 31 and the like is a sound based on the drive sound source signal sent from the control device 10.
  • the drive sound source signal sent from the control device 10 is created so that the listener perceives a three-dimensional sound image, in other words, the user recognizes that the drive sound source signal is output from sound sources at various positions. It was created as follows. As a result, the user can hear not only the sound arriving from the position where the plurality of speakers 31 and the like actually exist, but also the sound arriving at the user from all directions.
  • the information on the positions of a plurality of speakers 31 and the like may be determined by design, but when the viewing position changes, the information on the positions of the plurality of speakers 31 and the like as seen from the viewing position also changes.
  • the azimuth or elevation angle changes when the speaker position is physically changed, and when there are a large number of physical speakers or virtual speakers, it is complicated to perform physical measurement, or measurement.
  • control device 10 functions of the control device 10 will be described in detail.
  • FIG. 2A is a block diagram showing a functional configuration of the control device 10 according to the present embodiment.
  • FIG. 2B is a block diagram showing a detailed functional configuration of the control device 10 according to the present embodiment. The functional configuration of the control device 10 according to the present embodiment will be described with reference to FIGS. 2A and 2B.
  • the control device 10 includes a video input unit 5, a sound source input unit 6, a storage unit 11, a generation unit 12, a display control unit 13, a reception unit 14, and a specific unit 15. , A sound control unit 16 is provided.
  • the above-mentioned functional unit included in the control device 10 can be realized by executing a program by a CPU (Central Processing Unit) (not shown) included in the control device 10 using a memory, except for cases described individually.
  • a CPU Central Processing Unit
  • the video input unit 5 is a functional unit that acquires image data for display on the display surface.
  • the image data acquired by the video input unit 5 is, for example, omnidirectional image data acquired by a camera that acquires an omnidirectional image (a so-called omnidirectional camera or a 360-degree camera).
  • the video input unit 5 provides the acquired image data to the generation unit 12.
  • the video input unit 5 may be realized as a function of the generation unit 12.
  • the sound source input unit 6 is a functional unit that acquires acoustic sound data to be output by the presentation system 1.
  • the sound source input unit 6 provides the acquired sound data to the sound control unit 16.
  • the sound source input unit 6 may be realized as one function of the sound control unit 16.
  • the storage unit 11 is a storage device that stores shape information indicating the shape of the display surface.
  • the shape information may also include information indicating a viewing position.
  • the shape information includes geometry information indicating the shape of the display surface, and specifically includes information capable of specifying the position, dimension, or angle of the surface constituting the display surface.
  • the display surface is, for example, the wall surface of the space where the user is, and the shape information is information indicating the shape of the wall surface.
  • the space in which the user is located is the space of the rectangular parallelepiped shown in FIG. 1, it includes information for specifying the position, dimension, or angle of each surface constituting the rectangular parallelepiped.
  • the storage unit 11 is a memory or a storage.
  • the generation unit 12 is a functional unit that generates display image data by performing a conversion process using shape information on the image data acquired by the video input unit 5.
  • the conversion process using the shape information is a conversion process that makes the image displayed on the display surface look the same as when the user looks at the surroundings from the camera when viewed from the viewing position. Includes geometry transformation using shape information.
  • the generation unit 12 generates display image data for display on the display device 20.
  • the generation unit 12 When there are a plurality of display devices 20, the generation unit 12 generates display image data to be displayed on each of the plurality of display devices 20.
  • the display control unit 13 is a functional unit that controls the display of the display image data generated by the generation unit 12 on the display surface.
  • the display control unit 13 acquires the display image data generated by the generation unit 12 and provides it to the display device 20.
  • the display control unit 13 is connected to the display device 20 according to a standard for video transmission, and transmits image data for display to the display device 20 through this connection.
  • the standard for video transmission is, for example, the HDMI (registered trademark) (High-Definition Multimedia Interface) standard or the VGA (analog RGB) standard.
  • the reception unit 14 is a functional unit that superimposes a cursor on the displayed display image and receives a designation of positions related to a plurality of speakers 31 and the like on the display image from a user who visually recognizes the cursor.
  • the reception unit 14 receives an operation by the user via a user interface device such as a mouse or a touch panel. Then, the reception unit 14 controls to superimpose the cursor on the display image displayed on the display surface and display it according to the operation.
  • the control may be a control for the display control unit 13 or a control for the generation unit 12.
  • the reception unit 14 may control the display control unit 13 to execute a process of superimposing the cursor on the display image data acquired by the display control unit 13.
  • the reception unit 14 controls the generation unit 12 to execute a process of superimposing the cursor on the image data acquired by the generation unit 12 or the display image data after the generation unit 12 has performed the conversion process. You may do.
  • the reception unit 14 controls to move the cursor superimposed on the display surface in the direction corresponding to the operated direction according to the operation. ..
  • the shape of the cursor may be any shape, for example, a circle, a rectangle, an arrow shape, or the shape of another figure.
  • the reception unit 14 receives the designation of the positions of the plurality of speakers 31 and the like by acquiring the positions of the cursors when the cursor is placed on each of the plurality of speakers 31 and the like based on the operation by the user. Specifically, the reception unit 14 receives designation of coordinate values (X, Y) indicating the position of the cursor on the display image.
  • the specific unit 15 is a functional unit that specifies the positions of a plurality of speakers 31 and the like in the space. Specifically, the specific unit 15 refers to the positional correspondence between the image data before conversion and the display image data after conversion related to the conversion process, so that the specific unit 15 can move from the position specified by the user to the cursor space.
  • the position in is calculated, and the calculated position is specified as a position in the space relating to the plurality of speakers 31 and the like.
  • the position information in the omnidirectional image includes, for example, the azimuth angle and the elevation angle when viewed from the viewing position.
  • the specific unit 15 calculates the position in the space of the plurality of speakers 31 and the like as the position in the space related to the plurality of speakers 31 and the like.
  • the sound control unit 16 is a functional unit that controls the output of sound from a plurality of speakers 31 and the like.
  • the sound control unit 16 processes the sound data acquired by the sound source input unit 6 using the position information in the space of the plurality of speakers 31 and the like to generate drive sound source signals supplied to each of the plurality of speakers 31 and the like. calculate.
  • the sound control unit 16 informs the user by the plurality of speakers 31 or the like based on the positions in the space of the plurality of speakers 31 or the like specified by the specific unit 15.
  • the drive sound source signals supplied to each of the plurality of speakers 31 and the like are calculated and controlled to be output by the plurality of speakers 31 and the like.
  • the expression of outputting sound is a concept including the case where the volume of the sound to be output is zero. This is because it is considered that the sound whose volume is zero is output even when the sound is not actually output.
  • the above-mentioned functional portion of the sound control unit 16 corresponds to the first sound control unit.
  • the sound control unit 16 includes a format conversion unit 161, a signal processing unit 162, and a drive sound source generation unit 163.
  • the format conversion unit 161 is a functional unit that executes conversion processing from an A format signal (described later) to a B format signal (described later).
  • the format conversion unit 161 obtains an A format signal as an input sound source signal from the sound source input unit 6.
  • the input sound source signal obtained by the format conversion unit 161 may be a directional microphone signal, an omnidirectional microphone signal, or a point sound source signal. Further, it may be an offline input or a real-time input.
  • the signal processing unit 162 is a functional unit that executes signal processing on the B format area such as zoom and rotation processing.
  • the drive sound source generation unit 163 is a functional unit that calculates a drive sound source signal to be supplied to one speaker Si among a plurality of speakers 31 and the like.
  • FIG. 3 is a conceptual diagram showing the acquisition of sound in space by the microphone M according to the present embodiment.
  • the microphone M shown in FIG. 3 is an ambisonic microphone (also called a 360-degree microphone or a surround microphone) that collects sounds coming from a plurality of directions.
  • ambisonic microphone also called a 360-degree microphone or a surround microphone
  • the microphone M when the microphone M generates a primary ambisonics signal from a recorded signal, the microphone M is forward and upper left (FLU), forward and lower right (FRD), rear and upper right (BRU), and rear. Moreover, it is provided with directional microphone elements that collect sounds in four directions in the lower left direction (BLD), and these microphone elements express an input sound source signal indicating the collected sounds.
  • the number of sound collecting directions of the microphone M is not limited to 4, and may be any number as long as it is 2 or more. In this case, it is possible to generate a second-order or higher-order ambisonics signal from the recorded signal according to the number of elements. It is also possible to use an array microphone in which an omnidirectional microphone is arranged on a rigid sphere instead of the directional microphone element.
  • the sound control unit 16 has acquired the input sound source signal recorded by the microphone M in advance.
  • This input sound source signal is also generally referred to as an A format signal.
  • FIG. 4 is a conceptual diagram showing a method of calculating a drive sound source signal supplied to a speaker according to the present embodiment.
  • the drive sound source signal (see FIG. 2B) supplied to the speaker is information on the position of the speaker based on the B format signal which is an intermediate representation signal converted from the A format signal acquired in advance by the sound control unit 16. Is calculated using.
  • the conversion process from the A format signal to the B format signal is performed by a well-known technique. Since this conversion process is the same as the well-known technique, detailed description thereof will be omitted.
  • the B format signal consists of four data: W (omnidirectional component), X (front and back spread component), Y (left and right spread component), and Z (up and down spread component). It is composed.
  • the drive sound source signal Oi supplied to the speaker Si of one of the plurality of speakers 31 and the like shown in FIG. 1 is calculated by the following (Equation 1).
  • Oi C ⁇ W + Cos ( ⁇ i), cos ( ⁇ i), X + Sin ( ⁇ i) ⁇ cos ( ⁇ i) ⁇ Y + Sin ( ⁇ i) ⁇ Z (Equation 1)
  • C is a constant that determines the ratio of W to X, Y, and Z.
  • W, X, Y and Z represent each component of the B format signal. Note that W, X, Y and Z may be those obtained by performing signal processing on the B format region such as rotation processing of the coordinate axes or zoom processing from each component of the B format signal.
  • ⁇ i and ⁇ i are an azimuth angle and an elevation angle when the front of the viewing position is used as a reference, respectively, as shown in FIG.
  • the drive sound source signal Oi (see FIG. 2B) supplied to the speaker Si is calculated using the azimuth and elevation angles of the speaker Si.
  • the sound control unit 16 calculates the drive sound source signals supplied to the plurality of speakers 31 and the like by using the azimuth angle and the elevation angle of the speakers.
  • FIG. 5 is a conceptual diagram showing an image before conversion by the control device 10 according to the present embodiment.
  • FIG. 6 is a conceptual diagram showing a state in which a display surface on which an image converted by the control device 10 according to the embodiment is displayed is viewed from a viewing position. An image conversion method by the generation unit 12 will be described with reference to FIGS. 5 and 6.
  • the image shown in FIG. 5 is an example of an omnidirectional image acquired by the generation unit 12, and is a panoramic development of the omnidirectional image.
  • the horizontal direction corresponds to the azimuth angle
  • the vertical direction corresponds to the elevation angle.
  • This image shows the front, back, left, right, and up and down directions of the shooting position.
  • FIG. 6 shows the ceiling surface, side surface, and floor surface of the space
  • the broken line B indicates the boundary of the wall surface of the space.
  • the broken line B is, for example, a boundary between the ceiling surface and the side surface, a boundary between the side surfaces, and a boundary between the floor surface and the side surface.
  • FIG. 6 also shows images displayed on the ceiling surface, side surfaces, and floor surface.
  • the images displayed on the ceiling surface, the side surface, and the floor surface are converted by the display control unit 13 so as not to be distorted when viewed from the viewing position. It should be noted that it is an ideal case that the distortion disappears when viewed from the viewing position in this way, and in reality, some distortion may occur due to the positional deviation from the viewing position, the error of the geometry information, the conversion error, and the like. be.
  • FIG. 7 is a schematic diagram showing a method of displaying a cursor and acquiring a speaker position by the control device 10 according to the present embodiment. Note that in FIG. 7, the rear speakers 35, 36, 37 and 38 are not shown. Further, FIG. 7 shows a state in which the display device 20 is displaying the display image, but the display of the displayed display image is omitted.
  • the reception unit 14 superimposes the cursor 51 on the display surface under the control of the display control unit 13.
  • the cursor 51 is superimposed and displayed on the display image.
  • the reception unit 14 When the reception unit 14 receives an operation by the user, the reception unit 14 moves the position of the displayed cursor in response to the received operation. For example, when the user accepts an operation of moving the mouse downward, the reception unit 14 moves the cursor 51 superimposed on the display image downward through the control of the display control unit 13.
  • the user performs an operation of moving the cursor while visually recognizing it on the reception unit 14, and superimposes the cursor 51 on the speaker 32. Then, with the cursor 51 superimposed on the speaker 32, an operation (also referred to as a selection operation) for selecting the current position of the cursor 51 is performed on the reception unit 14.
  • the reception unit 14 acquires the position (specifically, the coordinate values (X, Y)) of the cursor 51 on the display image when the selection operation is performed.
  • the specific unit 15 refers to the positional correspondence between the image data before conversion and the display image data after conversion related to the conversion process, so that the position (specifically, the azimuth angle and the azimuth angle) of the cursor 51 in space can be referred to. Elevation angle) is specified as the position of a plurality of speakers 31 and the like. In this way, the specifying unit 15 specifies the positions of the plurality of speakers 31 and the like (specifically, the azimuth angle ⁇ and the elevation angle ⁇ ).
  • control device 10 can also set acoustic parameters including delays or gains of a plurality of speakers 31 and the like in the same manner as described above.
  • the acoustic parameter is a parameter required for adjusting the drive signal of the speaker, and may include an equalizer, mute, solo, and the like in addition to the delay or gain.
  • the reception unit 14 superimposes and displays the adjustment image for receiving the designation of the acoustic parameter of the target speaker, which is one of the plurality of speakers 31 and the like, on the display image by the display control unit 13 and adjusts.
  • the user who visually recognizes the image specifies the acoustic parameters of the target speaker.
  • the sound control unit 16 controls to output the drive sound source signal after applying the acoustic parameters related to the above designation to the drive sound source signal supplied to the specified target speaker.
  • An example of the adjustment image for receiving the designation of the acoustic parameter of the target speaker is, for example, the adjustment image 52 for receiving the designation of the delay or gain shown in FIG.
  • FIG. 8 is a schematic view showing a delay and gain adjustment image 52 displayed by the control device 10 according to the present embodiment.
  • the adjustment image 52 includes an image 61 for adjusting the delay and an image 62 for adjusting the gain.
  • the delay is increased, and if the bar in the image 61 is operated downward, the delay is decreased.
  • the bar in the image 62 is operated upward based on the operation by the user, the gain is increased, and if the bar in the image 62 is operated downward, the gain is decreased.
  • the adjusted image 52 may include only one of the images 61 and 62.
  • the user can adjust the delay and gain while visually recognizing the images 61 and 62, and the adjustment result of the delay and gain is applied to the sound output by the sound control unit 16.
  • the image 63 of the equalizer adjustment panel can be used.
  • the image 63 is manipulated, an image showing a panel for changing the frequency characteristics is displayed.
  • the panel for changing the frequency characteristics may be a panel that adjusts the gain for each band determined in advance, such as a graphic equalizer, and various parameters of the bike add filter (filter type, center frequency, Q value, gain). Etc.) may be a parametric equalizer.
  • image 64 of the mute switch or image 65 of the solo switch can be used.
  • the mute or solo is switched ON / OFF.
  • control device 10 configured as described above will be described.
  • FIG. 9 is a flow chart showing a processing method executed by the control device 10 according to the present embodiment.
  • This processing method is a processing method of the control device 10 that controls the sound presented to the user by a plurality of speakers 31 or the like arranged in the space.
  • step S101 generation step
  • the image data to be displayed on the display surface is acquired, and the acquired image data is used by the conversion process using the shape information indicating the shape of the display surface.
  • Image data for display is generated from.
  • step S102 display control step
  • the display image data generated in the generation step is used to control the display of the display image on the display surface.
  • step S103 reception step
  • the cursor is superimposed on the displayed display image, and the user who visually recognizes the cursor specifies the positions of the plurality of speakers 31 and the like on the display image.
  • step S104 the position of the cursor in the space of the cursor is calculated from the position specified by the user by referring to the correspondence between the positions of the image before conversion and the image after conversion related to the conversion process.
  • the calculated position is specified as a position in the space regarding a plurality of speakers 31 and the like.
  • control device 10 can more easily acquire the position information regarding the plurality of speakers 31 and the like used for presenting the sound.
  • the specific unit 15 calculates the position of the cursor in the space from the position specified by the user by referring to the positional correspondence between the image data before conversion and the display image data after conversion related to the conversion process.
  • the first example of the processing is the processing of calculating the position of the cursor in the space from the position specified by the user by using the inverse transformation processing related to the inverse transformation of the conversion processing executed by the generation unit 12.
  • the inverse transformation process corresponds to a process of converting display image data into omnidirectional image data by geometry transformation using shape information. By using this inverse transformation process, the information indicating the position on the display image specified by the user is converted into the position on the omnidirectional image.
  • the specific unit 15 calculates the position of the cursor in the space from the position specified by the user by referring to the positional correspondence between the image data before conversion and the display image data after conversion related to the conversion process.
  • the second example of the process is a process of acquiring an azimuth angle and an elevation angle indicating the position of the cursor in the omnidirectional image when the cursor is placed on the speaker 31 or the like.
  • both the first example and the second example can be used, but when the reverse conversion process is impossible or not defined, the method of the second example is effective. be.
  • the method of the second example will be described with reference to FIG.
  • FIG. 10A shows an omnidirectional image, in which the horizontal axis indicates the azimuth angle and the vertical axis indicates the elevation angle. Further, the cursor 66 is displayed.
  • FIG. 10B shows a state in which an omnidirectional image is displayed on a display surface.
  • the cursor 66A is displayed at a position on the display surface corresponding to the cursor 66.
  • the specific unit 15 acquires the position of the cursor in space by acquiring the azimuth and elevation angles of the position of the cursor 66 when the cursor 66A overlaps the speaker 67 (see (b) in FIG. 10). (See (a) in FIG. 10).
  • the cursor 66A is deformed by the geometry transformation. Specifically, the cursor 66 represented as a substantially perfect circle in FIG. 10A is represented as an ellipse in FIG. 10B.
  • the position can be specified by the intersection of the horizontal line 68A and the vertical line 68B on the omnidirectional image instead of the cursors 66 and 66A (FIG. 11). (A) and (b)).
  • the line corresponding to the horizontal line 68A is displayed as the line 68C on the display surface
  • the line corresponding to the vertical line 68B is displayed as the line 68D on the display surface.
  • the user can position using the intersection of the line 68C and the line 68D. By doing so, it is possible to prevent the image of the cursor from being deformed as shown in FIG. 10B.
  • control device of the present embodiment is a control device that more easily acquires the position of a virtual speaker composed of a plurality of arranged speakers.
  • an existing speaker that is, a speaker simply called a speaker in the above embodiment is called a physical speaker, and a speaker virtually configured by the physical speaker is called a virtual speaker.
  • FIG. 12 is an explanatory diagram of a virtual speaker virtually configured by a physical speaker.
  • VBAP Vector Base Amplitude Panning
  • FIG. 12 can be adopted as an example of the method of configuring the virtual speaker.
  • the physical speakers S1, S2, and S3 in which the gains g1, g2, and g3 are appropriately set allow the virtual speaker V to be virtually placed at an arbitrary position in the convex hull formed by the physical speakers S1, S2, and S3. It is composed.
  • the physical speakers S1, S2, and S3 can also output sound.
  • each of the physical speakers S1, S2, and S3 outputs a sound obtained by synthesizing the sound to be output by the speaker and the sound contributing to the virtual speaker.
  • the configuration of the virtual speaker V requires the direction vector P from the viewing position of the virtual speaker V, that is, the azimuth angle and the elevation angle of the virtual speaker.
  • the azimuth angle and the elevation angle of the virtual speaker it is difficult for the user to set the azimuth and elevation angles of the virtual speaker, for example, by designating the angles.
  • control device 10 In principle, the configuration of the control device according to this modification is the same as that of the control device 10 according to the embodiment. Hereinafter, a part different from the function in the control device 10 according to the embodiment will be mainly described.
  • the reception unit 14 acquires the position of the cursor when the cursor is placed on each position of one or more virtual speakers virtually configured by the plurality of speakers 31 or the like based on the operation by the user. Receive the above designation of the position of the virtual speaker.
  • the specific unit 15 calculates the position of one or more virtual speakers in the space based on the designation of the position of one or more virtual speakers on the display image received by the reception unit 14. Further, the specifying unit 15 specifies the positions of one or more virtual speakers as positions in the space related to the plurality of speakers 31 and the like.
  • the sound control unit 16 presents sound to the user by the plurality of speakers 31 and the like and one or more virtual speakers based on the positions in the space of one or more virtual speakers specified by the specific unit 15.
  • the drive sound source signal supplied to each of the 31 and the like is calculated and controlled to be output by the plurality of speakers 31 and the like.
  • the above-mentioned functional portion of the sound control unit 16 corresponds to the second sound control unit.
  • FIG. 13 is a schematic diagram showing a method of acquiring the position of the virtual speaker by the control device 10 according to the present embodiment.
  • the rear speakers 35, 36, 37, and 38 are not shown in the same manner as in FIG. 7.
  • the reception unit 14 superimposes the cursor 71 on the display image displayed on the display surface under the control of the display control unit 13.
  • the shape of the cursor 71 may be any shape, and has, for example, a shape imitating a speaker. Using the cursor 71 having a shape imitating a speaker has an advantage that the user can intuitively recognize that the position of the virtual speaker is specified.
  • the reception unit 14 When the reception unit 14 receives an operation by the user, the reception unit 14 moves the position of the displayed cursor in response to the received operation.
  • the user performs an operation of visually recognizing the position of the cursor 71 on the reception unit 14, superimposes the cursor 71 on the position where the virtual speaker is to be arranged, and receives an operation of selecting the current cursor position (also referred to as a selection operation). Part 14 is performed.
  • the reception unit 14 acquires the position of the cursor on the display image when the selection operation is performed. Then, the reception unit 14 refers to the correspondence relationship between the acquired position on the display image of the cursor and the position of the image data before conversion and the image data for display after conversion related to the conversion process. Then, the position of the cursor in the space (specifically, the azimuth angle ⁇ and the elevation angle ⁇ ) is specified as the position of the virtual speaker to be configured. In this way, the reception unit 14 specifies the position, that is, the azimuth angle and the elevation angle of the virtual speaker to be configured.
  • control device 10 can also set acoustic parameters including the delay or gain of the virtual speaker in the same manner as in the above embodiment.
  • the sound control unit 16 outputs the sound after applying the acoustic parameter according to the above designation to the sound output by the virtual speaker for which the acoustic parameter is set.
  • the adjustment image 52 shown in FIG. 7 can be used as the adjustment image for receiving the designation of the acoustic parameter.
  • the control device 10 can also be designated as a physical speaker that constitutes a virtual speaker.
  • the reception unit 14 is a plurality of designated speakers which are a plurality of speakers that virtually configure one virtual speaker included in one or more virtual speakers among the plurality of speakers 31 and the like based on the operation by the user.
  • the sound control unit 16 calculates a drive sound source signal supplied to the plurality of speakers 31 and the like so that the reception unit 14 virtually configures one or more virtual speakers using the plurality of designated speakers that have been designated. ,
  • the calculated drive sound source signal is output. If the position of the physical speaker has already been calculated, the reception unit 14 can also receive designation of the positions of a plurality of designated speakers by reading out the calculated information indicating the position of the physical speaker. ..
  • control device can more easily receive the designation of the physical speaker constituting the virtual speaker in addition to the information on the position of the virtual speaker used for presenting the sound.
  • the control device of the present embodiment and the present modification is a control device that controls the sound presented to the user by a plurality of speakers arranged in the space.
  • the control device acquires image data to be displayed on the display surface, and uses a conversion process using shape information indicating the shape of the display surface to generate display image data from the acquired image data.
  • the display control unit that displays the display image on the display surface and the display image superimposed on the displayed display image are displayed by the user who visually recognizes the cursor.
  • the space can be specified by the user. It is provided with a specific unit that calculates the position of the cursor within and specifies the calculated position of the cursor as a position related to a plurality of speakers.
  • the control device refers to the correspondence between the positions of the image data before conversion and the image data for display after conversion related to the conversion process, and is the positions related to the plurality of speakers in the space. (That is, the position with respect to space) can be obtained.
  • the control device acquires information (for example, azimuth angle and elevation angle) regarding the positions of a plurality of speakers by using the positions intuitively specified on the image by the user at the viewing position.
  • the control device can more easily acquire the position information regarding the plurality of speakers used for presenting the sound.
  • the reception unit receives the designation of the positions of the plurality of speakers by acquiring the position of the cursor when the cursor is placed on each of the plurality of speakers based on the operation by the user as the designation of the position, and is a specific unit. Specifies the position of the plurality of speakers as the position relating to the plurality of speakers, and the control device further presents sound to the user by the plurality of speakers based on the positions of the plurality of speakers specified by the specific unit.
  • the first sound control unit which calculates the drive sound source signal supplied to each of the plurality of speakers and controls the output of the plurality of speakers may be provided.
  • the control device acquires the positions of a plurality of speakers for presenting sound to the user by using the positions intuitively specified by the user on the image.
  • the acquired positions of the plurality of speakers are used for calculating the drive sound source signals supplied to the plurality of speakers when presenting sound. Therefore, the control device can more easily acquire the information on the positions of the plurality of speakers used for presenting the sound.
  • the reception unit superimposes and displays an adjustment image for receiving the designation of the acoustic parameter of the target speaker among the plurality of speakers on the display image, and receives the designation of the acoustic parameter of the target speaker from the user who visually recognizes the adjustment image.
  • the first sound control unit may control the output of the target speaker after applying the designated acoustic parameters to the drive sound source signal supplied to the target speaker.
  • the control device can receive the designation of the acoustic parameter of the target speaker from the user who visually recognizes the adjustment image displayed on the display surface.
  • the user since the user specifies the acoustic parameter of the target speaker by using the specified value of the acoustic parameter intuitively specified on the adjustment image displayed on the display surface, the user inputs the specified value of the acoustic parameter. You don't have to take it directly. Therefore, the control device can more easily acquire the acoustic parameters of the plurality of speakers in addition to the position information regarding the plurality of speakers used for presenting the acoustics.
  • the reception unit acquires the position of the cursor when the cursor is superimposed on each position of one or more virtual speakers virtually configured by a plurality of speakers based on the operation by the user.
  • the position of one or more virtual speakers is specified, and the specific unit determines the position of one or more virtual speakers in the space based on the designation of the position of one or more virtual speakers received by the reception unit.
  • the position of one or more virtual speakers is calculated and specified as the position with respect to the plurality of speakers, and the control device further specifies the positions of the plurality of speakers and one or more virtual speakers based on the positions of the one or more virtual speakers specified by the specific unit.
  • a second sound control unit that calculates drive sound source signals supplied to each of the plurality of speakers and controls the outputs of the plurality of speakers when the sound is presented to the user by the virtual speaker may be provided.
  • the control device acquires the position of the virtual speaker for presenting the sound to the user by using the position intuitively specified by the user on the image.
  • the acquired virtual speaker position is used to calculate the drive sound source signal supplied to the virtual speaker when presenting sound. Therefore, the control device can more easily acquire the information on the position of the virtual speaker used for presenting the sound.
  • the reception unit is set to the position of each of the plurality of designated speakers that virtually configure one virtual speaker included in one or more virtual speakers among the plurality of speakers based on the operation by the user.
  • the positions of a plurality of designated speakers are specified, and the second sound control unit uses the plurality of designated speakers designated by the reception unit.
  • the drive sound source signal supplied to each of the plurality of speakers may be calculated so as to virtually configure the above virtual speakers.
  • the control device can receive the designation of the physical speaker that virtually configures the virtual speaker from the user by using the cursor displayed on the display surface.
  • the control device can more easily receive the designation of the physical speaker constituting the virtual speaker in addition to the information on the position of the virtual speaker used for presenting the sound.
  • positions relating to the plurality of speakers may include the azimuth angles and elevation angles of the plurality of speakers when viewed from the user's viewing position.
  • the control device acquires the azimuth angle and the elevation angle which are information about the positions of a plurality of speakers by using the positions intuitively specified on the image by the user in the viewing position. , It is not necessary to receive the input of this information directly from the user. Therefore, the control device can more easily acquire the position information regarding the plurality of speakers used for presenting the sound.
  • control device may further include a plurality of speakers.
  • control device can more easily acquire the position information about the plurality of speakers used for presenting the sound, and further, the sound can be presented by the plurality of speakers.
  • the processing method of the control device in the present disclosure is a processing method of the control device that controls the sound presented to the user by a plurality of speakers arranged in the space, and acquires image data to be displayed on the display surface. Then, using the conversion process using the shape information indicating the shape of the display surface, the display surface is generated by using the generation step of generating the display image data from the acquired image data and the display image data generated in the generation step.
  • the position of the cursor in space is calculated from the position specified by the user, and the calculated position of the cursor is calculated. Includes a specific step that identifies as a location for a plurality of speakers.
  • program in the present disclosure is a program for causing a computer to execute the above information processing method.
  • the present disclosure is applicable to a control device that controls the sound presented to the user by a plurality of speakers.
  • Control device 11 Storage unit 12
  • Generation unit 13 Display control unit 14
  • Reception unit 15 Specific unit 16 Sound control unit 20
  • Cursor 52 Adjusted image 61, 62, 63, 64, 65 Image B Dashed line M Microphone U User V Virtual speaker

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Otolaryngology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

制御装置は、空間内に配置される複数のスピーカによってユーザに提示する音響を制御する制御装置である。制御装置は、表示面に表示するための画像データを取得し、表示面の形状を示す形状情報を用いた変換処理を用いて、取得した画像データから表示用画像データを生成する生成部と、生成部が生成した表示用画像データを用いて、表示面に表示用画像を表示させる表示制御部と、表示された表示用画像にカーソルを重畳表示させ、カーソルを視認したユーザから、表示用画像上での複数のスピーカに関する位置の指定を受ける受付部と、変換処理に係る変換前の画像データと変換後の表示用画像データとの対応関係を参照することで、ユーザによる上記位置の指定から空間内でのカーソルの位置を算出し、算出したカーソルの位置を、複数のスピーカに関する位置として特定する特定部とを備える。

Description

制御装置、制御装置の処理方法、および、プログラム
 本開示は、制御装置、制御装置の処理方法、および、プログラムに関する。
 複数のスピーカにより立体音響を提示するシステムがある。立体音響とは、方向感を持った立体的な音像を視聴者に知覚させるための音響処理全般を指す概念である。
 当該システムは、立体音響を提示しながら、ユーザをとりまく比較的広い範囲の映像を提示することで、ユーザに臨場感を感じさせることができる。
 このようなシステムでは、空間内に配置された複数のスピーカの位置に基づいて、各スピーカに供給される駆動音源信号が決定される。また、複数のスピーカにより仮想的に構成される仮想スピーカが用いられることもある。
 従来、複数の表示装置を用いるシステムにおいて、映像および音を効果的に出力する技術がある(特許文献1参照)。
特開2005-99064号公報
 しかし、各スピーカが出力する音(つまり駆動音源信号)の決定に必要である、視聴位置から見た複数のスピーカの位置の情報を取得することが難しい。また、仮想スピーカを構成する場合に、仮想スピーカの位置の指定に必要である、視聴位置から見た仮想スピーカの位置の情報を取得することが難しい。視聴位置が変わると視聴位置から見た複数のスピーカの位置の情報も変わってしまうからである。ここで、視聴位置とは、ユーザが立体音響を視聴すると想定される位置である。このように、立体音響の提示に用いる複数のスピーカに関する位置の取得が難しいという問題がある。
 そこで、本開示は、音響の提示に用いる複数のスピーカに関する位置の情報をより容易に取得する制御装置などを提供する。
 本開示における制御装置は、空間内に配置される複数のスピーカによってユーザに提示する音響を制御する制御装置である。制御装置は、表示面に表示するための画像データを取得し、前記表示面の形状を示す形状情報を用いた変換処理を用いて、取得した前記画像データから表示用画像データを生成する生成部と、前記生成部が生成した前記表示用画像データを用いて、前記表示面に表示用画像を表示させる表示制御部と、表示された前記表示用画像にカーソルを重畳表示させ、前記カーソルを視認した前記ユーザから、前記表示用画像上での前記複数のスピーカに関する位置の指定を受ける受付部と、前記変換処理に係る変換前の前記画像データと変換後の前記表示用画像データとの対応関係を参照することで、前記ユーザによる前記位置の指定から前記空間内での前記カーソルの位置を算出し、算出した前記カーソルの位置を、前記複数のスピーカに関する位置として特定する特定部とを備える。
 本開示の制御装置は、音響の提示に用いる複数のスピーカに関する位置の情報をより容易に取得することができる。
図1は、実施の形態に係る提示システムおよび制御装置を示す模式図である。 図2Aは、実施の形態に係る制御装置の機能構成を示すブロック図である。 図2Bは、実施の形態に係る制御装置の詳細な機能構成を示すブロック図である。 図3は、実施の形態に係る、マイクによる空間の音の取得を示す概念図である。 図4は、実施の形態に係る、スピーカにより出力する音の算出方法を示す概念図である。 図5は、実施の形態に係る制御装置による変換前の画像を示す概念図である。 図6は、実施の形態に係る制御装置による変換後の画像が表示された表示面を視聴位置から見た状態を示す概念図である。 図7は、実施の形態に係る制御装置によるカーソルの表示およびスピーカの位置の取得方法を示す模式図である。 図8は、実施の形態に係る制御装置により表示されるディレイ及びゲインの調整画像を示す模式図である。 図9は、実施の形態に係る制御装置が実行する処理方法を示すフロー図である。 図10は、実施の形態に係るカーソルの空間内での位置を算出する第一の方法を示す説明図である。 図11は、実施の形態に係るカーソルの空間内での位置を算出する第二の方法を示す説明図である。 図12は、実施の形態の変形例に係る仮想スピーカの説明図である。 図13は、実施の形態の変形例に係る制御装置による仮想スピーカの位置の取得方法を示す模式図である。
 以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。
 なお、発明者らは、当業者が本開示を十分に理解するために添付図面および以下の説明を提供するのであって、これらによって請求の範囲に記載の主題を限定することを意図するものではない。
 (実施の形態)
 本実施の形態において、音響の提示に用いる複数のスピーカに関する位置の情報をより容易に取得する制御装置などについて説明する。具体的には、本実施の形態の制御装置は、音響の提示に用いる複数のスピーカの位置の情報をより容易に取得する制御装置である。なお、「位置の情報」を、単に「位置」ということもある。
 図1は、本実施の形態に係る提示システム1および制御装置10を示す模式図である。
 提示システム1は、空間内に音響を提示し、また、空間内(例えば、空間の壁面)に画像を表示させることにより、空間内にいるユーザに、立体音響および立体画像を視聴させるシステムである。
 図1に示されるように、提示システム1は、制御装置10と、表示装置20と、複数のスピーカ31~38(複数のスピーカ31等ともいう)とを備える。なお、複数のスピーカ31等を制御装置10の構成に含めてもよい。
 制御装置10は、表示装置20による画像の表示と、複数のスピーカ31等による音の出力とを制御する制御装置である。制御装置10は、表示装置20に表示させるための画像データを取得し、取得した画像データに適切な変換を施したうえで表示装置20により表示することで、ユーザに立体画像を提示する。また、制御装置10は、複数のスピーカ31等に供給される駆動音源信号を生成するために使用される入力音源信号を取得し、取得した入力音源信号に適切な変換を施したうえで複数のスピーカ31等に供給することで、ユーザに立体音響を提示する。
 また、制御装置10は、複数のスピーカ31等の位置の情報を取得する。これらの処理については後で詳しく説明する。
 制御装置10は、表示装置20と通信可能に接続されており、通信を介して表示装置20による画像の表示を制御する。また、制御装置10は、複数のスピーカ31等と接続されており、この接続を介して複数のスピーカ31等が出力すべき音の信号を伝達する。なお、制御装置10と表示装置20との間の接続、および、制御装置10と複数のスピーカ31等との間の接続は、有線であっても無線であってもよい。なお、図1では、制御装置10と複数のスピーカ31との間の接続については、制御装置10とスピーカ34との接続のみを図示し、他の接続の図示を省略している。
 表示装置20は、表示面に画像を表示することで、ユーザに画像を視認させる表示装置である。表示装置20が表示する画像は、制御装置10から送られてくる画像データに基づく画像である。制御装置10から送られてくる画像データは、ユーザの周囲の光景としてユーザに認識されるように作成されたものである。ユーザは、自身の周囲に表示された画像を、現実にその方向に見ることによって、自身の周囲の光景として認識することができる。
 表示装置20は、例えば、ユーザから見た全方位に亘る画像を表示させる。ユーザから見た全方位に画像が表示されているので、ユーザは、前方向だけでなく、見る方向を変えることで、左右方向、上方向などを含む全方向の画像を視認することができる。
 ただし、表示装置20が表示する画像は、必ずしも、ユーザから見た全方位に亘るものでなくてもよい。言い換えれば、表示装置20が表示する画像は、例えば、ユーザから見た複数の方向に表示されるものであってもよく、具体的には、ユーザにとっての前方向および左右方向に表示されるものであってもよい。
 表示装置20は、例えば、ユーザが存在する空間の壁面、つまり、ユーザを取り囲む壁面に画像を投影する投影装置(プロジェクタ)であり、この場合を例として説明する。この場合、表示装置20が複数あり、複数の表示装置20によって壁面に画像を投影してもよい。この場合、壁面が表示面に相当する。なお、他の例として、表示装置20は、ユーザを取り囲むように配置された複数の据置型のディスプレイ装置でもよい。この場合、ディスプレイが備える表示パネルが表示面に相当する。
 複数のスピーカ31等は、ユーザを取り囲む複数の位置に配置されるスピーカ群である。例えば、スピーカ31は、ユーザが視聴すると想定される位置(視聴位置ともいう)から見て、前方かつ右上方向に配置されている。同様に、スピーカ32、33および34は、視聴位置から見て、それぞれ、前方かつ右下方向、前方かつ左下方向、および、前方かつ左上方向に配置されている。また、スピーカ35、36、37および38は、それぞれ、視聴位置から見て、それぞれ、後方かつ右上方向、後方かつ右下方向、後方かつ左下方向、および、後方かつ左上方向に配置されている。
 複数のスピーカ31等が出力する音は、制御装置10から送られてくる駆動音源信号に基づく音である。制御装置10から送られてくる駆動音源信号は、受聴者が立体的な音像を知覚するように作成されたもの、言い換えると、さまざまな位置にある音源から出力されているとユーザに認識されるように作成されたものである。これにより、ユーザは、複数のスピーカ31等が現実に存在している位置から届く音だけでなく、全方位からユーザに届く音を聴取することができる。
 ここで、視聴位置から見た複数のスピーカ31等の位置の情報(具体的には方位角及び仰角)を、計測などによって取得することは難しい。複数のスピーカ31等の位置の情報は、設計上定められていることもあるが、視聴位置が変わると視聴位置から見た複数のスピーカ31等の位置の情報も変わってしまうからである。また、スピーカ位置を物理的に変えた場合に方位角または仰角が変わってしまうこと、物理スピーカまたは仮想スピーカが大量にある場合には物理的な測定を行うことが煩雑であること、または、測定したスピーカ位置と視聴位置座標とから求められるXYZ方向それぞれの距離差分から方位角または仰角へ変換する計算が面倒であることも、視聴位置から見た複数のスピーカ31等の位置の情報を計測などによって取得することが難しい理由として存在する。
 そこで、制御装置10により、複数のスピーカ31等の位置の情報をより容易に取得する方法を説明する。
 以降において、制御装置10の機能について詳細に説明する。
 図2Aは、本実施の形態に係る制御装置10の機能構成を示すブロック図である。図2Bは、本実施の形態に係る制御装置10の詳細な機能構成を示すブロック図である。図2Aおよび図2Bを参照しながら、本実施の形態に係る制御装置10の機能構成について説明する。
 図2Aに示されるように、制御装置10は、映像入力部5と、音源入力部6と、記憶部11と、生成部12と、表示制御部13と、受付部14と、特定部15と、音制御部16とを備える。制御装置10が備える上記の機能部は、個別に説明する場合を除き、制御装置10が備えるCPU(Central Processing Unit)(不図示)がメモリを用いてプログラムを実行することで実現され得る。
 映像入力部5は、表示面に表示するための画像データを取得する機能部である。映像入力部5が取得する画像データは、例えば、全方位画像を取得するカメラ(いわゆる全天球カメラ、又は、360度カメラ)で取得された全方位画像データである。映像入力部5は、取得した画像データを生成部12に提供する。なお、映像入力部5は、生成部12の一機能として実現されてもよい。
 音源入力部6は、提示システム1によって出力すべき音響の音データを取得する機能部である。音源入力部6は、取得した音データを音制御部16に提供する。なお、音源入力部6は、音制御部16の一機能として実現されてもよい。
 記憶部11は、表示面の形状を示す形状情報を記憶している記憶装置である。形状情報には、視聴位置を示す情報も含まれ得る。形状情報は、表示面の形状を示すジオメトリ情報を含み、具体的には、表示面を構成する面の位置、寸法又は角度を特定し得る情報を含む。
 表示面は、例えば、ユーザがいる空間の壁面であり、形状情報は、壁面の形状を示す情報である。例えば、ユーザがいる空間が、図1に示される直方体の空間である場合には、直方体を構成する各面の位置、寸法又は角度を特定する情報を含む。記憶部11は、メモリまたはストレージである。
 生成部12は、映像入力部5が取得した画像データに対して、形状情報を用いた変換処理を施して、表示用画像データを生成する機能部である。形状情報を用いた変換処理は、表示面に表示された画像をユーザが視聴位置から見た場合に、上記カメラから周囲を見たときと同じに見えるようにする変換処理であり、具体的には、形状情報を用いたジオメトリ変換を含む。
 変換処理の結果、生成部12は、表示装置20に表示させるための表示用画像データを生成する。表示装置20が複数ある場合には、生成部12は、複数の表示装置20それぞれに表示させる表示用画像データを生成する。
 表示制御部13は、生成部12が生成した表示用画像データを表示面に表示させる制御をする機能部である。表示制御部13は、生成部12が生成した表示用画像データを取得して、表示装置20に提供する。表示制御部13は、映像伝送用の規格に従って表示装置20と接続されており、この接続を通じて表示用画像データを表示装置20に伝送する。映像伝送用の規格は、例えば、HDMI(登録商標)(High-Definition Multimedia Interface)規格またはVGA(アナログRGB)規格である。
 受付部14は、表示された表示用画像にカーソルを重畳表示させ、カーソルを視認したユーザから、表示用画像上での複数のスピーカ31等に関する位置の指定を受ける機能部である。受付部14は、マウスまたはタッチパネルなどのユーザインタフェース装置を介してユーザによる操作を受け付ける。そして、受付部14は、その操作に従って、表示面に表示されている表示用画像にカーソルを重畳して表示させる制御をする。上記制御は、表示制御部13に対する制御であってもよいし、生成部12に対する制御であってもよい。具体的には、受付部14は、表示制御部13に対する制御として、表示制御部13が取得した表示用画像データにカーソルを重畳させる処理を実行させる制御をしてもよい。また、受付部14は、生成部12に対する制御として、生成部12が取得した画像データ、又は、生成部12が変換処理を施した後の表示用画像データにカーソルを重畳させる処理を実行させる制御をしてもよい。
 また、受付部14は、カーソルをある方向に移動させる操作をユーザから受け付けると、その操作に従って、操作された方向に対応する方向へ、表示面に重畳表示させているカーソルを移動させる制御をする。なお、カーソルの形状は、どのようなものであってもよく、例えば、円形、矩形、矢印形状、または、他の図形の形状であってもよい。
 また、受付部14は、ユーザによる操作に基づいてカーソルが複数のスピーカ31等それぞれに重ねられたときのカーソルの位置を取得することによって、複数のスピーカ31等の位置の指定を受ける。具体的には、受付部14は、表示用画像上でのカーソルの位置を示す座標値(X,Y)の指定を受ける。
 特定部15は、複数のスピーカ31等に関する空間内の位置を特定する機能部である。特定部15は、具体的には、変換処理に係る変換前の画像データと変換後の表示用画像データとの位置の対応関係を参照することで、ユーザにより指定された位置からカーソルの空間内での位置を算出し、算出した位置を、複数のスピーカ31等に関する空間内の位置として特定する。全方位画像における位置情報は、一例として、視聴位置からみた場合の方位角および仰角を含む。
 特定部15は、受付部14がスピーカの位置の指定を受けた場合には、複数のスピーカ31等に関する空間内の位置として、複数のスピーカ31等の空間内の位置を算出する。
 音制御部16は、複数のスピーカ31等による音の出力を制御する機能部である。音制御部16は、音源入力部6が取得した音データを、複数のスピーカ31等の空間内における位置情報を用いて加工することで、複数のスピーカ31等それぞれに供給される駆動音源信号を算出する。
 音制御部16は、受付部14がスピーカの位置の指定を受けた場合には、特定部15が特定した複数のスピーカ31等の空間内の位置に基づいて、複数のスピーカ31等によってユーザに音響を提示する場合における、複数のスピーカ31等それぞれに供給される駆動音源信号を算出し、複数のスピーカ31等により出力させる制御をする。なお、音を出力させる、という表現は、出力すべき音の音量がゼロである場合も含む概念である。実際には音が出力されない場合でも、音量がゼロである音を出力していると考えられるからである。なお、音制御部16の上記の機能部分は、第一音制御部に相当する。
 音制御部16の詳細な構成の例について図2Bを参照しながら説明する。
 図2Bに示されるように、音制御部16は、フォーマット変換部161と、信号処理部162と、駆動音源生成部163とを備える。
 フォーマット変換部161は、Aフォーマット信号(後述)からBフォーマット信号(後述)への変換処理を実行する機能部である。フォーマット変換部161は、音源入力部6から入力音源信号としてAフォーマット信号を得る。フォーマット変換部161が得る入力音源信号は、指向性マイク信号であってもよいし、無指向性マイク信号であってもよいし、点音源信号であってもよい。また、オフライン入力であってもよいし、リアルタイム入力であってもよい。
 信号処理部162は、ズーム、回転処理などのBフォーマット領域上の信号処理を実行する機能部である。
 駆動音源生成部163は、複数のスピーカ31等のうちの一のスピーカSiに供給する駆動音源信号を算出する機能部である。
 以降において、複数のスピーカ31等それぞれに供給される駆動音源信号の生成と、複数のスピーカ31等による音の出力とについて説明する。
 図3は、本実施の形態に係る、マイクMによる空間の音の取得を示す概念図である。図3に示されるマイクMは、複数の方向から到来する音を収音するアンビソニックマイク(360度マイク、サラウンドマイクとも呼ばれる)である。
 マイクMは、具体的には、1次アンビソニックス信号を収録信号から生成する場合は前方かつ左上方向(FLU)、前方かつ右下方向(FRD)、後方かつ右上方向(BRU)、および、後方かつ左下方向(BLD)の4つの方向の音を収音する指向性マイク素子を備えたものであり、これらのマイク素子は、収音した音を示す入力音源信号を表現する。なお、マイクMが収音する方向の数は、4に限られず、2以上であればいくつであってもよい。この場合、その素子数に応じて2次以上のアンビソニックス信号を収録信号から生成することが可能である。また、指向性マイク素子の代わりに無指向性マイクを剛球上に配置したアレイマイクを用いることも可能である。
 音制御部16は、マイクMによって収録された入力音源信号をあらかじめ取得している。この入力音源信号は、一般にAフォーマット信号とも呼ばれる。
 図4は、本実施の形態に係る、スピーカに供給される駆動音源信号の算出方法を示す概念図である。スピーカに供給される駆動音源信号(図2B参照)は、音制御部16が、予め取得していたAフォーマット信号から変換された中間表現信号であるBフォーマット信号に基づいて、スピーカの位置の情報を用いて算出される。
 Aフォーマット信号からBフォーマット信号への変換処理は周知技術によってなされる。この変換処理については、周知技術と同様であるので詳細な説明を省略する。Bフォーマット信号は、1次アンビソニックス信号の場合、W(無指向成分)、X(前後の広がり成分)、Y(左右の広がり成分)、およびZ(上下の広がり成分)の4個のデータで構成される。
 次に、1次アンビソニックス信号を表すBフォーマット信号から、複数のスピーカ31等それぞれに供給される駆動音源信号を算出する処理の一例を説明する。
 図1に示される複数のスピーカ31等のうちの一のスピーカSiに供給される駆動音源信号Oiは、以下の(式1)により算出される。
 Oi=C・W
    +cos(θi)・cos(φi)・X
    +sin(θi)・cos(φi)・Y
    +sin(φi)・Z             (式1)
 ここで、Cは、Wと、X、YおよびZとの比率を定める定数である。W、X、YおよびZは、Bフォーマット信号の各成分を示している。なお、W、X、YおよびZは、Bフォーマット信号の各成分から、座標軸の回転処理、又は、ズーム処理などのBフォーマット領域上の信号処理が施されたものであってもよい。また、θi及びφiは、それぞれ、図4に示されるように、視聴位置の前方を基準とした場合の方位角、および、仰角である。
 つまり、スピーカSiに供給される駆動音源信号Oi(図2B参照)は、スピーカSiの方位角および仰角を用いて算出される。このようにして、音制御部16は、複数のスピーカ31等に供給される駆動音源信号を、当該スピーカの方位角および仰角を用いて算出する。
 次に、生成部12が取得する画像データと、生成部12が行う変換処理とについて説明する。
 図5は、本実施の形態に係る制御装置10による変換前の画像を示す概念図である。図6は、実施の形態に係る制御装置10による変換後の画像が表示された表示面を視聴位置から見た状態を示す概念図である。図5および図6を参照しながら、生成部12による画像の変換方法を説明する。
 図5に示される画像は、生成部12が取得する全方位画像の一例であり、全方位画像をパノラマ展開して示したものである。図5において、横方向が方位角に対応しており、縦方向が仰角に対応している。この画像には、撮影位置の前後左右方向および上下方向が映っている。
 図5に示される画像を生成部12が形状情報を用いてジオメトリ変換した画像データを生成し、表示面に投影した様子を視聴位置から見ると、図6に示されるように見える。
 図6には、空間の天井面、側面および床面が示されており、破線Bは、空間の壁面の境界を示している。例えば、破線Bは、例えば、天井面と側面との境界、側面同士の境界、および、床面と側面との境界である。
 また、図6には、天井面、側面および床面に表示される画像も示されている。天井面、側面および床面に表示される画像は、視聴位置から見た場合に歪がないように表示制御部13による変換処理が施されたものである。なお、このように視聴位置から見て歪みがなくなるのは理想的な場合であり、実際には、視聴位置からの位置ずれ、ジオメトリ情報の誤差、変換誤差などにより、若干の歪みが生じることもある。
 図7は、本実施の形態に係る制御装置10によるカーソルの表示およびスピーカの位置の取得方法を示す模式図である。なお、図7において、後方のスピーカ35、36、37および38の図示を省略している。また、図7は、表示装置20が表示用画像を表示している状態を示しているが、表示されている表示用画像の図示は省略されている。
 図7に示されるように、受付部14は、表示制御部13による制御により、表示面にカーソル51を重畳表示させる。カーソル51は、表示用画像に重畳表示されている。
 受付部14は、ユーザによる操作を受け付けると、受け付けた操作に対応して、表示されているカーソルの位置を移動させる。例えば、ユーザがマウスを下方向に移動させる操作を受け付けると、受付部14は、表示制御部13による制御を介して、表示用画像に重畳表示されたカーソル51を下方向へ移動させる。
 ユーザは、カーソルの位置を視認しながら移動させる操作を受付部14に行い、カーソル51をスピーカ32に重ねる。そして、カーソル51をスピーカ32に重ねた状態で、現在のカーソル51の位置を選択する操作(選択操作ともいう)を受付部14に行う。
 受付部14は、選択操作がなされたときのカーソル51の表示用画像上での位置(具体的には座標値(X,Y))を取得する。特定部15は、変換処理に係る変換前の画像データと変換後の表示用画像データとの位置の対応関係を参照することで、カーソル51の空間内での位置(具体的には方位角および仰角)を、複数のスピーカ31等の位置であると特定する。このようにして、特定部15は、複数のスピーカ31等の位置(具体的には方位角θ及び仰角φ)を特定する。
 なお、制御装置10は、上記と同様にして、複数のスピーカ31等のディレイまたはゲインを含む音響パラメータを設定することもできる。音響パラメータは、スピーカの駆動信号の調整に必要となるパラメータであり、ディレイまたはゲインのほかに、イコライザ、ミュートまたはソロ等も含まれ得る。この場合、受付部14は、複数のスピーカ31等のうちの一のスピーカである対象スピーカの音響パラメータの指定を受けるための調整画像を、表示制御部13により表示用画像に重畳表示させ、調整画像を視認したユーザから、対象スピーカの音響パラメータの指定を受ける。そして、音制御部16は、特定した対象スピーカに供給される駆動音源信号に対して、上記指定にかかる音響パラメータを適用してから駆動音源信号を出力する制御をする。
 対象スピーカの音響パラメータの指定を受けるための調整画像の一例は、例えば、図7に示されるディレイまたはゲインの指定を受けるための調整画像52である。
 図8は、本実施の形態に係る制御装置10により表示されるディレイ及びゲインの調整画像52を示す模式図である。
 図8に示されるように、調整画像52は、ディレイを調整するための画像61と、ゲインを調整するための画像62とを含む。例えば、ユーザによる操作に基づいて画像61内のバーを上方向に操作すると、ディレイが増加し、画像61内のバーを下方向に操作すると、ディレイが減少する。同様に、ユーザによる操作に基づいて画像62内のバーを上方向に操作すると、ゲインが増加し、画像62内のバーを下方向に操作すると、ゲインが減少する。なお、調整画像52は、画像61及び62のうちのいずれか一方のみを含むものであってもよい。
 ユーザは、画像61、62を視認しながらディレイとゲインとを調整することができ、ディレイとゲインとの調整結果が、音制御部16が出力する音に適用される。
 なお、音響パラメータとしてイコライザを調整する場合には、イコライザ調整パネルの画像63が用いられ得る。例えば、画像63が操作されると、周波数特性を変更するパネルを示す画像が表示される。周波数特性を変更するパネルとしてはグラフィックイコライザのようにあらかじめ決められたバンドごとのゲインを調整するものであってもよいし、またバイクアッドフィルタの各種パラメータ(フィルタ種別、中心周波数、Q値、ゲインなど)を調整するパラメトリックイコライザであってもよい。
 また、音響パラメータとしてミュートまたはソロを調整する場合には、ミュートスイッチの画像64、または、ソロスイッチの画像65が用いられ得る。例えば、ミュートスイッチの画像64、または、ソロスイッチの画像65が操作されると、ミュートまたはソロのON/OFFが切り換えられる。
 以上のように構成された制御装置10の処理を説明する。
 図9は、本実施の形態に係る制御装置10が実行する処理方法を示すフロー図である。この処理方法は、空間内に配置される複数のスピーカ31等によってユーザに提示する音響を制御する制御装置10の処理方法である。
 図9に示されるように、ステップS101(生成ステップ)において、表示面に表示するための画像データを取得し、表示面の形状を示す形状情報を用いた変換処理を用いて、取得した画像データから表示用画像データを生成する。
 ステップS102(表示制御ステップ)において、生成ステップで生成した表示用画像データを用いて、表示面に表示用画像を表示させる制御をする。
 ステップS103(受付ステップ)において、表示された表示用画像にカーソルを重畳表示させ、カーソルを視認したユーザから、表示用画像上での複数のスピーカ31等に関する位置の指定を受ける。
 ステップS104(特定ステップ)において、変換処理に係る変換前の画像と変換後の画像との位置の対応関係を参照することで、ユーザにより指定された位置からカーソルの空間内での位置を算出し、算出した位置を、複数のスピーカ31等に関する空間内の位置として特定する。
 これにより、制御装置10は、音響の提示に用いる複数のスピーカ31等に関する位置の情報をより容易に取得することができる。
 なお、特定部15が変換処理に係る変換前の画像データと変換後の表示用画像データとの位置の対応関係を参照することでユーザにより指定された位置からカーソルの空間内での位置を算出する処理の第一例は、生成部12が実行する変換処理の逆変換にかかる逆変換処理を用いてユーザにより指定された位置からカーソルの空間内での位置を算出する処理である。逆変換処理は、表示用画像データを、形状情報を用いたジオメトリ変換によって、全方位画像データに変換する処理に相当する。この逆変換処理を用いれば、ユーザにより指定された、表示用画像上の位置を示す情報が、全方位画像における位置に変換される。
 また、特定部15が変換処理に係る変換前の画像データと変換後の表示用画像データとの位置の対応関係を参照することでユーザにより指定された位置からカーソルの空間内での位置を算出する処理の第二例は、カーソルがスピーカ31等に重ねられたときに、全方位画像におけるカーソルの位置を示す方位角および仰角を取得する処理である。上記逆変換処理が可能である場合には、上記第一例および第二例の両方が利用され得るが、上記逆変換処理が不可能または定義されない場合には、第二例の方法が有効である。第二例の方法について図10を参照しながら説明する。
 図10及び図11は、本実施の形態に係るカーソルの空間内での位置を算出する方法を示す説明図である。図10の(a)は、全方位画像を示しており、横軸が方位角を示し、縦軸が仰角を示している。また、カーソル66が表示されている。
 図10の(b)は、全方位画像を表示面に表示した状態を示している。カーソル66に対応する表示面上の位置にカーソル66Aが表示されている。
 ユーザは、図10の(b)に示される光景を見て、カーソル66Aをスピーカ67に重ねるように操作する。特定部15は、カーソル66Aがスピーカ67に重なっているとき(図10の(b)参照)のカーソル66の位置の方位角および仰角を取得することで、カーソルの空間内での位置を取得する(図10の(a)参照)。
 なお、図10の(b)では、カーソル66Aが、ジオメトリ変換により変形されている。具体的には、図10の(a)においてほぼ真円として表現されているカーソル66は、図10の(b)において楕円として表現されている。このようにカーソルの画像が変形されるのを回避するために、カーソル66、66Aの代わりに、全方位画像上での水平線68Aおよび垂直線68Bの交点により位置を指定することもできる(図11の(a)および(b)参照)。このとき、水平線68Aに対応する線は、表示面に線68Cとして表示されており、垂直線68Bに対応する線は、表示面に線68Dとして表示されている。ユーザは、線68Cと線68Dとの交点を用いて位置をしていすることができる。このようにすれば、図10の(b)のように、カーソルの画像が変形されることを回避できる。
 (実施の形態の変形例)
 本変形例において、音響の提示に用いる複数のスピーカに関する位置の情報をより容易に取得する制御装置などについて説明する。具体的には、本実施の形態の制御装置は、配置されている複数のスピーカによって構成される仮想スピーカの位置をより容易に取得する制御装置である。
 なお、本変形例では、実在するスピーカ、つまり、上記実施の形態で単にスピーカと呼んでいたものを物理スピーカといい、物理スピーカによって仮想的に構成されるスピーカを仮想スピーカという。
 図12は、物理スピーカによって仮想的に構成される仮想スピーカの説明図である。仮想スピーカの構成の方法の一例として、VBAP(Vector Base Amplitude Panning)を採用し得る。
 図12において、ユーザUの周囲に物理スピーカS1、S2、S3が存在している。このとき、物理スピーカS1、S2、S3それぞれのゲインを適切に調整することで、物理スピーカS1、S2、S3によって仮想スピーカVを仮想的に構成することができる。このとき、ユーザUは、仮想スピーカVの位置に音源があると認識し、つまり、仮想スピーカVを仮想音源として認識する。
 より具体的には、仮想スピーカVの視聴位置からの方向ベクトルPは、物理スピーカS1、S2、S3それぞれの視聴位置からの方向ベクトルL1、L2、L3、ならびに、ゲインg1、g2、g3を用いて以下の(式2)のように表現される。
 P=g1・L1+g2・L2+g3・L3     (式2)
 これにより、ゲインg1、g2、g3がそれぞれ適切に設定された物理スピーカS1、S2、S3により、物理スピーカS1、S2、S3が形成する凸包内の任意の位置に仮想スピーカVが仮想的に構成される。なお、仮想スピーカが音を出力するときに、物理スピーカS1、S2、S3も音を出力することができる。この場合、物理スピーカS1、S2、S3それぞれは、当該スピーカが出力すべき音と仮想スピーカに寄与する音とを合成した音を出力する。
 このように、仮想スピーカVの構成には、仮想スピーカVの視聴位置からの方向ベクトルP、つまり、仮想スピーカの方位角および仰角が必要である。しかしながら、仮想スピーカの方位角および仰角は、例えばユーザが角度を指定するなどして設定することが難しい。
 そこで、制御装置10により、仮想スピーカの位置をより容易に取得する方法を説明する。
 本変形例に係る制御装置の構成は、原則、実施の形態に係る制御装置10と同様である。以降では、実施の形態に係る制御装置10における機能と異なる部分を主に説明する。
 受付部14は、ユーザによる操作に基づいてカーソルが、複数のスピーカ31等によって仮想的に構成される1以上の仮想スピーカそれぞれの位置に重ねられたときのカーソルの位置を取得することによって、1以上の仮想スピーカの位置の指定を受ける。
 特定部15は、受付部14が受けた1以上の仮想スピーカの表示用画像上での位置の指定に基づいて、1以上の仮想スピーカの空間内での位置を算出する。また、特定部15は、複数のスピーカ31等に関する空間内の位置として、1以上の仮想スピーカの位置を特定する。
 音制御部16は、特定部15が特定した1以上の仮想スピーカの空間内の位置に基づいて、複数のスピーカ31等および1以上の仮想スピーカによってユーザに音響を提示する場合における、複数のスピーカ31等それぞれに供給される駆動音源信号を算出し、複数のスピーカ31等により出力させる制御をする。なお、音制御部16の上記の機能部分は、第二音制御部に相当する。
 図13を参照しながら具体的に説明する。
 図13は、本実施の形態に係る制御装置10による仮想スピーカの位置の取得方法を示す模式図である。なお、図13において、後方のスピーカ35、36、37、38の図示は、図7と同様に省略している。
 図13に示されるように、受付部14は、表示制御部13による制御により、表示面に表示された表示用画像にカーソル71を重畳表示させる。カーソル71の形状は、どのようなものであってもよいが、例えば、スピーカを模した形状を有する。スピーカを模した形状を有するカーソル71を用いると、ユーザが、仮想スピーカの位置の指定をしていることを直感的に認識できるメリットがある。
 受付部14は、ユーザによる操作を受け付けると、受け付けた操作に対応して、表示されているカーソルの位置を移動させる。
 ユーザは、カーソル71の位置を視認しながら移動させる操作を受付部14に行い、仮想スピーカを配置したい位置にカーソル71に重ね、現在のカーソルの位置を選択する操作(選択操作ともいう)を受付部14に行う。
 受付部14は、選択操作がなされたときのカーソルの表示用画像上での位置を取得する。そして、受付部14は、取得した、カーソルの表示用画像上での位置に対して、変換処理に係る変換前の画像データと変換後の表示用画像データとの位置の対応関係を参照することで、カーソルの空間内での位置(具体的には方位角θおよび仰角φ)を、構成すべき仮想スピーカの位置であると特定する。このようにして、受付部14は、構成すべき仮想スピーカの位置つまり方位角及び仰角を特定する。
 なお、制御装置10は、上記実施の形態と同様にして、仮想スピーカのディレイまたはゲインを含む音響パラメータを設定することもできる。この場合、音制御部16は、音響パラメータを設定した仮想スピーカが出力する音に対して、上記指定にかかる音響パラメータを適用したうえで音を出力する。このとき、音響パラメータの指定を受けるための調整画像として、図7に示される調整画像52が用いられ得る。
 なお、制御装置10は、仮想スピーカを構成する物理スピーカの指定を受けることもできる。その場合、受付部14は、ユーザによる操作に基づいて、複数のスピーカ31等のうち、1以上の仮想スピーカに含まれる一の仮想スピーカを仮想的に構成する複数のスピーカである複数の指定スピーカそれぞれの位置に、カーソルが重ねられたときのカーソルの位置を取得することによって、複数の指定スピーカの位置の指定を受ける。音制御部16は、受付部14が指定を受けた複数の指定スピーカを用いて1以上の仮想スピーカを仮想的に構成するように、複数のスピーカ31等に供給される駆動音源信号を算出し、算出した駆動音源信号を出力させる。なお、すでに物理スピーカの位置が算出されている場合には、受付部14は、算出されている物理スピーカの位置を示す情報を読み出すことで、複数の指定スピーカの位置の指定を受けることもできる。
 これにより、制御装置は、音響の提示に用いる仮想スピーカの位置の情報に加えて、仮想スピーカを構成する物理スピーカの指定を、より容易に受けることができる。
 以上のように、本実施の形態および本変形例の制御装置は、空間内に配置される複数のスピーカによってユーザに提示する音響を制御する制御装置である。制御装置は、表示面に表示するための画像データを取得し、表示面の形状を示す形状情報を用いた変換処理を用いて、取得した画像データから表示用画像データを生成する生成部と、生成部が生成した表示用画像データを用いて、表示面に表示用画像を表示させる表示制御部と、表示された表示用画像にカーソルを重畳表示させ、カーソルを視認したユーザから、表示用画像上での複数のスピーカに関する位置の指定を受ける受付部と、変換処理に係る変換前の画像データと変換後の表示用画像データとの対応関係を参照することで、ユーザによる位置の指定から空間内でのカーソルの位置を算出し、算出したカーソルの位置を、複数のスピーカに関する位置として特定する特定部とを備える。
 これによれば、制御装置は、変換処理に係る変換前の画像データと変換後の表示用画像データとの位置の対応関係を参照することで、複数のスピーカに関する位置であって、空間内での位置(つまり、空間に対する位置)を取得できる。ここで、制御装置は、視聴位置にいるユーザが、自身から見て直感的に画像上で指定した位置を用いて、複数のスピーカの位置に関する情報(例えば、方位角および仰角)を取得するので、複数のスピーカの位置に関する情報(例えば方位角などを示す数値)の入力をユーザから直接に受ける必要がない。よって、制御装置は、音響の提示に用いる複数のスピーカに関する位置の情報を、より容易に取得することができる。
 また、受付部は、位置の指定として、ユーザによる操作に基づいてカーソルが複数のスピーカそれぞれに重ねられたときのカーソルの位置を取得することによって、複数のスピーカの位置の指定を受け、特定部は、複数のスピーカに関する位置として、複数のスピーカの位置を特定し、制御装置は、さらに、特定部が特定した複数のスピーカの位置に基づいて、複数のスピーカによってユーザに音響を提示する場合における、複数のスピーカそれぞれに供給される駆動音源信号を算出し、複数のスピーカの出力を制御する第一音制御部を備えてもよい。
 これによれば、制御装置は、ユーザに音響を提示するための複数のスピーカの位置を、ユーザが直感的に画像上で指定した位置を用いて取得する。取得した複数のスピーカの位置は、音響の提示の際に複数のスピーカに供給される駆動音源信号の算出に用いられる。よって、制御装置は、音響の提示に用いる複数のスピーカの位置の情報を、より容易に取得することができる。
 また、受付部は、複数のスピーカのうち対象スピーカの音響パラメータの指定を受けるための調整画像を表示用画像に重畳表示させ、調整画像を視認したユーザから、対象スピーカの音響パラメータの指定を受け、第一音制御部は、対象スピーカに供給される駆動音源信号に対して、指定にかかる音響パラメータを適用してから、対象スピーカの出力を制御してもよい。
 これによれば、制御装置は、対象スピーカの音響パラメータの指定を、表示面に表示された調整画像を視認したユーザから受けることができる。ここで、ユーザは、表示面に表示された調整画像上で直感的に指定した音響パラメータの指定値を用いて、対象スピーカの音響パラメータを指定するので、音響パラメータの指定値の入力をユーザから直接に受ける必要がない。よって、制御装置は、音響の提示に用いる複数のスピーカに関する位置の情報に加えて、複数のスピーカの音響パラメータを、より容易に取得することができる。
 また、受付部は、位置の指定として、ユーザによる操作に基づいて、複数のスピーカによって仮想的に構成される1以上の仮想スピーカそれぞれの位置に、カーソルが重ねられたときのカーソルの位置を取得することによって、1以上の仮想スピーカの位置の指定を受け、特定部は、受付部が受けた1以上の仮想スピーカの位置の指定に基づいて、空間内での1以上の仮想スピーカの位置を算出し、複数のスピーカに関する位置として、1以上の仮想スピーカの位置を特定し、制御装置は、さらに、特定部が特定した1以上の仮想スピーカの位置に基づいて、複数のスピーカおよび1以上の仮想スピーカによってユーザに音響を提示する場合における、複数のスピーカそれぞれに供給される駆動音源信号を算出し、複数のスピーカの出力を制御する第二音制御部を備えてもよい。
 これによれば、制御装置は、ユーザに音響を提示するための仮想スピーカの位置を、ユーザが直感的に画像上で指定した位置を用いて取得する。取得した仮想のスピーカの位置は、音響の提示の際に仮想スピーカに供給される駆動音源信号の算出に用いられる。よって、制御装置は、音響の提示に用いる仮想スピーカの位置の情報を、より容易に取得することができる。
 また、受付部は、位置の指定として、ユーザによる操作に基づいて、複数のスピーカのうち、1以上の仮想スピーカに含まれる一の仮想スピーカを仮想的に構成する複数の指定スピーカそれぞれの位置に、カーソルが重ねられたときのカーソルの位置を取得することによって、複数の指定スピーカの位置の指定を受け、第二音制御部は、受付部が指定を受けた複数の指定スピーカを用いて1以上の仮想スピーカを仮想的に構成するように、複数のスピーカそれぞれに供給される駆動音源信号を算出してもよい。
 これによれば、制御装置は、仮想スピーカを仮想的に構成する物理スピーカの指定を、表示面に表示されたカーソルを用いてユーザから受けることができる。ここで、ユーザは、表示面に表示されたカーソルを移動させて、上記物理スピーカを指定するので、上記物理スピーカを指定する情報を別途ユーザから受ける必要がない。よって、制御装置は、音響の提示に用いる仮想スピーカの位置の情報に加えて、仮想スピーカを構成する物理スピーカの指定を、より容易に受けることができる。
 また、複数のスピーカに関する位置は、ユーザの視聴位置から見た場合の複数のスピーカの方位角および仰角を含んでもよい。
 これによれば、制御装置は、視聴位置にいるユーザが、自身から見て直感的に画像上で指定した位置を用いて、複数のスピーカの位置に関する情報である方位角および仰角を取得するので、これらの情報の入力をユーザから直接に受ける必要がない。よって、制御装置は、音響の提示に用いる複数のスピーカに関する位置の情報を、より容易に取得することができる。
 また、制御装置は、さらに、複数のスピーカを備えてもよい。
 これによれば、制御装置は、音響の提示に用いる複数のスピーカに関する位置の情報を、より容易に取得することができ、さらに、複数のスピーカによって音響を提示することができる。
 また、本開示における制御装置の処理方法は、空間内に配置される複数のスピーカによってユーザに提示する音響を制御する制御装置の処理方法であって、表示面に表示するための画像データを取得し、表示面の形状を示す形状情報を用いた変換処理を用いて、取得した画像データから表示用画像データを生成する生成ステップと、生成ステップで生成した表示用画像データを用いて、表示面に表示用画像を表示させる表示制御ステップと、表示された表示用画像にカーソルを重畳表示させ、カーソルを視認したユーザから、表示用画像上での複数のスピーカに関する位置の指定を受ける受付ステップと、変換処理に係る変換前の画像データと変換後の表示用画像データとの対応関係を参照することで、ユーザによる位置の指定から空間内でのカーソルの位置を算出し、算出したカーソルの位置を、複数のスピーカに関する位置として特定する特定ステップとを含む。
 これによれば、上記制御装置と同様の効果を奏する。
 また、本開示におけるプログラムは、上記の情報処理方法をコンピュータに実行させるためのプログラムである。
 これによれば、上記制御装置と同様の効果を奏する。
 以上のように、本開示における技術の例示として、実施の形態を説明した。そのために、添付図面および詳細な説明を提供した。
 したがって、添付図面および詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、上記実装を例示するために、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。
 また、上述の実施の形態は、本開示における技術を例示するためのものであるから、請求の範囲またはその均等の範囲において種々の変更、置き換え、付加、省略などを行うことができる。
 本開示は、複数のスピーカによってユーザに提示する音響を制御する制御装置に適用可能である。
 1  提示システム
 10  制御装置
 11  記憶部
 12  生成部
 13  表示制御部
 14  受付部
 15  特定部
 16  音制御部
 20  表示装置
 31、32、33、34、35、36、37、38、67、S1、S2、S3、Si  スピーカ
 51、66、66A、71  カーソル
 52  調整画像
 61、62、63、64、65  画像
 B  破線
 M  マイク
 U  ユーザ
 V  仮想スピーカ

Claims (9)

  1.  空間内に配置される複数のスピーカによってユーザに提示する音響を制御する制御装置であって、
     表示面に表示するための画像データを取得し、前記表示面の形状を示す形状情報を用いた変換処理を用いて、取得した前記画像データから表示用画像データを生成する生成部と、
     前記生成部が生成した前記表示用画像データを用いて、前記表示面に表示用画像を表示させる表示制御部と、
     表示された前記表示用画像にカーソルを重畳表示させ、前記カーソルを視認した前記ユーザから、前記表示用画像上での前記複数のスピーカに関する位置の指定を受ける受付部と、
     前記変換処理に係る変換前の前記画像データと変換後の前記表示用画像データとの対応関係を参照することで、前記ユーザによる前記位置の指定から前記空間内での前記カーソルの位置を算出し、算出した前記カーソルの位置を、前記複数のスピーカに関する位置として特定する特定部とを備える
     制御装置。
  2.  前記受付部は、前記位置の指定として、
     前記ユーザによる操作に基づいて前記カーソルが前記複数のスピーカそれぞれに重ねられたときの前記カーソルの位置を取得することによって、前記複数のスピーカの位置の指定を受け、
     前記特定部は、
     前記複数のスピーカに関する位置として、前記複数のスピーカの位置を特定し、
     前記制御装置は、さらに、
     前記特定部が特定した前記複数のスピーカの位置に基づいて、前記複数のスピーカによって前記ユーザに音響を提示する場合における、前記複数のスピーカそれぞれに供給される駆動音源信号を算出し、前記複数のスピーカの出力を制御する第一音制御部を備える
     請求項1に記載の制御装置。
  3.  前記受付部は、前記複数のスピーカのうちの対象スピーカの音響パラメータの指定を受けるための調整画像を前記表示用画像に重畳表示させ、前記調整画像を視認したユーザから、前記対象スピーカの前記音響パラメータの指定を受け、
     前記第一音制御部は、前記対象スピーカに供給される前記駆動音源信号に対して、前記指定にかかる前記音響パラメータを適用してから、前記対象スピーカの出力を制御する
     請求項2に記載の制御装置。
  4.  前記受付部は、前記位置の指定として、前記ユーザによる操作に基づいて、前記複数のスピーカによって仮想的に構成される1以上の仮想スピーカそれぞれの位置に、前記カーソルが重ねられたときの前記カーソルの位置を取得することによって、前記1以上の仮想スピーカの位置の指定を受け、
     前記特定部は、
     前記受付部が受けた前記1以上の仮想スピーカの位置の指定に基づいて、前記空間内での前記1以上の仮想スピーカの位置を算出し、
     前記複数のスピーカに関する位置として、前記1以上の仮想スピーカの位置を特定し、
     前記制御装置は、さらに、
     前記特定部が特定した前記1以上の仮想スピーカの位置に基づいて、前記複数のスピーカおよび前記1以上の仮想スピーカによって前記ユーザに音響を提示する場合における、前記複数のスピーカそれぞれに供給される駆動音源信号を算出し、前記複数のスピーカの出力を制御する第二音制御部を備える
     請求項1に記載の制御装置。
  5.  前記受付部は、前記位置の指定として、
     前記ユーザによる操作に基づいて、前記複数のスピーカのうち、前記1以上の仮想スピーカに含まれる一の仮想スピーカを仮想的に構成する複数の指定スピーカそれぞれの位置に、前記カーソルが重ねられたときの前記カーソルの位置を取得することによって、前記複数の指定スピーカの位置の指定を受け、
     前記第二音制御部は、
     前記受付部が指定を受けた前記複数の指定スピーカを用いて前記1以上の仮想スピーカを仮想的に構成するように、前記複数のスピーカそれぞれに供給される駆動音源信号を算出する
     請求項4に記載の制御装置。
  6.  前記複数のスピーカに関する位置は、前記ユーザの視聴位置から見た場合の前記複数のスピーカの方位角および仰角を含む
     請求項1~5のいずれか1項に記載の制御装置。
  7.  さらに、前記複数のスピーカを備える
     請求項1~6のいずれか1項に記載の制御装置。
  8.  空間内に配置される複数のスピーカによってユーザに提示する音響を制御する制御装置の処理方法であって、
     表示面に表示するための画像データを取得し、前記表示面の形状を示す形状情報を用いた変換処理を用いて、取得した前記画像データから表示用画像データを生成する生成ステップと、
     前記生成ステップで生成した前記表示用画像データを用いて、前記表示面に表示用画像を表示させる表示制御ステップと、
     表示された前記表示用画像にカーソルを重畳表示させ、前記カーソルを視認した前記ユーザから、前記表示用画像上での前記複数のスピーカに関する位置の指定を受ける受付ステップと、
     前記変換処理に係る変換前の前記画像データと変換後の前記表示用画像データとのの対応関係を参照することで、前記ユーザによる前記位置の指定から前記空間内での前記カーソルの位置を算出し、算出した前記カーソルの位置を、前記複数のスピーカに関する位置として特定する特定ステップとを含む
     制御装置の処理方法。
  9.  請求項8に記載の制御装置の処理方法をコンピュータに実行させるためのプログラム。
PCT/JP2021/015526 2020-04-28 2021-04-15 制御装置、制御装置の処理方法、および、プログラム WO2021220821A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022517626A JP7457893B2 (ja) 2020-04-28 2021-04-15 制御装置、制御装置の処理方法、および、プログラム
US17/967,471 US20230037195A1 (en) 2020-04-28 2022-10-17 Control device, processing method for control device, and storage medium storing program for processing method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020078890 2020-04-28
JP2020-078890 2020-04-28

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/967,471 Continuation US20230037195A1 (en) 2020-04-28 2022-10-17 Control device, processing method for control device, and storage medium storing program for processing method

Publications (1)

Publication Number Publication Date
WO2021220821A1 true WO2021220821A1 (ja) 2021-11-04

Family

ID=78332384

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/015526 WO2021220821A1 (ja) 2020-04-28 2021-04-15 制御装置、制御装置の処理方法、および、プログラム

Country Status (3)

Country Link
US (1) US20230037195A1 (ja)
JP (1) JP7457893B2 (ja)
WO (1) WO2021220821A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008276102A (ja) * 2007-05-07 2008-11-13 Ohira Giken:Kk 映像投影システム
WO2017110882A1 (ja) * 2015-12-21 2017-06-29 シャープ株式会社 スピーカの配置位置提示装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008276102A (ja) * 2007-05-07 2008-11-13 Ohira Giken:Kk 映像投影システム
WO2017110882A1 (ja) * 2015-12-21 2017-06-29 シャープ株式会社 スピーカの配置位置提示装置

Also Published As

Publication number Publication date
JP7457893B2 (ja) 2024-03-29
JPWO2021220821A1 (ja) 2021-11-04
US20230037195A1 (en) 2023-02-02

Similar Documents

Publication Publication Date Title
CN111466124B (zh) 用于渲染用户的视听记录的方法,处理器系统和计算机可读介质
JP5611463B2 (ja) 携帯用通信装置および有向音声出力を使用する通信の円滑化
US7606372B2 (en) Device and method for determining a reproduction position
RU2586842C2 (ru) Устройство и способ преобразования первого параметрического пространственного аудиосигнала во второй параметрический пространственный аудиосигнал
US8571192B2 (en) Method and apparatus for improved matching of auditory space to visual space in video teleconferencing applications using window-based displays
US20150189457A1 (en) Interactive positioning of perceived audio sources in a transformed reproduced sound field including modified reproductions of multiple sound fields
US10681276B2 (en) Virtual reality video processing to compensate for movement of a camera during capture
US20050275914A1 (en) Binaural horizontal perspective hands-on simulator
US20150189455A1 (en) Transformation of multiple sound fields to generate a transformed reproduced sound field including modified reproductions of the multiple sound fields
JP4498280B2 (ja) 再生位置を決定するための装置及び方法
JP2022116221A (ja) 空間オーディオに関する方法、装置およびコンピュータプログラム
TW201507493A (zh) 聲音處理裝置及方法、以及程式
CN103826112B (zh) 投影装置及投影状态调整方法
JP2023024471A (ja) 情報処理装置および情報処理方法
US10887720B2 (en) Emphasis for audio spatialization
JP5598790B2 (ja) 映像表示システム
WO2021220821A1 (ja) 制御装置、制御装置の処理方法、および、プログラム
JP2018157314A (ja) 情報処理システム、情報処理方法及びプログラム
JP6431225B1 (ja) 音響処理装置、映像音響処理装置、映像音響配信サーバおよびそれらのプログラム
US11706562B2 (en) Transducer steering and configuration systems and methods using a local positioning system
JP2010282294A (ja) 情報処理装置、情報処理方法及びプログラム
JP5779140B2 (ja) 映像生成システム及び映像生成方法
KR20240070333A (ko) 가상 스크린 내 오브젝트 위치를 이용한 스피커 제어 장치 및 방법
JP2017184154A (ja) 収音再生装置、収音再生プログラム、収音装置及び再生装置
WO2020066699A1 (ja) 情報統合方法、情報統合装置、及び情報統合プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21797899

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022517626

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21797899

Country of ref document: EP

Kind code of ref document: A1