WO2023199778A1 - 音響信号処理方法、プログラム、音響信号処理装置、および、音響信号再生システム - Google Patents

音響信号処理方法、プログラム、音響信号処理装置、および、音響信号再生システム Download PDF

Info

Publication number
WO2023199778A1
WO2023199778A1 PCT/JP2023/013817 JP2023013817W WO2023199778A1 WO 2023199778 A1 WO2023199778 A1 WO 2023199778A1 JP 2023013817 W JP2023013817 W JP 2023013817W WO 2023199778 A1 WO2023199778 A1 WO 2023199778A1
Authority
WO
WIPO (PCT)
Prior art keywords
acoustic signal
acoustic
audio
processing
signal processing
Prior art date
Application number
PCT/JP2023/013817
Other languages
English (en)
French (fr)
Inventor
成悟 榎本
陽 宇佐見
康太 中橋
宏幸 江原
摩里子 山田
智一 石川
耕 水野
Original Assignee
パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ filed Critical パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Publication of WO2023199778A1 publication Critical patent/WO2023199778A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control

Definitions

  • the present disclosure relates to an audio signal processing method, a program, an audio signal processing device, and an audio signal reproduction system.
  • Patent Document 1 discloses an apparatus that performs a plurality of acoustic processes on an acoustic signal using a pipeline (pipeline processing).
  • the present disclosure provides an audio signal processing method and the like that can appropriately perform multiple audio processes performed in a pipeline on an audio signal.
  • acoustic signal processing methods that can appropriately execute pipeline processing even on devices with limited computing power, such as smartphones and head-mounted displays, while preventing perceptible deterioration of sound quality and acoustic effects. I will provide a.
  • An acoustic signal processing method is an acoustic signal processing method executed by an acoustic signal processing device, which includes an acquisition step of acquiring an acoustic signal, and priority information indicating a priority associated with the acoustic signal. a determining step of determining whether or not to perform each of the plurality of acoustic processes to be executed in the pipeline on the acoustic signal based on the above; and applying the acoustic processing determined to be executed in the determining step to the acoustic signal. and a sound processing step performed on the sound.
  • a program according to one aspect of the present disclosure is a program for causing a computer to execute the acoustic signal processing method described above.
  • An acoustic signal processing device includes an acquisition unit that acquires an acoustic signal, and a plurality of acoustic processes executed in a pipeline based on priority information indicating a priority associated with the acoustic signal.
  • the apparatus includes a determining unit that determines whether or not to perform each of the acoustic processes on the acoustic signal, and an audio processing unit that executes the acoustic processing determined by the determining unit to be executed on the acoustic signal.
  • An acoustic signal reproduction system includes the acoustic signal processing device described above, and a driver that generates sound based on the acoustic signal on which the acoustic processing determined to be executed by the determination unit has been performed. Be prepared.
  • an audio signal processing method and the like that can appropriately perform a plurality of audio processes performed in a pipeline on an audio signal.
  • FIG. 1 is a block diagram showing the functional configuration of an audio signal reproduction system according to an embodiment.
  • FIG. 2 is a diagram for explaining a plurality of audio processes executed in a pipeline by the audio signal processing device according to the embodiment.
  • FIG. 3 is a diagram showing priority information according to the embodiment.
  • FIG. 4 is a diagram showing a first example of a plurality of audio processes executed in a pipeline by the audio signal processing device according to the embodiment.
  • FIG. 5 is a diagram showing a second example of a plurality of audio processes executed in a pipeline by the audio signal processing device according to the embodiment.
  • FIG. 6 is a flowchart showing a processing procedure of priority update processing of the acoustic signal processing device according to the embodiment.
  • FIG. 7 is a flowchart showing the processing procedure of the acoustic signal processing device according to the embodiment.
  • FIG. 1 is a block diagram showing the functional configuration of an audio signal reproduction system 200 according to an embodiment.
  • the acoustic signal reproduction system 200 is a system that performs acoustic processing on an acoustic signal and generates sound based on the acoustic signal subjected to acoustic processing.
  • the audio signal reproduction system 200 is a system that reproduces stereophonic sound by performing a plurality of audio processes on an audio signal in a pipeline.
  • the audio signal reproduction system 200 is used simultaneously with a display device that displays images for a visual VR or AR experience, and a device for stereoscopic video reproduction (both not shown).
  • the acoustic signal reproduction system 200 is realized by, for example, a computer such as a personal computer or a smartphone, and a head mounted display (HMD) (not shown) worn by a user.
  • a server may perform all or part of the function of the renderer. That is, all or part of the acquisition unit 110, the determination unit 120, the audio processing unit 130, and the storage unit 140 may exist in a server (not shown).
  • the acoustic signal reproduction system 200 is realized by combining, for example, a computer such as a personal computer or a smartphone, an HMD (not shown) worn by the user, and a server (not shown).
  • the computer, HMD, and server may be communicably connected through the same network, or may be connected through different networks. If the computer, HMD, and server are connected to the same network so that they can communicate, there is a high possibility that communication will be delayed. Good too. Further, depending on the amount of bitstream data that the audio signal reproduction system 200 receives, it may be determined whether the server takes on all or part of the functions of the renderer.
  • the acoustic signal reproduction system 200 changes the sound presented according to the movement of the user's head, thereby making the user perceive that the user is moving his or her head within a three-dimensional sound field. Therefore, the acoustic signal reproduction system 200 moves the three-dimensional sound field in the direction opposite to the user's movement.
  • the acoustic signal reproduction system 200 includes an acoustic signal processing device 100, a communication module 210, a sensor 220, and a driver 230.
  • the acoustic signal processing device 100 is an arithmetic device for performing various signal processing in the acoustic signal reproduction system 200.
  • the acoustic signal processing device 100 includes a processor such as a CPU (Central Processing Unit) or a DSP (Digital Signal Processor) and a memory, and performs various functions by executing a program stored in the memory by the processor. Demonstrate. The functional configuration of the acoustic signal processing device 100 will be described later.
  • the acoustic signal processing device 100 is communicably connected to a communication module 210, a sensor 220, and a driver 230.
  • the communication module 210 is an interface device for accepting a bitstream to the audio signal reproduction system 200.
  • the communication module 210 includes, for example, an antenna and a signal converter, and receives a bitstream from an external device such as a server via wireless communication.
  • the communication module 210 uses an antenna to receive a wireless signal such as a bit stream containing various information such as an acoustic signal converted into a format for wireless communication, and converts the wireless signal into a wireless signal using a signal converter. Re-converts the data into various information such as acoustic signals.
  • the acoustic signal processing device 100 acquires various information such as acoustic signals from an external device by wireless communication.
  • communication between the acoustic signal reproduction system 200 and an external device may be performed by wired communication.
  • the input data may be stored in a storage device such as the storage unit 140.
  • the sensor 220 is a device for detecting the user's position. Specifically, the sensor 220 detects 6DoF (position (x, y, z) and angle (yaw, pitch, roll) as the user's position.
  • the sensor 220 detects motion detection such as a gyro sensor and an acceleration sensor. It is configured by combining various types of sensors used. For example, when the acoustic signal reproduction system 200 is implemented by a smartphone, the sensor 220 is built into the smartphone.
  • the senor 220 may be built in an external device such as an HMD that operates according to the movement of the user's head. Further, as the sensor 220, an external imaging device or the like may be used to capture an image of the user's head movement, and the captured image may be processed to detect the user's head movement.
  • an external imaging device or the like may be used to capture an image of the user's head movement, and the captured image may be processed to detect the user's head movement.
  • the sensor 220 moves with the user and detects the speed and amount of movement of the user. For example, when the sensor 220 is built into the HMD, it detects the speed and amount of movement of the user's head.
  • the senor 220 may detect, as the speed of the user's head movement, the angular velocity of rotation around at least one of the three axes orthogonal to each other in the sound space, or The acceleration of displacement with one direction of displacement may be detected.
  • the senor 220 may detect, as the amount of movement of the user's head, the amount of rotation about at least one of the three axes orthogonal to each other in the sound space, or the amount of rotation about at least one of the three axes orthogonal to each other in the sound space.
  • the amount of displacement in one direction may be detected.
  • the senor 220 only needs to be able to detect the user's position, and may be realized by a camera, a GPS (Global Positioning System) receiver, or the like.
  • GPS Global Positioning System
  • the senor 220 may include a thermometer such as a thermocouple that detects the temperature of the acoustic signal processing device 100, a sensor that detects the remaining amount of battery connected to the acoustic signal processing device 100, etc. good.
  • the acquisition unit 110 may acquire from the sensor 220 information indicating the temperature of the acoustic signal processing device 100 and information indicating the remaining amount of the battery.
  • the driver 230 is a device that generates sound (sound wave) based on an acoustic signal. Specifically, the driver 230 generates sound based on an acoustic signal that has been subjected to acoustic processing determined to be executed by the determining unit 120, which will be described later.
  • the driver 230 is implemented, for example, by earphones or headphones.
  • the acoustic signal processing device 100 includes an acquisition section 110, a determination section 120, and an acoustic processing section 130.
  • the acquisition unit 110 is a processing unit that acquires various information such as acoustic signals and priority information.
  • the acquisition unit 110 is configured to be able to communicate with a communication module 210, for example, and acquires a bitstream including an audio signal or the like from an external device via the communication module 210.
  • the bitstream includes, for example, an audio signal, priority information, and audio object information.
  • the driver 230 generates sound based on the acoustic signal subjected to acoustic processing by the acoustic signal processing device 100.
  • the priority information is information indicating the priority of each of the plurality of audio processes that are linked to the audio signal and are executed in the pipeline by the audio processing unit 130. For example, when a plurality of acoustic signals are acquired by the acquisition unit 110, the priority information includes information indicating a plurality of priorities corresponding to each of the plurality of acoustic signals. The priority is, for example, indicated by a numerical value. For example, the priority information individually indicates the priority for each of the plurality of audio signals.
  • the audio signal may be a single channel or may be a multichannel signal such as stereo. That is, a bitstream may include two or more audio signals, each having a single channel of sound information, or one or more multichannel audio signals having multiple channels of sound information. You can leave it there.
  • the audio object information is information regarding an object (audio object) that generates a sound based on an audio signal, that is, that reproduces the audio signal.
  • the audio object information includes, for example, information indicating the position of the audio object placed in the sound space, information regarding the orientation of the audio object, information regarding the directionality of the sound emitted by the audio object, and information indicating whether the audio object belongs to a living creature. information, and information indicating whether the audio object is a moving object.
  • the audio signal corresponds to one or more audio objects indicated by the audio object information.
  • the acquisition unit 110 acquires position information indicating the user's position from the sensor 220. By acquiring the audio object information included in the bitstream and the position information acquired from the sensor 220, the acquisition unit 110 acquires spatial information including the audio object information and the position information.
  • the acoustic signal is Conversion is performed.
  • the position and direction of the listening point may be changed, for example, in accordance with the movement of the user's head.
  • audio object information is information about objects that generate acoustic signals
  • a bitstream can also include information about not only sound source objects such as audio objects but also non-sound source objects that do not generate acoustic signals. It's okay.
  • the priority information, audio object information, and non-sound source object information may be referred to as meta information as information used to control audio processing for an audio signal in the audio signal reproduction system 200.
  • the meta information may be information used to describe a scene expressed in a sound space.
  • the term "scene” refers to a collection of all elements representing three-dimensional images and audio events in a sound space, which are modeled by the audio signal reproduction system 200 using meta information. That is, the meta information here may include not only information that controls audio processing but also information that controls video processing. Of course, the meta information may include information for controlling only one of the audio processing and the video processing, or may include information used for controlling both.
  • the audio signal reproduction system 200 performs acoustic processing on sound information (acoustic signal) using meta information included in the bitstream and additionally acquired interactive user position information, etc., thereby creating a virtual Generate sound effects.
  • sound information acoustic signal
  • meta information included in the bitstream and additionally acquired interactive user position information, etc.
  • acoustic processing will be performed using meta information.
  • information for switching on/off all or some of the sound effects and priority information of these sound effects may be added to the bitstream as meta information.
  • meta information may be obtained from sources other than the bitstream of sound information.
  • the meta information that controls audio or the meta information that controls video may be obtained from sources other than the bitstream, or both meta information may be obtained from sources other than the bit stream.
  • the audio signal playback system 200 uses the meta information that can be used to control the video to display the image. It may also have a function of outputting to a device or a stereoscopic video playback device that plays back stereoscopic video.
  • the encoded meta information includes information regarding a sound space including audio objects and obstacle objects, and localizing the sound image of the sound at a predetermined position in the sound space (that is, a sound arriving from a predetermined direction).
  • a predetermined position in the sound space that is, a sound arriving from a predetermined direction.
  • Obstacle objects may include animals such as people, or moving objects such as machines, in addition to stationary objects.
  • non-sound source objects such as building materials and inanimate objects and sound source objects that emit sound can be obstruction objects.
  • Meta information includes all information representing the shape of the sound space, the shape and position of obstacle objects existing in the sound space, the shape and position of audio objects existing in the sound space, and the position and orientation of the user in the sound space. or part of it.
  • the sound space may be either a closed space or an open space.
  • the meta information includes information representing the reflectance of a structure that can reflect sound in the sound space, such as a floor, wall, or ceiling, and the reflectance of an obstacle object that exists in the sound space.
  • the reflectance is a ratio of energy between reflected sound and incident sound, and is set for each frequency band of sound.
  • the reflectance may be set uniformly regardless of the frequency band of the sound.
  • parameters such as a uniformly set attenuation rate, diffracted sound, and early reflected sound may be used as meta information.
  • the meta information may also include information other than reflectance.
  • the meta information may include information regarding the material of the object as information related to both the sound source object and the non-sound source object.
  • the meta information may include parameters such as diffusivity, transmittance, and sound absorption coefficient.
  • Meta information may also include information about the sound source object, such as volume, radiation characteristics (directivity), playback conditions, number and type of sound sources emitted from one object, and information specifying the sound source area in the object. good.
  • the playback conditions may determine whether the sound is a continuous sound or a sound triggered by an event.
  • the sound source region in an object may be determined based on the relative relationship between the user's position and the object's position, or may be determined using the object as a reference. When determining the relative relationship between the user's position and the object's position, sound A is emitted from the right side of the object as seen from the user, and sound B is emitted from the left side, based on the surface where the user is looking at the object.
  • Meta-information about the space can include the time to early reflections, reverberation time, ratio of direct sound to diffuse sound, etc. When the ratio of direct sound to diffused sound is zero, only direct sound can be perceived by the user.
  • sound information and meta information may be stored in one bitstream, or may be stored separately in multiple bitstreams.
  • sound information and meta information may be stored in one file, or may be stored separately in multiple files.
  • bitstreams or files may contain information indicating other bitstreams or files that are related to them.
  • the meta information may include information indicating other bitstreams or files related to each of all bitstreams or files.
  • the related bitstreams or files are, for example, bitstreams or files that may be used simultaneously during audio processing.
  • the information received by the audio signal processing device 100 may include a bitstream or file that collectively describes information indicating other related bitstreams or files.
  • the information indicating the other related bitstream or file is, for example, an identifier indicating the other bitstream, a file name indicating the other file, a URL (Uniform Resource Locator), a URI (Uniform Resource Identifier), etc. be.
  • the acquisition unit 110 identifies or acquires the bitstream or file based on information indicating other related bitstreams or files.
  • the bitstream may include information indicating other related bitstreams and information indicating a bitstream or file related to another bitstream or file.
  • the file containing information indicating a related bitstream or file may be a control file such as a manifest file used for content distribution, for example.
  • the acquisition unit 110 acquires device information regarding the state of the acoustic signal processing device 100.
  • the device information includes, for example, information indicating the remaining amount of the battery for driving the acoustic signal processing device 100, information indicating the amount of heat generated by the acoustic signal processing device 100, and information indicating the processing capacity of the acoustic signal processing device 100. Contains at least one of them.
  • the acquisition unit 110 acquires device information from, for example, the sensor 220, the storage unit 140, or an external device such as a server.
  • the determining unit 120 is a processing unit that determines whether to perform each of the plurality of audio processes executed in the pipeline on the audio signal based on priority information indicating the priority associated with the audio signal. .
  • the priority information indicates the priority of each of the plurality of audio processes.
  • the determining unit 120 determines whether to perform each of the plurality of acoustic processes on the acoustic signal based on whether the priority of each of the plurality of acoustic processes is equal to or higher than a threshold value.
  • the threshold value is, for example, indicated by a numerical value.
  • the determining unit 120 determines whether the priority of each of the plurality of audio processes is equal to or higher than the threshold, for example, by comparing the numerical values of the priority and the threshold.
  • the threshold value may be arbitrarily determined and is not particularly limited. Information indicating the threshold value is stored in the storage unit 140, for example.
  • the information indicating the threshold value may be included in the bitstream together with the audio signal or the like, or may be obtained from an external device such as a server.
  • the determining unit 120 may calculate the threshold based on predetermined conditions. For example, the determining unit 120 determines the threshold value based on device information regarding the state of the acoustic signal processing device 100.
  • the acoustic processing unit 130 is a processing unit that performs predetermined acoustic processing on the acoustic signal. Specifically, the audio processing unit 130 performs the audio processing determined to be performed by the determining unit 120 on the audio signal. More specifically, based on the acoustic signal and the spatial information acquired by the acquisition unit 110, the acoustic processing unit 130 detects, in the sound space, a sound based on the acoustic signal and a sound emitted by the audio object indicated by the spatial information. , from a predetermined position, in a predetermined direction, and with a predetermined directivity. For example, the audio processing unit 130 executes a process of converting the acquired digital audio signal into an analog signal, and outputs the converted audio signal. For example, when an acoustic signal is output from the acoustic processing unit 130 to the driver 230, the driver 230 emits a sound based on the acoustic signal.
  • Each processing unit such as the acquisition unit 110, the determination unit 120, and the audio processing unit 130 is realized by, for example, a processor and a memory in which a control program executed by the processor is stored.
  • the storage unit 140 is a storage device that stores various information such as threshold values.
  • the storage unit 140 also stores an HRIR DB (HRIR database) indicating HRIR (Head-Related Impulse Response).
  • HRIR is the response characteristic when one impulse is generated.
  • HRIR is a method that converts expression in the frequency domain to the time domain by Fourier transforming the head-related transfer function, which expresses changes in sound caused by surrounding objects including the ear shell, head, and shoulders as a transfer function. is the response characteristic converted to the expression in .
  • HRIR DB is a database containing such information.
  • the storage unit 140 is realized by, for example, a HDD (Hard Disk Drive) or a flash memory.
  • FIG. 2 is a diagram for explaining a plurality of audio processes executed in a pipeline by the audio signal processing device 100 according to the embodiment.
  • the acquisition unit 110 receives a bitstream including a plurality of audio signals, priority information that is linked one-to-one with the audio signals, and audio object information from an external device such as a server via the communication module 210. get. Further, the acquisition unit 110 acquires position information indicating the user's position from the sensor 220, for example. Further, for example, the acquisition unit 110 acquires device information from the storage unit 140 or the like.
  • the determination unit 120 determines whether to cause the audio processing unit 130 to execute each of the plurality of audio processes executed in the pipeline.
  • the acoustic processing unit 130 performs early reflection processing (S110), obstacle processing (S120), portal processing (S130), blocking processing (S140), and reverberation processing (S150) on the acoustic signal. , execute in the pipeline. Specifically, the acoustic processing unit 130 performs initial reflection processing, obstacle processing, portal processing, blocking processing, and reverberation processing on the acoustic signal in this order. For acoustic signals, early reflection processing, obstacle processing, portal processing, blocking processing, and reverberation processing are examples of acoustic processing.
  • acoustic processing processing according to the propagation of these sounds is performed on acoustic signals.
  • processing is performed on sound reflected by walls and the like.
  • processing is performed on sound diffracted around the obstacle.
  • processing is performed for sounds accompanying diffraction from a door or the like among sounds coming through a wall.
  • a process is performed for sound propagating through a wall.
  • processing is performed on sounds reverberating in a room.
  • FIG. 3 is a diagram showing priority information according to the embodiment.
  • (A) to (D) indicate mutually different audio signals
  • (1) to (5) indicate mutually different audio processing
  • the numbers within the rectangular frame indicate priorities.
  • (1) indicates early reflection processing
  • (2) indicates obstacle processing
  • (3) indicates portal processing
  • (4) indicates blocking processing
  • (5) indicates reverberation processing.
  • the priority is set such that, for example, 0 is low and 3 is high (for example, essential processing), and the higher the numerical value, the more prioritized the audio processing is to be executed.
  • the priority information includes, for example, for the acoustic signal (A), the priority of early reflection processing is 2, the priority of obstacle processing is 2, and the priority of portal processing is 2. 3, indicating that the priority of cutoff processing is 3 and the priority of reverberation processing is 3.
  • the priority information includes, for example, regarding the acoustic signal (B), the priority of early reflection processing is 1, the priority of obstacle processing is 1, the priority of portal processing is 0, and the This indicates that the priority of processing is 1 and the priority of reverberation processing is 2.
  • the above priority information is determined based on the following knowledge.
  • the early reflection processing represented by acoustic processing (1) gives a high priority to an acoustic signal including an attack sound that takes a short time from when the sound starts until it reaches the maximum volume.
  • priority is given to acoustic signals whose main portion of energy is in a low frequency band.
  • the priority of audio processing also depends on the video information presented simultaneously with the audio signal. For example, if the video information is a stone townscape with a church, the priority of reverberation processing for the sound of church bells may be set high.
  • the priority information may be given to the acoustic signals (A) to (D) in advance, or the acoustic signals (A) to (D) may be analyzed when the method, device, or system using the inventive technology is activated. However, the priority information may be calculated.
  • the priority information indicates the priority of the plurality of audio processes (1) to (5) for each of the audio signals (A) to (D).
  • the determining unit 120 determines whether to perform the plurality of audio processes (1) to (5) on each of the audio signals (A) to (D), respectively, based on the priority information.
  • FIG. 4 is a diagram showing a first example of a plurality of audio processes executed in a pipeline by the audio signal processing device 100 according to the embodiment.
  • the example shown in FIG. 4 is a diagram showing an example in which the acoustic signals (A) to (D) are repeatedly acquired by the acquisition unit 110.
  • the priorities associated with the acoustic signals (A) to (D) are the priorities indicated by the priority information shown in FIG.
  • the processes that are not hatched are applied to the acoustic signal.
  • the corresponding acoustic processing is executed, and hatched processes indicate that the corresponding acoustic processing is not executed for the acoustic signal.
  • the acoustic processing unit 130 determines whether acoustic processing is to be performed on the acoustic signal, for example, based on the acoustic signal and spatial information. For example, depending on the type of audio signal or the positional relationship between the user and the driver 230, some audio processing may be unnecessary.
  • the acoustic processing unit 130 determines whether or not to perform acoustic processing (1) to (5) on the acoustic signals (A) to (D), for example, based on the acoustic signal and spatial information, In some cases, depending on the determination result, some or all of the acoustic processes (1) to (5) are not performed on the acoustic signals (A) to (D) (processing OFF based on processing control).
  • acoustic processing (3) is performed on each of the acoustic signals (A) to (C). Instead, other acoustic processing is performed on the acoustic signals (A) to (D). Further, for example, regarding the acoustic signals (A) to (D) acquired by the acquisition unit 110 at time t1, the acoustic processing (3) is not performed on each of the acoustic signals (A) and (C), Other acoustic processing is performed on the acoustic signals (A) to (D).
  • the audio processing unit 130 performs or does not perform a plurality of audio processes on the audio signal, respectively, based on the determination result of the determination unit 120 based on the priority information.
  • the determining unit 120 instructs the audio processing unit 130 to perform the audio processing corresponding to the priority
  • the determining unit 120 instructs the audio processing unit 130 to perform the audio processing corresponding to the priority.
  • the audio processing unit 130 is instructed not to perform the corresponding audio processing (priority control shown in FIG. 2).
  • the amount of processing decreases. In the example shown in FIG. 4, since the priority is 0 at all times t0 to t7, there is no audio processing that is not executed based on the priority.
  • FIG. 5 is a diagram showing a second example of a plurality of audio processes executed in a pipeline by the audio signal processing device 100 according to the embodiment.
  • the example shown in FIG. 5 is a diagram showing an example where the acoustic signals (A) to (D) are repeatedly acquired by the acquisition unit 110.
  • the priorities associated with the acoustic signals (A) to (D) are the priorities indicated by the priority information shown in FIG.
  • the processing that is not hatched is applied to the acoustic signal.
  • the corresponding acoustic processing is executed, and hatched processes (diagonal hatching and dotted hatching) indicate that the corresponding acoustic processing is not executed for the acoustic signal.
  • the threshold value gradually changes from time t0 to time t7.
  • the determining unit 120 determines the threshold value based on device information.
  • the device information may also include information indicating the amount of heat generated by the acoustic signal processing device 100. If the acoustic signal processing device 100 continues to be used or is subjected to a high processing load, the amount of heat generated by the acoustic signal processing device 100 increases. Further, for example, if the audio signal processing device 100 continues to be used, the remaining amount of the battery connected to the audio signal processing device 100 and used to drive the audio signal processing device 100 decreases.
  • the determining unit 120 changes the threshold value to become higher as the amount of heat generated increases or as the remaining battery power decreases. That is, the determining unit 120 changes the threshold value so that the number of acoustic processes that are not executed among the plurality of acoustic processes increases when the amount of heat generated increases or when the remaining battery power decreases.
  • the audio processing (3) is not performed on the audio signal (B) based on the priority information.
  • the threshold value that is initially set may be arbitrary.
  • the threshold value may be predetermined, or may be determined, for example, based on the performance of the audio signal processing device 100 (for example, the performance of the processor included in the audio signal processing device 100).
  • the acoustic signal processing device 100 sets the threshold value such that the higher the performance of the acoustic signal processing device 100, the lower the threshold value.
  • the priority information (that is, the priority indicated by the priority information) may be changed.
  • FIG. 6 is a flowchart showing the processing procedure of the priority update process of the acoustic signal processing device 100 according to the embodiment.
  • the acquisition unit 110 acquires priority information (S210).
  • the acquisition unit 110 acquires spatial information (S220).
  • Steps S210 and S220 are executed, for example, by acquiring a bitstream and position information.
  • Step S210 and step S220 may be executed in any order.
  • the determining unit 120 calculates the positional relationship between the user and the audio object based on the spatial information (S230). For example, the determining unit 120 calculates the user's position in the sound space corresponding to the user's position in the real space, and calculates the relative positional relationship between the user's position in the sound space and the audio object (S230).
  • the determining unit 120 updates the priority information stored in the storage unit 140 based on the information (S240).
  • the determining unit 120 may determine the priority based on the information. Priority information indicating the determined priority may be stored in the storage unit 140.
  • the audio processing unit 130 performs the audio processing determined to be performed as described above on the audio signal, and further converts the audio signal into binaural (S160). Specifically, the acoustic processing unit 130 processes the acoustic signal so that the sound reaches the user from the position of the audio object based on the coordinates and orientation of the user in the sound space (that is, the position and orientation of the listening point). By applying HRIR DB, signal processing is performed so that the sound reaching the user from the position of the audio object placed at a predetermined position in the sound space becomes a reproducible acoustic signal.
  • the acoustic processing unit 130 outputs the acoustic signal on which the signal processing has been performed to the driver 230 (S170). Thereby, the sound processing unit 130 causes the driver 230 to generate a sound wave based on the waveform signal shown in the sound signal, and presents the sound to the user.
  • the acoustic signal processing device 100 described above performs the following processing.
  • FIG. 7 is a flowchart showing the processing procedure of the acoustic signal processing device 100 according to the embodiment.
  • the acquisition unit 110 acquires an acoustic signal (S10).
  • the determining unit 120 determines whether to perform each of the plurality of audio processes executed in the pipeline on the audio signal based on priority information indicating the priority associated with the audio signal ( S20).
  • the acoustic processing unit 130 executes the acoustic processing determined to be executed by the determining unit 120 on the acoustic signal (S30).
  • the acoustic signal that has been subjected to the acoustic processing determined to be executed by the determining unit 120 is output to the driver 230, for example.
  • step S20 if the determining unit 120 determines not to perform all of the plurality of audio processes, the audio processing unit 130 may output the audio signal to the driver 230 without performing any audio processing. good. In this case, for example, the audio processing unit 130 executes steps S160 and S170 without executing steps S110 to S150 shown in FIG. 2.
  • Technique 1 is an acoustic signal processing method executed by the acoustic signal processing device 100, which includes an acquisition step (S10) of acquiring an acoustic signal, and a pipeline processing method based on priority information indicating a priority associated with the acoustic signal. a determining step (S20) for determining whether to perform each of the plurality of acoustic processes performed on the acoustic signal; and an acoustic process for executing the acoustic process determined to be executed in the determining step on the acoustic signal.
  • This is an acoustic signal processing method including step (S30).
  • the plurality of acoustic processes are, for example, early reflection processing (S110), obstacle processing (S120), portal processing (S130), blocking processing (S140), and reverberation processing (S150).
  • one or more of the plurality of audio processes performed in the pipeline is performed on the audio signal, or all of the audio processes are not performed. Therefore, for example, by setting the priority indicated by the priority information based on the user's preference, the intention of the music producer based on the acoustic signal, or the state of the device that generates the sound based on the acoustic signal, Appropriate acoustic processing is performed on the acoustic signal according to these. Therefore, according to the acoustic signal processing method according to one aspect of the present disclosure, a plurality of acoustic processes executed in a pipeline can be appropriately performed on an acoustic signal. For example, according to the acoustic signal processing method according to one aspect of the present disclosure, unnecessary acoustic processing is not performed, so that the amount of processing related to acoustic processing can be reduced.
  • the priority information indicates the priority of each of the plurality of acoustic processes
  • the priority information of the plurality of acoustic processes is determined based on whether the priority of each of the plurality of acoustic processes is equal to or higher than a threshold value.
  • the priority and the threshold are each indicated by numerical values.
  • Technique 3 is the acoustic signal processing method described in Technique 2, in which the threshold value is determined in the determination step based on device information regarding the state of the acoustic signal processing device 100.
  • a threshold value according to the state of the acoustic signal processing device 100 is determined. Therefore, depending on the state of the acoustic signal processing device 100, it can be easily determined whether to perform each of the plurality of acoustic processes on the acoustic signal.
  • the device information includes information indicating the remaining amount of battery for driving the acoustic signal processing device 100, information indicating the amount of heat generated by the acoustic signal processing device 100, and information indicating the processing capacity of the acoustic signal processing device 100.
  • the acoustic signal processing method according to technique 3 includes at least one of the information.
  • the remaining amount of the battery for driving the acoustic signal processing device 100 which is particularly related to acoustic processing, the amount of heat generated by the acoustic signal processing device 100, and the acoustic
  • Technique 5 is the acoustic signal processing method according to any one of techniques 1 to 4, wherein in the determining step, the priority indicated by the priority information is determined based on position information indicating the position of the user of the acoustic signal processing device 100. It is.
  • the important sound processing among the multiple sound processes changes depending on the positional relationship between the user and the audio object. Therefore, by changing the priority based on the user's position, particularly important acoustic processing can be appropriately executed.
  • Technique 6 is a program for causing a computer to execute the acoustic signal processing method described in any one of Techniques 1 to 5.
  • Technique 7 is based on an acquisition unit 110 that acquires an acoustic signal and priority information indicating a priority associated with the acoustic signal, and performs a plurality of acoustic processes executed in a pipeline on each acoustic signal.
  • the acoustic signal processing device 100 includes a determining unit 120 that determines whether or not to perform the audio processing, and an audio processing unit 130 that executes the audio processing determined to be performed by the determining unit 120 on the audio signal.
  • Technique 8 is an acoustic signal reproduction system comprising the acoustic signal processing device 100 according to Technique 7 and a driver 230 that generates sound based on the acoustic signal on which the acoustic processing determined to be executed by the determining unit 120 has been performed. It is 200.
  • the user is provided with sound based on the acoustic signal that has been appropriately subjected to acoustic processing by the acoustic signal processing device 100.
  • the acoustic signal reproduction system 200 described in the above embodiment may be realized as a single device including all the components, or each function may be allocated to a plurality of devices, and the plurality of devices may cooperate. It may be realized by In the latter case, for example, an information processing device such as a smartphone, a tablet terminal, or a personal computer may be used in the acoustic signal processing device 100 as a device corresponding to a processing module.
  • an information processing device such as a smartphone, a tablet terminal, or a personal computer may be used in the acoustic signal processing device 100 as a device corresponding to a processing module.
  • the acoustic signal processing device 100 is connected to a playback device that includes only the driver 230, and is implemented as an acoustic signal processing device that only performs sound processing on the acquired acoustic signal and outputs the result to the playback device. You can also.
  • the acoustic signal processing device 100 may be realized as hardware including a dedicated circuit, or may be realized as software that causes a general-purpose processor to execute specific processing.
  • the processing executed by a specific processing unit may be executed by another processing unit. Further, the order of the plurality of processes may be changed, or the plurality of processes may be executed in parallel.
  • each component may be realized by executing a software program suitable for each component.
  • Each component may be realized by a program execution unit such as a CPU or a processor reading and executing a software program recorded on a recording medium such as a hard disk or a semiconductor memory.
  • each component may be realized by hardware.
  • each component may be a circuit (or integrated circuit). These circuits may constitute one circuit as a whole, or may be separate circuits. Further, each of these circuits may be a general-purpose circuit or a dedicated circuit.
  • general or specific aspects of the present disclosure may be implemented in an apparatus, system, method, integrated circuit, computer program, or non-transitory storage medium such as a computer-readable CD-ROM. Additionally, general or specific aspects of the present disclosure may be implemented in any combination of devices, systems, methods, integrated circuits, computer programs, and recording media.
  • the present disclosure may be realized as acoustic signal processing information executed by a computer, or may be realized as a program for causing a computer to execute an acoustic signal processing method.
  • the present disclosure may be realized as a computer-readable non-transitory recording medium on which such a program is recorded.
  • the present disclosure is useful for audio equipment.
  • Acoustic signal processing device 110 Acquisition unit 120 Determination unit 130 Acoustic processing unit 140 Storage unit 200 Acoustic signal reproduction system 210 Communication module 220 Sensor 230 Driver

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Abstract

本開示の一態様に係る音響信号処理方法は、音響信号を取得する取得ステップ(S10)と、音響信号に紐づく優先度を示す優先度情報に基づいて、パイプラインで実行される複数の音響処理をそれぞれ音響信号に対して実行するか否かを決定する決定ステップ(S20)と、決定ステップで実行すると決定された音響処理を音響信号に対して実行する音響処理ステップ(S30)と、を含む。

Description

音響信号処理方法、プログラム、音響信号処理装置、および、音響信号再生システム
 本開示は、音響信号処理方法、プログラム、音響信号処理装置、および、音響信号再生システムに関する。
 従来、音響信号に対して所定の音響処理を実行し、音響処理が実行された音響信号に基づく音(音波)を発生させて当該音をユーザに提供する機器がある。特許文献1には、パイプライン(パイプライン処理)で複数の音響処理を音響信号に実行する装置が開示されている。
国際公開第2021/180938号
 本開示は、パイプラインで実行される複数の音響処理を音響信号に対して適切に実行することができる音響信号処理方法などを提供する。特に、音質や音響効果の劣化が知覚されないようにしつつ、演算能力が限られたデバイス、例えばスマートフォンやヘッドマウントディスプレイなどであってもパイプライン処理を適切に実行する事ができる音響信号処理方法などを提供する。
 本開示の一態様に係る音響信号処理方法は、音響信号処理装置が実行する音響信号処理方法であって、音響信号を取得する取得ステップと、前記音響信号に紐づく優先度を示す優先度情報に基づいて、パイプラインで実行される複数の音響処理をそれぞれ前記音響信号に対して実行するか否かを決定する決定ステップと、前記決定ステップで実行すると決定された音響処理を前記音響信号に対して実行する音響処理ステップと、を含む。
 本開示の一態様に係るプログラムは、上記記載の音響信号処理方法をコンピュータに実行させるための、プログラムである。
 本開示の一態様に係る音響信号処理装置は、音響信号を取得する取得部と、前記音響信号に紐づく優先度を示す優先度情報に基づいて、パイプラインで実行される複数の音響処理をそれぞれ前記音響信号に対して実行するか否かを決定する決定部と、前記決定部で実行すると決定された音響処理を前記音響信号に対して実行する音響処理部と、を備える。
 本開示の一態様に係る音響信号再生システムは、上記記載の音響信号処理装置と、前記決定部で実行すると決定された音響処理が実行された前記音響信号に基づく音を発生させるドライバと、を備える。
 本開示によれば、パイプラインで実行される複数の音響処理を音響信号に対して適切に実行することができる音響信号処理方法などを提供できる。
図1は、実施の形態に係る音響信号再生システムの機能構成を示すブロック図である。 図2は、実施の形態に係る音響信号処理装置によるパイプラインで実行される複数の音響処理について説明するための図である。 図3は、実施の形態に係る優先度情報を示す図である。 図4は、実施の形態に係る音響信号処理装置によるパイプラインで実行される複数の音響処理の第1例を示す図である。 図5は、実施の形態に係る音響信号処理装置によるパイプラインで実行される複数の音響処理の第2例を示す図である。 図6は、実施の形態に係る音響信号処理装置の優先度更新処理の処理手順を示すフローチャートである。 図7は、実施の形態に係る音響信号処理装置の処理手順を示すフローチャートである。
 (本開示の基礎となった知見)
 近年、仮想現実(VR:Virtual Reality)または拡張現実(AR:Augmented Reality)などの、ユーザ視点からの仮想的な体験に関する技術開発が進められている。VRまたはARでは、ユーザが、あたかも仮想的な空間内に自分が存在しているように体感する(つまり没入する)ことができる。特に、立体的な視覚体験と併せて立体的な聴覚体験をすることにより没入感が向上するため、VRまたはARでは、立体的な聴覚体験に関する技術についても重要視されている。音を表す音響信号には、立体的な聴覚体験を実現するために、言い換えると、立体音響を再現するために、音響処理(音響信号に対する信号処理)が実行される。この際に、複数の音響処理がパイプラインで音響信号に実行されることがある。言い換えると、複数の音響処理が1つずつ順番に音響信号に実行されることがある。
 ここで、従来、複数の音響処理をパイプラインで実行する装置において、例えば、ユーザが使用するデバイスの種類またはデバイスの負荷状態などに応じて、音響信号に実行される音響処理を変化させていない問題がある。そのため、従来、例えば、場合によっては実行されない方が適切な音響処理も不要に実行されてしまうなど、パイプラインで実行される複数の音響処理を、状況に応じて音響信号に対して適切に実行できていない課題がある。
 上記課題に鑑みて、本願発明者らは、本開示を創作するに至った。
 以下、実施の形態について、図面を参照しながら具体的に説明する。
 なお、以下で説明する実施の形態は、いずれも包括的または具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置および接続形態、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、本開示の独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また、各図は、必ずしも厳密に図示したものではない。各図において、実質的に同一の構成については同一の符号を付し、重複する説明は省略または簡略化される場合がある。
 (実施の形態)
 [構成]
 まず、実施の形態に係る音響信号再生システムの構成について説明する。
 図1は、実施の形態に係る音響信号再生システム200の機能構成を示すブロック図である。
 音響信号再生システム200は、音響信号に音響処理を施し、音響処理を施した音響信号に基づく音を発生させるシステムである。具体的には、音響信号再生システム200は、音響信号にパイプラインで複数の音響処理を実行することで立体音響を再生するシステムである。例えば、音響信号再生システム200は、視覚的なVRまたARの体験をするための画像を表示する表示装置、および、立体映像再生のための装置(いずれも不図示)と同時に使用される。
 音響信号再生システム200は、例えば、パーソナルコンピュータまたはスマートフォンなどのコンピュータと、ユーザに装着される図示しないヘッドマウントディスプレイ(HMD)とにより実現される。なお、音響効果を付加した音響信号を生成するレンダラとしての機能を有する音響信号再生システム200において、レンダラの機能のすべてまたは一部をサーバが担ってもよい。つまり、取得部110、決定部120、音響処理部130、および、記憶部140のすべてまたは一部は、図示しないサーバに存在してもよい。その場合、音響信号再生システム200は、例えば、パーソナルコンピュータまたはスマートフォンなどのコンピュータと、ユーザに装着される図示しないHMDと、図示しないサーバとを組み合わせて実現される。なお、コンピュータとHMDとサーバとが同一のネットワークで通信可能に接続されていてもよいし、異なるネットワークで接続されていてもよい。異なるネットワークで接続されている場合、通信に遅延が発生する可能性が高くなるため、コンピュータとHMDとサーバとが同一ネットワークで通信可能に接続されている場合にのみサーバでの処理を許可してもよい。また、音響信号再生システム200が受け付けるビットストリームのデータ量に応じて、レンダラのすべてまたは一部の機能をサーバが担うか否かを決定してもよい。
 音響信号再生システム200は、例えば、ユーザの頭部の動きに応じて提示する音を変化させることで、ユーザが三次元音場内で頭部を動かしているようにユーザに知覚させる。このため、音響信号再生システム200は、ユーザの動きに対して三次元音場をユーザの動きとは逆方向に移動させる。
 図1に示すように、音響信号再生システム200は、音響信号処理装置100と、通信モジュール210と、センサ220と、ドライバ230と、を備える。
 音響信号処理装置100は、音響信号再生システム200における各種の信号処理を実行するための演算装置である。音響信号処理装置100は、例えば、CPU(Central Processing Unit)またはDSP(Digital Signal Processor)などのプロセッサとメモリとを備え、メモリに記憶されたプログラムがプロセッサによって実行されることで、各種の機能を発揮する。音響信号処理装置100の機能構成については、後述する。
 音響信号処理装置100は、通信モジュール210、センサ220、および、ドライバ230と通信可能に接続されている。
 通信モジュール210は、音響信号再生システム200へのビットストリームを受け付けるためのインタフェース装置である。通信モジュール210は、例えば、アンテナと信号変換器とを備え、無線通信によりサーバなどの外部の装置からビットストリームを受信する。具体的には、通信モジュール210は、無線通信のための形式に変換された音響信号などの各種情報を含むビットストリームなどの無線信号を、アンテナを用いて受波し、信号変換器により無線信号から音響信号などの各種情報への再変換を実行する。これにより、音響信号処理装置100(より具体的には、取得部110)は、外部の装置から無線通信により音響信号などの各種情報を取得する。
 なお、音響信号再生システム200と外部の装置との通信は、有線通信によって行われてもよい。また、入力データは、記憶部140などの記憶装置に記憶されていてもよい。
 センサ220は、ユーザの位置を検知するための装置である。具体的には、センサ220は、ユーザの位置として6DoF(位置(x、y、z)および角度(yaw、pitch、roll)を検知する。センサ220は、ジャイロセンサおよび加速度センサなど動きの検知に使用される各種のセンサを組み合わせて構成される。例えば、センサ220は、音響信号再生システム200がスマートフォンにより実現される場合には、スマートフォンに内蔵される。
 なお、センサ220は、ユーザの頭部の動きに応じて動作するHMDなどの外部の装置に内蔵されていてもよい。また、センサ220として、外部の撮像装置などを用いて、ユーザの頭部の動きを撮像し、撮像された画像を処理することでユーザの頭部の動きを検知してもよい。
 センサ220は、ユーザとともに移動し、ユーザの動きの速度および動きの量を検知する。例えば、センサ220は、HMDに内蔵されている場合、ユーザの頭部の動きの速度および動きの量を検知する。
 センサ220は、例えば、ユーザの頭部の動きの速度として、音空間内で互いに直交する3軸の少なくとも1つを回転軸とする回転の角速度を検知してもよいし、上記3軸の少なくとも1つを変位方向とする変位の加速度を検知してもよい。
 センサ220は、例えば、ユーザの頭部の動きの量として、音空間内で互いに直交する3軸の少なくとも1つを回転軸とする回転量を検知してもよいし、上記3軸の少なくとも1つを変位方向とする変位量を検知してもよい。
 なお、センサ220は、ユーザの位置を検出できればよく、カメラまたはGPS(Grobal Positioning System)受信機などにより実現されてもよい。
 また、センサ220には、音響信号処理装置100の温度を検出する熱電対などの温度計、および、音響信号処理装置100と接続されたバッテリの残量を検出するセンサなどが含まれていてもよい。取得部110は、センサ220から、音響信号処理装置100の温度を示す情報、および、バッテリの残量を示す情報を取得してもよい。
 ドライバ230は、音響信号に基づく音(音波)を発生させる装置である。具体的には、ドライバ230は、後述する決定部120で実行すると決定された音響処理が実行された音響信号に基づく音を発生させる。ドライバ230は、例えば、イヤホンまたはヘッドフォンなどにより実現される。
 続いて、音響信号処理装置100の構成について説明する。
 音響信号処理装置100は、取得部110と、決定部120と、音響処理部130と、を備える。
 取得部110は、音響信号および優先度情報などの各種情報を取得する処理部である。取得部110は、例えば、通信モジュール210と通信可能に構成されており、通信モジュール210を介して外部の装置から音響信号などを含むビットストリームを取得する。
 ビットストリームには、例えば、音響信号と、優先度情報と、オーディオオブジェクト情報と、が含まれる。
 ドライバ230は、音響信号処理装置100によって音響処理が実行された音響信号に基づく音を発生させる。
 優先度情報は、音響信号に紐付けられた、音響処理部130によってパイプラインで実行される複数の音響処理のそれぞれの優先度を示す情報である。例えば、取得部110によって取得される音響信号が複数である場合、優先度情報には、複数の音響信号のそれぞれに対応する複数の優先度を示す情報が含まれる。優先度は、例えば、数値で示される。例えば、優先度情報は、複数の音響信号のそれぞれについて、優先度を個別に示す。
 なお、音響信号は、シングルチャネルであってもよいし、ステレオなどのマルチチャネルであってもよい。つまり、ビットストリームには、それぞれがシングルチャネルの音の情報を有する2以上の音響信号が含まれていてもよいし、複数チャネルの音の情報を有するマルチチャネルの1以上の音響信号が含まれていてもよい。
 オーディオオブジェクト情報は、音響信号に基づく音を発生させる、つまり、音響信号を再生するオブジェクト(オーディオオブジェクト)に関する情報である。オーディオオブジェクト情報は、例えば、音空間に配置されるオーディオオブジェクトの位置を示す情報、オーディオオブジェクトの向きに関する情報、オーディオオブジェクトが発する音の指向性に関する情報、オーディオオブジェクトが生物に属するか否かを示す情報、および、オーディオオブジェクトが動体であるか否かを示す情報などを含む。例えば、音響信号は、オーディオオブジェクト情報が示す1以上のオーディオオブジェクトに対応している。
 また、取得部110は、センサ220からユーザの位置を示す位置情報を取得する。ビットストリームに含まれるオーディオオブジェクト情報とセンサ220から取得される位置情報とが取得部110によって取得されることにより、オーディオオブジェクト情報および位置情報を含む空間情報が取得部110によって取得される。
 例えば、音響信号処理装置100では、オーディオオブジェクトが発する音が、オーディオオブジェクトの方から受聴点(具体的には、音空間におけるユーザの位置)に到達する音として知覚されるように、音響信号の変換が実行される。
 なお、受聴点は、例えば、ユーザの頭部の動きに合わせてその位置および方向が変化されてもよい。
 なお、オーディオオブジェクト情報は音響信号を発生させるオブジェクトに関する情報であると説明したが、ビットストリームには、オーディオオブジェクトのような音源オブジェクトだけでなく、音響信号を発生させない非発音源オブジェクトに関する情報を含めてもよい。また、優先度情報、オーディオオブジェクト情報、非発音源オブジェクト情報を、音響信号再生システム200において音響信号に対する音響処理を制御するために用いられる情報として、メタ情報と呼んでもよい。
 また、メタ情報は、音空間で表現されるシーンを記述するために用いられる情報であってもよい。ここでシーンとは、メタ情報を用いて、音響信号再生システム200でモデリングされる、音空間における三次元映像および音響イベントを表すすべての要素の集合体を指す用語である。つまり、ここでいうメタ情報は、音響処理を制御する情報だけでなく、映像処理を制御する情報も含んでいてもよい。もちろん、メタ情報には、音響処理と映像処理のいずれか一方だけを制御する情報が含まれていてもよいし、両方の制御に用いられる情報が含まれていてもよい。
 音響信号再生システム200は、ビットストリームに含まれるメタ情報、および、追加で取得されるインタラクティブなユーザの位置情報などを用いて、音情報(音響信号)に音響処理を行うことで、仮想的な音響効果を生成する。本実施の形態では、音響効果のうち、初期反射処理と、障害物処理と、ポータル処理と、遮断処理と、残響処理とを行う場合を説明するが、メタ情報を用いてほかの音響処理を行ってもよい。例えば、距離減衰効果、ローカリゼーション、ドップラー効果などの音響効果を付加することが考えられる。また、音響効果の全てまたは一部のオンオフを切り替える情報、これらの音響効果の優先度情報をメタ情報としてビットストリームに付加してもよい。
 なお、全てのメタ情報または一部のメタ情報は音情報のビットストリーム以外から取得されてもよい。例えば、音響を制御するメタ情報と映像を制御するメタ情報のいずれかがビットストリーム以外から取得されてもよいし、両方のメタ情報がビットストリーム以外から取得されてもよい。また、映像を制御するメタ情報が音響信号再生システム200で取得されるビットストリームに含まれる場合には、音響信号再生システム200は映像の制御に用いることができるメタ情報を、画像を表示する表示装置、又は立体映像を再生する立体映像再生装置に対して出力する機能を備えていてもよい。
 また、一例として、符号化されたメタ情報は、オーディオオブジェクト及び障害物オブジェクトを含む音空間に関する情報と、当該音の音像を音空間内において所定位置に定位させる(つまり、所定方向から到達する音として知覚させる)際の定位位置に関する情報を含む。ここで、障害物オブジェクトは、オーディオオブジェクトが発する音がユーザへと到達するまでの間において、例えば音を遮ったり、音を反射したりして、ユーザが知覚する音に影響を及ぼし得るオブジェクトである。障害物オブジェクトは、静止物体の他に、人等の動物、又は機械等の動体を含み得る。また、音空間に複数のオーディオオブジェクトが存在する場合、任意のオーディオオブジェクトにとっては、他のオーディオオブジェクトは障害物オブジェクトとなり得る。建材や無生物などの非発音源オブジェクトも、音を発する音源オブジェクトも障害物オブジェクトとなり得る。
 メタ情報には、音空間の形状、音空間に存在する障害物オブジェクトの形状及び位置、音空間に存在するオーディオオブジェクトの形状及び位置、並びに音空間におけるユーザの位置及び向きをそれぞれ表す情報のすべてまたは一部が含まれる。
 音空間は、閉空間又は開空間のいずれであってもよい。また、メタ情報には、例えば床、壁、又は天井等の音空間において音を反射し得る構造物の反射率、及び音空間に存在する障害物オブジェクトの反射率を表す情報が含まれる。ここで、反射率は、反射音と入射音とのエネルギーの比であって、音の周波数帯域ごとに設定されている。もちろん、反射率は、音の周波数帯域に依らず、一律に設定されていてもよい。音空間が開空間の場合には、例えば一律で設定された減衰率、回折音、初期反射音などのパラメータがメタ情報として用いられてもよい。
 上記説明では、メタ情報に含まれる障害物オブジェクトやオーディオオブジェクトに関するパラメータとして反射率を挙げたが、メタ情報は、反射率以外の情報を含んでいてもよい。例えば、メタ情報は、音源オブジェクトおよび非発音源オブジェクトの両方に関わる情報として、オブジェクトの素材に関する情報を含んでいてもよい。具体的には、メタ情報は、拡散率、透過率、吸音率などのパラメータを含んでいてもよい。
 また、メタ情報には、音源オブジェクトに関する情報として、音量、放射特性(指向性)、再生条件、ひとつのオブジェクトから発せられる音源の数と種類、オブジェクトにおける音源領域を指定する情報などを含めてもよい。再生条件では例えば、継続的に流れ続ける音なのかイベント発動する音なのかを定めてもよい。オブジェクトにおける音源領域は、ユーザの位置とオブジェクトの位置との相対的な関係で定めてもよいし、オブジェクトを基準として定めてもよい。ユーザの位置とオブジェクトの位置との相対的な関係で定める場合、ユーザがオブジェクトを見ている面を基準とし、ユーザから見てオブジェクトの右側からは音A、左側からは音Bが発せられているようにユーザに知覚させることができる。オブジェクトを基準として定める場合、ユーザの見ている方向に関わらず、オブジェクトのどの領域からどの音を出すかは固定にすることができる。例えばオブジェクトを正面から見たときの右側からは高い音、左側からは低い音が流れているようにユーザに知覚させることができる。この場合、ユーザがオブジェクトの背面に回り込んだ場合、背面から見て右側からは低い音、左側からは高い音が流れているようにユーザに知覚させることができる。
 空間に関するメタ情報として、初期反射音までの時間、残響時間、直接音と拡散音の比率などを含めることができる。直接音と拡散音の比率がゼロの場合、直接音のみをユーザに知覚させることができる。
 なお、音情報とメタ情報は一つのビットストリームに格納されていてもよいし、複数のビットストリームに別々に格納されていてもよい。同様に音情報とメタ情報は一つのファイルに格納されていてもよいし、複数のファイルに別々に格納されていてもよい。
 音情報とメタ情報とが複数のビットストリームや複数のファイルに別々に格納されている場合、一つまたは一部のビットストリームまたはファイルに関連する他のビットストリームやファイルを示す情報が含まれていてもよいし、全てのビットストリームまたはファイルのそれぞれに関連する他のビットストリームやファイルを示す情報がメタ情報に含まれていてもよい。ここで、関連するビットストリームやファイルとは、例えば、音響処理の際に同時に用いられる可能性のあるビットストリームまたはファイルである。また、関連する他のビットストリームやファイルを示す情報をまとめて記述したビットストリームやファイルが、音響信号処理装置100が受信する情報に含まれていてもよい。ここで、関連する他のビットストリームやファイルを示す情報とは、例えば当該他のビットストリームを示す識別子や他のファイルを示すファイル名またはURL(Uniform Resource Locator)やURI(Uniform Resource Identifier)などである。この場合、取得部110は、関連する他のビットストリームやファイルを示す情報に基づいてビットストリームやファイルを特定または取得する。また、ビットストリームには、関連する他のビットストリームを示す情報が含まれていると共に、別のビットストリームまたはファイルに関連するビットストリームまたはファイルを示す情報を含めていてもよい。ここで、関連するビットストリームまたはファイルを示す情報を含むファイルとは、例えばコンテンツの配信に用いられるマニフェストファイルなどの制御ファイルであってもよい。
 また、例えば、取得部110は、音響信号処理装置100の状態に関するデバイス情報を取得する。デバイス情報は、例えば、音響信号処理装置100を駆動するためのバッテリの残量を示す情報、音響信号処理装置100の発熱量を示す情報、および、音響信号処理装置100の処理能力を示す情報のうちの少なくともいずれかを含む。取得部110は、例えば、センサ220、記憶部140、または、サーバなどの外部の装置などからデバイス情報を取得する。
 決定部120は、音響信号に紐づく優先度を示す優先度情報に基づいて、パイプラインで実行される複数の音響処理をそれぞれ音響信号に対して実行するか否かを決定する処理部である。例えば、優先度情報は、複数の音響処理のそれぞれの優先度を示す。決定部120は、複数の音響処理のそれぞれの優先度が閾値以上であるか否かに基づいて、複数の音響処理のそれぞれを音響信号に対して実行するか否かを決定する。閾値は、例えば、数値で示される。決定部120は、例えば、優先度および閾値のそれぞれの数値を比較することで、複数の音響処理のそれぞれの優先度が閾値以上であるか否かを判定する。
 閾値は、任意に定められてよく、特に限定されない。閾値を示す情報は、例えば、記憶部140に記憶される。
 なお、閾値を示す情報は、音響信号などとともにビットストリームに含まれていてもよいし、サーバなどの外部の装置から取得されてもよい。
 また、決定部120は、所定の条件に基づいて、閾値を算出してもよい。例えば、決定部120は、音響信号処理装置100の状態に関するデバイス情報に基づいて、閾値を決定する。
 音響処理部130は、音響信号に所定の音響処理を実行する処理部である。具体的には、音響処理部130は、決定部120で実行すると決定された音響処理を音響信号に対して実行する。より具体的には、音響処理部130は、取得部110が取得した音響信号および空間情報に基づいて、音空間において、音響信号に基づく音であって、空間情報が示すオーディオオブジェクトが発する音が、所定の位置から、所定の方向に、所定の指向性をもって発生されるように処理する。例えば、音響処理部130は、取得されたデジタル信号である音響信号をアナログ信号に変換する処理を実行し、変換後の音響信号を出力する。例えば、音響信号が音響処理部130からドライバ230に出力されることで、ドライバ230から音響信号に基づく音が発せられる。
 取得部110、決定部120、および、音響処理部130などの各処理部は、例えば、プロセッサと、当該プロセッサが実行する制御プログラムが記憶されたメモリとによって実現される。
 記憶部140は、閾値などの各種情報を記憶する記憶装置である。また、記憶部140は、HRIR(Head-Related Impulse Response)を示すHRIR DB(HRIRデータベース)を記憶する。
 HRIRとは、1個のインパルスを発生させたときの応答特性である。具体的には、HRIRとは、耳殻、人頭および肩まで含めた周辺物によって生じる音の変化を伝達関数として表現した頭部伝達関数をフーリエ変換することで、周波数領域における表現から時間領域における表現に変換された応答特性である。HRIR DBは、このような情報を含むデータベースである。
 記憶部140は、例えば、HDD(Hard Disk Drive)またはフラッシュメモリなどにより実現される。
 [処理手順]
 続いて、音響信号処理装置100の処理手順について説明する。
 図2は、実施の形態に係る音響信号処理装置100によるパイプラインで実行される複数の音響処理について説明するための図である。
 まず、取得部110は、サーバなどの外部の装置から通信モジュール210を介して、複数の音響信号と、音響信号と1対1で紐付く優先度情報と、オーディオオブジェクト情報と、を含むビットストリームを取得する。また、取得部110は、例えば、センサ220からユーザの位置を示す位置情報を取得する。また、例えば、取得部110は、記憶部140などからデバイス情報を取得する。
 決定部120は、取得部110が取得した優先度情報に基づいて、音響処理部130がパイプラインで実行する複数の音響処理をそれぞれ実行させるか否かを決定する。
 例えば、音響処理部130は、音響信号に対して、初期反射処理(S110)と、障害物処理(S120)と、ポータル処理(S130)と、遮断処理(S140)と、残響処理(S150)と、をパイプラインで実行する。具体的には、音響処理部130は、音響信号に対して、初期反射処理と、障害物処理と、ポータル処理と、遮断処理と、残響処理とをこの順に実行する。音響信号に対して、初期反射処理と、障害物処理と、ポータル処理と、遮断処理と、残響処理とは、音響処理の一例である。
 音の伝搬には、例えば、初期反射(Reflection)、障害物(Obstruction)、ポータル(Portaling)、遮断(Occulusion)、および、残響などのような種類がある。音響処理では、これらの音の伝搬に応じた処理が音響信号に対して実行される。
 例えば、初期反射処理では、壁などで反射された音に対する処理が実行される。
 また、例えば、障害物処理では、障害物の周りで回析された音に対する処理が実行される。
 また、例えば、ポータル処理では、壁越しの音のうちのドアなどからの回析に伴う音に対する処理が実行される。
 また、例えば、遮断処理では、壁越しに伝搬する音に対する処理が実行される。
 また、例えば、残響処理では、部屋で響く音に対する処理が実行される。
 図3は、実施の形態に係る優先度情報を示す図である。なお、図3において、(A)~(D)は、それぞれ互いに異なる音響信号を示し、(1)~(5)はそれぞれ互いに異なる音響処理を示し、矩形枠内の数値は優先度を示す。例えば、(1)は、初期反射処理を示し、(2)は、障害物処理を示し、(3)は、ポータル処理を示し、(4)は、遮断処理を示し、(5)は、残響処理を示す。本例では、優先度は、例えば、0が低く、3が高い(例えば、必須の処理)、のように、数値が大きいほど優先して実行される音響処理であるとして設定される。
 例えば、取得部110は、音響信号(A)~(D)を取得したとする。図3に示す例では、優先度情報は、例えば、音響信号(A)については、初期反射処理の優先度が2であり、障害物処理の優先度が2であり、ポータル処理の優先度が3であり、遮断処理の優先度が3であり、残響処理の優先度が3であることを示す。また、優先度情報は、例えば、音響信号(B)については、初期反射処理の優先度が1であり、障害物処理の優先度が1であり、ポータル処理の優先度が0であり、遮断処理の優先度が1であり、残響処理の優先度が2であることを示す。
 なお、上記の優先度情報は、下記のような知見に基づき決定する。例えば、音響処理(1)で表される初期反射処理は、例えば音が鳴り始めてから最大音量に達するまでの時間が短いアタック音を含む音響信号については優先度を高くする。さらに、音響処理(2)や(4)の障害物処理や遮断処理では、エネルギーの主要な部分が低い周波数帯にある音響信号については優先度を高くする。さらに、音響処理の優先度は音響信号と同時に提示される映像情報にも依存する。例えば、映像情報が、教会がある石造りの町並みである場合、教会の鐘の音に対する残響処理の優先度は高く設定するなどである。
 優先度情報は音響信号(A)~(D)に予め付与されていてもよいし、当該発明技術を使用する方法や装置やシステムを起動したときに音響信号(A)~(D)を分析し、当該優先度情報を算出してもよい。
 このように、優先度情報は、各音響信号(A)~(D)の複数の音響処理(1)~(5)の優先度を示す。例えば、決定部120は、優先度情報に基づいて、各音響信号(A)~(D)に対して、複数の音響処理(1)~(5)をそれぞれ実行するか否かを決定する。
 図4は、実施の形態に係る音響信号処理装置100によるパイプラインで実行される複数の音響処理の第1例を示す図である。なお、図4に示す例では、音響信号(A)~(D)が繰り返し取得部110に取得された場合の例を示す図である。また、音響信号(A)~(D)と紐付く優先度は、図3に示す優先度情報が示す優先度であるとする。また、図4では、音響信号(A)~(D)のそれぞれに含まれる、音響処理を示す(1)~(5)のうち、ハッチングが付されていない処理については当該音響信号に対して対応する音響処理が実行され、ハッチングが付されている処理については当該音響信号に対して対応する音響処理が実行されないことを示す。
 音響処理部130は、例えば、音響信号および空間情報に基づいて、音響信号に対して音響処理が実行されるか否かを判定する。例えば、音響信号の種別またはユーザとドライバ230との位置関係などによっては、そもそも不要となる音響処理がある。そこで、音響処理部130は、例えば、音響信号および空間情報に基づいて、音響信号(A)~(D)に対して音響処理(1)~(5)を実行するか否かを判定し、場合によっては判定結果に応じて、音響信号(A)~(D)に対して音響処理(1)~(5)の一部または全部を実行しない(処理制御に基づく処理OFF)。
 図4に示す例では、時刻t0に取得部110に取得された音響信号(A)~(D)については、音響信号(A)~(C)のそれぞれに対して音響処理(3)が実行されず、それ以外の音響処理が音響信号(A)~(D)に対して実行される。また、例えば、時刻t1に取得部110に取得された音響信号(A)~(D)については、音響信号(A)および(C)のそれぞれに対して音響処理(3)が実行されず、それ以外の音響処理が音響信号(A)~(D)に対して実行される。
 また、音響処理部130は、優先度情報に基づく決定部120の決定結果に基づいて、音響信号に対して複数の音響処理をそれぞれ実行する、または、実行しない。
 決定部120は、例えば、優先度が閾値以上であれば、当該優先度に対応する音響処理を実行するように音響処理部130に指示し、優先度が閾値未満であれば、当該優先度に対応する音響処理を行わないように音響処理部130に指示する(図2に示す優先度制御)。つまり、閾値が上がるほど、実行されない音響処理が増加する。言い換えると、閾値が上がるほど処理量(演算量)が減少する。図4に示す例は、時刻t0~t7のいずれにおいても優先度が0であるため、優先度に基づいて実行されない音響処理はない。
 図5は、実施の形態に係る音響信号処理装置100によるパイプラインで実行される複数の音響処理の第2例を示す図である。なお、図5に示す例では、音響信号(A)~(D)が繰り返し取得部110に取得された場合の例を示す図である。また、音響信号(A)~(D)と紐付く優先度は、図3に示す優先度情報が示す優先度であるとする。また、図5では、音響信号(A)~(D)のそれぞれに含まれる、音響処理を示す(1)~(5)のうち、ハッチングが付されていない処理については当該音響信号に対して対応する音響処理が実行され、ハッチング(斜線のハッチングおよびドットのハッチング)が付されている処理については当該音響信号に対して対応する音響処理が実行されないことを示す。
 図5に示す例においても図4に示す例と同様に、音響処理部130は、例えば、音響信号および空間情報に基づいて、音響信号(A)~(D)に対して音響処理(1)~(5)を実行するか否かを判定し、場合によっては判定結果に応じて、音響信号(A)~(D)に対して音響処理(1)~(5)の一部または全部を実行しない(図5に斜線のハッチングで示す処理制御に基づく処理OFF)。
 また、図5に示す例では、時刻t0~t7に向かうにつれて徐々に閾値が変化している。例えば、決定部120は、デバイス情報に基づいて、閾値を決定する。例えば、デバイス情報は、音響信号処理装置100の発熱量を示す情報も含まれ得る。音響信号処理装置100が使用され続けたり、処理で高負荷が加わると、音響信号処理装置100の発熱量が大きくなる。また、例えば、音響信号処理装置100が使用され続けると、音響信号処理装置100と接続された、音響信号処理装置100を駆動するためのバッテリの残量が低下する。例えば、決定部120は、発熱量が大きくなるについて、または、バッテリの残量が少なくなるについて、閾値が高くなるように変更する。つまり、決定部120は、発熱量が大きくなるについて、または、バッテリの残量が少なくなるについて、複数の音響処理のうち、実行されない音響処理の数が多くなるように、閾値を変更する。
 図5に示す例では、時刻t0に取得部110に取得された音響信号(A)~(D)については、図4に示す例と同様に、音響信号(A)~(C)のそれぞれに対して音響処理(3)が実行されず、それ以外の音響処理が音響信号(A)~(D)に対して実行される。
 また、例えば、時刻t1に取得部110に取得された音響信号(A)~(D)については、図4に示す例と同様に、音響信号(A)および(C)のそれぞれに対して音響処理(3)が実行されない。さらに、図5に示す例では、図4に示す例とは異なり、優先度情報に基づいて、音響信号(B)に対して音響処理(3)が実行されない。
 なお、例えば最初に設定される閾値は、任意でよい。当該閾値は、予め定められていてもよいし、例えば音響信号処理装置100の性能(例えば、音響信号処理装置100が備えるプロセッサの性能)に基づいて決定されてもよい。例えば、音響信号処理装置100は、音響信号処理装置100の性能が高いほど、閾値が低くなるように閾値を設定する。
 また、優先度情報(つまり、優先度情報が示す優先度)が変更されてもよい。
 図6は、実施の形態に係る音響信号処理装置100の優先度更新処理の処理手順を示すフローチャートである。
 まず、取得部110は、優先度情報を取得する(S210)。
 また、取得部110は、空間情報を取得する(S220)。ステップS210とステップS220は、例えば、ビットストリームおよび位置情報が取得されることで実行される。ステップS210とステップS220とが実行される順序は、任意でよい。
 次に、決定部120は、空間情報に基づいて、ユーザとオーディオオブジェクトとの位置関係を算出する(S230)。例えば、決定部120は、実空間におけるユーザの位置に対応する音空間におけるユーザの位置を算出し、音空間におけるユーザの位置とオーディオオブジェクトとの相対的な位置関係を算出する(S230)。
 次に、決定部120は、当該情報に基づいて、記憶部140に記憶されている優先度情報を更新する(S240)。
 なお、記憶部140に優先度情報が記憶されていない場合、決定部120は、当該情報に基づいて、優先度を決定してもよい。決定された優先度を示す優先度情報は、記憶部140に記憶されてもよい。
 再び図2を参照し、音響処理部130は、上記のように実行すると決定された音響処理を音響信号に実行し、さらに、当該音響信号をバイノーラル化する(S160)。具体的には、音響処理部130は、当該音響信号を、音空間におけるユーザの座標および向き(つまり、受聴点の位置および向き)に基づいて、オーディオオブジェクトの位置から音がユーザに到達するように、HRIR DBを適用することで、音空間における所定の位置に配置されているオーディオオブジェクトの位置からユーザへと到達する音が再生可能な音響信号となるように信号処理する。
 そして、音響処理部130は、信号処理が実行された音響信号をドライバ230へと出力する(S170)。これにより、音響処理部130は、音響信号に示される波形信号に基づいてドライバ230に音波を発生させ、ユーザに音を提示する。
 以上説明した音響信号処理装置100は、以下の処理を行う。
 図7は、実施の形態に係る音響信号処理装置100の処理手順を示すフローチャートである。
 まず、取得部110は、音響信号を取得する(S10)。
 次に、決定部120は、音響信号に紐づく優先度を示す優先度情報に基づいて、パイプラインで実行される複数の音響処理をそれぞれ音響信号に対して実行するか否かを決定する(S20)。
 次に、音響処理部130は、決定部120で実行すると決定された音響処理を音響信号に対して実行する(S30)。
 決定部120で実行すると決定された音響処理が実行された音響信号は、例えば、ドライバ230に出力される。
 なお、ステップS20において、複数の音響処理のすべてを実行しないと決定部120で決定された場合には、音響処理部130は、音響処理を実行せずにドライバ230に音響信号を出力してもよい。この場合、例えば、音響処理部130は、図2に示すステップS110~S150を実行せずに、ステップS160およびS170を実行する。
 [効果など]
 以下、本明細書の開示内容から得られる技術を例示し、例示される技術から得られる効果などについて説明する。
 技術1は、音響信号処理装置100が実行する音響信号処理方法であって、音響信号を取得する取得ステップ(S10)と、音響信号に紐づく優先度を示す優先度情報に基づいて、パイプラインで実行される複数の音響処理をそれぞれ音響信号に対して実行するか否かを決定する決定ステップ(S20)と、決定ステップで実行すると決定された音響処理を音響信号に対して実行する音響処理ステップ(S30)と、を含む、音響信号処理方法である。
 なお、複数の音響処理は、例えば、初期反射処理(S110)、障害物処理(S120)、ポータル処理(S130)、遮断処理(S140)、および、残響処理(S150)である。
 これによれば、優先度情報に基づいて、音響信号に対して、パイプラインで実行される複数の音響処理のうちの1以上の音響処理が実行されるか、すべての音響処理が実行されない。そのため、例えば、ユーザの好み、音響信号に基づく音楽の製作者の意図、または、音響信号に基づく音を発生させる機器の状態などに基づいて優先度情報が示す優先度が設定されることで、これらに応じた適切な音響処理が音響信号に対して実行させる。したがって、本開示の一態様に係る音響信号処理方法によれば、パイプラインで実行される複数の音響処理を音響信号に対して適切に実行することができる。例えば、本開示の一態様に係る音響信号処理方法によれば、不要な音響処理をせずに済むため、音響処理に関する処理量を削減できる。
 技術2は、優先度情報は、複数の音響処理のそれぞれの優先度を示し、決定ステップでは、複数の音響処理のそれぞれの優先度が閾値以上であるか否かに基づいて、複数の音響処理のそれぞれを音響信号に対して実行するか否かを決定する、技術1に記載の音響信号処理方法である。
 例えば、優先度および閾値は、それぞれ数値で示される。
 これによれば、優先度と閾値とが比較されることで、複数の音響処理のそれぞれを音響信号に対して実行するか否かを簡単に決定できる。
 技術3は、決定ステップでは、音響信号処理装置100の状態に関するデバイス情報に基づいて、閾値を決定する、技術2に記載の音響信号処理方法である。
 これによれば、音響信号処理装置100の状態に応じた閾値が決定される。そのため、音響信号処理装置100の状態に応じて、複数の音響処理のそれぞれを音響信号に対して実行するか否かを簡単に決定できる。
 技術4は、デバイス情報は、音響信号処理装置100を駆動するためのバッテリの残量を示す情報、音響信号処理装置100の発熱量を示す情報、および、音響信号処理装置100の処理能力を示す情報のうちの少なくともいずれかを含む、技術3に記載の音響信号処理方法である。
 これによれば、音響信号処理装置100の状態の中で、特に音響処理と関係がある音響信号処理装置100を駆動するためのバッテリの残量、音響信号処理装置100の発熱量、および、音響信号処理装置100の処理能力のうちの少なくともいずれかに応じて、複数の音響処理のそれぞれを音響信号に対して実行するか否かを簡単に決定できる。
 技術5は、決定ステップでは、音響信号処理装置100のユーザの位置を示す位置情報に基づいて、優先度情報が示す優先度を決定する、技術1~4のいずれかに記載の音響信号処理方法である。
 ユーザによりよい音を提供するために、複数の音響処理のうちの重要となる音響処理は、ユーザとオーディオオブジェクトとの位置関係によって変わってくる。そこで、ユーザの位置に基づいて優先度が変更されることで、特に重要となる音響処理が適切に実行され得る。
 技術6は、技術1~5のいずれかに記載の音響信号処理方法をコンピュータに実行させるための、プログラムである。
 これによれば、本開示の一態様に係る音響信号処理方法と同様の効果を奏する。
 技術7は、音響信号を取得する取得部110と、音響信号に紐づく優先度を示す優先度情報に基づいて、パイプラインで実行される複数の音響処理をそれぞれ音響信号に対して実行するか否かを決定する決定部120と、決定部120で実行すると決定された音響処理を音響信号に対して実行する音響処理部130と、を備える、音響信号処理装置100である。
 これによれば、本開示の一態様に係る音響信号処理方法と同様の効果を奏する。
 技術8は、技術7に記載の音響信号処理装置100と、決定部120で実行すると決定された音響処理が実行された音響信号に基づく音を発生させるドライバ230と、を備える、音響信号再生システム200である。
 これによれば、音響信号処理装置100で適切に音響処理が実行された音響信号に基づく音がユーザに提供される。
 (その他の実施の形態)
 以上、実施の形態について説明したが、本開示は、上記実施の形態に限定されるものではない。
 例えば、上記の実施の形態に説明した音響信号再生システム200は、構成要素をすべて備える1つの装置として実現されてもよいし、複数の装置に各機能が割り振られ、この複数の装置が連携することで実現されてもよい。後者の場合には、例えば、音響信号処理装置100には、処理モジュールに該当する装置として、スマートフォン、タブレット端末、または、パーソナルコンピュータなどの情報処理装置が用いられてもよい。
 また、例えば、音響信号処理装置100は、ドライバ230のみを備える再生装置に接続され、当該再生装置に対して、取得した音響信号に音響処理を実行して出力するのみの音響信号処理装置として実現することもできる。この場合、音響信号処理装置100は、専用の回路を備えるハードウェアとして実現してもよいし、汎用のプロセッサに特定の処理を実行させるためのソフトウェアとして実現してもよい。
 また、上記実施の形態において、特定の処理部が実行する処理を別の処理部が実行してもよい。また、複数の処理の順序が変更されてもよいし、複数の処理が並行して実行されてもよい。
 また、上記実施の形態において、各構成要素は、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPUまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。
 また、各構成要素は、ハードウェアによって実現されてもよい。例えば、各構成要素は、回路(または集積回路)でもよい。これらの回路は、全体として1つの回路を構成してもよいし、それぞれ別々の回路でもよい。また、これらの回路は、それぞれ、汎用的な回路でもよいし、専用の回路でもよい。
 また、本開示の全般的または具体的な態様は、装置、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なCD-ROMなどの非一時的な記録媒体で実現されてもよい。また、本開示の全般的または具体的な態様は、装置、システム、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。
 例えば、本開示は、コンピュータによって実行される音響信号処理情報として実現されてもよいし、音響信号処理方法をコンピュータに実行させるためのプログラムとして実現されてもよい。本開示は、このようなプログラムが記録されたコンピュータ読み取り可能な非一時的な記録媒体として実現されてもよい。
 その他、各実施の形態に対して当業者が思いつく各種変形を施して得られる形態、または、本開示の趣旨を逸脱しない範囲で各実施の形態における構成要素および機能を任意に組み合わせることで実現される形態も本開示に含まれる。
 本開示は、オーディオ機器に有用である。
 100 音響信号処理装置
 110 取得部
 120 決定部
 130 音響処理部
 140 記憶部
 200 音響信号再生システム
 210 通信モジュール
 220 センサ
 230 ドライバ

Claims (8)

  1.  音響信号処理装置が実行する音響信号処理方法であって、
     音響信号を取得する取得ステップと、
     前記音響信号に紐づく優先度を示す優先度情報に基づいて、パイプラインで実行される複数の音響処理をそれぞれ前記音響信号に対して実行するか否かを決定する決定ステップと、
     前記決定ステップで実行すると決定された音響処理を前記音響信号に対して実行する音響処理ステップと、を含む、
     音響信号処理方法。
  2.  前記優先度情報は、前記複数の音響処理のそれぞれの優先度を示し、
     前記決定ステップでは、前記複数の音響処理のそれぞれの優先度が閾値以上であるか否かに基づいて、前記複数の音響処理のそれぞれを前記音響信号に対して実行するか否かを決定する、
     請求項1に記載の音響信号処理方法。
  3.  前記決定ステップでは、前記音響信号処理装置の状態に関するデバイス情報に基づいて、前記閾値を決定する、
     請求項2に記載の音響信号処理方法。
  4.  前記デバイス情報は、前記音響信号処理装置を駆動するためのバッテリの残量を示す情報、前記音響信号処理装置の発熱量を示す情報、および、前記音響信号処理装置の処理能力を示す情報のうちの少なくともいずれかを含む、
     請求項3に記載の音響信号処理方法。
  5.  前記決定ステップでは、前記音響信号処理装置のユーザの位置を示す位置情報に基づいて、前記優先度情報が示す優先度を決定する、
     請求項1に記載の音響信号処理方法。
  6.  請求項1~5のいずれか1項に記載の音響信号処理方法をコンピュータに実行させるための、
     プログラム。
  7.  音響信号を取得する取得部と、
     前記音響信号に紐づく優先度を示す優先度情報に基づいて、パイプラインで実行される複数の音響処理をそれぞれ前記音響信号に対して実行するか否かを決定する決定部と、
     前記決定部で実行すると決定された音響処理を前記音響信号に対して実行する音響処理部と、を備える、
     音響信号処理装置。
  8.  請求項7に記載の音響信号処理装置と、
     前記決定部で実行すると決定された音響処理が実行された前記音響信号に基づく音を発生させるドライバと、を備える、
     音響信号再生システム。
PCT/JP2023/013817 2022-04-14 2023-04-03 音響信号処理方法、プログラム、音響信号処理装置、および、音響信号再生システム WO2023199778A1 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US202263330907P 2022-04-14 2022-04-14
US63/330,907 2022-04-14
JP2023014485 2023-02-02
JP2023-014485 2023-02-02

Publications (1)

Publication Number Publication Date
WO2023199778A1 true WO2023199778A1 (ja) 2023-10-19

Family

ID=88329572

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/013817 WO2023199778A1 (ja) 2022-04-14 2023-04-03 音響信号処理方法、プログラム、音響信号処理装置、および、音響信号再生システム

Country Status (1)

Country Link
WO (1) WO2023199778A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090113338A1 (en) * 2007-10-31 2009-04-30 International Business Machines Corporation Collapsing areas of a region in a virtual universe to conserve computing resources
WO2018047667A1 (ja) * 2016-09-12 2018-03-15 ソニー株式会社 音声処理装置および方法
WO2021180938A1 (en) * 2020-03-13 2021-09-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for rendering a sound scene using pipeline stages

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090113338A1 (en) * 2007-10-31 2009-04-30 International Business Machines Corporation Collapsing areas of a region in a virtual universe to conserve computing resources
WO2018047667A1 (ja) * 2016-09-12 2018-03-15 ソニー株式会社 音声処理装置および方法
WO2021180938A1 (en) * 2020-03-13 2021-09-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for rendering a sound scene using pipeline stages

Similar Documents

Publication Publication Date Title
KR102502383B1 (ko) 오디오 신호 처리 방법 및 장치
US11122384B2 (en) Devices and methods for binaural spatial processing and projection of audio signals
WO2018047667A1 (ja) 音声処理装置および方法
EP3095254A1 (en) Enhanced spatial impression for home audio
CN112602053B (zh) 音频装置和音频处理的方法
US10757528B1 (en) Methods and systems for simulating spatially-varying acoustics of an extended reality world
KR102537714B1 (ko) 오디오 신호 처리 방법 및 장치
Murphy et al. Spatial sound for computer games and virtual reality
JP2021513261A (ja) サラウンドサウンドの定位を改善する方法
US11417347B2 (en) Binaural room impulse response for spatial audio reproduction
EP3777248A1 (en) An apparatus, a method and a computer program for controlling playback of spatial audio
WO2023199778A1 (ja) 音響信号処理方法、プログラム、音響信号処理装置、および、音響信号再生システム
WO2023199815A1 (ja) 音響処理方法、プログラム、及び音響処理システム
WO2024084920A1 (ja) 音響処理方法、音響処理装置、及び、プログラム
WO2023199813A1 (ja) 音響処理方法、プログラム、及び音響処理システム
WO2024014389A1 (ja) 音響信号処理方法、コンピュータプログラム、及び、音響信号処理装置
WO2024084998A1 (ja) 音響処理装置及び音響処理方法
WO2024084997A1 (ja) 音響処理装置及び音響処理方法
WO2024084999A1 (ja) 音響処理装置及び音響処理方法
WO2024084949A1 (ja) 音響信号処理方法、コンピュータプログラム、及び、音響信号処理装置
WO2023199817A1 (ja) 情報処理方法、情報処理装置、音響再生システム、及び、プログラム
WO2024084950A1 (ja) 音響信号処理方法、コンピュータプログラム、及び、音響信号処理装置
WO2024014390A1 (ja) 音響信号処理方法、情報生成方法、コンピュータプログラム、及び、音響信号処理装置
US20240098442A1 (en) Spatial Blending of Audio
US11758348B1 (en) Auditory origin synthesis

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23788198

Country of ref document: EP

Kind code of ref document: A1