WO2024075527A1 - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
WO2024075527A1
WO2024075527A1 PCT/JP2023/034201 JP2023034201W WO2024075527A1 WO 2024075527 A1 WO2024075527 A1 WO 2024075527A1 JP 2023034201 W JP2023034201 W JP 2023034201W WO 2024075527 A1 WO2024075527 A1 WO 2024075527A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
level
sound component
information processing
processing device
Prior art date
Application number
PCT/JP2023/034201
Other languages
English (en)
French (fr)
Inventor
祐司 土田
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2024075527A1 publication Critical patent/WO2024075527A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/08Arrangements for producing a reverberation or echo sound
    • G10K15/10Arrangements for producing a reverberation or echo sound using time-delay networks comprising electromechanical or electro-acoustic devices
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control

Definitions

  • the present disclosure relates to an information processing device, an information processing method, and a program, and in particular to an information processing device, an information processing method, and a program that enable the efficiency of the impulse response adjustment work.
  • Remote ensemble systems are known that allow multiple performers to play together as if they were in separate locations.
  • Patent Document 1 discloses a remote ensemble system that enables multiple remote performers to play together in an advanced ensemble by convolving the audio signals of multiple users performing together with a head-related transfer function that corresponds to the relative positions of the users in a virtual space.
  • the performers may listen via headphones to an acoustic signal that is the result of convolving an impulse response of the sound field reproduction with the microphone input.
  • the absolute volume has the property of changing in response to adjustments to the impulse response, so it is necessary to repeatedly make fine adjustments until these adjustment items converge to the optimal value.
  • This disclosure was made in light of these circumstances, and aims to make it possible to improve the efficiency of the impulse response adjustment work.
  • the information processing device disclosed herein is an information processing device that includes a level control unit that changes the level of the first sound component and the level of the second sound component in response to adjustment of a parameter that is correlated with the first sound component and the second sound component included in the impulse response.
  • the information processing method disclosed herein is an information processing method in which an information processing device changes the level of a first sound component and a second sound component in response to adjustment of a parameter that is correlated with the first sound component and the second sound component included in an impulse response.
  • the program disclosed herein is a program for causing a computer to execute a process of changing the level of a first sound component and a second sound component in response to adjustment of a parameter that is correlated with the first sound component and the second sound component contained in an impulse response.
  • the level of the first sound component and the level of the second sound component are changed in response to adjustment of a parameter that is correlated with the first sound component and the second sound component contained in the impulse response.
  • FIG. 1 is a diagram illustrating an example configuration of a remote ensemble system according to an embodiment of the present disclosure.
  • FIG. 2 is a diagram showing an example of equipment provided in a booth.
  • FIG. 2 is a diagram illustrating an example of sound components of an impulse response.
  • FIG. 13 is a diagram showing an example of a UI for adjusting an impulse response that can be conventionally envisioned.
  • FIG. 2 illustrates an example UI for adjusting an impulse response of the present disclosure.
  • FIG. 2 illustrates an example UI for adjusting an impulse response of the present disclosure.
  • FIG. 2 illustrates an example UI for adjusting an impulse response of the present disclosure.
  • 2 is a block diagram showing an example of a functional configuration of an information processing device;
  • 11 is a flowchart illustrating a flow of an impulse response adjustment process.
  • 11 is a flowchart illustrating a flow of level control according to an adjustment item.
  • 11 is a flowchart illustrating a flow of level control according to an adjustment item.
  • FIG. 1 is a diagram illustrating an example configuration of a remote ensemble system according to an embodiment of the present disclosure.
  • the remote ensemble system 1 shown in FIG. 1 is a system used for so-called remote ensemble performances by performers in different locations.
  • performers P1 to P4 are shown as musicians in an orchestra.
  • the instruments played by performers P1 and P2 are the violin, and the instrument played by performer P3 is the cello.
  • the instrument played by performer P4 is the trumpet.
  • the number of performers is not limited to four, and in reality, a remote ensemble will be performed by many more performers using many more types of instruments. The number of performers will vary depending on the composition of the orchestra.
  • the remote ensemble system 1 in FIG. 1 is configured by connecting multiple information processing devices used by performers P1 to P4 to a transmission control device 10.
  • the transmission control device 10 and each information processing device may be connected by wired communication or wireless communication.
  • a predetermined standard such as a USB (Universal Serial Bus) cable may be used.
  • any communication protocol such as Wi-Fi (registered trademark) or Bluetooth (registered trademark) may be used.
  • Performers P1 to P4 perform in remote spaces. For example, different booths prepared in a studio are used as the spaces in which they perform. In FIG. 1, the dashed rectangles surrounding each of performers P1 to P4 indicate that performers P1 to P4 are performing in different booths.
  • Figure 2 shows an example of equipment installed in the booth.
  • headphones 110, a microphone 120, and an information processing device 130 are provided in the booth of performer P1.
  • the headphones 110 and microphone 120 are connected to the information processing device 130, which may be a PC (Personal Computer), a smartphone, a tablet terminal, or the like.
  • the microphone 120 may be directly connected to the transmission control device 10 as appropriate.
  • the headphones 110, microphone 120, and information processing device 130 may each be connected by wire or wirelessly.
  • the headphones 110 are an output device that is worn on the head of the performer P1.
  • the headphones 110 output the performance sounds of the performer P1 himself and his fellow performers under the control of the information processing device 130.
  • earphones inner-ear headphones may be used as the output device.
  • Microphone 120 picks up the performance sounds of performer P1 (sounds from the instrument played by performer P1).
  • each performer wears headphones 110 and plays into the microphone 120 while listening to the performance sound output from the headphones 110.
  • the distance between the microphone 120 that picks up the sound from the instrument and the headphones 110 worn on the performer's head becomes closer.
  • open-type headphones are used as the headphones 110, there is a risk that acoustic feedback between the microphone 120 and the headphones may cause feedback.
  • closed-type headphones or earphones are used to avoid this problem, the performer will not be able to hear the direct sound from his or her own instrument, and will instead hear an acoustic signal via the headphones that is the microphone input convolved with the impulse response of the sound field reproduction, including the direct sound.
  • the transfer function transfer characteristics from the instrument to the performer's ears is as follows: ⁇ The propagation distance is extremely short, and the musical instrument itself has a complex radiation pattern. ⁇ It is known that components transmitted by bone conduction also affect the sense of hearing. For these reasons, performers often subjectively felt discomfort when using transfer functions obtained in advance through measurements and calculations.
  • FIG. 3 shows an example of the sound components of an impulse response for a sound picked up by a microphone 120 from an instrument played by a performer and played back by headphones 110 worn on the performer's head.
  • the sound components of an impulse response can be roughly categorized into “direct sound” and “indirect sound.”
  • "Indirect sound” can be further categorized into “early reflections” and “late reverberation.”
  • a performer fine-tunes the impulse response, they adjust the levels of each of these adjustment items (parameters).
  • the "level of direct sound” is, for example, the amplitude value of the direct sound
  • the "energy of direct sound” is, for example, the cumulative sum of the squared sample values of the impulse response used in signal processing over the time interval of the direct sound.
  • the "level of indirect sound” and the “energy of indirect sound” can also be defined in the same way as for direct sound.
  • the "ratio of direct sound to indirect sound” described later is, for example, the ratio of the energy of direct sound to the energy of indirect sound.
  • the "level” and “energy” of direct sound and indirect sound may be defined based on other physical quantities related to each sound.
  • FIG. 4 shows an example of a UI for adjusting impulse responses that may be envisioned in the past.
  • FIG. 4 shows the adjustment screen Ad1 presented as a UI for adjusting the impulse response.
  • the adjustment screen Ad1 shows the values of the adjustment items (parameters) "absolute volume,” “direct sound level,” and “indirect sound level,” and also has sliders that allow adjustment of these parameters.
  • the example in Figure 4 shows the process of adjustment work when adjusting the direct sound level on adjustment screen Ad1. Specifically, assume that the "direct sound level” is adjusted by operation by the user (performer). At this time, the “absolute volume” which is correlated with the direct sound level changes, so the “absolute volume” is adjusted by operation by the user. Then, the “direct sound level” changes, so the “direct sound level” is adjusted again by operation by the user. At this time, the “absolute volume” changes again, so the “absolute volume” is adjusted again by operation by the user.
  • the technology disclosed herein converts and aggregates adjustment items (parameters) based on the following two perspectives in order to improve the efficiency of the impulse response adjustment process.
  • FIGS. 5 and 6 show examples of UIs for adjusting impulse responses according to the present disclosure.
  • FIGS. 5 and 6 show the adjustment screen Ad11 presented as a UI for adjusting the impulse response.
  • the adjustment screen Ad11 is provided with a slider that indicates the value of the "ratio of direct sound to indirect sound" as an adjustment item (parameter) and accepts adjustment of the parameter.
  • a UI other than a slider e.g., a radio button or voice input
  • FIG. 5 shows the process of the adjustment work when adjusting the absolute volume on the adjustment screen Ad11. Specifically, when the "absolute volume" is adjusted by the user (performer), the "direct sound level” and “indirect sound level” automatically change based on the relational equations that use the “absolute volume” to represent the “direct sound level” and “indirect sound level,” respectively. At this time, the "ratio of direct sound to indirect sound” does not change and remains constant.
  • the example of Figure 6 also shows the process of adjustment when adjusting the ratio of direct sound to indirect sound on adjustment screen Ad11. Specifically, when the "ratio of direct sound to indirect sound" is adjusted by the user (performer), the "level of direct sound” and the “level of indirect sound” change automatically based on the relational equations that respectively express the “level of direct sound” and the “level of indirect sound” using the “ratio of direct sound to indirect sound”. At this time, the "absolute volume” does not change and remains constant.
  • the “absolute volume” and “ratio of direct sound to indirect sound” may be fixed to values specified by the user to prevent the adjustment from being accepted, and the non-fixed values may be changed automatically. For example, if the "direct sound level” is changed while the “absolute volume” is fixed, the “indirect sound level” and “ratio of direct sound to indirect sound” are automatically adjusted without changing the absolute volume (i.e., the sum of the direct sound level and the indirect sound level).
  • the parameters to be fixed may be specified arbitrarily by the user as described above, or may be determined based on environmental information when the impulse response was measured (e.g. the size and material of the performance environment), or may be determined by a method other than the above.
  • sliders and indicators for "direct sound level” and “indirect sound level” may not be presented, and only sliders for adjusting "absolute volume” and “ratio of direct sound to indirect sound” may be presented.
  • the user may be allowed to set as appropriate which of the items presented on the adjustment screen, "absolute volume,” “direct sound level,” “indirect sound level,” and “ratio of direct sound to indirect sound,” are to be presented on the adjustment screen.
  • the above-mentioned four parameters have been given as examples of items presented on the adjustment screen, other parameters may be added and presented separately.
  • FIG. 8 is a block diagram showing an example of a functional configuration of an information processing device 130 to which the technology according to the present disclosure is applied. At least a part of the functional blocks shown in Fig. 8 is realized by a program being executed by a CPU (Central Processing Unit) mounted on a PC or the like constituting the information processing device 130.
  • a CPU Central Processing Unit
  • the information processing device 130 shown in FIG. 8 is configured to include an acoustic signal acquisition unit 151, an impulse response storage unit 152, a convolution processing unit 153, an output control unit 154, a UI control unit 155, a UI presentation unit 156, and a level control unit 157.
  • the audio signal acquisition unit 151 acquires an audio signal of the performance sound picked up by the microphone 120.
  • the audio signal acquired by the audio signal acquisition unit 151 is supplied to the convolution processing unit 153.
  • the impulse response storage unit 152 holds impulse responses for sound field reproduction that have been measured or calculated in advance in the performance environment in which the user (performer) plays the instrument.
  • the impulse responses held in the impulse response storage unit 152 are acquired by the convolution processing unit 153, the UI control unit 155, and the level control unit 157 as necessary.
  • the impulse response storage unit 152 may also hold (store) environmental information when the impulse responses were measured (for example, the type of performance environment, such as a concert hall or a stadium, its size (volume, etc.), shape, and materials used for the walls and floors of the performance environment).
  • the convolution processing unit 153 executes a convolution process to convolve the impulse response acquired from the impulse response storage unit 152 with the acoustic signal supplied from the acoustic signal acquisition unit 151.
  • the acoustic signal that has been subjected to the convolution process is supplied to the output control unit 154.
  • the output control unit 154 outputs the reproduced sound based on the acoustic signal supplied from the convolution processing unit 153 from the headphones 110.
  • the UI control unit 155 controls the UI presentation unit 156 to control the presentation of a UI (adjustment screen) for adjusting the impulse response as described with reference to Figures 5 and 6. Specifically, it controls the presentation of a UI that shows the values of parameters (adjustment items) that are correlated with the sound components contained in the impulse response stored in the impulse response storage unit 152 and has GUI parts (e.g., sliders and buttons) that accept adjustment of the parameters.
  • GUI parts e.g., sliders and buttons
  • the UI is not limited to the sliders described above, and knobs, buttons, audio, etc. may also be used.
  • the UI control unit 155 also supplies the level control unit 157 with the setting values of each adjustment item set in the UI presented by the UI presentation unit 156, and operation information indicating the user's operation on the UI.
  • the UI presentation unit 156 is configured to include a display unit capable of displaying a UI, such as a liquid crystal display, an LED (Light Emitting Diode) display, or an organic EL (Electro-Luminescence) display, and an operation unit capable of receiving user operations, such as a keyboard or a mouse.
  • the UI presentation unit 156 may be configured as a touch panel monitor having the functions of both a display unit and an operation unit.
  • the UI presentation unit 156 may be configured integrally with the information processing device 130, which is configured as a PC or the like, or may be configured separately from the information processing device 130.
  • the level control unit 157 changes the levels of the first sound component and the second sound component contained in the impulse response stored in the impulse response storage unit 152 in response to a user operation represented by the operation information from the UI control unit 155.
  • the user operation represented by the operation information from the UI control unit 155 is, for example, an operation for adjusting a parameter that is correlated with the first sound component and the second sound component contained in the impulse response.
  • the level control unit 157 changes the levels of the first sound component and the second sound component based on a relational expression that represents the levels of the first sound component and the second sound component, respectively, using parameters that are adjusted according to user operations. Note that in the following, the first sound component included in the impulse response will be described as the "direct sound” and the second sound component as the "indirect sound.”
  • step S11 the level control unit 157 acquires, via the UI control unit 155, the setting values of the pre-adjustment absolute volume Ga, direct sound level L1a, and indirect sound level L2a that are set in the UI presented by the UI presentation unit 156.
  • step S12 the level control unit 157 calculates the unadjusted direct sound energy E1a, the indirect sound energy E2a, and the total energy Ea based on the unadjusted impulse response supplied to the convolution processing unit 153.
  • the direct sound energy E1a and the indirect sound energy E2a are calculated by cumulatively adding the squares of the sample values of the direct sound level L1a and the indirect sound level L2a.
  • the total energy Ea is calculated as the sum of the direct sound energy E1a and the indirect sound energy E2a.
  • step S13 the level control unit 157 changes the direct sound level and the indirect sound level of the impulse response stored in the impulse response storage unit 152 in response to the adjustment of the adjustment item in the UI presented on the UI presentation unit 156.
  • the adjustment items in the UI are either “absolute volume” or “ratio of direct sound to indirect sound.”
  • step S111 the level control unit 157 acquires the adjusted absolute volume Gb setting value in the UI presented by the UI presentation unit 156 via the UI control unit 155.
  • step S112 the level control unit 157 calculates the adjusted direct sound level L1b, which is expressed using the adjusted absolute volume Gb.
  • the adjusted direct sound level L1b is expressed by the following relational expression using the adjusted absolute volume Gb, the unadjusted absolute volume Ga, and the unadjusted direct sound level L1a.
  • step S113 the level control unit 157 calculates the adjusted indirect sound level L2b, which is expressed using the adjusted absolute volume Gb.
  • the adjusted indirect sound level L2b is expressed by the following relational expression using the adjusted absolute volume Gb, the pre-adjustment absolute volume Ga, and the pre-adjustment indirect sound level L2a.
  • the level control unit 157 changes the "direct sound level” and the "indirect sound level” according to the rate of change of the absolute volume (Gb/Ga).
  • the adjusted direct sound level L1b and the adjusted indirect sound level L2b can be updated according to the ratio of the absolute volume Ga before adjustment to the absolute volume Gb after adjustment.
  • step S121 the level control unit 157 acquires the setting value of the adjusted direct sound to indirect sound ratio Rb in the UI presented on the UI presentation unit 156 via the UI control unit 155.
  • step S122 the level control unit 157 calculates the level L1b of the adjusted direct sound, which is expressed using the ratio Rb of the adjusted direct sound to the indirect sound.
  • step S123 the level control unit 157 calculates the adjusted indirect sound level L2b, which is expressed using the adjusted direct sound to indirect sound ratio Rb.
  • the direct sound energy E1a, indirect sound energy E2a, and total energy Ea before adjustment are expressed by the following relationship.
  • equation (6) is transformed as follows:
  • control target value for the ratio of the energy of direct sound to indirect sound can be obtained from the adjusted ratio Rb of direct sound to indirect sound as follows:
  • the level control unit 157 changes the "level of direct sound” and the "level of indirect sound” according to the adjusted ratio Rb of direct sound to indirect sound. That is, the adjusted level L1b of direct sound and the adjusted level L2b of indirect sound are updated based on the above-mentioned formulas (10) and (12).
  • the impulse response may be classified into "direct sound + early reflection sound” and "reverberation sound” to fine-tune the impulse response.
  • the impulse response may also be classified into reflection sound from a specific direction and reflection sound from a direction other than the specific direction, for example, "reflection sound from the front” and “reflection sound from a direction other than the front,” to fine-tune the impulse response.
  • These classifications may be set arbitrarily by the user, or may be set automatically in association with, for example, environmental information that indicates the performance environment in which the impulse response was measured, which is stored in the impulse response storage unit 152.
  • the technology according to the present disclosure is not limited to a remote ensemble system, but can be applied to applications aimed at improving the efficiency of adjustment of impulse responses in general that represent the transfer characteristics from a sound source to both ears of a user.
  • the technology according to the present disclosure can be applied to the following applications.
  • Game sound adjustments by users There may be cases where users fine-tune the sound field of game sounds, such as direct sound, indirect sound, and the direction of reflected sound, according to their preferences. In such cases, adjusting the sound field changes the overall volume, so it was necessary to readjust the absolute volume after making the adjustments.
  • the technology disclosed herein can also be applied to uses such as live performances, classes, and meetings in virtual spaces, and the uses to which it can be applied are not limited to these.
  • Example of computer configuration The above-mentioned series of processes can be executed by hardware or software.
  • the program constituting the software is installed from a program recording medium into a computer incorporated in dedicated hardware or a general-purpose personal computer.
  • FIG. 12 is a block diagram showing an example of the hardware configuration of a computer that executes the above-mentioned series of processes by a program.
  • the information processing device 130 is, for example, a PC having a configuration similar to that shown in FIG. 12.
  • CPU 301 CPU 301, ROM (Read Only Memory) 302, and RAM (Random Access Memory) 303 are interconnected by bus 304.
  • ROM Read Only Memory
  • RAM Random Access Memory
  • an input/output interface 305 Further connected to the bus 304 is an input/output interface 305. Connected to the input/output interface 305 are an input unit 306 consisting of a keyboard, mouse, etc., and an output unit 307 consisting of a display, speakers, etc. Also connected to the input/output interface 305 are a storage unit 308 consisting of a hard disk or non-volatile memory, a communication unit 309 consisting of a network interface, etc., and a drive 310 that drives removable media 311.
  • the CPU 301 for example, loads a program stored in the storage unit 308 into the RAM 303 via the input/output interface 305 and the bus 304, and executes the program, thereby performing the above-mentioned series of processes.
  • the programs executed by the CPU 301 are provided, for example, by being recorded on removable media 311, or via a wired or wireless transmission medium such as a local area network, the Internet, or digital broadcasting, and are installed in the storage unit 308.
  • the program executed by the computer may be a program in which processing is performed chronologically in the order described in this specification, or it may be a program in which processing is performed in parallel or at the required timing, such as when called.
  • a system refers to a collection of multiple components (devices, modules (parts), etc.), regardless of whether all the components are in the same housing. Therefore, multiple devices housed in separate housings and connected via a network, and a single device in which multiple modules are housed in a single housing, are both systems.
  • an embodiment of the present disclosure can be configured as cloud computing, in which a single function is shared and processed collaboratively by multiple devices over a network.
  • each step described in the above flowchart can be executed by a single device, or can be shared and executed by multiple devices.
  • one step includes multiple processes
  • the multiple processes included in that one step can be executed by one device, or can be shared and executed by multiple devices.
  • an information processing device comprising: a level control unit that changes a level of a first sound component and a level of a second sound component in response to adjustment of a parameter correlated with the first sound component and the second sound component included in an impulse response.
  • the impulse response is measured or calculated in advance.
  • the level control unit changes the level of the first sound component and the level of the second sound component based on a relational expression that represents each of the level of the first sound component and the level of the second sound component using the parameter.
  • the parameter is an absolute volume.
  • the information processing device changes a level of the first sound component and a level of the second sound component in accordance with a rate of change of the adjusted absolute volume.
  • the parameter is a ratio between the first sound component and the second sound component.
  • the level control unit changes a level of the first sound component and a level of the second sound component without changing a sum of an energy of the first sound component and an energy of the second sound component before and after adjusting the ratio.
  • the first sound component includes a direct sound;
  • the information processing device according to any one of (1) to (7), wherein the second sound component includes an indirect sound.
  • the information processing device (9) The information processing device according to (8), wherein the indirect sound includes an early reflection sound or a late reverberation sound.
  • the first sound component includes a direct sound and an early reflection sound, The information processing device according to any one of (1) to (7), wherein the second sound component includes a rear reverberation sound.
  • the first sound component includes a reflected sound from a specific direction, The information processing device according to any one of (1) to (7), wherein the second sound component includes a reflected sound from a direction other than the specific direction.
  • (12) The information processing apparatus according to any one of (1) to (11), further comprising a UI control unit that controls presentation of a UI (User Interface) that indicates the value of the parameter and accepts adjustment of the parameter.
  • UI User Interface
  • the UI further includes an indicator showing values of a level of the first sound component and a level of the second sound component that change in response to adjustment of the parameter;
  • the information processing device according to (12) wherein the indicator does not accept adjustment of a level of the first sound component and a level of the second sound component.
  • the level control unit acquires, via the UI control unit, at least one of the parameter adjusted in the UI, the level of the first sound component, and the level of the second sound component.
  • the impulse response represents a transfer characteristic from a sound source to both ears of a user.
  • the information processing device further comprising an output control unit that outputs, from an output device used by the user, a reproduced sound based on a convolution process of the impulse response in which a level of the first sound component and a level of the second sound component are adjusted for the acoustic signal from the sound source.
  • An information processing device An information processing method comprising: changing a level of a first sound component and a level of a second sound component in response to adjustment of a parameter correlated with the first sound component and the second sound component included in an impulse response.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

本開示は、インパルス応答の調整作業の効率化を図ることができるようにする情報処理装置、情報処理方法、およびプログラムに関する。 レベル制御部は、インパルス応答に含まれる第1の音成分および第2の音成分と相関があるパラメータの調整に応じて、第1の音成分のレベルと第2の音成分のレベルを変化させる。本開示に係る技術は、例えば、リモート合奏システムに適用することができる。

Description

情報処理装置、情報処理方法、およびプログラム
 本開示は、情報処理装置、情報処理方法、およびプログラムに関し、特に、インパルス応答の調整作業の効率化を図ることができるようにする情報処理装置、情報処理方法、およびプログラムに関する。
 従来、複数の演奏者がそれぞれ離れた場所にいるような状態で合奏を行うことができるリモート合奏システムが知られている。
 例えば特許文献1には、共演する複数のユーザの音響信号に対して、仮想空間におけるユーザ間の位置関係に応じた頭部伝達関数を畳み込むことで、遠隔にいる複数の演奏者による高度な合奏を実現できるようにしたリモート合奏システムが開示されている。
 このようなリモート合奏システムにおいては、演奏者(ユーザ)が、マイク(マイクロフォン)入力に対して音場再現のインパルス応答を畳み込んだ音響信号を、ヘッドホンを介して聞くケースがある。
国際公開第2022/196073号
 音源からユーザの両耳までの伝達特性をユーザ自身が調整する場合、例えば絶対音量は、インパルス応答の調整に伴い変化する特性があることから、これらの調整項目が最適値に収束するまでに微調整を繰り返す必要があった。
 本開示は、このような状況に鑑みてなされたものであり、インパルス応答の調整作業の効率化を図ることができるようにするものである。
 本開示の情報処理装置は、インパルス応答に含まれる第1の音成分および第2の音成分と相関があるパラメータの調整に応じて、前記第1の音成分のレベルと前記第2の音成分のレベルを変化させるレベル制御部を備える情報処理装置である。
 本開示の情報処理方法は、情報処理装置が、インパルス応答に含まれる第1の音成分および第2の音成分と相関があるパラメータの調整に応じて、前記第1の音成分のレベルと前記第2の音成分のレベルを変化させる情報処理方法である。
 本開示のプログラムは、コンピュータに、インパルス応答に含まれる第1の音成分および第2の音成分と相関があるパラメータの調整に応じて、前記第1の音成分のレベルと前記第2の音成分のレベルを変化させる処理を実行させるためのプログラムである。
 本開示においては、インパルス応答に含まれる第1の音成分および第2の音成分と相関があるパラメータの調整に応じて、前記第1の音成分のレベルと前記第2の音成分のレベルが変化させられる。
本開示の一実施形態に係るリモート合奏システムの構成例を示す図である。 ブースに設けられる機器の例を示す図である。 インパルス応答の音成分の例を示す図である。 従来想定され得るインパルス応答の調整のためのUIの例を示す図である。 本開示のインパルス応答の調整のためのUIの例を示す図である。 本開示のインパルス応答の調整のためのUIの例を示す図である。 本開示のインパルス応答の調整のためのUIの例を示す図である。 情報処理装置の機能構成例を示すブロック図である。 インパルス応答の調整処理の流れを説明するフローチャートである。 調整項目に応じたレベル制御の流れを説明するフローチャートである。 調整項目に応じたレベル制御の流れを説明するフローチャートである。 コンピュータのハードウェアの構成例を示すブロック図である。
 以下、本開示を実施するための形態(以下、実施形態とする)について説明する。なお、説明は以下の順序で行う。
 1.リモート合奏システムの構成とその課題
 2.インパルス応答の調整のためのUIの例
 3.情報処理装置の構成とインパルス応答の調整処理
 4.適用例
 5.コンピュータの構成例
<1.リモート合奏システムの構成とその課題>
 図1は、本開示の一実施形態に係るリモート合奏システムの構成例を示す図である。
 図1に示されるリモート合奏システム1は、それぞれ離れた場所にいる演奏者が行ういわゆるリモート合奏に用いられるシステムである。
 図1の例においては、オーケストラの演奏者である演奏者P1乃至P4が示されている。演奏者P1と演奏者P2が担当する楽器はヴァイオリンであり、演奏者P3が担当する楽器はチェロである。演奏者P4が担当する楽器はトランペットである。
 なお、演奏者の数は4人に限定されるものではなく、実際には、さらに多くの演奏者によって、さらに多くの種類の楽器を用いたリモート合奏が行われる。楽団の編成などによって、演奏者の数は異なる数になる。
 図1のリモート合奏システム1は、伝送制御装置10に対して、演奏者P1乃至P4が使用する複数の情報処理装置が接続されることにより構成される。伝送制御装置10とそれぞれの情報処理装置の間が有線の通信によって接続されるようにしてもよいし、無線の通信によって接続されるようにしてもよい。伝送制御装置10と演奏者P1乃至P4が使用する複数の情報処理装置とが有線の通信によって接続される場合、例えばUSB(Universal Serial Bus)ケーブルなどの所定の規格が用いられてよい。また、伝送制御装置10と演奏者P1乃至P4が使用する複数の情報処理装置とが無線の通信によって接続される場合、Wi-Fi(登録商標)やBluetooth(登録商標)などの任意の通信プロトコルが用いられてよい。
 演奏者P1乃至P4は、遠隔の空間において演奏を行う。例えば、スタジオ内に用意されたそれぞれ異なるブースが演奏を行う空間として用いられる。図1において、演奏者P1乃至P4のそれぞれを囲む破線の矩形は、演奏者P1乃至P4がそれぞれ異なるブースで演奏を行っていることを表す。
 図2は、ブースに設けられる機器の例を示す図である。
 図2に示されるように、演奏者P1のブース内には、ヘッドホン110、マイク(マイクロフォン)120、および情報処理装置130が設けられる。ヘッドホン110とマイク120は、PC(Personal Computer)やスマートフォン、タブレット端末などにより構成される情報処理装置130に接続される。マイク120は、適宜、伝送制御装置10に直接接続されてもよい。ヘッドホン110、マイク120、および情報処理装置130は、それぞれ有線または無線で接続されていてもよい。
 ヘッドホン110は、演奏者P1の頭部に装着される出力機器である。ヘッドホン110は、情報処理装置130による制御に従って、演奏者P1自身の演奏音や共演者の演奏音を出力する。ヘッドホンに代えて、イヤホン(インナーイヤーヘッドホン)が出力機器として用いられるようにしてもよい。
 マイク120は、演奏者P1の演奏音(演奏者P1が演奏する楽器からの音)を収音する。
 演奏者P2乃至P4のそれぞれのブース内にも、演奏者P1のブース内と同様に、ヘッドホン110、マイク120、および情報処理装置130の3つの機器が設けられる。
 このように、リモート合奏システム1において、それぞれの演奏者は、ヘッドホン110を装着し、ヘッドホン110から出力される演奏音を聴きながら、マイク120に向かって演奏を行うことになる。
 このようなリモート合奏システム1では、実際の演奏環境を仮想的に再現することで、演奏者は、自身の演奏に没入することができる。そのためには、従来の映画や音楽などのコンテンツ鑑賞のための音場再現とは異なり、音場のインパルス応答だけではなく絶対音量も正確に再現される必要がある。
 また、音場再現中の演奏においては、楽器からの音を収音するマイク120と、演奏者の頭部に装着されるヘッドホン110との間の距離が近くなる。ここで、ヘッドホン110として開放型のヘッドホンを使用した場合、マイク120との間の音響的なフィードバックによりハウリングなどが発生するおそれがある。この問題を回避するために、密閉型のヘッドホンやイヤホンを使用した場合、演奏者は、自身の楽器からの直接音を聴くことができなくなるため、マイク入力に対して直接音を含む音場再現のインパルス応答を畳み込んだ音響信号を、ヘッドホンを介して聞くことになる。
 しかしながら、音源となる楽器から演奏者の両耳までの伝達関数(伝達特性)については、
・伝搬距離が極端に短い上に、楽器自体が複雑な放射パターンを有していること
・骨伝導などで伝わる成分も聴感に影響すること
などがわかっている。これらのことから、事前に測定や計算により求めた伝達関数では、演奏者が主観的に違和感を覚えることが多かった。
 さらに、絶対音量の再現についても、個々の再生環境での感度校正が必要となるため、現実的には難しいことが多かった。
 以上のことから、演奏者は、演奏を実施する前に、
・「絶対音量」
・「自身の楽器からの直接音のレベル」(以下、単に「直接音のレベル」という)
・「自身の楽器からの間接音のレベル」(以下、単に「間接音のレベル」という)
の微調整を行う必要があった。
 図3は、演奏者が演奏する楽器からマイク120で収音されて、演奏者の頭部に装着されるヘッドホン110で再生される再生音についての、インパルス応答の音成分の例を示す図である。
 図3に示されるように、インパルス応答の音成分は、大きく「直接音」と「間接音」に分類することができる。さらに「間接音」は、「初期反射音」と「後部残響音」に分類することができる。演奏者がインパルス応答の微調整を行う場合、これらの調整項目(パラメータ)毎にそのレベルを調整することになる。
 一方で、「絶対音量」は、「直接音のエネルギー」と「間接音のエネルギー」の和で決定されるため、調整項目としての「直接音のレベル」は、「絶対音量」とは完全に独立していない。そのため、「直接音のレベル」を調整すると「絶対音量」の再調整が必要となってしまい、その逆に「絶対音量」を調整すると「直接音のレベル」の再調整が必要となってしまっていた。
 このような調整項目(パラメータ)間の相関によって、演奏者はこれら全ての調整項目が最適値に収束するまで微調整を繰り返す必要があった。
 ここで、「直接音のレベル」は、例えば直接音の振幅の値とされ、「直接音のエネルギー」は、例えば信号処理に用いるインパルス応答のサンプル値の二乗を直接音の時間区間に渡って累積加算した値とされる。「間接音のレベル」と「間接音のエネルギー」についても、それぞれ直接音と同様に定義され得る。また、後述する「直接音と間接音の比率」は、例えば直接音のエネルギーと間接音のエネルギーの比とされる。これに限らず、直接音と間接音それぞれの「レベル」や「エネルギー」は、それぞれの音に関わる他の物理量に基づいて定義されてもよい。
<2.インパルス応答の調整のためのUIの例>
 ここで、上述したインパルス応答の調整のためのUI(User Interface)の例について説明する。
 図4は、従来想定され得るインパルス応答の調整のためのUIの例を示す図である。
 図4には、インパルス応答の調整のためのUIとして提示される調整画面Ad1が示されている。
 調整画面Ad1には、調整項目(パラメータ)である「絶対音量」、「直接音のレベル」、および「間接音のレベル」それぞれの値を示すとともにこれらパラメータの調整を受け付けるスライダが設けられている。
 図4の例では、調整画面Ad1において直接音のレベルを調整する場合の調整作業の過程が示されている。具体的には、ユーザ(演奏者)による操作により「直接音のレベル」が調整されたとする。このとき、直接音のレベルと相関のある「絶対音量」が変化してしまうため、ユーザによる操作により「絶対音量」が調整される。すると、「直接音のレベル」が変化してしまうため、ユーザによる操作により「直接音のレベル」が再び調整される。このとき、「絶対音量」がまた変化してしまうため、ユーザによる操作により「絶対音量」が再び調整される。
 このように、「絶対音量」と「直接音のレベル」は互いに独立していないため、それぞれが最適値に収束するまで、ユーザは「絶対音量」と「直接音のレベル」を交互に微調整する必要があった。
 これに対して、本開示に係る技術においては、インパルス応答の調整作業の効率化を図るべく、以下の2つの観点に基づいて調整項目(パラメータ)の変換と集約を行う。
(1)演奏者にとって主観的な調整の行いやすさ
 「直接音のレベル」や「間接音のレベル」といった調整項目は、インパルス応答を合成する際の便宜上の分類であり、最終的に演奏者(ユーザ)が聴取する音には直接的な関連はない。つまり、演奏者は最終的にヘッドホンから出力される音の中から「直接音」だけを分離して聴取することはできないし、「間接音」だけを分離して聴取することもできない。
 このことは、演奏者が「直接音」や「間接音」といった分類に基づいて調整操作を行ったとしても、それが調整結果にどのように反映されたかを主観的に理解しにくい要因となっている。
 これに対して、調整項目(パラメータ)を「調整操作が調整結果にどのように反映されたかを、演奏者が主観的に把握しやすいもの」に変換することで、インパルス応答の調整作業の効率化を図る。
(2)調整項目の余剰次元の削減
 調整項目である「絶対音量」、「直接音のレベル」、「間接音のレベル」は相互に独立していないため、パラメータとしての次元数は過剰となってしまう。調整項目が多くなればそれだけ調整作業は煩雑になる。
 そこで、調整項目の余剰次元を削減し調整項目の数を減らすことで、インパルス応答の調整作業の効率化を図る。
 図5および図6は、本開示のインパルス応答の調整のためのUIの例を示す図である。
 図5および図6には、インパルス応答の調整のためのUIとして提示される調整画面Ad11が示されている。
 調整画面Ad11には、図4の調整画面Ad1と同様の構成に加え、調整項目(パラメータ)として「直接音と間接音の比率」の値を示すとともに当該パラメータの調整を受け付けるスライダが設けられている。なお、当該パラメータの調整に用いられるUIとして、スライダ以外のもの(例えばラジオボタンや音声入力など)が用いられてもよい。
 図5の例では、調整画面Ad11において絶対音量を調整する場合の調整作業の過程が示されている。具体的には、ユーザ(演奏者)による操作により「絶対音量」が調整されると、「絶対音量」を用いて「直接音のレベル」と「間接音のレベル」それぞれを表す関係式に基づいて、「直接音のレベル」と「間接音のレベル」が自動的に変化する。このとき、「直接音と間接音の比率」は変化せず、一定のままとされる。
 また図6の例では、調整画面Ad11において直接音と間接音の比率を調整する場合の調整作業の過程が示されている。具体的には、ユーザ(演奏者)による操作により「直接音と間接音の比率」が調整されると、「直接音と間接音の比率」を用いて「直接音のレベル」と「間接音のレベル」それぞれを表す関係式に基づいて、「直接音のレベル」と「間接音のレベル」が自動的に変化する。このとき、「絶対音量」は変化せず、一定のままとされる。
 このように、ユーザが、調整画面Ad11において、調整操作が調整結果にどのように反映されたかを主観的に把握しやすい「絶対音量」や「直接音と間接音の比率」を調整することで、「直接音のレベル」と「間接音のレベル」が自動的に調整されるようになる。
 なお、調整画面Ad11においては、「直接音のレベル」と「間接音のレベル」それぞれのスライダではなく、「絶対音量」や「直接音と間接音の比率」の調整に応じて「直接音のレベル」と「間接音のレベル」それぞれの値を示すのみのインジケータが設けられてもよい。この場合、これらのインジケータは、「直接音のレベル」と「間接音のレベル」の調整を受け付けないようになされる。
 ここで、「直接音のレベル」または「間接音のレベル」の調整を行う場合に、「絶対音量」と「直接音と間接音の比率」のうち、ユーザにより指定された値を固定することでその調整を受け付けないようにし、固定されていない値を自動的に変化させるようにしてもよい。例えば、「絶対音量」を固定した状態で「直接音のレベル」を変化させた場合、絶対音量(すなわち、直接音のレベルと間接音のレベルの和)を変化させることなく、「間接音のレベル」と「直接音と間接音の比率」が自動的に調整される。なお、固定するパラメータは、前述のようにユーザにより任意に指定されてもよいし、インパルス応答を測定した際の環境情報(例えば演奏環境の広さや材質)などにより決定されたり、前述以外の方法で決定されたりしてもよい。
 また、図7に示される調整画面Ad12のように、「直接音のレベル」と「間接音のレベル」のスライダやインジケータが提示されずに、「絶対音量」と「直接音と間接音の比率」それぞれを調整するためのスライダのみが提示されるようにしてもよい。なお、調整画面に提示される項目である「絶対音量」、「直接音のレベル」、「間接音のレベル」、「直接音と間接音の比率」のうち、どの項目を調整画面上に提示させるかを、ユーザが適宜設定できるようにしてもよい。また、調整画面に提示される項目として、前述した4つのパラメータを例として挙げたが、これら以外のパラメータを別途追加して提示できるようにしてもよい。
<3.情報処理装置の構成とインパルス応答の調整処理>
 以下においては、本開示に係る技術を適用した情報処理装置の構成と、情報処理装置によるインパルス応答の調整処理について説明する。
(情報処理装置の構成)
 図8は、本開示に係る技術を適用した情報処理装置130の機能構成例を示すブロック図である。図8に示される機能ブロックのうちの少なくとも一部は、情報処理装置130を構成するPCなどに搭載されたCPU(Central Processing Unit)によりプログラムが実行されることによって実現される。
 図8に示される情報処理装置130は、音響信号取得部151、インパルス応答保持部152、畳み込み処理部153、出力制御部154、UI制御部155、UI提示部156、およびレベル制御部157を含むように構成される。
 音響信号取得部151は、マイク120により収音された演奏音の音響信号を取得する。音響信号取得部151により取得された音響信号は、畳み込み処理部153に供給される。
 インパルス応答保持部152には、ユーザ(演奏者)が楽器を演奏する演奏環境においてあらかじめ測定されたか、または計算された、音場再現のインパルス応答が保持される。インパルス応答保持部152に保持されているインパルス応答は、必要に応じて、畳み込み処理部153、UI制御部155、およびレベル制御部157に取得される。インパルス応答保持部152には、測定されたインパルス応答に加えて、インパルス応答を測定した際の環境情報(例えばコンサートホールやスタジアムといったような演奏環境の種別、その広さ(容積など)や形状、演奏環境の壁面や床面に使用される材質)などが保持(格納)されていてもよい。
 畳み込み処理部153は、音響信号取得部151から供給された音響信号に対して、インパルス応答保持部152から取得したインパルス応答を畳み込む畳み込み処理を実行する。畳み込み処理が施された音響信号は、出力制御部154に供給される。
 出力制御部154は、畳み込み処理部153から供給された音響信号に基づいた再生音をヘッドホン110から出力させる。
 UI制御部155は、UI提示部156を制御することで、図5や図6を参照して説明したようなインパルス応答の調整のためのUI(調整画面)の提示を制御する。具体的には、インパルス応答保持部152に保持されているインパルス応答に含まれる音成分と相関のあるパラメータ(調整項目)の値を示すとともに、当該パラメータの調整を受け付けるGUIパーツ(例えばスライダやボタン)を有するUIの提示が制御される。また、UIとしては、先述したスライダなどに限定されず、つまみやボタン、音声によるものなどが用いられてもよい。
 また、UI制御部155は、UI提示部156に提示されたUIにおいて設定されている各調整項目の設定値や、当該UIに対するユーザの操作を表す操作情報をレベル制御部157に供給する。
 UI提示部156は、液晶ディスプレイやLED(Light Emitting Diode)ディスプレイ、有機EL(Electro-Luminescence)ディスプレイなどの、UIを表示可能な表示部と、キーボードやマウスなどの、ユーザの操作を受付可能な操作部を含むように構成される。UI提示部156は、表示部と操作部それぞれの機能を備えるタッチパネルモニタにより構成されてもよい。UI提示部156は、PCなどにより構成される情報処理装置130と一体に構成されてもよいし、情報処理装置130とは別個に構成されてもよい。
 レベル制御部157は、UI制御部155からの操作情報で表されるユーザの操作に応じて、インパルス応答保持部152に保持されているインパルス応答に含まれる第1の音成分と第2の音成分のレベルを変化させる。UI制御部155からの操作情報で表されるユーザの操作は、例えば、インパルス応答に含まれる第1の音成分と第2の音成分と相関があるパラメータの調整のための操作とされる。
 より詳細には、レベル制御部157は、ユーザの操作に応じて調整されるパラメータを用いて第1の音成分のレベルと第2の音成分のレベルそれぞれを表す関係式に基づいて、第1の音成分のレベルと第2の音成分のレベルを変化させる。なお、以下においては、インパルス応答に含まれる第1の音成分を「直接音」とし、第2の音成分を「間接音」として説明する。
(インパルス応答の調整処理)
 図9のフローチャートを参照して、図8の情報処理装置130のレベル制御部157により実行されるインパルス応答の調整処理の流れについて説明する。
 ステップS11において、レベル制御部157は、UI提示部156に提示されたUIにおいて設定されている、調整前の絶対音量Ga、直接音のレベルL1a、および間接音のレベルL2aの設定値を、UI制御部155を介して取得する。
 ステップS12において、レベル制御部157は、畳み込み処理部153に供給されている調整前のインパルス応答に基づいて、調整前の直接音のエネルギーE1a、間接音のエネルギーE2a、および全体のエネルギーEaを算出する。
 直接音のエネルギーE1aと間接音のエネルギーE2aそれぞれは、直接音のレベルL1aと間接音のレベルL2aそれぞれのサンプル値の二乗を累積加算することで求められる。また、全体のエネルギーEaは、直接音のエネルギーE1aと間接音のエネルギーE2aの和として求められる。
 ステップS13において、レベル制御部157は、UI提示部156に提示されているUIにおける調整項目の調整に応じて、インパルス応答保持部152に保持されているインパルス応答の直接音のレベルと間接音のレベルを変化させる。
 ここでは、UIにおける調整項目として、「絶対音量」と「直接音と間接音の比率」のいずれかが調整される。
(a)絶対音量が調整される場合の直接音と間接音のレベル制御
 まず、図10のフローチャートを参照して、図9のステップS13において、調整項目として「絶対音量」が調整される場合の直接音と間接音のレベル制御の流れについて説明する。
 ステップS111において、レベル制御部157は、UI提示部156に提示されているUIにおける調整後の絶対音量Gbの設定値を、UI制御部155を介して取得する。
 ステップS112において、レベル制御部157は、調整後の絶対音量Gbを用いて表される、調整後の直接音のレベルL1bを算出する。調整後の直接音のレベルL1bは、調整後の絶対音量Gb、調整前の絶対音量Ga、調整前の直接音のレベルL1aを用いて、以下の関係式で表される。
[数1]
   L1b=L1a×Gb÷Ga      ・・・(1)
 ステップS113において、レベル制御部157は、調整後の絶対音量Gbを用いて表される、調整後の間接音のレベルL2bを算出する。調整後の間接音のレベルL2bは、調整後の絶対音量Gb、調整前の絶対音量Ga、調整前の間接音のレベルL2aを用いて、以下の関係式で表される。
[数2]
   L2b=L2a×Gb÷Ga      ・・・(2)
 このように、絶対音量が調整された場合、レベル制御部157は、「直接音のレベル」と「間接音のレベル」それぞれを絶対音量の変化率(Gb/Ga)に従って変化させる。すなわち、調整前の絶対音量Gaと調整後の絶対音量Gbの比に従って、調整後の直接音のレベルL1bと、調整後の間接音のレベルL2bが更新されればよい。
(b)直接音と間接音の比率が調整される場合の直接音と間接音のレベル制御
 次に、図11のフローチャートを参照して、図9のステップS13において、調整項目として「直接音と間接音の比率」が調整される場合の直接音と間接音のレベル制御の流れについて説明する。
 ステップS121において、レベル制御部157は、UI提示部156に提示されているUIにおける調整後の直接音と間接音の比率Rbの設定値を、UI制御部155を介して取得する。
 ステップS122において、レベル制御部157は、調整後の直接音と間接音の比率Rbを用いて表される、調整後の直接音のレベルL1bを算出する。
 ステップS123において、レベル制御部157は、調整後の直接音と間接音の比率Rbを用いて表される、調整後の間接音のレベルL2bを算出する。
 以下では、調整後の直接音と間接音の比率Rbを用いて、調整後の直接音のレベルL1bと、調整後の間接音のレベルL2bそれぞれを表す関係式の導出について説明する。
 まず、調整前の直接音のエネルギーE1a、間接音のエネルギーE2a、および全体のエネルギーEaは、以下の関係式で表される。
[数3]
   Ea=E1a+E2a      ・・・(3)
 一方、調整後の直接音のエネルギーE1bと間接音のエネルギーE2bの比率は、調整対象となる調整後の直接音と間接音の比率Rbと同一になることから、以下の式が成立する。
[数4]
   Rb=E1b÷E2b      ・・・(4)
 さらに、直接音と間接音の比率の調整前後で、全体のエネルギー(絶対音量)を変化させないための制約条件として、以下の式が成立する。
[数5]
   Ea=E1b+E2b      ・・・(5)
 式(5)を式(4)に代入することで、以下の式が得られる。
[数6]
   Rb=E1b÷(Ea-E1b)      ・・・(6)
 さらに、調整後の直接音のエネルギーE1bについて、式(6)を以下のように変形する。
[数7]
   E1b=Rb×(Ea-E1b)=Rb×Ea-Rb×E1b
   E1b+Rb×E1b=Rb×Ea
   E1b(1+Rb)=Rb×Ea
   E1b=Rb×Ea÷(1+Rb)      ・・・(7)
 式(7)を式(4)に代入することで、調整後の間接音のエネルギーE2bについて、以下の式が得られる。
[数8]
   E2b=E1b÷Rb
      ={Rb×Ea÷(1+Rb)}÷Rb
      =Ea÷(1+Rb)      ・・・(8)
 上述した式(7)と式(8)を用いて、調整後の直接音と間接音の比率Rbから、直接音と間接音それぞれのエネルギーの比率の制御目標値を、以下のようにして得ることができる。
 すなわち、調整前後での直接音のレベルの変化量と、調整前後での直接音のエネルギーの変化量とは比例関係にあることから、以下の関係式が成立する。
[数9]
   E1b=E1a×L1b÷L1a      ・・・(9)
 式(9)を式(7)に代入することで、調整後の直接音のレベルL1bについて、以下の式が得られる。
[数10]
   E1a×L1b÷L1a=
   L1b=L1a×Rb×Ea÷(1+Rb)÷E1a      ・・・(10) 
 同様に、調整前後での間接音のレベルの変化量と、調整前後での間接音のエネルギーの変化量とは比例関係にあることから、以下の関係式が成立する。
[数11]
   E2b=E2a×L2b÷L2a      ・・・(11)
 式(11)を式(8)に代入することで、調整後の間接音のレベルL2bについて、以下の式が得られる。
[数12]
   E2a×L2b÷L2a=Ea÷(1+Rb)
   L2b=L2a×Ea÷(1+Rb)÷E2a      ・・・(12)
 このように、直接音と間接音の比率が調整された場合、レベル制御部157は、「直接音のレベル」と「間接音のレベル」それぞれを調整後の直接音と間接音の比率Rbに従って変化させる。すなわち、上述した式(10)と式(12)に基づいて、調整後の直接音のレベルL1bと、調整後の間接音のレベルL2bが更新されればよい。
 以上の処理によれば、インパルス応答の調整項目を「絶対音量」と「直接音と間接音の比率」のいずれかとすることで、演奏者が、調整操作が調整結果にどのように反映されたかを主観的に把握しやすくすることができる。また、演奏者にとって主観的に理解しにくい「直接音のレベル」や「間接音のレベル」といった調整項目の数を減らすことで、調整作業の煩雑化を抑制することができる。結果として、インパルス応答の調整作業の効率化を図ることが可能となる。
<4.適用例>
 以下においては、本開示に係るインパルス応答の調整の他の適用例について説明する。
(インパルス応答の音成分の他の分類への適用)
 以上においては、インパルス応答を「直接音」と「間接音」に分類して調整する例について説明した。これに限らず、本開示に係る技術においては、任意の「第1の音成分」と「第2の音成分」に分類されたインパルス応答の微調整を行うことが可能である。
 例えば、インパルス応答を「直接音+初期反射音」と「後部残響音」に分類して、インパルス応答の微調整を行うようにしてもよい。また、インパルス応答を、特定方向からの反射音と特定方向以外の方向からの反射音として、例えば「前方からの反射音」と「前方以外の方向からの反射音」に分類して、インパルス応答の微調整を行うようにしてもよい。これらの分類は、ユーザにより任意に設定されてもよいし、例えば、インパルス応答保持部152に格納されている、インパルス応答を測定した演奏環境などを示す環境情報などに紐づけられた形で自動的に設定されてもよい。
(他の用途への適用)
 本開示に係る技術は、リモート合奏システムに限らず、音源からユーザの両耳までの伝達特性を表すインパルス応答全般の調整の効率化を目的とする用途に適用することができる。本開示に係る技術は、例えば、以下に例示する用途への適用が可能である。
(1)立体音響のミキシング・マスタリング作業
 立体音響のミキシング・マスタリング作業において、音場効果を最適化する目的でインパルス応答を調整するケースが考えられる。この場合、全体の音量(絶対音量)は、音の広がり感や、等しい音色と感じる音圧レベルを結んだ「等ラウドネス曲線」に影響するため、作業中においては一定に保ちたい。
 従来、インパルス応答の直接音、初期反射音、後部残響音などのレベルを調整した場合、全体の音量も変化してしまうため、調整の後には絶対音量を再調整する必要があった。
 これに対して、本開示に係る技術を適用することで、例えば「直接音+初期反射音」と「後部残響音」の比率を調整した場合であっても、絶対音量の再調整を不要とすることができ、立体音響のミキシング・マスタリング作業の効率化を図ることが可能となる。
(2)ユーザによるゲーム音響の調整作業
 ゲーム音響において、ユーザが好みに応じて直接音や間接音、反射音の方向など音場の微調整を行うケースが考えられる。この場合、これら音場の調整を行うことにより全体の音量も変化してしまうため、調整の後には絶対音量を再調整する必要があった。
 これに対して、本開示に係る技術を適用することで、例えば「直接音」と「間接音」の比率を調整した場合であっても、絶対音量の再調整を不要とすることができ、ゲーム音響の調整作業の効率化とともにUIの簡略化を図ることが可能となる。
 なお、本開示に係る技術は、上記の他にも、仮想空間内のライブ、授業、会議などの用途への適用が可能であり、また、適用可能な用途はこれらに限定されるものではない。
<5.コンピュータの構成例>
 上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
 図12は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。情報処理装置130は、例えば、図12に示される構成と同様の構成を有するPCにより構成される。
 CPU301,ROM(Read Only Memory)302,RAM(Random Access Memory)303は、バス304により相互に接続されている。
 バス304には、さらに、入出力インタフェース305が接続される。入出力インタフェース305には、キーボード、マウスなどよりなる入力部306、ディスプレイ、スピーカなどよりなる出力部307が接続される。また、入出力インタフェース305には、ハードディスクや不揮発性のメモリなどよりなる記憶部308、ネットワークインタフェースなどよりなる通信部309、リムーバブルメディア311を駆動するドライブ310が接続される。
 以上のように構成されるコンピュータでは、CPU301が、例えば、記憶部308に記憶されているプログラムを入出力インタフェース305とバス304とを介してRAM303にロードして実行することにより、上述した一連の処理が行われる。
 CPU301が実行するプログラムは、例えばリムーバブルメディア311に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供され、記憶部308にインストールされる。
 コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 なお、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
 本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。
 本開示の実施形態は、上述した実施形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本開示の実施形態は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。
 さらに、本開示に係る技術は以下のような構成をとることができる。
(1)
 インパルス応答に含まれる第1の音成分および第2の音成分と相関があるパラメータの調整に応じて、前記第1の音成分のレベルと前記第2の音成分のレベルを変化させるレベル制御部
 を備える情報処理装置。
(2)
 前記インパルス応答は、あらかじめ測定または計算されたものである
 (1)に記載の情報処理装置。
(3)
 前記レベル制御部は、前記パラメータを用いて前記第1の音成分のレベルと前記第2の音成分のレベルそれぞれを表す関係式に基づいて、前記第1の音成分のレベルと前記第2の音成分のレベルを変化させる
 (1)に記載の情報処理装置。
(4)
 前記パラメータは、絶対音量である
 (1)乃至(3)のいずれかに記載の情報処理装置。
(5)
 前記レベル制御部は、調整された前記絶対音量の変化率に従って、前記第1の音成分のレベルと前記第2の音成分のレベルを変化させる
 (4)に記載の情報処理装置。
(6)
 前記パラメータは、前記第1の音成分と前記第2の音成分の比率である
 (1)乃至(3)のいずれかに記載の情報処理装置。
(7)
 前記レベル制御部は、前記比率の調整前後で、前記第1の音成分のエネルギーと前記第2の音成分のエネルギーの和を変化させることなく、前記第1の音成分のレベルと前記第2の音成分のレベルを変化させる
 (6)に記載の情報処理装置。
(8)
 前記第1の音成分は、直接音を含み、
 前記第2の音成分は、間接音を含む
 (1)乃至(7)のいずれかに記載の情報処理装置。
(9)
 前記間接音は、初期反射音または後部残響音を含む
 (8)に記載の情報処理装置。
(10)
 前記第1の音成分は、直接音と初期反射音とを含み、
 前記第2の音成分は、後部残響音を含む
 (1)乃至(7)のいずれかに記載の情報処理装置。
(11)
 前記第1の音成分は、特定方向からの反射音を含み、
 前記第2の音成分は、前記特定方向以外の方向からの反射音を含む
 (1)乃至(7)のいずれかに記載の情報処理装置。
(12)
 前記パラメータの値を示すとともに前記パラメータの調整を受け付けるUI(User Interface)の提示を制御するUI制御部をさらに備える
 (1)乃至(11)のいずれかに記載の情報処理装置。
(13)
 前記UIは、前記パラメータの調整に応じて変化する前記第1の音成分のレベルと前記第2の音成分のレベルの値を示すインジケータをさらに有し、
 前記インジケータは、前記第1の音成分のレベルと前記第2の音成分のレベルの調整を受け付けない
 (12)に記載の情報処理装置。
(14)
 前記レベル制御部は、前記UI制御部を介して、前記UIにおいて調整された前記パラメータ、前記第1の音成分のレベル、および前記第2の音成分のレベルの少なくとも1つを取得する
 (12)に記載の情報処理装置。
(15)
 前記インパルス応答は、音源からユーザの両耳までの伝達特性を表す
 (1)乃至(14)のいずれかに記載の情報処理装置。
(16)
 前記音源からの音響信号に対する、前記第1の音成分のレベルと前記第2の音成分のレベルが調整された前記インパルス応答の畳み込み処理に基づいた再生音を、前記ユーザが使用する出力機器から出力させる出力制御部を備える
 (15)に記載の情報処理装置。
(17)
 情報処理装置が、
 インパルス応答に含まれる第1の音成分および第2の音成分と相関があるパラメータの調整に応じて、前記第1の音成分のレベルと前記第2の音成分のレベルを変化させる
 情報処理方法。
(18)
 コンピュータに、
 インパルス応答に含まれる第1の音成分および第2の音成分と相関があるパラメータの調整に応じて、前記第1の音成分のレベルと前記第2の音成分のレベルを変化させる
 処理を実行させるためのプログラム。
 1 リモート合奏システム, 10 伝送制御装置, 110 ヘッドホン, 120 マイクロフォン, 130 情報処理装置, 151 音響信号取得部, 152 インパルス応答保持部, 153 畳み込み処理部, 154 出力制御部, 155 UI制御部, 156 UI提示部, 157 レベル制御部

Claims (18)

  1.  インパルス応答に含まれる第1の音成分および第2の音成分と相関があるパラメータの調整に応じて、前記第1の音成分のレベルと前記第2の音成分のレベルを変化させるレベル制御部
     を備える情報処理装置。
  2.  前記インパルス応答は、あらかじめ測定または計算されたものである
     請求項1に記載の情報処理装置。
  3.  前記レベル制御部は、前記パラメータを用いて前記第1の音成分のレベルと前記第2の音成分のレベルそれぞれを表す関係式に基づいて、前記第1の音成分のレベルと前記第2の音成分のレベルを変化させる
     請求項1に記載の情報処理装置。
  4.  前記パラメータは、絶対音量である
     請求項1に記載の情報処理装置。
  5.  前記レベル制御部は、調整された前記絶対音量の変化率に従って、前記第1の音成分のレベルと前記第2の音成分のレベルを変化させる
     請求項4に記載の情報処理装置。
  6.  前記パラメータは、前記第1の音成分と前記第2の音成分の比率である
     請求項1に記載の情報処理装置。
  7.  前記レベル制御部は、前記比率の調整前後で、前記第1の音成分のエネルギーと前記第2の音成分のエネルギーの和を変化させることなく、前記第1の音成分のレベルと前記第2の音成分のレベルを変化させる
     請求項6に記載の情報処理装置。
  8.  前記第1の音成分は、直接音を含み、
     前記第2の音成分は、間接音を含む
     請求項1に記載の情報処理装置。
  9.  前記間接音は、初期反射音または後部残響音を含む
     請求項8に記載の情報処理装置。
  10.  前記第1の音成分は、直接音と初期反射音とを含み、
     前記第2の音成分は、後部残響音を含む
     請求項1に記載の情報処理装置。
  11.  前記第1の音成分は、特定方向からの反射音を含み、
     前記第2の音成分は、前記特定方向以外の方向からの反射音を含む
     請求項1に記載の情報処理装置。
  12.  前記パラメータの値を示すとともに前記パラメータの調整を受け付けるUI(User Interface)の提示を制御するUI制御部をさらに備える
     請求項1に記載の情報処理装置。
  13.  前記UIは、前記パラメータの調整に応じて変化する前記第1の音成分のレベルと前記第2の音成分のレベルの値を示すインジケータをさらに有し、
     前記インジケータは、前記第1の音成分のレベルと前記第2の音成分のレベルの調整を受け付けない
     請求項12に記載の情報処理装置。
  14.  前記レベル制御部は、前記UI制御部を介して、前記UIにおいて調整された前記パラメータ、前記第1の音成分のレベル、および前記第2の音成分のレベルの少なくとも1つを取得する
     請求項12に記載の情報処理装置。
  15.  前記インパルス応答は、音源からユーザの両耳までの伝達特性を表す
     請求項1に記載の情報処理装置。
  16.  前記音源からの音響信号に対する、前記第1の音成分のレベルと前記第2の音成分のレベルが調整された前記インパルス応答の畳み込み処理に基づいた再生音を、前記ユーザが使用する出力機器から出力させる出力制御部を備える
     請求項15に記載の情報処理装置。
  17.  情報処理装置が、
     インパルス応答に含まれる第1の音成分および第2の音成分と相関があるパラメータの調整に応じて、前記第1の音成分のレベルと前記第2の音成分のレベルを変化させる
     情報処理方法。
  18.  コンピュータに、
     インパルス応答に含まれる第1の音成分および第2の音成分と相関があるパラメータの調整に応じて、前記第1の音成分のレベルと前記第2の音成分のレベルを変化させる
     処理を実行させるためのプログラム。
PCT/JP2023/034201 2022-10-07 2023-09-21 情報処理装置、情報処理方法、およびプログラム WO2024075527A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022-162112 2022-10-07
JP2022162112 2022-10-07

Publications (1)

Publication Number Publication Date
WO2024075527A1 true WO2024075527A1 (ja) 2024-04-11

Family

ID=90607995

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/034201 WO2024075527A1 (ja) 2022-10-07 2023-09-21 情報処理装置、情報処理方法、およびプログラム

Country Status (1)

Country Link
WO (1) WO2024075527A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02193193A (ja) * 1989-01-23 1990-07-30 Toshiba Corp 音響効果装置
JP2017173704A (ja) * 2016-03-25 2017-09-28 ブラザー工業株式会社 カラオケ装置、及びプログラム
JP2021129145A (ja) * 2020-02-10 2021-09-02 ヤマハ株式会社 音量調整装置および音量調整方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02193193A (ja) * 1989-01-23 1990-07-30 Toshiba Corp 音響効果装置
JP2017173704A (ja) * 2016-03-25 2017-09-28 ブラザー工業株式会社 カラオケ装置、及びプログラム
JP2021129145A (ja) * 2020-02-10 2021-09-02 ヤマハ株式会社 音量調整装置および音量調整方法

Similar Documents

Publication Publication Date Title
US11503421B2 (en) Systems and methods for processing audio signals based on user device parameters
US7379552B2 (en) Smart speakers
US20140205114A1 (en) Visually-Assisted Mixing of Audio Using a Spectral Analyzer
US20100223552A1 (en) Playback Device For Generating Sound Events
Mason et al. An assessment of the spatial performance of virtual home theatre algorithms by subjective and objective methods
JPWO2018055860A1 (ja) 情報処理装置と情報処理方法およびプログラム
Ternström et al. Self-to-other ratios measured in an opera chorus in performance
WO2024075527A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2956125B2 (ja) 音源情報制御装置
US11102606B1 (en) Video component in 3D audio
JP4426159B2 (ja) ミキシング装置
JP4392040B2 (ja) 音響信号処理装置、音響信号処理方法、音響信号処理プログラムおよびコンピュータに読み取り可能な記録媒体
WO2020209103A1 (ja) 情報処理装置および方法、再生装置および方法、並びにプログラム
WO2023171642A1 (ja) 音信号処理方法、音信号処理装置および音信号配信システム
King et al. Loudspeakers and headphones: the effects of playback systems on listening test subjects
Moore It's all
Canfer Music Technology in Live Performance: Tools, Techniques, and Interaction
WO2018193160A1 (en) Ambience generation for spatial audio mixing featuring use of original and extended signal
Harker et al. Rethinking the box: Approaches to the reality of electronic music performance
WO2024024468A1 (ja) 情報処理装置および方法、符号化装置、音声再生装置、並びにプログラム
US20230143062A1 (en) Automatic level-dependent pitch correction of digital audio
White Basic mixers
KR100703923B1 (ko) 멀티미디어기기를 위한 입체음향 최적화 장치 및 방법
Geluso Mixing and Mastering
Tom Automatic mixing systems for multitrack spatialization based on unmasking properties and directivity patterns

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23874656

Country of ref document: EP

Kind code of ref document: A1