WO2023218917A1 - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
WO2023218917A1
WO2023218917A1 PCT/JP2023/016040 JP2023016040W WO2023218917A1 WO 2023218917 A1 WO2023218917 A1 WO 2023218917A1 JP 2023016040 W JP2023016040 W JP 2023016040W WO 2023218917 A1 WO2023218917 A1 WO 2023218917A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
harmonic distortion
information processing
processing device
harmonic
Prior art date
Application number
PCT/JP2023/016040
Other languages
English (en)
French (fr)
Inventor
亨 中川
哲 曲谷地
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2023218917A1 publication Critical patent/WO2023218917A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control

Definitions

  • the present technology relates to an information processing device, an information processing method, and a program, and particularly relates to an information processing device, an information processing method, and a program that can accurately reproduce reproduced sound in an acoustic space.
  • Patent Document 1 describes forming an HRTF for each individual and using the HRTF for each individual to accurately reproduce the sound pressure from a sound source at a certain position.
  • the sound heard from headphones is a reproduction of the sound from a sound source such as a speaker in a movie theater or studio.
  • the present technology was developed in view of this situation, and is intended to enable accurate reproduction of reproduced sound in an acoustic space.
  • An information processing device includes: a harmonic signal generation unit that generates a first signal by convolving a transmission characteristic of harmonic distortion in an acoustic space with an input signal; and a synthesizing section that synthesizes the sound transfer characteristic excluding the harmonic distortion in space with a second signal convoluted with the input signal.
  • an information processing device generates a first signal by convolving a transfer characteristic of harmonic distortion in an acoustic space with an input signal, and combines the first signal with the acoustic space.
  • the sound transfer characteristic excluding the harmonic distortion is synthesized with a second signal convoluted with the input signal.
  • a program causes a computer to generate a first signal by convolving a transmission characteristic of harmonic distortion in an acoustic space with an input signal, and generates a first signal and a harmonic wave in the acoustic space. Processing is performed to synthesize the sound transfer characteristic excluding distortion with a second signal convoluted with the input signal.
  • a first signal is generated by convolving a transfer characteristic of harmonic distortion in an acoustic space with an input signal, and the first signal and the harmonic distortion in the acoustic space are removed.
  • a second signal in which the sound transfer characteristic is convolved with the input signal is synthesized.
  • FIG. 3 is a diagram showing an example of HRIR.
  • FIG. 3 is a diagram showing an example of sound transfer characteristics that can be measured in an HRTF measurement environment.
  • 1 is a diagram illustrating a configuration example of a sound production system according to an embodiment of the present technology.
  • FIG. 3 is a diagram illustrating a method for measuring HRTF using a TSP signal.
  • FIG. 2 is a diagram illustrating a method for measuring HRTF using a Log-TSP signal.
  • FIG. 3 is a diagram showing an example of an impulse response measured by a measuring device.
  • FIG. 1 is a block diagram showing a configuration example of a conventional information processing device. 2 is a flowchart illustrating reproduction processing performed by a conventional information processing device.
  • FIG. 1 is a block diagram showing a configuration example of a conventional information processing device.
  • FIG. 1 is a block diagram illustrating a configuration example of an information processing device according to the present technology. It is a flowchart explaining reproduction processing performed by an information processing device of this art.
  • FIG. 2 is a block diagram illustrating another configuration example of the information processing device. It is a figure which shows the example of a display of a setting screen. 3 is a flowchart illustrating reproduction processing performed by the information processing device.
  • FIG. 2 is a block diagram showing an example of the hardware configuration of a computer.
  • Sound production system configuration> Overview Sound images can be reproduced three-dimensionally using headphones using head related transfer functions (HRTF), which indicate the transfer characteristics of sound from a sound source to both ears in a certain acoustic space.
  • HRTF head related transfer functions
  • HRTF which is frequency domain information
  • HRIR Head Related Impulse Response
  • FIG. 2 is a diagram showing an example of sound transfer characteristics that can be measured in the HRTF measurement environment.
  • a speaker 1 as a sound source is arranged in the studio RM1 as the HRTF measurement environment.
  • the speaker 1 outputs reproduced sound based on a predetermined measurement signal, and the reproduced sound is collected by the microphone 2 placed at a predetermined position in the studio RM1, thereby measuring the characteristics of the sound field of the studio RM1.
  • the characteristics of this sound field include the characteristics of the speaker 1 and the sound of the studio RM1, as shown in balloon #1 in FIG.
  • Microphones are attached to both ears of the user U1 who is at the HRTF measurement position.
  • the speaker 1 outputs playback sound based on a predetermined measurement signal, and the playback sound is collected by the microphones attached to both ears of the user U1, so that the studio RM1 The HRTF from the speaker 1 to both ears of the user is measured.
  • the measured HRTF becomes personalized to the user U1.
  • the method for acquiring the HRTF personalized to the user U1 is not limited to the method in which the user U1 actually goes to the measurement environment and takes measurements.
  • the converted HRTF may be obtained.
  • the sound output from speaker 1 is acoustically influenced by the characteristics of speaker 1, the reverberation of studio RM1, the torso, head, pinna, and eardrum of user U1, in this order. reaches the eardrum. Therefore, the HRTF from the speaker 1 to both ears includes the characteristics of the speaker 1, the sound of the studio RM1, and the effects of the user U1's torso, head, pinna, and eardrum.
  • harmonic distortion is considered to occur due to reflections from the walls of the studio RM1 and the characteristics of the speaker 1.
  • the conventional sound production system outputs a reproduced sound that reproduces the sound from the speaker 1 in the studio RM1 from the headphones used by the user U1 by convolving the HRTF from the speaker 1 to both ears of the user U1 into the audio signal.
  • a reproduction filter generated by convolving the HRTF from the speaker 1 to both ears (SP HRTF) with an inverse function of the HRTF from the headphones to both ears is convolved with the audio signal.
  • SP HRTF inverse function of the HRTF from the headphones to both ears
  • the actual system in which the reproduced sound reaches both ears of the user U1 in the acoustic space is a nonlinear system. could not be reproduced.
  • One embodiment of the present technology was conceived with a focus on the above points, and involves acquiring highly accurate transfer characteristics of sound including harmonic distortion in an acoustic space, and convolving the transfer characteristics into an audio signal.
  • FIG. 3 is a diagram illustrating a configuration example of a sound production system according to an embodiment of the present technology.
  • the sound production system shown in FIG. 3 is a system that mixes audio for content such as movies.
  • a user uses an audio production system to produce, for example, audio for a movie.
  • Movie audio includes not only the voices of characters such as the actors' lines and narration, but also various sounds such as sound effects, environmental sounds, and background music.
  • sounds such as sound effects, environmental sounds, and background music.
  • each type of sound will be collectively referred to as sound, but in reality, the sound of a movie also includes types of sounds other than sound.
  • the measurement environment is a movie theater called a dubbing stage or the like and used for sound production.
  • a movie theater is equipped with a screen and multiple speakers.
  • the movie theater is provided with a measurement device 11 that obtains measurement results of sound transfer characteristics in a measurement environment and generates an HRTF file.
  • the measuring device 11 is composed of, for example, a PC.
  • a personalized HRTF which is an HRTF personalized to the producer of the movie's sound, is measured.
  • the personalized HRTF the HRTF of the audio excluding harmonic distortion in the movie theater and the HRTF of harmonic distortion of each order in the movie theater are measured.
  • the personalized HRTF file in which data indicating the measurement results of the personalized HRTF is recorded is provided to the information processing device 21 provided in the playback environment.
  • the personalized HRTF file may be provided to the information processing device 21 via a network such as the Internet, or may be provided using a recording medium such as a flash memory.
  • the playback environment is an environment in a location different from a movie theater, such as a studio or the producer's home.
  • the playback environment may be prepared at the same location as the measurement environment.
  • the playback environment is provided with an information processing device 21, which is a device used to edit the audio of a movie.
  • the information processing device 21 is also configured by, for example, a PC.
  • a producer edits the audio of a movie using headphones 22 in a playback environment such as at home.
  • Headphones 22 are output devices provided in the playback environment.
  • the audio signal is reproduced using the personalized HRTF.
  • the playback sound output from the speakers of the movie theater used to measure the personalized HRTF is reproduced.
  • the same acoustic environment as a movie theater is virtually reproduced in the playback environment.
  • production is performed using the reproduced sound output from the speakers of a movie theater as a reference. According to the sound production system of the present technology, there is no need to go to a movie theater, so the producer can edit at home.
  • HRTFs for harmonic distortion and HRTFs for speech other than harmonic distortion are included in one HRTF, and it is not possible to separate the HRTF for harmonic distortion.
  • SS Stept Sine
  • the SS signal is a sine wave signal whose frequency increases or decreases over time.
  • TSP Time Stretched Pulse
  • Log-TSP Logarithmic Time Stretched Pulse
  • a TSP signal is a signal whose frequency increases or decreases in proportion to time.
  • the left side of FIG. 4 shows an example of the time-frequency characteristics of the response of the TSP signal in the acoustic space.
  • the horizontal axis shows time and the vertical axis shows frequency.
  • SP1 indicates the main signal (signal other than harmonic distortion) response.
  • SP2 indicates a response to second-order harmonic distortion
  • SP3 indicates a response to third-order harmonic distortion.
  • the response of the TSP signal also increases or decreases in frequency in proportion to time, similar to the TSP signal.
  • a Log-TSP signal is a signal whose frequency increases as an exponential function of time.
  • the left side of FIG. 5 shows an example of the time-frequency characteristics of the response of the Log-TSP signal.
  • SP1 indicates the main signal response.
  • SP2 indicates a response to second-order harmonic distortion
  • SP3 indicates a response to third-order harmonic distortion.
  • the response of the Log-TSP signal also increases in frequency as an exponential function of time, similar to the Log-TSP signal.
  • the fundamental wave (main signal) in the Log-TSP signal is shown by the following equation (1)
  • the first harmonic is shown by the following equation (2).
  • the first harmonic and fundamental wave have equal time intervals at all frequencies. Furthermore, in the Log-TSP signal, harmonics other than the first harmonic and the fundamental wave have equal time intervals at all frequencies for each harmonic order.
  • the measuring device 11 measures the HRTF of harmonic distortion for each order and the HRTF of audio other than harmonic distortion using the Log-TSP signal described above.
  • FIG. 6 is a diagram showing an example of an impulse response measured by the measuring device 11.
  • the measuring device 11 measures, for example, the impulse response in the period P1 as the impulse response of the main signal (HRTF of audio other than harmonic distortion). Furthermore, the measuring device 11 measures the impulse response in the period P2 before the period P1 as an impulse response of first-order harmonic distortion (HRTF of the first-order harmonic distortion), and The impulse response is measured as a second harmonic distortion impulse response (second harmonic distortion HRTF).
  • HRTF first-order harmonic distortion
  • the measuring device 11 can measure harmonic distortion separately for each order using the Log-TSP signal.
  • the order of harmonic distortion measured by the measuring device 11 in FIG. 6 is an example, and the measuring device 11 can measure the HRTF of harmonic distortion up to any order.
  • FIG. 7 is a block diagram showing a configuration example of a conventional information processing device 21A.
  • the conventional information processing device 21A includes an input signal acquisition section 31A, an HRTF acquisition section 32A, a convolution section 33A, and a reproduction control section 34A.
  • the input signal acquisition unit 31A acquires, for example, an audio signal of the audio of a movie to be edited as an input signal x, and supplies it to the convolution unit 33A.
  • the HRTF acquisition unit 32A acquires the personalized HRTF file provided from the device that measures HRTF, reads the personalized HRTF by referring to the personalized HRTF file, and supplies it to the convolution unit 33A.
  • the convolution unit 33A loads the personalized HRTF supplied from the HRTF acquisition unit 32A into the memory as an FIR coefficient of an FIR filter (Finite Impulse Response).
  • the convolution unit 33A generates a reproduction signal by performing FIR filter convolution on the input signal x supplied from the input signal acquisition unit 31A, and supplies the reproduction signal to the reproduction control unit 34A.
  • the playback control unit 34A causes the headphones to output playback sound based on the playback signal supplied from the convolution unit 33A.
  • the personalized HRTF is loaded into the memory of the convolution unit 33A as an FIR coefficient.
  • step S1 the input signal acquisition unit 31A acquires an input signal.
  • step S2 the convolution unit 33A performs FIR filter convolution processing on the input signal to generate a reproduced signal.
  • step S3 the playback control unit 34A causes the headphones to output playback sound based on the playback signal.
  • FIG. 9 is a block diagram showing a configuration example of the information processing device 21 of the present technology.
  • one personalized HRTF is convolved with the input signal, but in the information processing device 21 of the present technology shown in FIG. Personalized HRTFs are loaded into memory as FIR coefficients for each order of harmonic distortion, and each personalized HRTF is convolved with the input signal.
  • the information processing device 21 of the present technology includes an input signal acquisition section 41, an HRTF acquisition section 42, a harmonic signal generation section 43, a convolution section 44, an addition section 45, and a reproduction control section 46. Ru.
  • the input signal acquisition unit 41 acquires, for example, an audio signal of the audio of a movie to be edited as an input signal x, and supplies it to the harmonic signal generation unit 43 and the convolution unit 44.
  • the HRTF acquisition unit 42 acquires the personalized HRTF file provided from the measurement device 11, refers to the personalized HRTF file, reads out HRTF SP1 , which is a personalized HRTF for sounds other than harmonic distortion, and sends it to the convolution unit 44. supply Further, the HRTF acquisition unit 42 refers to the personalized HRTF file, reads out HRTF SP2 to HRTF SP5 , which are personalized HRTFs of harmonic distortion for each order, and supplies them to the harmonic signal generation unit 43.
  • the harmonic signal generation section 43 includes multiplication sections 51-1 to 51-4 and convolution sections 52-1 to 52-4.
  • the multiplier 51-1 multiplies the input signal x by the input signal x to generate a harmonic signal x 2 corresponding to second-order harmonic distortion, and supplies it to the multiplier 51-2 and the convolution unit 52-1.
  • the multiplier 51-2 multiplies the input signal x and the harmonic signal x2 to generate a harmonic signal x3 corresponding to third-order harmonic distortion, and supplies the harmonic signal x3 to the multiplier 51-3 and the convolution section 52-2. do.
  • the multiplication unit 51-3 multiplies the input signal x and the harmonic signal x3 to generate a harmonic signal x4 corresponding to fourth-order harmonic distortion, and supplies the harmonic signal x4 to the multiplication unit 51-4 and the convolution unit 52-3. do.
  • the multiplication unit 51-4 multiplies the input signal x and the harmonic signal x 4 to generate a harmonic signal x 5 corresponding to fifth-order harmonic distortion, and supplies the harmonic signal x 5 to the convolution unit 52-4.
  • the convolution units 52-1 to 52-4 convolve the HRTF of the harmonic distortion with the harmonic signal generated by multiplying the input signal by the same number as the order of the harmonic distortion.
  • the convolution unit 52-1 loads HRTF SP2 , which is the HRTF of second-order harmonic distortion, into the memory as an FIR coefficient.
  • the convolution unit 52-1 generates a convolution signal by convolving the harmonic signal x 2 with an FIR filter, and supplies the signal to the addition unit 45.
  • the convolution unit 52-2 loads HRTF SP3 , which is the HRTF of third-order harmonic distortion, into the memory as an FIR coefficient.
  • the convolution unit 52-2 generates a convolution signal by convolving the harmonic signal x 3 with an FIR filter, and supplies it to the addition unit 45.
  • the convolution unit 52-3 loads HRTF SP4 , which is the HRTF of fourth-order harmonic distortion, into the memory as an FIR coefficient.
  • the convolution unit 52-3 generates a convolution signal by convolving the harmonic signal x 4 with an FIR filter, and supplies the signal to the addition unit 45.
  • the convolution unit 52-4 loads HRTF SP5 , which is the HRTF of fifth-order harmonic distortion, into the memory as an FIR coefficient.
  • the convolution unit 52-4 generates a convolution signal by convolving the harmonic signal x5 with an FIR filter, and supplies the signal to the addition unit 45.
  • the convolution unit 44 loads the HRTF SP1 supplied from the HRTF acquisition unit 32A into the memory as an FIR coefficient.
  • the convolution unit 44 generates a convolution signal by convolving the input signal x supplied from the input signal acquisition unit 41 with an FIR filter, and supplies the signal to the addition unit 45 .
  • the inverse function of the HRTF from the headphones 22 to both ears of the user is also convolved with the input signal and the harmonic signal, as well as the personalized HRTF. .
  • the adding unit 45 functions as a combining unit that adds and synthesizes the convolution signals supplied from the convolution unit 44 and the convolution units 52-1 to 52-4, respectively.
  • the adder 45 synthesizes the convolutional signals to generate a reproduction signal, and supplies the reproduced signal to the reproduction controller 46 .
  • the reproduction control section 46 causes the headphones 22 to output reproduction sound based on the reproduction signal supplied from the addition section 45.
  • the personalized HRTF is loaded as an FIR coefficient into the memory of each of the convolution unit 44 and convolution units 52-1 to 52-4.
  • step S21 the input signal acquisition unit 41 acquires an input signal.
  • Multipliers 51-1 to 51-4 generate harmonic signals corresponding to the orders of harmonic distortion, respectively.
  • step S22 the convolution unit 44 performs convolution processing of the FIR filter on the input signal to generate a convolution signal.
  • step S23 the convolution units 52-1 to 52-4 perform convolution processing of the FIR filter on the harmonic signals corresponding to the orders of harmonic distortion, respectively, to generate convolution signals.
  • step S24 the adder 45 synthesizes the convolution signals generated in step S22 and step S23 to generate a reproduced signal.
  • step S25 the playback control unit 46 outputs the playback sound based on the playback signal from the headphones.
  • the convolution signal in which the HRTF of harmonic distortion is convolved with the input signal and the convolution signal in which the HRTF excluding the harmonic distortion is convolved with the input signal are synthesized. Then, a reproduced signal is generated.
  • the HRTF of the harmonic distortion for each order is convolved with the harmonic signal x 2
  • the HRTF of the 3rd harmonic distortion is convolved with the harmonic signal x 3 , and so on.
  • the wave distortion is convolved with the processed input signal according to its order.
  • the sound production system can accurately reproduce the playback sound in an acoustic space containing harmonic distortion. Become.
  • FIG. 11 is a block diagram showing another configuration example of the information processing device 21.
  • the same components as those described with reference to FIG. 9 are given the same reference numerals. Duplicate explanations will be omitted as appropriate.
  • the configuration of the information processing device 21 shown in FIG. 11 differs from the configuration of the information processing device 21 in FIG. 9 in that a display control section 101, an operation input section 102, and an amplifier 103 are provided.
  • the display control unit 101 displays, on a display device such as a display connected to the information processing device 21 in the playback environment, a setting screen that serves as a GUI (Graphical User Interface) that receives input for operations to set target sound pressure, volume, etc.
  • a display device such as a display connected to the information processing device 21 in the playback environment
  • a setting screen that serves as a GUI (Graphical User Interface) that receives input for operations to set target sound pressure, volume, etc.
  • FIG. 12 is a diagram showing a display example of the setting screen.
  • a form F1 for inputting the target sound pressure is displayed on the upper left side of the setting screen.
  • the user sets the sound pressure (sound pressure level) of the reproduced sound by selecting a desired target sound pressure from a plurality of options.
  • 85 dBSPL is input as the target sound pressure.
  • Form F2 is displayed for inputting the file name of the personalized HRTF file (FIR file) used to reproduce the input signal. For example, the user selects a desired file from among the personalized HRTF files that the information processing device 21 can read.
  • FIR file personalized HRTF file
  • a bar B1 for adjusting the volume is displayed on the lower left side of the settings screen. Further, on the lower right side of the setting screen, a button B11 for outputting playback sound and a button B12 for stopping output of playback sound are displayed. The user controls the reproduction of the input signal by the information processing device 21 by operating these displays.
  • the operation input unit 102 accepts the input of the user's operation on the setting screen.
  • the operation input unit 102 supplies information indicating the content of the user's operation to the HRTF acquisition unit 42, the convolution unit 44, the convolution units 52-1 to 52-4, and the amplifier 103.
  • the target sound pressure and volume may be set by a method other than the operation on the setting screen.
  • the HRTF acquisition unit 42 refers to the personalized HRTF file set by the user and reads out the personalized HRTF.
  • the personalized HRTF file sets of HRTF SP1 to HRTF SP5 are recorded for each sound pressure of the reproduced sound.
  • the convolution unit 44 and the convolution units 52-1 to 52-4 load the personalized HRTF according to the sound pressure set by the user into the memory as FIR coefficients. Specifically, the convolution unit 44 and the convolution units 52-1 to 52-4 use the personalized HRTF read out from the personalized HRTF file as is, or use the personalized HRTF according to the sound pressure set by the user. Adjust the personalized HRTF read from the HRTF file using gain, etc.
  • the information processing device 21 can also reproduce reproduced sound in an acoustic space that does not include harmonic distortion.
  • the amplifier 103 adjusts the playback signal supplied from the adder 45 according to the volume set by the user, and supplies the adjusted playback signal to the playback control unit 46.
  • the playback control unit 46 causes the headphones 22 to output playback sound based on the adjusted playback signal supplied from the playback control unit 46.
  • step S41 the input signal acquisition unit 41 acquires an input signal.
  • Multipliers 51-1 to 51-4 generate harmonic signals corresponding to the orders of harmonic distortion, respectively.
  • step S42 the operation input unit 102 receives an input of an operation by the user to set the sound pressure of the reproduced sound, and acquires the sound pressure of the reproduced sound.
  • the convolution unit 44 and the convolution units 52-1 to 52-4 load the personalized HRTF according to the sound pressure set by the user into the memory as FIR coefficients.
  • step S43 the convolution unit 44 performs convolution processing of the FIR filter on the input signal to generate a convolution signal.
  • step S44 the convolution units 52-1 to 52-4 perform convolution processing of the FIR filter on the harmonic signals corresponding to the orders of harmonic distortion, respectively, to generate convolution signals.
  • step S45 the adder 45 synthesizes the convolution signals generated in step S43 and step S44 to generate a reproduced signal.
  • Amplifier 103 adjusts the reproduction signal according to the volume set by the user.
  • step S46 the playback control unit 46 outputs the playback sound based on the playback signal from the headphones.
  • the sound production system can reproduce the difference in the behavior of harmonic distortion depending on the sound pressure of the reproduced sound in the measurement environment, and can accurately reproduce the reproduced sound in an acoustic space containing harmonic distortion. becomes.
  • the series of processes described above can be executed by hardware or software.
  • a program constituting the software is installed from a program recording medium into a computer built into dedicated hardware or a general-purpose personal computer.
  • FIG. 14 is a block diagram showing an example of the hardware configuration of a computer that executes the above-described series of processes using a program.
  • the measuring device 11 and the information processing device 21 are configured by, for example, a PC having a configuration similar to that shown in FIG. 14.
  • a CPU (Central Processing Unit) 501, a ROM (Read Only Memory) 502, and a RAM (Random Access Memory) 503 are interconnected by a bus 504.
  • An input/output interface 505 is further connected to the bus 504.
  • an input section 506 consisting of a keyboard, a mouse, etc.
  • an output section 507 consisting of a display, speakers, etc.
  • a storage section 508 consisting of a hard disk or non-volatile memory
  • a communication section 509 consisting of a network interface, etc.
  • a drive 510 for driving a removable medium 511.
  • the CPU 501 executes the series of processes described above by, for example, loading a program stored in the storage unit 508 into the RAM 503 via the input/output interface 505 and the bus 504 and executing it. will be held.
  • a program executed by the CPU 501 is installed in the storage unit 508 by being recorded on a removable medium 511 or provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital broadcasting.
  • the program executed by the computer may be a program in which processing is performed chronologically in accordance with the order described in this specification, or may be a program in which processing is performed in parallel or at necessary timing such as when a call is made. It may also be a program that is carried out.
  • a system refers to a collection of multiple components (devices, modules (components), etc.), regardless of whether all the components are located in the same casing. Therefore, multiple devices housed in separate casings and connected via a network, and a single device with multiple modules housed in one casing are both systems. .
  • the present technology can take a cloud computing configuration in which one function is shared and jointly processed by multiple devices via a network.
  • each step described in the above flowchart can be executed by one device or can be shared and executed by multiple devices.
  • one step includes multiple processes
  • the multiple processes included in that one step can be executed by one device or can be shared and executed by multiple devices.
  • the present technology can also have the following configuration.
  • a harmonic signal generation unit that generates a first signal by convolving a transmission characteristic of harmonic distortion in an acoustic space with an input signal
  • An information processing device comprising: a synthesis unit that synthesizes the first signal and a second signal in which a sound transfer characteristic excluding the harmonic distortion in the acoustic space is convolved with the input signal.
  • the harmonic signal generation unit convolves the transmission characteristic of the harmonic distortion for each order with the input signal that has been processed in accordance with the order of the harmonic distortion.
  • the harmonic signal generation unit convolves the transmission characteristic of the harmonic distortion with the input signal multiplied by the same number as the order of the harmonic distortion.
  • the harmonic signal generation unit convolves the transmission characteristic of the harmonic distortion in accordance with the sound pressure of the reproduced sound based on the reproduced signal obtained by combining the first signal and the second signal with the input signal.
  • the information processing device according to any one of 1) to (7).
  • the harmonic signal generation unit obtains the harmonic distortion transfer characteristic according to the sound pressure by referring to a file in which the harmonic distortion transfer characteristic is recorded for each of the sound pressures.
  • the information processing device described in . (10) The information processing device according to (8) or (9), further comprising a display control unit that performs a display that accepts an input of an operation by a user to set the sound pressure.
  • the information processing device according to any one of (1) to (10), wherein the sound transfer characteristic excluding the harmonic distortion, which is personalized to the user, is convolved with the input signal.
  • the harmonic signal generation unit convolves the transmission characteristic of the harmonic distortion personalized to the user into the input signal.
  • the information processing device Generate a first signal by convolving the transmission characteristic of harmonic distortion in the acoustic space with the input signal, An information processing method comprising: synthesizing the first signal and a second signal in which a sound transfer characteristic excluding the harmonic distortion in the acoustic space is convolved with the input signal.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Abstract

本技術は、音響空間における再生音を精度よく再現することができるようにする情報処理装置、情報処理方法、およびプログラムに関する。 本技術の情報処理装置は、音響空間における高調波歪の伝達特性を入力信号に畳み込むことで第1の信号を生成する高調波信号生成部と、第1の信号と、音響空間における高調波歪を除いた音の伝達特性が入力信号に畳み込まれた第2の信号とを合成する合成部とを備える。高調波信号生成部は、次数ごとの高調波歪の伝達特性を、高調波歪の次数に対応してそれぞれ処理された入力信号に畳み込む。本技術は、例えば、映画などのコンテンツのオーディオのミキシングを行うシステムに適用することができる。

Description

情報処理装置、情報処理方法、およびプログラム
 本技術は、情報処理装置、情報処理方法、およびプログラムに関し、特に、音響空間における再生音を精度よく再現することができるようにした情報処理装置、情報処理方法、およびプログラムに関する。
 映画館やスタジオなどの音響空間における音の伝達特性を示す頭部伝達関数(HRTF:Head Related Transfer Function)を音声信号に畳み込むことにより、音像を所定の位置に定位させ、ヘッドホンから聞こえる音を立体的に再生することが可能となる。例えば、特許文献1には、個人ごとのHRTFを形成し、個人ごとのHRTFを用いて、ある位置の音源からの音圧を実際通りに再現することが記載されている。
 ヘッドホンから聞こえる音は、映画館やスタジオにおけるスピーカなどの音源からの音を再現したものとなる。
特開2015-19360号公報
 実際の映画館やスタジオでは壁による反響やスピーカの特性に起因して高調波歪が発生する。しかしながら、HRTFを用いた再生音で、映画館やスタジオにおける高調波歪を再現することができなかった。
 本技術はこのような状況に鑑みてなされたものであり、音響空間における再生音を精度よく再現することができるようにするものである。
 本技術の一側面の情報処理装置は、音響空間における高調波歪の伝達特性を入力信号に畳み込むことで第1の信号を生成する高調波信号生成部と、前記第1の信号と、前記音響空間における前記高調波歪を除いた音の伝達特性が前記入力信号に畳み込まれた第2の信号とを合成する合成部とを備える。
 本技術の一側面の情報処理方法は、情報処理装置が、音響空間における高調波歪の伝達特性を入力信号に畳み込むことで第1の信号を生成し、前記第1の信号と、前記音響空間における前記高調波歪を除いた音の伝達特性が前記入力信号に畳み込まれた第2の信号とを合成する。
 本技術の一側面のプログラムは、コンピュータに、音響空間における高調波歪の伝達特性を入力信号に畳み込むことで第1の信号を生成し、前記第1の信号と、前記音響空間における前記高調波歪を除いた音の伝達特性が前記入力信号に畳み込まれた第2の信号とを合成する処理を実行させる。
 本技術の一側面においては、音響空間における高調波歪の伝達特性を入力信号に畳み込むことで第1の信号が生成され、前記第1の信号と、前記音響空間における前記高調波歪を除いた音の伝達特性が前記入力信号に畳み込まれた第2の信号とが合成される。
HRIRの例を示す図である。 HRTFの測定環境において測定可能な音の伝達特性の例を示す図である。 本技術の一実施形態に係る音響制作システムの構成例を示す図である。 TSP信号を用いたHRTFの測定方法について説明する図である。 Log-TSP信号を用いたHRTFの測定方法について説明する図である。 測定装置により測定されるインパルス応答の例を示す図である。 従来の情報処理装置の構成例を示すブロック図である。 従来の情報処理装置が行う再生処理について説明するフローチャートである。 本技術の情報処理装置の構成例を示すブロック図である。 本技術の情報処理装置が行う再生処理について説明するフローチャートである。 情報処理装置の他の構成例を示すブロック図である。 設定画面の表示例を示す図である。 情報処理装置が行う再生処理について説明するフローチャートである。 コンピュータのハードウェアの構成例を示すブロック図である。
 以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
 1.音響制作システムの構成
 2.情報処理装置の構成と動作
 3.変形例
<1.音響制作システムの構成>
・概要
 ある音響空間における音源から両耳までの音の伝達特性を示す頭部伝達関数(HRTF:Head Related Transfer Function)を用いて、ヘッドホンで音像を立体的に再生することができる。
 周波数領域の情報であるHRTFは、例えば、図1に示すように、音響空間における音源からユーザの両耳までのインパルス応答を示す時間領域の情報であるHRIR(Head Related Impulse Response)の形式で測定される。
 図2は、HRTFの測定環境において測定可能な音の伝達特性の例を示す図である。
 HRTFの測定環境としてのスタジオRM1には、音源としてのスピーカ1が配置されている。スピーカ1から所定の測定信号に基づく再生音が出力され、スタジオRM1の所定の位置に配置されたマイクロフォン2により再生音が集音されることで、スタジオRM1の音場の特性が測定される。この音場の特性には、図2の吹き出し#1に示すように、スピーカ1の特性とスタジオRM1の響きが含まれる。
 HRTFの測定位置にいるユーザU1の両耳には、マイクロフォンが装着される。この状態で、スピーカ1から所定の測定信号に基づく再生音が出力され、ユーザU1の両耳に装着されたマイクロフォンで再生音が集音されることで、吹き出し#2に示すように、スタジオRM1におけるスピーカ1からユーザの両耳までのHRTFが測定される。
 ユーザU1が実際にスタジオRM1に行ってHRTFを測定することにより、測定されたHRTFはユーザU1に個人化されたものとなる。なお、ユーザU1に個人化されたHRTFの取得方法は、ユーザU1が実際に測定環境に行って測定する方法に限られず、例えば、ユーザU1の耳を撮影した画像に基づいて、ユーザU1に個人化されたHRTFが取得されるようにしてもよい。
 スピーカ1から出力された音は、スタジオRM1において、スピーカ1の特性、スタジオRM1の響き、ユーザU1の胴体、頭部、耳介部、および鼓膜の順に音響的な影響を受けて、ユーザU1の鼓膜に届く。したがって、スピーカ1から両耳までのHRTFには、スピーカ1の特性、スタジオRM1の響き、および、ユーザU1の胴体や、頭部、耳介部、鼓膜の影響が含まれる。
 例えばスタジオRM1が広い場合やスピーカ1が大きい場合、スタジオRM1の壁による反響やスピーカ1の特性に起因して高調波歪が生じると考えられる。
 従来の音響制作システムは、スピーカ1からユーザU1の両耳までのHRTFを音声信号に畳み込むことによって、スタジオRM1におけるスピーカ1からの音を再現した再生音を、ユーザU1が使用するヘッドホンから出力させる。具体的には、スピーカ1から両耳までのHRTF(SP HRTF)に対してヘッドホンから両耳までのHRTFの逆関数を畳み込むことによって生成される再生フィルタが、音声信号に畳み込まれる。従来の音響制作システムにおける再生フィルタを音声信号に畳み込むアルゴリズムは、線形システムである。
 一方、音響空間において再生音がユーザU1の両耳に届くまでの実際の系は、非線形システムであるため、線形システムである従来の音響制作システムにおけるアルゴリズム(単純な畳み込み処理)では、高調波歪を再現することができなかった。
 本技術の一実施形態では、上記の点に着目して発想されたものであり、音響空間における高調波歪を含む音の高精度な伝達特性を取得し、当該伝達特性を音声信号に畳み込むことで、音響空間におけるスピーカのダイナミックな挙動を再現することが可能な技術を提案する。以下、本実施形態について詳細に説明する。
・音響制作システムの構成
 図3は、本技術の一実施形態に係る音響制作システムの構成例を示す図である。図3の音響制作システムは、映画などのコンテンツのオーディオのミキシングを行うシステムである。ユーザは、音響制作システムを用いて、例えば映画の音声の制作を行う。
 映画の音声には、出演者の台詞やナレーションなどの人物の音声だけでなく、効果音、環境音、BGMなどの各種の音が含まれる。以下、適宜、それぞれの音の種類を区別する必要がない場合、まとめて音声として説明するが、実際には、映画の音には音声以外の種類の音も含まれる。
 図3の左側に示すように、測定環境は、ダビングステージなどと呼ばれ、音響制作に用いられる映画館である。映画館には、スクリーンとともに複数のスピーカが設けられる。また、映画館には、測定環境における音の伝達特性の測定結果を取得し、HRTFファイルを生成する測定装置11が設けられる。測定装置11は例えばPCにより構成される。
 図3の音響制作システムの測定環境においては、映画の音声の制作者に個人化されたHRTFである個人化HRTFが測定される。個人化HRTFとしては、映画館における高調波歪を除いた音声のHRTF、および、映画館における次数ごとの高調波歪のHRTFがそれぞれ測定される。
 図3の矢印の先に示すように、個人化HRTFの測定結果を示すデータが記録された個人化HRTFファイルは、再生環境に設けられた情報処理装置21に提供される。情報処理装置21に対する個人化HRTFファイルの提供が、インターネットなどのネットワークを介して行われるようにしてもよいし、フラッシュメモリなどの記録媒体を用いて行われるようにしてもよい。
 再生環境は、スタジオ、制作者の自宅などの、映画館とは異なる場所にある環境である。再生環境が測定環境と同じ場所に用意されるようにしてもよい。
 再生環境には、映画の音声の編集に用いられる機器である情報処理装置21が設けられる。情報処理装置21も例えばPCにより構成される。制作者は、自宅などの再生環境においてヘッドホン22を使用して、映画の音声の編集を行う。ヘッドホン22は、再生環境に用意された出力機器である。
 情報処理装置21においては、個人化HRTFを用いて音声信号の再生が行われる。個人化HRTFを用いた再生が行われることにより、個人化HRTFの測定に用いられた映画館のスピーカから出力された再生音が再現される。
 これにより、制作者は、ヘッドホン22を使用して、映画館と同じ音響環境下で編集を行うことが可能となる。すなわち、映画館と同じ音響環境が再生環境に仮想的に再現される。通常、映画の音声の制作環境では、映画館のスピーカから出力される再生音をリファレンスとして制作が行われる。本技術の音響制作システムによれば、映画館に出向く必要がないことから、制作者は、自宅などでも編集を行うことが可能となる。
・HRTFの測定方法
 次に、図4と図5を参照して、測定装置11によるHRTFの測定方法について説明する。従来のインパルス応答測定システムにおいては、高調波歪のHRTFと高調波歪以外の音声のHRTFが1つのHRTFの中に包含されており、高調波歪のHRTFを分離することができなかった。
 高調波歪のHRTFを分けて測定するために、SS(Swept Sine)信号を用いて、次数ごとの高調波歪や高調波歪以外の音声のインパルス応答を抽出する手法が知られている。SS信号は、時間とともに周波数が上昇または下降する正弦波信号である。SS信号の一種として、TSP(Time Stretched Pulse)信号やLog-TSP(Logarithmic Time Stretched Pulse)信号が知られている。
 TSP信号は、時間に比例して周波数が上昇または下降する信号である。図4の左側には、TSP信号の音響空間における応答の時間周波数特性の例が示されている。時間周波数特性では、横軸が時間を示し、縦軸が周波数を示す。図4の例では、SP1が主信号(高調波歪以外の信号)応答を示す。また、図4の例では、SP2が2次高調波歪の応答を示し、SP3が3次高調波歪の応答を示す。
 図4の左側に示すように、TSP信号の応答もTSP信号と同様に、時間に比例して周波数が上昇または下降する。
 SP1乃至SP3に対して主信号の逆特性を乗じる変換を行うと、図4の中央に示すように、SP1の全ての周波数成分が同じ時刻に集約され、主信号のインパルス応答が得られる。しかしながら、SP2とSP3の周波数成分は同じ時刻に集約されない。このため、TSP信号を用いたインパルス応答の測定結果として、図4の右側に示すように、主信号応答の時刻よりも前の時間に、2次高調波歪と3次高調波歪が混ざった高調波歪の応答が得られる。
 一方、Log-TSP信号は、周波数が時間の指数関数として上昇する信号である。図5の左側には、Log-TSP信号の応答の時間周波数特性の例が示されている。図5の例でも、SP1が主信号応答を示す。また、図5の例では、SP2が2次高調波歪の応答を示し、SP3が3次高調波歪の応答を示す。
 図5の左側に示すように、Log-TSP信号の応答もLog-TSP信号と同様に、周波数が時間の指数関数として上昇する。ここで、Log-TSP信号における基本波(主信号)は下式(1)で示され、1次高調波は、下式(2)で示される。
Figure JPOXMLDOC01-appb-M000001
 式(2)で示すように、Log-TSP信号においては、1次高調波と基本波は全ての周波数で時間間隔が等しい。また、Log-TSP信号においては、1次高調波以外の他の高調波と基本波も、高調波の次数ごとに全ての周波数で時間間隔が等しい。
 したがって、SP1乃至SP3に対して主信号の逆特性を乗じる変換を行うと、図5の中央に示すように、SP1乃至SP3の全ての周波数成分がそれぞれ1つの時刻に集約される。これにより、Log-TSP信号に対するインパルス応答の測定結果として、図5の右側に示すように、主信号のインパルス応答、2次高調波歪のインパルス応答、および3次高調波歪のインパルス応答が分かれて得られる。
 測定装置11は、上述したLog-TSP信号を用いて、次数ごとの高調波歪のHRTFと高調波歪以外の音声のHRTFとを測定する。
 図6は、測定装置11により測定されるインパルス応答の例を示す図である。
 測定装置11は、例えば、期間P1におけるインパルス応答を、主信号のインパルス応答(高調波歪以外の音声のHRTF)として測定する。また、測定装置11は、期間P1よりも前の期間P2におけるインパルス応答を、1次高調波歪のインパルス応答(1次高調波歪のHRTF)として測定し、期間P2よりも前の期間P3におけるインパルス応答を、2次高調波歪のインパルス応答(2次高調波歪のHRTF)として測定する。
 このように、測定装置11は、Log-TSP信号を用いて、高調波歪を次数ごとに分けて測定することができる。なお、図6において測定装置11により測定される高調波歪の次数は一例であり、測定装置11は任意の次数までの高調波歪のHRTFを測定することが可能である。
<2.情報処理装置の構成と動作>
・従来の情報処理装置の構成と動作
 図7は、従来の情報処理装置21Aの構成例を示すブロック図である。
 図7に示すように、従来の情報処理装置21Aは、入力信号取得部31A、HRTF取得部32A、畳み込み部33A、および再生制御部34Aにより構成される。
 入力信号取得部31Aは、例えば編集対象となる映画の音声の音声信号を入力信号xとして取得し、畳み込み部33Aに供給する。
 HRTF取得部32Aは、HRTFを測定する装置から提供された個人化HRTFファイルを取得し、個人化HRTFファイルを参照して個人化HRTFを読み出し、畳み込み部33Aに供給する。
 畳み込み部33Aは、HRTF取得部32Aから供給された個人化HRTFをFIRフィルタ(Finite Impulse Response)のFIR係数としてメモリにロードする。畳み込み部33Aは、入力信号取得部31Aから供給された入力信号xに対してFIRフィルタの畳み込みを行うことで再生信号を生成し、再生制御部34Aに供給する。
 再生制御部34Aは、畳み込み部33Aから供給された再生信号に基づく再生音をヘッドホンから出力させる。
 図8のフローチャートを参照して、従来の情報処理装置21Aが行う再生処理について説明する。例えば、図8の再生処理の開始時、個人化HRTFがFIR係数として畳み込み部33Aのメモリにロードされる。
 ステップS1において、入力信号取得部31Aは、入力信号を取得する。
 ステップS2において、畳み込み部33Aは、入力信号に対してFIRフィルタの畳み込み処理を行い、再生信号を生成する。
 ステップS3において、再生制御部34Aは、再生信号に基づく再生音をヘッドホンから出力させる。
・本技術の情報処理装置の構成と動作
 図9は、本技術の情報処理装置21の構成例を示すブロック図である。
 図7に示した従来の情報処理装置21Aにおいては、1つの個人化HRTFが入力信号に対して畳み込まれていたが、図9に示す本技術の情報処理装置21においては、高調波歪の個人化HRTFが高調波歪の次数ごとにFIR係数としてメモリにロードされ、それぞれの個人化HRTFが入力信号に対して畳み込まれる。
 図9に示すように、本技術の情報処理装置21は、入力信号取得部41、HRTF取得部42、高調波信号生成部43、畳み込み部44、加算部45、および再生制御部46により構成される。
 入力信号取得部41は、例えば編集対象となる映画の音声の音声信号を入力信号xとして取得し、高調波信号生成部43と畳み込み部44に供給する。
 HRTF取得部42は、測定装置11から提供された個人化HRTFファイルを取得し、個人化HRTFファイルを参照して高調波歪以外の音声の個人化HRTFであるHRTFSP1を読み出し、畳み込み部44に供給する。また、HRTF取得部42は、個人化HRTFファイルを参照して次数ごとの高調波歪の個人化HRTFであるHRTFSP2乃至HRTFSP5を読み出し、高調波信号生成部43に供給する。
 高調波信号生成部43は、乗算部51-1乃至51-4と畳み込み部52-1乃至52-4を備える。
 乗算部51-1は、入力信号xと入力信号xを乗算して2次高調波歪に対応する高調波信号xを生成し、乗算部51-2と畳み込み部52-1に供給する。
 乗算部51-2は、入力信号xと高調波信号xを乗算して3次高調波歪に対応する高調波信号xを生成し、乗算部51-3と畳み込み部52-2に供給する。
 乗算部51-3は、入力信号xと高調波信号xを乗算して4次高調波歪に対応する高調波信号xを生成し、乗算部51-4と畳み込み部52-3に供給する。
 乗算部51-4は、入力信号xと高調波信号xを乗算して5次高調波歪に対応する高調波信号xを生成し、畳み込み部52-4に供給する。
 畳み込み部52-1乃至52-4は、高調波歪の次数と同じ数だけ入力信号が乗算されて生成された高調波信号に対して高調波歪のHRTFを畳み込む。
 具体的には、畳み込み部52-1は、2次高調波歪のHRTFであるHRTFSP2をFIR係数としてメモリにロードする。畳み込み部52-1は、高調波信号xに対してFIRフィルタの畳み込みを行うことで畳み込み信号を生成し、加算部45に供給する。
 畳み込み部52-2は、3次高調波歪のHRTFであるHRTFSP3をFIR係数としてメモリにロードする。畳み込み部52-2は、高調波信号xに対してFIRフィルタの畳み込みを行うことで畳み込み信号を生成し、加算部45に供給する。
 畳み込み部52-3は、4次高調波歪のHRTFであるHRTFSP4をFIR係数としてメモリにロードする。畳み込み部52-3は、高調波信号xに対してFIRフィルタの畳み込みを行うことで畳み込み信号を生成し、加算部45に供給する。
 畳み込み部52-4は、5次高調波歪のHRTFであるHRTFSP5をFIR係数としてメモリにロードする。畳み込み部52-4は、高調波信号xに対してFIRフィルタの畳み込みを行うことで畳み込み信号を生成し、加算部45に供給する。
 畳み込み部44は、HRTF取得部32Aから供給されたHRTFSP1をFIR係数としてメモリにロードする。畳み込み部44は、入力信号取得部41から供給された入力信号xに対してFIRフィルタの畳み込みを行うことで畳み込み信号を生成し、加算部45に供給する。
 なお、畳み込み部44と畳み込み部52-1乃至52-4においては、個人化HRTFとともに、ヘッドホン22からユーザの両耳までのHRTFの逆関数も、入力信号や高調波信号に対して畳み込まれる。
 加算部45は、畳み込み部44と畳み込み部52-1乃至52-4からそれぞれ供給された畳み込み信号を加算して合成する合成部として機能する。加算部45は、畳み込み信号を合成して再生信号を生成し、再生制御部46に供給する。
 再生制御部46は、加算部45から供給された再生信号に基づく再生音をヘッドホン22から出力させる。
 次に、図10のフローチャートを参照して、以上のような構成を有する本技術の情報処理装置21が行う再生処理について説明する。例えば、図10の再生処理の開始時、個人化HRTFがFIR係数として畳み込み部44と畳み込み部52-1乃至52-4のそれぞれのメモリにロードされる。
 ステップS21において、入力信号取得部41は、入力信号を取得する。乗算部51-1乃至51-4は、高調波歪の次数にそれぞれ対応する高調波信号を生成する。
 ステップS22において、畳み込み部44は、入力信号に対してFIRフィルタの畳み込み処理を行い、畳み込み信号を生成する。
 ステップS23において、畳み込み部52-1乃至52-4は、高調波歪の次数にそれぞれ対応する高調波信号に対してFIRフィルタの畳み込み処理を行い、畳み込み信号を生成する。
 ステップS24において、加算部45は、ステップS22とステップS23において生成された畳み込み信号を合成して再生信号を生成する。
 ステップS25において、再生制御部46は、再生信号に基づく再生音をヘッドホンから出力させる。
 以上のように、情報処理装置21においては、高調波歪のHRTFが入力信号に畳み込まれた畳み込み信号と、高調波歪を除いたHRTFが入力信号に畳み込まれた畳み込み信号とが合成されて、再生信号が生成される。2次高調波歪のHRTFは高調波信号xに畳み込まれ、3次高調波歪のHRTFは高調波信号xに畳み込まれるといったように、次数ごとの高調波歪のHRTFは、高調波歪の次数に対応してそれぞれ処理された入力信号に畳み込まれる。
 このようにして生成された再生信号に基づく再生音をヘッドホン22などの出力機器から出力させることで、音響制作システムは、高調波歪を含む音響空間における再生音を精度よく再現することが可能となる。
<3.変形例>
・音圧に応じてFIR係数を調整する例
 測定環境ではスピーカから出力される再生音の音圧に応じて高調波歪の挙動が変わる。再生環境におけるヘッドホン22から出力される再生音の音圧に応じて、FIR係数が調整されるようにしてもよい。
 図11は、情報処理装置21の他の構成例を示すブロック図である。図11において、図9を参照して説明した構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。
 図11に示す情報処理装置21の構成は、表示制御部101、操作入力部102、およびアンプ(増幅器)103が設けられる点で、図9の情報処理装置21の構成と異なる。
 表示制御部101は、再生環境において情報処理装置21に接続されたディスプレイなどの表示機器に、ターゲット音圧や音量などを設定する操作の入力を受け付けるGUI(Graphical User Interface)となる設定画面を表示させる。
 図12は、設定画面の表示例を示す図である。
 図12に示すように、設定画面の左上側には、ターゲット音圧を入力するためのフォームF1が表示される。ユーザは、複数の選択肢の中から所望のターゲット音圧を選択するなどして、再生音の音圧(音圧レベル)を設定する。図12の例では、85dBSPLがターゲット音圧として入力されている。
 フォームF1の下側には、入力信号の再生に用いられる個人化HRTFファイル(FIRファイル)のファイル名を入力するためのフォームF2が表示される。例えば、ユーザは、情報処理装置21が読み出すことが可能な個人化HRTFファイルの中から所望のファイルを選択する。
 設定画面の左下側には、音量を調整するためのバーB1が表示される。また、設定画面の右下側には、再生音を出力させるためのボタンB11と再生音の出力を停止させるためのボタンB12が表示される。ユーザは、これらの表示を操作するなどして、情報処理装置21による入力信号の再生を制御する。
 図11に戻り、操作入力部102は、設定画面に対するユーザによる操作の入力を受け付ける。操作入力部102は、ユーザによる操作内容を示す情報を、HRTF取得部42、畳み込み部44、畳み込み部52-1乃至52-4、およびアンプ103に供給する。なお、設定画面に対する操作以外の方法でターゲット音圧や音量が設定されるようにしてもよい。
 HRTF取得部42は、ユーザにより設定された個人化HRTFファイルを参照して、個人化HRTFを読み出す。個人化HRTFファイルには、HRTFSP1乃至HRTFSP5のセットが再生音の音圧ごとに記録されている。
 畳み込み部44と畳み込み部52-1乃至52-4は、ユーザにより設定された音圧に応じた個人化HRTFをFIR係数としてメモリにロードする。具体的には、畳み込み部44と畳み込み部52-1乃至52-4は、ユーザにより設定された音圧に応じて、個人化HRTFファイルから読み出された個人化HRTFをそのまま用いたり、個人化HRTFファイルから読み出された個人化HRTFをゲインなどで調整したりする。
 なお、HRTFSP2乃至HRTFSP5を0に調整することで、情報処理装置21は、高調波歪を含まない音響空間における再生音を再現することもできる。
 アンプ103は、加算部45から供給された再生信号を、ユーザにより設定された音量に応じて調整し、調整済みの再生信号を再生制御部46に供給する。
 再生制御部46は、再生制御部46から供給された調整済みの再生信号に基づく再生音をヘッドホン22から出力させる。
 次に、図13のフローチャートを参照して、以上のような構成を有する情報処理装置21が行う再生処理について説明する。例えば、図13の再生処理の開始時、ユーザによる個人化HRTFファイルのファイル名の入力が受け付けられ、ユーザにより設定された個人化HRTFファイルから個人化HRTFがFIR係数としてメモリにロードされる。
 ステップS41において、入力信号取得部41は、入力信号を取得する。乗算部51-1乃至51-4は、高調波歪の次数にそれぞれ対応する高調波信号を生成する。
 ステップS42において、操作入力部102は、ユーザによる再生音の音圧を設定する操作の入力を受け付け、再生音の音圧を取得する。畳み込み部44と畳み込み部52-1乃至52-4は、ユーザにより設定された音圧に応じた個人化HRTFをFIR係数としてメモリにロードする。
 ステップS43において、畳み込み部44は、入力信号に対してFIRフィルタの畳み込み処理を行い、畳み込み信号を生成する。
 ステップS44において、畳み込み部52-1乃至52-4は、高調波歪の次数にそれぞれ対応する高調波信号に対してFIRフィルタの畳み込み処理を行い、畳み込み信号を生成する。
 ステップS45において、加算部45は、ステップS43とステップS44において生成された畳み込み信号を合成して再生信号を生成する。アンプ103は、ユーザにより設定された音量に応じて再生信号を調整する。
 ステップS46において、再生制御部46は、再生信号に基づく再生音をヘッドホンから出力させる。
 以上のように、音響制作システムは、測定環境における再生音の音圧に応じた高調波歪の挙動の違いを再現し、高調波歪を含む音響空間における再生音を精度よく再現することが可能となる。
・その他
 以上では、高調波歪のHRTFと高調波歪以外の音声のHRTFが、測定環境となる音響空間において測定される例について説明したが、これらのHRTFが、音響シミュレーションなどの測定以外の方法を用いて取得されるようにしてもよい。
・コンピュータについて
 上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
 図14は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。測定装置11や情報処理装置21は、例えば、図14に示す構成と同様の構成を有するPCにより構成される。
 CPU(Central Processing Unit)501、ROM(Read Only Memory)502、RAM(Random Access Memory)503は、バス504により相互に接続されている。
 バス504には、さらに、入出力インタフェース505が接続される。入出力インタフェース505には、キーボード、マウスなどよりなる入力部506、ディスプレイ、スピーカなどよりなる出力部507が接続される。また、入出力インタフェース505には、ハードディスクや不揮発性のメモリなどよりなる記憶部508、ネットワークインタフェースなどよりなる通信部509、リムーバブルメディア511を駆動するドライブ510が接続される。
 以上のように構成されるコンピュータでは、CPU501が、例えば、記憶部508に記憶されているプログラムを入出力インタフェース505及びバス504を介してRAM503にロードして実行することにより、上述した一連の処理が行われる。
 CPU501が実行するプログラムは、例えばリムーバブルメディア511に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供され、記憶部508にインストールされる。
 コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 なお、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
 なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。
 本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
<構成の組み合わせ例>
 本技術は、以下のような構成をとることもできる。
(1)
 音響空間における高調波歪の伝達特性を入力信号に畳み込むことで第1の信号を生成する高調波信号生成部と、
 前記第1の信号と、前記音響空間における前記高調波歪を除いた音の伝達特性が前記入力信号に畳み込まれた第2の信号とを合成する合成部と
 を備える情報処理装置。
(2)
 前記高調波信号生成部は、次数ごとの前記高調波歪の伝達特性を、前記高調波歪の次数に対応してそれぞれ処理された前記入力信号に畳み込む
 前記(1)に記載の情報処理装置。
(3)
 前記高調波信号生成部は、前記高調波歪の次数と同じ数だけ乗算された前記入力信号に、前記高調波歪の伝達特性を畳み込む
 前記(2)に記載の情報処理装置。
(4)
 前記高調波歪は、前記音響空間におけるスピーカ特性に起因する
 前記(1)乃至(3)のいずれかに記載の情報処理装置。
(5)
 前記高調波歪は、前記音響空間での反響に起因する
 前記(1)乃至(4)のいずれかに記載の情報処理装置。
(6)
 前記高調波信号生成部は、前記音響空間において測定された前記高調波歪の伝達特性を前記入力信号に畳み込む
 前記(1)乃至(5)のいずれかに記載の情報処理装置。
(7)
 前記高調波歪の伝達特性は、Log-TSP信号を用いて測定される
 前記(6)に記載の情報処理装置。
(8)
 前記高調波信号生成部は、前記第1の信号と前記第2の信号が合成された再生信号に基づく再生音の音圧に応じた前記高調波歪の伝達特性を前記入力信号に畳み込む
 前記(1)乃至(7)のいずれかに記載の情報処理装置。
(9)
 前記高調波信号生成部は、前記音圧ごとに前記高調波歪の伝達特性が記録されたファイルを参照して、前記音圧に応じた前記高調波歪の伝達特性を取得する
 前記(8)に記載の情報処理装置。
(10)
 ユーザによる前記音圧を設定する操作の入力を受け付ける表示を行う表示制御部をさらに備える
 前記(8)または(9)に記載の情報処理装置。
(11)
 ユーザに個人化された、前記高調波歪を除いた音の伝達特性が、前記入力信号に畳み込まれる
 前記(1)乃至(10)のいずれかに記載の情報処理装置。
(12)
 前記高調波信号生成部は、ユーザに個人化された前記高調波歪の伝達特性を前記入力信号に畳み込む
 前記(1)乃至(11)のいずれかに記載の情報処理装置。
(13)
 情報処理装置が、
 音響空間における高調波歪の伝達特性を入力信号に畳み込むことで第1の信号を生成し、
 前記第1の信号と、前記音響空間における前記高調波歪を除いた音の伝達特性が前記入力信号に畳み込まれた第2の信号とを合成する
 情報処理方法。
(14)
 コンピュータに、
 音響空間における高調波歪の伝達特性を入力信号に畳み込むことで第1の信号を生成し、
 前記第1の信号と、前記音響空間における前記高調波歪を除いた音の伝達特性が前記入力信号に畳み込まれた第2の信号とを合成する
 処理を実行させるためのプログラム。
 1 スピーカ, 11 測定装置, 21 情報処理装置, 22 ヘッドホン, 41 入力信号取得部, 42 HRTF取得部, 43 高調波信号生成部, 44 畳み込み部, 45 加算部, 46 再生制御部, 51-1乃至51-4 乗算部, 52-1乃至52-4 畳み込み部, 101 表示制御部, 102 操作入力部, 103 アンプ

Claims (14)

  1.  音響空間における高調波歪の伝達特性を入力信号に畳み込むことで第1の信号を生成する高調波信号生成部と、
     前記第1の信号と、前記音響空間における前記高調波歪を除いた音の伝達特性が前記入力信号に畳み込まれた第2の信号とを合成する合成部と
     を備える情報処理装置。
  2.  前記高調波信号生成部は、次数ごとの前記高調波歪の伝達特性を、前記高調波歪の次数に対応してそれぞれ処理された前記入力信号に畳み込む
     請求項1に記載の情報処理装置。
  3.  前記高調波信号生成部は、前記高調波歪の次数と同じ数だけ乗算された前記入力信号に、前記高調波歪の伝達特性を畳み込む
     請求項2に記載の情報処理装置。
  4.  前記高調波歪は、前記音響空間におけるスピーカ特性に起因する
     請求項1に記載の情報処理装置。
  5.  前記高調波歪は、前記音響空間での反響に起因する
     請求項1に記載の情報処理装置。
  6.  前記高調波信号生成部は、前記音響空間において測定された前記高調波歪の伝達特性を前記入力信号に畳み込む
     請求項1に記載の情報処理装置。
  7.  前記高調波歪の伝達特性は、Log-TSP信号を用いて測定される
     請求項6に記載の情報処理装置。
  8.  前記高調波信号生成部は、前記第1の信号と前記第2の信号が合成された再生信号に基づく再生音の音圧に応じた前記高調波歪の伝達特性を前記入力信号に畳み込む
     請求項1に記載の情報処理装置。
  9.  前記高調波信号生成部は、前記音圧ごとに前記高調波歪の伝達特性が記録されたファイルを参照して、前記音圧に応じた前記高調波歪の伝達特性を取得する
     請求項8に記載の情報処理装置。
  10.  ユーザによる前記音圧を設定する操作の入力を受け付ける表示を行う表示制御部をさらに備える
     請求項8に記載の情報処理装置。
  11.  ユーザに個人化された、前記高調波歪を除いた音の伝達特性が、前記入力信号に畳み込まれる
     請求項1に記載の情報処理装置。
  12.  前記高調波信号生成部は、ユーザに個人化された前記高調波歪の伝達特性を前記入力信号に畳み込む
     請求項1に記載の情報処理装置。
  13.  情報処理装置が、
     音響空間における高調波歪の伝達特性を入力信号に畳み込むことで第1の信号を生成し、
     前記第1の信号と、前記音響空間における前記高調波歪を除いた音の伝達特性が前記入力信号に畳み込まれた第2の信号とを合成する
     情報処理方法。
  14.  コンピュータに、
     音響空間における高調波歪の伝達特性を入力信号に畳み込むことで第1の信号を生成し、
     前記第1の信号と、前記音響空間における前記高調波歪を除いた音の伝達特性が前記入力信号に畳み込まれた第2の信号とを合成する
     処理を実行させるためのプログラム。
PCT/JP2023/016040 2022-05-11 2023-04-24 情報処理装置、情報処理方法、およびプログラム WO2023218917A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022-077864 2022-05-11
JP2022077864 2022-05-11

Publications (1)

Publication Number Publication Date
WO2023218917A1 true WO2023218917A1 (ja) 2023-11-16

Family

ID=88730317

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/016040 WO2023218917A1 (ja) 2022-05-11 2023-04-24 情報処理装置、情報処理方法、およびプログラム

Country Status (1)

Country Link
WO (1) WO2023218917A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006180302A (ja) * 2004-12-24 2006-07-06 Yokogawa Electric Corp 三次元音声提示装置および三次元音声提示方法
JP2008312096A (ja) * 2007-06-18 2008-12-25 Victor Co Of Japan Ltd 音響再生装置及びテレビ受像機
JP2015079131A (ja) * 2013-10-17 2015-04-23 ヤマハ株式会社 音響信号処理装置および音響信号処理プログラム
JP2022516429A (ja) * 2018-12-21 2022-02-28 フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. 音響再生/シミュレーションシステムおよび音響再生をシミュレーションするための方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006180302A (ja) * 2004-12-24 2006-07-06 Yokogawa Electric Corp 三次元音声提示装置および三次元音声提示方法
JP2008312096A (ja) * 2007-06-18 2008-12-25 Victor Co Of Japan Ltd 音響再生装置及びテレビ受像機
JP2015079131A (ja) * 2013-10-17 2015-04-23 ヤマハ株式会社 音響信号処理装置および音響信号処理プログラム
JP2022516429A (ja) * 2018-12-21 2022-02-28 フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. 音響再生/シミュレーションシステムおよび音響再生をシミュレーションするための方法

Similar Documents

Publication Publication Date Title
JP4255031B2 (ja) 低周波チャネルを生成する装置および方法
JP4674505B2 (ja) 音声信号処理方法、音場再現システム
US20050216211A1 (en) Impulse response collecting method, sound effect adding apparatus, and recording medium
JP2009508158A (ja) 頭部伝達関数を表すパラメータを生成及び処理する方法及び装置
JP7008862B2 (ja) カンファレンスのためのサブバンド空間処理およびクロストークキャンセルシステム
JP2012509632A5 (ja) オーディオ信号を変換するためのコンバータ及び方法
US20170373656A1 (en) Loudspeaker-room equalization with perceptual correction of spectral dips
JPWO2007004433A1 (ja) 音像定位制御装置
JPH10304498A (ja) ステレオ拡大装置及び音場拡大装置
JP2005157278A (ja) 全周囲音場創生装置、全周囲音場創生方法、及び全周囲音場創生プログラム
WO2023218917A1 (ja) 情報処理装置、情報処理方法、およびプログラム
Gribben et al. The perception of band-limited decorrelation between vertically oriented loudspeakers
JP2010154549A (ja) 音声信号処理方法、音場再現システム
JP5651813B1 (ja) 音声信号処理装置、および音声信号処理方法
WO2020036077A1 (ja) 信号処理装置、信号処理方法、およびプログラム
JP2007336080A (ja) 音響補正装置
JP3855490B2 (ja) インパルス応答の収集方法および効果音付加装置ならびに記録媒体
US20240170000A1 (en) Signal processing device, signal processing method, and program
JP2010091821A (ja) 音場支援装置、音場支援方法およびプログラム
JP2009086481A (ja) 音響装置、残響音付加方法、残響音付加プログラム及びその記録媒体
JP7359146B2 (ja) インパルス応答生成装置および方法、並びにプログラム
WO2022163308A1 (ja) 情報処理装置、情報処理方法、およびプログラム
Harker et al. Rethinking the box: Approaches to the reality of electronic music performance
Lindau et al. Perceptual evaluation of discretization and interpolation for motion-tracked binaural (MTB) recordings (Perzeptive Evaluation von Diskretisierungs-und Interpolationsansätzen
CN113314129B (zh) 一种适应环境的声场重放空间解码方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23803399

Country of ref document: EP

Kind code of ref document: A1