WO2022176417A1 - 情報処理装置、情報処理方法、及び、プログラム - Google Patents

情報処理装置、情報処理方法、及び、プログラム Download PDF

Info

Publication number
WO2022176417A1
WO2022176417A1 PCT/JP2022/000160 JP2022000160W WO2022176417A1 WO 2022176417 A1 WO2022176417 A1 WO 2022176417A1 JP 2022000160 W JP2022000160 W JP 2022000160W WO 2022176417 A1 WO2022176417 A1 WO 2022176417A1
Authority
WO
WIPO (PCT)
Prior art keywords
ultrasonic
signal
information processing
response signal
space
Prior art date
Application number
PCT/JP2022/000160
Other languages
English (en)
French (fr)
Inventor
正幸 横山
淳也 鈴木
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to JP2023500603A priority Critical patent/JPWO2022176417A1/ja
Priority to US18/264,142 priority patent/US20240040328A1/en
Publication of WO2022176417A1 publication Critical patent/WO2022176417A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/301Automatic calibration of stereophonic sound system, e.g. with test microphone
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01HMEASUREMENT OF MECHANICAL VIBRATIONS OR ULTRASONIC, SONIC OR INFRASONIC WAVES
    • G01H17/00Measuring mechanical vibrations or ultrasonic, sonic or infrasonic waves, not provided for in the preceding groups
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1041Mechanical or electronic switches, or control elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Definitions

  • the present technology relates to an information processing device, an information processing method, and a program, and more particularly to an information processing device, an information processing method, and a program that enable spatial perception suitable for a place where silence is required.
  • Patent Documents 1 and 2 there is a system in which a visually impaired person perceives the surroundings from echoes of actually emitted test sounds or from simulated echoes generated from the actually measured positions of objects. disclosed.
  • This technology was created in view of this situation, and enables spatial perception suitable for places where silence is required.
  • the information processing device or program of the present technology is based on an ultrasonic response signal returned from the space in response to an ultrasonic frequency band inspection signal radiated into the space. or a program for causing a computer to function as such an information processing apparatus.
  • the processing unit of an information processing apparatus having a processing unit perceives a This is an information processing method in which changes are made according to the situation of the space with respect to the reproduction signal to be reproduced.
  • the reproduction signal that the user perceives On the other hand, a change is added according to the situation of the space.
  • FIG. 1 is a configuration diagram showing a configuration example of a first embodiment of a sound processing device to which the present technology is applied;
  • FIG. FIG. 4 is a diagram illustrating a frequency spectrum of a transfer function in the audible range (frequency spectrum of the audible range IR);
  • FIG. 10 is a diagram illustrating a state of convolution processing performed by a reverberant sound generation unit;
  • 2 is a flowchart illustrating a processing procedure of the sound processing device of FIG. 1;
  • FIG. 11 is a block diagram illustrating the configuration of a second embodiment of a sound processing device to which the present technology is applied; It is the figure which illustrated the external appearance structure of an echo data collection device.
  • FIG. 4 is a flow chart showing a processing procedure of the echo data collecting device; 6 is a flowchart illustrating a processing procedure of the sound processing device of FIG. 5;
  • FIG. 10 is a diagram showing input/output states of an inference model in an audible range IR generation unit;
  • FIG. 10 is a diagram showing input/output of a GAN in an audible range IR generation unit;
  • FIG. 2 is a block diagram showing a configuration example of hardware of a computer that executes a series of processes by a program;
  • FIG. 1 is a configuration diagram showing a configuration example of a first embodiment of a sound processing device to which the present technology is applied.
  • the acoustic processing device 1 of the present embodiment in FIG. 1 includes, for example, an audio output device such as earphones, headphones, speakers, etc., which converts sound signals, which are electric signals, into sound waves.
  • the audio output device may be wired or wirelessly connected to the main body of the sound processing device 1, or the main body of the sound processing device 1 may be incorporated into the audio output device.
  • stereo earphones are connected to the main body of sound processing device 1 by wire, and that sound processing device 1 is composed of the main body of sound processing device 1 and the earphones.
  • the sound processing device 1 allows the user to perceive the situation of the space around the user through sound.
  • the acoustic processing device 1 has an ultrasonic transmission unit 11 , a binaural microphone 12 , an audible range IR (Impulse Response) generation unit 13 , a reverberation sound generation unit 14 , and an audio output unit 15 .
  • IR Impulse Response
  • the ultrasonic transmission unit 11 emits ultrasonic pulses (signals) as inspection waves into space at predetermined time intervals (predetermined cycles).
  • the ultrasonic transmission unit 11 has, for example, a right speaker and a left speaker respectively installed in a right earphone worn on the right ear of the user and a left earphone worn on the left ear of the user.
  • Ultrasonic pulses are emitted from the right loudspeaker in a wide directivity angle range centering on the center axis pointing rightward of the user's head.
  • the left speaker radiates ultrasonic pulses over a wide directivity angle centered on the central axis pointing leftward of the user's head.
  • the speakers of the ultrasonic wave transmitting unit 11 may be arranged in portions other than the ears, and the number of speakers may be other than two.
  • the ultrasonic pulse emitted by the ultrasonic transmission unit 11 is, for example, an ultrasonic signal in an ultrasonic frequency band of 40 kHz to 80 kHz, and has a pulse width of about 1 ms.
  • the binaural microphone 12 generates an ultrasonic impulse response signal (hereinafter referred to as ultrasonic IR) that is reflected (scattered) by an object placed in the space and returned to the ultrasonic pulse emitted into the space by the ultrasonic transmitter 11 . received in stereo.
  • ultrasonic IR an ultrasonic impulse response signal
  • the binaural microphone 12 has, for example, a right microphone and a left microphone installed in the right earphone and the left earphone, respectively.
  • the right microphone mainly receives ultrasonic waves IR corresponding to ultrasonic pulses radiated from the right speaker of the ultrasonic transmission section 11 .
  • the left microphone mainly receives ultrasonic waves IR corresponding to ultrasonic pulses emitted from the left speaker of the ultrasonic transmission unit 11 .
  • the microphones for receiving the ultrasonic IR may be arranged in parts other than the ears, and the number of microphones may be other than two.
  • the binaural microphone 12 may be wired or wirelessly connected to the main body of the sound processing device 1, similarly to the audio output device, and the main body of the sound processing device 1 is incorporated into the binaural microphone 12. may be the case.
  • the ultrasonic IR received by the binaural microphone 12 is supplied to the audible IR generator 13 .
  • the ultrasonic IR consists of two channels, an ultrasonic wave IR(R) received by the right microphone of the binaural microphone 12 and an ultrasonic wave IR(L) received by the left microphone.
  • ultrasonic IR(R) and ultrasonic IR(L) they are simply referred to as ultrasonic IR.
  • the audible range IR generator 13 converts the ultrasonic IR from the binaural microphone 12 into audible range IR.
  • the audible range IR consists of two channels, an audible range IR(R) obtained from the ultrasonic wave IR(R) and an audible range IR(L) obtained from the ultrasonic wave IR(L).
  • audible range IR(R) and the audible range IR(L) are simply referred to as audible range IR.
  • the audible range IR generation unit 13 performs frequency conversion (Fourier transform) of the ultrasonic IR per cycle from the binaural microphone 12 from time domain representation to frequency domain representation (frequency spectrum), for example, by FFT (Fast Fourier Transform).
  • frequency conversion Frier transform
  • FFT Fast Fourier Transform
  • the audible range IR generation unit 13 shifts the frequency spectrum of the ultrasonic IR (ultrasound IR in the frequency domain) to the audible range (audible frequency band) and adjusts the bandwidth for fitting. As a result, an audible impulse response signal (audible range IR) is generated in the space where the ultrasonic pulse is emitted.
  • the audible range IR generated by the audible range IR generating section 13 is the audible range IR expressed in the frequency domain, and is also referred to as a transfer function of the audible range or simply a transfer function.
  • the audible range IR generation unit 13 associates frequencies in the ultrasonic band (ultrasonic frequency band) of 40 kHz to 80 kHz with frequencies in the audible range of 20 Hz to 20 kHz. Specifically, when the frequency of the ultrasonic band is x and the frequency of the audible range is y, the relationship between the frequency x of the ultrasonic band and the frequency y of the audible range is linearly associated with the following equation (1). be done.
  • the audible range IR generation unit 13 takes the frequency component of frequency x in the frequency spectrum of the ultrasonic IR as the frequency component of frequency y in the audible range associated by Equation (1).
  • the correspondence between the frequency x in the ultrasonic band and the frequency y in the audible range according to Equation (1) is an example, and is not limited to linear correspondence.
  • the respective frequency ranges in which the frequency x in the ultrasonic band and the frequency y in the audible range are associated are not limited to the range of 20 Hz to 20 kHz in the audible range and the range of 40 kHz to 80 kHz in the ultrasonic band.
  • the frequency of the ultrasonic wave that generates the ultrasonic pulse emitted from the ultrasonic transmission unit 11 is part of the frequency range of 40 kHz to 80 kHz in the ultrasonic band
  • the frequency range and the audible range of 20 Hz It may be a case where the range from 20 kHz to 20 kHz is associated.
  • the audible range IR generation unit 13 reflects the actual attenuation characteristics, etc. according to the length of the propagation path when the audible sound actually propagates in space, on the frequency components in the audible range thus obtained. Equalizing processing is applied to
  • FIG. 2 is a diagram exemplifying the frequency spectrum of the transfer function in the audible range (the frequency spectrum of the audible range IR) generated from the frequency spectrum of the ultrasonic IR by the audible range IR generator 13 .
  • frequency spectrum 31 represents the frequency spectrum of ultrasonic IR.
  • the horizontal axis indicates frequency, and the frequency spectrum 31 has, for example, frequency components from 40 kHz to 80 kHz in the ultrasonic band. Although the attenuation characteristic with respect to frequency of the frequency spectrum 31 is approximated linearly, it actually changes according to the spatial conditions and the like.
  • the vertical axis represents the power spectrum, and the frequency spectrum is represented by the power spectrum on the graph.
  • the frequency spectrum 32 represents the frequency spectrum of the transfer function in the audible range generated by the audible range IR generator 13 .
  • the frequency spectrum 32 has, for example, frequency components from 20 Hz to 20 kHz in the audible range.
  • the attenuation characteristic with respect to frequency of the frequency spectrum 32 is linearly approximated similarly to the frequency spectrum 31, but in reality it is not limited to this.
  • the audible range IR generation unit 13 supplies the audible range transfer function (audible range IR) generated from the frequency spectrum of the ultrasonic IR to the reverberation sound generation unit 14 in FIG.
  • the transfer function in the audible range consists of two channels, a transfer function (R) generated from the ultrasonic IR(R) and a transfer function (L) generated from the ultrasonic IR(L).
  • R transfer function
  • L transfer function
  • audible IR When the transfer function is referred to as audible IR in frequency domain representation, or simply audible IR without distinction between time domain representation and frequency domain representation, audible IR is also generated from ultrasonic IR (R) It consists of two channels, an audible range IR(R) and an audible range IR(L) generated from the ultrasonic IR(R). When the audible range IR(R) and the audible range IR(L) are not particularly distinguished, they are simply referred to as audible range IR.
  • the reverberant sound generation unit 14 gives a sound effect based on the transfer function (audible range IR) from the audible range IR generation unit 13 to the reproduced sound (signal) in the audible range heard by the user.
  • the reproduced sound may be, for example, a sound signal pre-stored in a memory (not shown).
  • the reproduced sound stored in the memory may be a sound signal such as a continuous or intermittent alarm sound specialized as a notification sound for notifying the spatial situation, or music selected and listened to by the user. It may be a sound signal such as
  • the reproduced sound may be a sound signal such as music supplied as streaming from an external device connected to the sound processing device 1 via a network such as the Internet.
  • the reverberation sound generation unit 14 performs convolution reverb (sampling reverb) processing to convolve the transfer function (audible range IR) from the audible range IR generation unit 13 on the reproduced sound.
  • convolution reverb processing is also called convolution processing or convolution integration.
  • the reverberant sound generation unit 14 performs convolution processing (convolution integration) between the reproduced sound obtained by frequency transforming (FFT) the reproduced sound into frequency domain representation and the audible range IR. In this case, the reproduced sound represented by the frequency domain is multiplied by the transfer function.
  • FFT frequency transforming
  • the overlap-save method and the overlap-add method are known as methods of convolving a long reproduced sound (signal) using FFT.
  • the reverberation sound generation unit 14 performs inverse frequency transform (Inverse Fast Fourier Transform, IFFT) on the reproduced sound after convolution reverb processing (convolution processing). This provides a reproduced sound in time domain representation.
  • IFFT inverse Fast Fourier Transform
  • the reverberant sound generator 14 supplies the reproduced sound to the audio output unit 15 .
  • FIG. 3 is a diagram illustrating how the convolution process performed by the reverberant sound generation unit 14 is performed.
  • an audible range IR33 represents a signal supplied from the audible range IR generation section 13 to the reverberation sound generation section .
  • Audible IR 33 in FIG. 3 is also the transfer function of the time domain representation.
  • the reproduced sound 34 is a signal supplied to the reverberation sound generation unit 14 from a memory (not shown) or the like.
  • a musical sound signal is shown as an example of the reproduced sound 34 .
  • the reproduced sound 35 is a sound signal supplied from the reverberation sound generator 14 to the audio output unit 15 .
  • the reverberant sound generation section 14 uses the audible range IR33 until the next audible range IR33 is supplied to generate the reproduced sound 34 and the audible range IR33. Perform the convolution integral with .
  • the reproduced sound 35 obtained as a result is supplied to the audio output section 15 .
  • the reproduced sound consists of two channels, a right reproduced sound (R) heard by the user's right ear and a left reproduced sound (L) heard by the left ear.
  • the reverberant sound generation unit 14 supplies the result obtained by the convolution integration of the reproduced sound (R) and the transfer function (R) (audible range IR(R)) to the audio output unit 15 as the reproduced sound (R).
  • the reverberant sound generation unit 14 supplies the result obtained by the convolution integration of the reproduced sound (L) and the transfer function (L) (audible range IR(L)) to the audio output unit 15 as the reproduced sound (L).
  • the reproduced sound (R) and the reproduced sound (L) are not particularly distinguished, they are simply referred to as the reproduced sound.
  • the audio output unit 15 converts the reproduced sound (R) from the reverberation sound generation unit 14 into sound waves using the earphone (R) worn by the user on the right ear, and outputs the sound waves.
  • the audio output unit 15 converts the reproduced sound (L) from the reverberation sound generation unit 14 into sound waves using the earphone (L) worn by the user on the left ear, and outputs the sound waves.
  • the audible range IR (transfer function of the audible range), which is estimated to be obtained when an audible range pulse signal is radiated in space by the audible range IR generation unit 13, is an ultrasonic wave. Generated based on IR. Therefore, it is not necessary to radiate the test sound in the audible range into the space, and it is possible to acquire the audible range IR (transfer function of the audible range) according to the situation of the space even in a place where silence is required.
  • the audible range IR generated by the audible range IR generation unit 13 is convoluted with the reproduced sound heard by the user, the spatial situation (space object arrangement etc.) is applied. That is, a sound effect is imparted to the reproduced sound as if it were echoed by an object existing in the space. Therefore, the user can perceive, for example, that some object is approaching in the surroundings by the acoustic effect of the reproduced sound. Since content such as music can be used as the reproduced sound like a normal music player, listening for a long time does not cause pain to the user.
  • FIG. 4 is a flow chart illustrating the processing procedure of the sound processing device 1 of FIG. Note that this flowchart shows the processing during one cycle of the ultrasonic pulse periodically radiated into space.
  • step S11 the ultrasonic transmission unit 11 radiates (transmits) ultrasonic pulses into space. Processing proceeds from step S11 to step S12.
  • step S12 the binaural microphone 12 receives ultrasonic waves IR returning from space. Processing proceeds from step S12 to step S13.
  • step S13 the audible range IR generation unit 13 performs frequency conversion on the ultrasonic IR received in step S12 by FFT, and converts the ultrasonic IR in the frequency domain (frequency spectrum of the ultrasonic IR), that is, the audible to obtain the domain transfer function. Processing proceeds from step S13 to step S14.
  • step S14 the audible range IR generator 13 shifts the band of the frequency spectrum of the ultrasonic IR obtained in step S13 to the audible range. Processing proceeds from step S14 to step S15.
  • step S15 the audible range IR generation unit 13 adjusts the frequency components (frequency spectrum) of the audible range shifted in step S14 according to the length of the propagation path when the audible sound actually propagates in space. Equalizing processing is applied to reflect the actual attenuation characteristics. As a result, the frequency spectrum of the audible range IR (transfer function of the audible range) is obtained. Processing proceeds from step S15 to step S16.
  • step S16 the reverberant sound generator 17 performs frequency conversion on the reproduced sound (signal), and performs convolution processing (convolution reverb processing) with the audible range IR obtained in step S16. As a result, acoustic effects are imparted to the reproduced sound in accordance with the conditions of the space. Processing proceeds from step S16 to step S17.
  • step S17 the reverberant sound generation unit 17 inversely transforms the reproduced sound to which the acoustic effect was applied in step S16 from the frequency domain representation to the time domain representation. Processing proceeds from step S17 to step S18.
  • step S18 the audio output unit 15 outputs the reproduced sound converted into the time domain representation in step S17 from earphones or the like.
  • the sound processing device 1 repeats the processing from step S11 to step S18 each time the ultrasonic wave transmission unit 11 outputs an ultrasonic pulse (one pulse) into space.
  • FIG. 5 is a block diagram illustrating the configuration of the second embodiment of the sound processing device to which the present technology is applied.
  • the parts common to the sound processing apparatus 1 of FIG. 1 are denoted by the same reference numerals, and detailed description thereof will be omitted as appropriate.
  • the processing system 51 of FIG. 5 also includes devices used when constructing a sound processing device 52, which is a second embodiment of the sound processing device to which the present technology is applied.
  • the processing system 51 has a sound processing device 52 , an echo data collection device 61 , and a generative model learning device 62 .
  • the acoustic processing device 52 has an ultrasonic transmission unit 11 , a binaural microphone 12 , an echo generation unit 14 , an audio output unit 15 , and an audible range IR generation unit 63 . Accordingly, the acoustic processing device 52 is common to the acoustic processing device 1 in FIG.
  • the sound processing device 52 differs from the sound processing device 1 in FIG. 1 in that an audible range IR generation section 63 is provided instead of the audible range IR generation section 13 in FIG.
  • the audible range IR generation unit 63 infers the audible range IR for the ultrasonic IR from the binaural microphone 12 using an inference model having a neural network structure.
  • the inference model is generated by supervised learning using a machine learning technique in the generative model learning device 62 .
  • the inference model generated by the generative model learning device 62 is installed in the audible range IR generator 63 .
  • the echo data collection device 61 collects data sets used for learning the inference model.
  • the echo sound data collection device 61 has an ultrasonic transmission unit 71, an audible sound transmission unit 72, a binaural microphone 73, and a storage unit 74.
  • the ultrasonic transmission unit 71 emits an ultrasonic pulse (signal) having a pulse width of about 1 ms, which is an ultrasonic signal in the ultrasonic frequency band of 40 kHz to 80 kHz, similar to the ultrasonic transmission unit 11 of the acoustic processing device 1 .
  • the period of the ultrasonic pulse does not have to match that of the ultrasonic pulse from the ultrasonic transmission unit 11 of the acoustic processing device 1, and is set to an arbitrary period.
  • the audible sound transmitting unit 72 emits an audible range pulse (signal) having a pulse width of about 1 ms, which is composed of an audible sound signal in the audible range of 20 Hz to 20 kHz.
  • the pulse width of the audible range pulse is the same as that of the ultrasonic pulse emitted from the ultrasonic transmission section 71, but may be different.
  • the period of the audible range pulse is the same as that of the ultrasonic pulse emitted from the ultrasonic transmitter 71, but the ultrasonic pulse is set so that the period when the audible range pulse is on does not overlap with the time when the ultrasonic pulse is on. and the audible pulse are staggered.
  • the binaural microphone 73 receives ultrasonic IR and audible range IR.
  • the storage unit 74 stores the ultrasonic IR received by the binaural microphone 73 and the audible range IR.
  • FIG. 6 is a diagram illustrating the external configuration of the echo data collection device 61. As shown in FIG.
  • a stand 83 supports a dummy head 82 imitating the left and right ear peripheral parts of a human being.
  • Left and right ultrasonic speakers of an ultrasonic wave transmitter 71 that emits ultrasonic pulses and an audible sound transmitter 72 that emits audible range pulses are placed at positions 81 and 81 near the outer ears of the right ear and left ear of the dummy head 82 .
  • left and right audible range speakers are installed.
  • Left and right microphones of the binaural microphone 73 are incorporated in the left and right portions of the dummy head 82 .
  • the left and right microphones of binaural microphone 73 receive both ultrasonic and audible range pulses, respectively.
  • the speakers and microphones placed on the dummy head 82 are connected to a personal computer 84 respectively.
  • the personal computer 84 is connected to the speaker and microphone of the dummy head 82 and configures the echo sound data collection device 61 by executing a predetermined program. Note that the personal computer 84 may include the generative model learning device 62 .
  • FIG. 7 is a flow chart showing the processing procedure of the echo data collection device 61.
  • step S31 a location for collecting learning data for the inference model is determined, and the reverberant sound data collection device 61 is installed at that location. For example, it is installed in a space that can accommodate the use of the sound processing device 52 in various places such as outdoors, corridors, indoors, and rooms where furniture is arranged. Processing proceeds from step S31 to step S32.
  • step S32 the ultrasonic transmission unit 71 transmits (radiates) ultrasonic pulses (single pulses) from the left and right ultrasonic speakers of the dummy head 82 to the surroundings. Processing proceeds from step S32 to step S33.
  • step S33 the left and right microphones of the binaural microphone 73 receive the ultrasonic pulses (ultrasonic IR) emitted in step S32 and returned from the space. Processing proceeds from step S33 to step S34.
  • ultrasonic pulses ultrasonic IR
  • step S34 the storage unit 74 stores the right ear-side ultrasonic wave IR(R) and the left ear-side ultrasonic wave IR(L) received by the binaural microphone 73 in step S33. Processing proceeds from step S34 to step S35.
  • step S35 the audible sound transmission unit 72 transmits (radiates) audible range pulses (single pulses) from the left and right audible range speakers of the dummy head 82 to the surroundings. Processing proceeds from step S35 to step S36.
  • step S36 the left and right microphones of the binaural microphone 73 receive the audible range pulse (audible range IR) emitted in step S35 and returned from the space. Processing proceeds from step S36 to step S37.
  • audible range pulse audible range IR
  • step S37 the storage unit 74 stores the right ear-side audible range IR(R) and the left ear-side audible range IR(L) received by the binaural microphone 73 in step S36.
  • step S34 ultrasonic IR data for two channels, ultrasonic IR(R) and ultrasonic IR(L), is saved.
  • step S37 the audible range IR data for two channels of the audible range IR(R) and the audible range IR(L) are stored. These 2-channel ultrasonic IR data and 2-channel audible range IR data are linked to each other, with the ultrasonic IR as input data and the audible range IR as teacher data (correct data). paired data.
  • the number of paired data is increased, and a data set, which is an aggregate of paired data, is stored in the storage unit 74.
  • step S32 to S34 acquisition and storage of ultrasonic IR
  • step S35 to S37 acquisition and storage of audible range IR
  • the above learning data can be generated by a simulator that can reproduce spatial objects and their stereophonic sound in a virtual space of CG (Computer Graphics) by a game engine such as Unity or Unreal Engine. good.
  • the generative model learning device 62 in FIG. 5 uses the data set stored in the storage unit 74 to learn an inference model in machine learning.
  • the input data is the ultrasound IR
  • the output data is the audible range IR estimated from the input data. If the number of samples per cycle of the ultrasonic pulse and the audible range pulse is n, the input and output of the inference model are 2n-dimensional for two channels, respectively.
  • the generative model learning device 62 learns an inference model using the ultrasonic IR data as input data and the audible range IR data as teacher data among the paired data in the data set stored in the storage unit 74 . After the learning is completed, the learned inference model is installed in the audible range IR generation section 63 of the sound processing device 52 .
  • U-Net and Fully Convolutional Network are known as networks that can output different data of the same dimension as the input.
  • FIG. 8 is a flow chart illustrating the processing procedure of the sound processing device 52 of FIG. This flowchart shows the processing during one cycle of ultrasonic pulses that are periodically radiated into space.
  • step S51 the ultrasonic transmission unit 11 radiates (transmits) ultrasonic pulses into space. Processing proceeds from step S51 to step S52.
  • step S52 the binaural microphone 12 receives ultrasonic waves IR returning from space. Processing proceeds from step S52 to step S53.
  • step S53 the audible range IR generator 63 inputs the ultrasonic IR received in step S52 into the inference model, and calculates the audible range IR by the inference model. Processing proceeds from step S53 to step S54.
  • FIG. 9 is a diagram showing input and output of an inference model in the audible range IR generator 63.
  • an inference network 91 which is an inference model, contains, as input data, data of the number of samples n of the ultrasonic IR(R) 93 from the binaural microphone 12 and n of the number of samples of the ultrasonic IR(L) 92. data is entered. From the inference network 91, the data of n samples of the audible range IR(R) 96 and the data of n samples of the audible range IR(L) 94 are output for the input data.
  • step S54 the reverberant sound generation unit 17 performs frequency conversion on the reproduced sound (signal), and performs convolution processing (convolution reverb processing) with the audible range IR obtained in step S53. conduct. As a result, acoustic effects are imparted to the reproduced sound in accordance with the conditions of the space. Processing proceeds from step S54 to step S55.
  • step S55 the audio output unit 15 outputs the reproduced sound obtained in step S54 from earphones or the like.
  • the sound processing device 52 repeats the processing from step S51 to step S55 each time the ultrasonic wave transmission unit 11 outputs an ultrasonic pulse (one pulse) to the space.
  • the inference model of the audible range IR generation unit 63 uses the ultrasonic IR in the time domain representation as input data and generates the audible range IR in the time domain representation as the output data, it is not limited to this.
  • the inference model uses ultrasonic IR in frequency domain representation (frequency spectrum of ultrasonic IR) as input data, and audible range IR in frequency domain representation (frequency spectrum of audible range IR) as output data, i.e. transfer function of audible range may be generated.
  • the audible range IR generation unit 13 generates an audible range IR estimated to be obtained when an audible range pulse signal is radiated into space. transfer function) is generated based on ultrasound IR. Therefore, it is not necessary to radiate the test sound in the audible range into the space, and it is possible to acquire the audible range IR (transfer function of the audible range) according to the situation of the space even in a place where silence is required.
  • the audible range IR generated by the audible range IR generation unit 13 is convoluted with respect to the reproduced sound heard by the user. etc.) is applied. That is, a sound effect is imparted to the reproduced sound as if it were echoed by an object existing in the space. Therefore, the user can perceive, for example, that some object is approaching in the surroundings by the acoustic effect of the reproduced sound. Since content such as music can be used as the reproduced sound like a normal music player, listening for a long time does not cause pain to the user.
  • the frequency bandwidth of the ultrasonic pulse emitted from the ultrasonic transmission section 11 may be narrow.
  • an ultrasonic speaker may only emit a 40 kHz sine wave.
  • the inference model of the audible IR generator 63 does not have enough information to infer the audible IR.
  • an inference model represented by a GAN (Generative Adversarial Network) that generates an appropriate audible range IR may be used to generate the audible range IR from the ultrasound IR.
  • paired data of ultrasonic IR and audible range IR are collected by the reverberant sound data collection device 61 in FIG. 5 according to the procedure shown in FIG.
  • the generative model learning device 62 learns a GAN using the ultrasonic IR of each pair of data as input data and the audible range IR as teacher data (correct data).
  • Digital sample data of audible range IR is generated from digital sample data of ultrasonic IR by using a GAN algorithm that generates an image from an image or a sound from a sound. For this generation, for example, a technique called pix2pix is used.
  • FIG. 10 is a diagram showing how the GAN is input and output in the audible range IR generation section 63.
  • FIG. 10 is a diagram showing how the GAN is input and output in the audible range IR generation section 63.
  • the GAN 101 which is an inference model, has input data of the number n of samples of the ultrasonic IR(L) 92 from the binaural microphone 12 and data of the number n of samples of the ultrasonic IR(R) 93. is entered.
  • the GAN 101 generates data of the number of samples n of the audible range IR(R) and data of the number of samples of the audible range IR(L) of n for the input data.
  • the audible range IR generated by the inference model does not accurately reproduce the detailed reverberation characteristics (such as materials) of the real space, for example, the delay of early reflections and the sound pressure Reverberant sound effects such as changes, length of reverberation, and changes in frequency characteristics are imparted to the reproduced sound. Therefore, the user can perceive the position of space and obstacles by the acoustic effect of the reproduced sound.
  • the reverberant sound data collection device 61 in FIG. 5 can be installed in various spaces to acquire and store ultrasonic IR and audible range IR to construct a data set.
  • the reverberant sound data collection device 61 in FIG. 5 can be installed in various spaces to acquire and store ultrasonic IR and audible range IR to construct a data set.
  • simulators that freely place objects in virtual space and reproduce physical simulations in virtual space are being developed, especially for game engines such as Unity and Unreal Engine.
  • audio sources and microphones can be freely placed in the virtual space, and some audio formats that support high resolution (for example, sampling frequency of 192 kHz) can be used. If the ultrasonic wave is about 40kHz to 80kHz, it is possible to collect ultrasonic IR and audible range IR data on the simulator. Since it does not take time to move and can be accelerated by parallel processing, a large-scale data set can be constructed relatively quickly.
  • CycleGAN When collecting data on a simulator, the echo characteristics on the simulator may not always match the echo characteristics in the real world. In such cases, after building a dataset on a simulator, we transform it into a dataset that more closely resembles the reverberation characteristics of the real world by domain transformation.
  • CycleGAN for example, is known as a domain conversion method. CycleGAN is a type of GAN, but unlike pix2pix, it does not require paired data, and can collect data from both domains (in this case, reverberant sound in the simulator and reverberant sound in the real world) independently. .
  • the domain can be generated with only a relatively small amount of data collection compared to data collection for machine learning inference models. Transformation can be done.
  • the present technology can also be applied to the case where the reproduced sound (signal) in the above embodiment is read as a reproduced signal and the vibration corresponding to the reproduced signal is presented to the user. That is, the present technology includes a case in which a vibration signal (reproduction signal) that causes a user to perceive vibrations, instead of a reproduction sound (signal), is changed according to the spatial situation based on the ultrasonic IR.
  • a vibration signal reproduction signal
  • This technology is effective in various fields because it allows the user to perceive the spatial situation, especially the approach of objects, etc., through sounds and vibrations.
  • a speaker and a microphone are installed on the exterior of a vehicle such as an automobile, ultrasonic pulses are emitted around the vehicle, and the ultrasonic waves IR are received by the microphone.
  • the reproduced sound (reproduced signal) that is changed based on the ultrasonic IR received by the microphone may be output from a speaker or the like in the vehicle, or may be presented to the user as seat vibration or the like.
  • a series of processes in the above-described sound processing device 1, sound processing device 52, echo data collection device 61, or generative model learning device 62 can be executed by hardware or by software.
  • a program that constitutes the software is installed in the computer.
  • the computer includes, for example, a computer built into dedicated hardware and a general-purpose personal computer capable of executing various functions by installing various programs.
  • FIG. 11 is a configuration example of computer hardware when the computer executes each process executed by the acoustic processing device 1, the acoustic processing device 52, the echo data collecting device 61, or the generative model learning device 62 by a program.
  • 2 is a block diagram showing .
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • An input/output interface 205 is further connected to the bus 204 .
  • An input unit 206 , an output unit 207 , a storage unit 208 , a communication unit 209 and a drive 210 are connected to the input/output interface 205 .
  • the input unit 206 consists of a keyboard, mouse, microphone, and the like.
  • the output unit 207 includes a display, a speaker, and the like.
  • the storage unit 208 is composed of a hard disk, a nonvolatile memory, or the like.
  • a communication unit 209 includes a network interface and the like.
  • a drive 210 drives a removable medium 211 such as a magnetic disk, optical disk, magneto-optical disk, or semiconductor memory.
  • the CPU 201 loads, for example, a program stored in the storage unit 208 into the RAM 203 via the input/output interface 205 and the bus 204 and executes the above-described series of programs. is processed.
  • the program executed by the computer (CPU 201) can be provided by being recorded on removable media 211 such as package media, for example. Also, the program can be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
  • the program can be installed in the storage section 208 via the input/output interface 205 by loading the removable medium 211 into the drive 210 . Also, the program can be received by the communication unit 209 and installed in the storage unit 208 via a wired or wireless transmission medium. In addition, programs can be installed in the ROM 202 and the storage unit 208 in advance.
  • the program executed by the computer may be a program that is processed in chronological order according to the order described in this specification, or may be executed in parallel or at a necessary timing such as when a call is made. It may be a program in which processing is performed.
  • the present technology can also take the following configurations.
  • a processing unit that modifies a reproduction signal perceived by a user according to the situation of the space based on the ultrasonic response signal returned from the space with respect to the inspection signal in the ultrasonic frequency band radiated into the space.
  • Information processing equipment (2) The information processing apparatus according to (1), wherein the inspection signal is a pulse signal emitted at a predetermined cycle.
  • the situation of the space is a situation of arrangement of objects in the space.
  • the reproduced signal is a sound signal in an audible frequency band.
  • the information processing apparatus wherein the processing unit imparts a sound effect according to the situation of the space based on the ultrasonic response signal.
  • the processing unit generates a transfer function for a sound signal of an audible frequency band in the space based on the ultrasonic response signal, and imparts the acoustic effect based on the transfer function to the reproduction signal.
  • the information processing device according to 3).
  • the processing unit multiplies the reproduction signal in the frequency domain obtained by Fourier transforming the reproduction signal by the transfer function, thereby imparting the acoustic effect to the reproduction signal.
  • the information processing apparatus according to (6) or (7), wherein the processing unit generates the transfer function based on a frequency component of the ultrasonic response signal.
  • the processing unit associates the frequencies of the ultrasonic frequency band with the frequencies of the audible frequency band as processing for generating the transfer function, and sets the frequency components of the ultrasonic response signal corresponding to each frequency in the ultrasonic frequency band. is a frequency component of the transfer function for each frequency in the audible frequency band associated with each frequency of the ultrasonic response signal.
  • the processing unit estimates frequency components of the transfer function with respect to frequency components of the ultrasonic response signal using an inference model generated by machine learning.
  • the processing unit generates an impulse response signal in the audible frequency band in the space based on the ultrasonic response signal, and imparts the acoustic effect based on the impulse response signal to the reproduction signal. ).
  • the processing unit generates the impulse response signal from the ultrasonic response signal using an inference model in machine learning.
  • the ultrasonic response signal is composed of a right ear ultrasonic response signal detected for the right ear and a left ear ultrasonic response signal detected for the left ear, Based on the right-ear ultrasonic response signal, the processing unit modifies the reproduction signal for the right ear that is perceived by the right ear of the user, and converts the ultrasonic response signal for the left ear to The information processing apparatus according to any one of (5) to (13), wherein the change is made to the reproduction signal for the left ear that is perceived by the left ear of the user based on the change.
  • the ultrasonic response signal includes a right microphone that acquires the right-ear ultrasonic response signal placed in the user's right ear and the left-ear ultrasonic response signal placed in the user's left ear.
  • the information processing apparatus according to (14) above obtained by the obtained left microphone.
  • the reproduction signal is a vibration signal that causes the user to perceive vibration.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本技術は、静けさが要求される場所に適した空間知覚を行うことができるようにする情報処理装置、情報処理方法、及び、プログラムに関する。 空間に放射した超音波周波数帯域の検査信号に対して前記空間から戻る超音波応答信号に基づいて、ユーザに知覚させる再生信号に対して、前記空間の状況に応じた変更が加えられる。

Description

情報処理装置、情報処理方法、及び、プログラム
 本技術は、情報処理装置、情報処理方法、及び、プログラムに関し、特に、静けさが要求される場所に適した空間知覚を行えるようにした情報処理装置、情報処理方法、及び、プログラムに関する。
 特許文献1、2には、実際に放射した検査音に対する反響音により、又は、実測された物体の位置から生成された模擬的な反響音により、視覚障がい者が周囲に状況を知覚するシステムが開示されている。
特開2018-75178号公報 特開2018-78444号公報
 静けさが要求される場所では周囲の空間の状況を知覚するために可聴周波数帯域の検査音を使用することは適さない。
 本技術はこのような状況に鑑みてなされたものであり、静けさが要求される場所に適した空間知覚を行えるようにする。
 本技術の情報処理装置、又は、プログラムは、空間に放射した超音波周波数帯域の検査信号に対して前記空間から戻る超音波応答信号に基づいて、ユーザに知覚させる再生信号に対して、前記空間の状況に応じた変更を加える処理部を有する情報処理装置、又は、そのような情報処理装置として、コンピュータを機能させるためのプログラムである。
 本技術の情報処理方法は、処理部を有する情報処理装置の前記処理部が、空間に放射した超音波周波数帯域の検査信号に対して前記空間から戻る超音波応答信号に基づいて、ユーザに知覚させる再生信号に対して、前記空間の状況に応じた変更を加える情報処理方法である。
 本技術の情報処理装置、情報処理方法、及び、プログラムにおいては、空間に放射した超音波周波数帯域の検査信号に対して前記空間から戻る超音波応答信号に基づいて、ユーザに知覚させる再生信号に対して、前記空間の状況に応じた変更が加えられる。
本技術が適用された音響処理装置の第1の実施の形態の構成例を示す構成図である。 可聴域の伝達関数の周波数スペクトル(可聴域IRの周波数スペクトル)を例示した図である。 反響音生成部が行う畳み込み処理の様子を例示した図である。 図1の音響処理装置の処理手順を例示したフローチャートである。 本技術が適用された音響処理装置の第2の実施の形態の構成を例示するブロック図である。 反響音データ収集装置の外観構成を例示した図である。 反響音データ収集装置の処理手順を示したフローチャートである。 図5の音響処理装置の処理手順を例示したフローチャートである。 可聴域IR生成部における推論モデルの入出力の様子を表した図である。 可聴域IR生成部におけるGANの入出力の様子を表した図である。 一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。
 以下、図面を参照しながら本技術の実施の形態について説明する。
<音響処理装置の第1の実施の形態>
 図1は、本技術が適用された音響処理装置の第1の実施の形態の構成例を示す構成図である。
 図1の本実施の形態の音響処理装置1は、例えば、イヤフォン、ヘッドフォン、スピーカ等の電気信号である音信号を音波に変換するオーディオ出力装置を含む。オーディオ出力装置は、音響処理装置1の本体に対して有線又は無線により接続される場合であってよいし、音響処理装置1の本体がオーディオ出力装置に組み込まれる場合であってもよい。本実施の形態では、ステレオ対応のイヤフォンが音響処理装置1の本体に有線で接続されて、音響処理装置1の本体とイヤフォンとで音響処理装置1が構成されているものとする。
 音響処理装置1は、ユーザに対してユーザ周辺の空間の状況を音により知覚させる。
 音響処理装置1は、超音波送信部11、バイノーラルマイク12、可聴域IR(Impulse Response:インパルス応答)生成部13、反響音生成部14、及び、オーディオ出力部15を有する。
 超音波送信部11は、検査波として超音波パルス(信号)を所定時間間隔(所定周期)で空間に放射する。超音波送信部11は、例えば、ユーザの右耳に装着される右用イヤフォンと左耳に装着される左用イヤフォンのそれぞれに設置された右用スピーカ及び左用スピーカを有する。右用スピーカからは、ユーザの頭部右向きの中心軸を中心にして広指向角の範囲度に超音波パルスが放射される。左用スピーカからは、ユーザの頭部左向きの中心軸を中心にして広指向角の範囲に超音波パルスが放射される。ただし、超音波送信部11のスピーカは耳以外の部分に配置されていてもよいし、スピーカの数も2つ以外であってもよい。
 超音波送信部11が放射する超音波パルスは、例えば、40kHz乃至80kHzの超音波周波数帯域の超音波信号からなり、パルス幅が約1msである。
 バイノーラルマイク12は、超音波送信部11により空間に放射された超音波パルスに対して、空間に配置された物体で反射(散乱)して戻る超音波インパルス応答信号(以下、超音波IRという)をステレオで受信する。
 バイノーラルマイク12は、例えば、右用イヤフォンと左用イヤフォンのそれぞれに設置された右用マイクと左用マイクとを有する。右用マイクは、主に超音波送信部11の右用スピーカから放射された超音波パルスに対する超音波IRを受信する。左用マイクは、主に超音波送信部11の左用スピーカから放射された超音波パルスに対する超音波IRを受信する。ただし、超音波IRを受信するためのマイクは、耳以外の部分に配置されていてもよいし、マイクの数も2つ以外であってもよい。
 なお、バイノーラルマイク12は、オーディオ出力装置と同様に、音響処理装置1の本体に対して有線又は無線により接続される場合であってよいし、音響処理装置1の本体がバイノーラルマイク12に組み込まれる場合であってもよい。
 バイノーラルマイク12で受信された超音波IRは、可聴域IR生成部13に供給される。なお、超音波IRは、バイノーラルマイク12の右用マイクで受信された超音波IR(R)と、左用マイクで受信された超音波IR(L)との2チャネル分からなる。以下、超音波IR(R)と超音波IR(L)とを特に区別しない場合には、単に超音波IRと称する。
 可聴域IR生成部13は、バイノーラルマイク12からの超音波IRを可聴域IRに変換する。なお、可聴域IRは、超音波IR(R)から得られる可聴域IR(R)と、超音波IR(L)から得られる可聴域IR(L)との2チャネル分からなる。以下、可聴域IR(R)と可聴域IR(L)とを特に区別しない場合には、単に可聴域IRと称する。
 可聴域IR生成部13は、バイノーラルマイク12からの1周期あたりの超音波IRを、例えばFFT(Fast Fourier Transform)で時間領域表現から周波数領域表現(周波数スペクトル)に周波数変換(フーリエ変換)する。
 可聴域IR生成部13は、超音波IRの周波数スペクトル(周波数領域の超音波IR)を、可聴域(可聴周波数帯域)にシフトし、帯域幅を調整してフィッティングさせる。これによって、超音波パルスを放射した空間における可聴域のインパルス応答信号(可聴域IR)が生成される。ただし、本実施の形態では、可聴域IR生成部13により生成される可聴域IRは、周波数領域表現の可聴域IRであり、可聴域の伝達関数、又は、単に伝達関数ともいう。
 即ち、可聴域IR生成部13は、40kHz乃至80kHzの超音波帯域(超音波周波数帯域)の周波数と、20Hz乃至20kHzの可聴域の周波数とを対応付ける。具体的には、超音波帯域の周波数をx、可聴域の周波数をyとすると、次式(1)の関係で、超音波帯域の周波数xと可聴域の周波数yとが線形的に対応付けられる。
 y={(20000-20)/(80000-40000)}・x+(2・20-20000)・・・(1)
 可聴域IR生成部13は、超音波IRの周波数スペクトルの周波数xの周波数成分を、式(1)により対応付けられた可聴域の周波数yの周波数成分とする。ただし、超音波帯域の周波数xと可聴域の周波数yとの式(1)による対応付けは、一例であって、線形的に対応付ける場合に限らない。超音波帯域の周波数xと可聴域の周波数yとを対応付けるそれぞれの周波数の範囲は、可聴域の20Hz乃至20kHzの範囲と、超音波帯域の40kHz乃至80kHzの範囲とに限らない。例えば、超音波送信部11から放射される超音波パルスを生成する超音波の周波数が超音波帯域の40kHz乃至80kHzのうちの一部の周波数範囲の場合に、その周波数範囲と、可聴域の20Hz乃至20kHzの範囲とを対応付ける場合であってよい。
 可聴域IR生成部13は、このようして得られた可聴域の周波数成分に対して、可聴音が実際に空間を伝搬したときの伝搬経路の長さに応じた実際の減衰特性等を反映させるためのイコライジング処理を施す。
 図2は、可聴域IR生成部13により超音波IRの周波数スペクトルから生成された可聴域の伝達関数の周波数スペクトル(可聴域IRの周波数スペクトル)を例示した図である。
 図2において、周波数スペクトル31は、超音波IRの周波数スペクトルを表す。横軸は周波数を示し、周波数スペクトル31は、例えば、超音波帯域の40kHz乃至80kHzの周波数成分を有する。周波数スペクトル31の周波数に対する減衰特性は、線形に近似されているが実際には空間の状況等に応じて変化する。縦軸は、パワースペクトルとし、グラフ上では周波数スペクトルがパワースペクトルで表されている。
 周波数スペクトル32は、可聴域IR生成部13により生成された可聴域の伝達関数の周波数スペクトルを表す。周波数スペクトル32は、例えば、可聴域の20Hz乃至20kHzの周波数成分を有する。周波数スペクトル32の周波数に対する減衰特性は、周波数スペクトル31と同様に線形に近似されているが実際にはこれに限らない。
 可聴域IR生成部13は、超音波IRの周波数スペクトルから生成した可聴域の伝達関数(可聴域IR)を、図1の反響音生成部14に供給する。なお、可聴域の伝達関数は、超音波IR(R)から生成される伝達関数(R)と、超音波IR(L)から生成される伝達関数(L)との2チャネル分からなる。以下、伝達関数(R)と伝達関数(L)とを特に区別しない場合には、単に伝達関数と称する。伝達関数を、周波数領域表現の可聴域IRという場合、又は、時間領域表現と周波数領域表現との区別なく単に可聴域IRという場合に、可聴域IRについても超音波IR(R)から生成される可聴域IR(R)と、超音波IR(R)から生成される可聴域IR(L)との2チャネル分からなる。可聴域IR(R)と可聴域IR(L)を特に区別しない場合には、単に可聴域IRと称する。
 反響音生成部14は、ユーザが聴取する可聴域の再生音(信号)に対して、可聴域IR生成部13からの伝達関数(可聴域IR)に基づく音響効果を付与する。
 再生音は、例えば、不図示のメモリにあらかじめ保存された音信号であってよい。メモリに保存された再生音は、空間状況を通知する通知音として特化された連続的又は断続的なアラーム音等の音信号であってもよいし、ユーザが選択して聴取している音楽等の音信号であってもよい。再生音は、音響処理装置1とインターネット等のネットワーク等を介して接続された外部装置からストリーミングとして供給された音楽等の音信号であってよい。
 反響音生成部14は、再生音に対して可聴域IR生成部13からの伝達関数(可聴域IR)を畳み込むコンボリューション・リバーブ(サンプリング・リバーブ)処理を行う。なお、コンボリューション・リバーブ処理を畳み込み処理、又は、畳み込み積分ともいう。例えば、反響音生成部14は、再生音を周波数領域表現に周波数変換(FFT)した再生音と可聴域IRとの畳み込み処理(畳み込み積分)を行う。この場合、周波数領域表現の再生音と伝達関数との掛け合わせとなる。なお、FFTを利用して長い再生音(信号)を畳み込み処理する方法には、overlap-save法やoverlap-add法が知られている。
 反響音生成部14は、コンボリューション・リバーブ処理(畳み込み処理)を行った後の再生音を逆周波数変換(逆高速フーリエ変換、IFFT: Inverse Fast Fourier Transform)する。これによって、時間領域表現の再生音が得られる。反響音生成部14は、再生音をオーディオ出力部15に供給する。
 図3は、反響音生成部14が行う畳み込み処理の様子を例示した図である。
 図3において、可聴域IR33は、可聴域IR生成部13からは反響音生成部14に供給される信号を表す。図3の可聴域IR33は、時間領域表現の伝達関数でもある。
 再生音34は、不図示のメモリ等から反響音生成部14に供給される信号である。再生音34の例として音楽の音信号が示されている。
 再生音35は、反響音生成部14からオーディオ出力部15に供給される音信号である。
 反響音生成部14は、可聴域IR生成部13から可聴域IR33が供給されると、次の可聴域IR33が供給されるまでの間、可聴域IR33を用いて、再生音34と可聴域IR33との畳み込み積分を行う。その結果得られた再生音35をオーディオ出力部15に供給する。
 なお、再生音は、ユーザの右耳に聴取させる右用の再生音(R)と、左耳に聴取させる左用の再生音(L)との2チャネル分からなる。反響音生成部14は、再生音(R)と伝達関数(R)(可聴域IR(R))との畳み込み積分により得られた結果を、再生音(R)としてオーディオ出力部15に供給する。反響音生成部14は、再生音(L)と伝達関数(L)(可聴域IR(L))との畳み込み積分により得られた結果を、再生音(L)としてオーディオ出力部15に供給する。以下、再生音(R)と再生音(L)とを特に区別しない場合には、単に再生音と称する。
 オーディオ出力部15は、反響音生成部14からの再生音(R)をユーザが右耳に装着しているイヤフォン(R)により音波に変換して出力する。オーディオ出力部15は、反響音生成部14からの再生音(L)をユーザが左耳に装着しているイヤフォン(L)により音波に変換して出力する。
 図1の音響処理装置1によれば、可聴域IR生成部13により、空間に可聴域のパルス信号を放射した場合に得られると推測される可聴域IR(可聴域の伝達関数)が超音波IRに基づいて生成される。したがって、空間に可聴域の検査音を放射する必要がなく、静けさが求められる場所でも空間の状況に応じた可聴域IR(可聴域の伝達関数)を取得することができる。
 音響処理装置1によれば、ユーザが聴取する再生音に対して可聴域IR生成部13により生成された可聴域IRが畳み込み処理されるので、再生音に対して空間の状況(空間の物体配置等)が反映された音響効果が付与される。即ち、再生音に対して空間に存在する物体で反響させているかのような音響効果が付与される。したがって、ユーザは、周囲に何らかの物体が接近していることなどを再生音の音響効果によって知覚することができる。再生音としては通常の音楽プレイヤーのように音楽等のコンテンツを用いることができるので、長時間聞き続けることもユーザの苦痛とはならない。再生音として音楽などのコンテンツを聴きながら移動している場合等に、コンテンツに夢中になっている状態であっても、再生音の音響効果の変化から空間の状況を知覚することができるので、衝突や転落といった不測の事態を未然に抑止することができる。
 なお、超音波周波数帯域の検査音の反射音を可聴域に変調(ダウンサンプリング、引き延ばし等)してユーザに提示することも可能である。ただし、その場合、可聴音に対する反射音特性と異なるので、直感的に空間の状況を知覚することが難しくなる。単調な検査音を長時間聞き続けることになるので、ユーザが日常的に長時間使用するのには不向きである。
<音響処理装置1の処理手順>
 図4は、図1の音響処理装置1の処理手順を例示したフローチャートである。なお、本フローチャートは、空間に周期的に放射される超音波パルスの1周期の間の処理を示す。
 ステップS11では、超音波送信部11が空間に超音波パルスを放射(送信)する。処理はステップS11からステップS12に進む。
 ステップS12では、バイノーラルマイク12が空間から戻る超音波IRを受信する。処理はステップS12からステップS13に進む。
 ステップS13では、可聴域IR生成部13は、ステップS12で受信された超音波IRに対してFFTにより周波数変換を行い、周波数領域表現の超音波IR(超音波IRの周波数スペクトル)、即ち、可聴域の伝達関数を得る。処理はステップS13からステップS14に進む。
 ステップS14では、可聴域IR生成部13は、ステップS13で得た超音波IRの周波数スペクトルの帯域を可聴域にシフトさせる。処理はステップS14からステップS15に進む。
 ステップS15では、可聴域IR生成部13は、ステップS14でシフトさせた可聴域の周波数成分(周波数スペクトル)に対して、可聴音が実際に空間を伝搬したときの伝搬経路の長さに応じた実際の減衰特性を反映させるためのイコライジング処理を施す。これにより、可聴域IRの周波数スペクトル(可聴域の伝達関数)が得られる。処理はステップS15からステップS16に進む。
 ステップS16では、反響音生成部17は、再生音(信号)に対して周波数変換を行って、ステップS16で得られた可聴域IRとの畳み込み処理(コンボリューション・リバーブ処理)を行う。これによって、再生音に対して空間の状況に応じた音響効果が付与される。処理はステップS16からステップS17に進む。
 ステップS17では、反響音生成部17は、ステップS16で音響効果が付与された再生音を、周波数領域表現から時間領域表現に逆周波数変換する。処理はステップS17からステップS18に進む。
 ステップS18では、オーディオ出力部15は、ステップS17で時間領域表現に変換された再生音をイヤフォン等から出力する。
 音響処理装置1は、超音波送信部11が空間に超音波パルス(1つのパルス)を出力するごとにステップS11乃至ステップS18の処理を繰り返す。
<音響処理装置の第2の実施の形態>
 次に本技術が適用された音響処理装置の第2の実施の形態について説明する。
 図5は、本技術が適用された音響処理装置の第2の実施の形態の構成を例示するブロック図である。なお、図1の音響処理装置1と共通する部分には、同一の符号を付してあり、詳細な説明を適宜省略する。
 図5の処理システム51には、本技術が適用された音響処理装置の第2の実施の形態である音響処理装置52を構築する際に使用される装置も含まれる。
 処理システム51は、音響処理装置52、反響音データ収集装置61、及び、生成モデル学習装置62を有する。
 音響処理装置52は、超音波送信部11、バイノーラルマイク12、反響音生成部14、オーディオ出力部15、及び、可聴域IR生成部63を有する。したがって、音響処理装置52は、超音波送信部11、バイノーラルマイク12、反響音生成部14、及び、オーディオ出力部15を有する点で、図1の音響処理装置1と共通する。
 ただし、音響処理装置52は、図1の可聴域IR生成部13の代わりに可聴域IR生成部63が設けられている点で、図1の音響処理装置1と相違する。
 可聴域IR生成部63は、バイノーラルマイク12からの超音波IRに対して可聴域IRを、ニューラルネットワークの構造を有する推論モデルにより推論する。推論モデルは、生成モデル学習装置62において機械学習の手法を用いて教師あり学習により生成される。可聴域IR生成部63には、生成モデル学習装置62で生成された推論モデルが実装される。
 反響音データ収集装置61は、推論モデルの学習に使用するデータセットを収集する。
 反響音データ収集装置61は、超音波送信部71、可聴音送信部72、バイノーラルマイク73、及び、記憶部74を有する。
 超音波送信部71は、音響処理装置1の超音波送信部11と同様に40kHz乃至80kHzの超音波周波数帯域の超音波信号からなるパルス幅が約1msの超音波パルス(信号)を放射する。超音波パルスの周期については、音響処理装置1の超音波送信部11の超音波パルスと一致していなくてもよく、任意の周期に設定される。
 可聴音送信部72は、20Hz乃至20kHzの可聴域の可聴音信号からなるパルス幅が約1msの可聴域パルス(信号)を放射する。可聴域パルスのパルス幅は、超音波送信部71から放射される超音波パルスと同等であるが、相違していてもよい。可聴域パルスの周期は、超音波送信部71から放射される超音波パルスと同じであるが、可聴域パルスがオンのときと、超音波パルスがオンのときとが重ならないように超音波パルスと可聴域パルスとの放射のタイミングがずらされる。
 バイノーラルマイク73は、超音波IR、及び、可聴域IRを受信する。
 記憶部74は、バイノーラルマイク73で受信された超音波IRと、可聴域IRとを記憶する。
 図6は、反響音データ収集装置61の外観構成を例示した図である。
 図6において、スタンド83には、人間の左右の耳の周辺部を模したダミーヘッド82が支持されている。ダミーヘッド82の右耳及び左耳の外耳付近の位置81、81には、超音波パルスを放射する超音波送信部71の左右の超音波スピーカと、可聴域パルスを放射する可聴音送信部72の左右の可聴域スピーカとが設置される。ダミーヘッド82の左右の部分にはバイノーラルマイク73の左右のマイクが組み込まれている。バイノーラルマイク73の左右のマイクはそれぞれ超音波パルス及び可聴域パルスの両方を受信する。
 ダミーヘッド82に配置されたスピーカやマイクは、それぞれパーソナルコンピュータ84に接続される。
 パーソナルコンピュータ84は、ダミーヘッド82のスピーカやマイクが接続され、所定のプログラムを実行することで、反響音データ収集装置61を構成する。なお、パーソナルコンピュータ84は、生成モデル学習装置62を含む場合であってもよい。
 図7は、反響音データ収集装置61の処理手順を示したフローチャートである。
 ステップS31では、推論モデルの学習データを収集する場所を決めてその場所に、反響音データ収集装置61を設置する。例えば屋外、廊下、室内、家具などが配置された部屋等、様々な場所での音響処理装置52の使用になるべく対応できる空間に設置する。処理はステップS31からステップS32に進む。
 ステップS32では、超音波送信部71は、ダミーヘッド82の左右の超音波スピーカから超音波パルス(単パルス)を周囲に送信(放射)する。処理はステップS32からステップS33に進む。
 ステップS33では、ステップS32で放射されて空間から戻る超音波パルス(超音波IR)をバイノーラルマイク73の左右のマイクで受信する。処理はステップS33からステップS34に進む。
 ステップS34では、記憶部74は、ステップS33でバイノーラルマイク73が受信した右耳側の超音波IR(R)と左耳側の超音波IR(L)とを保存する。処理はステップS34からステップS35に進む。
 ステップS35では、可聴音送信部72は、ダミーヘッド82の左右の可聴域スピーカから可聴域パルス(単パルス)を周囲に送信(放射)する。処理はステップS35からステップS36に進む。
 ステップS36では、ステップS35で放射されて空間から戻る可聴域パルス(可聴域IR)をバイノーラルマイク73の左右のマイクで受信する。処理はステップS36からステップS37に進む。
 ステップS37では、記憶部74は、ステップS36でバイノーラルマイク73が受信した右耳側の可聴域IR(R)と左耳側の可聴域IR(L)とを保存する。
 以上、ステップS34では、超音波IR(R)及び超音波IR(L)の2チャネル分の超音波IRのデータが保存される。ステップS37では、可聴域IR(R)及び可聴域IR(L)の2チャネル分の可聴域IRのデータが保存される。これらの2チャネル分の超音波IRのデータと、2チャネル分の可聴域IRのデータとは、互いに紐付けられて、超音波IRを入力データとして、可聴域IRを教師データ(正解データ)とするペアデータとなる。ステップS32乃至ステップS37の処理を繰り返すことで、ペアデータが増え、ペアデータの集合体であるデータセットが記憶部74に保存される。
 なお、超音波IRと取得保存(ステップS32乃至S34)と可聴域IRの取得保存(ステップS35乃至S37)は、どちらが先に行われてもよい。
 以上のような学習データ(データセット)は、例えば、UnityやUnreal Engine等のゲームエンジンによるCG(Computer Graphics)の仮想空間上において、空間物体とその立体音響を再現可能なシミュレータにより生成してもよい。
 図5の生成モデル学習装置62は、記憶部74に保存されたデータセットを用いて、機械学習における推論モデルの学習を行う。推論モデルは、入力データを超音波IR、出力データを入力データから推測した可聴域IRとする。なお、超音波パルス及び可聴域パルスの1周期当たりのサンプル数をnとすると、推論モデルの入力及び出力はそれぞれ2チャネル分の2n次元となる。
 生成モデル学習装置62は、記憶部74に保存されたデータセットの各ペアデータのうち、超音波IRのデータを入力データとし、可聴域IRのデータを教師データとして推論モデルの学習を行う。学習が終了すると、学習済みの推論モデルは、音響処理装置52の可聴域IR生成部63に実装される。
 なお、入力と同じ次元の別データを出力可能なネットワークとして、例えばU-NetやFully Convolutional Networkなどが知られている。
<音響処理装置の処理手順>
 図8は、図5の音響処理装置52の処理手順を例示したフローチャートである。本フローチャートは、空間に周期的に放射される超音波パルスの1周期の間の処理を示す。
 ステップS51では、超音波送信部11が空間に超音波パルスを放射(送信)する。処理はステップS51からステップS52に進む。
 ステップS52では、バイノーラルマイク12が空間から戻る超音波IRを受信する。処理はステップS52からステップS53に進む。
 ステップS53では、可聴域IR生成部63は、ステップS52で受信された超音波IRを、推論モデルに入力して、推論モデルにより可聴域IRを算出する。処理はステップS53からステップS54に進む。
 図9は、可聴域IR生成部63における推論モデルの入出力の様子を表した図である。
 図9において、推論モデルである推論用ネットワーク91には、入力データとして、バイノーラルマイク12からの超音波IR(R)93のサンプル数nのデータと、超音波IR(L)92のサンプル数nのデータとが入力される。推論用ネットワーク91からは、入力データに対して可聴域IR(R)96のサンプル数nのデータと、可聴域IR(L)94のサンプル数nのデータとが出力される。
 図8において、ステップS54では、反響音生成部17は、再生音(信号)に対して周波数変換を行って、ステップS53で得られた可聴域IRとの畳み込み処理(コンボリューション・リバーブ処理)を行う。これによって、再生音に対して空間の状況に応じた音響効果が付与される。処理はステップS54からステップS55に進む。
 ステップS55では、オーディオ出力部15は、ステップS54で得られた再生音をイヤフォン等から出力する。
 音響処理装置52は、超音波送信部11が空間に超音波パルス(1つのパルス)を出力するごとにステップS51乃至ステップS55の処理を繰り返す。
 なお、可聴域IR生成部63の推論モデルは、入力データを時間領域表現の超音波IRとし、出力データとして時間領域表現の可聴域IRを生成したが、これに限らない。推論モデルは、入力データとして周波数領域表現の超音波IR(超音波IRの周波数スペクトル)とし、出力データとして周波数領域表現の可聴域IR(可聴域IRの周波数スペクトル)、即ち、可聴域の伝達関数を生成する場合であってもよい。
 以上の第2の実施の形態の音響処理装置52によれば、可聴域IR生成部13により、空間に可聴域のパルス信号を放射した場合に得られると推測される可聴域IR(可聴域の伝達関数)が超音波IRに基づいて生成される。したがって、空間に可聴域の検査音を放射する必要がなく、静けさが求められる場所でも空間の状況に応じた可聴域IR(可聴域の伝達関数)を取得することができる。
 音響処理装置52によれば、ユーザが聴取する再生音に対して可聴域IR生成部13により生成された可聴域IRが畳み込み処理されるので、再生音に対して空間の状況(空間の物体配置等)が反映された音響効果が付与される。即ち、再生音に対して空間に存在する物体で反響させているかのような音響効果が付与される。したがって、ユーザは、周囲に何らかの物体が接近していることなどが再生音の音響効果によって知覚することができる。再生音としては通常の音楽プレイヤーのように音楽等のコンテンツを用いることができるので、長時間聞き続けることもユーザの苦痛とはならない。再生音として音楽などのコンテンツを聴きながら移動している場合等に、コンテンツに夢中になっている状態であっても、再生音の音響効果の変化から空間の状況を知覚することができるので、衝突や転落といった不測の事態を未然に抑止することができる。
<音響処理装置の変形例>
 図5の音響処理装置52において、超音波送信部11から放射する超音波パルスの周波数帯域幅が狭い場合がある。例えば、超音波スピーカが40kHzのサイン波のみしか放射できないような場合がある。そのような場合、可聴域IR生成部63の推論モデルは、可聴域IRを推論するために十分な情報が得られない。その場合には、妥当な可聴域IRを生成する、GAN(Generative Adversarial Network:敵対的生成ネットワーク)に代表される推論モデルを用いて超音波IRから可聴域IRを生成してもよい。
 推論モデルとしてGANを用いる場合、図5の反響音データ収集装置61により図8に示した手順で超音波IRと可聴域IRとのペアデータを収集し、データセットを構築する。生成モデル学習装置62は、各ペアデータの超音波IRを入力データとし、可聴域IRを教師データ(正解データ)としてGANを学習させる。画像から画像、または音声から音声を生成するGANアルゴリズムを利用することで超音波IRのデジタルサンプルデータから可聴域IRのデジタルサンプルデータを生成する。この生成には、例えばpix2pixという手法が用いられる。
 図10は、可聴域IR生成部63におけるGANの入出力の様子を表した図である。
 図10において、推論モデルであるGAN101には、入力データとして、バイノーラルマイク12からの超音波IR(L)92のサンプル数nのデータと、超音波IR(R)93のサンプル数nのデータとが入力される。GAN101は、入力データに対して可聴域IR(R)のサンプル数nのデータと、可聴域IR(L)のサンプル数nのデータとを生成する。
 これによれば、推論モデルにより生成された可聴域IRが実空間の細かい反響特性(例えば材質など)を正確に再現していなかったとしても、例えば初期反射(アーリーリフレクション)の遅延、音圧の変化、残響の長さ、及び、周波数特性の変化等の反響音効果が再生音に付与される。したがって、ユーザは、空間や障害物の位置を再生音の音響効果により知覚することができる。
 図5の反響音データ収集装置61は、様々な空間に設置して超音波IR及び可聴域IRを取得保存することでデータセットを構築できる。規模の大きいデータセットを構築するためには多くの空間に赴いて反響音データ収集装置61のマイク、スピーカ等を設置し、超音波IR及び可聴域IRを取得保存するというプロセスを繰り返す必要がある。そのため、時間や移動に伴うコストがかかる。
 一方、仮想空間上に自由にオブジェクトを配置し、仮想空間で物理シミュレーションを再現するシミュレータの開発が、特にUnityやUnreal Engineといったゲームエンジン向けに行われている。このようなシミュレータでは仮想空間上にオーディオソースやマイクを自由に配置でき、ハイレゾ対応(例えばサンプリング周波数192kHz)のオーディオフォーマットも利用できるものもある。40kHzから80kHz程度の超音波であれば、シミュレータ上で超音波IRと可聴域IRのデータ収集を行うことができる。移動時間がかからず、並列処理により高速化できるので、比較的高速に大規模のデータセットを構築できる。
 シミュレータ上でデータ収集する場合、シミュレータ上の反響特性が、実世界の反響特性と必ずしも一致しない場合がある。そのような場合、シミュレータ上でデータセットを構築した上で、ドメイン変換により実世界の反響特性により近いデータセットに変換する。ドメイン変換の手法として、例えばCycleGANが知られている。CycleGANは、GANの一種であるが、pix2pixと違いペアデータを必要とせず、両ドメイン(この場合はシミュレータ上の反響音と実世界上の反響音)のデータを独立して収集することができる。実世界の反響特性に近づけるという目的のため、シミュレータ上の反響特性がある程度、実世界の反響特性に近ければ、機械学習の推論モデルのデータ収集に比べると比較的小規模のデータ収集だけでドメイン変換を行うことができる。
 以上、本技術は、上記実施の形態において再生音(信号)を再生信号と読み替えて再生信号に対応した振動をユーザに提示する場合にも適用できる。即ち、本技術は、再生音(信号)の代わりに、振動をユーザに知覚させる振動信号(再生信号)に対して、超音波IRに基づいて空間の状況に応じた変更を加える場合も含む。
 本技術は、空間の状況、特に、物体の接近等を音や振動などでユーザに知覚させることができるので、様々な分野で有効である。例えば、障害物センサとして自動車等の車両の外装等にスピーカとマイクを設置して車両周辺に超音波パルスを放射し、その超音波IRをマイクで受信する。マイクで受信された超音波IRに基づいて変更される再生音(再生信号)は、車両内のスピーカ等から出力してもよいし、座席の振動等としてユーザに提示してもよい。
<プログラム>
 上述した音響処理装置1、音響処理装置52、反響音データ収集装置61、又は、生成モデル学習装置62における一連の処理は、ハードウエアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
 図11は、音響処理装置1、音響処理装置52、反響音データ収集装置61、又は、生成モデル学習装置62が実行する各処理をコンピュータがプログラムにより実行する場合の、コンピュータのハードウエアの構成例を示すブロック図である。
 コンピュータにおいて、CPU(Central Processing Unit)201,ROM(Read Only Memory)202,RAM(Random Access Memory)203は、バス204により相互に接続されている。
 バス204には、さらに、入出力インタフェース205が接続されている。入出力インタフェース205には、入力部206、出力部207、記憶部208、通信部209、及びドライブ210が接続されている。
 入力部206は、キーボード、マウス、マイクロフォンなどよりなる。出力部207は、ディスプレイ、スピーカなどよりなる。記憶部208は、ハードディスクや不揮発性のメモリなどよりなる。通信部209は、ネットワークインタフェースなどよりなる。ドライブ210は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア211を駆動する。
 以上のように構成されるコンピュータでは、CPU201が、例えば、記憶部208に記憶されているプログラムを、入出力インタフェース205及びバス204を介して、RAM203にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU201)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア211に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線又は無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブルメディア211をドライブ210に装着することにより、入出力インタフェース205を介して、記憶部208にインストールすることができる。また、プログラムは、有線又は無線の伝送媒体を介して、通信部209で受信し、記憶部208にインストールすることができる。その他、プログラムは、ROM202や記憶部208に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 本技術は以下のような構成も取ることができる。
(1)
 空間に放射した超音波周波数帯域の検査信号に対して前記空間から戻る超音波応答信号に基づいて、ユーザに知覚させる再生信号に対して、前記空間の状況に応じた変更を加える処理部
 を有する情報処理装置。
(2)
 前記検査信号は、所定周期で放射されたパルス信号である
 前記(1)に記載の情報処理装置。
(3)
 前記空間の状況は、前記空間の物体配置の状況である
 前記(1)又は(2)に記載の情報処理装置。
(4)
 前記再生信号は、可聴周波数帯域の音の信号である
 前記(1)又は(3)に記載の情報処理装置。
(5)
 前記処理部は、前記超音波応答信号に基づいて、前記空間の状況に応じた音響効果を付与する
 前記(4)に記載の情報処理装置。
(6)
 前記処理部は、前記超音波応答信号に基づいて、前記空間における可聴周波数帯域の音の信号に対する伝達関数を生成し、前記再生信号に対して前記伝達関数に基づく前記音響効果を付与する
 前記(3)に記載の情報処理装置。
(7)
 前記処理部は、前記再生信号をフーリエ変換して得た周波数領域の前記再生信号と、前記伝達関数とを掛け合わすことにより、前記再生信号に対して前記音響効果を付与する
 前記(6)に記載の情報処理装置。
(8)
 前記処理部は、前記超音波応答信号の周波数成分に基づいて、前記伝達関数を生成する
 前記(6)又は(7)に記載の情報処理装置。
(9)
 前記処理部は、前記伝達関数を生成する処理として、前記超音波周波数帯域の周波数と前記可聴周波数帯域の周波数とを対応付け、前記超音波周波数帯域における前記超音波応答信号の各周波数に対する周波数成分を、前記超音波応答信号の各周波数に対応付けられた前記可聴周波数帯域の各周波数に対する前記伝達関数の周波数成分とする処理を含む
 前記(8)に記載の情報処理装置。
(10)
 前記処理部は、機械学習により生成された推論モデルを用いて、前記超音波応答信号の周波数成分に対して、前記伝達関数の周波数成分を推定する
 前記(8)に記載の情報処理装置。
(11)
 前記処理部は、前記超音波応答信号に基づいて、前記空間における前記可聴周波数帯域のインパルス応答信号を生成し、前記再生信号に対して前記インパルス応答信号に基づく前記音響効果を付与する
 前記(5)に記載の情報処理装置。
(12)
 前記処理部は、前記再生信号と前記インパルス応答信号との畳み込み積分により前記再生信号に前記音響効果を付与する
 前記(11)に記載の情報処理装置。
(13)
 前記処理部は、機械学習における推論モデルを用いて前記超音波応答信号から前記インパルス応答信号を生成する
 前記(11)又は前記(12)に記載の情報処理装置。
(14)
 前記超音波応答信号は、右耳用として検出された右耳用超音波応答信号と左耳用として検出された左耳用超音波応答信号とからなり、
 前記処理部は、前記右耳用超音波応答信号に基づいて、前記ユーザの右耳に知覚させる右耳用の前記再生信号に対して、前記変更を加え、前記左耳用超音波応答信号に基づいて、前記ユーザの左耳に知覚させる左耳用の前記再生信号に対して前記変更を加える
 前記(5)乃至(13)のいずれかに記載の情報処理装置。
(15)
 前記超音波応答信号は、前記ユーザの右耳に配置された前記右耳用超音波応答信号を取得する右用マイクと、前記ユーザの左耳に配置された前記左耳用超音波応答信号を取得する左用マイクとにより取得された
 前記(14)に記載の情報処理装置。
(16)
 前記再生信号は、前記ユーザに振動を知覚させる振動信号である
 前記(1)又は(2)に記載の情報処理装置。
(17)
 処理部
 を有する情報処理装置の
 前記処理部が、
 空間に放射した超音波周波数帯域の検査信号に対して前記空間から戻る超音波応答信号に基づいて、ユーザに知覚させる再生信号に対して、前記空間の状況に応じた変更を加える
 情報処理方法。
(18)
 コンピュータを
 空間に放射した超音波周波数帯域の検査信号に対して前記空間から戻る超音波応答信号に基づいて、ユーザに知覚させる再生信号に対して、前記空間の状況に応じた変更を加える処理部
 として機能させるためのプログラム。
 1,52 音響処理装置, 11 超音波送信部, 12 バイノーラルマイク, 13 可聴域IR生成部, 14 反響音生成部, 15 オーディオ出力部, 61 反響音データ収集装置, 62 生成モデル学習装置

Claims (18)

  1.  空間に放射した超音波周波数帯域の検査信号に対して前記空間から戻る超音波応答信号に基づいて、ユーザに知覚させる再生信号に対して、前記空間の状況に応じた変更を加える処理部
     を有する情報処理装置。
  2.  前記検査信号は、所定周期で放射されたパルス信号である
     請求項1に記載の情報処理装置。
  3.  前記空間の状況は、前記空間の物体配置の状況である
     請求項1に記載の情報処理装置。
  4.  前記再生信号は、可聴周波数帯域の音の信号である
     請求項1に記載の情報処理装置。
  5.  前記処理部は、前記超音波応答信号に基づいて、前記空間の状況に応じた音響効果を付与する
     請求項4に記載の情報処理装置。
  6.  前記処理部は、前記超音波応答信号に基づいて、前記空間における可聴周波数帯域の音の信号に対する伝達関数を生成し、前記再生信号に対して前記伝達関数に基づく前記音響効果を付与する
     請求項5に記載の情報処理装置。
  7.  前記処理部は、前記再生信号をフーリエ変換して得た周波数領域の前記再生信号と、前記伝達関数とを掛け合わすことにより、前記再生信号に対して前記音響効果を付与する
     請求項6に記載の情報処理装置。
  8.  前記処理部は、前記超音波応答信号の周波数成分に基づいて、前記伝達関数を生成する
     請求項6に記載の情報処理装置。
  9.  前記処理部は、前記伝達関数を生成する処理として、前記超音波周波数帯域の周波数と前記可聴周波数帯域の周波数とを対応付け、前記超音波周波数帯域における前記超音波応答信号の各周波数に対する周波数成分を、前記超音波応答信号の各周波数に対応付けられた前記可聴周波数帯域の各周波数に対する前記伝達関数の周波数成分とする処理を含む
     請求項8に記載の情報処理装置。
  10.  前記処理部は、機械学習により生成された推論モデルを用いて、前記超音波応答信号の周波数成分に対して、前記伝達関数の周波数成分を推定する
     請求項8に記載の情報処理装置。
  11.  前記処理部は、前記超音波応答信号に基づいて、前記空間における前記可聴周波数帯域のインパルス応答信号を生成し、前記再生信号に対して前記インパルス応答信号に基づく前記音響効果を付与する
     請求項5に記載の情報処理装置。
  12.  前記処理部は、前記再生信号と前記インパルス応答信号との畳み込み積分により前記再生信号に前記音響効果を付与する
     請求項11に記載の情報処理装置。
  13.  前記処理部は、機械学習における推論モデルを用いて前記超音波応答信号から前記インパルス応答信号を生成する
     請求項11に記載の情報処理装置。
  14.  前記超音波応答信号は、右耳用として検出された右耳用超音波応答信号と左耳用として検出された左耳用超音波応答信号とからなり、
     前記処理部は、前記右耳用超音波応答信号に基づいて、前記ユーザの右耳に知覚させる右耳用の前記再生信号に対して、前記変更を加え、前記左耳用超音波応答信号に基づいて、前記ユーザの左耳に知覚させる左耳用の前記再生信号に対して前記変更を加える
     請求項5に記載の情報処理装置。
  15.  前記超音波応答信号は、前記ユーザの右耳に配置された前記右耳用超音波応答信号を取得する右用マイクと、前記ユーザの左耳に配置された前記左耳用超音波応答信号を取得する左用マイクとにより取得された
     請求項14に記載の情報処理装置。
  16.  前記再生信号は、前記ユーザに振動を知覚させる振動信号である
     請求項1に記載の情報処理装置。
  17.  処理部
     を有する情報処理装置の
     前記処理部が、
     空間に放射した超音波周波数帯域の検査信号に対して前記空間から戻る超音波応答信号に基づいて、ユーザに知覚させる再生信号に対して、前記空間の状況に応じた変更を加える
     情報処理方法。
  18.  コンピュータを
     空間に放射した超音波周波数帯域の検査信号に対して前記空間から戻る超音波応答信号に基づいて、ユーザに知覚させる再生信号に対して、前記空間の状況に応じた変更を加える処理部
     として機能させるためのプログラム。
PCT/JP2022/000160 2021-02-16 2022-01-06 情報処理装置、情報処理方法、及び、プログラム WO2022176417A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2023500603A JPWO2022176417A1 (ja) 2021-02-16 2022-01-06
US18/264,142 US20240040328A1 (en) 2021-02-16 2022-01-06 Information processing device, information processing method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021022316 2021-02-16
JP2021-022316 2021-02-16

Publications (1)

Publication Number Publication Date
WO2022176417A1 true WO2022176417A1 (ja) 2022-08-25

Family

ID=82930726

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/000160 WO2022176417A1 (ja) 2021-02-16 2022-01-06 情報処理装置、情報処理方法、及び、プログラム

Country Status (3)

Country Link
US (1) US20240040328A1 (ja)
JP (1) JPWO2022176417A1 (ja)
WO (1) WO2022176417A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63263899A (ja) * 1987-04-21 1988-10-31 Matsushita Electric Ind Co Ltd 音場制御装置の入力装置
US20160128891A1 (en) * 2014-11-10 2016-05-12 Electronics And Telecommunications Research Institute Method and apparatus for providing space information

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63263899A (ja) * 1987-04-21 1988-10-31 Matsushita Electric Ind Co Ltd 音場制御装置の入力装置
US20160128891A1 (en) * 2014-11-10 2016-05-12 Electronics And Telecommunications Research Institute Method and apparatus for providing space information

Also Published As

Publication number Publication date
JPWO2022176417A1 (ja) 2022-08-25
US20240040328A1 (en) 2024-02-01

Similar Documents

Publication Publication Date Title
Pompei Sound from ultrasound: The parametric array as an audible sound source
JP6933215B2 (ja) 音場形成装置および方法、並びにプログラム
JP6281493B2 (ja) 信号処理装置、信号処理方法、測定方法、測定装置
Ahrens Analytic methods of sound field synthesis
JP6361809B2 (ja) 信号処理装置、信号処理方法
CN104538023B (zh) 声音漫射发生器
JP2011517908A (ja) フィルタ特性を生成する装置および方法
CN112005559B (zh) 改进环绕声的定位的方法
WO2017128481A1 (zh) 骨传导耳机的播放控制方法、装置及骨传导耳机设备
JP5543106B2 (ja) 空間オーディオ信号再生装置及び空間オーディオ信号再生方法
WO2017208822A1 (ja) 局所消音音場形成装置および方法、並びにプログラム
Novo Auditory virtual environments
WO2022176417A1 (ja) 情報処理装置、情報処理方法、及び、プログラム
JP2013009112A (ja) 収音再生装置、プログラム及び収音再生方法
US11830471B1 (en) Surface augmented ray-based acoustic modeling
CN109923877A (zh) 对立体声音频信号进行加权的装置和方法
Husung et al. Acoustical investigations in virtual environments for a car passing application
Geronazzo et al. Use of personalized binaural audio and interactive distance cues in an auditory goal-reaching task
WO2022185725A1 (ja) 情報処理装置、情報処理方法、およびプログラム
Zhang et al. Active control of scattering effects in 2.5 D multizone reproduction
JP7403436B2 (ja) 異なる音場の複数の録音音響信号を合成する音響信号合成装置、プログラム及び方法
WO2022201799A1 (ja) 情報処理装置、情報処理方法、及び、プログラム
Park Active Noise Control Using an External Microphone Array for Path Estimation
Kumar et al. Multichannel Dynamic Sound Rendering and Echo Suppression in a Room Using Wave Field Synthesis
Srivastava Realism in virtually supervised learning for acoustic room characterization and sound source localization

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22755743

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2023500603

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 18264142

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 22755743

Country of ref document: EP

Kind code of ref document: A1