WO2022254799A1 - 情報処理装置、および情報処理方法、並びにプログラム - Google Patents

情報処理装置、および情報処理方法、並びにプログラム Download PDF

Info

Publication number
WO2022254799A1
WO2022254799A1 PCT/JP2022/004997 JP2022004997W WO2022254799A1 WO 2022254799 A1 WO2022254799 A1 WO 2022254799A1 JP 2022004997 W JP2022004997 W JP 2022004997W WO 2022254799 A1 WO2022254799 A1 WO 2022254799A1
Authority
WO
WIPO (PCT)
Prior art keywords
audio
unit
audio output
arrival time
peak power
Prior art date
Application number
PCT/JP2022/004997
Other languages
English (en)
French (fr)
Inventor
哲朗 佐藤
功誠 山下
裕之 鎌田
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to CN202280037460.4A priority Critical patent/CN117413197A/zh
Priority to JP2023525383A priority patent/JPWO2022254799A1/ja
Priority to EP22815558.6A priority patent/EP4350381A1/en
Publication of WO2022254799A1 publication Critical patent/WO2022254799A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • G01S5/26Position of receiver fixed by co-ordinating a plurality of position lines defined by path-difference measurements

Definitions

  • the present disclosure relates to an information processing device, an information processing method, and a program, and more particularly to an information processing device, an information processing method, and a program that enable positioning of microphones using stereo speakers and microphones.
  • a transmitting device modulates a data code with a code sequence, generates a modulated signal, emits the modulated signal as sound, and a receiving device receives the emitted sound, and is a received audio signal.
  • a technique has been proposed in which the correlation between a modulated signal and a code sequence is obtained, and the distance to a transmitting device is measured based on the peak of the correlation (see Patent Document 1).
  • the receiving device can measure the distance to the transmitting device, but in order to obtain the two-dimensional position of the receiving device, time synchronization between the receiving device and the transmitting device is required. If not, at least three transmitters should be used.
  • the present disclosure has been made in view of such circumstances, and in particular, enables measurement of the two-dimensional position of a microphone in an audio system consisting of stereo speakers and microphones.
  • An information processing apparatus and a program are audio reception for receiving an audio signal composed of a spread code signal whose spread code is spread spectrum modulated and which is output from two audio output blocks existing at known positions. and the arrival time difference distance, which is the difference between the distance specified from the arrival time, which is the time until the audio signal of the audio output block of the 2 arrives at the audio reception unit and is received,
  • An information processing device including a position calculator that calculates the position of an audio receiver, and a program.
  • An information processing method includes an audio receiver that receives an audio signal composed of a spread code signal whose spread code is spread spectrum modulated and output from two audio output blocks present at known positions.
  • the information processing method for an information processing device wherein the difference in distance specified from the arrival time, which is the time it takes for the audio signal of the audio output block to arrive at and be received by the audio receiving unit
  • the information processing method includes the step of calculating the position of the audio receiving unit based on a certain arrival time difference distance.
  • the audio receiving unit receives an audio signal composed of a spread code signal whose spread code is spread-spectrum-modulated and output from two audio output blocks present at known positions, and the two position of the audio output block based on the arrival time difference distance, which is the difference in the distance specified from the arrival time, which is the time it takes for the audio signal of the audio output block to arrive at and be received by the audio reception unit is calculated.
  • FIG. 1 is a diagram illustrating a configuration example of a home audio system of the present disclosure
  • FIG. 2 is a diagram illustrating a configuration example of an audio output block in FIG. 1
  • FIG. 2 is a diagram illustrating a configuration example of the electronic device of FIG. 1
  • FIG. 4 is a diagram illustrating a configuration example of a position calculation unit in FIG. 3
  • FIG. FIG. 2 is a diagram for explaining communication using spread codes
  • FIG. FIG. 4 is a diagram for explaining autocorrelation and cross-correlation of spreading codes
  • FIG. 4 is a diagram for explaining arrival times of spreading codes using cross-correlation; It is a figure explaining the structural example of an arrival time calculation part. It is a figure explaining human hearing.
  • FIG. 4 is a diagram for explaining the procedure of frequency shifting of spreading codes
  • FIG. 10 is a diagram illustrating an example in which multipaths are taken into consideration
  • It is a figure explaining arrival time difference distance.
  • It is a figure explaining a peak power ratio.
  • FIG. 10 is a flowchart for explaining sound emission processing by an audio output block
  • FIG. FIG. 4 is a flowchart for explaining voice pickup processing by the electronic device of FIG. 3
  • FIG. It is a figure explaining the application example of 1st Embodiment of a position calculation part.
  • FIG. 10 is a diagram for explaining the audible and visible range when the TV is placed at the center position between the audio output blocks;
  • FIG. 10 is a diagram for explaining the audible range when the TV is not placed at the center position between the audio output blocks;
  • It is a figure explaining a peak power frequency component ratio.
  • It is a figure explaining the structural example of the electronic device in 2nd Embodiment.
  • 23 is a diagram illustrating a configuration example of a position calculation unit in FIG. 22;
  • FIG. It is a figure explaining the structural example of 2nd Embodiment of a position calculation part.
  • FIG. 23 is a flowchart for explaining sound collection processing by the electronic device of FIG. 22;
  • FIG. It is a configuration example of a home audio system in which an IMU is provided in an electronic device.
  • FIG. 28 is a diagram illustrating a configuration example of a position calculation unit in FIG. 27;
  • FIG. 28 is a flowchart for explaining sound collection processing by the electronic device of FIG. 27;
  • FIG. It is a figure explaining the application example of 3rd Embodiment. 1 shows a configuration example of a general-purpose computer;
  • FIG. 1 shows a configuration example of a home audio system to which the present disclosure is applied.
  • the home audio system 11 in FIG. 1 consists of a display device 30 such as a TV (television receiver), audio output blocks 31-1 and 31-2, and electronic equipment 32.
  • a display device 30 such as a TV (television receiver)
  • audio output blocks 31-1 and 31-2 audio output blocks 31-1 and 31-2
  • electronic equipment 32 electronic equipment
  • the display device 30 is also simply referred to as a TV 30 .
  • the audio output blocks 31-1 and 31-2 each have a speaker, and are modulated signals obtained by spectrum-spread-modulating a data code for specifying the position of the electronic device 32 with a spread code in the audio of music content, games, etc. Sound is emitted by including a sound consisting of
  • the electronic device 32 is carried or worn by the user, and is, for example, a smartphone used as a game controller or an HMD (Head Mounted Display).
  • a smartphone used as a game controller
  • HMD Head Mounted Display
  • the electronic device 32 includes an audio input unit 51 such as a microphone for receiving sounds emitted from the audio output blocks 31-1 and 31-2, and an audio output block 31-1 and 31-2.
  • a voice input block 41 having a position detector 52 for detecting the position of the voice input block 41 is provided.
  • the audio input block 41 recognizes in advance the spatial positions of the display device 30 and the audio output blocks 31-1 and 31-2 as known position information.
  • the position detection unit 52 obtains the distances to the audio output blocks 31-1 and 31-2 based on the modulation signal included in the picked-up sound, Two-dimensional positions (x, y) for the audio output blocks 31-1 and 31-2 are detected.
  • the position of the electronic device 32 with respect to the audio output blocks 31-1 and 31-2 is specified, so that the sound output from the audio output blocks 31-1 and 31-2 is generated in a sound field corresponding to the specified position. Since the localization can be corrected and output, the user can listen to and listen to the realistic sound according to the user's own movement.
  • the audio output block 31 includes a spreading code generation unit 71 , a known music sound source generation unit 72 , an audio generation unit 73 , an audio output unit 74 and a communication unit 75 .
  • the spreading code generator 71 generates a spread code and outputs it to the audio generator 73 .
  • the known music sound source generation unit 72 stores known music, generates a known music sound source based on the stored known music, and outputs it to the sound generation unit 73 .
  • the sound generation unit 73 applies spread spectrum modulation using a spread code to the known music sound source to generate sound composed of a spread spectrum signal, and outputs the sound to the sound output unit 74 .
  • the audio generation unit 73 includes a diffusion unit 81, a frequency shift processing unit 82, and a sound field control unit 83.
  • the spreading unit 81 generates a spread spectrum signal by applying spread spectrum modulation using a spread code to the known music sound source.
  • the frequency shift processing unit 82 shifts the frequency of the spread code in the spread spectrum signal to a frequency band that is difficult for human ears to hear.
  • the sound field control unit 83 reproduces the sound field according to the positional relationship with itself based on the positional information of the electronic device 32 supplied from the electronic device 32 .
  • the audio output unit 74 is, for example, a speaker, and outputs the known music sound source supplied from the audio generation unit 73 and the audio based on the spread spectrum signal.
  • the communication unit 75 communicates with the electronic device 32 through wireless communication such as Bluetooth (registered trademark), and exchanges various data and commands.
  • wireless communication such as Bluetooth (registered trademark)
  • the electronic device 32 includes an audio input block 41, a control section 42, an output section 43, and a communication section 44.
  • the audio input block 41 receives audio input emitted from the audio output blocks 31-1 and 31-2, and based on the correlation between the received audio, the spread spectrum signal, and the spread code, each arrival time and Based on the arrival time difference distance based on the obtained arrival time and the peak power ratio, which is the ratio of the peak powers of the audio output blocks 31-1 and 31-2, the two-dimensional A position (x, y) is obtained and output to the control unit 42 .
  • the control unit 42 Based on the position of the electronic device 32 supplied from the audio input block 41, the control unit 42, for example, controls the communication unit 44 to acquire information notified from the audio output blocks 31-1 and 31-2. , is presented to the user by an output unit 43 comprising a display, a speaker, and the like. Further, the control unit 42 controls the communication unit 44 to transmit a command for setting a sound field based on the two-dimensional position of the electronic device 32 to the audio output blocks 31-1 and 31-2.
  • the communication unit 44 communicates with the audio output block 31 by wireless communication such as Bluetooth (registered trademark), and exchanges various data and commands.
  • wireless communication such as Bluetooth (registered trademark)
  • the voice input block 41 includes a voice input section 51 and a position detection section 52.
  • the audio input unit 51 is, for example, a microphone, picks up sounds emitted from the audio output blocks 31-1 and 31-2, and outputs them to the position detection unit 52.
  • the position detection unit 52 obtains the position of the electronic device 32 based on the sounds picked up by the sound input unit 51 and emitted from the sound output blocks 31-1 and 31-2.
  • the position detection unit 52 includes a known music sound source removal unit 91 , a spatial transfer characteristic calculation unit 92 , an arrival time calculation unit 93 , a peak power detection unit 94 and a position calculation unit 95 .
  • the spatial transfer characteristic calculation unit 92 is based on the information of the sound supplied from the sound input unit 51, the characteristics of the microphone that constitutes the sound input unit 51, and the characteristics of the speaker that constitutes the sound output unit 74 of the sound output block 31. Then, the spatial transfer characteristics are calculated and output to the known music sound source removal section 91 .
  • the known music sound source removal unit 91 stores a music sound source stored in advance in the known music sound source generation unit 72 in the audio output block 31 as a known music sound source.
  • the known music sound source removal unit 91 removes the known music sound source component from the sound supplied from the sound input unit 51 after considering the spatial transfer characteristics supplied from the space transfer characteristics calculation unit 92, It outputs to the time calculation section 93 and the peak power detection section 94 .
  • the known music sound source removal unit 91 removes the components of the known music sound source from the sound picked up by the sound input unit 51, and extracts only the spread spectrum signal components from the arrival time calculation unit 93 and the peak power detection unit 94. output to
  • the arrival time calculation unit 93 picks up the sound after the sound is emitted from each of the sound output blocks 31-1 and 31-2. It calculates the arrival time until the peak power detection unit 94 and the position calculation unit 95 .
  • the peak power detector 94 detects the power of the spread spectrum signal component at the peak detected by the arrival time calculator 93 and outputs it to the position calculator 95 .
  • the position calculator 95 calculates the arrival time difference distance based on the arrival times of the audio output blocks 31-1 and 31-2 supplied from the arrival time calculator 93 and the peak power supplied from the peak power detector 94. and the peak power ratio are obtained, and the position (two-dimensional position) of the electronic device 32 is obtained based on the obtained arrival time difference distance and the peak power ratio, and is output to the control unit 42 .
  • the position calculator 95 includes an arrival time difference distance calculator 111 , a peak power ratio calculator 112 , and a position calculator 113 .
  • the arrival time difference distance calculation unit 111 uses the difference in distance to each of the audio output blocks 31-1 and 31-2 obtained based on the arrival time of each of the audio output blocks 31-1 and 31-2 as the arrival time difference distance. Calculate and output to the position calculation unit 113 .
  • the peak power ratio calculation unit 112 obtains the ratio of the peak powers of the sounds emitted from the sound output blocks 31-1 and 31-2 as the peak power ratio, and outputs the peak power ratio to the position calculation unit 113.
  • the position calculation unit 113 calculates the arrival time difference distances of the audio output blocks 31-1 and 31-2 supplied from the arrival time difference distance calculation unit 111 and the audio output blocks 31-1 and 31 supplied from the peak power ratio calculation unit 112.
  • the position of the electronic device 32 with respect to the audio output blocks 31-1 and 31-2 is calculated by machine learning using a neural network and output to the control unit .
  • the spreader 81 On the transmitting side in the left part of the figure, the spreader 81 performs spread spectrum modulation by multiplying the input signal Di with the pulse width Td to be transmitted by the spread code Ex to apply the spread spectrum modulation to the pulse width Tc. , and transmits it to the receiving side on the right side of the figure.
  • the frequency band Dif of the input signal Di is represented by, for example, the frequency band ⁇ 1/Td to 1/Td
  • the frequency band Exf of the transmission signal De is multiplied by the spreading code Ex as follows: The energy is spread on the frequency axis by widening the frequency band from ⁇ 1/Tc to 1/Tc (1/Tc>1/Td).
  • FIG. 5 shows an example in which the transmission signal De is interfered by the interference wave IF.
  • reception signal De' On the receiving side, a signal that has been interfered by the interference wave IF with respect to the transmission signal De is received as the reception signal De'.
  • the arrival time calculator 93 restores the received signal Do by despreading the received signal De' with the same spreading code Ex.
  • the frequency band Exf' of the received signal De' contains the interference wave component IFEx, but the interference wave component IFEx is spread in the frequency band Dof of the despread received signal Do. Since the energy is spread by being restored as the frequency band IFD, it is possible to reduce the influence of the interfering wave IF on the received signal Do.
  • the spreading code has, for example, an impulse-like autocorrelation as shown in the upper waveform diagram of FIG. 6, and a cross-correlation of 0 as shown in the lower waveform of FIG. FIG. 6 shows changes in the correlation value when the Gold sequence is used as the spreading code, the horizontal axis being the coded sequence and the vertical axis being the correlation value.
  • the audio input block 41 spreads the spectrum signal included in the audio to the audio output blocks 31-1 and 31-2. 31-2 can be appropriately discriminated and recognized.
  • the spreading code may be not only the Gold sequence, but also the M sequence or PN (Pseudorandom Noise).
  • the timing at which the cross-correlation peak observed in the audio input block 41 is observed is the timing at which the audio emitted by the audio output block 31 is picked up by the audio input block 41. It differs according to the distance between the block 41 and the audio output block 31 .
  • the horizontal axis indicates the elapsed time since the sound was output from the sound output block 31, and the vertical axis indicates the strength of the cross-correlation.
  • the distance between the audio input block 41 and the audio output block 31 is the time from when the audio is emitted from the audio output block 31 to when the peak is observed in the cross-correlation, that is, when the audio is emitted from the audio output block 31. It can be obtained by multiplying the arrival time until the voice is picked up by the voice input block 41 by the speed of sound.
  • the arrival time calculator 93 includes an inverse shift processor 130 , a cross-correlation calculator 131 , and a peak detector 132 .
  • the inverse shift processing unit 130 down-samples the spread spectrum modulated spread code signal that has been frequency-shifted by up-sampling in the frequency-shift processing unit 82 of the audio output block 31 in the audio signal picked up by the audio input unit 51.
  • the original frequency band is restored and output to cross-correlation calculation section 131 .
  • the cross-correlation calculation unit 131 calculates the cross-correlation between the spreading code and the received signal from which the known music source has been removed in the voice signal picked up by the voice input unit 51 of the voice input block 41, and outputs the cross-correlation to the peak detector 132. Output.
  • the peak detection unit 132 detects the peak time of the cross-correlation calculated by the cross-correlation calculation unit 131 and outputs it as the arrival time.
  • the cross-correlation calculation performed by the cross-correlation calculation unit 131 is generally known to have a very large amount of calculation, so it is realized by equivalent calculation with a small amount of calculation.
  • the cross-correlation calculation unit 131 determines that the known music source in the transmission signal output by the audio output unit 74 of the audio output block 31 and the audio signal received by the audio input unit 51 of the audio input block 41 is The removed received signal is subjected to Fourier transform as shown in the following equations (1) and (2).
  • g is a received signal from which the known music source is removed from the audio signal received by the audio input unit 51 of the audio input block 41
  • G is received by the audio input unit 51 of the audio input block 41. It is the result of the Fourier transform of the received signal g from which the known music sound source in the audio signal has been removed.
  • h is the transmission signal output as audio by the audio output unit 74 of the audio output block 31
  • H is the result of Fourier transform of the transmission signal output as audio by the audio output unit 74 of the audio output block 31.
  • V is the speed of sound
  • v is the speed of (the audio input unit 51 of) the electronic device 32
  • t is the time
  • f is the frequency.
  • the cross-correlation calculation unit 131 obtains the cross spectrum by multiplying the Fourier transform results G and H with each other, as shown in the following equation (3).
  • P is the cross spectrum obtained by multiplying the Fourier transform results G and H with each other.
  • the cross-correlation calculator 131 performs an inverse Fourier transform on the cross spectrum P, as shown in the following equation (4), to obtain the transmission signal h output by the audio output unit 74 of the audio output block 31 and , the cross-correlation between the audio signal received by the audio input unit 51 of the audio input block 41 and the received signal g from which the known music source has been removed is obtained.
  • p is the transmission signal h output as audio by the audio output unit 74 of the audio output block 31 and the received signal obtained by removing the known music source from the audio signal received by the audio input unit 51 of the audio input block 41. is the cross-correlation with g.
  • the peak detection unit 132 detects the peak of the cross-correlation p, detects the arrival time T based on the detected peak of the cross-correlation p, and outputs it to the position calculation unit 95 .
  • the arrival time difference distance calculator 111 of the position calculator 95 calculates the distance between the audio input block 41 and the audio output block 31 by calculating the following equation (5) based on the detected peak of the cross-correlation p. .
  • D is the distance (arrival time distance) between (the audio input section 51 of) the audio input block 41 and (the audio output section 74 of) the audio output block 31 (arrival time distance)
  • T is the arrival time
  • V is the speed of sound.
  • the speed of sound V is, for example, 331.5+0.6 ⁇ Q (m/s) (Q is temperature °C).
  • the arrival time difference distance calculation unit 111 calculates, as the arrival time difference distance, the difference in distance between the voice input block 41 and the voice output blocks 31-1 and 31-2 obtained as described above, and the position calculation unit 113 output to
  • the peak power detector 94 picks up the sound at the peak timing of the cross-correlation p between the audio input block 41 and the audio output blocks 31-1 and 31-2 detected by the peak detector 132 of the arrival time calculator 93. The power of each voice thus obtained is detected as the peak power, and output to the peak power ratio calculator 112 of the position calculator 95 .
  • the peak power ratio calculator 112 calculates the peak power ratio supplied from the peak power detector 94 and outputs it to the position calculator 113 .
  • the cross-correlation calculator 131 may also obtain the velocity v of (the voice input unit 51 of) the electronic device 32 by obtaining the cross-correlation p.
  • the cross-correlation calculator 131 changes the velocity v in predetermined steps (eg, 0.01 m/s steps) within a predetermined range (eg, -1.00 m/s to 1.00 m/s). Meanwhile, the cross-correlation p is obtained, and the speed v indicating the maximum peak of the cross-correlation p is obtained as the speed v of (the voice input unit 51 of) the electronic device 32 .
  • predetermined steps eg, 0.01 m/s steps
  • a predetermined range eg, -1.00 m/s to 1.00 m/s
  • the frequency band of the spreading code signal is a frequency that is the Nyquist frequency Fs, which is half the sampling frequency. .
  • FIG. 9 shows changes in sound pressure level for each frequency at loudness levels of 0, 20, 40, 60, 80, and 100 phon, where the horizontal axis is frequency and the vertical axis is sound pressure level. is.
  • the thick one-dot chain line indicates the sound pressure level at the microphone, which is constant regardless of the loudness level.
  • the upper range is defined as a range audible to humans (a range easily recognized by human hearing) Z2.
  • the horizontal axis indicates the frequency band
  • the vertical axis indicates the sound pressure level
  • the spread is performed in the range of 16 kHz to 24 kHz indicated by the range Z3 within the range Z1.
  • the voice of the code signal is output, it can be made inaudible to humans (difficult to recognize with human hearing).
  • the frequency shift processing unit 82 up-samples the spread code signal Fs including the spread code by m times as shown in the upper left part of FIG. 11 to obtain the spread code signal Fs, Generate 2Fs, ... mFs.
  • the frequency shift processing unit 82 limits the spread code signal uFs of 16 to 24 kHz, which is the frequency band inaudible to humans described with reference to FIG. , the spread code signal Fs including the spread code signal is frequency-shifted and emitted from the voice output unit 74 together with the sound source of the known music.
  • the inverse shift processing unit 130 performs 16 By limiting the band to the range of 24 kHz to 24 kHz, the spreading code signal uFs is extracted as shown in the middle right part of FIG.
  • the inverse shift processing unit 130 down-samples to 1/m to generate a spreading code signal Fs containing the spreading code, thereby reducing the frequency band to the original band. Restore.
  • FIG. 12 shows an example in which the voice of the spread code signal is output even in a range including a low frequency band of 10 kHz or less indicated by range Z3'. Therefore, in the case of FIG. 12, in the range Z11, the sound of the spread code signal is easily recognizable by human hearing.
  • the sound pressure level of the known music source is set to -50 dB, and the range required for separation is set to -30 dB.
  • the spread code signal may be perceptually masked with a known piece of music by the perceptual compression method used in the present invention, and the spread code signal may be emitted so as to be inaudible.
  • the frequency components of the music to be played are analyzed for each predetermined playback unit time (for example, 20 ms units), and the sound pressure level of the spread code signal for each critical band (24 bark) is perceptually masked. It may be dynamically increased or decreased according to the analysis result.
  • FIG. 13 is a plot diagram of arrival time difference distance according to position for the audio output blocks 31-1 and 31-2.
  • the y-axis represents the position of the sound output blocks 31-1 and 31-2 with respect to the front direction, and the direction in which the sound output blocks 31-1 and 31-2 emit sound.
  • the vertical position is shown on the x-axis, and the distribution of the arrival time difference distance obtained when expressing each of x and y in normalized units is plotted in normalized units. .
  • the audio output blocks 31-1 and 31-2 are separated from the audio output blocks 31-1 and 31-2 by 3 standardized units in the x-axis direction, and the audio output blocks 31-1 and 31-2 are separated by 3 units in the y-axis direction. Plot results of time difference distances of arrival are shown.
  • FIG. 14 is a plot of the peak power ratio as a function of position for the audio output blocks 31-1 and 31-2.
  • the y-axis represents the position of the sound output blocks 31-1 and 31-2 with respect to the front direction, and the direction in which the sound output blocks 31-1 and 31-2 emit sound.
  • the position in the vertical direction is represented by the x-axis, and the distribution of the peak power ratio obtained when each of x and y is expressed in normalized units is plotted in normalized units. .
  • the audio output blocks 31-1 and 31-2 are separated by 3 normalized units in the x-axis direction, and the audio output blocks 31-1 and 31-2 are separated by 3 units in the y-axis direction.
  • Plot results of peak power are shown in the range up to .
  • the positions of the audio output blocks 31-1 and 31-2 are fixed at known positions, or the positions of either one of the audio output blocks 31-1 and 31-2 are known. , and the mutual distances are known.
  • the position calculation unit 113 for example, as shown in FIG. 15, automatically calculates a predetermined hidden layer 152 for an input layer 151 consisting of a predetermined number of data including the arrival time difference distance D and the peak power ratio PR.
  • An output layer 153 configured by learning and consisting of the position (x, y) of the electronic device 32 (voice input block 41) is obtained.
  • Equation 10 is information of one input layer.
  • the input layer 151 composed of the arrival time difference distance D for which the peak calculation is performed and the peak power ratio PR is composed of 10 pieces of data.
  • the hidden layer 152 is composed of, for example, n layers from a first layer 152a to an n-th layer 152n.
  • the top first layer 152a has a function of masking data that satisfies a predetermined condition in the input layer 151. For example, it is configured as a 1280ch layer.
  • Each of the second layer 152b to the n-th layer 152n is composed of 128 ch layers.
  • the first layer 152a masks data that does not satisfy a predetermined condition as data of the input layer 151, such as data that does not satisfy the condition that the peak SN ratio is 8 times or more, or the arrival time difference distance is 3 m or less. are masked so that they are not used for processing in subsequent layers.
  • the second layer 152 b to the n-th layer 152 n of the hidden layers 152 use only data that satisfies a predetermined condition among the data of the input layer 151 , and the output layer 153 of the electronic device 32 is used as the output layer 153 .
  • the position calculation unit 113 calculates the electronic device 32 which is the output layer 153 by the hidden layer 152 configured by machine learning for the input layer 151 including the arrival time difference distance D and the peak power ratio PR. Output the position (x, y) of (voice input block 41).
  • step S ⁇ b>11 the spreading code generator 71 generates a spread code and outputs it to the voice generator 73 .
  • step S ⁇ b>12 the known music sound source generation unit 72 generates the stored known music sound source and outputs it to the sound generation unit 73 .
  • step S13 the voice generating section 73 controls the spreading section 81 to multiply a predetermined data code by a spreading code, perform spread spectrum modulation, and generate a spreading code signal.
  • step S14 the audio generator 73 controls the frequency shift processor 82 to frequency-shift the spreading code signal as described with reference to the left part of FIG.
  • step S15 the sound generation unit 73 outputs the known music sound source and the frequency-shifted spread code signal to the sound output unit 74 consisting of a speaker, and emits (outputs) sound with a predetermined sound output. .
  • the electronic device 32 since it is possible to shift the spread code signal to a frequency band that is inaudible to the user, and output it as voice, the electronic device 32 emits sound without causing the user to hear an unpleasant sound.
  • the distance to the audio output block 31 can be determined on the basis of the speech, which consists of the spreading code signal and is shifted to the inaudible frequency band.
  • step S16 the voice generation unit 73 controls the communication unit 75 to determine whether or not it has been notified from the electronic device 32 that the peak cannot be detected by the processing described later. In step S16, when it is notified that the peak cannot be detected, the process proceeds to step S17.
  • step S17 the sound generation unit 73 controls the communication unit 75 to determine whether or not the electronic device 32 has transmitted a command instructing adjustment of sound output.
  • step S17 If it is determined in step S17 that a command instructing adjustment of sound output has been sent, the process proceeds to step S18.
  • step S18 the sound generator 73 adjusts the sound output of the sound output unit 74, and the process returns to step S15. It should be noted that in step S17, if the command instructing adjustment of the sound emission output has not been transmitted, the process of step S18 is skipped.
  • the sound generation unit 73 controls the sound output unit 74 based on this command to adjust the sound output, Adjustment is made so that a peak is detected from the sound emitted by the equipment 32.
  • step S ⁇ b>31 the voice input unit 51 consisting of a microphone picks up voice and outputs the picked up voice to the known music sound source removal unit 91 and the spatial transfer characteristic calculation unit 92 .
  • step S32 the spatial transfer characteristic calculation unit 92 calculates the spatial transfer characteristic based on the sound supplied from the audio input unit 51, the characteristics of the audio input unit 51, and the characteristics of the audio output unit 74 of the audio output block 31. and output to the known music sound source removal unit 91 .
  • step S33 the known music sound source removal unit 91 takes into consideration the spatial transfer characteristics supplied from the spatial transfer characteristics calculation unit 92, generates a reverse phase signal of the known music sound source, and , the component of the known music sound source is removed, and output to the arrival time calculation section 93 and the peak power detection section 94 .
  • step S34 the reverse shift processing unit 130 of the arrival time calculation unit 93 shifts the frequency band of the spread code signal obtained by removing the known music sound source from the sound input by the sound input unit 51 supplied from the known music sound source removal unit 91. is reverse shifted as described with reference to the right part of FIG.
  • step S35 the cross-correlation calculation unit 131 calculates the known music sound source from the voice input by the voice input unit 51 whose frequency band has been inversely shifted by calculation using the above-described formulas (1) to (4). A cross-correlation between the removed spread code signal and the voice spread code signal output from the voice output block 31 is calculated.
  • step S36 the peak detection unit 132 detects peaks in the calculated cross-correlation.
  • step S37 the peak power detector 94 detects the power of the frequency band component of the spread code signal at the timing when the cross-correlation corresponding to the distance to each of the detected audio output blocks 31-1 and 31-2 peaks. It is detected as peak power and output to the position calculator 95 .
  • step S38 the control unit 42 determines whether or not the arrival time calculation unit 93 has detected cross-correlation peaks corresponding to the distances to the audio output blocks 31-1 and 31-2.
  • step S38 If it is determined in step S38 that no cross-correlation peak has been detected, the process proceeds to step S39.
  • step S39 the control unit 42 controls the communication unit 44 to notify the electronic device 32 that the cross-correlation peak could not be detected.
  • step S40 the control unit 42 determines whether or not one of the peak powers of the audio output blocks 31-1 and 31-2 is greater than a predetermined threshold. That is, it is determined whether or not one of the peak powers corresponding to the distances to the audio output blocks 31-1 and 31-2 has an extremely large value.
  • step S40 If it is determined in step S40 that any of the peak powers is greater than the predetermined threshold, the process proceeds to step S41.
  • step S41 the control unit 42 controls the communication unit 44 to transmit a command instructing the electronic device 32 to adjust the sound emission output, and the process returns to step S31. Note that if it is not determined in step S40 that any of the peak powers is greater than the predetermined threshold, the process of step S41 is skipped.
  • step S38 If it is determined in step S38 that a cross-correlation peak has been detected, the process proceeds to step S342.
  • step S42 the peak power ratio calculator 112 of the position calculator 95 calculates the peak power ratio corresponding to the distance to each of the audio output blocks 31-1 and 31-2 as the peak power ratio. 113.
  • step S43 the peak detection section 132 of the arrival time calculation section 93 outputs the time detected as the peak in the cross-correlation to the position calculation section 95 as the arrival time.
  • the arrival signal corresponding to each of the voice output blocks 31-1 and 31-2 is calculated. Time is required.
  • step S44 the arrival time difference distance calculation unit 111 of the position calculation unit 95 calculates the arrival time difference distance based on the arrival times according to the distances to the audio output blocks 31-1 and 31-2, and calculates the position. Output to unit 113 .
  • step S45 the position calculation unit 113 is based on the arrival time difference distance supplied from the arrival time difference distance calculation unit 111 and the peak power ratio supplied from the peak power ratio calculation unit 112, which will be described with reference to FIG.
  • a first input layer 151 is constructed, and data that does not satisfy a predetermined condition is masked by a first layer 152 a at the top of the hidden layers 152 .
  • step S46 the position calculation unit 113 sequentially uses the second layer 152b to the n-th layer 152n of the hidden layers 152 described with reference to FIG. A position is calculated and output to the control unit 42 .
  • step S47 the control unit 42 executes processing based on the obtained two-dimensional position of the electronic device 32, and ends the processing.
  • control unit 42 controls the level and timing of the audio output from the audio output units 74 of the audio output blocks 31-1 and 31-2 so as to realize a sound field based on the determined position of the electronic device 32. to the audio output blocks 31-1 and 31-2 by controlling the communication unit 44.
  • the sound field control unit 83 controls the sound field corresponding to the position of the user holding the electronic device 32 based on the command transmitted from the electronic device 32.
  • the level and timing of the sound output from the sound output unit 74 are controlled so as to realize the above.
  • the user wearing the electronic device 32 can hear and listen to the music output from the audio output blocks 31-1 and 31-2 in real time in an appropriate sound field corresponding to the movement of the user. becomes possible.
  • the two audio output blocks 31-1 and 31-2 which constitute general stereo speakers, and the electronic device 32 (audio input block 41) are the only audio output blocks of the electronic device 32. It becomes possible to determine the position for 31-1 and 31-2.
  • a spread code signal is emitted using voice in a band inaudible to humans, and the distance between the electronic device 32 having the voice output block 31 and the voice input block 41 is measured. can be obtained in real time.
  • the speaker that configures the audio output unit 74 of the audio output block 31 of the present disclosure and the microphone that configures the audio input unit 51 of the electronic device 32 can use an existing audio device with two speakers, for example. , can be realized at a low cost, and the labor required for installation can be simplified.
  • the two-dimensional position of the electronic device 32 is determined by a learner formed by machine learning based on the arrival time difference distance and the peak power ratio.
  • the two-dimensional position may be obtained based on the input consisting only of the peak power ratio.
  • the two-dimensional position is obtained based on the input consisting of only the arrival time difference distance or only the peak power ratio, the accuracy will be degraded.
  • the input is formed only by the arrival time difference distance, it is assumed that the accuracy of the position in the y direction is low, so only the position in the x direction may be used.
  • the information when the cross-correlation peak is detected is taken as the input layer, but the information when the cross-correlation peak cannot be detected may be taken as the input layer.
  • the positions of the audio output blocks 31-1 and 31-2 are known, or the positions of at least one of them and the distance between them are known. I have explained.
  • an input layer 151 ⁇ consisting of the mutual distance SD may be configured and input to the hidden layer 152. .
  • the position calculation unit 113 has data that does not satisfy the predetermined conditions of the arrival time difference distance D and the peak power ratio PR that constitute the first layer 152a.
  • the masked material and the input layer 151 ⁇ having the mutual distance SD are input to the second layer 152′b, and processed by the second layer 152′b to the n-th layer 152′n to produce the output layer 153′. , the position of the electronic device 32 may be obtained.
  • the sound emitted from the audio output blocks 31-1 and 31-2 is transmitted to the electronic device 32.
  • An example has been described in which the position of the electronic device 32 is specified using the arrival time difference distance D and the peak power ratio PR when the sound is picked up at .
  • the positions of the audio output blocks 31-1 and 31-2 in the x direction which is the direction perpendicular to the sound emitting direction, are obtained by the above-described method, as described with reference to FIG. It is possible to obtain with high accuracy.
  • the y-direction positions of the audio output blocks 31-1 and 31-2 which are the sound emitting directions, are slightly less accurate than the x-direction positions. .
  • the audio emitted from the audio output blocks 31-1 and 31-2 that the user listens to and listens to is evaluated for listening within a range defined by an angle set with reference to the central position of the TV 30. done.
  • audio output blocks 31-1 and 31-2 are provided, and are positioned substantially in the center of the audio output blocks 31-1 and 31-2, and the display surface is the audio output block 31-2.
  • the TV 30 is set parallel to the straight line connecting 1 and 31-2.
  • the range of the angle ⁇ with respect to the center position of the TV 30 in the figure is set as the audible range. The closer the position is to the dashed line, the better the listening is possible.
  • the range of the angle ⁇ based on the center position of the TV 30 in the figure is set as the audible range. Better viewing is possible at higher positions.
  • the viewing position of the user is If the position in the x direction, which is the direction perpendicular to the sound emitting direction of 31-1 and 31-2, can be determined with a certain degree of accuracy, it is possible to achieve better listening than a predetermined level.
  • the viewing position of the user is Even if the y-direction positions of the output blocks 31-1 and 31-2, which are the sound emitting directions, are not obtained with a predetermined accuracy, if the x-direction positions are obtained with a predetermined accuracy, the predetermined accuracy can be obtained. Better hearing than level can be achieved.
  • the peak power LP which is the power at the cross-correlation peak of the low-frequency component (eg, 18 to 21 kHz) of the voice emitted from the voice output block 31, and the cross-correlation power of the high-frequency component (eg, 21 to 24 kHz)
  • the position in the y direction for example, the value up to a predetermined distance from the audio output block 31 is calculated. You may adopt it.
  • FIG. 21 shows an example of the component ratio FR of one audio output block 31. Therefore, when two audio output blocks 31-1 and 31-2 are used, each peak power frequency
  • the component ratios FRL and FRR are used in addition to the arrival time difference distance D and the peak power ratio PR and processed in the hidden layer to accurately determine the x- and y-direction positions of the electronic device 32. it is possible to ask.
  • the electronic device 32 of FIG. 22 differs from the electronic device 32 of FIG. 3 in that a peak power frequency component ratio calculator 201 is newly provided, and a position calculator 202 is provided instead of the position calculator 95. It is a point.
  • the peak power frequency component ratio calculation unit 201 performs the same processing as when obtaining the cross-correlation peak in the arrival time calculation unit 93 for the low frequency components of the sounds emitted from the sound output blocks 31-1 and 31-2. It is performed in each of a band (eg, 18 to 21 kHz) and a high frequency band (eg, 21 to 24 kHz), and the peak power LP of each low frequency band and the peak power HP of each high frequency band are obtained.
  • a band eg, 18 to 21 kHz
  • a high frequency band eg, 21 to 24 kHz
  • the peak power frequency component ratio calculation unit 201 calculates the peak power frequency component with the peak power HP of the high frequency band of each of the audio output blocks 31-1 and 31-2 as the numerator and the peak power LP of the low frequency band as the denominator.
  • the ratios FRR and FRL are calculated and output to the position calculator 202 . That is, the peak power frequency component ratio calculator 201 calculates the ratio of the peak power HP in the high frequency band to the peak power LP in the low frequency band of each of the audio output blocks 31-1 and 31-2 as the peak power frequency component ratio FRR, It is calculated as FRL and output to the position calculation unit 202 .
  • the position calculation unit 202 calculates the position of the electronic device 32 ( x, y) are calculated.
  • the basic function of the position calculation unit 211 is the same as that of the position calculation unit 113, but the position calculation unit 113 functions as a hidden layer with the arrival time difference distance and the peak power ratio as input layers, and the electronic device 32 positions were sought as the output layer.
  • the position calculation unit 211 calculates the peak power frequency component ratios FRR and FRL of the audio output blocks 31-1 and 31-2, and the audio It functions as a hidden layer for the input layer including the mutual distance DS between the output blocks 31-1 and 31-2, and obtains the position of the electronic device 32 as the output layer.
  • the input layer 221 in the position calculation unit 211 receives the arrival time difference distance D, the peak power ratio PR, and the peak power frequency components of the audio output blocks 31-1 and 31-2.
  • the input layer 221 ⁇ is composed of the ratios FRR and FRL, and further the input layer 221 ⁇ is composed of the mutual distance DS between the audio output blocks 31-1 and 31-2.
  • the position calculation unit 211 functions as a hidden layer 222 composed of a neural network composed of the first layer 222a to the n-th layer 222n, and an output layer 223 composed of the position (x.y) of the electronic device 32 is obtained. .
  • the input layer 221, hidden layer 222, and output layer 223 in FIG. 24 have configurations corresponding to the input layer 151, hidden layer 152, and output layer 153 in FIG.
  • steps S101 to S112, S114 to S116, and S118 in the flowchart of FIG. 25 is the same as the processing of steps S31 to S45, and S47 in the flowchart of FIG. 17, so description thereof will be omitted.
  • step S113 when cross-correlation peaks are detected in steps S101 to S112 and the peak power ratio is calculated, the process proceeds to step S113.
  • step S113 the peak power frequency component ratio calculation unit 201 calculates the low frequency band (eg, 18 to 21 kHz) and the high frequency band (eg, , 21-24 kHz) and the cross-correlation-based peaks are determined.
  • the low frequency band eg, 18 to 21 kHz
  • the high frequency band eg, 21-24 kHz
  • peak power frequency component ratio calculation section 201 obtains the peak power LP of the low frequency band and the peak power HP of the high frequency band, and calculates the ratio of the peak power LP of the low frequency band to the peak power HP of the high frequency band. They are calculated as frequency component ratios FRR and FRL and output to the position calculation unit 202 .
  • steps S114 to S116 arrival times are calculated, arrival time difference distances are calculated, and data that do not satisfy predetermined conditions are masked.
  • step S117 the position calculation unit 202 calculates the following from the arrival time difference distance D described with reference to FIG. and the input layer 221 ⁇ having the mutual distance DS are sequentially processed by the second layer 222b to the n-th layer 222n of the hidden layer 222 to obtain the electronic device 32 as the output layer 223 (two-dimensional position (x, y)) is calculated and output to the control unit 42 .
  • step S118 the control unit 42 executes processing based on the obtained position of the electronic device 32, and ends the processing.
  • the TV 30 can output audio To obtain the position of an electronic device 32 with respect to audio output blocks 31-1 and 31-2 with high precision in the x and y directions even if the position is deviated from the central position between the blocks 31-1 and 31-2. becomes possible.
  • the input layer 221 is formed from the arrival time difference distance D, the peak power ratio PR, and the peak power frequency component ratios FRR and FRL of the audio output blocks 31-1 and 31-2, respectively, and is formed by machine learning.
  • An example has been described in which the position (x, y) of the electronic device 32 (voice input block 41) as the output layer 223 is obtained by processing by the hidden layer 222 consisting of a neural network.
  • the input layer is composed of the two audio output blocks 31 and the electronic device 32 (audio input block 41) with the arrival time difference distance D and the peak power ratio PR, the sound emission direction of the audio output block 31
  • the x-direction position of the electronic device 32 relative to the audio output blocks 31-1 and 31-2 which is the vertical direction, can be determined with relatively high accuracy, but the y-direction position accuracy is slightly inferior.
  • an IMU is provided in the electronic device 32 to detect the posture when the electronic device 32 is tilted to each of the audio output blocks 31-1 and 31-2, and the audio output block 31-1 with the electronic device 32 as a reference is detected. , 31-2, the position in the y direction may be obtained with high accuracy.
  • an IMU is mounted on the electronic device 32, and as shown in FIG. is detected, and the angle ⁇ formed by the direction to each of the audio output blocks 31-1 and 31-2 is obtained from the detected attitude change.
  • the known positions of the audio output blocks 31-1 and 31-2 are represented by (a1, b1) and (a2, b2), and the position of the electronic device 32 is represented by (x, y). do.
  • x is a known value obtained by configuring the input layer with the arrival time difference distance D and the peak power ratio PR.
  • a vector A1 to the audio output block 31-1 with respect to the position of the electronic device 32 is represented by (a1-x, b1-y), and similarly, a vector A2 to the audio output block 31-2 is It is represented by (x ⁇ a2, y ⁇ b2).
  • the vectors A1 and A2 have known values except for y, so the value of y may be obtained by solving y from this inner product relational expression.
  • the electronic device 32 of FIG. 27 is different from the electronic device 32 of FIG. is the point where
  • the IMU 230 detects angular velocity and acceleration and outputs them to the attitude calculation section 231 .
  • the attitude calculation unit 231 calculates the attitude of the electronic device 32 based on the angular velocity and acceleration supplied from the IMU 230 and outputs it to the position calculation unit 232 .
  • Roll and Pitch can always be obtained from the direction of gravity, only Yaw on the xy plane will be considered among Roll, Pitch, and Yaw that can be obtained as the orientation.
  • the position calculation unit 232 basically has the same function as the position calculation unit 95, obtains the position of the electronic device 32 in the x direction, and acquires the orientation information supplied from the orientation calculation unit 231 described above. 26, the angle ⁇ formed by the audio output blocks 31-1 and 31-2 with reference to the electronic device 32 described with reference to FIG. .
  • control unit 42 controls the output unit 43 consisting of a speaker and a display, and directs a predetermined portion of the electronic device 32 to each of the audio output blocks 31-1 and 31-2 as necessary. , and the position calculator 232 obtains the angle ⁇ based on the posture (direction) at that time.
  • the position calculation unit 232 in FIG. 28 differs from the position calculation unit 95 in FIG. 4 in that a position calculation unit 241 is provided in place of the position calculation unit 113 .
  • the basic function of the position calculation unit 241 is the same as that of the position calculation unit 113, but the position calculation unit 113 functions as a hidden layer whose input layer is the arrival time difference distance and the peak power ratio. 32 positions were sought as the output layer.
  • the position calculation unit 241 adopts only the position in the x direction as the position of the electronic device 32, which is the output layer obtained by using the arrival time difference distance and the peak power ratio as input layers. Further, the position calculation unit 241 acquires the orientation information supplied from the orientation calculation unit 231, obtains the angle ⁇ described with reference to FIG. Determine the position of the device 32 in the y direction.
  • step S151 in the flowchart of FIG. 25 is the processing of steps S31 to S46 of the flowchart of FIG. It is adopted, and its explanation is omitted.
  • the audio output blocks 31-1 and 31-2 are also referred to as left audio output block 31-1 and right audio output block 31-2, respectively.
  • step S152 the control unit 42 controls the output unit 43 made up of a touch panel to, for example, move the upper end of the electronic device 32 to the left audio output block 31- Display an image requesting a tap operation while facing 1.
  • step S153 the control unit 42 controls the output unit 43 to determine whether or not a tap operation has been performed, and repeats similar processing until it is determined that a tap operation has been performed.
  • step S153 for example, when the user performs a tap operation with the upper end of the electronic device 32 facing the left audio output block 31-1, it is assumed that the tap operation has been performed, and the process proceeds to step S154. .
  • step S ⁇ b>154 when the posture calculation unit 231 acquires information on acceleration and angular velocity supplied from the IMU 230 , it converts it into posture information and outputs it to the position calculation unit 232 . In response to this, the position calculation unit 232 stores the posture (direction) of the state facing the direction of the left audio output block 31-1.
  • step S155 the control unit 42 controls the output unit 43 made up of a touch panel to, for example, display an image requesting a tap operation with the upper end of the electronic device 32 facing the right audio output block 31-2. indicate.
  • step S156 the control unit 42 controls the output unit 43 to determine whether or not a tap operation has been performed, and repeats similar processing until it is determined that a tap operation has been performed.
  • step S156 for example, when the user performs a tap operation with the upper end of the electronic device 32 facing the right audio output block 31-2, it is assumed that the tap operation has been performed, and the process proceeds to step S157. .
  • step S ⁇ b>157 when the posture calculation unit 231 acquires information on acceleration and angular velocity supplied from the IMU 230 , it converts it into posture information and outputs it to the position calculation unit 232 . In response to this, the position calculation unit 232 stores the posture (direction) of the state facing the direction of the right audio output block 31-2.
  • step S158 the position calculation unit 241 of the position calculation unit 232 moves the electronic device 32 from the information on the posture (direction) of the state in which the audio output blocks 31-1 and 31-2 are directed in the respective directions.
  • An angle ⁇ between the reference left and right audio output blocks 31-1 and 31-2 is calculated.
  • step S159 the position calculation unit 241 calculates the known positions of the audio output blocks 31-1 and 31-2, the x-direction position of the electronic device 32, and the left and right audio output blocks 31-1 with respect to the electronic device 32. , 31-2, the position of the electronic device 32 in the y direction is calculated from the inner product relational expression.
  • step S160 the position calculation unit 241 determines whether the calculated value of the y-direction position of the electronic device 32 is an extremely large value or an extremely small value, such as a value larger or smaller than a predetermined value. , determines whether the position in the y direction has been properly determined.
  • step S160 If it is determined in step S160 that the y-direction position has not been properly obtained, the process returns to step S152.
  • steps S152 to S160 are repeated until the position of the electronic device 32 in the y direction is appropriately obtained.
  • step S160 if it is determined that the position in the y direction has been properly obtained, the process proceeds to step S161.
  • step S161 the control unit 42 controls the output unit 43, which is a touch panel, to display an image requesting a tap operation with the upper end of the electronic device 32 facing the TV 30, for example.
  • step S162 the control unit 42 controls the output unit 43 to determine whether or not a tap operation has been performed, and repeats similar processing until it is determined that a tap operation has been performed.
  • step S162 for example, when the user performs a tap operation with the upper end of the electronic device 32 facing the TV 30, it is assumed that the tap operation has been performed, and the process proceeds to step S163.
  • step S ⁇ b>163 when the orientation calculation unit 231 acquires information on acceleration and angular velocity supplied from the IMU 230 , it converts it into orientation information and outputs it to the position calculation unit 232 . In response to this, the position calculation unit 232 stores the attitude (orientation) of the state facing the direction of the TV 30 .
  • step S164 the control unit 42 performs processing based on the obtained position of the electronic device 32, the orientation (orientation) of the TV 30 from the electronic device 32, and the known positions of the audio output blocks 31-1 and 31-2. and terminate the process.
  • control unit 42 controls the sound so as to realize an appropriate sound field based on the obtained position of the electronic device 32, the direction of the TV 30, and the known positions of the audio output blocks 31-1 and 31-2.
  • Commands for controlling the level and timing of the audio output from the audio output units 74 of the output blocks 31-1 and 31-2 are sent to the audio output blocks 31-1 and 31-2 by controlling the communication unit 44. Send.
  • the electronic device 32 is provided with an IMU, the posture when the electronic device 32 is tilted to each of the audio output blocks 31-1 and 31-2 is detected, and the audio output block based on the electronic device 32 is detected.
  • finding the angle ⁇ between 31-1 and 31-2 it is possible to find the position in the y direction with high accuracy from the inner product relational expression.
  • it is possible to measure the position of the electronic device 32 with high accuracy by using the audio output blocks 31-1 and 31-2 including two speakers or the like and the electronic device 32 (audio input block 41).
  • the electronic device 32 is provided with an IMU, and the two audio output blocks 31 and the electronic device 32 are used to determine the sound emission direction of the audio output block 31 with the arrival time difference distance D and the peak power ratio PR in the input layer.
  • the position of the electronic device 32 in the x direction with respect to the audio output blocks 31-1 and 31-2, which is perpendicular to the Example in which the position in the y direction is obtained from the relational expression of the inner product by detecting the attitude when the electronic device 32 is pressed, and obtaining the angle ⁇ formed between the audio output blocks 31-1 and 31-2 with respect to the electronic device 32. has been explained.
  • the positional relationship and direction between the electronic device 32 and the audio output blocks 31-1 and 31-2 are known, other configurations may be used. Alternatively, two microphones may be used to recognize the positional relationship and direction between the electronic device 32 and the audio output blocks 31-1 and 31-2.
  • the audio input section 51-1 may be provided at the upper end of the electronic device 32, and the audio input section 51-2 may be provided at the lower end.
  • the voice input units 51-1 and 51-2 are present at the center position of the electronic device 32 and the distance between them is L, as indicated by the dashed line.
  • the TV 30 exists on the straight line connecting the audio input units 51-1 and 51-2 on the center line of the electronic device 32 indicated by the dashed line in the drawing, and the audio Assume that the angle formed by the output blocks 31-1 and 31-2 with respect to the direction of sound emission is ⁇ .
  • the position of the voice input section 51-1 is represented by (x, y)
  • the position of the voice input section 51-2 is represented by (x+L sin ⁇ , y+L cos ⁇ ).
  • the mutual distance L between the audio input units 51-1 and 51-2 is known, and the position (x, y) and the angle ⁇ of (the audio input unit 51-1 of) the electronic device 32 are three parameters is unknown, the arrival time distance between the audio output block 31-1 and the audio input unit 51-1, the arrival time distance between the audio output block 31-1 and the audio input unit 51-2, the audio output block 31-2 and the audio input unit 51-1, the arrival time distance between the audio output block 31-2 and the audio input unit 51-2, the audio input unit 51-1 and the audio output block 31- 1 and 31-2, it is possible to obtain the position (x, y) and the angle .theta.
  • the position of the electronic device 32 in the x direction is As described above, the input layer is composed of the arrival time difference distance D and the peak power ratio PR, and processing is performed by a hidden layer consisting of a neural network formed by machine learning, so that the output layer is the x-direction position It is possible to ask for
  • the x-direction position of the audio input unit 51-1 of the electronic device 32 is known, the unknown distance L, the y-direction position of (the audio input unit 51-1 of) the electronic device 32, and the angle ⁇ are the arrival time distance between the audio output block 31-1 and the audio input unit 51-1, the arrival time distance between the audio output block 31-1 and the audio input unit 51-2, the audio output block 31-2 and the audio Arrival time distance to input unit 51-1, arrival time distance between audio output block 31-2 and audio input unit 51-2, x-direction position of audio input unit 51-1, and audio output block 31 It can be obtained by a system of equations consisting of the coordinates of the known positions of -1,31-2.
  • FIG. 31 shows a configuration example of a general-purpose computer.
  • This computer incorporates a CPU (Central Processing Unit) 1001 .
  • An input/output interface 1005 is connected to the CPU 1001 via a bus 1004 .
  • a ROM (Read Only Memory) 1002 and a RAM (Random Access Memory) 1003 are connected to the bus 1004 .
  • the input/output interface 1005 includes an input unit 1006 including input devices such as a keyboard and a mouse for the user to input operation commands, an output unit 1007 for outputting a processing operation screen and images of processing results to a display device, and programs and various data.
  • LAN Local Area Network
  • magnetic discs including flexible discs
  • optical discs including CD-ROM (Compact Disc-Read Only Memory), DVD (Digital Versatile Disc)), magneto-optical discs (including MD (Mini Disc)), or semiconductors
  • a drive 1010 that reads and writes data from a removable storage medium 1011 such as a memory is connected.
  • the CPU 1001 reads a program stored in the ROM 1002 or a removable storage medium 1011 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory, installs the program in the storage unit 1008, and loads the RAM 1003 from the storage unit 1008. Various processes are executed according to the program.
  • the RAM 1003 also appropriately stores data necessary for the CPU 1001 to execute various processes.
  • the CPU 1001 loads, for example, a program stored in the storage unit 1008 into the RAM 1003 via the input/output interface 1005 and the bus 1004, and executes the above-described series of programs. is processed.
  • a program executed by the computer (CPU 1001) can be provided by being recorded on a removable storage medium 1011 such as a package medium, for example. Also, the program can be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
  • the program can be installed in the storage section 1008 via the input/output interface 1005 by loading the removable storage medium 1011 into the drive 1010 . Also, the program can be received by the communication unit 1009 and installed in the storage unit 1008 via a wired or wireless transmission medium. In addition, programs can be installed in the ROM 1002 and the storage unit 1008 in advance.
  • the program executed by the computer may be a program that is processed in chronological order according to the order described in this specification, or may be executed in parallel or at a necessary timing such as when a call is made. It may be a program in which processing is performed.
  • CPU 1001 in FIG. 31 implements the functions of the audio output block 31 and the audio input block 41 in FIG.
  • a system means a set of multiple components (devices, modules (parts), etc.), and it does not matter whether all the components are in the same housing. Therefore, a plurality of devices housed in separate housings and connected via a network, and a single device housing a plurality of modules in one housing, are both systems. .
  • the present disclosure can take the configuration of cloud computing in which a single function is shared by multiple devices via a network and processed jointly.
  • each step described in the flowchart above can be executed by a single device, or can be shared by a plurality of devices.
  • one step includes multiple processes
  • the multiple processes included in the one step can be executed by one device or shared by multiple devices.
  • an audio receiver for receiving an audio signal output from two audio output blocks present at known positions and composed of a spread code signal whose spread code is spectrum-spread-modulated; Based on the arrival time difference distance, which is the difference in the distance specified from the arrival time, which is the time until the audio signal of the second audio output block arrives at the audio reception unit and is received, the audio reception unit and a position calculator that calculates the position of the information processing apparatus.
  • ⁇ 2> an arrival time calculation unit for calculating an arrival time until each of the audio signals in the audio output block of 2 arrives at the audio reception unit; Based on the arrival time of each of the audio signals of the two audio output blocks and the known position of the two audio output blocks, the distance difference between the two audio output blocks and itself is determined as the an arrival time difference distance calculator for calculating the arrival time difference distance, wherein the position calculator performs processing using a hidden layer made up of a neural network formed by machine learning with respect to an input layer made up of the arrival time difference distance.
  • the information processing apparatus wherein the position of the audio receiving unit is calculated as the output layer by applying ⁇ 3>
  • the arrival time calculation unit a cross-correlation calculator for calculating the cross-correlation between the spread code signal of the audio signal received by the audio receiver and the spread code signal of the audio signal output from the second audio output block; a peak detection unit that detects the peak time in the cross-correlation as the arrival time, The arrival time difference distance calculation unit,
  • the information processing apparatus according to ⁇ 2> wherein a difference in distance between the two audio output blocks and the self based on the arrival time detected by the peak detection unit is calculated as the arrival time difference distance.
  • the position calculation unit calculates, from the arrival time difference distance and the peak power ratio, which is the power ratio of the peak timing of the cross-correlation of the audio signals output from each of the two audio output blocks.
  • the information processing device according to ⁇ 3>, wherein the position of the audio receiving unit is calculated as an output layer by performing processing using a hidden layer formed of a neural network formed by the machine learning on the input layer. .
  • a peak power detection unit for detecting, as a peak power, the power when the audio signal output from each of the two audio output blocks at the peak is received by the audio receiving unit; ⁇ 4>, further comprising a peak power ratio calculator that calculates, as a peak power ratio, the ratio of the peak powers of the audio signals output from the two audio output blocks detected by the peak power detector.
  • information processing equipment ⁇ 6>
  • the position calculation unit calculates the hidden layer for an input layer composed of the arrival time difference distance calculated by the arrival time difference distance calculation unit and the peak power ratio calculated by the peak power ratio calculation unit.
  • the information processing apparatus according to ⁇ 5>, wherein the position of the audio receiving unit is calculated as the output layer by performing a process using .
  • the position calculator calculates the arrival time difference distance, the peak power ratio of the audio signal output from each of the two audio output blocks, and the ratio of the audio signal output from each of the two audio output blocks.
  • ⁇ 8> Detecting the peak power of the low frequency component and the peak power of the high frequency component of the audio signal output from each of the two audio output blocks at the peak, and detecting the peak power of the low frequency component,
  • the information processing apparatus further including a peak power frequency component ratio calculator that calculates a ratio of peak power of the high frequency component as the peak power frequency component ratio.
  • the position calculation unit Based on the arrival time difference distances of the audio signals of the two audio output blocks received by the audio receiving unit, by the machine learning, in the sound emitting direction of the audio signal in the audio output block of the audio receiving unit Calculate the vertical position with respect to calculating the position of the sound output direction of the audio signal in the audio output block of the audio receiving unit based on the angles formed by the respective directions of the two audio output blocks with respect to the audio receiving unit ⁇ 2>
  • the information processing device according to .
  • an IMU Inertial Measurement Unit
  • a posture detection unit that detects the posture of the device based on the angular velocity and the acceleration
  • the position calculation unit calculating angles formed by directions of the two audio output blocks with respect to the audio receiving unit, based on the orientation of the apparatus itself detected by the orientation detecting unit; calculating the position of the sound output direction of the audio signal of the audio output block of the audio receiving unit based on the calculated angles formed by the respective directions of the two audio output blocks with respect to the audio receiving unit.
  • the position calculator detects the two voices with the voice receiver as a reference, based on the posture detected by the posture detector when facing each of the two voice output blocks.
  • the information processing device according to ⁇ 10>, wherein an angle formed by each direction of the output block is calculated.
  • the position calculation unit calculates the position of the audio output block of the audio reception unit from an inner product relational expression based on the angles formed by the respective directions of the two audio output blocks with respect to the audio reception unit.
  • the information processing device according to ⁇ 11>, wherein a position in a sound emitting direction of the audio signal is calculated.
  • ⁇ 13> further including another audio receiving unit different from the audio receiving unit, The position calculation unit Based on the arrival time difference distances of the audio signals of the two audio output blocks received by the audio receiving unit, machine learning is performed to determine the sound output direction of the audio signal of the audio output block of the audio receiving unit.
  • the vertical position By constructing and solving simultaneous equations based on the arrival time difference distances of the audio signals of the two audio output blocks respectively received by the audio receiving unit and the other audio receiving unit, the audio receiving unit position of the sound emitting direction of the audio signal of the audio output block of the unit, an angle formed by a direction connecting the audio receiving unit and the other audio receiving unit with respect to the sound emitting direction of the audio signal of the audio output block, and the information processing apparatus according to ⁇ 2>, wherein the distance between the audio receiving unit and the other audio receiving unit is calculated.
  • ⁇ 14> further including another audio receiving unit different from the audio receiving unit,
  • the position calculation unit when the distance between the audio reception unit and the other audio reception unit is known, the two audio outputs respectively received by the audio reception unit and the other audio reception unit. Constructing and solving a system of equations based on the time difference of arrival distances of the audio signals of blocks, the known position information of the audio output blocks, and the known distances between the audio receiver and the other audio receivers. to calculate an angle formed by a direction connecting the audio receiving unit and the other audio receiving unit with respect to the two-dimensional position of the audio receiving unit and the sound emitting direction of the audio signal of the audio output block ⁇ 2>
  • the information processing device according to .
  • ⁇ 15> The information processing device according to any one of ⁇ 1> to ⁇ 14>, wherein the information processing device is a smartphone or an HMD (Head Mounted Display).
  • ⁇ 16> An information processing method for an information processing device having an audio receiving section for receiving an audio signal output from two audio output blocks existing at known positions and composed of a spread code signal whose spread code is spread spectrum modulated. and Based on the arrival time difference distance, which is the difference in the distance specified from the arrival time, which is the time until the audio signal of the second audio output block arrives at the audio reception unit and is received, the audio reception unit A method of information processing comprising the step of calculating the position of the .
  • an audio receiver for receiving an audio signal output from two audio output blocks present at known positions and composed of a spread code signal whose spread code is spread spectrum modulated; Based on the arrival time difference distance, which is the difference in the distance specified from the arrival time, which is the time until the audio signal of the second audio output block arrives at the audio reception unit and is received, the audio reception unit
  • a program that causes a computer to function as a position calculator that calculates the position of

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本開示は、2個のスピーカと1個のマイクとからなるシステムで、マイクの位置を測定できるようにする情報処理装置、および情報処理方法、並びにプログラムに関する。 音声受信ブロックが、既知の位置に存在する2の音声出力ブロックより出力される、拡散符号がスペクトル拡散変調された拡散符号信号からなる音声信号を受信し、相互相関のピークが検出される到来時間に基づいた2の音声出力ブロックまでの距離の差である到来時間差距離に基づいて、音声受信部の位置を算出する。ゲームコントローラやHMDに適用することができる。

Description

情報処理装置、および情報処理方法、並びにプログラム
 本開示は、情報処理装置、および情報処理方法、並びにプログラムに関し、特に、ステレオスピーカとマイクとによりマイクの位置を測位できるようにした情報処理装置、および情報処理方法、並びにプログラムに関する。
 送信装置が、データ符号を符号系列で変調して、変調信号を生成し、変調信号を音声として放音すると共に、受信装置が、放音された音声を受信して、受信した音声信号である変調信号と符号系列との相関を取り、相関のピークに基づいて、送信装置との距離を測定する技術が提案されている(特許文献1参照)。
特開2014-220741号公報
 しかしながら、特許文献1に記載の技術を用いる場合、受信装置が送信装置との距離を測定することはできるが、受信装置の2次元位置を求めるためには、受信装置と送信装置との時刻同期がとれていない場合、少なくとも3個の送信装置を用いる必要がある。
 すなわち、2個のスピーカからなるステレオスピーカ(送信装置)とマイク(マイクロフォン(受信装置))とからなる一般的なオーディオシステムでは、マイクロフォンの2次元位置を求めることはできない。
 本開示は、このような状況に鑑みてなされたものであり、特に、ステレオスピーカとマイクとからなるオーディオシステムにおいて、マイクの2次元位置を測定できるようにするものである。
 本開示の一側面の情報処理装置、およびプログラムは、既知の位置に存在する2の音声出力ブロックより出力される、拡散符号がスペクトル拡散変調された拡散符号信号からなる音声信号を受信する音声受信部と、前記2の音声出力ブロックの前記音声信号が、前記音声受信部に到来して受信されるまでの時間である到来時間から特定される距離の差である到来時間差距離に基づいて、前記音声受信部の位置を算出する位置算出部とを備える情報処理装置、およびプログラムである。
 本開示の一側面の情報処理方法は、既知の位置に存在する2の音声出力ブロックより出力される、拡散符号がスペクトル拡散変調された拡散符号信号からなる音声信号を受信する音声受信部を備えた情報処理装置の情報処理方法であって、前記2の音声出力ブロックの前記音声信号が、前記音声受信部に到来して受信されるまでの時間である到来時間から特定される距離の差である到来時間差距離に基づいて、前記音声受信部の位置を算出するステップを含む情報処理方法である。
 本開示の一側面においては、音声受信部により、既知の位置に存在する2の音声出力ブロックより出力される、拡散符号がスペクトル拡散変調された拡散符号信号からなる音声信号が受信され、前記2の音声出力ブロックの前記音声信号が、前記音声受信部に到来して受信されるまでの時間である到来時間から特定される距離の差である到来時間差距離に基づいて、前記音声受信部の位置が算出される。
本開示のホームオーディオシステムの構成例を説明する図である。 図1の音声出力ブロックの構成例を説明する図である。 図1の電子機器の構成例を説明する図である。 図3の位置算出部の構成例を説明する図である。 拡散符号を用いた通信を説明する図である。 拡散符号の自己相関と相互相関を説明する図である。 相互相関を用いた拡散符号の到来時間を説明する図である。 到来時間算出部の構成例を説明する図である。 人間の聴覚を説明する図である。 拡散符号の周波数シフトを説明する図である。 拡散符号の周波数シフトの手順を説明する図である。 マルチパスを考慮する場合の例を説明する図である。 到来時間差距離を説明する図である。 ピークパワー比を説明する図である。 位置計算部の第1の実施の形態の構成例を説明する図である。 音声出力ブロックによる音声放音処理を説明するフローチャートである。 図3の電子機器による音声収音処理を説明するフローチャートである。 位置計算部の第1の実施の形態の応用例を説明する図である。 TVを音声出力ブロック間の中心位置にするときの聴視可能範囲を説明する図である。 TVを音声出力ブロック間の中心位置にしないときの聴視可能範囲を説明する図である。 ピークパワー周波数成分割合を説明する図である。 第2の実施の形態における電子機器の構成例を説明する図である。 図22の位置算出部の構成例を説明する図である。 位置計算部の第2の実施の形態の構成例を説明する図である。 図22の電子機器による音声収音処理を説明するフローチャートである。 電子機器にIMUを設けるようにしたホームオーディオシステムの構成例である。 第3の実施の形態における電子機器の構成例を説明する図である。 図27の位置算出部の構成例を説明する図である。 図27の電子機器による音声収音処理を説明するフローチャートである。 第3の実施の形態の応用例を説明する図である。 汎用のコンピュータの構成例を示している。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
 1.第1の実施の形態
 2.第1の実施の形態の応用例
 3.第2の実施の形態
 4.第3の実施の形態
 5.第3の実施の形態の応用例
 6.ソフトウェアにより実行させる例
 <<1.第1の実施の形態>>
 <ホームオーディオシステム構成>
 本開示は、特に、2個のスピーカで構成されるステレオスピーカとマイクロフォンからなるオーディオシステムで、マイクロフォンの位置を測定できるようにするものである。
 図1は、本開示を適用したホームオーディオシステムの構成例を示している。
 図1のホームオーディオシステム11は、TV(テレビジョン受像機)等の表示装置30、音声出力ブロック31-1,31-2、および電子機器32からなる。尚、以降において、音声出力ブロック31-1,31-2を特に区別する必要がない場合、単に、音声出力ブロック31と称し、その他の構成についても同様に称する。また、表示装置30については、単に、TV30とも称する。
 音声出力ブロック31-1,31-2は、それぞれスピーカを備えており、音楽コンテンツやゲーム等の音声に、電子機器32の位置を特定するためのデータ符号を拡散符号でスペクトル拡散変調した変調信号からなる音声を含ませて放音する。
 電子機器32は、ユーザが携帯する、または、装着するものであり、例えば、ゲームコントローラとして使用するスマートフォンやHMD(Head Mounted Display)などである。
 電子機器32は、音声出力ブロック31-1,31-2のそれぞれより放音される音声を受信するマイク(マイクロフォン)などの音声入力部51と、音声出力ブロック31-1,31-2に対する自らの位置を検出する位置検出部52とを有する音声入力ブロック41を備えている。
 音声入力ブロック41は、表示装置30、および音声出力ブロック31-1,31-2のそれぞれの空間内の位置を既知の位置情報として予め認識しており、音声入力部51により、音声出力ブロック31より放音される音声を収音し、位置検出部52により、収音された音声に含まれる変調信号に基づいて、音声出力ブロック31-1,31-2までの距離をそれぞれ求め、自らの音声出力ブロック31-1,31-2に対する2次元位置(x,y)を検出する。
 これにより、電子機器32の音声出力ブロック31-1,31-2に対する位置が特定されるので、音声出力ブロック31-1,31-2より出力される音声を特定された位置に応じた音場定位を補正して出力することができるので、ユーザは、自らの動きに応じた臨場感のある音声を聴視することが可能となる。
 <音声出力ブロックの構成例>
 次に、図2を参照して、音声出力ブロック31の構成例について説明する。
 音声出力ブロック31は、拡散符号生成部71、既知楽曲音源生成部72、音声生成部73、音声出力部74、および通信部75を備えている。
 拡散符号生成部71は、拡散符号を生成して、音声生成部73に出力する。
 既知楽曲音源生成部72は、既知の楽曲を記憶しており、記憶している既知の楽曲に基づいて、既知楽曲音源を生成して音声生成部73に出力する。
 音声生成部73は、既知楽曲音源に、拡散符号によるスペクトラム拡散変調を加えて、スペクトラム拡散信号からなる音声を生成して、音声出力部74に出力する。
 より詳細には、音声生成部73は、拡散部81、周波数シフト処理部82、および音場制御部83を備えている。
 拡散部81は、既知楽曲音源に、拡散符号によるスペクトラム拡散変調を加えて、スペクトラム拡散信号を生成する。
 周波数シフト処理部82は、スペクトラム拡散信号における拡散符号の周波数を、人間の耳で聴視し難い周波数帯にシフトさせる。
 音場制御部83は、電子機器32より供給される電子機器32の位置の情報に基づいて、自らとの位置関係に応じた音場を再現する。
 音声出力部74は、例えば、スピーカであり、音声生成部73より供給される既知楽曲音源と、スペクトラム拡散信号に基づいた音声とを出力する。
 通信部75は、ブルートゥース(登録商標)等に代表される無線通信により、電子機器32と通信し、各種のデータやコマンドを授受する。
 <電子機器の構成例>
 次に、図3を参照して、電子機器32の構成例について説明する。
 電子機器32は、音声入力ブロック41、制御部42、出力部43、および通信部44を備えている。
 音声入力ブロック41は、音声出力ブロック31-1,31-2より放音される音声入力を受け付けて、受け付けた音声とスペクトラム拡散信号と拡散符号との相関に基づいて、それぞれの到来時間と、ピークパワーとを求め、求められた到来時間に基づいた到来時間差距離と、音声出力ブロック31-1,31-2のそれぞれのピークパワーの比となるピークパワー比とに基づいて、自らの2次元位置(x,y)を求めて制御部42に出力する。
 制御部42は、音声入力ブロック41より供給される電子機器32の位置に基づいて、例えば、通信部44を制御して、音声出力ブロック31-1,31-2より通知される情報を取得すると、ディスプレイやスピーカなどからなる出力部43によりユーザに提示する。また、制御部42は、通信部44を制御して、音声出力ブロック31-1,31-2に対して、電子機器32の2次元位置に基づいた音場を設定するコマンドを送信する。
 通信部44は、ブルートゥース(登録商標)等に代表される無線通信により、音声出力ブロック31と通信し、各種のデータやコマンドを授受する。
 より詳細には、音声入力ブロック41は、音声入力部51、および位置検出部52を備えている。
 音声入力部51は、例えば、マイク(マイクロフォン)であり、音声出力ブロック31-1,31-2より放音される音声を収音し、位置検出部52に出力する。
 位置検出部52は、音声入力部51より収音された、音声出力ブロック31-1,31-2より放音された音声に基づいて、電子機器32の位置を求める。
 位置検出部52は、既知楽曲音源除去部91、空間伝達特性算出部92、到来時間算出部93、ピークパワー検出部94、および位置算出部95を備えている。
 空間伝達特性算出部92は、音声入力部51より供給される音声の情報と、音声入力部51を構成するマイクロフォンの特性や、音声出力ブロック31の音声出力部74を構成するスピーカの特性に基づいて、空間伝達特性を算出し、既知楽曲音源除去部91に出力する。
 既知楽曲音源除去部91は、予め音声出力ブロック31における既知楽曲音源生成部72において予め記憶されている楽曲音源を、既知楽曲音源として記憶している。
 そして、既知楽曲音源除去部91は、空間伝達特性算出部92より供給される空間伝達特性を加味した上で、音声入力部51より供給される音声から既知楽曲音源の成分を除去して、到来時間算出部93、およびピークパワー検出部94に出力する。
 すなわち、既知楽曲音源除去部91は、音声入力部51により収音された音声より、既知楽曲音源の成分を除去して、スペクトラム拡散信号成分のみを到来時間算出部93、およびピークパワー検出部94に出力する。
 到来時間算出部93は、音声入力部51において収音された音声に含まれる、スペクトラム拡散信号成分に基づいて、音声出力ブロック31-1,31-2のそれぞれより放音されてから、収音されるまでの到来時間を算出し、ピークパワー検出部94、および位置算出部95に出力する。
 尚、到来時間の算出方法については、詳細を後述する。
 ピークパワー検出部94は、到来時間算出部93により検出されるピーク時のスペクトラム拡散信号成分のパワーを検出し、位置算出部95に出力する。
 位置算出部95は、到来時間算出部93より供給される、音声出力ブロック31-1,31-2のそれぞれの到来時間、ピークパワー検出部94より供給されるピークパワーに基づいて、到来時間差距離とピークパワー比とを求め、求めた到来時間差距離とピークパワー比とに基づいて電子機器32の位置(2次元位置)を求めて制御部42に出力する。
 尚、位置算出部95の詳細な構成については、図4を参照して、詳細を後述する。
 <位置算出部の構成例>
 次に、図4を参照して、位置算出部95の構成例について説明する。
 位置算出部95は、到来時間差距離算出部111、ピークパワー比算出部112、および位置計算部113を備えている。
 到来時間差距離算出部111は、音声出力ブロック31-1,31-2のそれぞれの到来時間に基づいて求められる音声出力ブロック31-1,31-2のそれぞれまでの距離の差分を到来時間差距離として算出して、位置計算部113に出力する。
 ピークパワー比算出部112は、音声出力ブロック31-1,31-2より放音される音声のそれぞれのピークパワーの比をピークパワー比として求めて位置計算部113に出力する。
 位置計算部113は、到来時間差距離算出部111より供給される音声出力ブロック31-1,31-2の到来時間差距離と、ピークパワー比算出部112より供給される音声出力ブロック31-1,31-2のピークパワー比とに基づいて、ニューラルネットワークを用いた機械学習により音声出力ブロック31-1,31-2に対する電子機器32の位置を計算し、制御部42に出力する。
 <拡散符号を用いた通信の原理>
 次に、図5を参照して、拡散符号を用いた通信の原理について説明する。
 図中左部の送信側においては、拡散部81が、送信対象となるパルス幅Tdの入力信号Diに対して、拡散符号Exを乗算することにより、スペクトラム拡散変調を施すことで、パルス幅Tcの送信信号Deを生成して、図中右部の受信側に送信する。
 このとき、入力信号Diの周波数帯域Difが、例えば、周波数帯域-1/Td乃至1/Tdで示されるような場合、拡散符号Exが乗算されることにより、送信信号Deの周波数帯域Exfは、広帯域化されることにより、周波数帯域-1/Tc乃至1/Tc(1/Tc>1/Td)とされることにより、エネルギーが周波数軸上に拡散される。
 尚、図5においては、送信信号Deは、妨害波IFにより干渉される例が示されている。
 受信側においては、送信信号Deに対して妨害波IFによる干渉を受けた信号が受信信号De’として受信される。
 到来時間算出部93は、受信信号De’に対して、同一の拡散符号Exにより逆拡散を掛けることにより、受信信号Doを復元する。
 このとき、受信信号De’の周波数帯域Exf’には、妨害波の成分IFExが含まれているが、逆拡散された受信信号Doの周波数帯域Dofにおいては、妨害波の成分IFExが拡散された周波数帯域IFDとして復元されることによりエネルギーが拡散されるので、受信信号Doにおける妨害波IFによる影響を低減させることが可能となる。
 すなわち、上述したように、拡散符号を用いた通信においては、送信信号Deの伝送経路上において生じる妨害波IFの影響を低減させることが可能となり、ノイズ耐性を向上させることが可能となる。
 また、拡散符号は、例えば、図6の上段の波形図で示されるように、自己相関がインパルス状であり、かつ、図6の下段の波形で示されるように、相互相関が0である。尚、図6は、拡散符号としてGold系列を用いた場合の相関値の変化を示しており、横軸が符号化系列であり、縦軸が相関値である。
 すなわち、音声出力ブロック31-1,31-2のそれぞれにランダム性の高い拡散符号を設定することにより、音声入力ブロック41においては、音声に含まれているスペクトラム信号を音声出力ブロック31-1,31-2毎に適切に区別して認識することが可能となる。
 拡散符号は、Gold系列のみならず、M系列やPN(Pseudorandom Noise)などでもよい。
 <到来時間算出部による到来時間の算出方法>
 音声入力ブロック41において、観測される相互相関のピークが観測されるタイミングは、音声出力ブロック31で放音された音声が、音声入力ブロック41において、収音されるタイミングであり、したがって、音声入力ブロック41と音声出力ブロック31との距離に応じて異なる。
 すなわち、例えば、音声入力ブロック41と音声出力ブロック31との距離が第1の距離であるときに、図7の左部で示されるように時刻T1において、ピークが検出されるとき、音声入力ブロック41と音声出力ブロック31との距離が第1の距離が遠い第2の距離であるときには、図7の右部で示されるように時刻T2(>T1)において観測される。
 尚、図7においては、横軸が音声出力ブロック31から音声が出力されてからの経過時間を示しており、縦軸が相互相関の強度を示している。
 すなわち、音声入力ブロック41と音声出力ブロック31との距離は、音声出力ブロック31から音声が放音されてから相互相関においてピークが観測されるまでの時間、すなわち、音声出力ブロック31から放音された音声が、音声入力ブロック41において収音されるまでの到来時間に音速を乗じることで求めることができる。
 <到来時間算出部の構成例>
 次に、図8を参照して、到来時間算出部93の構成例について説明する。
 到来時間算出部93は、逆シフト処理部130、相互相関計算部131、およびピーク検出部132を備えている。
 逆シフト処理部130は、音声入力部51により収音される音声信号における、音声出力ブロック31の周波数シフト処理部82においてアップサンプリングにより周波数シフトされたスペクトル拡散変調された拡散符号信号をダウンサンプリングにより元の周波数帯域に復元し、相互相関計算部131に出力する。
 尚、周波数シフト処理部82による周波数帯域のシフトと、逆シフト処理部130による、周波数帯域の復元については図10を参照して詳細を後述する。
 相互相関計算部131は、拡散符号と、音声入力ブロック41の音声入力部51により収音される音声信号における既知楽曲音源が除去された受信信号との相互相関を計算し、ピーク検出部132に出力する。
 ピーク検出部132は、相互相関計算部131により計算された相互相関におけるピークとなる時間を検出し、到来時間として出力する。
 ここで、相互相関計算部131においてなされる相互相関の計算は、一般的に計算量が非常に大きいことが知られているため、計算量の少ない等価計算により実現される。
 具体的には、相互相関計算部131は、音声出力ブロック31の音声出力部74により音声出力される送信信号と、音声入力ブロック41の音声入力部51により受信される音声信号における既知楽曲音源が除去された受信信号とを、以下の式(1),式(2)で示されるように、それぞれフーリエ変換する。
Figure JPOXMLDOC01-appb-M000001
Figure JPOXMLDOC01-appb-M000002
 ここで、gは、音声入力ブロック41の音声入力部51により受信される音声信号における既知楽曲音源が除去された受信信号であり、Gは、音声入力ブロック41の音声入力部51により受信される音声信号における既知楽曲音源が除去された受信信号gのフーリエ変換の結果である。
 また、hは、音声出力ブロック31の音声出力部74により音声出力される送信信号であり、Hは、音声出力ブロック31の音声出力部74により音声出力される送信信号のフーリエ変換の結果である。
 さらに、Vは、音速であり、vは、電子機器32(の音声入力部51)の速度であり、tは、時間であり、fは、周波数である。
 次に、相互相関計算部131は、以下の式(3)で示されるように、フーリエ変換の結果GとHとを相互に乗算することで、クロススペクトルを求める。
Figure JPOXMLDOC01-appb-M000003
 ここで、Pは、フーリエ変換の結果GとHとが相互に乗算されることにより求められたクロススペクトルである。
 そして、相互相関計算部131は、以下の式(4)で示されるように、クロススペクトルPを逆フーリエ変換することにより、音声出力ブロック31の音声出力部74により音声出力される送信信号hと、音声入力ブロック41の音声入力部51により受信される音声信号における既知楽曲音源が除去された受信信号gとの相互相関を求める。
Figure JPOXMLDOC01-appb-M000004
 ここで、pは、音声出力ブロック31の音声出力部74により音声出力される送信信号hと、音声入力ブロック41の音声入力部51により受信される音声信号における既知楽曲音源が除去された受信信号gとの相互相関である。
 そして、ピーク検出部132は、相互相関pのピークを検出し、検出した相互相関pのピークに基づいて到来時間Tを検出し、位置算出部95に出力する。位置算出部95の到来時間差距離算出部111は、検出した相互相関pのピークに基づいて、以下の式(5)を演算することにより、音声入力ブロック41と音声出力ブロック31との距離を求める。
Figure JPOXMLDOC01-appb-M000005
・・・(5)
 ここで、Dは、音声入力ブロック41(の音声入力部51)と音声出力ブロック31(の音声出力部74)との距離(到来時間距離)であり、Tは、到来時間であり、Vは、音速である。また、音速Vは、例えば、331.5+0.6×Q(m/s)(Qは温度℃)である。
 そして、到来時間差距離算出部111は、上述したように求められる音声入力ブロック41と音声出力ブロック31-1,31-2とのそれぞれの距離の差分を到来時間差距離として算出して位置計算部113に出力する。
 ピークパワー検出部94は、到来時間算出部93のピーク検出部132において検出される、音声入力ブロック41と音声出力ブロック31-1,31-2との相互相関pのピークとなるタイミングにおいて収音された音声のそれぞれパワーをピークパワーとして検出し、位置算出部95のピークパワー比算出部112に出力する。
 ピークパワー比算出部112は、ピークパワー検出部94より供給されるピークパワーの比を求めて位置計算部113に出力する。
 尚、相互相関計算部131は、相互相関pを求めることで、さらに、電子機器32(の音声入力部51)の速度vを求めるようにしてもよい。
 より詳細には、相互相関計算部131は、速度vを所定の範囲(例えば、-1.00m/s乃至1.00m/s)内において、所定のステップ(例えば、0.01m/sステップ)で変化させながら、相互相関pを求め、相互相関pの最大ピークを示す速度vを電子機器32(の音声入力部51)の速度vとして求める。
 音声出力ブロック31-1乃至31-4のそれぞれについて求められた速度vに基づいて、電子機器32(の音声入力ブロック41)の絶対速度を求めることも可能である。
 <周波数シフト>
 拡散符号信号の周波数帯域は、サンプリング周波数の半分であるナイキスト周波数Fsである周波数であり、例えば、ナイキスト周波数Fsが8kHzである場合、ナイキスト周波数Fsよりも低い周波数帯域である0乃至8kHzとされる。
 ところで、人間の聴覚は、図9で示されるように、ラウドネスのレベルに関わらず、3kHz付近の周波数帯域の音声の感度が高く、10kHz付近から低減し、20kHzを超えるとほとんど聞こえないことが知られている。
 図9は、ラウドネスレベル0,20,40,60,80,100ホン(phon)のそれぞれにおける周波数毎の音圧レベルの変化を示しており、横軸が周波数であり、縦軸が音圧レベルである。尚、太い一点鎖線は、マイクにおける音圧レベルを示しており、ラウドネスレベルとは無関係に一定であることが示されている。
 したがって、スペクトル拡散信号の周波数帯域が、0乃至8kHzである場合、拡散符号信号の音声が、既知楽曲音源の音声と併せて放音されると、人間の聴覚ではノイズとして聴視される恐れがある。
 例えば、楽曲を-50dBで再生させることを想定した場合、図10の感度曲線Lより下の範囲については、人間に聴こえない範囲(人間の聴覚で認識し難い範囲)Z1とされ、感度曲線Lより上の範囲については、人間に聴こえる範囲(人間の聴覚で認識し易い範囲)Z2とされる。
 尚、図10は、横軸が周波数帯域を示しており、縦軸が音圧レベルを示している。
 したがって、例えば、再生される既知楽曲音源の音声と、拡散符号信号の音声とが分離可能な範囲が-30dB以内であるとき、範囲Z1内における、範囲Z3で示される16kHz乃至24kHzの範囲において拡散符号信号の音声が出力されると人間に聴こえないようにする(人間の聴覚で認識し難くする)ことができる。
 そこで、周波数シフト処理部82は、図11の左上段で示されるように、拡散符号を含む拡散符号信号Fsを、左中段で示されるように、m倍にアップサンプリングし、拡散符号信号Fs,2Fs,・・・mFsを生成する。
 そして、周波数シフト処理部82は、図11の左下段で示されるように、図10を参照して説明した人間に聞こえない周波数帯域である16乃至24kHzの拡散符号信号uFsに帯域制限を掛けることにより、拡散符号信号を含む拡散符号信号Fsを周波数シフトして音声出力部74より、既知楽曲音源と共に放音させる。
 逆シフト処理部130は、図11の右下段で示されるように、音声入力部51で収音された音声より、既知楽曲音源除去部91により既知楽曲音源が除去された音声に対して、16乃至24kHzの範囲に帯域を制限することにより、図11の右中段で示されるように、拡散符号信号uFsを抽出する。
 そして、逆シフト処理部130は、図10の右上段で示されるように、1/mにダウンサンプリングすることにより、拡散符号を含む拡散符号信号Fsを生成することにより周波数帯域を元の帯域に復元する。
 このように周波数シフトを施すことにより、既知楽曲音源の音声が放音された状態で、拡散符号信号を含む音声が放音されても、拡散符号信号を含む音声については聴こえにくい状態(人間の聴覚で認識し難くい状態)にすることが可能となる。
 尚、以上においては、周波数シフトにより拡散符号信号を含む音声を人間に聴こえ難くする(人間の聴覚で認識し難くする)例について説明してきたが、高い周波数の音は直進性が高く、壁などの反射によるマルチパスや遮蔽物による音の遮断の影響を受けやすいので、図12で示されるように、回折しやすい10kHz以下の、例えば、3kHz付近の低周波数帯域を含む、より低い帯域の音声も使えることが望ましい。図12においては、範囲Z3’で示される10kHz以下の低周波数帯域を含む範囲においても拡散符号信号の音声が出力される場合の例を示している。したがって、図12の場合、範囲Z11においては、拡散符号信号の音声も人間の聴覚で認識し易い状態となる。
 このような場合については、例えば、既知楽曲音源の音圧レベルを-50dBとし、分離に必要な範囲を-30dBまでとした上で、ATRAC(商標登録)やMP3(商標登録)等で用いられている聴覚圧縮の手法により、既知楽曲により拡散符号信号を聴覚マスキングするようにして、拡散符号信号については聞こえないように放音するようにしてもよい。
 より具体的には、所定の再生単位時間(例えば、20ms単位)毎に再生する楽曲の周波数成分を解析し、臨界帯域毎(24bark)の拡散符号信号の音声の音圧レベルを聴覚マスキングされるように解析結果に合わせて動的に増減させるようにしてもよい。
 <到来時間差距離について>
 次に、図13を参照して、到来時間差距離について説明する。図13は、音声出力ブロック31-1,31-2に対する位置に応じた到来時間差距離のプロット図である。尚、図13においては、音声出力ブロック31-1,31-2が音声を放音する正面方向に対する位置をy軸で表し、音声出力ブロック31-1,31-2が音声を放音する方向に対して垂直方向の位置をx軸で表しており、x,yそれぞれを規格化された単位で表現するときに求められる到来時間差距離を規格化単位でプロットしたときの分布が示されている。
 すなわち、図13においては、音声出力ブロック31-1,31-2がx軸方向に規格化された3単位だけ離れており、y軸方向に音声出力ブロック31-1,31-2から3単位までの範囲における到来時間差距離のプロット結果が示されている。
 図13で示されるように、x軸方向に対しては、到来時間差距離との相関がみられるため、x軸方向については、所定以上の精度で求めることが可能と考えられる。
 しかしながら、y軸方向については、特に、x軸方向における1.5単位の位置付近、すなわち、音声出力ブロック31-1,31-2間の中央付近においては、相関がみられないため、所定以上の精度で求めることはできないと考えられる。
 結果として、到来時間差距離を用いるだけでは、x軸方向の位置のみしか、所定以上の精度で求めることはできないものと考えられる。
 <ピークパワー比について>
 次に、図14を参照して、ピークパワー比について説明する。図14は、音声出力ブロック31-1,31-2に対する位置に応じたピークパワー比のプロット図である。
 尚、図14においては、音声出力ブロック31-1,31-2が音声を放音する正面方向に対する位置をy軸で表し、音声出力ブロック31-1,31-2が音声を放音する方向に対して垂直方向の位置をx軸で表しており、x,yそれぞれを規格化された単位で表現するときに求められるピークパワー比を規格化単位でプロットしたときの分布が示されている。
 すなわち、図14においては、音声出力ブロック31-1,31-2がx軸方向に規格化された3単位だけ離れており、y軸方向に音声出力ブロック31-1,31-2から3単位までの範囲におけるピークパワーのプロット結果が示されている。
 図14で示されるように、x,y軸方向のいずれに対しても、ピークパワー比との相関がみられるため、x,y軸方向のいずれについても、所定以上の精度で求めることが可能と考えられる。
 <位置計算部の第1の実施の形態の構成例>
 以上のことから、到来時間差距離とピークパワー比とを用いた機械学習により、音声出力ブロック31-1,31-2に対する電子機器32(音声入力ブロック41)の位置(x,y)を、所定以上の精度で求めることが可能であると考えられる。
 ただし、ここでは、音声出力ブロック31-1,31-2の位置は既知の位置に固定されている、または、音声出力ブロック31-1,31-2のうちのいずれか一方の位置が既知であり、かつ、相互の距離が既知であることを前提とする。
 そこで、位置計算部113は、例えば、図15で示されるように、到来時間差距離Dと、ピークパワー比PRとからなる所定のデータ数からなる入力層151に対して所定の隠れ層152を機械学習により構成し、電子機器32(音声入力ブロック41)の位置(x,y)からなる出力層153を求める。
 より詳細には、例えば、32760サンプルに対して、図15の右上部で示されるように、3276サンプルのセットC1,C2,C3・・・毎に時間tsずつスライドしてピーク計算を行ったデータ数10を1つの入力層の情報とする。
 すなわち、ピーク計算が行われた到来時間差距離Dとピークパワー比PRとからなる入力層151がデータ数10で構成されるものとする。
 隠れ層152は、例えば、第1層152a乃至第n層152nのn層から構成され、先頭の第1層152aについては、入力層151のデータについて、所定の条件を満たすデータをマスクする機能が付された層とされ、例えば、1280chの層として構成とされる。また、第2層152b乃至第n層152nについては、それぞれ128chの層で構成される。
 第1層152aは、入力層151のデータとして所定の条件を満たさないデータとしては、例えば、ピークのSN比が8倍以上、または、到来時間差距離が3m以下の条件を満たさないものをマスクして後段の層における処理に使用しないようにマスクする。
 これにより、隠れ層152のうち、第2層152b乃至第n層152nが、入力層151のデータのうち、所定の条件を満たすデータのみを使用して、出力層153となる電子機器32の2次元位置(x,y)を求める。
 このような構成によりなる位置計算部113は、到来時間差距離Dとピークパワー比PRとからなる入力層151に対して、機械学習により構成された隠れ層152により、出力層153である電子機器32(音声入力ブロック41)の位置(x,y)を出力する。
 <音声放音処理>
 次に、図16のフローチャートを参照して、音声出力ブロック31による音声放音(出力)処理について説明する。
 ステップS11において、拡散符号生成部71は、拡散符号を生成して音声生成部73に出力する。
 ステップS12において、既知楽曲音源生成部72は、記憶している既知楽曲音源を生成して音声生成部73に出力する。
 ステップS13において、音声生成部73は、拡散部81を制御して、所定のデータ符号と、拡散符号と乗算してスペクトル拡散変調させて、拡散符号信号を生成させる。
 ステップS14において、音声生成部73は、周波数シフト処理部82を制御して、図11の左部を参照して説明したように、拡散符号信号を周波数シフトさせる。
 ステップS15において、音声生成部73は、既知楽曲音源と、周波数シフトさせた拡散符号信号とを、スピーカからなる音声出力部74に出力して、所定の音声出力で音声として放音(出力)させる。
 音声出力ブロック31-1,31-2のそれぞれにおいて、以上の処理がなされることにより、電子機器32を所持するユーザに対して、既知楽曲音源となる音声が放音されて聴取させることが可能となる。
 また、拡散符号信号をユーザである人間に聞こえない周波数帯域にシフトさせて音声として出力させることが可能となるので、電子機器32は、ユーザに不快な音を聞かせることなく、放音された拡散符号信号からなる人間に聞こえない周波数帯域にシフトされた音声に基づいて、音声出力ブロック31までの距離を測定することが可能となる。
 ステップS16において、音声生成部73は、通信部75を制御して、後述する処理により、電子機器32からピークが検出できないことが通知されてきたか否かを判定する。ステップS16において、ピークが検出できないことが通知されてきた場合、処理は、ステップS17に進む。
 ステップS17において、音声生成部73は、通信部75を制御して、電子機器32より放音出力の調整を指示するコマンドが送信されてきたか否かを判定する。
 ステップS17において、放音出力の調整を指示するコマンドが送信されてきた判定された場合、処理は、ステップS18に進む。
 ステップS18において、音声生成部73は、音声出力部74の音声出力を調整させ、処理は、ステップS15に戻る。尚、ステップS17において、放音出力の調整を指示するコマンドが送信されてきていない場合、ステップS18の処理は、スキップされる。
 すなわち、放音出力からピークが検出されない場合、ピークが検出されるまで音声を放音する処理が繰り返される。この際、放音出力の調整を指示するコマンドが電子機器32より送信されてくるときには、このコマンドに基づいて、音声生成部73は、音声出力部74を制御して音声出力を調整し、電子機器32において放音された音声からピークが検出されるように調整されるようにする。
 尚、電子機器32より送信されてくる放音出力の調整を指示するコマンドについては、詳細を後述する。
 <図3の電子機器32による音声収音処理>
 次に、図17のフローチャートを参照して、図3の電子機器32による音声収音処理について説明する。
 ステップS31において、マイクからなる音声入力部51は、音声を収音し、収音した音声を既知楽曲音源除去部91、および空間伝達特性算出部92に出力する。
 ステップS32において、空間伝達特性算出部92は、音声入力部51より供給された音声、音声入力部51の特性、および音声出力ブロック31の音声出力部74の特性に基づいて、空間伝達特性を算出して、既知楽曲音源除去部91に出力する。
 ステップS33において、既知楽曲音源除去部91は、空間伝達特性算出部92より供給された空間伝達特性を加味して、既知楽曲音源の逆相信号を生成し、音声入力部51より供給された音声より、既知楽曲音源の成分を除去して、到来時間算出部93、およびピークパワー検出部94に出力する。
 ステップS34において、到来時間算出部93の逆シフト処理部130は、既知楽曲音源除去部91より供給される音声入力部51により入力された音声から既知楽曲音源が除去された拡散符号信号の周波数帯域を、図11の右部を参照して説明したように逆シフトする。
 ステップS35において、相互相関計算部131は、上述した式(1)乃至式(4)を用いた計算により、周波数帯域が逆シフトされた、音声入力部51により入力された音声から既知楽曲音源が除去された拡散符号信号と、音声出力ブロック31より出力された音声の拡散符号信号との相互相関を算出する。
 ステップS36において、ピーク検出部132は、計算された相互相関におけるピークを検出する。
 ステップS37において、ピークパワー検出部94は、検出された音声出力ブロック31-1,31-2のそれぞれまでの距離に応じた相互相関がピークとなるタイミングの拡散符号信号の周波数帯域成分のパワーをピークパワーとして検出し、位置算出部95に出力する。
 ステップS38において、制御部42は、到来時間算出部93において、音声出力ブロック31-1,31-2のそれぞれまでの距離に応じた相互相関のピークが検出されたか否かを判定する。
 ステップS38において、相互相関のピークが検出されていないと判定された場合、処理は、ステップS39に進む。
 ステップS39において、制御部42は、通信部44を制御して、電子機器32に対して相互相関のピークが検出できなかったことを通知する。
 ステップS40において、制御部42は、音声出力ブロック31-1,31-2のピークパワーの何れかが所定の閾値よりも大きいか否かを判定する。すなわち、音声出力ブロック31-1,31-2のそれぞれまでの距離に応じたピークパワーのいずれか一方が極端に大きな値になっているか否かが判定される。
 ステップS40において、ピークパワーの何れかが所定の閾値よりも大きいと判定された場合、処理は、ステップS41に進む。
 ステップS41において、制御部42は、通信部44を制御して、電子機器32に対して放音出力を調整するように指示するコマンドを送信し、処理は、ステップS31に戻る。尚、ステップS40において、ピークパワーの何れかが所定の閾値よりも大きいと判定されない場合、ステップS41の処理は、スキップされる。
 すなわち、相互相関のピークが検出されるまで、放音が繰り返され、何れか一方のピークパワーが所定の閾値よりも大きい場合については、放音出力の調整がなされる。この際、音声出力ブロック31-1,31-2の双方の放音出力のレベルは、ピークパワー比に影響がでないように、同等に調整される。
 ステップS38において、相互相関のピークが検出されたと判定された場合、処理は、ステップS342に進む。
 ステップS42において、位置算出部95のピークパワー比算出部112は、音声出力ブロック31-1,31-2のそれぞれまでの距離に応じたピークパワーの比をピークパワー比として算出し、位置計算部113に出力する。
 ステップS43において、到来時間算出部93のピーク検出部132は、相互相関におけるピークとして検出された時間を到来時間として位置算出部95に出力する。
 尚、音声出力ブロック31-1,31-2のそれぞれより出力された音声の拡散符号信号との相互相関が算出されることにより、音声出力ブロック31-1,31-2のそれぞれに対応する到来時間が求められる。
 ステップS44において、位置算出部95の到来時間差距離算出部111は、音声出力ブロック31-1,31-2のそれぞれまでの距離に応じた到来時間に基づいて、到来時間差距離を算出し、位置計算部113に出力する。
 ステップS45において、位置計算部113は、到来時間差距離算出部111より供給される到来時間差距離と、ピークパワー比算出部112より供給されるピークパワー比とに基づいて、図15を参照して説明した入力層151を構成し、隠れ層152のうちの先頭の第1層152aにより所定の条件を満たさないデータをマスクする。
 ステップS46において、位置計算部113は、図15を参照して説明した隠れ層152のうちの第2層152b乃至第n層152nを順次使用して、出力層153としての電子機器32の2次元位置を計算して、制御部42に出力する。
 ステップS47において、制御部42は、求められた電子機器32の2次元位置に基づいた処理を実行し、処理を終了する。
 例えば、制御部42は、求められた電子機器32の位置に基づいた音場を実現できるように、音声出力ブロック31-1,31-2の音声出力部74から出力される音声のレベルやタイミングを制御するようなコマンドを、通信部44を制御して、音声出力ブロック31-1,31-2に送信する。
 これにより、音声出力ブロック31-1,31-2においては、音場制御部83が、電子機器32より送信されてきたコマンドに基づいて、電子機器32を所持したユーザの位置に対応する音場を実現するように音声出力部74から出力される音声のレベルやタイミングを制御する。
 このような処理により、電子機器32を装着したユーザは、音声出力ブロック31-1,31-2より出力される楽曲を、リアルタイムでユーザの動きに対応した、適切な音場で聴視することが可能となる。
 以上のように、一般的なステレオスピーカを構成するような2個の音声出力ブロック31-1,31-2と、電子機器32(音声入力ブロック41)とだけで、電子機器32の音声出力ブロック31-1,31-2に対する位置を求めることが可能となる。
 また、この際、人間に聴こえ難い帯域の音声を利用して拡散符号信号を放音し、音声出力ブロック31と音声入力ブロック41を備えた電子機器32との距離を測定して、電子機器32の位置をリアルタイムに求めることができる。
 さらに、本開示の音声出力ブロック31の音声出力部74を構成するスピーカや、電子機器32の音声入力部51を構成するマイクは、既存の、例えば、スピーカが2個のオーディオ機器を利用できるので、低コストでの実現が可能であり、設置に係る手間を簡素化することが可能となる。
 また、使用するのは音声であり、既存のオーディオ機器を利用できるので、電波等を利用する場合に必要とされる認証等の免許などが不要なため、この点においても、利用に係るコストと手間を簡素化することが可能となる。
 さらに、ユーザが不快に感じる音声を聴視させることなく、既知楽曲音源の再生により音楽等を鑑賞させながら、電子機器32を携帯する、または、装着するユーザの位置をリアルタイムで測定することが可能となる。
 尚、以上においては、到来時間差距離と、ピークパワー比とに基づいて、機械学習により形成される学習器により電子機器32の2次元位置を求める例について説明してきたが、到来時間差距離のみ、または、ピークパワー比のみからなる入力に基づいて2次元位置を求めるようにしてもよい。
 ただし、到来時間差距離のみ、または、ピークパワー比のみからなる入力に基づいて2次元位置を求める場合、精度が低下するため、利用方法の工夫や制限をするようにしてもよい。
 例えば、到来時間差距離のみで入力が形成される場合、y方向の位置の精度は低いことが想定されるので、x方向の位置のみを用いるようにしてもよい。
 また、例えば、ピークパワー比のみで入力が形成される場合、音声出力ブロック31から所定の距離以上離れると精度が低下することが想定されるので、音声出力ブロック31から所定の距離内の範囲の2次元位置のみの利用に制限するようにしてもよい。
 さらに、以上においては、相互相関のピークが検出されるときの情報が入力層とされているが、相互相関のピークが検出できないときの情報が入力層とされてもよい。このようにすることで、例えば、一方の音声出力ブロック31に対して極近い位置であるときには、他方の音声出力ブロック31からの音声信号は受信できず、ピークが検出されないこともあるので、このような場合でも適切に2次元位置を特定することが可能となる。
 また、以上においては、音声出力ブロック31-1,31-2に対して電子機器32(音声入力ブロック41)の2次元位置を特定する例について説明してきたが、電子機器32と音声出力ブロック31-1,31-2のいずれかの位置のみが既知である場合については、同様の処理により、位置が未知となっている音声出力ブロック31の位置を特定することも可能である。
 <<2.第1の実施の形態の応用例>>
 <音声出力ブロック間の距離を入力層とする例>
 以上においては、本開示の技術を2個の音声出力ブロック31-1,31-2と電子機器32とからなるホームオーディオシステムにおいて、音声入力ブロック41を備えた電子機器32の位置をリアルタイムで求め、電子機器32の位置に基づいて、音声出力ブロック31より出力される音声を制御して、適切な音場を実現する例について説明してきた。
 ただし、以上においては、音声出力ブロック31-1,31-2の位置が既知である、または、少なくとも何れか一方の位置が既知であり、かつ、相互間の距離が既知である場合の例について説明してきた。
 例えば、到来時間差距離Dと、ピークパワー比PRとからなる入力層151の情報に加えて、さらに、相互間距離SDからなる入力層151αを構成し、隠れ層152に入力するようにしてもよい。
 位置計算部113は、例えば、図18で示されるように、隠れ層152’においては、第1層152aを構成する到来時間差距離Dと、ピークパワー比PRとの所定の条件を満たさないデータがマスクされたものと、相互間距離SDからなる入力層151αとが、第2層152’bに入力されて、第2層152’b乃至第n層152’nの処理により、出力層153’として電子機器32の位置が求められるようにしてもよい。
 このような構成により、音声出力ブロック31-1,31-2の距離が様々に変化しても2個の音声出力ブロック31-1,31-2と、1個の電子機器32(マイク)とから電子機器32の位置を求めることが可能となる。
 <<3.第2の実施の形態>>
 以上においては、既知の位置に存在する音声出力ブロック31-1,31-2と、電子機器32とを用いて、音声出力ブロック31-1,31-2より放音される音声が電子機器32で収音される際の到来時間差距離Dと、ピークパワー比PRとを用いて、電子機器32の位置を特定する例について説明してきた。
 ところで、上述した手法で求められる、音声出力ブロック31-1,31-2の放音方向に対して垂直方向となるx方向の位置については、図13を参照して説明したように、比較的高精度に求めることが可能である。
 一方、音声出力ブロック31-1,31-2の放音方向となるy方向の位置については、図14を参照して説明したように、x方向の位置の精度と比較すると、やや精度が劣る。
 ここで、図1で示されるように、音声出力ブロック31-1,31-2が設けられ、TV30が音声出力ブロック31-1,31-2の略中央位置に設けられている場合、ユーザは、一般的にTV30を視聴しながら、音声出力ブロック31-1,31-2から放音される音声を聴視することが想定される。
 このとき、ユーザが、聴視する音声出力ブロック31-1,31-2から放音された音声は、TV30の中心位置を基準として設定される角度で規定される範囲で聴視に係る評価がなされる。
 例えば、図19で示されるように、音声出力ブロック31-1,31-2が設けられ、音声出力ブロック31-1,31-2の略中央位置で、かつ、表示面が音声出力ブロック31-1,31-2を結ぶ直線に対して平行にTV30が設定される場合を考える。
 この場合、TV30に対して正対する位置にユーザH1が存在するときには、図中のTV30の中心位置を基準とした角度αの範囲が聴視可能範囲とされ、この範囲のうち、図中の一点鎖線に対して近い位置ほど、良好な聴視が可能となる。
 また、TV30に対してユーザH2が存在するときには、図中のTV30の中心位置を基準とした角度βの範囲が聴視可能範囲とされ、この範囲のうち、図中の一点鎖線に対して近い位置ほど、良好な聴視が可能となる。
 すなわち、音声出力ブロック31-1,31-2が設けられ、TV30が音声出力ブロック31-1,31-2の略中央位置に設けられている場合、ユーザの視聴位置は、上述した音声出力ブロック31-1,31-2の放音方向に対して垂直方向となるx方向の位置がある程度の精度で求められれば、所定のレベルよりも良好な聴視を実現できる。
 換言すれば、音声出力ブロック31-1,31-2が設けられ、TV30が音声出力ブロック31-1,31-2の略中央位置に設けられている場合、ユーザの視聴位置は、上述した音声出力ブロック31-1,31-2の放音方向となるy方向の位置については、所定の精度で求められていない状態でも、x方向の位置が所定の精度で求められていれば、所定のレベルよりも良好な聴視を実現できる。
 これにより、上述したように、y方向の位置の精度が所定レベルよりも低くても、x方向の位置の精度が所定レベル以上であれば、所定レベル以上の良好な聴視を実現できる。
 しかしながら、図20で示されるように、音声出力ブロック31-1,31-2が設けられ、TV30が音声出力ブロック31-1,31-2の略中央位置からずれた位置に設けられている場合、音声出力ブロック31-1,31-2の略中央位置に正対する位置のユーザH11に対応しては、TV30に対する視聴位置が音声出力ブロック31-1,31-2の中央位置からずれているため、放音される音声により、適切な音場を実現できない恐れがある。
 したがって、この場合、音声出力ブロック31-1,31-2に対する電子機器32のx方向の位置に加えて、y方向の位置についても、所定の精度より高い精度で求める必要がある。
 <ピークパワー周波数成分割合>
 そこで、音声出力ブロック31-1,31-2より放音される音声が電子機器32で収音される際の到来時間差距離Dと、ピークパワー比PRとに加えて、音声出力ブロック31-1,31-2のそれぞれの高周波成分の相互相関のピークパワーと低周波成分の相互相関のピークパワーとの周波数成分割合を用いた機械学習により隠れ層を形成することで電子機器32の位置からなる出力層を求めるようにしてもよい。
 例えば、音声出力ブロック31より放音される音声の低周波成分(例えば、18乃至21kHz)の相互相関のピークにおけるパワーであるピークパワーLPと、高周波成分(例えば、21乃至24kHz)の相互相関のピークにおけるパワーであるピークパワーHPとから得られる、ピークパワー周波数成分割合FR(=HP/LP)の音声出力ブロック31を中心位置としたときのx方向およびy方向の分布は、図21で示されるような分布となる。
 すなわち、図21のピークパワー周波数成分割合FR(=HP/LP)の分布で示されるように、音声出力ブロック31の放音方向となるy方向については、音声出力ブロック31に対して正対する範囲ほど、y方向に対する距離との相関が高いため、高精度にy方向の位置を特定させることが可能となる。
 ただし、音声出力ブロック31の位置を中心としてx方向、および、y軸方向のそれぞれに対して離れるに従って、または、広角になるに従って、すなわち、音声出力ブロック31からの距離が離れるほど、または、放音方向に対して広角な位置になるほどと、高周波成分のピークパワーHPは減衰することにより、例えば、図21の範囲Z1,Z2で示されるように、ピークパワー周波数成分割合FR(=HP/LP)は低下する。
 このため、y方向の位置の精度については、音声出力ブロック31からの距離に応じた判断が必要となるので、例えば、y方向の位置については、音声出力ブロック31から所定の距離までの値を採用するようにしてもよい。
 尚、図21においては、1個の音声出力ブロック31の成分割合FRの例が示されているため、2個の音声出力ブロック31-1,31-2が用いられる場合、それぞれのピークパワー周波数成分割合FRL,FRRが、到来時間差距離Dと、ピークパワー比PRとに加えて用いられて隠れ層での処理がなされることにより、高精度な電子機器32のx方向およびy方向の位置を求めることが可能となる。
 <ピークパワー周波数成分割合を入力層として用いる場合の電子機器の構成例>
 次に、図22を参照して、音声出力ブロック31より放音される音声の低周波成分(例えば、18乃至21kHz)の相互相関のピークパワーLPと、高周波成分(例えば、21乃至24kHz)の相互相関のピークパワーHPとから得られる、ピークパワー周波数成分割合FR(=HP/LP)を新たに加えて入力層に用いるようにした電子機器32の構成例について説明する。
 尚、図22の電子機器32において、図3の電子機器32の構成と同一の機能を備えた構成については、同一の符号を付しており、その説明は適宜省略する。
 図22の電子機器32において、図3の電子機器32と異なる点は、ピークパワー周波数成分割合算出部201を新たに設けられると共に、位置算出部95に代えて、位置算出部202が設けられた点である。
 ピークパワー周波数成分割合算出部201は、到来時間算出部93において相互相関のピークを求める場合と同様の処理を、音声出力ブロック31-1,31-2のそれぞれより放音される音声の低周波数帯域(例えば、18乃至21kHz)と、高周波数帯域(例えば、21乃至24kHz)とのそれぞれにおいて実行すると共に、それぞれの低周波帯域のピークパワーLPと高周波帯域のピークパワーHPとを求める。
 そして、ピークパワー周波数成分割合算出部201は、音声出力ブロック31-1,31-2のそれぞれの高周波帯域のピークパワーHPと分子とし、低周波帯域のピークパワーLPを分母とするピークパワー周波数成分割合FRR,FRLを算出して、位置算出部202に出力する。すなわち、ピークパワー周波数成分割合算出部201は、音声出力ブロック31-1,31-2のそれぞれの低周波帯域のピークパワーLPに対する、高周波帯域のピークパワーHPの割合をピークパワー周波数成分割合FRR,FRLとして算出して、位置算出部202に出力する。
 位置算出部202は、到来時間、ピークパワー、および音声出力ブロック31-1,31-2のそれぞれのピークパワー周波数成分割合に基づいて、機械学習により形成されたニューラルネットワークにより電子機器32の位置(x,y)を算出する。
 <図22の位置算出部の構成例>
 次に、図23を参照して、図22の電子機器32の位置算出部202の構成例について説明する。尚、図23の位置算出部202において、図4の位置算出部95の構成と同一の機能を備えた構成については、同一の符号を付しており、その説明は適宜省略する。
 図23の位置算出部202において、図4の位置算出部95の構成と異なる構成は、位置計算部113に代えて、位置計算部211を設けた点である。
 位置計算部211の基本的な機能は、位置計算部113と同様であるが、位置計算部113が、到来時間差距離と、ピークパワー比とを入力層とした隠れ層として機能して、電子機器32の位置を出力層として求めていた。
 これに対して、位置計算部211は、到来時間差距離Dと、ピークパワー比PRとに加えて、音声出力ブロック31-1,31-2のそれぞれのピークパワー周波数成分割合FRR,FRL、および音声出力ブロック31-1,31-2間の相互間距離DSを含んだ入力層に対して、隠れ層として機能し、電子機器32の位置を出力層として求める。
 より詳細には、図24で示されるように、位置計算部211における入力層221が、到来時間差距離D、ピークパワー比PR、音声出力ブロック31-1,31-2のそれぞれのピークパワー周波数成分割合FRR,FRLから構成され、さらに、入力層221αが、音声出力ブロック31-1,31-2間の相互間距離DSより構成される。
 そして、位置計算部211が、第1層222a乃至第n層222nからなるニューラルネットワークで構成される隠れ層222として機能し、電子機器32の位置(x.y)からなる出力層223が求められる。
 尚、図24の入力層221、隠れ層222、および出力層223は、図15の入力層151、隠れ層152、および出力層153に対応する構成である。
 <図3の電子機器32による音声収音処理>
 次に、図25のフローチャートを参照して、図22の電子機器32による音声収音処理について説明する。尚、音声放音処理については、図16の処理と同様であるので、その説明は省略する。
 尚、図25のフローチャートにおけるステップS101乃至S112,S114乃至S116,S118の処理は、図17のフローチャートのステップS31乃至S45,S47の処理と同様であるので、その説明は省略する。
 すなわち、ステップS101乃至S112により相互相関のピークが検出され、ピークパワー比が算出されると、処理は、ステップS113に進む。
 ステップS113において、ピークパワー周波数成分割合算出部201は、音声出力ブロック31-1,31-2のそれぞれより放音される音声の低周波数帯域(例えば、18乃至21kHz)と、高周波数帯域(例えば、21乃至24kHz)とのそれぞれにおいて相互相関に基づいたピークを求める。
 そして、ピークパワー周波数成分割合算出部201は、低周波帯域のピークパワーLPと高周波帯域のピークパワーHPとを求め、高周波帯域のピークパワーHPに対する、低周波帯域のピークパワーLPの割合をピークパワー周波数成分割合FRR,FRLとして算出して、位置算出部202に出力する。
 ステップS114乃至S116において、到来時間が算出されて、到来時間差距離が算出され、所定の条件を満たさないデータがマスクされる。
 ステップS117において、位置算出部202は、図24を参照して説明した到来時間差距離D、ピークパワー比PR、音声出力ブロック31-1,31-2のそれぞれのピークパワー周波数成分割合FRR,FRLからなる入力層221と、相互間距離DSからなる入力層221αに対して、隠れ層222のうちの第2層222b乃至第n層222nにより処理を順次実行して、出力層223としての電子機器32の位置(2次元位置(x,y))を計算して、制御部42に出力する。
 ステップS118において、制御部42は、求められた電子機器32の位置に基づいた処理を実行し、処理を終了する。
 以上のように、一般的なステレオスピーカを構成するような2個の音声出力ブロック31-1,31-2と、電子機器32(音声入力ブロック41)とだけで、さらに、TV30が、音声出力ブロック31-1,31-2間の中心位置からずれた位置であっても、電子機器32の音声出力ブロック31-1,31-2に対する位置をx,y方向に対して高精度に求めることが可能となる。
 <<4.第3の実施の形態>>
 以上においては、到来時間差距離D、ピークパワー比PR、音声出力ブロック31-1,31-2のそれぞれのピークパワー周波数成分割合FRR,FRLからなる入力層221を形成して、機械学習により形成されたニューラルネットワークからなる隠れ層222により処理が施されることで、出力層223としての電子機器32(音声入力ブロック41)の位置(x,y)を求める例について説明してきた。
 しかしながら、2個の音声出力ブロック31と電子機器32(音声入力ブロック41)とにより、入力層を到来時間差距離D、およびピークパワー比PRで構成しても、音声出力ブロック31の放音方向に対して垂直方向となる、音声出力ブロック31-1,31-2に対する電子機器32のx方向の位置は比較的高い精度で求めることができるが、y方向の位置の精度についてはやや劣る。
 そこで、電子機器32にIMUを設けて、電子機器32を音声出力ブロック31-1,31-2のそれぞれに傾けたときの姿勢を検出し、電子機器32を基準とした音声出力ブロック31-1,31-2間の角度θを求めることで、y方向の位置を高精度に求めるようにしてもよい。
 すなわち、電子機器32にIMUを搭載し、図26で示されるように、例えば、電子機器32の図中の上端部を音声出力ブロック31-1,31-2のそれぞれに向けた状態での姿勢を検出し、検出された姿勢変化から音声出力ブロック31-1,31-2のそれぞれへの方向がなす角度θを求める。
 このとき、例えば、音声出力ブロック31-1,31-2のそれぞれの既知の位置を(a1,b1),(a2,b2)で表現し、電子機器32の位置を(x,y)で表現する。尚、xは、入力層を到来時間差距離D、およびピークパワー比PRで構成することで求められた既知の値とする。
 電子機器32の位置を基準とした、音声出力ブロック31-1へのベクトルA1は、(a1-x,b1-y)で表現され、同様に、音声出力ブロック31-2へのベクトルA2は、(x-a2,y-b2)で表現される。
 ここで、ベクトルA1,A2の内積(A1,A2)は、(A1,A2)=|A1|・|A2|cosθからなる関係式で表現される。上述したように、ベクトルA1,A2は、yを除き既知の値であるから、この内積の関係式から、yを解くことでyの値を求めるようにしてもよい。
 <IMUを設けるようにした電子機器の構成例>
 次に、図27を参照して、IMUを設けるようにして、電子機器32を基準とした音声出力ブロック31-1,31-2のなす角度θを求めて、角度θから内積の関係式を用いてyの値を求めるようにする場合の電子機器32の構成例について説明する。
 尚、図27の電子機器32において、図3の電子機器32の構成と同一の機能を備えた構成については、同一の符号を付しており、その説明は適宜省略する。
 図27の電子機器32において、図3の電子機器32と異なる点は、IMU(Inertial Measurement Unit)230と姿勢算出部231が新たに設けられると共に、位置算出部95に代えて、位置算出部232が設けられた点である。
 IMU230は、角速度と加速度とを検出して、姿勢算出部231に出力する。
 姿勢算出部231は、IMU230より供給される角速度と加速度とに基づいて、電子機器32の姿勢を算出し、位置算出部232に出力する。尚、ここでは、重力方向からRollおよびPitchは常に求めることができるため、姿勢として求められるRoll、Pitch、Yawのうち、xy平面上のYawについてのみ考える。
 位置算出部232は、基本的に位置算出部95と同様の機能を備えており、電子機器32のx方向の位置を求めると共に、上述した姿勢算出部231より供給される姿勢の情報を取得して、図26を参照して説明した電子機器32を基準とした音声出力ブロック31-1,31-2とのなす角度θを求め、内積の関係式から電子機器32のy方向の位置を求める。
 この際、制御部42は、スピーカやディスプレイからなる出力部43を制御して、必要に応じて、電子機器32の所定の部位を、音声出力ブロック31-1,31-2のそれぞれに向けるようにユーザに指示し、位置算出部232は、その時々の姿勢(方向)に基づいて角度θを求める。
 <図27の位置算出部の構成例>
 次に、図28を参照して、図22の電子機器32の位置算出部232の構成例について説明する。尚、図28の位置算出部232において、図4の位置算出部95の構成と同一の機能を備えた構成については、同一の符号を付しており、その説明は適宜省略する。
 図28の位置算出部232において、図4の位置算出部95の構成と異なる点は、位置計算部113に代えて、位置計算部241が設けられた点である。
 位置計算部241の基本的な機能は、位置計算部113と同様であるが、位置計算部113が、到来時間差距離と、ピークパワー比とを入力層とした隠れ層として機能して、電子機器32の位置を出力層として求めていた。
 これに対して、位置計算部241は、到来時間差距離と、ピークパワー比とを入力層として求められる出力層である電子機器32の位置については、x方向の位置のみを採用する。また、位置計算部241は、姿勢算出部231より供給される姿勢の情報を取得して、図26を参照して説明した角度θを求め、x方向の位置の情報と内積の関係式から電子機器32のy方向の位置を求める。
 <図27の電子機器32による音声収音処理>
 次に、図29のフローチャートを参照して、図27の電子機器32による音声収音処理について説明する。尚、音声放音処理については、図16の処理と同様であるので、その説明は省略する。
 ここで、図25のフローチャートにおけるステップS151の処理は、図17のフローチャートのステップS31乃至S46の処理であり、ここで求められる電子機器32の位置の情報のうち、x方向の位置の情報のみが採用されるものとし、その説明は省略する。また、音声出力ブロック31-1,31-2については、それぞれを左音声出力ブロック31-1、および右音声出力ブロック31-2とも称する。
 ステップS151の処理により、x方向の位置が求められると、ステップS152において、制御部42は、タッチパネルからなる出力部43を制御して、例えば、電子機器32の上端部を左音声出力ブロック31-1に向けた状態でタップ操作するように要求する画像を表示する。
 ステップS153において、制御部42は、出力部43を制御して、タップされたか否かを判定し、タップ操作がなされたと判定されるまで、同様の処理を繰り返す。
 ステップS153において、例えば、ユーザが、電子機器32の上端部を左音声出力ブロック31-1に向けた状態でタップ操作すると、タップ操作がなされたものとみなされて、処理は、ステップS154に進む。
 ステップS154において、姿勢算出部231は、IMU230より供給される加速度および角速度の情報を取得すると、姿勢情報に変換して、位置算出部232に出力する。これに応じて、位置算出部232は、左音声出力ブロック31-1の方向に向けた状態の姿勢(方向)を記憶する。
 ステップS155において、制御部42は、タッチパネルからなる出力部43を制御して、例えば、電子機器32の上端部を右音声出力ブロック31-2に向けた状態でタップ操作するように要求する画像を表示する。
 ステップS156において、制御部42は、出力部43を制御して、タップされたか否かを判定し、タップ操作がなされたと判定されるまで、同様の処理を繰り返す。
 ステップS156において、例えば、ユーザが、電子機器32の上端部を右音声出力ブロック31-2に向けた状態でタップ操作すると、タップ操作がなされたものとみなされて、処理は、ステップS157に進む。
 ステップS157において、姿勢算出部231は、IMU230より供給される加速度および角速度の情報を取得すると、姿勢情報に変換して、位置算出部232に出力する。これに応じて、位置算出部232は、右音声出力ブロック31-2の方向に向けた状態の姿勢(方向)を記憶する。
 ステップS158において、位置算出部232の位置計算部241は、記憶している音声出力ブロック31-1,31-2のそれぞれの方向に向けた状態の姿勢(方向)の情報から、電子機器32を基準とした左右の音声出力ブロック31-1,31-2のなす角度θを算出する。
 ステップS159において、位置計算部241は、音声出力ブロック31-1,31-2の既知の位置、電子機器32のx方向の位置、および電子機器32を基準とした左右の音声出力ブロック31-1,31-2のなす角度θに基づいて、内積の関係式から電子機器32のy方向の位置を計算する。
 ステップS160において、位置計算部241は、求められた電子機器32のy方向の位置の値が所定値よりも大きい、または小さいなど、極端に大きな値や極端に小さな値などであるか否かにより、y方向の位置が適切に求められたか否かを判定する。
 ステップS160において、y方向の位置が適切に求められていないとみなされた場合、処理は、ステップS152に戻る。
 すなわち、電子機器32のy方向の位置が適切に求められるまで、ステップS152乃至S160の処理が繰り返される。
 そして、ステップS160において、適切にy方向の位置が求められたとみなされた場合、処理は、ステップS161に進む。
 ステップS161において、制御部42は、タッチパネルからなる出力部43を制御して、例えば、電子機器32の上端部をTV30に向けた状態でタップ操作するように要求する画像を表示する。
 ステップS162において、制御部42は、出力部43を制御して、タップされたか否かを判定し、タップ操作がなされたと判定されるまで、同様の処理を繰り返す。
 ステップS162において、例えば、ユーザが、電子機器32の上端部をTV30に向けた状態でタップ操作すると、タップ操作がなされたものとみなされて、処理は、ステップS163に進む。
 ステップS163において、姿勢算出部231は、IMU230より供給される加速度および角速度の情報を取得すると、姿勢情報に変換して、位置算出部232に出力する。これに応じて、位置算出部232は、TV30の方向に向けた状態の姿勢(方向)を記憶する。
 ステップS164において、制御部42は、求められた電子機器32の位置、および電子機器32からのTV30の姿勢(方向)、並びに音声出力ブロック31-1,31-2の既知の位置に基づいた処理を実行し、処理を終了する。
 例えば、制御部42は、求められた電子機器32の位置、およびTV30の方向、並びに音声出力ブロック31-1,31-2の既知の位置に基づいた適切な音場を実現できるように、音声出力ブロック31-1,31-2の音声出力部74から出力される音声のレベルやタイミングを制御するようなコマンドを、通信部44を制御して、音声出力ブロック31-1,31-2に送信する。
 以上の処理により、電子機器32にIMUを設けて、電子機器32を音声出力ブロック31-1,31-2のそれぞれに傾けたときの姿勢を検出し、電子機器32を基準とした音声出力ブロック31-1,31-2間の角度θを求めることで、内積の関係式から、y方向の位置を高精度に求めることが可能となる。結果として、2個のスピーカなどからなる音声出力ブロック31-1,31-2と電子機器32(音声入力ブロック41)とにより、高精度に電子機器32の位置を測定することが可能となる。
 <<5.第3の実施の形態の応用例>>
 以上においては、電子機器32にIMUを設けて、2個の音声出力ブロック31と電子機器32とにより、入力層を到来時間差距離D、およびピークパワー比PRで、音声出力ブロック31の放音方向に対して垂直方向となる、音声出力ブロック31-1,31-2に対する電子機器32のx方向の位置を求め、さらに、電子機器32を音声出力ブロック31-1,31-2のそれぞれに傾けたときの姿勢を検出し、電子機器32を基準とした音声出力ブロック31-1,31-2間のなす角度θを求めることで、内積の関係式からy方向の位置を求めるようにする例について説明してきた。
 しかしながら、電子機器32と音声出力ブロック31-1,31-2との位置関係や方向が分かれば、他の構成でもよく、例えば、IMUに加えて、マイクなどからなる音声入力部51を2個にして、2個のマイクを用いて電子機器32と音声出力ブロック31-1,31-2との位置関係や方向を認識するようにしてもよい。
 すなわち、図30で示されるように、電子機器32の上端部に音声入力部51-1を設けて、下端部に音声入力部51-2を設けるようにしてもよい。
 ここでは、音声入力部51-1,51-2が、一点鎖線で示されるように、電子機器32の中心位置上に存在し、相互間の距離がLであるものとする。また、この場合、電子機器32は、図中の一点鎖線で示される電子機器32の中心線上に、音声入力部51-1,51-2間を結ぶ直線上にTV30が存在するものとし、音声出力ブロック31-1,31-2の放音方向に対してなす角度がθであるものとする。
 また、図30の場合、音声入力部51-1の位置を(x,y)で表現するものとすると、音声入力部51-2の位置は、(x+Lsinθ,y+Lcosθ)で表現される。
 ここで、音声入力部51-1,51-2の相互の距離Lが既知であり、電子機器32(の音声入力部51-1)の位置(x,y)と角度θの3個のパラメータが未知であるものとすれば、音声出力ブロック31-1と音声入力部51-1との到達時間距離、音声出力ブロック31-1と音声入力部51-2との到達時間距離、音声出力ブロック31-2と音声入力部51-1との到達時間距離、および音声出力ブロック31-2と音声入力部51-2との到達時間距離、並びに、音声入力部51-1および音声出力ブロック31-1,31-2の既知の位置の座標から構成される連立方程式により、電子機器32(の音声入力部51-1)の位置(x,y)と角度θを求めることが可能である。
 また、距離L、電子機器32(の音声入力部51-1)の位置(x,y)、および角度θの4個のパラメータが未知である場合、電子機器32のx方向の位置については、上述したように、入力層を到来時間差距離D、およびピークパワー比PRで構成し、機械学習で形成されたニューラルネットワークからなる隠れ層により処理が施されることで、出力層としてx方向の位置を求めることが可能である。
 さらに、電子機器32の音声入力部51-1のx方向の位置が既知となるので、未知の距離L、電子機器32(の音声入力部51-1)のy方向の位置、および角度θについては、上述した音声出力ブロック31-1と音声入力部51-1との到達時間距離、音声出力ブロック31-1と音声入力部51-2との到達時間距離、音声出力ブロック31-2と音声入力部51-1との到達時間距離、および音声出力ブロック31-2と音声入力部51-2との到達時間距離、並びに、音声入力部51-1のx方向の位置、および音声出力ブロック31-1,31-2の既知の位置の座標から構成される連立方程式により、求めることが可能である。
 すなわち、図30で示されるように、2個の音声入力部51-1,51-2が設けられる場合、距離Lが既知であり、電子機器32(の音声入力部51-1)の位置(x,y)と角度θの3個のパラメータが未知であるときは、連立方程式を用いた解析的な手法で未知のパラメータを求めることが可能である。
 一方、距離L、電子機器32(の音声入力部51-1)の位置(x,y)と角度θの4個のパラメータが未知であるときは、機械学習により形成されたニューラルネットワークを用いた手法でx方向の位置を求めた後、残りのパラメータについては、連立方程式を用いた解析的な手法で求めることが可能である。
 これにより、距離Lが既知であるか否かに関わらず、様々な種別の電子機器32において、2個のスピーカ(音声出力ブロック31-1,31-2)と、1個の電子機器32(音声入力ブロック41)とで、電子機器32(音声入力ブロック41)の2次元位置を求めることが可能となり、適切な音場の設定を実現することが可能となる。
 <<6.ソフトウェアにより実行させる例>>
 ところで、上述した一連の処理は、ハードウェアにより実行させることもできるが、ソフトウェアにより実行させることもできる。一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のコンピュータなどに、記録媒体からインストールされる。
 図31は、汎用のコンピュータの構成例を示している。このコンピュータは、CPU(Central Processing Unit)1001を内蔵している。CPU1001にはバス1004を介して、入出力インタフェース1005が接続されている。バス1004には、ROM(Read Only Memory)1002およびRAM(Random Access Memory)1003が接続されている。
 入出力インタフェース1005には、ユーザが操作コマンドを入力するキーボード、マウスなどの入力デバイスよりなる入力部1006、処理操作画面や処理結果の画像を表示デバイスに出力する出力部1007、プログラムや各種データを格納するハードディスクドライブなどよりなる記憶部1008、LAN(Local Area Network)アダプタなどよりなり、インターネットに代表されるネットワークを介した通信処理を実行する通信部1009が接続されている。また、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory)、DVD(Digital Versatile Disc)を含む)、光磁気ディスク(MD(Mini Disc)を含む)、もしくは半導体メモリなどのリムーバブル記憶媒体1011に対してデータを読み書きするドライブ1010が接続されている。
 CPU1001は、ROM1002に記憶されているプログラム、または磁気ディスク、光ディスク、光磁気ディスク、もしくは半導体メモリ等のリムーバブル記憶媒体1011ら読み出されて記憶部1008にインストールされ、記憶部1008からRAM1003にロードされたプログラムに従って各種の処理を実行する。RAM1003にはまた、CPU1001が各種の処理を実行する上において必要なデータなども適宜記憶される。
 以上のように構成されるコンピュータでは、CPU1001が、例えば、記憶部1008に記憶されているプログラムを、入出力インタフェース1005及びバス1004を介して、RAM1003にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU1001)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記憶媒体1011に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブル記憶媒体1011をドライブ1010に装着することにより、入出力インタフェース1005を介して、記憶部1008にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部1009で受信し、記憶部1008にインストールすることができる。その他、プログラムは、ROM1002や記憶部1008に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 尚、図31におけるCPU1001が、図1の音声出力ブロック31、および音声入力ブロック41の機能を実現させる。
 また、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
 なお、本開示の実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本開示は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 尚、本開示は、以下のような構成も取ることができる。
<1> 既知の位置に存在する2の音声出力ブロックより出力される、拡散符号がスペクトル拡散変調された拡散符号信号からなる音声信号を受信する音声受信部と、
 前記2の音声出力ブロックの前記音声信号が、前記音声受信部に到来して受信されるまでの時間である到来時間から特定される距離の差である到来時間差距離に基づいて、前記音声受信部の位置を算出する位置算出部と
 を備える情報処理装置。
<2> 前記2の音声出力ブロックの前記音声信号のそれぞれが前記音声受信部に到来するまでの到来時間を算出する到来時間算出部と、
 前記2の音声出力ブロックの前記音声信号のそれぞれの到来時間と、前記2の音声出力ブロックの既知の位置とに基づいて、前記2の音声出力ブロックと前記自らとのそれぞれの距離の差を前記到来時間差距離として算出する到来時間差距離算出部とをさらに含み、 前記位置算出部は、前記到来時間差距離からなる入力層に対して、機械学習により形成されたニューラルネットワークからなる隠れ層を用いた処理を施すことにより、出力層として前記音声受信部の位置を算出する
 <1>に記載の情報処理装置。
<3> 前記到来時間算出部は、
  前記音声受信部により受信された前記音声信号における拡散符号信号と、前記2の音声出力ブロックより出力された前記音声信号の拡散符号信号との相互相関を計算する相互相関計算部と、
  前記相互相関におけるピークとなる時間を前記到来時間として検出するピーク検出部とを含み、
 前記到来時間差距離算出部は、
  前記ピーク検出部により検出された前記到来時間に基づいた、前記2の音声出力ブロックと前記自らとのそれぞれの距離の差を前記到来時間差距離として算出する
 <2>に記載の情報処理装置。
<4> 前記位置算出部は、前記到来時間差距離と、前記2の音声出力ブロックのそれぞれより出力される音声信号の、前記相互相関におけるピークとなるタイミングのパワーの比であるピークパワー比とからなる入力層に対して、前記機械学習により形成されたニューラルネットワークからなる隠れ層を用いた処理を施すことにより、出力層として前記音声受信部の位置を算出する
 <3>に記載の情報処理装置。
<5> 前記ピークにおける前記2の音声出力ブロックのそれぞれより出力される音声信号が、前記音声受信部において受信されるときのパワーをピークパワーとして検出するピークパワー検出部と、
 前記ピークパワー検出部により検出された、前記2の音声出力ブロックのそれぞれより出力される音声信号のピークパワーの比をピークパワー比として算出するピークパワー比算出部とをさらに含む
 <4>に記載の情報処理装置。
<6> 前記位置算出部は、前記到来時間差距離算出部により算出された前記到来時間差距離と、前記ピークパワー比算出部により算出されたピークパワー比とからなる入力層に対して、前記隠れ層を用いた処理を施すことにより、前記出力層として前記音声受信部の位置を算出する
 <5>に記載の情報処理装置。
<7> 前記位置算出部は、前記到来時間差距離、前記2の音声出力ブロックのそれぞれより出力される音声信号の前記ピークパワー比、および前記2の音声出力ブロックのそれぞれより出力される音声信号の高周波成分のピークパワーに対する低周波成分のピークパワーの割合であるピークパワー周波数成分割合からなる入力層に対して、前記機械学習により形成されたニューラルネットワークからなる隠れ層を用いた処理を施すことにより、出力層として前記音声受信部の位置を算出する
 <4>に記載の情報処理装置。
<8> 前記ピークにおける前記2の音声出力ブロックのそれぞれより出力される音声信号の前記低周波成分のピークパワーと、前記高周波成分のピークパワーとを検出し、前記低周波成分のピークパワーに対する、前記高周波成分のピークパワーの割合を前記ピークパワー周波数成分割合として算出するピークパワー周波数成分割合算出部をさらに含む
 <7>に記載の情報処理装置。
<9> 前記位置算出部は、
  前記音声受信部により受信された、前記2の音声出力ブロックの前記音声信号の到来時間差距離に基づいて、前記機械学習により、前記音声受信部の前記音声出力ブロックにおける前記音声信号の放音方向に対して垂直方向の位置を算出し、
  前記音声受信部を基準とする前記2の音声出力ブロックのそれぞれの方向がなす角度に基づいて、前記音声受信部の前記音声出力ブロックにおける前記音声信号の放音方向の位置を算出する
 <2>に記載の情報処理装置。
<10> 前記音声受信部の角速度および加速度を検出するIMU(Inertial Measurement Unit)と、
 前記角速度および前記加速度に基づいて、前記自らの姿勢を検出する姿勢検出部とをさらに備え、
 前記位置算出部は、
  前記姿勢検出部により検出された自らの姿勢に基づいて、前記音声受信部を基準とする前記2の音声出力ブロックのそれぞれの方向がなす角度を算出し、
  算出した前記音声受信部を基準とする前記2の音声出力ブロックのそれぞれの方向がなす角度に基づいて、前記音声受信部の前記音声出力ブロックの前記音声信号の放音方向の位置を算出する
 <9>に記載の情報処理装置。
<11> 前記位置算出部は、前記姿勢検出部により検出された、前記2の音声出力ブロックのそれぞれに自らを向けたときの姿勢に基づいて、前記音声受信部を基準とする前記2の音声出力ブロックのそれぞれの方向がなす角度を算出する
 <10>に記載の情報処理装置。
<12> 前記位置算出部は、前記音声受信部を基準とする前記2の音声出力ブロックのそれぞれの方向がなす角度に基づいて、内積の関係式から、前記音声受信部の前記音声出力ブロックの前記音声信号の放音方向の位置を算出する
 <11>に記載の情報処理装置。
<13> 前記音声受信部と異なる他の音声受信部をさらに含み、
 前記位置算出部は、
  前記音声受信部により受信された、前記2の音声出力ブロックの前記音声信号の到来時間差距離に基づいて、機械学習により前記音声受信部の前記音声出力ブロックの前記音声信号の放音方向に対して垂直方向の位置を算出し、
  前記音声受信部と前記他の音声受信部とのそれぞれにより受信された、前記2の音声出力ブロックの前記音声信号の到来時間差距離に基づいて、連立方程式を構成し、解くことにより、前記音声受信部の前記音声出力ブロックの前記音声信号の放音方向の位置、前記音声出力ブロックの前記音声信号の放音方向に対する、前記音声受信部と前記他の音声受信部とを結ぶ方向のなす角度、および前記音声受信部と前記他の音声受信部との距離を算出する
 <2>に記載の情報処理装置。
<14> 前記音声受信部と異なる他の音声受信部をさらに含み、
 前記位置算出部は、前記音声受信部と前記他の音声受信部との距離が既知である場合、前記音声受信部と前記他の音声受信部とのそれぞれにより受信された、前記2の音声出力ブロックの前記音声信号の到来時間差距離、前記音声出力ブロックの既知の位置の情報、および前記音声受信部と前記他の音声受信部との既知の距離に基づいて、連立方程式を構成し、解くことにより、前記音声受信部の2次元位置、および前記音声出力ブロックの前記音声信号の放音方向に対する、前記音声受信部と前記他の音声受信部とを結ぶ方向のなす角度を算出する
 <2>に記載の情報処理装置。
<15> 前記情報処理装置は、スマートフォンまたはHMD(Head Mounted Display)である
 <1>乃至<14>のいずれかに記載の情報処理装置。
<16> 既知の位置に存在する2の音声出力ブロックより出力される、拡散符号がスペクトル拡散変調された拡散符号信号からなる音声信号を受信する音声受信部を備えた情報処理装置の情報処理方法であって、
 前記2の音声出力ブロックの前記音声信号が、前記音声受信部に到来して受信されるまでの時間である到来時間から特定される距離の差である到来時間差距離に基づいて、前記音声受信部の位置を算出する
 ステップを含む情報処理方法。
<17> 既知の位置に存在する2の音声出力ブロックより出力される、拡散符号がスペクトル拡散変調された拡散符号信号からなる音声信号を受信する音声受信部と、
 前記2の音声出力ブロックの前記音声信号が、前記音声受信部に到来して受信されるまでの時間である到来時間から特定される距離の差である到来時間差距離に基づいて、前記音声受信部の位置を算出する位置算出部と
 してコンピュータを機能させるプログラム。
 11 ホームオーディオシステム, 31 ,31-1,31-2 音声出力ブロック, 32 電子機器, 41 音声入力ブロック, 42 制御部, 43 出力部, 44 通信部, 51,51-1,51-2 音声入力部, 71 拡散符号生成部, 72 既知楽曲音源生成部, 73 音声生成部, 74 音声出力部, 81 拡散部, 82 周波数シフト処理部, 83 音場制御部, 91 既知楽曲音源除去部, 92 空間伝達特性算出部, 93 到来時間算出部, 94 ピークパワー検出部, 95 位置算出部, 111 到来時間差距離算出部, 112 ピークパワー比算出部, 113 位置計算部, 130 逆シフト処理部, 131 相互相関計算部, 132 ピーク検出部, 201 ピークパワー周波数成分割合算出部, 202 位置算出部, 211 位置算出部, 230 IMU, 231 姿勢算出部, 232 位置算出部, 241 位置計算部

Claims (17)

  1.  既知の位置に存在する2の音声出力ブロックより出力される、拡散符号がスペクトル拡散変調された拡散符号信号からなる音声信号を受信する音声受信部と、
     前記2の音声出力ブロックの前記音声信号が、前記音声受信部に到来して受信されるまでの時間である到来時間から特定される距離の差である到来時間差距離に基づいて、前記音声受信部の位置を算出する位置算出部と
     を備える情報処理装置。
  2.  前記2の音声出力ブロックの前記音声信号のそれぞれが前記音声受信部に到来するまでの到来時間を算出する到来時間算出部と、
     前記2の音声出力ブロックの前記音声信号のそれぞれの到来時間と、前記2の音声出力ブロックの既知の位置とに基づいて、前記2の音声出力ブロックと自らとのそれぞれの距離の差を前記到来時間差距離として算出する到来時間差距離算出部とをさらに含み、
     前記位置算出部は、前記到来時間差距離からなる入力層に対して、機械学習により形成されたニューラルネットワークからなる隠れ層を用いた処理を施すことにより、出力層として前記音声受信部の位置を算出する
     請求項1に記載の情報処理装置。
  3.  前記到来時間算出部は、
      前記音声受信部により受信された前記音声信号における拡散符号信号と、前記2の音声出力ブロックより出力された前記音声信号の拡散符号信号との相互相関を計算する相互相関計算部と、
      前記相互相関におけるピークとなる時間を前記到来時間として検出するピーク検出部とを含み、
     前記到来時間差距離算出部は、
      前記ピーク検出部により検出された前記到来時間に基づいた、前記2の音声出力ブロックと前記自らとのそれぞれの距離の差を前記到来時間差距離として算出する
     請求項2に記載の情報処理装置。
  4.  前記位置算出部は、前記到来時間差距離と、前記2の音声出力ブロックのそれぞれより出力される音声信号の、前記相互相関におけるピークとなるタイミングのパワーの比であるピークパワー比とからなる入力層に対して、前記機械学習により形成されたニューラルネットワークからなる隠れ層を用いた処理を施すことにより、出力層として前記音声受信部の位置を算出する
     請求項3に記載の情報処理装置。
  5.  前記ピークにおける前記2の音声出力ブロックのそれぞれより出力される音声信号が、前記音声受信部において受信されるときのパワーをピークパワーとして検出するピークパワー検出部と、
     前記ピークパワー検出部により検出された、前記2の音声出力ブロックのそれぞれより出力される音声信号のピークパワーの比をピークパワー比として算出するピークパワー比算出部とをさらに含む
     請求項4に記載の情報処理装置。
  6.  前記位置算出部は、前記到来時間差距離算出部により算出された前記到来時間差距離と、前記ピークパワー比算出部により算出されたピークパワー比とからなる入力層に対して、前記隠れ層を用いた処理を施すことにより、前記出力層として前記音声受信部の位置を算出する
     請求項5に記載の情報処理装置。
  7.  前記位置算出部は、前記到来時間差距離、前記2の音声出力ブロックのそれぞれより出力される音声信号の前記ピークパワー比、および前記2の音声出力ブロックのそれぞれより出力される音声信号の高周波成分のピークパワーに対する低周波成分のピークパワーの割合であるピークパワー周波数成分割合からなる入力層に対して、前記機械学習により形成されたニューラルネットワークからなる隠れ層を用いた処理を施すことにより、出力層として前記音声受信部の位置を算出する
     請求項4に記載の情報処理装置。
  8.  前記ピークにおける前記2の音声出力ブロックのそれぞれより出力される音声信号の前記低周波成分のピークパワーと、前記高周波成分のピークパワーとを検出し、前記低周波成分のピークパワーに対する、前記高周波成分のピークパワーの割合を前記ピークパワー周波数成分割合として算出するピークパワー周波数成分割合算出部をさらに含む
     請求項7に記載の情報処理装置。
  9.  前記位置算出部は、
      前記音声受信部により受信された、前記2の音声出力ブロックの前記音声信号の到来時間差距離に基づいて、前記機械学習により、前記音声受信部の前記音声出力ブロックにおける前記音声信号の放音方向に対して垂直方向の位置を算出し、
      前記音声受信部を基準とする前記2の音声出力ブロックのそれぞれの方向がなす角度に基づいて、前記音声受信部の前記音声出力ブロックにおける前記音声信号の放音方向の位置を算出する
     請求項2に記載の情報処理装置。
  10.  前記音声受信部の角速度および加速度を検出するIMU(Inertial Measurement Unit)と、
     前記角速度および前記加速度に基づいて、前記自らの姿勢を検出する姿勢検出部とをさらに備え、
     前記位置算出部は、
      前記姿勢検出部により検出された自らの姿勢に基づいて、前記音声受信部を基準とする前記2の音声出力ブロックのそれぞれの方向がなす角度を算出し、
      算出した前記音声受信部を基準とする前記2の音声出力ブロックのそれぞれの方向がなす角度に基づいて、前記音声受信部の前記音声出力ブロックの前記音声信号の放音方向の位置を算出する
     請求項9に記載の情報処理装置。
  11.  前記位置算出部は、前記姿勢検出部により検出された、前記2の音声出力ブロックのそれぞれに自らを向けたときの姿勢に基づいて、前記音声受信部を基準とする前記2の音声出力ブロックのそれぞれの方向がなす角度を算出する
     請求項10に記載の情報処理装置。
  12.  前記位置算出部は、前記音声受信部を基準とする前記2の音声出力ブロックのそれぞれの方向がなす角度に基づいて、内積の関係式から、前記音声受信部の前記音声出力ブロックの前記音声信号の放音方向の位置を算出する
     請求項11に記載の情報処理装置。
  13.  前記音声受信部と異なる他の音声受信部をさらに含み、
     前記位置算出部は、
      前記音声受信部により受信された、前記2の音声出力ブロックの前記音声信号の到来時間差距離に基づいて、機械学習により前記音声受信部の前記音声出力ブロックの前記音声信号の放音方向に対して垂直方向の位置を算出し、
      前記音声受信部と前記他の音声受信部とのそれぞれにより受信された、前記2の音声出力ブロックの前記音声信号の到来時間差距離に基づいて、連立方程式を構成し、解くことにより、前記音声受信部の前記音声出力ブロックの前記音声信号の放音方向の位置、前記音声出力ブロックの前記音声信号の放音方向に対する、前記音声受信部と前記他の音声受信部とを結ぶ方向のなす角度、および前記音声受信部と前記他の音声受信部との距離を算出する
     請求項2に記載の情報処理装置。
  14.  前記音声受信部と異なる他の音声受信部をさらに含み、
     前記位置算出部は、前記音声受信部と前記他の音声受信部との距離が既知である場合、前記音声受信部と前記他の音声受信部とのそれぞれにより受信された、前記2の音声出力ブロックの前記音声信号の到来時間差距離、前記音声出力ブロックの既知の位置の情報、および前記音声受信部と前記他の音声受信部との既知の距離に基づいて、連立方程式を構成し、解くことにより、前記音声受信部の2次元位置、および前記音声出力ブロックの前記音声信号の放音方向に対する、前記音声受信部と前記他の音声受信部とを結ぶ方向のなす角度を算出する
     請求項2に記載の情報処理装置。
  15.  前記情報処理装置は、スマートフォンまたはHMD(Head Mounted Display)である
     請求項1に記載の情報処理装置。
  16.  既知の位置に存在する2の音声出力ブロックより出力される、拡散符号がスペクトル拡散変調された拡散符号信号からなる音声信号を受信する音声受信部を備えた情報処理装置の情報処理方法であって、
     前記2の音声出力ブロックの前記音声信号が、前記音声受信部に到来して受信されるまでの時間である到来時間から特定される距離の差である到来時間差距離に基づいて、前記音声受信部の位置を算出する
     ステップを含む情報処理方法。
  17.  既知の位置に存在する2の音声出力ブロックより出力される、拡散符号がスペクトル拡散変調された拡散符号信号からなる音声信号を受信する音声受信部と、
     前記2の音声出力ブロックの前記音声信号が、前記音声受信部に到来して受信されるまでの時間である到来時間から特定される距離の差である到来時間差距離に基づいて、前記音声受信部の位置を算出する位置算出部と
     してコンピュータを機能させるプログラム。
PCT/JP2022/004997 2021-06-03 2022-02-09 情報処理装置、および情報処理方法、並びにプログラム WO2022254799A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202280037460.4A CN117413197A (zh) 2021-06-03 2022-02-09 信息处理装置、信息处理方法和程序
JP2023525383A JPWO2022254799A1 (ja) 2021-06-03 2022-02-09
EP22815558.6A EP4350381A1 (en) 2021-06-03 2022-02-09 Information processing device, information processing method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021-093484 2021-06-03
JP2021093484 2021-06-03

Publications (1)

Publication Number Publication Date
WO2022254799A1 true WO2022254799A1 (ja) 2022-12-08

Family

ID=84324115

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/004997 WO2022254799A1 (ja) 2021-06-03 2022-02-09 情報処理装置、および情報処理方法、並びにプログラム

Country Status (4)

Country Link
EP (1) EP4350381A1 (ja)
JP (1) JPWO2022254799A1 (ja)
CN (1) CN117413197A (ja)
WO (1) WO2022254799A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001337157A (ja) * 2000-05-26 2001-12-07 Toyo System Kk 超音波を用いた局地測位システム
JP2013195405A (ja) * 2012-03-22 2013-09-30 Fujitsu Ltd 位置推定方法、装置及びプログラム
JP2014220741A (ja) 2013-05-10 2014-11-20 ヤマハ株式会社 通信システム、復調装置及び変調信号生成装置
US20170278519A1 (en) * 2016-03-25 2017-09-28 Qualcomm Incorporated Audio processing for an acoustical environment
CN112379331A (zh) * 2020-11-25 2021-02-19 中国人民解放军战略支援部队信息工程大学 基于扩频声波的室内定位方法及定位系统
WO2021039606A1 (ja) * 2019-08-29 2021-03-04 石井 徹 空間位置算出装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001337157A (ja) * 2000-05-26 2001-12-07 Toyo System Kk 超音波を用いた局地測位システム
JP2013195405A (ja) * 2012-03-22 2013-09-30 Fujitsu Ltd 位置推定方法、装置及びプログラム
JP2014220741A (ja) 2013-05-10 2014-11-20 ヤマハ株式会社 通信システム、復調装置及び変調信号生成装置
US20170278519A1 (en) * 2016-03-25 2017-09-28 Qualcomm Incorporated Audio processing for an acoustical environment
WO2021039606A1 (ja) * 2019-08-29 2021-03-04 石井 徹 空間位置算出装置
CN112379331A (zh) * 2020-11-25 2021-02-19 中国人民解放军战略支援部队信息工程大学 基于扩频声波的室内定位方法及定位系统

Also Published As

Publication number Publication date
JPWO2022254799A1 (ja) 2022-12-08
CN117413197A (zh) 2024-01-16
EP4350381A1 (en) 2024-04-10

Similar Documents

Publication Publication Date Title
CN109804559B (zh) 空间音频系统中的增益控制
US8989401B2 (en) Audio zooming process within an audio scene
EP2737727B1 (en) Method and apparatus for processing audio signals
JP7082126B2 (ja) デバイス内の非対称配列の複数のマイクからの空間メタデータの分析
US20180176705A1 (en) Wireless exchange of data between devices in live events
GB2543276A (en) Distributed audio capture and mixing
US11812235B2 (en) Distributed audio capture and mixing controlling
US11388512B2 (en) Positioning sound sources
US20230273290A1 (en) Sound source distance estimation
CN109314832A (zh) 音频信号处理方法和设备
EP3602100A1 (en) System and method for enabling determination of a position of a receiver within a space
WO2022254799A1 (ja) 情報処理装置、および情報処理方法、並びにプログラム
WO2021261385A1 (ja) 音響再生装置、ノイズキャンセリングヘッドフォン装置、音響再生方法、音響処理プログラム
WO2022163801A1 (ja) 情報処理装置、および情報処理方法、並びにプログラム
CN114651452A (zh) 信号处理装置、方法和程序
Lee et al. Sonicstrument: A Musical Interface with Stereotypical Acoustic Transducers.

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22815558

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 18288107

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2023525383

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 202280037460.4

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 2022815558

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2022815558

Country of ref document: EP

Effective date: 20240103