WO2021124906A1 - 制御装置、信号処理方法およびスピーカ装置 - Google Patents
制御装置、信号処理方法およびスピーカ装置 Download PDFInfo
- Publication number
- WO2021124906A1 WO2021124906A1 PCT/JP2020/045028 JP2020045028W WO2021124906A1 WO 2021124906 A1 WO2021124906 A1 WO 2021124906A1 JP 2020045028 W JP2020045028 W JP 2020045028W WO 2021124906 A1 WO2021124906 A1 WO 2021124906A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- vibration
- signal
- voice
- channels
- control device
- Prior art date
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/027—Spatial or constructional arrangements of microphones, e.g. in dummy heads
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/307—Frequency adjustment, e.g. tone control
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/02—Spatial or constructional arrangements of loudspeakers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/04—Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2201/00—Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
- H04R2201/02—Details casings, cabinets or mounting therein for transducers covered by H04R1/02 but not provided for in any of its subgroups
- H04R2201/023—Transducers incorporated in garment, rucksacks or the like
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2205/00—Details of stereophonic arrangements covered by H04R5/00 but not provided for in any of its subgroups
- H04R2205/022—Plurality of transducers corresponding to a plurality of sound channels in each earpiece of headphones or in a single enclosure
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2400/00—Loudspeakers
- H04R2400/03—Transducers capable of generating both sound as well as tactile vibration, e.g. as used in cellular phones
Definitions
- This technology relates to control devices, signal processing methods and speaker devices.
- the control device includes a voice control unit and a vibration control unit.
- the voice control unit uses voice signals of a plurality of channels having a first voice component and a second voice component different from the first voice component as input signals, and voice control signals for each of the plurality of channels. To generate.
- the vibration control unit generates a vibration control signal for vibration presentation by taking the difference between the audio signals of two of the plurality of channels.
- the vibration control unit may be configured to band-limit the audio signals of the plurality of channels or the difference signals of the audio signals of the plurality of channels to the first frequency or lower.
- the vibration control unit uses a monaural signal obtained by mixing the audio signals of each channel as the vibration control signal for the audio signals of the second frequency or lower, which is lower than the first frequency.
- the difference signal may be output as the vibration control signal.
- the first frequency may be 500 Hz or less.
- the second cutoff frequency may be 150 Hz or less.
- the first voice component may be a voice sound.
- the second audio component may be a sound effect and a background sound.
- the audio signals of the two channels may be audio signals of the left and right channels.
- the vibration control unit may have an adjustment unit that adjusts the gain of the vibration control signal based on an external signal.
- the adjusting unit may be configured to be able to switch between enabling and disabling the generation of the vibration control signal.
- the vibration control unit may have an addition unit that generates a monaural signal that is a mixture of audio signals of the two channels.
- the vibration control unit may have a subtraction unit that takes a difference between the audio signals.
- the subtraction unit is configured so that the degree of subtraction of the difference can be adjusted.
- the plurality of channels have audio signals of a plurality of channels having a first audio component and a second audio component different from the first audio component as input signals.
- a vibration control signal for vibration presentation is generated by taking the difference between the audio signals of two channels out of the plurality of channels.
- the speaker device includes a voice output unit, a vibration output unit, a voice control unit, and a vibration control unit.
- the voice control unit uses voice signals of a plurality of channels having a first voice component and a second voice component different from the first voice component as input signals, and voice control signals for each of the plurality of channels. To drive the audio output unit.
- the vibration control unit generates a vibration control signal for vibration presentation by taking the difference between the audio signals of two channels out of the plurality of channels, and drives the vibration output unit.
- FIG. 1 is a perspective view (a) and a bottom view (b) showing a configuration example of a speaker device according to an embodiment of the present technology.
- the speaker device (voice output device) 100 has a function of actively presenting vibration (tactile sensation) to the user U at the same time as voice.
- the speaker device 100 is, for example, a wearable speaker mounted on both shoulders of the user U.
- the speaker device 100 includes a right speaker 100R, a left speaker 100L, and a connector 100C that connects the right speaker 100R and the left speaker 100L.
- the connector 100C is formed in an arbitrary shape that can be hung on the neck of the user U, and the right speaker 100R and the left speaker 100L are located on both shoulders or the upper chest of the user U.
- FIG. 3 is a schematic cross-sectional view of a main part of the right speaker 100R and the left speaker 100L of the speaker device 100 of FIGS. 1 and 2.
- the right speaker 100R and the left speaker 100L typically have a symmetrical structure on the left and right sides. Since FIG. 3 is only a schematic diagram, it does not necessarily correspond to the shape and dimensional ratio of the speakers shown in FIGS. 1 and 2.
- the right speaker 100R and the left speaker 100L include, for example, an audio output unit 250, a vibration presentation unit 251 and a housing 254 for accommodating them.
- the right speaker 100R and the left speaker 100L typically reproduce the audio signal in stereo.
- the reproduced sound is typically not particularly limited as long as it is a reproducible sound or sound such as a musical piece, a conversation, or a sound effect.
- the voice output unit 250 is an electroacoustic conversion type dynamic speaker.
- the audio output unit 250 is arranged to face the diaphragm 250a, the voice coil 250b wound around the center of the diaphragm 250a, the fixing ring 250c for holding the diaphragm 250a in the housing 254, and the diaphragm 250a. It includes a magnet assembly 250d.
- the voice coil 250b is arranged perpendicular to the direction of the magnetic flux generated in the magnet assembly 250d.
- a voice signal alternating current
- the diaphragm 250a vibrates due to the electromagnetic force acting on the voice coil 250b.
- the diaphragm 250a vibrates in accordance with the signal waveform of the audio signal to generate regenerated sound waves.
- the vibration presentation unit 251 includes a vibration device (vibration) capable of generating tactile vibration such as an eccentric motor (ERM), a linear actuator (LRA), and a piezoelectric element.
- the vibration presentation unit 251 is driven by inputting a vibration signal for tactile presentation prepared separately from the reproduction signal.
- the amplitude and frequency of vibration are not particularly limited.
- the vibration presentation unit 251 is not limited to the case where it is composed of a single vibration device, and may be composed of a plurality of vibration devices. In this case, the plurality of vibrating devices may be driven simultaneously or separately.
- the housing 254 has an opening (sound guide port) 254a for passing audio output (reproduced sound) to the outside on the surface of the audio output unit 250 facing the diaphragm 250a.
- the opening 254a is formed in a straight line along the longitudinal direction of the housing 254, but the present invention is not limited to this, and the opening 254a may be formed of a plurality of through holes or the like.
- the vibration presentation unit 251 is arranged on the inner surface of the housing 254 on the opposite side of the opening 254a, for example.
- the vibration presentation unit 251 presents tactile vibration to the user via the housing 254.
- a part of the housing 254 may be made of a material having a relatively low rigidity.
- the shape of the housing 254 is not limited to the shape shown in the figure, and an appropriate shape such as a disk type or a rectangular parallelepiped type can be adopted.
- FIG. 4 is a block diagram showing a configuration example of the speaker device applied in the present embodiment.
- the speaker device 100 includes a control device 1 that controls the drive of the audio output unit 250 of the right speaker 100R and the left speaker 100L and the vibration presentation unit 251.
- the control device 1 and other elements described later are built in the housing 254 of the right speaker 100R or the left speaker 100L.
- the external device 60 is an external device such as a smartphone or a remote controller, and operation information such as switches and buttons by the user is wirelessly transmitted and input to the control device 1 (described later).
- the control device 1 has a voice control unit 13 and a vibration control unit 14.
- the control device 1 can be realized by hardware elements used in a computer such as a CPU (Central Processing Unit), a RAM (Random Access Memory), and a ROM (Read Only Memory), and necessary software. Even if PLD (Programmable Logic Device) such as FPGA (Field Programmable Gate Array), DSP (Digital Signal Processor), or other ASIC (Application Specific Integrated Circuit) is used in place of or in addition to the CPU. Good.
- PLD Programmable Logic Device
- FPGA Field Programmable Gate Array
- DSP Digital Signal Processor
- ASIC Application Specific Integrated Circuit
- the speaker device 100 includes a storage (storage unit) 11, a decoding unit 12, an audio output unit 15, a vibration output unit 16, and a communication unit 18 as other hardware.
- the voice control unit 13 generates a voice control signal that drives the voice output unit 15 based on a musical piece or other voice signal as an input signal.
- the audio signal is data (audio data) for audio reproduction stored in the storage 11 or the server device 50.
- the vibration control unit 14 generates a vibration control signal that drives the vibration output unit 16 based on the vibration signal.
- the vibration signal is generated by using an audio signal as described later.
- the storage 11 is a storage device such as a non-volatile semiconductor memory capable of storing an audio signal.
- the audio signal is stored in the storage 11 as appropriately encoded digital data.
- the decoding unit 12 decodes the audio signal stored in the storage 11.
- the decoding unit 12 may be omitted if necessary, or may be configured as a partial functional block of the control device 1.
- the communication unit 18 is composed of a communication module that can be connected to the network 10 by wire (for example, a USB cable) or wirelessly such as Wi-Fi or Bluetooth (registered trademark).
- the communication unit 18 is configured as a receiving unit that can communicate with the server device 50 via the network 10 and can acquire an audio signal stored in the server device 50.
- the audio output unit 15 includes, for example, the audio output unit 250 of the right speaker 100R and the left speaker 100L shown in FIG.
- the vibration output unit 16 includes, for example, the vibration presentation unit 251 shown in FIG.
- the control device 1 generates signals (voice control signal and vibration control signal) for driving the voice output unit 15 and the vibration output unit 16 by receiving from the server device 50 or reading from the storage 11.
- the decoding unit 12 performs an appropriate decoding process on the acquired data to take out voice data (voice signal) and input each of them to the voice control unit 13 and the vibration control unit 14.
- the audio data format may be a linear PCM format of Raw data, or a data format encoded with high efficiency by an audio codec such as MP3 or AAC.
- the voice control unit 13 and the vibration control unit 14 perform various processes on the input data.
- the output of the voice control unit 13 (voice control signal) is input to the voice output unit 15, and the output of the vibration control unit 14 (vibration control signal) is input to the vibration output unit 16.
- the audio output unit 15 and the vibration output unit 16 include a D / A converter, a signal amplifier, and a reproduction device (corresponding to the audio output unit 250 and the vibration presentation unit 251), respectively.
- the D / A converter and the signal amplifier may be included in the voice control unit 13 and the vibration control unit 14.
- the signal amplifier may include a volume adjusting unit adjusted by the user U, an equalizing adjusting unit, a vibration amount adjusting unit by gain adjustment, and the like.
- the voice control unit 13 generates a voice control signal that drives the voice output unit 15 based on the input voice data.
- the vibration control unit 14 generates a vibration control signal for driving the vibration output unit 16 based on the input tactile data.
- vibration signals are rarely prepared separately from audio signals in broadcast contents, package contents, net contents, game contents, etc., so that they generally correlate with vibrations.
- High voice is used. That is, processing is performed based on the audio signal, and the generated vibration signal is output.
- the vibration When the vibration is presented, it may be perceived as a vibration that is generally unfavorable to the user. For example, when dialogue, narration, live voice in sports video, etc. in content such as movies, dramas, animations, and games are presented as vibrations, it makes the user feel uncomfortable because his / her body is shaken by the voice of another person. Often.
- the control device 1 of the present embodiment is configured as follows in order to remove or reduce vibration that is uncomfortable or unpleasant for the user in the active vibration wearable speaker.
- control device 1 has a voice control unit 13 and a vibration control unit 14.
- the voice control unit 13 and the vibration control unit 14 are configured to have the following functions in addition to the above-mentioned functions.
- the voice control unit 13 uses voice signals of a plurality of channels having a first voice component and a second voice component different from the first voice component as input signals, and voice control signals for each of the plurality of channels. To generate.
- the voice control signal is a control signal for driving the voice output unit 15.
- the first voice component is typically a voice sound.
- the second voice component is a voice component other than the voice sound, for example, a sound effect or a background sound.
- the second audio component may be both a sound effect and a background sound, or may be either one.
- the plurality of channels are two channels, a left channel and a right channel.
- the number of channels is not limited to two channels on the left and right, and may be three or more channels including the center, rear, and subwoofer.
- the vibration control unit 14 generates a vibration control signal for vibration presentation by taking the difference between the audio signals of two channels out of the plurality of channels.
- the vibration control signal is a control signal for driving the vibration output unit 16.
- the same signal is usually used for the left and right channels for the voice sound, and a vibration control signal in which the voice sound is canceled by the above difference processing can be obtained.
- This makes it possible to generate a vibration control signal based on a voice signal other than a voice sound such as a sound effect or a background sound.
- the vibration detection threshold as shown in Fig. 5 is known as a human tactile mechanism (quoted from “Four cyannels mediate the mechanical aspects of touch” S.J. Bolanowski 1988). Centering on the frequency of 200 to 300 Hz, where humans are most sensitive to vibration, the sensitivity becomes dull as the distance from this frequency band increases. Typically, a vibration presentation range of about several Hz to 1 kHz is considered, but in reality, a frequency of 500 Hz or higher affects the audibility as noise, so the upper limit is set to about 500 Hz.
- the vibration control unit 14 has a low-pass filter function that limits the band of the audio signal to a predetermined frequency (first frequency) or less.
- FIG. 6A shows a spectrum (logarithmic spectrum) 61 of the audio signal
- FIG. 6B shows a spectrum 62 obtained by subjecting the spectrum 61 to a low-pass filter (for example, a cutoff frequency of 500 Hz).
- the vibration control unit 14 generates a vibration signal using the audio signal (spectrum 62) after the low-pass filter.
- the first frequency is not limited to 500 Hz, and may be a frequency lower than this.
- a signal in which the left and right audio signals are band-limited may be output as a two-channel vibration signal as it is.
- a monaural signal in which the left and right channels are mixed is output as the same vibration signal on the left and right.
- This mixed monaural signal is calculated as the average value of the audio signals of the left and right channels, for example, as shown in (Equation 1) below.
- VM (t) is the value of time t in the vibration signal
- AL (t) is the value of time t in the left channel of the band-limited audio signal
- AR (t) is the right of the band-limited audio signal. It is the value of time t in the channel.
- noise generated from dialogue, narration, live commentary, etc. is generated by performing signal processing using (Equation 1) in the vibration control unit 14 of FIG. 4 for digital audio signals for two channels of existing contents. Can be removed or reduced.
- the elements constituting the two-channel stereo audio signal in general contents include voice sounds such as dialogue and narration, sound effects for staging, and background sounds such as music and environmental sounds as three major elements. It is considered to be a composition.
- Content voice voice sound + sound effect + background sound
- the content creator adjusts the sound quality and volume of each component and then mixes them to generate the final content.
- the voice is usually assigned as the same signal in the left and right channels so that it can always be heard from a stable position (front) as the foreground.
- Sound effects and background sounds are usually assigned as different signals on the left and right channels to enhance the sense of presence.
- FIG. 14 is a graph showing signal examples of the sound effect 141 (for example, a chime sound) and the background sound 142 (for example, a musical piece). Each signal has left channel data (upper row) and right channel data (lower row). It can be seen that both the sound effect 141 and the background sound 142 have similar signals in the left and right channels, but different signals.
- the sound effect 141 for example, a chime sound
- the background sound 142 for example, a musical piece.
- Each signal has left channel data (upper row) and right channel data (lower row). It can be seen that both the sound effect 141 and the background sound 142 have similar signals in the left and right channels, but different signals.
- Equation 2 The audio mixing of these two channels is shown in (Equation 2) and (Equation 3).
- AL (t) is the value of time t in the left channel of the audio signal
- AR (t) is the value of time t in the right channel of the audio signal
- S (t) is the value of time t in the voice signal
- T) is the value of time t in the left channel of the sound sound signal
- ER (t) is the value of time t in the right channel of the sound sound signal
- ML (t) is the value of time t in the left channel of the background sound signal.
- MR (t) indicates the value of time t in the right channel of the background sound signal.
- S (t) is canceled by using the signal obtained by performing the difference processing of the left and right channels in the audio signal as the vibration signal VM (t) as shown in the following (Equation 4).
- vibration is stopped in response to audio signals such as dialogue, narration, and live commentary, and unpleasant vibration is eliminated.
- Equation 4 may be AR (t) -AL (t).
- the vibration control unit 14 band-limits the audio signals of the left and right channels, performs differential processing on the band-limited left and right channel audio signals, and outputs the differential-processed audio signals as vibration control signals. It is not limited to the case of doing.
- the vibration control unit 14 vibrates the band-limited difference signal by performing difference processing on the left and right channels of the audio signal and band-limiting the difference-processed audio signal (difference signal). It may be output as a control signal.
- FIG. 7 is a flowchart showing another example of the procedure for generating a vibration signal from the audio signal executed by the vibration control unit 14.
- step S71 the audio signal output from the decoding unit 12 of FIG. 4 is used as an input, and the difference signal between the left and right channels of the audio signal is obtained according to the above (Equation 4).
- step 72 a band-limited audio signal can be obtained by applying a low-pass filter process to the difference signal obtained in step S71 at a cutoff frequency of a predetermined frequency (for example, 500 Hz) or less as in FIG. ..
- step 73 the band limiting signal obtained in step S72 is multiplied by the gain coefficient corresponding to the vibration volume specified by the user in the external UI or the like.
- step 74 the signal obtained in step S73 is output to the vibration output unit 16 as a vibration control signal.
- the voice will be emphasized by applying effects such as reverb and compressor.
- effects such as reverb and compressor.
- different signals are assigned to the left and right channels, but even in this case, the main components of the voice are assigned as the same left and right signals, so the difference signal (Equation 4) makes the voice feel uncomfortable or uncomfortable compared to the normal signal.
- pleasant vibrations are further reduced.
- the VM (t) is obtained by removing the signal (central localization component) of the same magnitude at the same time on both the left and right channels, but (Equation 2) and (Equation 2) and (The EL (t), ER (t), ML (t), and MR (t) terms in the equation 3) also include signals of the same magnitude at the same time. That is, by performing the process of (Equation 4), there is a possibility that the signal that is originally desired to vibrate is damaged and does not vibrate. Further, since VM (t) in (Equation 4) is a difference result, the magnitude of the signal may be smaller than that of the original signal when the correlation between the original signals is high.
- FIG. 8 (A) shows the mixed monaural signal ((L + R) ⁇ 0.5) (corresponding to the spectrum 62 of FIG. 6) of the audio signals of the left and right channels before the difference processing
- FIG. 8 (B) shows the difference processing.
- the spectrum (LR) 81 of the later audio signal is shown respectively.
- the level of the spectrum 81 after the difference processing is generally lowered from the maximum value L1 (for example, -24 dB) of the spetl 62, and the signal below 150 Hz is damaged.
- the band below the lower limit frequency (for example, 150 Hz) of the voice (human voice) is excluded from the target of the difference processing and the left and right signal addition processing of (Equation 1) is performed, and the band exceeding the lower limit frequency is the difference. Remove by processing. As a result, as shown in FIG. 8C, it is possible to maintain the low-frequency signal component to be vibrated.
- the vibration control unit 14 uses the audio signals of each channel for the audio signals of the second frequency (150 Hz in this example) lower than the first frequency (500 Hz in this example).
- a monaural signal mixed with the signals is output as a vibration control signal, and for audio signals exceeding the second frequency and below the first frequency, the difference signal of these audio signals is output as the vibration control signal.
- the values of the first frequency and the second frequency are not limited to the above examples and can be set arbitrarily.
- FIG. 9 is a block diagram showing an example of the internal configuration of the vibration control unit 14 of the speaker device 100 according to the present embodiment.
- the vibration control unit 14 includes an addition unit 91, an LPF unit 92, a subtraction unit 93, a BPF unit 94, a synthesis unit 95, and an adjustment unit 96.
- the addition unit 91 downmixes the two-channel audio signal received via the communication unit 18 into a monaural signal according to (Equation 1).
- the LPF unit 92 sets the main component of the audio signal as a signal having a band of 150 Hz or less by low-pass filtering having a cutoff frequency of 150 Hz.
- the subtraction unit 93 performs difference processing on the two-channel audio signals received via the communication unit 18 according to (Equation 4).
- the BPF unit 94 changes the main component of the audio signal into a signal of 150 Hz to 500 Hz by bandpass filtering in a pass band of 150 Hz to 500 Hz.
- the synthesis unit 95 synthesizes the signal input from the LPF unit 92 and the signal input from the BPF unit 94.
- the adjusting unit 96 is for adjusting the gain of the entire vibration control signal when the vibration volume is adjusted by an input operation from the external device 60 or the like.
- the adjusting unit 96 outputs the gain-adjusted vibration
- the adjusting unit 96 is further configured to enable or disable the addition processing by the addition unit 91, the band limitation processing by the LPF unit 92 or the BPF unit 94, and the generation of the vibration control signal by the subtraction processing by the subtraction unit 93. Good.
- the vibration control signal is generated by directly inputting the audio signal of each channel to the adjusting unit 96.
- a control command for the generation invalidation processing is input to the adjustment unit 96 via the external device 60.
- the subtraction unit 93 may also be configured so that the degree of subtraction when the difference between the audio signals of the left and right channels is taken via the external device 60 can be adjusted. That is, it is not limited to the case where all the generation of the vibration control signal derived from the voice sound is excluded, and the magnitude of the vibration derived from the voice sound may be arbitrarily set according to the preference of the user.
- a difference signal between the left channel of the 2-channel audio signal and the right channel multiplied by a coefficient is used as a vibration control signal.
- the coefficient can be set arbitrarily, and the audio signal to which the coefficient is multiplied may be the left channel instead of the right channel.
- FIG. 10 is a flowchart relating to a series of processes for generating a vibration signal from an audio signal in the present embodiment.
- step S101 the left-right signal addition process of (Equation 1) is performed by the addition unit 91.
- step S102 the LPF unit 92 performs a low-pass filter process having a cutoff frequency of 150 Hz on the signal after the addition process.
- step S103 the left-right signal difference processing of (Equation 4) is performed by the subtraction unit 93.
- a user-adjusted voice reduction coefficient (described later) input from the external device 60 may be taken into consideration.
- step S104 a bandpass filter process having a cutoff lower limit frequency of 150 Hz and an upper limit frequency of 500 Hz is performed by the BPF unit 94 on the signal after the difference process.
- the cutoff upper limit frequency is appropriately selected in the same manner as the lower limit frequency.
- step S105 the synthesis unit 95 performs a synthesis process of the signal after the processing of step S102 and the signal after the processing of step 104.
- step S106 the adjusting unit 96 obtains a signal obtained by multiplying the signal after processing in step S105 by a vibration gain coefficient set by the user in an external UI (User Interface) or the like.
- step S107 the processed signal of step S106 is output to the vibration output units 16 and 251 as a vibration control signal.
- a 5.1 channel or 7.1 channel audio signal is used as a multi-channel audio format.
- the configuration as shown in FIG. 11 is recommended as the speaker arrangement, and the content creator allocates the audio signals of each channel assuming this speaker arrangement.
- human voices such as dialogue and narration are generally assigned to the front center channel (FC in FIG. 11) so that they can be heard from the front of the listener.
- the vibration output unit does not vibrate in response to a human voice, and the user does not feel unpleasant vibration.
- VM (t) ⁇ FL (t) + ⁇ FR (t) + ⁇ SL (t) + ⁇ SR (t) + ⁇ SW (t) ... (Equation 5)
- VM (t) ⁇ FL (t) + ⁇ FR (t) + ⁇ SL (t) + ⁇ SR (t) + ⁇ SW (t) + ⁇ LB (t) + ⁇ RB (t) ... (Equation 6)
- VM (t) is the value of time t in the vibration signal, FL (t), FR (t), SL (t), SR (t), SW (t), LB (t) and RB (t).
- ⁇ , ⁇ , ⁇ , ⁇ , ⁇ and ⁇ are downmix coefficients in each signal.
- the downmix coefficient may be any numerical value, or all channels are equally divided, and for example, each coefficient is set to 0.2 for (Equation 5) and 0.143 for (Equation 6). May be good.
- the signal downmixed with other channels becomes the vibration signal.
- the content transmitter for example, an external device 60 such as a smartphone, a television, or a game machine
- the content transmitter may be controlled to be enabled or disabled by software, or a hardware switch, a button, or the like may be attached to the housing 254 of the speaker device 100. It may be controlled by providing an operation unit (not shown).
- Coeff is a voice reduction coefficient, and takes a positive real number of 1.0 or less. The closer the Coeff is to 1.0, the better the voice reduction effect, and the closer it is to 0, the lower the voice reduction effect.
- the user can freely adjust the degree of reduction of voice (that is, the degree of vibration) according to his / her own preference.
- the coefficients Coeff of (Equation 7), (Equation 8) and (Equation 9) are adjusted by the user in the external device 60.
- the adjusted coefficient Coeff is input from the external device 60 to the subtraction unit 93 (see FIG. 9).
- the subtraction unit 93 the difference processing of the audio signals according to (Equation 7), (Equation 8) and (Equation 9) is performed according to the number of input channels.
- FIG. 12 is a schematic diagram showing stream data for a predetermined time (for example, several ms) related to voice and vibration.
- the stream data 121 includes a header 122, audio data 123, and vibration data 124.
- the stream data 121 may include video data.
- the header 122 stores information on the entire frame, such as a sync word for recognizing the beginning of the stream, the overall data size, and information indicating the data type. After that, voice data 123 and vibration data 124 are stored, respectively. The voice data 123 and the vibration data 124 are transmitted to the speaker device 100 over time.
- the audio data is a left and right 2-channel audio signal and the vibration data is a 4-channel vibration signal.
- a voice sound, a sound effect, a background sound, and a rhythm are set in these four channels.
- Each part of the music band such as vocals, bass, guitar, and drums, may be set.
- the external device 60 is provided with user interface software (UI or GUI (external operation input unit)) 131 that controls the gain of the voice / vibration signal (see FIG. 13).
- UI user interface software
- GUI external operation input unit
- the signal gain of each channel of audio and signal is controlled by the user operating a control tool (for example, a slider) displayed on the screen.
- a control tool for example, a slider
- the user can reduce or eliminate unpleasant vibration according to his / her own preference by reducing the gain of the channel corresponding to the vibration signal that the user feels unfavorable among the output vibration signals. ..
- the vibration when the voice signal and the vibration signal are independently received, the vibration is generated by controlling the channel of the vibration signal channels used for vibration presentation that is not desired to be vibrated on the user interface. Mute or reduce. This allows the user to reduce or eliminate unpleasant vibrations to his or her taste.
- the two-channel stereo sound that is most often used in the existing content has been described, but in some cases, the content of the one-channel monaural sound may be processed.
- the difference processing between the left and right channels is impossible, it is conceivable to estimate and remove the human voice component.
- a monaural channel sound source separation technique for example, it is conceivable to use a monaural channel sound source separation technique.
- Specific examples include NMF (Nonnegative Matrix Factorization) and RPCA (Robust Principal Component Analysis).
- the present technology can have the following configurations.
- a voice control signal is generated for each of the plurality of channels by using voice signals of a plurality of channels having a first voice component and a second voice component different from the first voice component as input signals.
- Voice control unit and A control device including a vibration control unit that generates a vibration control signal for vibration presentation by taking a difference between audio signals of two channels out of the plurality of channels.
- the vibration control unit is a control device that band-limits the audio signals of the plurality of channels or the difference signals of the audio signals of the plurality of channels to the first frequency or lower.
- the vibration control unit is among the audio signals of the plurality of channels.
- a monaural signal obtained by mixing the audio signals of each channel is output as the vibration control signal.
- the first frequency is a control device of 500 Hz or less.
- the first voice component is a control device that is a voice sound. (7) The control device according to any one of (1) to (6) above.
- the second audio component is a control device which is a sound effect and a background sound.
- the audio signals of the two channels are control devices that are audio signals of the left and right channels.
- the vibration control unit is a control device having an adjustment unit that adjusts the gain of the vibration control signal based on an external signal.
- the adjusting unit is a control device configured to be able to switch between valid and invalid generation of the vibration control signal. (11) The control device according to any one of (1) to (9) above.
- the vibration control unit is a control device having an addition unit that generates a monaural signal that is a mixture of audio signals of the two channels.
- the control device according to any one of (1) to (11) above.
- the vibration control unit has a subtraction unit that takes a difference between the audio signals.
- the subtraction unit is a control device configured so that the degree of subtraction of the difference can be adjusted.
- a voice control signal is generated for each of the plurality of channels by using the voice signals of a plurality of channels having the first voice component and the second voice component different from the first voice component as input signals.
- a signal processing method for generating a vibration control signal for vibration presentation by taking a difference between audio signals of two channels out of the plurality of channels.
- Vibration output unit and A voice control signal is generated for each of the plurality of channels by using voice signals of a plurality of channels having a first voice component and a second voice component different from the first voice component as input signals, and the voice is generated.
- the voice control unit that drives the output unit and A speaker device including a vibration control unit that generates a vibration control signal for vibration presentation by taking a difference between audio signals of two channels out of the plurality of channels and drives the vibration output unit.
- Control device 10 External network 11 ... Storage 12 ... Decoding unit 13 ... Voice control unit 14 ... Tactile (vibration) control unit 15 ... Voice output unit 16 ... Tactile (vibration) output unit 20, 22 ... Speaker unit 21 ... Vibration Child 60 ... External device 80 ... Tactile presentation device 100, 200, 300 ... Speaker device 100C ... Connector 100L ... Left speaker 100R ... Right speaker 250 ... Audio output unit 251 ... Tactile (vibration) presentation unit
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Stereophonic System (AREA)
Abstract
本技術の一形態に係る制御装置は、音声制御部と、振動制御部とを具備する。 前記音声制御部は、第1の音声成分と、前記第1の音声成分と異なる第2の音声成分とをそれぞれ有する複数のチャンネルの音声信号を入力信号として、前記複数のチャンネル毎に音声制御信号を生成する。前記振動制御部は、前記複数のチャンネルのうち2つのチャンネルの音声信号の差分をとって振動提示用の振動制御信号を生成する。
Description
本技術は、制御装置、信号処理方法およびスピーカ装置に関する。
近年、触覚再生デバイスにより人間の皮膚などを介して触覚を刺激するアプリケーションが、様々な場面で利用されている。
そのための触覚再生デバイスに関しては、偏心モータ(ERM: Eccentric Rotating Mass)やリニアアクチュエータ(LRA: Linear Resonant Actuator)などが現在多く使用されており、それらは人間の触覚において感度の良い周波数(数100Hz程度)の共振周波数を持つデバイスが広く使用されている(例えば、特許文献1参照)。
そのための触覚再生デバイスに関しては、偏心モータ(ERM: Eccentric Rotating Mass)やリニアアクチュエータ(LRA: Linear Resonant Actuator)などが現在多く使用されており、それらは人間の触覚において感度の良い周波数(数100Hz程度)の共振周波数を持つデバイスが広く使用されている(例えば、特許文献1参照)。
人間の触覚感度が高い周波数帯域が数100Hzであるため、振動再生デバイスにおいても、この数100Hzの帯域をターゲットにしたものが主流となっている。
その他の触覚再生デバイスには、触れている部分の摩擦係数を制御して所望の触覚を実現することを目的とした、静電気ディスプレイや弾性表面波ディスプレイが提案されている(例えば、特許文献2参照)。他にも収束させた超音波による音響放射圧を利用した空中超音波触覚ディスプレイや、触覚受容器に接続された神経や筋肉を電気的に刺激する電気触覚ディスプレイが提案されている。
その他の触覚再生デバイスには、触れている部分の摩擦係数を制御して所望の触覚を実現することを目的とした、静電気ディスプレイや弾性表面波ディスプレイが提案されている(例えば、特許文献2参照)。他にも収束させた超音波による音響放射圧を利用した空中超音波触覚ディスプレイや、触覚受容器に接続された神経や筋肉を電気的に刺激する電気触覚ディスプレイが提案されている。
これらのデバイスを利用したアプリケーションとして、特に音楽リスニングにおいては、ヘッドフォン筐体に振動再生デバイスを組み込み、音楽を再生するのと同時に振動も再生することで、重低音を強調しているものがある。
またヘッドフォンの形態をとらず、首からスピーカをかける形で使用するウェアラブル(ネック)スピーカが提案されている。これらがユーザの体に接することを利用して、スピーカから出力される音声とともに背面から振動をユーザに伝えるもの(例えば、特許文献3参照)や、スピーカ振動の背圧の共振を利用して振動をユーザに伝えるもの(例えば、特許文献4参照)がある。
またヘッドフォンの形態をとらず、首からスピーカをかける形で使用するウェアラブル(ネック)スピーカが提案されている。これらがユーザの体に接することを利用して、スピーカから出力される音声とともに背面から振動をユーザに伝えるもの(例えば、特許文献3参照)や、スピーカ振動の背圧の共振を利用して振動をユーザに伝えるもの(例えば、特許文献4参照)がある。
触覚提示を行うヘッドフォンやウェアラブルスピーカでは、音声信号から振動信号を生成して提示する場合、人の声が多分に含まれた音声信号から振動信号を生成すると、一般的には振動してほしくない違和感や不快感のある振動が発生することがある。
以上のような事情に鑑み、一般的に違和感や不快感のある振動を除去または低減することができる制御装置、信号処理方法およびスピーカ装置を提供することにある。
本技術の一形態に係る制御装置は、音声制御部と、振動制御部とを具備する。
前記音声制御部は、第1の音声成分と、前記第1の音声成分と異なる第2の音声成分とをそれぞれ有する複数のチャンネルの音声信号を入力信号として、前記複数のチャンネル毎に音声制御信号を生成する。
前記振動制御部は、前記複数のチャンネルのうち2つのチャンネルの音声信号の差分をとって振動提示用の振動制御信号を生成する。
前記音声制御部は、第1の音声成分と、前記第1の音声成分と異なる第2の音声成分とをそれぞれ有する複数のチャンネルの音声信号を入力信号として、前記複数のチャンネル毎に音声制御信号を生成する。
前記振動制御部は、前記複数のチャンネルのうち2つのチャンネルの音声信号の差分をとって振動提示用の振動制御信号を生成する。
前記振動制御部は、前記複数のチャンネルの音声信号または前記複数のチャンネルの音声信号の差分信号を、第1の周波数以下に帯域制限するように構成されてもよい。
前記振動制御部は、前記複数のチャンネルの音声信号のうち、前記第1の周波数よりも低い第2の周波数以下の音声信号については各チャンネルの音声信号をミックスしたモノラル信号を前記振動制御信号として出力し、前記第2の周波数を超え、かつ前記第1の周波数以下の音声信号については、前記差分信号を前記振動制御信号として出力するように構成されてもよい。
前記第1の周波数は、500Hz以下であってもよい。
前記第2のカットオフ周波数は、150Hz以下であってもよい。
前記第1の音声成分は、ボイス音であってもよい。
前記第2の音声成分は、効果音および背景音であってもよい。
前記2つのチャンネルの音声信号は、左右のチャンネルの音声信号であってもよい。
前記振動制御部は、外部信号に基づいて、前記振動制御信号のゲインを調整する調整部を有してもよい。
前記調整部は、前記振動制御信号の生成の有効および無効を切り替え可能に構成されてもよい。
前記振動制御部は、前記2つのチャンネルの音声信号をミックスしたモノラル信号を生成する加算部を有してもよい。
前記振動制御部は、前記音声信号の差分をとる減算部を有してもよい。この場合、前記減算部は、前記差分の減数の度合を調整可能に構成される。
本技術の一形態に係る信号処理方法は、第1の音声成分と、前記第1の音声成分と異なる第2の音声成分とをそれぞれ有する複数のチャンネルの音声信号を入力信号として前記複数のチャンネル毎に音声制御信号を生成することを含む。
前記複数のチャンネルのうち2つのチャンネルの音声信号の差分をとって振動提示用の振動制御信号が生成される。
前記複数のチャンネルのうち2つのチャンネルの音声信号の差分をとって振動提示用の振動制御信号が生成される。
本技術の一形態に係るスピーカ装置は、音声出力ユニットと、振動出力ユニットと、音声制御部と、振動制御部とを具備する。
前記音声制御部は、第1の音声成分と、前記第1の音声成分と異なる第2の音声成分とをそれぞれ有する複数のチャンネルの音声信号を入力信号として、前記複数のチャンネル毎に音声制御信号を生成し、前記音声出力ユニットを駆動する。
前記振動制御部は、前記複数のチャンネルのうち2つのチャンネルの音声信号の差分をとって振動提示用の振動制御信号を生成し、前記振動出力ユニットを駆動する。
前記音声制御部は、第1の音声成分と、前記第1の音声成分と異なる第2の音声成分とをそれぞれ有する複数のチャンネルの音声信号を入力信号として、前記複数のチャンネル毎に音声制御信号を生成し、前記音声出力ユニットを駆動する。
前記振動制御部は、前記複数のチャンネルのうち2つのチャンネルの音声信号の差分をとって振動提示用の振動制御信号を生成し、前記振動出力ユニットを駆動する。
以下、本技術に係る各実施形態を、図面を参照しながら説明する。
<第1の実施形態>
(スピーカ装置の基本構成)
図1は、本技術の一実施形態におけるスピーカ装置の一構成例を示す斜視図(a)および底面図(b)である。このスピーカ装置(音声出力装置)100は、音声と同時にユーザUにアクティブに振動(触覚)を提示する機能を有する。図2に示されるように、スピーカ装置100は、例えばユーザUの両肩に載置されるウェアラブルスピーカである。
(スピーカ装置の基本構成)
図1は、本技術の一実施形態におけるスピーカ装置の一構成例を示す斜視図(a)および底面図(b)である。このスピーカ装置(音声出力装置)100は、音声と同時にユーザUにアクティブに振動(触覚)を提示する機能を有する。図2に示されるように、スピーカ装置100は、例えばユーザUの両肩に載置されるウェアラブルスピーカである。
スピーカ装置100は、右スピーカ100Rと、左スピーカ100Lと、右スピーカ100Rと左スピーカ100Lとを連結する連結体100Cとを備える。連結体100Cは、ユーザUの首に掛けることが可能な任意の形状に形成され、右スピーカ100Rおよび左スピーカ100LをユーザUの両肩あるいは胸部上方に位置させる。
図3は、図1および図2のスピーカ装置100の右スピーカ100Rおよび左スピーカ100Lの要部の模式的な断面図である。右スピーカ100Rおよび左スピーカ100Lは、典型的には、左右で対称な構造を有する。なお、図3はあくまでも模式図であるため、図1および図2に示したスピーカの形状や寸法比率に必ずしも対応していない。
右スピーカ100Rおよび左スピーカ100Lは、例えば、音声出力ユニット250と、振動提示ユニット251と、これらを収容する筐体254とを備える。右スピーカ100Rおよび左スピーカ100Lは、典型的には、音声信号をステレオ方式で再生する。再生音は、典型的には、楽曲、会話、効果音など、再生可能な音声あるいは音響であれば特に限定されない。
音声出力ユニット250は、電気音響変換型のダイナミックスピーカである。音声出力ユニット250は、振動板250aと、振動板250aの中心部に巻回されたボイスコイル250bと、振動板250aを筐体254に保持する固定リング250cと、振動板250aに対向配置されたマグネットアセンブリ250dとを備える。ボイスコイル250bは、マグネットアセンブリ250dにおいて発生する磁束の方向に対して垂直に配置される。ボイスコイル250bに音声信号(交流電流)が供給されると、ボイスコイル250bに作用する電磁力によって振動板250aが振動する。振動板250aが音声信号の信号波形に合わせて振動することで、再生音波が発生する。
振動提示ユニット251は、偏心モータ(ERM)やリニアアクチュエータ(LRA)、圧電素子などの触覚振動を発生させることが可能な振動デバイス(振動子)を含む。振動提示ユニット251は、再生信号とは別に用意された触覚提示用の振動信号が入力されることで駆動される。振動の振幅、周波数も特に限定されない。振動提示ユニット251は単一の振動デバイスで構成される場合に限られず、複数の振動デバイスで構成されてもよい。この場合、複数の振動デバイスは同時に駆動されてもよいし、別個に駆動されてもよい。
筐体254は、音声出力ユニット250の振動板250aと対向する面に、音声出力(再生音)を外部に通すための開口部(導音口)254aを有する。開口部254aは、図1に示すように筐体254の長手方向に沿うように直線状に形成されるが、これに限られず、複数の貫通孔などで構成されてもよい。
振動提示ユニット251は、例えば、筐体254の開口部254aと反対側の内面に配置される。振動提示ユニット251は、筐体254を介して触覚振動をユーザへ提示する。触覚振動の伝達性を高めるため、筐体254の一部が剛性の比較的低い材料で構成されてもよい。筐体254の形状は図示する形状に限られず、円板型、直方体型などの適宜の形状が採用可能である。
続いて、スピーカ装置100の制御系について説明する。図4は、本実施形態において適用されるスピーカ装置の一構成例を示すブロック図である。
スピーカ装置100は、右スピーカ100Rおよび左スピーカ100Lの音声出力ユニット250ならびに振動提示ユニット251の駆動を制御する制御装置1を備える。制御装置1および後述するその他の要素は、右スピーカ100Rまたは左スピーカ100Lの筐体254に内蔵される。
外部機器60は、後に詳述するが、スマートフォン、リモートコントローラなどの外部装置であり、ユーザによるスイッチやボタンなどの操作情報が、無線で伝送されて制御装置1(後述)に入力される。
外部機器60は、後に詳述するが、スマートフォン、リモートコントローラなどの外部装置であり、ユーザによるスイッチやボタンなどの操作情報が、無線で伝送されて制御装置1(後述)に入力される。
図3に示すように、制御装置1は、音声制御部13および振動制御部14を有する。
制御装置1は、CPU(Central Processing Unit)、RAM(Random Access Memory)、ROM(Read Only Memory)等のコンピュータに用いられるハードウェア要素および必要なソフトウェアにより実現され得る。CPUに代えて、またはこれに加えて、FPGA(Field Programmable Gate Array)等のPLD(Programmable Logic Device)、あるいは、DSP(Digital Signal Processor)、その他ASIC(Application Specific Integrated Circuit)等が用いられてもよい。制御装置1は、所定のプログラムを実行することで、機能ブロックとしての音声制御部13および振動制御部14が構成される。
制御装置1は、CPU(Central Processing Unit)、RAM(Random Access Memory)、ROM(Read Only Memory)等のコンピュータに用いられるハードウェア要素および必要なソフトウェアにより実現され得る。CPUに代えて、またはこれに加えて、FPGA(Field Programmable Gate Array)等のPLD(Programmable Logic Device)、あるいは、DSP(Digital Signal Processor)、その他ASIC(Application Specific Integrated Circuit)等が用いられてもよい。制御装置1は、所定のプログラムを実行することで、機能ブロックとしての音声制御部13および振動制御部14が構成される。
スピーカ装置100は、その他のハードウェアとして、ストレージ(記憶部)11、復号部12、音声出力部15、振動出力部16および通信部18を備える。
音声制御部13は、入力信号としての楽曲その他の音声信号に基づいて、音声出力部15を駆動する音声制御信号を生成する。音声信号は、ストレージ11あるいはサーバ装置50に格納された音声再生用のデータ(音声データ)である。
振動制御部14は、振動信号に基づいて、振動出力部16を駆動する振動制御信号を生成する。振動信号は、後述するように、音声信号を利用して生成される。
ストレージ11は、音声信号を記憶することが可能な不揮発性半導体メモリ等の記憶装置である。本実施形態において音声信号は、適宜符号化されたデジタルデータとしてストレージ11に記憶される。
復号部12は、ストレージ11に格納された音声信号を復号する。復号部12は、必要に応じて省略されてもよいし、制御装置1の一部の機能ブロックとして構成されてもよい。
通信部18は、ネットワーク10に有線(例えばUSBケーブル)またはWi-Fi、Bluetooth(登録商標)などの無線で接続可能な通信モジュールで構成される。通信部18は、ネットワーク10を介してサーバ装置50と通信可能であり、サーバ装置50に格納された音声信号を取得可能な受信部として構成される。
音声出力部15は、例えば図3に示した右スピーカ100Rおよび左スピーカ100Lの音声出力ユニット250を含む。
振動出力部16は、例えば図3に示した振動提示ユニット251を含む。
振動出力部16は、例えば図3に示した振動提示ユニット251を含む。
(スピーカ装置の典型的な動作)
次に、以上のように構成されるスピーカ装置100の典型的な動作について説明する。
次に、以上のように構成されるスピーカ装置100の典型的な動作について説明する。
制御装置1は、サーバ装置50からの受信、または、ストレージ11からの読み出しにより、音声出力部15および振動出力部16を駆動するための信号(音声制御信号および振動制御信号)を生成する。
次に、復号部12が、取得したデータに対して適切な復号処理を施すことで、音声データ(音声信号)を取り出し、それぞれを音声制御部13および振動制御部14に入力する。
音声データ形式は、RawデータのリニアPCM形式でもよいし、MP3やAACなどのオーディオコーデックによって高能率符号化されたデータ形式でもよい。
音声データ形式は、RawデータのリニアPCM形式でもよいし、MP3やAACなどのオーディオコーデックによって高能率符号化されたデータ形式でもよい。
音声制御部13および振動制御部14は、入力されたデータに対する種々の処理を行う。音声制御部13の出力(音声制御信号)は音声出力部15へ入力され、振動制御部14の出力(振動制御信号)は振動出力部16へ入力される。音声出力部15および振動出力部16は、それぞれD/A変換器、信号増幅器および再生装置(音声出力ユニット250、振動提示ユニット251に相当)を含む。
D/A変換器および信号増幅器は、音声制御部13および振動制御部14に含められてもよい。信号増幅器は、ユーザUによって調整されるボリューム調整部、イコライジング調整部、ゲイン調整による振動量調整部などを含んでもよい。
D/A変換器および信号増幅器は、音声制御部13および振動制御部14に含められてもよい。信号増幅器は、ユーザUによって調整されるボリューム調整部、イコライジング調整部、ゲイン調整による振動量調整部などを含んでもよい。
音声制御部13は、入力される音声データに基づいて、音声出力部15を駆動する音声制御信号を生成する。振動制御部14は、入力される触覚データに基づいて、振動出力部16を駆動する振動制御信号を生成する。
ここで、ウェアラブルスピーカを利用する際、放送コンテンツ、パッケージコンテンツ、ネットコンテンツ、ゲームコンテンツなどにおいて、音声信号とは別に振動信号が用意されていることはほとんどないため、一般的には振動と相関性が高い音声が利用される。つまり、音声信号をベースに処理を行い、生成された振動信号が出力される。
その振動が提示された場合に、ユーザにとって一般的に好ましくない振動として感じる場合がある。例えば、映画・ドラマ・アニメーション・ゲームなどのコンテンツにおけるセリフ、ナレーション、スポーツ映像における実況音声などは、振動として提示されると、他人の声で自分の体が揺さぶられる感覚となり、ユーザが不快に感じることが多い。
その振動が提示された場合に、ユーザにとって一般的に好ましくない振動として感じる場合がある。例えば、映画・ドラマ・アニメーション・ゲームなどのコンテンツにおけるセリフ、ナレーション、スポーツ映像における実況音声などは、振動として提示されると、他人の声で自分の体が揺さぶられる感覚となり、ユーザが不快に感じることが多い。
また、これらの音声成分は音量が比較的大きく、その中心周波数帯域も振動提示周波数範囲内(数100Hz)にあるため、他の振動成分よりも大きく振動することになり、本来振動してほしい衝撃、リズム、感触などの成分がマスクされてしまう。
その一方で、音声信号および振動信号がそれぞれ個別に用意されているコンテンツを再生する場合には、事前にコンテンツクリエータが意図して制作した振動信号を作成しているため、ユーザが違和感を覚えたり不快に思ったりする振動は提示されないはずである。しかしながら、人の感覚の好みは個人差があるため、場合によっては違和感や不快感のある振動が提示されてしまう可能性がある。
その一方で、音声信号および振動信号がそれぞれ個別に用意されているコンテンツを再生する場合には、事前にコンテンツクリエータが意図して制作した振動信号を作成しているため、ユーザが違和感を覚えたり不快に思ったりする振動は提示されないはずである。しかしながら、人の感覚の好みは個人差があるため、場合によっては違和感や不快感のある振動が提示されてしまう可能性がある。
本実施形態の制御装置1は、アクティブ型振動ウェアラブルスピーカにおいて、ユーザにとって違和感や不快感のある振動を除去もしくは低減するため、以下のように構成される。
(制御装置)
制御装置1は、上述のように、音声制御部13と、振動制御部14とを有する。音声制御部13および振動制御部14は、上述した機能のほか、以下のような機能を有するように構成される。
制御装置1は、上述のように、音声制御部13と、振動制御部14とを有する。音声制御部13および振動制御部14は、上述した機能のほか、以下のような機能を有するように構成される。
音声制御部13は、第1の音声成分と、この第1の音声成分と異なる第2の音声成分とをそれぞれ有する複数のチャンネルの音声信号を入力信号とし、上記複数のチャンネル毎に音声制御信号を生成する。音声制御信号とは、音声出力部15を駆動するための制御信号である。
第1の音声成分は、典型的には、ボイス音である。第2の音声成分は、ボイス音以外の他の音声成分、例えば、効果音や背景音である。第2の音声成分は、効果音および背景音の両方であってもよいし、いずれか一方でもよい。
複数のチャンネルは、本実施形態では、左チャンネルおよび右チャンネルの2チャンネルである。チャンネル数は、左右の2チャンネルに限られず、これにセンター、後方、サブウーハなどを加えた3チャンネル以上であってもよい。
複数のチャンネルは、本実施形態では、左チャンネルおよび右チャンネルの2チャンネルである。チャンネル数は、左右の2チャンネルに限られず、これにセンター、後方、サブウーハなどを加えた3チャンネル以上であってもよい。
振動制御部14は、上記複数のチャンネルのうち2つのチャンネルの音声信号の差分をとって振動提示用の振動制御信号を生成する。振動制御信号とは、振動出力部16を駆動するための制御信号である。
後述するように、ボイス音は左右のチャンネルで同一の信号が用いられるのが通常であり、上記差分処理によってボイス音が相殺された振動制御信号が得られる。これにより、効果音や背景音などのボイス音以外の音声信号に基づいた振動制御信号が生成可能となる。
一方、人間の触覚メカニズムとして図5のような振動検出閾値が知られている("Four cahnnels mediate the mechanical aspects of touch" S.J. Bolanowski 1988より引用)。人間が振動を最も敏感に感じる200~300Hzの周波数を中心に、この周波数帯域から離れるにつれて感度が鈍くなる。典型的には、数Hz~1kHz程度が振動提示範囲と考えられるが、現実的には500Hz以上の周波数は騒音として聴感に影響してしまうため、上限は500Hz程度とする。
本実施形態において、振動制御部14は、音声信号を所定の周波数(第1の周波数)以下に帯域制限するローパスフィルタ機能を有する。図6(A)は、音声信号のスペクトル(対数スペクトル)61、図6(B)は、スペクトル61に対してローパスフィルタ(例えばカットオフ周波数500Hz)の処理を施したスペクトル62を示す。振動制御部14は、ローパスフィルタ後の音声信号(スペクトル62)を用いて振動信号を生成する。第1の周波数は500Hzに限られず、これよりも低い周波数であってもよい。
振動信号のチャンネル数に関しては、左右の音声信号それぞれを帯域制限した信号が、そのまま2チャンネルの振動信号として出力されてもよい。しかし、左右で異なる振動を提示されるとユーザが違和感を覚える可能性があり、本実施形態では、左右のチャンネルをミックスしたモノラル信号が、左右とも同じ振動信号として出力される。このミックスモノラル信号は、例えば以下の(式1)のように、左右のチャンネルの音声信号の平均値として算出される。
VM(t)=(AL(t)+AR(t))×0.5・・・・(式1)
ここで、VM(t)は、振動信号における時刻tの値、AL(t)は帯域制限された音声信号の左チャンネルにおける時刻tの値、AR(t)は帯域制限された音声信号の右チャンネルにおける時刻tの値である。
上述したスピーカ装置100の構成により、既存のコンテンツに対して音声および振動の再生が可能となる。本実施形態では既存のコンテンツの2チャンネル分のデジタル音声信号に対して、図4の振動制御部14において(式1)を用いた信号処理を行うことにより、セリフ、ナレーション、実況などから生じる騒音を除去または低減することができる。
ところで、一般的なコンテンツにおける2チャンネルのステレオ音声信号を構成する要素は、セリフやナレーションなどのボイス音と、演出用の効果音と、音楽や環境音などの背景音とを三大要素として含む構成であると考えられる。
(コンテンツ音声 = ボイス音 + 効果音 + 背景音)
(コンテンツ音声 = ボイス音 + 効果音 + 背景音)
コンテンツクリエータは、構成要素毎の音質・音量を調整後にミキシングして最終的なコンテンツを生成する。その際に音声の定位感(音の到来方向性)を考慮して、通常は、ボイスは、前景として安定した位置(正面)から常に聴こえるように左右のチャンネルで同じ信号として割り当てられる。効果音や背景音は通常は、臨場感を高めるために左右のチャンネルで異なる信号として割り当てられる。
図14は、効果音141(例えばチャイム音)および背景音142(例えば楽曲)の信号例を示したグラフである。各信号は、左チャンネルデータ(上の段)および右チャンネルデータ(下の段)を有する。
効果音141および背景音142の双方は、左右のチャンネルにおいて概形は類似するものの、異なる信号になっていることが分かる。
効果音141および背景音142の双方は、左右のチャンネルにおいて概形は類似するものの、異なる信号になっていることが分かる。
この2チャンネルの音声ミキシングについて、(式2)および(式3)に示す。ここで、AL(t)は、音声信号の左チャンネルにおける時刻tの値、AR(t)は音声信号の右チャンネルにおける時刻tの値、S(t)はボイス信号の時刻tの値、EL(t)は効果音信号の左チャンネルにおける時刻tの値、ER(t)は効果音信号の右チャンネルにおける時刻tの値、ML(t)は背景音信号の左チャンネルにおける時刻tの値、MR(t)は背景音信号の右チャンネルにおける時刻tの値を示す。
AL(t)= S(t)+EL(t)+ML(t)・・・(式2)
AR(t)= S(t)+ER(t)+MR(t)・・・(式3)
AR(t)= S(t)+ER(t)+MR(t)・・・(式3)
ここで、以下の(式4)のように音声信号における左右のチャンネルの差分処理を施した信号を振動信号VM(t)として使用することで、S(t)が相殺される。これにより、セリフ、ナレーション、実況などの音声信号に反応して振動しなくなり、不快な振動が除去される。
VM(t)=AL(t)-AR(t)
=EL(t)-ER(t)+ML(t)-MR(t)・・・(式4)
なお、(式4)は、AR(t)-AL(t)であってもよい。
=EL(t)-ER(t)+ML(t)-MR(t)・・・(式4)
なお、(式4)は、AR(t)-AL(t)であってもよい。
振動制御部14は、上述したように、左右チャンネルの音声信号を帯域制限し、帯域制限された左右チャンネルの音声信号を差分処理することで、その差分処理された音声信号を振動制御信号として出力する場合に限られない。例えば図7に示すように、振動制御部14は、音声信号の左右チャンネルを差分処理し、差分処理した音声信号(差分信号)を帯域制限処理することで、その帯域制限された差分信号を振動制御信号として出力するようにしてもよい。
図7は、振動制御部14において実行される音声信号から振動信号を生成する手順の他の一例を示すフローチャートである。
ステップS71において、図4の復号部12から出力された音声信号を入力として、上述の(式4)に従って音声信号の左右チャンネルの差分信号が得られる。
その後ステップ72において、ステップS71で得られた差分信号に対して、図6と同様に所定周波数(例えば500Hz)以下のカットオフ周波数でローパスフィルタ処理を施すことで帯域制限された音声信号が得られる。
その後ステップ72において、ステップS71で得られた差分信号に対して、図6と同様に所定周波数(例えば500Hz)以下のカットオフ周波数でローパスフィルタ処理を施すことで帯域制限された音声信号が得られる。
その後ステップ73において、ステップS72で得られた帯域制限信号に対して、ユーザが外部UIなどで指定した振動ボリュームに対応したゲイン係数が乗じられる。
その後ステップ74において、ステップS73で得られた信号が、振動制御信号として振動出力部16に出力される。
その後ステップ74において、ステップS73で得られた信号が、振動制御信号として振動出力部16に出力される。
コンテンツクリエータのミキシング方法によっては、ボイスにリバーブ、コンプレッサなどのエフェクトをかけて強調する演出が施されることも考えられる。この場合、左右のチャンネルで異なる信号が割り当てられるが、この場合でもボイスの主成分は左右同じ信号として割り当てられるため、差分信号(式4)により、通常の信号と比較してボイスによる違和感や不快感のある振動がより低減される。
一方、上述の(式4)により、VM(t)は、左右の両チャンネルで同じ時刻に同じ大きさの信号(中央定位成分)が除去された信号が得られるが、(式2)および(式3)におけるEL(t)、ER(t)、ML(t)およびMR(t)の各項においても同じ時刻に同じ大きさの信号が含まれる。
つまり、(式4)の処理を行うことにより、本来振動してほしい信号が棄損されて振動しなくなる弊害が生じる場合がある。また、(式4)におけるVM(t)は差分結果であるため、元の信号同士の相関が高い場合には信号の大きさが元の信号より小さくなってしまう可能性がある。
つまり、(式4)の処理を行うことにより、本来振動してほしい信号が棄損されて振動しなくなる弊害が生じる場合がある。また、(式4)におけるVM(t)は差分結果であるため、元の信号同士の相関が高い場合には信号の大きさが元の信号より小さくなってしまう可能性がある。
例えば、図8(A)に、差分処理前の左右チャンネルの音声信号のミックスモノラル信号((L+R)×0.5)(図6のスペクトル62に相当)を、図8(B)に差分処理後の音声信号のスペクトル(L-R)81をそれぞれ示す。差分処理後のスペクトル81は、スペトル62の最大値L1(例えば-24dB)から全体的にレベルが落ち込んでおり、さらに、150Hz未満の信号は、棄損されている。
そこで、ボイス(人の声)の下限周波数(例えば150Hz)以下の帯域には、差分処理の対象から除外して(式1)の左右信号加算処理を行い、下限周波数を超える帯域には、差分処理で除去する。これにより、図8(C)に示すように、振動させたい低域の信号成分の維持を図ることができる。
そこで、ボイス(人の声)の下限周波数(例えば150Hz)以下の帯域には、差分処理の対象から除外して(式1)の左右信号加算処理を行い、下限周波数を超える帯域には、差分処理で除去する。これにより、図8(C)に示すように、振動させたい低域の信号成分の維持を図ることができる。
すなわち、振動制御部14は、複数のチャンネルの音声信号のうち、第1の周波数(本例では500Hz)よりも低い第2の周波数(本例では150Hz)以下の音声信号については各チャンネルの音声信号をミックスしたモノラル信号を振動制御信号として出力し、第2の周波数を超え、かつ第1の周波数以下の音声信号については、これら音声信号の差分信号を振動制御信号として出力する。
なお、第1の周波数および第2の周波数の値は上記の例に限られず、任意に設定可能である。
なお、第1の周波数および第2の周波数の値は上記の例に限られず、任意に設定可能である。
図9は、本実施形態におけるスピーカ装置100の振動制御部14の内部構成の一例を示すブロック図である。
振動制御部14は、加算部91と、LPF部92と、減算部93と、BPF部94と、合成部95と、調整部96とを有する。
振動制御部14は、加算部91と、LPF部92と、減算部93と、BPF部94と、合成部95と、調整部96とを有する。
加算部91は、通信部18を介して受信した2チャンネルの音声信号を(式1)に従ってモノラル信号にダウンミックスする。
LPF部92は、カットオフ周波数150Hzのローパスフィルタリングにより、上記音声信号の主成分を帯域150Hz以下の信号にする。
減算部93は、通信部18を介して受信した2チャンネルの音声信号を(式4)に従って差分処理する。
BPF部94は、通過帯域150Hz~500Hzのバンドパスフィルタリングにより、上記音声信号の主成分を150Hz~500Hzの信号にする。
合成部95は、LPF部92から入力された信号と、BPF部94から入力された信号とを合成する。
調整部96は、外部機器60からの入力操作等によって振動のボリューム調整を行う際の振動制御信号全体のゲインを調整するためのものである。調整部96は、ゲイン調整された振動制御信号を振動出力部16へ出力する。
LPF部92は、カットオフ周波数150Hzのローパスフィルタリングにより、上記音声信号の主成分を帯域150Hz以下の信号にする。
減算部93は、通信部18を介して受信した2チャンネルの音声信号を(式4)に従って差分処理する。
BPF部94は、通過帯域150Hz~500Hzのバンドパスフィルタリングにより、上記音声信号の主成分を150Hz~500Hzの信号にする。
合成部95は、LPF部92から入力された信号と、BPF部94から入力された信号とを合成する。
調整部96は、外部機器60からの入力操作等によって振動のボリューム調整を行う際の振動制御信号全体のゲインを調整するためのものである。調整部96は、ゲイン調整された振動制御信号を振動出力部16へ出力する。
調整部96はさらに、加算部91による加算処理、LPF部92やBPF部94による帯域制限処理、および減算部93による減算処理による振動制御信号の生成の有効および無効を切り替え可能に構成されてもよい。上記振動制御信号の生成を行わない処理(以下、生成無効処理ともいう)の場合、各チャンネルの音声信号は調整部96へ直接入力されることで、振動制御信号が生成される。
生成無効処理を採用するか否かはユーザが任意に設定可能であり、典型的には、外部機器60を介して調整部96へ生成無効処理の制御指令が入力される。
生成無効処理を採用するか否かはユーザが任意に設定可能であり、典型的には、外部機器60を介して調整部96へ生成無効処理の制御指令が入力される。
なお後述するように、減算部93についても、外部機器60を介して、左右のチャンネルの音声信号の差分をとる際の減数の度合いが調整可能に構成されてもよい。つまり、ボイス音に由来する振動制御信号の生成をすべて排除する場合に限られず、ユーザの好みに応じて、ボイス音に由来する振動の大きさが任意に設定可能に構成されてもよい。
減数の度合いの調整方法としては、例えば、2チャンネル音声信号の左チャンネルと、係数を乗じた右チャンネルとの差分信号を振動制御信号とする。係数は任意に設定可能であり、係数が乗じられる音声信号も右チャンネルに代えて左チャンネルであってもよい。
減数の度合いの調整方法としては、例えば、2チャンネル音声信号の左チャンネルと、係数を乗じた右チャンネルとの差分信号を振動制御信号とする。係数は任意に設定可能であり、係数が乗じられる音声信号も右チャンネルに代えて左チャンネルであってもよい。
図10は、本実施形態において、音声信号から振動信号を生成する一連の処理に関するフローチャートである。
ステップS101において、(式1)の左右信号加算処理が加算部91で行われる。その後ステップS102において、加算処理後の信号に対してカットオフ周波数150Hzのローパスフィルタ処理がLPF部92で行われる。
ステップS101において、(式1)の左右信号加算処理が加算部91で行われる。その後ステップS102において、加算処理後の信号に対してカットオフ周波数150Hzのローパスフィルタ処理がLPF部92で行われる。
その後ステップS103において、(式4)の左右信号差分処理が減算部93で行われる。このとき、外部機器60から入力される、ユーザによって調整されたボイス低減係数(後述)が考慮されてもよい。
その後ステップS104において、差分処理後の信号に対してカットオフ下限周波数150Hz、上限周波数500Hzのバンドパスフィルタ処理がBPF部94で行われる。カットオフ上限周波数は、下限周波数と同様に適宜選択される。
その後ステップS105において、ステップS102の処理後の信号と、ステップ104の処理後の信号との合成処理が合成部95で行われる。
その後ステップS104において、差分処理後の信号に対してカットオフ下限周波数150Hz、上限周波数500Hzのバンドパスフィルタ処理がBPF部94で行われる。カットオフ上限周波数は、下限周波数と同様に適宜選択される。
その後ステップS105において、ステップS102の処理後の信号と、ステップ104の処理後の信号との合成処理が合成部95で行われる。
その後ステップS106において、ステップS105の処理後の信号に、ユーザが外部UI(User Interface)などで設定した振動ゲイン係数を乗じた信号が調整部96で得られる。その後ステップS107において、ステップS106の処理後の信号が、振動制御信号として振動出力部16、251に出力される。
以上のように本実施形態によれば、受信した音声信号から振動信号を生成する際に、ユーザにとって違和感や不快感のある振動成分を除去または低減することができる。
<第2の実施形態>
例えば、DVDやBlue-Rayなどのディスク規格、デジタル放送方式、ゲームコンテンツなどにおいては、5.1チャンネルまたは7.1チャンネルの音声信号が、マルチチャンネル音声フォーマットとして使用されている。
これらのフォーマットにおいては、スピーカ配置として図11に示すような構成が推奨されており、コンテンツクリエータは、このスピーカ配置を想定して各チャンネルの音声信号を割り当てている。特にセリフ、ナレーションなど人の声は、受聴者の正面から聞こえるようにフロントセンターチャンネル(図11におけるFC)に割り当てられることが一般的である。
例えば、DVDやBlue-Rayなどのディスク規格、デジタル放送方式、ゲームコンテンツなどにおいては、5.1チャンネルまたは7.1チャンネルの音声信号が、マルチチャンネル音声フォーマットとして使用されている。
これらのフォーマットにおいては、スピーカ配置として図11に示すような構成が推奨されており、コンテンツクリエータは、このスピーカ配置を想定して各チャンネルの音声信号を割り当てている。特にセリフ、ナレーションなど人の声は、受聴者の正面から聞こえるようにフロントセンターチャンネル(図11におけるFC)に割り当てられることが一般的である。
上記のようなマルチチャンネル音声フォーマットを入力とする場合、フロントセンターチャンネルの信号を除いた残りの信号がダウンミックスされ、モノラル信号またはステレオ信号に変換される。その後に、ローパスフィルタ処理(例えば、カットオフ周波数500Hz)がなされた信号が、振動制御信号として出力される。
これにより、人の声に合わせて振動出力部が振動することがなくなり、ユーザは、不快な振動を感じなくなる。
これにより、人の声に合わせて振動出力部が振動することがなくなり、ユーザは、不快な振動を感じなくなる。
5.1チャンネルおよび7.1チャンネルからダウンミックスする場合は、それぞれ、例えば以下の(式5)および(式6)が用いられる。
VM(t)=αFL(t)+βFR(t)+γSL(t)+δSR(t)+εSW(t) ・・・(式5)
VM(t)=αFL(t)+βFR(t)+γSL(t)+δSR(t)+εSW(t)+θLB(t)+μRB(t) ・・・(式6)
VM(t)=αFL(t)+βFR(t)+γSL(t)+δSR(t)+εSW(t)+θLB(t)+μRB(t) ・・・(式6)
ここで、VM(t)は振動信号における時刻tの値、FL(t)、FR(t)、SL(t)、SR(t)、SW(t)、LB(t)およびRB(t)は、各スピーカ配置FL、FR、SL、SR、SW、LBおよびRBに対応した音声信号の時刻tの値である。そして、α、β、γ、δ、ε、θおよびμは、各信号におけるダウンミックス係数である。
ダウンミックス係数は、任意の数値でもよいし、全チャンネルを等分して、例えば各係数を、(式5)であれば0.2、(式6)であれば0.143と設定してもよい。
ダウンミックス係数は、任意の数値でもよいし、全チャンネルを等分して、例えば各係数を、(式5)であれば0.2、(式6)であれば0.143と設定してもよい。
上述したように本実施形態では、マルチチャンネル音声信号のフロントセンターチャンネルの信号を除去または低減した後に、他のチャンネルをダウンミックスした信号が振動信号となる。これにより、マルチチャンネル音声信号を入力とした振動提示時に、人の声(ボイス)に反応した不快な振動を低減または除去することができる。
<第3の実施形態>
本技術の第1および第2の実施形態は、コンテンツにおけるボイスを除去または低減した上で、できるだけ必要な振動成分を維持するが、例えばリズム感を振動として表現することが望ましい音楽コンテンツやユーザの主観的な好みによっては、適さない場合がある。
そこで本技術の実施をユーザが自発的に選択可能な仕組みが設けられる。この場合、コンテンツ送信機(例えば、スマートフォン、テレビ、ゲーム機などの外部機器60)でソフトウェアによって有効・無効の制御がなされてもよいし、スピーカ装置100の筐体254にハードウェアスイッチ、釦などの操作部(図示せず)を設けて制御されてもよい。
本技術の第1および第2の実施形態は、コンテンツにおけるボイスを除去または低減した上で、できるだけ必要な振動成分を維持するが、例えばリズム感を振動として表現することが望ましい音楽コンテンツやユーザの主観的な好みによっては、適さない場合がある。
そこで本技術の実施をユーザが自発的に選択可能な仕組みが設けられる。この場合、コンテンツ送信機(例えば、スマートフォン、テレビ、ゲーム機などの外部機器60)でソフトウェアによって有効・無効の制御がなされてもよいし、スピーカ装置100の筐体254にハードウェアスイッチ、釦などの操作部(図示せず)を設けて制御されてもよい。
有効・無効の制御のみでなくボイス低減度合いの調整機能が設けられてもよい。(式4)に対してボイス低減度合い調整を設けた式を下記の(式7)に、マルチチャンネル時の場合を(式8)(5.1チャンネル)および(式9)(7.1チャンネル)に示す。
VM(t)=AL(t)-AR(t)×Coeff ・・・(式7)
VM(t)=αFL(t)+βFR(t)+γSL(t)+δSR(t)+εSW(t)+FC(t)×Coeff ・・・(式8)
VM(t)=αFL(t)+βFR(t)+γSL(t)+δSR(t)+εSW(t)+θLB(t)+μRB(t)+FC(t)×Coeff ・・・(式9)
VM(t)=AL(t)-AR(t)×Coeff ・・・(式7)
VM(t)=αFL(t)+βFR(t)+γSL(t)+δSR(t)+εSW(t)+FC(t)×Coeff ・・・(式8)
VM(t)=αFL(t)+βFR(t)+γSL(t)+δSR(t)+εSW(t)+θLB(t)+μRB(t)+FC(t)×Coeff ・・・(式9)
ここで、Coeffはボイス低減係数であり、1.0以下の正の実数をとる。Coeffは、1.0に近くなるほどボイス低減効果が向上し、0に近くなるほどボイス低減効果が減少する。
本実施形態ではこのような調整機能を設けることで、ユーザは自身の好みに合わせてボイスの低減度合い(つまり振動の度合)を自由に調整することができる。
本実施形態ではこのような調整機能を設けることで、ユーザは自身の好みに合わせてボイスの低減度合い(つまり振動の度合)を自由に調整することができる。
(式7)、(式8)および(式9)の係数Coeffは、外部機器60においてユーザによって調整される。調整された係数Coeffは、外部機器60から減算部93に入力される(図9参照)。
減算部93では、入力チャンネル数に応じて、(式7)、(式8)および(式9)に従った音声信号の差分処理が行われる。
減算部93では、入力チャンネル数に応じて、(式7)、(式8)および(式9)に従った音声信号の差分処理が行われる。
<第4の実施形態>
上記においては、音声信号から振動信号を生成してユーザに振動を提示する実施形態を説明したが、本実施形態においては、将来的なコンテンツの構成として音声信号とは独立した振動信号が含まれる場合を説明する。
図12は、音声および振動に関する所定の時間分(例えば数ms)のストリームデータを示した概略図である。
上記においては、音声信号から振動信号を生成してユーザに振動を提示する実施形態を説明したが、本実施形態においては、将来的なコンテンツの構成として音声信号とは独立した振動信号が含まれる場合を説明する。
図12は、音声および振動に関する所定の時間分(例えば数ms)のストリームデータを示した概略図である。
このストリームデータ121は、ヘッダ122、音声データ123および振動データ124を含む。ストリームデータ121には、映像データが含まれてもよい。
ヘッダ122は、ストリーム先頭を認識するためのシンクワード、全体のデータサイズ、データ種類を表わす情報などのフレーム全体の情報が格納されている。その後に音声データ123および振動データ124がそれぞれ格納されている。音声データ123および振動データ124は、スピーカ装置100に経時的に伝送される。
ヘッダ122は、ストリーム先頭を認識するためのシンクワード、全体のデータサイズ、データ種類を表わす情報などのフレーム全体の情報が格納されている。その後に音声データ123および振動データ124がそれぞれ格納されている。音声データ123および振動データ124は、スピーカ装置100に経時的に伝送される。
ここで一例として、音声データは左右2チャンネル音声信号、振動データは4チャンネル振動信号であるとする。
この4チャンネルには例えば、ボイス音、効果音、背景音およびリズムが設定される。音楽バンドのボーカル、ベース、ギター、ドラムなどの各パートが設定されてもよい。
この4チャンネルには例えば、ボイス音、効果音、背景音およびリズムが設定される。音楽バンドのボーカル、ベース、ギター、ドラムなどの各パートが設定されてもよい。
外部機器60に、音声・振動信号のゲイン制御を行うユーザインタフェースソフトウェア(UIまたはGUI(外部操作入力部))131が設けられる(図13参照)。その画面に表示された制御ツール(例えばスライダ)をユーザが操作することによって、音声・信号の各チャンネルの信号ゲインが制御される。
これにより、出力される振動信号のうちユーザが好ましくないと感じる振動信号に対応したチャンネルのゲインを低減させることで、ユーザは、自身の好みに合わせて不快な振動を低減または除去することができる。
これにより、出力される振動信号のうちユーザが好ましくないと感じる振動信号に対応したチャンネルのゲインを低減させることで、ユーザは、自身の好みに合わせて不快な振動を低減または除去することができる。
上述したように本実施形態では、音声信号および振動信号を独立して受信した際に、振動提示に用いる振動信号チャンネルのうち振動させたくないチャンネルをユーザインタフェース上で制御することにより、その振動がミュートまたは低減される。これにより、ユーザは、自身の好みに合わせて不快な振動を低減または除去することができる。
<その他の技術>
以上の第1の実施形態では、既存のコンテンツで最も多く使用される2チャンネルステレオ音声において説明したが、場合によっては1チャンネルモノラル音声のコンテンツを処理する場合も考えられる。
この場合、左右チャンネルの差分処理は不可能であるため、人の声の成分を推定して除去することが考えられる。手法としては、例えばモノラルチャンネル音源分離技術を使用することが考えられる。具体的には、NMF(非負値行列因子分解)やRPCA(ロバスト主成分分析)などが挙げられ、これらを使用することで人の声の信号成分を推定し、その推定信号成分を、式1のVM(t)から差し引くことでボイスによる振動が低減される。
以上の第1の実施形態では、既存のコンテンツで最も多く使用される2チャンネルステレオ音声において説明したが、場合によっては1チャンネルモノラル音声のコンテンツを処理する場合も考えられる。
この場合、左右チャンネルの差分処理は不可能であるため、人の声の成分を推定して除去することが考えられる。手法としては、例えばモノラルチャンネル音源分離技術を使用することが考えられる。具体的には、NMF(非負値行列因子分解)やRPCA(ロバスト主成分分析)などが挙げられ、これらを使用することで人の声の信号成分を推定し、その推定信号成分を、式1のVM(t)から差し引くことでボイスによる振動が低減される。
なお、本技術は以下のような構成もとることができる。
(1) 第1の音声成分と、前記第1の音声成分と異なる第2の音声成分とをそれぞれ有する複数のチャンネルの音声信号を入力信号として、前記複数のチャンネル毎に音声制御信号を生成する音声制御部と、
前記複数のチャンネルのうち2つのチャンネルの音声信号の差分をとって振動提示用の振動制御信号を生成する振動制御部と
を具備する制御装置。
(2)上記(1)に記載の制御装置であって、
前記振動制御部は、前記複数のチャンネルの音声信号または前記複数のチャンネルの音声信号の差分信号を、第1の周波数以下に帯域制限する
制御装置。
(3)上記(2)に記載の制御装置であって、
前記振動制御部は、前記複数のチャンネルの音声信号のうち、
前記第1の周波数よりも低い第2の周波数以下の音声信号については各チャンネルの音声信号をミックスしたモノラル信号を前記振動制御信号として出力し、
前記第2の周波数を超え、かつ前記第1の周波数以下の音声信号については、前記差分信号を前記振動制御信号として出力する
制御装置。
(4)上記(2)または(3)に記載の制御装置であって、
前記第1の周波数は、500Hz以下である
制御装置。
(5)上記(3)に記載の制御装置であって、
前記第2のカットオフ周波数は、150Hz以下である
制御装置。
(6)上記(1)~(5)のいずれか1つに記載の制御装置であって、
前記第1の音声成分は、ボイス音である
制御装置。
(7)上記(1)~(6)のいずれか1つに記載の制御装置であって、
前記第2の音声成分は、効果音および背景音である
制御装置。
(8)上記(1)~(7)のいずれか1つに記載の制御装置であって、
前記2つのチャンネルの音声信号は、左右のチャンネルの音声信号である
制御装置。
(9)上記(1)~(8)のいずれか1つに記載の制御装置であって、
前記振動制御部は、外部信号に基づいて、前記振動制御信号のゲインを調整する調整部を有する
制御装置。
(10)上記(9)に記載の制御装置であって、
前記調整部は、前記振動制御信号の生成の有効および無効を切り替え可能に構成される
制御装置。
(11)上記(1)~(9)のいずれか1つに記載の制御装置であって、
前記振動制御部は、前記2つのチャンネルの音声信号をミックスしたモノラル信号を生成する加算部を有する
制御装置。
(12)上記(1)~(11)のいずれか1つに記載の制御装置であって、
前記振動制御部は、前記音声信号の差分をとる減算部を有し、
前記減算部は、前記差分の減数の度合を調整可能に構成される
制御装置。
(13) 第1の音声成分と、前記第1の音声成分と異なる第2の音声成分とをそれぞれ有する複数のチャンネルの音声信号を入力信号として前記複数のチャンネル毎に音声制御信号を生成し、
前記複数のチャンネルのうち2つのチャンネルの音声信号の差分をとって振動提示用の振動制御信号を生成する
信号処理方法。
(14) 音声出力ユニットと、
振動出力ユニットと、
第1の音声成分と、前記第1の音声成分と異なる第2の音声成分とをそれぞれ有する複数のチャンネルの音声信号を入力信号として、前記複数のチャンネル毎に音声制御信号を生成し、前記音声出力ユニットを駆動する音声制御部と、
前記複数のチャンネルのうち2つのチャンネルの音声信号の差分をとって振動提示用の振動制御信号を生成し、前記振動出力ユニットを駆動する振動制御部と
を具備するスピーカ装置。
(1) 第1の音声成分と、前記第1の音声成分と異なる第2の音声成分とをそれぞれ有する複数のチャンネルの音声信号を入力信号として、前記複数のチャンネル毎に音声制御信号を生成する音声制御部と、
前記複数のチャンネルのうち2つのチャンネルの音声信号の差分をとって振動提示用の振動制御信号を生成する振動制御部と
を具備する制御装置。
(2)上記(1)に記載の制御装置であって、
前記振動制御部は、前記複数のチャンネルの音声信号または前記複数のチャンネルの音声信号の差分信号を、第1の周波数以下に帯域制限する
制御装置。
(3)上記(2)に記載の制御装置であって、
前記振動制御部は、前記複数のチャンネルの音声信号のうち、
前記第1の周波数よりも低い第2の周波数以下の音声信号については各チャンネルの音声信号をミックスしたモノラル信号を前記振動制御信号として出力し、
前記第2の周波数を超え、かつ前記第1の周波数以下の音声信号については、前記差分信号を前記振動制御信号として出力する
制御装置。
(4)上記(2)または(3)に記載の制御装置であって、
前記第1の周波数は、500Hz以下である
制御装置。
(5)上記(3)に記載の制御装置であって、
前記第2のカットオフ周波数は、150Hz以下である
制御装置。
(6)上記(1)~(5)のいずれか1つに記載の制御装置であって、
前記第1の音声成分は、ボイス音である
制御装置。
(7)上記(1)~(6)のいずれか1つに記載の制御装置であって、
前記第2の音声成分は、効果音および背景音である
制御装置。
(8)上記(1)~(7)のいずれか1つに記載の制御装置であって、
前記2つのチャンネルの音声信号は、左右のチャンネルの音声信号である
制御装置。
(9)上記(1)~(8)のいずれか1つに記載の制御装置であって、
前記振動制御部は、外部信号に基づいて、前記振動制御信号のゲインを調整する調整部を有する
制御装置。
(10)上記(9)に記載の制御装置であって、
前記調整部は、前記振動制御信号の生成の有効および無効を切り替え可能に構成される
制御装置。
(11)上記(1)~(9)のいずれか1つに記載の制御装置であって、
前記振動制御部は、前記2つのチャンネルの音声信号をミックスしたモノラル信号を生成する加算部を有する
制御装置。
(12)上記(1)~(11)のいずれか1つに記載の制御装置であって、
前記振動制御部は、前記音声信号の差分をとる減算部を有し、
前記減算部は、前記差分の減数の度合を調整可能に構成される
制御装置。
(13) 第1の音声成分と、前記第1の音声成分と異なる第2の音声成分とをそれぞれ有する複数のチャンネルの音声信号を入力信号として前記複数のチャンネル毎に音声制御信号を生成し、
前記複数のチャンネルのうち2つのチャンネルの音声信号の差分をとって振動提示用の振動制御信号を生成する
信号処理方法。
(14) 音声出力ユニットと、
振動出力ユニットと、
第1の音声成分と、前記第1の音声成分と異なる第2の音声成分とをそれぞれ有する複数のチャンネルの音声信号を入力信号として、前記複数のチャンネル毎に音声制御信号を生成し、前記音声出力ユニットを駆動する音声制御部と、
前記複数のチャンネルのうち2つのチャンネルの音声信号の差分をとって振動提示用の振動制御信号を生成し、前記振動出力ユニットを駆動する振動制御部と
を具備するスピーカ装置。
1…制御装置
10…外部ネットワーク
11…ストレージ
12…復号部
13…音声制御部
14…触覚(振動)制御部
15…音声出力部
16…触覚(振動)出力部
20、22…スピーカ部
21…振動子
60…外部機器
80…触覚提示装置
100,200,300…スピーカ装置
100C…連結体
100L…左スピーカ
100R…右スピーカ
250…音声出力ユニット
251…触覚(振動)提示ユニット
10…外部ネットワーク
11…ストレージ
12…復号部
13…音声制御部
14…触覚(振動)制御部
15…音声出力部
16…触覚(振動)出力部
20、22…スピーカ部
21…振動子
60…外部機器
80…触覚提示装置
100,200,300…スピーカ装置
100C…連結体
100L…左スピーカ
100R…右スピーカ
250…音声出力ユニット
251…触覚(振動)提示ユニット
Claims (14)
- 第1の音声成分と、前記第1の音声成分と異なる第2の音声成分とをそれぞれ有する複数のチャンネルの音声信号を入力信号として、前記複数のチャンネル毎に音声制御信号を生成する音声制御部と、
前記複数のチャンネルのうち2つのチャンネルの音声信号の差分をとって振動提示用の振動制御信号を生成する振動制御部と
を具備する制御装置。 - 請求項1に記載の制御装置であって、
前記振動制御部は、前記複数のチャンネルの音声信号または前記複数のチャンネルの音声信号の差分信号を、第1の周波数以下に帯域制限する
制御装置。 - 請求項2に記載の制御装置であって、
前記振動制御部は、前記複数のチャンネルの音声信号のうち、
前記第1の周波数よりも低い第2の周波数以下の音声信号については各チャンネルの音声信号をミックスしたモノラル信号を前記振動制御信号として出力し、
前記第2の周波数を超え、かつ前記第1の周波数以下の音声信号については、前記差分信号を前記振動制御信号として出力する
制御装置。 - 請求項2に記載の制御装置であって、
前記第1の周波数は、500Hz以下である
制御装置。 - 請求項3に記載の制御装置であって、
前記第2のカットオフ周波数は、150Hz以下である
制御装置。 - 請求項1に記載の制御装置であって、
前記第1の音声成分は、ボイス音である
制御装置。 - 請求項1に記載の制御装置であって、
前記第2の音声成分は、効果音および背景音である
制御装置。 - 請求項1に記載の制御装置であって、
前記2つのチャンネルの音声信号は、左右のチャンネルの音声信号である
制御装置。 - 請求項1に記載の制御装置であって、
前記振動制御部は、外部信号に基づいて、前記振動制御信号のゲインを調整する調整部を有する
制御装置。 - 請求項9に記載の制御装置であって、
前記調整部は、前記振動制御信号の生成の有効および無効を切り替え可能に構成される
制御装置。 - 請求項1に記載の制御装置であって、
前記振動制御部は、前記2つのチャンネルの音声信号をミックスしたモノラル信号を生成する加算部を有する
制御装置。 - 請求項1に記載の制御装置であって、
前記振動制御部は、前記音声信号の差分をとる減算部を有し、
前記減算部は、前記差分の減数の度合を調整可能に構成される
制御装置。 - 第1の音声成分と、前記第1の音声成分と異なる第2の音声成分とをそれぞれ有する複数のチャンネルの音声信号を入力信号として前記複数のチャンネル毎に音声制御信号を生成し、
前記複数のチャンネルのうち2つのチャンネルの音声信号の差分をとって振動提示用の振動制御信号を生成する
信号処理方法。 - 音声出力ユニットと、
振動出力ユニットと、
第1の音声成分と、前記第1の音声成分と異なる第2の音声成分とをそれぞれ有する複数のチャンネルの音声信号を入力信号として、前記複数のチャンネル毎に音声制御信号を生成し、前記音声出力ユニットを駆動する音声制御部と、
前記複数のチャンネルのうち2つのチャンネルの音声信号の差分をとって振動提示用の振動制御信号を生成し、前記振動出力ユニットを駆動する振動制御部と
を具備するスピーカ装置。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021565457A JPWO2021124906A1 (ja) | 2019-12-19 | 2020-12-03 | |
CN202080086355.0A CN114846817A (zh) | 2019-12-19 | 2020-12-03 | 控制装置、信号处理方法和扬声器装置 |
DE112020006211.2T DE112020006211T5 (de) | 2019-12-19 | 2020-12-03 | Steuervorrichtung, Signalverarbeitungsverfahren und Lautsprechervorrichtung |
US17/784,056 US12075234B2 (en) | 2019-12-19 | 2020-12-03 | Control apparatus, signal processing method, and speaker apparatus |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019-228963 | 2019-12-19 | ||
JP2019228963 | 2019-12-19 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2021124906A1 true WO2021124906A1 (ja) | 2021-06-24 |
Family
ID=76478747
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2020/045028 WO2021124906A1 (ja) | 2019-12-19 | 2020-12-03 | 制御装置、信号処理方法およびスピーカ装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US12075234B2 (ja) |
JP (1) | JPWO2021124906A1 (ja) |
CN (1) | CN114846817A (ja) |
DE (1) | DE112020006211T5 (ja) |
WO (1) | WO2021124906A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114615575A (zh) * | 2022-02-28 | 2022-06-10 | 歌尔股份有限公司 | 头戴设备 |
JP7508517B2 (ja) | 2022-09-29 | 2024-07-01 | レノボ・シンガポール・プライベート・リミテッド | 情報処理システム、情報処理装置、プログラム、および、制御方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07236199A (ja) * | 1994-02-24 | 1995-09-05 | Sanyo Electric Co Ltd | 立体音場形成方法 |
JPH07288887A (ja) * | 1994-02-22 | 1995-10-31 | Matsushita Electric Ind Co Ltd | ヘッドホン |
JP2017050749A (ja) * | 2015-09-03 | 2017-03-09 | シャープ株式会社 | ウェアラブルスピーカ装置 |
JP2018006954A (ja) * | 2016-06-30 | 2018-01-11 | クラリオン株式会社 | 音響装置 |
JP2018064264A (ja) * | 2016-10-07 | 2018-04-19 | ソニー株式会社 | 情報処理装置、情報処理方法およびプログラム |
WO2019072498A1 (en) * | 2017-10-09 | 2019-04-18 | Deep Electronics Gmbh | MUSICAL NECKLACE |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1090886C (zh) * | 1994-02-22 | 2002-09-11 | 松下电器产业株式会社 | 耳机 |
JPH10200977A (ja) | 1997-01-08 | 1998-07-31 | Sony Corp | スピーカ装置 |
JP3929672B2 (ja) | 2000-03-10 | 2007-06-13 | 独立行政法人科学技術振興機構 | 弾性波を用いたコンピュータ入出力装置 |
JP6445921B2 (ja) | 2015-04-21 | 2018-12-26 | 任天堂株式会社 | 振動信号生成プログラム、振動信号生成システム、振動信号生成装置、振動信号生成方法、およびデータ出力プログラム |
US20170056439A1 (en) | 2015-08-25 | 2017-03-02 | Oxy Young Co., Ltd. | Oxygen-enriched water composition, biocompatible composition comprising the same, and methods of preparing and using the same |
-
2020
- 2020-12-03 DE DE112020006211.2T patent/DE112020006211T5/de active Pending
- 2020-12-03 JP JP2021565457A patent/JPWO2021124906A1/ja active Pending
- 2020-12-03 US US17/784,056 patent/US12075234B2/en active Active
- 2020-12-03 CN CN202080086355.0A patent/CN114846817A/zh active Pending
- 2020-12-03 WO PCT/JP2020/045028 patent/WO2021124906A1/ja active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07288887A (ja) * | 1994-02-22 | 1995-10-31 | Matsushita Electric Ind Co Ltd | ヘッドホン |
JPH07236199A (ja) * | 1994-02-24 | 1995-09-05 | Sanyo Electric Co Ltd | 立体音場形成方法 |
JP2017050749A (ja) * | 2015-09-03 | 2017-03-09 | シャープ株式会社 | ウェアラブルスピーカ装置 |
JP2018006954A (ja) * | 2016-06-30 | 2018-01-11 | クラリオン株式会社 | 音響装置 |
JP2018064264A (ja) * | 2016-10-07 | 2018-04-19 | ソニー株式会社 | 情報処理装置、情報処理方法およびプログラム |
WO2019072498A1 (en) * | 2017-10-09 | 2019-04-18 | Deep Electronics Gmbh | MUSICAL NECKLACE |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114615575A (zh) * | 2022-02-28 | 2022-06-10 | 歌尔股份有限公司 | 头戴设备 |
JP7508517B2 (ja) | 2022-09-29 | 2024-07-01 | レノボ・シンガポール・プライベート・リミテッド | 情報処理システム、情報処理装置、プログラム、および、制御方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114846817A (zh) | 2022-08-02 |
DE112020006211T5 (de) | 2022-11-10 |
US20230007434A1 (en) | 2023-01-05 |
US12075234B2 (en) | 2024-08-27 |
JPWO2021124906A1 (ja) | 2021-06-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1540988B1 (en) | Smart speakers | |
US8199942B2 (en) | Targeted sound detection and generation for audio headset | |
US9848266B2 (en) | Pre-processing of a channelized music signal | |
US7783047B2 (en) | Sound filed reproduction apparatus and sound filed space reproduction system | |
KR20110069112A (ko) | 보청기 시스템에서 바이노럴 스테레오를 렌더링하는 방법 및 보청기 시스템 | |
JP6009547B2 (ja) | オーディオ・システム及びオーディオ・システムのための方法 | |
KR20070065401A (ko) | 오디오 데이터를 처리하는 시스템 및 방법, 프로그램구성요소, 및 컴퓨터-판독가능 매체 | |
US20120057734A1 (en) | Hearing Device System and Method | |
JP2009141972A (ja) | 擬似立体音響出力をモノラル入力から合成する装置および方法 | |
JPH07212898A (ja) | 音声再生装置 | |
EP1225789A2 (en) | A stereo widening algorithm for loudspeakers | |
JP2010164970A (ja) | オーディオシステム及びその出力制御方法 | |
WO2021124906A1 (ja) | 制御装置、信号処理方法およびスピーカ装置 | |
Bai et al. | Upmixing and downmixing two-channel stereo audio for consumer electronics | |
CN114424583A (zh) | 混合近场/远场扬声器虚拟化 | |
JP2006033847A (ja) | 最適な仮想音源を提供する音響再生装置及び音響再生方法 | |
CN111133775B (zh) | 音响信号处理装置以及音响信号处理方法 | |
KR102689827B1 (ko) | 음장적용기능 및 적응적 소음통제기능이 구비되는 블루투스 이어폰 | |
US20220337937A1 (en) | Embodied sound device and method | |
JP3494512B2 (ja) | 多チャンネル音声再生装置 | |
Sigismondi | Personal monitor systems | |
JP7332745B2 (ja) | 音声処理方法及び音声処理装置 | |
CN112291673B (zh) | 一种声相定位电路及设备 | |
KR200314345Y1 (ko) | 5.1채널 헤드폰 시스템 | |
TWI262738B (en) | Expansion method of multi-channel panoramic audio effect |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 20900779 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2021565457 Country of ref document: JP Kind code of ref document: A |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 20900779 Country of ref document: EP Kind code of ref document: A1 |