WO2020003819A1 - 音声信号処理装置、移動装置、および方法、並びにプログラム - Google Patents

音声信号処理装置、移動装置、および方法、並びにプログラム Download PDF

Info

Publication number
WO2020003819A1
WO2020003819A1 PCT/JP2019/020275 JP2019020275W WO2020003819A1 WO 2020003819 A1 WO2020003819 A1 WO 2020003819A1 JP 2019020275 W JP2019020275 W JP 2019020275W WO 2020003819 A1 WO2020003819 A1 WO 2020003819A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound source
audio signal
unit
sound
audio
Prior art date
Application number
PCT/JP2019/020275
Other languages
English (en)
French (fr)
Inventor
壮彦 田中
大祐 吉田
吾朗 白石
希 市川
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to CN201980041171.XA priority Critical patent/CN112292872A/zh
Priority to KR1020207036042A priority patent/KR20210022567A/ko
Priority to JP2020527284A priority patent/JPWO2020003819A1/ja
Priority to EP19826998.7A priority patent/EP3817405A4/en
Priority to US17/253,143 priority patent/US20210274303A1/en
Publication of WO2020003819A1 publication Critical patent/WO2020003819A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60KARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
    • B60K26/00Arrangements or mounting of propulsion unit control devices in vehicles
    • B60K26/02Arrangements or mounting of propulsion unit control devices in vehicles of initiating means or elements
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B62LAND VEHICLES FOR TRAVELLING OTHERWISE THAN ON RAILS
    • B62DMOTOR VEHICLES; TRAILERS
    • B62D15/00Steering not otherwise provided for
    • B62D15/02Steering position indicators ; Steering position determination; Steering aids
    • B62D15/021Determination of steering angle
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/02Spatial or constructional arrangements of loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/005Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo five- or more-channel type, e.g. virtual surround
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R11/00Arrangements for holding or mounting articles, not otherwise provided for
    • B60R11/02Arrangements for holding or mounting articles, not otherwise provided for for radio sets, television sets, telephones, or the like; Arrangement of controls thereof
    • B60R11/0217Arrangements for holding or mounting articles, not otherwise provided for for radio sets, television sets, telephones, or the like; Arrangement of controls thereof for loud-speakers
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R21/00Arrangements or fittings on vehicles for protecting or preventing injuries to occupants or pedestrians in case of accidents or other traffic risks
    • B60R21/01Electrical circuits for triggering passive safety arrangements, e.g. airbags, safety belt tighteners, in case of vehicle accidents or impending vehicle accidents
    • B60R21/013Electrical circuits for triggering passive safety arrangements, e.g. airbags, safety belt tighteners, in case of vehicle accidents or impending vehicle accidents including means for detecting collisions, impending collisions or roll-over
    • B60R21/0134Electrical circuits for triggering passive safety arrangements, e.g. airbags, safety belt tighteners, in case of vehicle accidents or impending vehicle accidents including means for detecting collisions, impending collisions or roll-over responsive to imminent contact with an obstacle, e.g. using radar systems
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60YINDEXING SCHEME RELATING TO ASPECTS CROSS-CUTTING VEHICLE TECHNOLOGY
    • B60Y2400/00Special features of vehicle units
    • B60Y2400/30Sensors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/13Acoustic transducers and sound field adaptation in vehicles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field

Definitions

  • the present disclosure relates to an audio signal processing device, a moving device, a method, and a program. More specifically, for example, an audio signal processing device, a moving device, a method, and a program that control the sound field according to the moving speed of the vehicle by controlling the outputs of a plurality of speakers provided in the vehicle, for example About.
  • Many vehicles are equipped with a plurality of speakers in the interior of the vehicle, and are configured to perform a realistic sound reproduction process. For example, a user such as a driver can adjust the balance between the left and right speakers and the balance between the front and rear speakers to form a desired sound field.
  • a user such as a driver can adjust the balance between the left and right speakers and the balance between the front and rear speakers to form a desired sound field.
  • the reproduction is performed in a fixed sound field according to one adjustment result unless the user changes the adjustment.
  • Patent Document 1 International Publication WO 2006/006553 discloses a configuration in which the behavior of a vehicle, for example, an output sound (notification sound) from a speaker is controlled in accordance with the acceleration of the vehicle to notify that the vehicle has accelerated. Is disclosed.
  • the disclosed configuration of this document is merely a configuration for controlling a notification sound for notifying the behavior of the vehicle, and does not make the user feel a natural change in the sound field according to the behavior of the vehicle. Further, it does not perform sound field control associated with a change in the user's field of view that fluctuates according to the behavior of the vehicle.
  • the present disclosure can control the sound output of a plurality of speakers provided in a vehicle in accordance with the speed, course change, and the like of the vehicle, so that the user can feel a natural change in the sound field according to the behavior of the vehicle.
  • the present invention provides an audio signal processing device, a moving device, a method, and a program.
  • an occupant (user) of a driver or the like is controlled by controlling the sound output of a plurality of speakers provided in the vehicle in accordance with the behavior of the vehicle such as a speed of the vehicle and a change of course.
  • the present invention provides an audio signal processing device, a moving device, a method, and a program for realizing sound field control in conjunction with a change in the viewpoint and the visual field of the user.
  • a first aspect of the present disclosure is: A behavior information acquisition unit that acquires behavior information of the mobile device, A voice control unit that controls output sounds from speakers arranged at a plurality of different positions in the mobile device,
  • the voice control unit includes: An audio signal processing device controls a virtual sound source position of each of separated audio signals obtained from an input sound source in accordance with information obtained by the behavior information obtaining unit to execute a sound field control.
  • a second aspect of the present disclosure includes: An operation unit that changes the behavior of the moving device; A behavior information acquisition unit that acquires behavior information of the mobile device, A voice control unit that controls output sounds from speakers arranged at a plurality of different positions in the mobile device, The voice control unit includes: A mobile device controls a sound field by controlling a virtual sound source position of each of separated voice signals obtained from an input sound source according to information acquired by the behavior information acquiring unit.
  • a third aspect of the present disclosure includes: An audio signal processing method executed in the audio signal processing device, A behavior information acquisition unit for acquiring behavior information of the mobile device; A voice control unit executes a voice control step of controlling output sounds from speakers arranged at a plurality of different positions in the mobile device, In the voice control step, An audio signal processing method for controlling a sound field by controlling a virtual sound source position of each of separated audio signals obtained from an input sound source in accordance with the behavior information acquired in the behavior information acquiring step.
  • a fourth aspect of the present disclosure includes: An audio signal processing method executed in a mobile device, A sensor for detecting the presence or absence of an approaching object to the moving device; A voice control unit executes a voice control step of controlling output sounds from speakers arranged at a plurality of different positions in the mobile device,
  • the voice control step includes: According to an audio signal processing method for controlling a sound field by controlling a virtual sound source position of each of separated audio signals obtained from an input sound source according to presence / absence information of an approaching object acquired by the sensor.
  • a fifth aspect of the present disclosure includes: A program for executing audio signal processing in the audio signal processing device, A behavior information acquisition step for causing the behavior information acquisition unit to acquire behavior information of the mobile device;
  • the voice control unit executes a voice control step of controlling output sounds from speakers arranged at a plurality of different positions in the mobile device, In the voice control step, According to a program for controlling a sound field by controlling a virtual sound source position of each of separated audio signals obtained from an input sound source in accordance with the behavior information acquired in the behavior information acquiring step.
  • the program of the present disclosure is, for example, a program that can be provided by a storage medium or a communication medium provided in a computer-readable format to an information processing device or a computer system that can execute various program codes.
  • a program that can be provided by a storage medium or a communication medium provided in a computer-readable format to an information processing device or a computer system that can execute various program codes.
  • processing according to the program is realized on an information processing device or a computer system.
  • system refers to a logical set of a plurality of devices, and is not limited to a device having each component in the same housing.
  • the virtual sound source position of each of the primary sound source and the ambient sound source which are the separated sound signals obtained from the input sound source, is controlled in accordance with changes in the speed and traveling direction of the vehicle.
  • a speed information obtaining unit that obtains speed information of the mobile device
  • a steering information obtaining unit that obtains steering information of the mobile device
  • a speaker that is arranged at a plurality of different positions in the mobile device. It has a voice control unit for controlling the output sound.
  • the voice control unit is a virtual sound source position of a primary sound source or an ambient sound source, which is a separated sound signal obtained from an input sound source, according to the speed information obtained by the speed information obtaining unit and the steering information obtained by the steering information obtaining unit.
  • This configuration realizes a configuration that controls the sound field by controlling the virtual sound source positions of the primary sound source and the ambient sound source, which are the separated sound signals obtained from the input sound source, according to changes in the speed and traveling direction of the car. Is done. It should be noted that the effects described in this specification are merely examples and are not limited, and may have additional effects.
  • FIG. 9 is a diagram for describing conventional sound field control and sound field control to which sound field control processing (monopole synthesis) used in the processing of the present disclosure is applied.
  • FIG. 4 is a diagram illustrating a sound field control process (Monopole @ Synthesis) used in the process of the present disclosure.
  • FIG. 4 is a diagram illustrating a setting example of a virtual sound source position and a setting example of a sound field.
  • FIG. 4 is a diagram illustrating types of audio signals output from an audio separation unit to an output signal generation unit.
  • FIG. 4 is a diagram illustrating a setting example of a virtual sound source position and a setting example of a sound field.
  • FIG. 4 is a diagram illustrating a setting example of a virtual sound source position and a setting example of a sound field.
  • FIG. 6 is a diagram illustrating a configuration example for setting virtual sound sources at a plurality of different locations for one separated audio signal.
  • 1 is a diagram illustrating a configuration example of a moving device according to the present disclosure.
  • FIG. 3 is a diagram illustrating a detailed configuration and a processing example of a control unit of the audio signal processing device.
  • FIG. 4 is a diagram illustrating a specific example of virtual sound source position and sound field control according to a moving speed of a vehicle.
  • FIG. 4 is a diagram illustrating a specific example of virtual sound source position and sound field control according to a moving speed of a vehicle.
  • FIG. 4 is a diagram illustrating a specific example of virtual sound source position and sound field control according to a moving speed of a vehicle.
  • FIG. 4 is a diagram illustrating a specific example of virtual sound source position and sound field control according to a moving speed of a vehicle.
  • FIG. 4 is a diagram illustrating a specific example of virtual sound source position and sound field control according to a moving speed of a vehicle.
  • FIG. 5 is a diagram illustrating a specific example of virtual sound source position and sound field control according to vehicle steering (handle) setting information.
  • FIG. 5 is a diagram illustrating a specific example of virtual sound source position and sound field control according to vehicle steering (handle) setting information.
  • FIG. 5 is a diagram illustrating a specific example of virtual sound source position and sound field control according to vehicle steering (handle) setting information.
  • FIG. 5 is a diagram illustrating a specific example of virtual sound source position and sound field control according to vehicle steering (handle) setting information.
  • FIG. 5 is a diagram illustrating a specific example of virtual sound source position and sound field control according to vehicle steering (handle) setting information.
  • FIG. 4 is a diagram illustrating a specific example of virtual sound source position and sound field control for warning notification to a driver of a vehicle.
  • FIG. 4 is a diagram illustrating a specific example of virtual sound source position and sound field control for warning notification to a driver of a vehicle. It is a figure explaining composition and processing of a control part which performs a virtual sound source position and a sound field control for a warning notice to a driver of a vehicle.
  • FIG. 5 is a flowchart illustrating a processing sequence executed by the audio signal processing device of the present disclosure.
  • FIG. 1 is a diagram illustrating the following two examples in which sound field control is performed by controlling outputs from a plurality of speakers provided in a vehicle.
  • A conventional sound field control
  • B sound field control processing (monopole synthesis (monopole synthesis) application control) used in the processing of the present disclosure;
  • the vehicle is equipped with five speakers (S1 to S5).
  • S1 to S5 the volume and delay amount of five speakers (S1 to S5) to perform a reproduction process that configures a certain sound field.
  • the sound field can be adjusted by the user's adjustment.
  • the conventional car audio system can only control the sweet spot in the speaker inner area by time alignment between the speakers, and in this case, the sweet spot becomes a narrow area.
  • the sound field means a space where sound exists. By controlling the sound field, a more realistic sound reproduction space can be configured. If the sound source is recorded in a concert hall, it is ideal to construct a sound field that makes the sound spread like a concert hall in front of you. In addition, if the sound source is recorded in a small live house, it is ideal to construct a sound field as if listening to music in a small live house. Further, if the sound source is a sound source composed of a natural environment, for example, a sound of a bird's voice or a murmuring, it is required to construct a sound field having a spread as if in a vast nature.
  • the sweet spot is a space where a predetermined ideal sound field can be felt.
  • the sweet spot becomes narrow. This is because the adjustment of the volume and the delay amount of the five speakers (S1 to S5) must be adjusted for each speaker.
  • a control configuration for adjusting the volume and the delay amount in units of the type (category) of the sound included in the speaker output is referred to as monopole synthesis (Monopole Synthesis).
  • Monopole Synthesis is an earlier U.S. patent application filed by the present applicant, and is described in U.S. Pat. No. 9,749,769, which was issued in the United States. In the processing of the present disclosure described below, sound field control is performed using this monopole synthesis.
  • the virtual sound source positions can be freely arranged for each type of sound (category) output from each speaker. Becomes possible. By performing such control, the sweet spot can be enlarged.
  • An output signal control using monopole synthesis (Monopole @ Synthesis), that is, an example of a configuration of an audio signal processing apparatus that can move a virtual sound source position as shown in FIG. 1B will be described with reference to FIG. I do.
  • FIG. 2 is a diagram illustrating a configuration example of an audio signal processing device that executes audio signal control using monopole synthesis.
  • the audio signal processing device includes a sound source separation unit 10 that inputs a sound source 1, and a plurality of different types of sounds (separated sound signals) generated by the sound source separation unit 10, and outputs the sound from each speaker.
  • the output signal generator 20 generates a signal.
  • the sound source 1 uses a stereo signal of LR2 channel.
  • the sound source 1 is not limited to the LR two-channel signal, but can also use a monaural signal or an audio signal of three or more channels.
  • the LR signal of the sound source 1 is input to the sound source separation unit 10.
  • the sound source separation unit 10 generates the following five types of audio signals based on the LR signal of the sound source 1 and outputs the generated audio signals to the output signal generation unit 20.
  • L signal (2) R signal
  • Primary signal (4) Ambient L signal (5) Ambient R signal
  • the L signal and the R signal are the LR audio signals of the sound source 1 themselves.
  • the primary (Primary) signal, the ambient (ambient) L signal, and the ambient (ambient) R signal are audio signals generated by the sound source separation unit 10 based on the LR signal of the sound source 1.
  • the LR signal of the sound source 1 is input to a time-frequency converter (STFT: Short Time Fourier Transform) 11.
  • STFT time-frequency converter
  • the time-frequency converter (STFT) 11 converts the LR audio signal (the audio signal in the time domain) of the sound source 1 into a signal in the time-frequency domain. From the audio signal in the time-frequency domain, which is the conversion result data, the distribution state of the audio signal of each frequency at each time can be analyzed.
  • the audio signal in the time-frequency domain generated by the time-frequency conversion unit (STFT) 11 is output to the primary sound source probability estimation unit (Neural @ Network) 12 and the multiplier 13.
  • the primary sound source probability estimating unit (Neural @ Network) 12 estimates the probability of being the primary sound source for each of the audio signals of each time and each frequency included in each of the LR signals of the sound source 1 using the learning data generated in advance. I do.
  • the primary sound source is a main sound source (main sound source) included in the LR signal of the sound source 1.
  • a vocal sound is a primary sound source for a sound source such as a song composed of vocals and sounds of various musical instruments. The setting is such that the bird's voice becomes the primary sound source in the environmental sound composed of the bird's voice, the murmuring sound, and the like.
  • the primary sound source extraction process executed by the primary sound source probability estimating unit (Neural @ Network) 12 is executed based on the result data of the previously executed learning process.
  • the primary sound source probability estimating unit (Neural @ Network) 12 uses the learning data generated in advance, that is, the learning data that is the result data of the primary sound source extraction process performed using various sound sources, to generate the input sound source 1. For the audio signal of each frequency and each frequency included in the LR signal, the probability that the signal is the primary sound source is estimated.
  • the primary sound source probability estimating unit (Neural Network) 12 generates a primary probability mask based on the above estimation and outputs it to the multiplier 13.
  • the primary probability mask is a mask in which, for example, for each audio signal of each time and each frequency, a probability estimation value from an audio signal having a high probability of being a primary sound source to an audio signal having a low probability, for example, a value of 1 to 0 is set.
  • the multiplier 13 multiplies the audio signal in the time-frequency domain generated by the time-frequency converter (STFT) 11 by a primary probability mask generated by the primary sound source probability estimator (Neural @ Network) 12. Input to an inverse time transform unit (ISTFT :: Inverse Short Time Fourier Transform) 14
  • An inverse frequency-time conversion unit (ISTFT) 14 multiplies the time-frequency domain audio signal generated by the time-frequency conversion unit (STFT) 11 by a primary probability mask generated by a primary sound source probability estimation unit (Neural @ Network) 12.
  • the obtained multiplication result is input, and the frequency-time inverse conversion processing (ISTFT) is executed. That is, a process is performed to restore the audio signal in the time domain from the signal in the time frequency domain.
  • the result is a multiplication result of the time domain audio signal primary probability mask generated by the inverse frequency-time conversion unit (ISTFT) 14, and the audio signal that is more likely to be the audio signal corresponding to the primary sound source (primary audio signal) is output. Is larger, and an audio signal having a lower possibility of being an audio signal corresponding to the primary sound source (primary audio signal) has a lower output.
  • the output of the inverse frequency-time conversion unit (ISTFT) 14 is output to the output signal generation unit 20 as a primary (Primary) audio signal.
  • the subtraction unit 15 performs a process of subtracting a primary (Primary) audio signal output from the inverse frequency-time conversion unit (ISTFT) 14 from the L signal of the sound source 1.
  • This subtraction process is a process of subtracting a primary (Primary) audio signal from an audio signal included in the L signal, and is a process of acquiring and extracting a signal other than the primary (Primary) audio signal included in the L signal. That is, this is a process of calculating an audio signal such as an ambient sound that is not the main sound source.
  • the calculation signal of the subtraction unit 15 is an ambient (Ambient) L signal.
  • the ambient (Ambient) L signal is an audio signal mainly including an ambient sound other than the main audio included in the L signal of the sound source 1.
  • the subtraction unit 16 executes a process of subtracting a primary (Primary) audio signal output from the inverse frequency-time conversion unit (ISTFT) 14 from the R signal of the sound source 1.
  • This subtraction process is a process of subtracting the primary (Primary) audio signal from the audio signal included in the R signal, and is a process of acquiring and extracting a signal other than the primary (Primary) audio signal included in the R signal. That is, this is a process of calculating an audio signal such as an ambient sound that is not the main sound source.
  • the calculation signal of the subtraction unit 15 is defined as an ambient (Ambient) R signal.
  • the ambient (Ambient) R signal is an audio signal mainly including an ambient sound other than the main audio included in the R signal of the sound source 1.
  • the sound source separation unit 10 outputs the following five types of audio signals to the output signal generation unit 20 based on the LR signal of the sound source 1.
  • L signal (2) R signal (3) Primary signal (4) Ambient L signal (5) Ambient R signal
  • the output signal generation unit 20 generates an audio signal to be output from each of the plurality of speakers based on a plurality of different types of audio signals input from the sound source separation unit 10.
  • the output signal generation unit 20 has the following five signal processing units as signal processing units corresponding to five types of audio signals input from the sound source separation unit 10.
  • L signal processing unit 21L (2) R signal processing unit 21R, (3) Primary signal processing unit (P signal processing unit) 21P, (4) Ambient L signal processing unit (AL signal processing unit) 21AL, (5) an ambient R signal processing unit (AR signal processing unit) 21AR;
  • the L signal processing unit 21L receives the L signal from the sound source separation unit 10 and generates an L signal output signal for a plurality of (n) speakers serving as output destinations.
  • the L signal processing unit 21L includes a delay unit and an amplification unit associated with each of the speakers as output destinations.
  • the L signal input from the sound source separation unit 10 is subjected to a delay process in a delay unit associated with each speaker, and then subjected to an amplification process in an amplification unit, and is then added to an addition unit 22-1 to 22 corresponding to each speaker. n, and are added to the outputs from the other signal processing units in the addition units 22-1 to 22-n, and then output to each of the n speakers.
  • a delay-amplification processing unit corresponding to the number of speakers is configured in parallel in the L signal processing unit 21L.
  • S1 shown in the L signal processing unit 21L in the figure performs delay processing and amplification processing of the L signal output to the speaker (S1) that is the output destination.
  • S2 performs a delay process and an amplification process on the L signal output to the output destination speaker (S2).
  • Sn performs the delay processing and the amplification processing of the L signal output to the speaker (Sn) that is the output destination.
  • the R signal processing unit 21R receives the R signal from the sound source separation unit 10 and generates an output signal of the R signal to a plurality of (n) speakers as output destinations.
  • the R signal processing unit 21R also includes a delay unit and an amplification unit associated with each of the speakers that are output destinations.
  • the R signal input from the sound source separation unit 10 is subjected to a delay process in a delay unit associated with each speaker, and then subjected to an amplification process in an amplification unit to add to an addition unit 22-1 to 22 n, and are added to the outputs from the other signal processing units in the addition units 22-1 to 22-n, and then output to each of the n speakers.
  • the primary (Primary) signal processing unit (P signal processing unit) 21P receives the primary (Primary) signal from the sound source separation unit 10 and outputs the primary (Primary) signal to a plurality of (n) speakers serving as output destinations. Generate a signal.
  • the primary (Primary) signal processing unit 21P also includes a delay unit and an amplification unit associated with each of the speakers as output destinations.
  • the primary signal input from the sound source separation unit 10 is subjected to a delay process in a delay unit associated with each speaker, and then subjected to an amplification process in an amplification unit, so that an addition unit 22 associated with each speaker. -1 to n, added to the outputs from the other signal processing units in the adders 22-1 to n, and then output to each of the n speakers.
  • An ambient L signal processing unit (AL signal processing unit) 21AL receives an ambient L signal from the sound source separation unit 10 and outputs an ambient L signal to a plurality of (n) speakers serving as output destinations. Generate an output signal for the signal.
  • the ambient (ambient) L signal processing unit 21AL also includes a delay unit and an amplification unit associated with each of the speakers as output destinations.
  • the ambient (ambient) L signal input from the sound source separation unit 10 is subjected to delay processing in a delay unit associated with each speaker, and then subjected to amplification processing in an amplification unit, and is then added to an addition unit associated with each speaker.
  • the signals are output to 22-1 to 22-n, added to the outputs from other signal processing units in the adders 22-1 to 22-n, and output to each of the n speakers.
  • An ambient R signal processing unit (AR signal processing unit) 21AR receives an ambient R signal from the sound source separation unit 10 and outputs the ambient R signal to a plurality of (n) speakers serving as output destinations. Generate an output signal for the signal.
  • the ambient R signal processing unit 21AR also includes a delay unit and an amplification unit associated with each of the speakers as output destinations.
  • the ambient (ambient) R signal input from the sound source separation unit 10 is subjected to delay processing in a delay unit associated with each speaker, and then subjected to amplification processing in an amplification unit, and is then added to an addition unit associated with each speaker.
  • the signals are output to 22-1 to 22-n, added to the outputs from other signal processing units in the adders 22-1 to 22-n, and output to each of the n speakers.
  • the addition unit 22-1 is an addition unit corresponding to the speaker (S1) that is an output destination, and includes the following five signal processing units: (1) L signal processing unit 21L, (2) R signal processing unit 21R. (3) Primary signal processing unit (P signal processing unit) 21P, (4) Ambient L signal processing unit (AL signal processing unit) 21AL, (5) an ambient R signal processing unit (AR signal processing unit) 21AR; These processing units add the signal resulting from the delay processing and amplification processing of each signal to generate an audio signal to be output to the speaker (S1).
  • the addition units 22-2 to 22-n are addition units corresponding to speakers (S2 to Sn) to be output, and include the following five signal processing units: (1) L signal processing unit 21L, (2) R signal processing unit 21R. (3) Primary signal processing unit (P signal processing unit) 21P, (4) Ambient L signal processing unit (AL signal processing unit) 21AL, (5) an ambient R signal processing unit (AR signal processing unit) 21AR; In these processing units, the signal resulting from the delay processing and amplification processing of each signal is added to generate an audio signal to be output to the speakers (S2 to Sn).
  • the n speakers (S1 to Sn) serving as output destinations perform a unique delay processing for each of the L signal, the R signal, the primary (Primary) signal, the ambient (Ambient) L signal, and the ambient (Ambient) R signal. And an audio signal composed of the result of addition of the signal subjected to the specific amplification processing.
  • Each signal processing unit of the output signal generation unit 20 that is, (1) L signal processing unit 21L, (2) R signal processing unit 21R, (3) Primary signal processing unit (P signal processing unit) 21P, (4) Ambient L signal processing unit (AL signal processing unit) 21AL, (5) an ambient R signal processing unit (AR signal processing unit) 21AR;
  • the delay amount of the delay unit corresponding to each speaker and the amplification amount of the amplifying unit configured in each of these signal processing units can be dynamically changed.
  • the virtual sound source position of each signal can be changed by changing the delay amount of the delay unit corresponding to each speaker configured in each signal processing unit and the amplification amount of the amplification unit. That is, the following five types of audio signals output by the sound source separation unit 10: (1) L signal (2) R signal (3) Primary (4) ambient L signal (5) Ambient R signal Changing these virtual sound source positions to various positions Becomes possible. That is, the virtual sound source positions corresponding to the respective sound source types (1) to (5) can be changed and controlled to various positions, and various sound fields can be configured by this control.
  • FIG. 3 shows two different virtual sound source position and sound field setting examples.
  • Virtual sound source position and sound field setting example 1 is such that a virtual primary sound source position is set at a center position in front of a vehicle, a virtual L signal sound source position and a virtual R signal sound source position are set at left and right in front of the vehicle, and further, a virtual rear sound source position is set.
  • the configuration is such that a virtual ambient L signal sound source position and a virtual ambient R signal sound source position are set on the left and right.
  • the sound field has an elliptical shape (ellipse indicated by a dotted line) connecting these five virtual sound source positions.
  • FIG. 3 (a) is a plan view observed from above, and shows the sound field as a plane and roughly circular. However, the actual sound field is a flat, almost spherical sound field having a bulge in the vertical direction. It becomes.
  • FIG. 3B is a plan view observed from the top similarly to FIG. 3A, and shows the sound field as a planar ellipse, but the actual sound field has a bulge in the vertical direction. The sound field becomes a flat, almost elliptical spherical sound field.
  • the settings of the two types of virtual sound source positions and sound fields shown in FIGS. 3A and 3B are based on the processing amounts of the delay unit and the amplification unit of each signal processing unit included in the output signal generation unit 20 shown in FIG. It is possible to set by adjusting the (delay amount, amplification amount), and it is possible to set a virtual sound source of various settings other than the settings shown in FIG. 3 and a sound field.
  • the following five types of audio signals are used as the types of audio signals for which the virtual sound source position is set.
  • L signal (2) R signal (3) Primary signal (4) Ambient L signal (5) Ambient R signal are output signals from the audio separation unit 10 shown in FIG. These are five types of signals output to the generation unit 20.
  • the types of audio signals (separated audio signals) output from the audio separation unit 10 to the output signal generation unit 20 shown in FIG. 2 are not limited to these five types.
  • the voice separation unit 10 can generate a number of different signals as shown in FIG. 4 and output the generated signals to the output signal generation unit 20, for example.
  • FIG. 4 shows the following audio signals. (1) Original L signal (L) (2) Original R signal (R) (3) Original signal (C) (4) Primary L signal (PL) (5) Primary R signal (PR) (6) Primary signal (P) (7) Ambient L signal (AL) (8) Ambient R signal (AR) (9) Ambient signal (A)
  • the original L signal (L) and the original R signal (R) are LR signals of the input sound source, respectively.
  • the original signal (C) is an addition signal (L + R) of the LR signal of the input sound source. If the input sound source is a monaural signal, it is the input signal.
  • the primary L signal (PL) is a primary audio signal whose main component is a main audio signal extracted from the original L signal.
  • the primary R signal (PR) is a primary audio signal whose main component is a main audio signal extracted from the original R signal.
  • the primary signal (P) is a main audio signal extracted from the original C signal (L + R or input monaural signal). Is the primary audio signal.
  • the ambient L signal (AL) is an ambient audio signal whose main component is an audio signal other than the main audio signal extracted from the original L signal.
  • the ambient R signal (AR) is an ambient audio signal whose main component is an audio signal other than the main audio signal extracted from the original R signal.
  • the ambient signal (A) is an ambient audio signal whose main component is an audio signal other than the main audio signal extracted from the original C signal (L + R or an input monaural signal).
  • the time-frequency conversion unit (STFT) 11 in the sound source separation unit 10 of the audio signal processing device configuration described with reference to FIG. 2 is configured to individually process the L signal and the R signal of the input sound source 1.
  • the frequency-time inverse converter (ISTFT) 13 is also configured to separately process the L signal and the R signal, thereby generating the primary L signal (PL) and the primary R signal (PR). Is possible.
  • the other signals shown in FIG. 4 can be generated by addition processing and subtraction processing with other signals.
  • FIGS. 5 and 6 show the following five different virtual sound source position and sound field setting examples.
  • AR Each virtual sound source position is set at two positions.
  • (3) L, R, PL, PR virtual sound source positions are each one position, and AL, AR virtual sound source positions are each two positions.
  • Example of sound field configuration set (4)
  • the sound field is an ellipse indicated by a dotted line in each figure, and has an elliptical shape connecting a plurality of virtual sound source positions.
  • 5 and 6 are plan views observed from above and show the sound field as a flat ellipse as described with reference to FIG. 3 above, but the actual sound field is in the vertical direction.
  • the sound field becomes a flat elliptical spherical shape with a bulge.
  • the virtual sound source positions of the AL and AR are set to two different positions. As described above, it is also possible to set virtual sound sources at a plurality of different locations for one separated audio signal generated by the sound source separation unit 10.
  • FIG. 7 shows a configuration of an audio signal processing apparatus including the sound source separation unit 10 and the output signal generation unit 20 described above with reference to FIG.
  • the configuration shown in FIG. 7 is a configuration example for setting the virtual sound source of the ambient L signal at two different positions.
  • the ambient L signal output from the sound source separation unit 10 is divided into two signals, an ambient L1 signal (AL1) processing unit 21AL1 and an ambient L2 signal (AL2) processing unit 21AL2, which are configured in the output signal generation unit 20. Input to the processing unit in parallel.
  • Each of the ambient L1 signal (AL1) processing unit 21AL1 and the ambient L2 signal (AL2) processing unit 21AL2 has a delay unit and an amplification unit associated with each speaker (S1 to Sn).
  • the ambient L1 signal (AL1) processing unit 21AL1 and the ambient L2 signal (AL2) processing unit 21AL2 are provided with the processing amounts of the delay unit and the amplification unit associated with each speaker (S1 to Sn), that is, the delay amount and the amplification amount. Are set differently to generate an output signal for each speaker. By performing such processing, it is possible to set virtual sound sources at a plurality of different locations for one separated audio signal generated by the sound source separation unit 10.
  • one or more virtual sound source positions corresponding to various different types of audio signals separated from the input sound source are set at various positions. It becomes possible. Since the sound field is defined by the virtual sound source position of each separated sound signal and its output, the sound field of various regions and shapes can be set freely by adjusting the virtual sound source position of each separated sound signal and its output. Control becomes possible.
  • the processing amounts of the delay unit and the amplification unit of each signal processing unit 21 in the output signal generation unit 20, that is, the delay amount of the delay unit and the amplification amount of the amplification unit are dynamic. Various change processing is possible.
  • the present disclosure controls the delay amount of the delay unit and the amplification amount of the amplification unit of each signal processing unit 21 in the output signal generation unit 20 in accordance with the change in the speed and the traveling direction of the vehicle using this characteristic. This realizes a configuration for dynamically changing the virtual sound source position and the sound field of each separated audio signal.
  • specific examples of the configuration and processing of the present disclosure will be described.
  • the mobile device and the audio signal processing device according to the present disclosure provide a sound including the audio separation process in the audio separation unit 10 and the output signal generation process of each speaker in the output signal generation unit 20 described with reference to FIGS.
  • a field control process that is, a monopole synthesis (Monopole Synthesis) is applied, and a virtual sound source position and a sound field of each sound source (L, R, P, AL, AR, etc.) are dynamically (according to the behavior of the vehicle). (Dynamic).
  • a sound field control that follows the viewpoint and field of view of the driver (user) driving the vehicle becomes possible.
  • FIG. 8 is a diagram illustrating a configuration example of the mobile device 100 of the present disclosure.
  • the audio signal processing device 120 is mounted inside the mobile device 100.
  • the moving device 100 includes an audio signal processing device 120, an operation unit 131, a driving unit 132, a sound source input unit 141, a user input unit 142, and a sensor 143.
  • the audio signal processing device 120 includes a control unit 121, a storage unit 122, an input unit 123, and an output unit 124.
  • These constituent elements may be mounted on an in-vehicle communication network based on an arbitrary standard such as, for example, a CAN (Controller Area Network), a LIN (Local Interconnect Network), a LAN (Local Area Network), or a FlexRay (registered trademark). And are connected by a bus or the like.
  • CAN Controller Area Network
  • LIN Local Interconnect Network
  • LAN Local Area Network
  • FlexRay registered trademark
  • the operation unit 131 is an operation unit such as an accelerator, a brake, and a steering wheel (steering wheel) of the mobile device (vehicle) 100.
  • the driving unit 132 includes components used for driving the vehicle, such as an engine and tires.
  • the control unit 121 of the audio signal processing device 120 performs the sound source separation processing and the audio signal generation processing described above with reference to FIG. That is, sound source control and sound field control using Monopole Synthesis are executed.
  • the control unit 121 executes the signal processing described above with reference to FIG. 2 by applying one or both of hardware and software.
  • the program stored in the storage unit 122 is executed by a program execution unit such as a CPU in the control unit 121 to perform signal processing.
  • the storage unit 122 is a storage unit that stores a program executed by the control unit 121, parameters applied to signal processing, and the like. It is also used as a storage area for audio data for reproduction.
  • the input unit 123 is an input unit that can input various data from the sound source input unit 141, the user input unit 142, the sensor 143, and the like, as shown in the drawing.
  • the sound source input unit 141 includes a media playback unit such as a CD or a flash memory, and an input unit for net distribution data.
  • the user input unit 142 is a switch that can be operated by the user, for example, an input unit that inputs a music reproduction start instruction, a stop, and the like.
  • the sensor 143 is, for example, a sensor such as a distance sensor, and detects an object approaching the moving device 100 and the like.
  • the output unit 124 includes a display unit for image output and the like in addition to a speaker for outputting sound.
  • control unit 121 performs the sound source separation processing and the audio signal generation processing described above with reference to FIG. That is, sound source control and sound field control to which monopole synthesis (Monopole @ Synthesis) is applied are executed.
  • the control unit 121 includes a speed information acquisition unit 201, a steering information acquisition unit 202, and a voice control unit 203.
  • the voice control unit 203 has a sound source separation unit 203a and an output signal generation unit 203b.
  • the speed information acquisition unit 201 acquires the speed information of the moving device 100, that is, the vehicle, from the operation unit 131 and the drive unit 132.
  • the steering information acquisition unit 202 acquires the mobile device 100, that is, the steering (handle) setting information of the vehicle from the operation unit 131 and the drive unit 132. Note that these pieces of information can be acquired via an in-vehicle communication network such as the CAN (Controller Area Network) described above.
  • the voice control unit 203 inputs the sound source information 251 via the input unit 123, the speed information of the mobile device 100 from the speed information obtaining unit 201, and the steering (steering wheel) of the mobile device 100 from the steering information obtaining unit 202. ) Enter the setting information.
  • the sound source information 251 is, for example, a LR2 channel stereo sound source, like the sound source 1 described above with reference to FIG.
  • media reproduction audio data such as a CD or a flash memory, and net distribution audio data.
  • the voice control unit 203 stores the speed information of the mobile device 100 input from the speed information acquisition unit 201, or the steering (handle) setting information of the mobile device 100 input from the steering information acquisition unit 202, and at least one of these pieces of information. In response, processing for controlling the virtual sound source position and the sound field is executed. That is, the audio control unit 203 generates and outputs output audio signals to a plurality of speakers included in the output unit 124.
  • the sound source separation processing and the audio signal generation processing described above with reference to FIG. 2 are performed. That is, sound source control and sound field control to which monopole synthesis (Monopole @ Synthesis) is applied are realized.
  • the process of generating output audio signals for a plurality of speakers constituting the output unit 124 is the same as the sound source separation process of the sound source separation unit 10 and the audio signal generation process of the audio signal generation unit 20 described above with reference to FIG. Done by
  • the sound source separation unit 203a of the sound control unit 203 inputs the sound source information 251 via the input unit 123, and separates the input sound source into a plurality of different types of sound signals. Specifically, for example, it is separated into the following five audio signals. (1) L signal (2) R signal (3) Primary signal (4) Ambient L signal (5) Ambient R signal
  • the output signal generation unit 203b of the audio control unit 203 executes an output signal generation process for outputting each of the above five separated audio signals to each speaker.
  • the output signal generation process is performed by a unique delay process and a unique amplification process for each separated audio signal input to each speaker. That is, control is performed using Monopole Synthesis. By this processing, control is performed to set the virtual sound source position of each separated audio signal to various positions and to set sound fields having various regions and shapes.
  • the voice control unit 203 executes, for example, a process of controlling a virtual sound source position and a sound field according to the speed information of the mobile device 100 input from the speed information acquisition unit 201. In addition, a process of controlling a virtual sound source position and a sound field according to the steering (handle) setting information of the mobile device 100 input from the steering information acquisition unit 202 is executed.
  • the output signal generation unit 203 b of the voice control unit 203 sets the speed information of the mobile device 100 input from the speed information acquisition unit 201 and the steering (handle) setting of the mobile device 100 input from the steering information acquisition unit 202.
  • the amount of delay of the delay unit corresponding to each speaker and the amount of amplification of the amplifying unit are changed in the signal processing unit corresponding to each separated audio signal in the output signal generating unit described with reference to FIG. Perform control.
  • the virtual sound source position and the sound field are changed according to changes in the speed and traveling direction of the mobile device 100.
  • FIG. 9 illustrates a control example of changing the virtual sound source position and the sound field according to the speed information of the mobile device 100 input from the speed information acquisition unit 201.
  • a substantially circular dotted line in the center indicates the sound field when the vehicle is stopped (@ t1).
  • L, R, P, AL, and AR in the circular dotted line represent the L signal, the R signal, the primary (Primary) signal, the ambient (Ambient) L signal, and the ambient (Ambient) when the vehicle is traveling at low speed (@ t1).
  • R signal indicating the virtual sound source position of each of these audio signals.
  • L, R, P, AL, and AR in the vertically-long elliptical dotted line are an L signal, an R signal, a primary (Primary) signal, an ambient (ambient) L signal, and an ambient (ambient), respectively, during traveling (@ t2).
  • R signal indicating the virtual sound source position of each of these audio signals.
  • the voice control unit 203 performs control to change the virtual sound source position and the sound field of each separated voice signal according to the moving speed of the vehicle and the steering (handle) setting information.
  • FIG. 10 shows the following two virtual sound sources and sound field setting examples.
  • A1 Example of virtual sound source and sound field setting when traveling at 30 km / h
  • b1 Example of virtual sound source and sound field setting when traveling at 100 km / h
  • FIG. 10 (a1) is a plan view observed from above and shows the sound field as a substantially circular plane, but the actual sound field is a flat, almost spherical sound field having a bulge in the vertical direction. It becomes.
  • a virtual sound source and a sound field setting example when traveling at a speed of 100 km / h the major axis is slightly longer than the length of the vehicle, and the minor axis extends in the longitudinal direction of the vehicle substantially equal to the vehicle width.
  • An elliptical sound field slightly ahead is set.
  • a virtual primary sound source position (P) is set at a position in front of the vehicle on the circumference of the ellipse.
  • a virtual L sound source position (L) and a virtual R sound source position (R) are set at both side positions slightly behind the virtual primary sound source position (P).
  • FIG. 10 (b1) is also a plan view observed from above, as in (a1), and shows the sound field as a flat ellipse.
  • the actual sound field is a flat type having a bulge in the vertical direction. It becomes an elliptical sound field.
  • the sound field at a speed of 100 km / h is a sound at a speed of 30 km / h
  • the shape has been changed to extend forward from the field. That is, the longer axis direction (front-back direction) becomes longer as the speed increases. In the short axis direction (width direction), the width becomes narrower as the speed increases.
  • FIG. 11 is a diagram illustrating an example of a visual field range of a driver (user) driving a vehicle.
  • FIG. 11 shows an example of the following two driver visual field ranges.
  • the field of view of the driver when traveling at low speed (30 km / h) is a wide range in front.
  • the setting is such that the driver can drive while observing the surrounding conditions because the vehicle is traveling slowly.
  • (b2) the driver's field of view when traveling at high speed (100 km / h) is a narrow field in front. That is, since the vehicle is traveling at high speed, the driver gazes only in a limited narrow range in the traveling direction of the vehicle and drives.
  • FIGS. 12 and 13 the correspondence between the sound field setting example according to the speed described above with reference to FIG. 10 and the driver's visual field range according to the speed described with reference to FIG. Will be explained.
  • FIG. 12 shows an example of the virtual sound source and sound field setting at the time of (a1) traveling at 30 km / h described with reference to FIG. 10 and the (a2) traveling at a low speed (30 km / h) described with reference to FIG. It is the figure which showed the visual field range of the driver side by side.
  • FIG. 13 shows (b1) a virtual sound source and a sound field setting example at the time of traveling at 100 km / h described with reference to FIG. 10 and (b2) traveling at a high speed (100 km / h) described with reference to FIG.
  • FIG. 7 is a diagram showing the driver's field of view at the time.
  • control when controlling the sound field in accordance with the moving speed of the vehicle, control is performed such that the sound field has a spread substantially matching the visual field range of the driver.
  • the driver can hear a reproduced sound having a sound field substantially matching the visual field range corresponding to the moving speed of the vehicle. As a result, the driver can hear the reproduced sound without causing discomfort.
  • FIG. 14 shows the following two virtual sound sources and sound field setting examples.
  • C1 Example of virtual sound source and sound field setting when traveling to the left curve
  • d1 Example of virtual sound source and sound field setting when traveling to the right curve
  • FIG. 14 (c1) is a plan view observed from above and shows the sound field as a flat ellipse, but the actual sound field is a flat elliptical spherical sound field having a vertical bulge. It becomes.
  • an elliptical sound field having a long axis from the right front to the left rear corresponding to the traveling direction of the vehicle is set.
  • a virtual primary sound source position (P) is set at the upper right position of the ellipse.
  • a virtual L sound source position (L) and a virtual R sound source position (R) are set at both side positions slightly behind the virtual primary sound source position (P).
  • a virtual ambient L sound source position (AL) and a virtual ambient R sound source position (AR) are set at both side positions near the center of the vehicle.
  • (d1) is a plan view observed from above, as in (c1), and shows the sound field as a flat ellipse, but the actual sound field is a flat type having a bulge in the vertical direction. It becomes an elliptical sound field.
  • the sound field at the time of traveling on the left curve and (d1) the sound field at the time of traveling on the right curve are both elliptical sound fields whose major axis is set in the vehicle traveling direction.
  • FIG. 15 is a diagram illustrating an example of a visual field range of a driver (user) driving a vehicle.
  • FIG. 15 shows examples of the following two driver visual field ranges.
  • C2 Driver's field of view when driving to the left curve
  • d2 Driver's field of view when driving to the right curve
  • the driver's field of view when traveling in a left curve is set to the front left direction, which is the traveling direction of the vehicle. That is, the vehicle is traveling in a curve to the left, and the driver is driving while gazing at the left direction, which is the traveling direction.
  • (d2) the driver's field of view when traveling in a right curve is set to the front right, which is the traveling direction of the vehicle. That is, the vehicle is traveling in a curve to the right, and the driver is driving while gazing at the right direction, which is the traveling direction.
  • FIG. 16 shows (c1) a virtual sound source and a sound field setting example when traveling with a left curve described above with reference to FIG. 14, and (c2) a driver while traveling with a left curve described with reference to FIG.
  • FIG. 3 is a diagram showing the visual field ranges side by side.
  • (C1) The shape of the cross section of the front left portion of the elliptical sound field having a long axis extending from the left front to the right rear of the vehicle shown in the virtual sound source and sound field setting example when traveling in the left curve is (c2) left direction It almost matches the driver's field of view when driving on a curve. In other words, the driver feels (hears) a reproduced sound having a sound field having a spread substantially corresponding to his / her visual field range.
  • FIG. 17 shows an example of the virtual sound source and sound field setting at the time of (d1) rightward curve traveling described with reference to FIG. 14 and the (d2) rightward curve traveling described with reference to FIG.
  • FIG. 3 is a diagram showing the driver's field of view side by side.
  • (D1) A virtual sound source when traveling in a rightward curve, the cross-sectional shape of the right front part in an elliptical sound field having a long axis extending from the right front to the left rear of the vehicle shown in the sound field setting example is (d2) right direction It almost matches the driver's field of view when driving on a curve. In other words, the driver feels (hears) a reproduced sound having a sound field having a spread substantially corresponding to his / her visual field range.
  • the control when controlling the sound field in accordance with the steering (handle) setting information of the vehicle, the control is performed such that the sound field has a spread substantially matching the visual field range of the driver. Execute By performing such a sound field control, the driver can hear a reproduced sound having a sound field that substantially matches the visual field range according to the steering (handle) setting information of the vehicle. As a result, the driver can hear the reproduced sound without causing discomfort.
  • This embodiment is an example of controlling a virtual sound source position and a sound field for a warning notification (alarm) to a driver of a vehicle.
  • the virtual sound source position and the sound field are set in the curve direction.
  • processing such as setting a virtual sound source position and a sound field at the approach position is performed.
  • FIG. 18 shows the following two virtual sound sources and sound field setting examples.
  • E Example of virtual sound source and sound field setting when driving to the left curve (for alarm output setting)
  • F Virtual sound source and sound field setting example when driving in the right curve (for alarm output setting)
  • each separated sound signal (L, R, P, AL, AR) and a sound field are set.
  • each separated sound signal (L, R, P, AL, AR) and a sound field are set.
  • the driver of the vehicle listens to the sound intensively from the traveling direction of the vehicle, and the driver naturally receives attention in that direction, and can perform safe driving.
  • the alarm output setting can be set ON / OFF by the user. When the alarm output setting is OFF, the sound field setting as shown in FIGS. Done.
  • FIG. 19 is an example of processing for setting a virtual sound source position and a sound field at an approaching position when an object such as another vehicle is approaching the vehicle.
  • another vehicle (object) is approaching from the rear left of the vehicle.
  • the separated sound signals (L, R, P, AL, AR) and the sound field are set concentrated on the rear left of the vehicle corresponding to the approach position of the another vehicle (object).
  • the driver of the vehicle will listen to the sound intensively from the left rear of the vehicle, and it will be naturally noticed in that direction, and it will be possible to sense that the vehicle is approaching and drive safely. Obviously.
  • the control unit 121 illustrated in FIG. 20 includes a speed information acquisition unit 201, a steering information acquisition unit 202, and a voice control unit 203, as described above with reference to FIG. Further, a sensor information acquisition unit 204 is provided.
  • the voice control unit 203 has a sound source separation unit 203a and an output signal generation unit 203b.
  • the speed information acquisition unit 201 acquires the speed information of the moving device 100, that is, the vehicle, from the operation unit 131 and the drive unit 132.
  • the steering information acquisition unit 202 acquires the mobile device 100, that is, the steering (handle) setting information of the vehicle from the operation unit 131 and the drive unit 132.
  • the sensor information acquisition unit 204 acquires, via the input unit 123, sensor detection information 252 that is detection information of a sensor 127 such as a distance sensor. Note that these pieces of information can be acquired via an in-vehicle communication network such as the CAN (Controller Area Network) described above.
  • the voice control unit 203 inputs the sound source information 251 via the input unit 123 and the sensor detection information 252 from the sensor information acquisition unit 204.
  • the sound source information 251 is, for example, a LR2 channel stereo sound source, like the sound source 1 described above with reference to FIG.
  • media reproduction audio data such as a CD or a flash memory, and net distribution audio data.
  • the voice control unit 203 executes a process of controlling a virtual sound source position and a sound field according to the sensor detection information 252 input from the sensor information acquisition unit 204. That is, the audio control unit 203 generates and outputs output audio signals to a plurality of speakers included in the output unit 124. That is, the sound source separation processing and the audio signal generation processing described above with reference to FIG. 2 are performed. That is, sound source control and sound field control to which monopole synthesis (Monopole @ Synthesis) is applied are realized.
  • the process of generating output audio signals for a plurality of speakers constituting the output unit 124 is the same as the sound source separation process of the sound source separation unit 10 and the audio signal generation process of the audio signal generation unit 20 described above with reference to FIG. Done by
  • the sound source separation unit 203a of the sound control unit 203 inputs the sound source information 251 via the input unit 123, and separates the input sound source into a plurality of different types of sound signals. Specifically, for example, it is separated into the following five audio signals. (1) L signal (2) R signal (3) Primary signal (4) Ambient L signal (5) Ambient R signal
  • the output signal generation unit 203b of the audio control unit 203 executes an output signal generation process for outputting each of the above five separated audio signals to each speaker.
  • the output signal generation process is performed by a unique delay process and a unique amplification process for each separated audio signal input to each speaker. That is, control is performed using Monopole Synthesis. By this processing, control is performed to set the virtual sound source position of each separated audio signal to various positions and to set sound fields having various regions and shapes.
  • the output signal generation unit 203b of the voice control unit 203 executes a process of controlling a virtual sound source position and a sound field according to the sensor detection information 252 input from the sensor information acquisition unit 204.
  • this control for example, a sound field control that allows a driver (user) driving a vehicle to hear a sound from a direction to which attention is directed is possible.
  • the right side of FIG. 20 illustrates a control example of changing the virtual sound source position and the sound field according to the sensor detection information 252 input from the sensor information acquisition unit 204.
  • the sound field is set during normal traveling.
  • a sound field of a substantially circular dotted line surrounding the vehicle is set.
  • An L signal, an R signal, a primary (Primary) signal, an ambient (Ambient) L signal, an ambient (Ambient) R signal, and a virtual sound source position of each of these audio signals are set on the dotted line of the circular sound field.
  • Time t2 indicates a state in which another vehicle is approaching from the rear left.
  • the virtual sound source positions of all the separated audio signals are set to the rear left, which is the vehicle red streak position, and the sound field is also set to the rear left.
  • the driver hears the sound intensively from the rear left, and turns his attention to the rear left. As a result, it is possible to sense the approach of the vehicle from the rear left and to perform safe driving to avoid a collision.
  • Step S101 First, in step S101, the control unit of the audio signal processing device inputs at least one of speed information of a moving device such as a vehicle, steering information, and sensor detection information.
  • a moving device such as a vehicle
  • the processing of the following steps S102 to S103, the processing of steps S104 to S105, and the processing of steps S106 to S107 are executed in parallel.
  • Step S102 the control unit determines whether there is a speed change. When a change in the speed of the mobile device is detected, the process proceeds to step S103. If no speed change is detected, the process returns to step S101.
  • Step S103 is processing executed when a change in the speed of the mobile device is detected in step S102.
  • the control unit controls the virtual sound source position and the sound field of each separated audio signal according to the speed change.
  • the voice control unit 203 in the control unit 121 shown in FIG. 9 responds to the speed information of the mobile device 100 input from the speed information acquisition unit 201 by using each separated voice signal in the output signal generation unit described with reference to FIG. Control is performed to change the delay amount of the delay unit corresponding to each speaker and the amplification amount of the amplifier unit, which are configured in the corresponding signal processing unit. That is, control is performed to change the virtual sound source position and the sound field according to the change in the speed of the mobile device 100.
  • Step S104 the control unit determines whether or not the steering (handle) setting of the mobile device 100 has changed. If a change in the steering (handle) setting of the mobile device is detected, the process proceeds to step S105. If no change is detected, the process returns to step S101.
  • Step S105 is processing executed when a change in the steering (handle) setting of the mobile device 100 is detected in step S104.
  • the control unit executes a virtual sound source position and a sound field control of each separated audio signal according to a change in the steering (handle) setting of the mobile device.
  • the voice control unit 203 in the control unit 121 shown in FIG. 9 responds to the steering setting information of the mobile device 100 input from the steering information acquisition unit 202 by using each of the separated voices in the output signal generation unit described with reference to FIG. Control is performed to change the amount of delay of the delay unit corresponding to each speaker and the amount of amplification of the amplifier unit included in the signal processing unit corresponding to the signal. That is, control is performed to change the virtual sound source position and the sound field according to the change in the traveling direction of the mobile device 100.
  • Step S106 the control unit determines the presence or absence of an approaching object based on detection information from a sensor such as a distance sensor provided in the moving device 100. If an approaching object is detected, the process proceeds to step S107. If not detected, the process returns to step S101.
  • a sensor such as a distance sensor provided in the moving device 100.
  • Step S107 is processing executed when an approaching object to the mobile device 100 is detected in step S106.
  • the control unit executes control for concentrating the virtual sound source position and the sound field of each separated sound signal in the direction of the approaching object.
  • the sound control unit 203 in the control unit 121 shown in FIG. 20 responds to the sensor detection information input from the sensor information acquisition unit 204, and outputs a signal corresponding to each separated sound signal in the output signal generation unit described with reference to FIG. Control is performed to change the delay amount of the delay unit corresponding to each speaker configured in the processing unit and the amplification amount of the amplification unit. That is, control is performed to concentrate the virtual sound source position and sound field on the position and direction of the object approaching the mobile device 100.
  • the driver (user) driving the vehicle perceives the approach of the object and controls the driving to avoid the collision of the object. Can be performed.
  • the technology disclosed in the present specification can have the following configurations.
  • a behavior information acquisition unit that acquires behavior information of a mobile device;
  • a voice control unit that controls output sounds from speakers arranged at a plurality of different positions in the mobile device,
  • the voice control unit includes: An audio signal processing device for controlling a sound field by controlling a virtual sound source position of each of separated audio signals obtained from an input sound source according to information acquired by the behavior information acquiring unit.
  • the behavior information acquisition unit is a speed information acquisition unit that acquires speed information of the mobile device
  • the voice control unit includes: The audio signal processing device according to (1), wherein the sound field is controlled by controlling a virtual sound source position of each of the separated audio signals obtained from the input sound source according to the speed information obtained by the speed information obtaining unit.
  • the behavior information acquisition unit is a steering information acquisition unit that acquires steering information of the mobile device
  • the voice control unit includes: The sound signal processing according to (1) or (2), wherein the sound field control is performed by controlling a virtual sound source position of each of the separated sound signals obtained from the input sound source according to the steering information obtained by the steering information obtaining unit. apparatus.
  • the audio signal processing device further includes: Having a sensor information acquisition unit for acquiring approaching object information for the mobile device,
  • the voice control unit includes: The sound field control according to any one of (1) to (3), wherein the virtual sound source position of each of the separated audio signals obtained from the input sound source is controlled in accordance with the approaching object information acquired by the sensor information acquisition unit to execute sound field control. Audio signal processing device.
  • the voice control unit includes: A sound source separation unit that inputs a sound source and acquires a plurality of separated audio signals from the input sound source; (1) to (1) to (1) to (1) to (1) to (1) to (3), wherein the separated sound signal generated by the sound source separation unit is input, and a delay unit and an amplification unit for performing delay processing and amplification processing for each speaker and each separated sound signal unit are provided. 4) The audio signal processing device according to any one of the above.
  • the sound source separation unit comprises: A sound signal corresponding to a primary sound source, which is a main sound source included in the sound source, and an audio signal corresponding to an ambient sound source, which is another sound source, The output signal generator, The audio signal processing device according to (5), wherein the audio signal corresponding to the primary audio source generated by the audio source separation unit and the audio signal corresponding to the ambient audio source are individually subjected to delay processing and amplification processing.
  • the voice control unit includes: The audio signal processing device according to (6), wherein the sound field control is executed by individually controlling the virtual sound source positions of the primary sound source obtained from the input sound source and the ambient sound sources in accordance with the behavior of the moving device.
  • the sound source is a stereo sound signal having a sound source of LR2 channel
  • the sound source separation unit An L audio signal that is a component of the sound source, an R audio signal, a sound signal corresponding to a primary sound source that is a main sound source included in the sound source, and an audio signal corresponding to an ambient sound source that is another sound source are generated.
  • the output signal generator, A delay process and an amplification process are individually performed on each of the L audio signal, the R audio signal, the audio signal corresponding to the primary audio source, and the audio signal corresponding to the ambient audio source generated by the audio source separation unit (5).
  • the audio signal processing device according to (1).
  • the voice control unit includes: According to the behavior of the moving device, the sound source is controlled by individually controlling the virtual sound source positions of the L sound source, the R sound source, the primary sound source obtained from the input sound source, and the ambient sound source, which are components of the sound source.
  • the audio signal processing device according to (8), which performs control.
  • the sound source is a stereo audio signal having a sound source of LR2 channel, The sound source separation unit, An L audio signal and an R audio signal that are components of the sound source, an audio signal corresponding to a primary sound source that is a main sound source included in the audio source, and an ambient signal obtained by subtracting the audio signal corresponding to the primary sound source from the L audio signal.
  • the output signal generator For each of the L audio signal, the R audio signal, the audio signal corresponding to the primary audio source, the audio signal corresponding to the ambient L audio source, and the audio signal corresponding to the ambient R audio source generated by the audio source separation unit, The audio signal processing apparatus according to (5), wherein the audio signal processing apparatus performs delay processing and amplification processing.
  • the voice control unit includes: According to the behavior of the mobile device, the virtual sound source position of each of the L sound source, the R sound source, the primary sound source obtained from the input sound source, the ambient L sound source, and the ambient R sound source, which are components of the sound source, The audio signal processing device according to (10), wherein the sound field control is performed individually by performing control.
  • the voice control unit includes: The audio signal processing device according to any one of (1) to (11), wherein the sound field control is performed so as to set a sound field that follows a visual field range of a driver of the moving device that changes according to the behavior of the moving device. .
  • the voice control unit includes: A mobile device for controlling a sound field by controlling a virtual sound source position of each of separated audio signals obtained from an input sound source according to information obtained by the behavior information obtaining unit.
  • the operation unit is an accelerator that changes a speed of the moving device
  • the behavior information acquisition unit is a speed information acquisition unit that acquires speed information of the mobile device
  • the voice control unit includes: The mobile device according to (13), wherein the control of the sound field is performed by controlling a virtual sound source position of each of the separated audio signals obtained from the input sound source according to the speed information obtained by the speed information obtaining unit.
  • the operation unit is a steering that changes a traveling direction of the moving device
  • the behavior information acquisition unit is a steering information acquisition unit that acquires steering information of the mobile device
  • the voice control unit includes: The mobile device according to (13) or (14), wherein the sound field control is performed by controlling a virtual sound source position of each of the separated audio signals obtained from the input sound source according to the steering information acquired by the steering information acquisition unit.
  • the moving device further includes a sensor that acquires object information approaching to the moving device
  • the voice control unit includes: The moving device according to any one of (13) to (15), wherein a sound field control is performed by controlling a virtual sound source position of each of separated voice signals obtained from an input sound source according to the approaching object information acquired by the sensor.
  • An audio signal processing method executed by the audio signal processing device A behavior information acquisition unit for acquiring behavior information of the mobile device;
  • a voice control unit executes a voice control step of controlling output sounds from speakers arranged at a plurality of different positions in the mobile device, In the voice control step, An audio signal processing method for controlling a sound field by controlling a virtual sound source position of each of separated audio signals obtained from an input sound source in accordance with the behavior information acquired in the behavior information acquiring step.
  • An audio signal processing method executed in the mobile device A sensor for detecting the presence or absence of an approaching object to the moving device;
  • a voice control unit executes a voice control step of controlling output sounds from speakers arranged at a plurality of different positions in the mobile device,
  • the voice control step includes: A sound signal processing method for controlling a sound field by controlling a virtual sound source position of each of separated sound signals obtained from an input sound source according to presence / absence information of an approaching object acquired by the sensor.
  • a program for executing audio signal processing in the audio signal processing device A behavior information acquisition step for causing the behavior information acquisition unit to acquire behavior information of the mobile device;
  • the voice control unit executes a voice control step of controlling output sounds from speakers arranged at a plurality of different positions in the mobile device,
  • the series of processes described in the specification can be executed by hardware, software, or a combination of both.
  • the program recording the processing sequence is installed in a memory of a computer built in dedicated hardware and executed, or the program is stored in a general-purpose computer capable of executing various processing. It can be installed and run.
  • the program can be recorded in a recording medium in advance.
  • the program can be received via a network such as a LAN (Local Area Network) or the Internet and installed on a recording medium such as a built-in hard disk.
  • a system is a logical set configuration of a plurality of devices, and is not limited to a device having each configuration in the same housing.
  • the virtual sound source of each of the primary sound source and the ambient sound source which are the separated sound signals obtained from the input sound source, according to the change in the speed or the traveling direction of the vehicle.
  • a configuration for controlling the position and executing the control of the sound field is realized.
  • a speed information obtaining unit that obtains speed information of the mobile device
  • a steering information obtaining unit that obtains steering information of the mobile device
  • a speaker that is arranged at a plurality of different positions in the mobile device. It has a voice control unit for controlling the output sound.
  • the voice control unit is a virtual sound source position of a primary sound source or an ambient sound source, which is a separated sound signal obtained from an input sound source, according to the speed information obtained by the speed information obtaining unit and the steering information obtained by the steering information obtaining unit.
  • This configuration realizes a configuration that controls the sound field by controlling the virtual sound source positions of the primary sound source and the ambient sound source, which are the separated sound signals obtained from the input sound source, according to changes in the speed and traveling direction of the car. Is done.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Mechanical Engineering (AREA)
  • Chemical & Material Sciences (AREA)
  • Multimedia (AREA)
  • Combustion & Propulsion (AREA)
  • Transportation (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

自動車の速度や進行方向の変化に応じて、入力音源から得られる分離音声信号であるプライマリ音源やアンビエント音源各々の仮想音源位置を制御して音場の制御を実行する。移動装置の速度情報を取得する速度情報取得部と、移動装置のステアリング情報を取得するステアリング情報取得部と、移動装置内の複数の異なる位置に配置されたスピーカからの出力音を制御する音声制御部を有する。音声制御部は、速度情報取得部の取得した速度情報や、ステアリング情報取得部の取得したステアリング情報に応じて、入力音源から得られる分離音声信号であるプライマリ音源や、アンビエント音源各々の仮想音源位置を制御して音場の制御を実行する。

Description

音声信号処理装置、移動装置、および方法、並びにプログラム
 本開示は、音声信号処理装置、移動装置、および方法、並びにプログラムに関する。さらに詳細には、例えば自動車の車内に備えられた複数のスピーカの出力を制御することで、自動車の移動速度等に応じた音場制御を行う音声信号処理装置、移動装置、および方法、並びにプログラムに関する。
 多くの自動車の車内には複数のスピーカが備えられ、臨場感のある音声再生処理が可能な構成となっている。
 例えば、左右のスピーカのバランスや前後のスピーカのバランスを運転者等のユーザが調整して好みの音場を構成することができる。しかし、多くの従来システムではユーザがその調整を変更しない限り、1つの調整結果に従った固定された音場で再生が行われる。
 一方、自動車は運転者の運転制御により、加速、減速、左カーブ、右カーブ等、様々な動きを行う。このような自動車の動きがある場合、1つの固定音場で再生が行われると、リスナーは不自然さを感じることがある。
 なお、特許文献1(国際公開WO2006/006553号公報)には、車の挙動、例えば車の加速に応じてスピーカからの出力音(報知音)を制御して、車が加速したことを知らせる構成を開示している。しかし、この文献の開示構成は、車の挙動を知らせる報知音の制御を行う構成にすぎず、車の挙動に応じた自然な音場の変化をユーザに感じさせるものではない。また、車の挙動に応じて変動するユーザの視野の変化に関連付けられた音場制御を行うものでもない。
国際公開WO2006/006553号公報 米国特許USP9,749,769号公報
 本開示は、車内に設けられた複数のスピーカの音声出力を車の速度や進路変更等に応じて制御して、車の挙動に応じた自然な音場の変化をユーザに感じさせることを可能とした音声信号処理装置、移動装置、および方法、並びにプログラムを提供するものである。
 また、本開示の一実施例構成は、車内に設けられた複数のスピーカの音声出力を車の速度や進路変更等の車の挙動に応じて制御することで、運転者等の乗員(ユーザ)の視点や視野の変化に連動した音場制御を実現する音声信号処理装置、移動装置、および方法、並びにプログラムを提供するものである。
 本開示の第1の側面は、
 移動装置の挙動情報を取得する挙動情報取得部と、
 前記移動装置内の複数の異なる位置に配置されたスピーカからの出力音を制御する音声制御部を有し、
 前記音声制御部は、
 前記挙動情報取得部の取得した情報に応じて、入力音源から得られる分離音声信号各々の仮想音源位置を制御して音場の制御を実行する音声信号処理装置にある。
 さらに、本開示の第2の側面は、
 移動装置の挙動を変化させる操作部と、
 前記移動装置の挙動情報を取得する挙動情報取得部と、
 前記移動装置内の複数の異なる位置に配置されたスピーカからの出力音を制御する音声制御部を有し、
 前記音声制御部は、
 前記挙動情報取得部の取得した情報に応じて、入力音源から得られる分離音声信号各々の仮想音源位置を制御して音場の制御を実行する移動装置にある。
 さらに、本開示の第3の側面は、
 音声信号処理装置において実行する音声信号処理方法であり、
 挙動情報取得部が、移動装置の挙動情報を取得する挙動情報取得ステップと、
 音声制御部が、前記移動装置内の複数の異なる位置に配置されたスピーカからの出力音を制御する音声制御ステップを実行し、
 前記音声制御ステップにおいて、
 前記挙動情報取得ステップで取得した挙動情報に応じて、入力音源から得られる分離音声信号各々の仮想音源位置を制御して音場の制御を実行する音声信号処理方法にある。
 さらに、本開示の第4の側面は、
 移動装置において実行する音声信号処理方法であり、
 センサが、前記移動装置に対する接近オブジェクトの有無を検出するステップと、
 音声制御部が、前記移動装置内の複数の異なる位置に配置されたスピーカからの出力音を制御する音声制御ステップを実行し、
 前記音声制御ステップは、
 前記センサの取得した接近オブジェクトの有無情報に応じて、入力音源から得られる分離音声信号各々の仮想音源位置を制御して音場の制御を実行する音声信号処理方法にある。
 さらに、本開示の第5の側面は、
 音声信号処理装置において音声信号処理を実行させるプログラムであり、
 挙動情報取得部に、移動装置の挙動情報を取得させる挙動情報取得ステップと、
 音声制御部に、前記移動装置内の複数の異なる位置に配置されたスピーカからの出力音を制御させる音声制御ステップを実行し、
 前記音声制御ステップにおいて、
 前記挙動情報取得ステップで取得した挙動情報に応じて、入力音源から得られる分離音声信号各々の仮想音源位置を制御して音場の制御を実行させるプログラムにある。
 なお、本開示のプログラムは、例えば、様々なプログラム・コードを実行可能な情報処理装置やコンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、情報処理装置やコンピュータ・システム上でプログラムに応じた処理が実現される。
 本開示のさらに他の目的、特徴や利点は、後述する本開示の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
 本開示の一実施例の構成によれば、自動車の速度や進行方向の変化に応じて、入力音源から得られる分離音声信号であるプライマリ音源やアンビエント音源各々の仮想音源位置を制御して音場の制御を実行する構成が実現される。
 具体的には、例えば、移動装置の速度情報を取得する速度情報取得部と、移動装置のステアリング情報を取得するステアリング情報取得部と、移動装置内の複数の異なる位置に配置されたスピーカからの出力音を制御する音声制御部を有する。音声制御部は、速度情報取得部の取得した速度情報や、ステアリング情報取得部の取得したステアリング情報に応じて、入力音源から得られる分離音声信号であるプライマリ音源や、アンビエント音源各々の仮想音源位置を制御して音場の制御を実行する。
 本構成により、自動車の速度や進行方向の変化に応じて、入力音源から得られる分離音声信号であるプライマリ音源やアンビエント音源各々の仮想音源位置を制御して音場の制御を実行する構成が実現される。
 なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。
従来の音場制御と、本開示の処理に利用する音場制御処理(モノポールシンセシス(Monopole Synthesis)を適用した音場制御について説明する図である。 本開示の処理に利用する音場制御処理(モノポールシンセシス(Monopole Synthesis)について説明する図である。 仮想音源位置の設定と音場の設定例について説明する図である。 音声分離部から出力信号生成部に出力する音声信号の種類について説明する図である。 仮想音源位置の設定と音場の設定例について説明する図である。 仮想音源位置の設定と音場の設定例について説明する図である。 1つの分離音声信号について複数の異なる個所に仮想音源を設定するための構成例について説明する図である。 本開示の移動装置の構成例を示す図である。 音声信号処理装置の制御部の詳細構成と処理例について説明する図である。 車両の移動速度に応じた仮想音源位置と音場制御の具体例について説明する図である。 車両の移動速度に応じた仮想音源位置と音場制御の具体例について説明する図である。 車両の移動速度に応じた仮想音源位置と音場制御の具体例について説明する図である。 車両の移動速度に応じた仮想音源位置と音場制御の具体例について説明する図である。 車両のステアリング(ハンドル)設定情報に応じた仮想音源位置と音場制御の具体例について説明する図である。 車両のステアリング(ハンドル)設定情報に応じた仮想音源位置と音場制御の具体例について説明する図である。 車両のステアリング(ハンドル)設定情報に応じた仮想音源位置と音場制御の具体例について説明する図である。 車両のステアリング(ハンドル)設定情報に応じた仮想音源位置と音場制御の具体例について説明する図である。 車両のドライバに対する警告通知のための仮想音源位置と音場制御の具体例について説明する図である。 車両のドライバに対する警告通知のための仮想音源位置と音場制御の具体例について説明する図である。 車両のドライバに対する警告通知のための仮想音源位置と音場制御を行う制御部の構成と処理について説明する図である。 本開示の音声信号処理装置の実行する処理シーケンスについて説明するフローチャートを示す図である。
 以下、図面を参照しながら本開示の音声信号処理装置、移動装置、および方法、並びにプログラムの詳細について説明する。なお、説明は以下の項目に従って行なう。
 1.本開示の処理に利用する音場制御処理について
 2.本開示の移動装置、および音声信号処理装置の構成例と処理例について
 3.車両の移動速度に応じた仮想音源位置と音場制御の具体例について
 4.車両のステアリング(ハンドル)設定情報に応じた仮想音源位置と音場制御の具体例について
 5.警告通知のための仮想音源位置と音場制御の具体例について
 6.音声信号処理装置の実行する処理のシーケンスについて
 7.本開示の構成のまとめ
  [1.本開示の処理に利用する音場制御処理について]
 まず、図1以下を参照して、本開示の処理に利用する音場制御処理(モノポールシンセシス(Monopole Synthesis)について説明する。
 図1は、車両に備えられた複数のスピーカからの出力を制御することで音場制御を行う以下の2つの例を示す図である。
 (a)従来型の音場制御、
 (b)本開示の処理に利用する音場制御処理(モノポールシンセシス(Monopole Synthesis)適用制御)、
 (a),(b)いずれの構成においても、車両には5つのスピーカ(S1~S5)が装着されている。
 (a)従来型の音場制御構成では、5つのスピーカ(S1~S5)の音量や遅延量をユーザが調整することで、ある1つの音場を構成した再生処理が行われる。
 この場合、ユーザの調整により音場の調整が可能となる。しかし、従来型のカーオーディオシステムは、各スピーカ間のタイムアライメントでスピーカ内側領域のスイートスポットの制御を行い得るのみであり、この場合のスイートスポットは狭い領域になってしまう。
 なお、音場(Sound Field)とは音の存在空間を意味する。音場を制御することで、よりリアルな音の再現空間を構成することができる。コンサートホールで収録された音源であれば、目の前にコンサートホールがあるような音の広がりを感じさせる音場を構成することが理想的である。また、小さなライブハウスで収録された音源であれば小さなライブハウスで音楽を聴いているような音場を構成することが理想的である。また、自然の環境、例えば鳥の声やせせらぎ等の音からなる音源であれば、広大な自然の中にいるような広がりを持つ音場を構成することが求められる。
 なお、スイートスポットとは、所定の理想的な音場を感じられる空間である。図1(a)に示す従来型の音場制御構成では、スイートスポットが狭くなってしまう。
これは、5つのスピーカ(S1~S5)の音量や遅延量の調整をスピーカ単位で調整せざる得ないためである。
 一方、(b)本開示の処理に利用する音場制御処理(モノポールシンセシス(Monopole Synthesis)適用制御)では、5つのスピーカ(S1~S5)の音量や遅延量の調整をスピーカ単位ではなく、スピーカ出力に含まれる音の種類単位で実行する。
 スピーカ出力に含まれる音の種類(カテゴリ)単位で音量や遅延量の調整を行う制御構成を、モノポールシンセシス(Monopole Synthesis)と呼ぶ。モノポールシンセシス(Monopole Synthesis)については、本出願人の先の米国特許出願であり、米国で特許が成立した米国特許USP9,749,769号公報に記載がある。
 以下に説明する本開示の処理は、このモノポールシンセシス(Monopole Synthesis)を利用して音場制御を行う。
 図1(b)に示すように、モノポールシンセシス(Monopole Synthesis)を利用した音場制御では、仮想音源位置を自由に移動することが可能となる。さらにこの仮想音源位置の移動をスピーカから出力される音の種類(カテゴリ)単位で行うことができる。
 スピーカごとに各スピーカから出力される音の種類(カテゴリ)単位で音量や遅延量の調整を行うことで、スピーカから出力される音の種類(カテゴリ)単位で仮想音源位置を自由に配置することが可能となる。このような制御を行うことで、スイートスポットも大きくすることができる。
 図2を参照してモノポールシンセシス(Monopole Synthesis)を利用した出力信号制御、すなわち、例えば図1(b)に示すような仮想音源位置の移動を可能とした音声信号処理装置の構成例について説明する。
 図2は、モノポールシンセシス(Monopole Synthesis)を利用した音声信号制御を実行する音声信号処理装置の構成例を示す図である。
 図2に示すように、音声信号処理装置は、音源1を入力する音源分離部10と、音源分離部10の生成した複数の異なる種類の音(分離音声信号)を入力して各スピーカの出力信号を生成する出力信号生成部20によって構成される。
 音源1は、ここではLR2チャンネルのステレオ信号を利用した例を説明する。ただし、これは一例であり、音源1は、LR2チャンネル信号に限定されるものではなく、モノラル信号や、3チャンネル以上の複数チャンネルの音声信号も利用可能である。
 音源1のLR信号は、音源分離部10に入力される。音源分離部10は、音源1のLR信号に基づいて、以下の5つの種類の音声信号を生成して出力信号生成部20に出力する。
 (1)L信号
 (2)R信号
 (3)プライマリ(Primary)信号
 (4)アンビエント(ambient)L信号
 (5)アンビエント(ambient)R信号
 L信号とR信号は、音源1のLR音声信号そのものである。
 プライマリ(Primary)信号と、アンビエント(ambient)L信号、およびアンビエント(ambient)R信号は、音源1のLR信号に基づいて音源分離部10が生成した音声信号である。
 音源1のLR信号は時間-周波数変換部(STFT:Short Time Fourier Transform(短時間フーリエ変換))11に入力される。時間-周波数変換部(STFT)11は、音源1のLR音声信号(時間領域の音声信号)を、時間周波数領域の信号へ変換する。変換結果データである時間周波数領域の音声信号からは、各時間における各周波数の音声信号の分布状況が解析可能となる。
 時間-周波数変換部(STFT)11が生成した時間周波数領域の音声信号は、プライマリ音源確率推定部(Neural Network)12と乗算器13に出力される。
 プライマリ音源確率推定部(Neural Network)12は、予め生成済みの学習データを用いて、音源1のLR各信号に含まれる各時間、各周波数の音声信号の各々について、プライマリ音源である確率を推定する。プライマリ音源とは、音源1のLR信号に含まれるメイン音源(主音源)である。具体的には、例えば、ボーカルと様々な楽器の音から構成される楽曲のような音源であれば、ボーカル音がプライマリ音源となる。また、鳥の声やせせらぎ音等から構成される環境音では鳥の声がプライマリ音源となるといった設定である。
 なお、プライマリ音源確率推定部(Neural Network)12で実行するプライマリ音源抽出処理は、予め実行された学習処理の結果データに基づいて実行される。プライマリ音源確率推定部(Neural Network)12は、事前に生成された学習データ、すなわち、様々な音源を用いて実行されたプライマリ音源抽出処理の結果データである学習データを用いて、入力音源1のLR信号に含まれる各時間、各周波数の音声信号について、その信号がプライマリ音源である確率を推定する。
 プライマリ音源確率推定部(Neural Network)12は、上記推定に基づいて、プライマリ確率マスクを生成して乗算器13に出力する。
 プライマリ確率マスクは、例えば各時間、各周波数の音声信号単位で、プライマリ音源である確率が高い音声信号から低い音声信号までの確率推定値、例えば1~0の値を設定したマスクである。
 乗算器13では、時間-周波数変換部(STFT)11が生成した時間周波数領域の音声信号に、プライマリ音源確率推定部(Neural Network)12が生成したプライマリ確率マスクを乗算して、乗算結果を周波数-時間逆変換部(ISTFT::Inverse Short Time Fourier Transform(逆短時間フーリエ変換))14に入力する。
 周波数-時間逆変換部(ISTFT)14は、時間-周波数変換部(STFT)11が生成した時間周波数領域の音声信号に、プライマリ音源確率推定部(Neural Network)12が生成したプライマリ確率マスクを乗算した乗算結果を入力して、周波数-時間逆変換処理(ISTFT)を実行する。すなわち、時間周波数領域の信号から、元の時間領域の音声信号に戻す処理を実行する。
 ただし、周波数-時間逆変換部(ISTFT)14が生成する時間領域の音声信号プライマリ確率マスクの乗算結果であり、プライマリ音源対応の音声信号(プライマリ音声信号)である可能性が高い音声信号ほど出力が大きく、プライマリ音源対応の音声信号(プライマリ音声信号)である可能性が低い音声信号ほど出力が小さい音声信号となる。
 この周波数-時間逆変換部(ISTFT)14の出力をプライマリ(Primary)音声信号として出力信号生成部20に出力する。
 さらに、周波数-時間逆変換部(ISTFT)14の出力は、減算部15、減算部16にも出力される。
 減算部15では、音源1のL信号から、周波数-時間逆変換部(ISTFT)14の出力であるプライマリ(Primary)音声信号を減算する処理を実行する。この減算処理はL信号に含まれる音声信号から、プライマリ(Primary)音声信号を減算する処理であり、L信号に含まれるプライマリ(Primary)音声信号以外の信号を取得、抽出する処理である。すなわちメイン音源ではない周囲音等の音声信号を算出する処理である。
 減算部15の算出信号をアンビエント(Ambient)L信号とする。アンビエント(Ambient)L信号は、音源1のL信号に含まれるメイン音声以外の周囲音を主な構成要素とする音声信号である。
 さらに減算部16では、音源1のR信号から、周波数-時間逆変換部(ISTFT)14の出力であるプライマリ(Primary)音声信号を減算する処理を実行する。この減算処理は、R信号に含まれる音声信号から、プライマリ(Primary)音声信号を減算する処理であり、R信号に含まれるプライマリ(Primary)音声信号以外の信号を取得、抽出する処理である。すなわちメイン音源ではない周囲音等の音声信号を算出する処理である。
 減算部15の算出信号をアンビエント(Ambient)R信号とする。アンビエント(Ambient)R信号は、音源1のR信号に含まれるメイン音声以外の周囲音を主な構成要素とする音声信号である。
 このようにして、音源分離部10は、音源1のLR信号に基づいて、以下の5つの種類の音声信号を出力信号生成部20に出力する。
 (1)L信号
 (2)R信号
 (3)プライマリ(Primary)信号
 (4)アンビエント(ambient)L信号
 (5)アンビエント(ambient)R信号
 次に、出力信号生成部20の処理について説明する。
 出力信号生成部20は、音源分離部10から入力する複数の異なる種類の音声信号に基づいて、複数のスピーカ各々において出力する音声信号を生成する。
 出力信号生成部20は、音源分離部10から入力する5つの種類の音声信号対応の信号処理部として、以下の5つの信号処理部を有する。
 (1)L信号処理部21L、
 (2)R信号処理部21R、
 (3)プライマリ(Primary)信号処理部(P信号処理部)21P、
 (4)アンビエント(ambient)L信号処理部(AL信号処理部)21AL、
 (5)アンビエント(ambient)R信号処理部(AR信号処理部)21AR、
 L信号処理部21Lは、音源分離部10からL信号を入力して、出力先となる複数(n個)のスピーカに対するL信号の出力信号を生成する。L信号処理部21Lには、出力先となるスピーカ各々に対応付けられた遅延部と増幅部が構成されている。
 音源分離部10から入力するL信号は、各スピーカに対応付けられた遅延部において遅延処理がなされ、その後、増幅部において増幅処理がなされて、各スピーカに対応付けられた加算部22-1~nに出力され、加算部22-1~nにおいて他の信号処理部からの出力と加算された後、n個のスピーカ各々に出力される。
 L信号処理部21Lにはスピーカ数に応じた遅延-増幅処理部が並列に構成されている。図のL信号処理部21L内に示すS1は、出力先となるスピーカ(S1)に出力するL信号の遅延処理と増幅処理を行う。S2は、出力先となるスピーカ(S2)に出力するL信号の遅延処理と増幅処理を行う。以下、同様であり、Snは、出力先となるスピーカ(Sn)に出力するL信号の遅延処理と増幅処理を行う。
 R信号処理部21Rは、音源分離部10からR信号を入力して、出力先となる複数(n個)のスピーカに対するR信号の出力信号を生成する。R信号処理部21Rにも、出力先となるスピーカ各々に対応付けられた遅延部と増幅部が構成されている。
 音源分離部10から入力するR信号は、各スピーカに対応付けられた遅延部において遅延処理がなされ、その後、増幅部において増幅処理がなされて、各スピーカに対応付けられた加算部22-1~nに出力され、加算部22-1~nにおいて他の信号処理部からの出力と加算された後、n個のスピーカ各々に出力される。
 プライマリ(Primary)信号処理部(P信号処理部)21Pは、音源分離部10からプライマリ(Primary)信号を入力して、出力先となる複数(n個)のスピーカに対するプライマリ(Primary)信号の出力信号を生成する。プライマリ(Primary)信号処理部21Pにも、出力先となるスピーカ各々に対応付けられた遅延部と増幅部が構成されている。
 音源分離部10から入力するプライマリ(Primary)信号は、各スピーカに対応付けられた遅延部において遅延処理がなされ、その後、増幅部において増幅処理がなされて、各スピーカに対応付けられた加算部22-1~nに出力され、加算部22-1~nにおいて他の信号処理部からの出力と加算された後、n個のスピーカ各々に出力される。
 アンビエント(ambient)L信号処理部(AL信号処理部)21ALは、音源分離部10からアンビエント(ambient)L信号を入力して、出力先となる複数(n個)のスピーカに対するアンビエント(ambient)L信号の出力信号を生成する。アンビエント(ambient)L信号処理部21ALにも、出力先となるスピーカ各々に対応付けられた遅延部と増幅部が構成されている。
 音源分離部10から入力するアンビエント(ambient)L信号は、各スピーカに対応付けられた遅延部において遅延処理がなされ、その後、増幅部において増幅処理がなされて、各スピーカに対応付けられた加算部22-1~nに出力され、加算部22-1~nにおいて他の信号処理部からの出力と加算された後、n個のスピーカ各々に出力される。
 アンビエント(ambient)R信号処理部(AR信号処理部)21ARは、音源分離部10からアンビエント(ambient)R信号を入力して、出力先となる複数(n個)のスピーカに対するアンビエント(ambient)R信号の出力信号を生成する。アンビエント(ambient)R信号処理部21ARにも、出力先となるスピーカ各々に対応付けられた遅延部と増幅部が構成されている。
 音源分離部10から入力するアンビエント(ambient)R信号は、各スピーカに対応付けられた遅延部において遅延処理がなされ、その後、増幅部において増幅処理がなされて、各スピーカに対応付けられた加算部22-1~nに出力され、加算部22-1~nにおいて他の信号処理部からの出力と加算された後、n個のスピーカ各々に出力される。
 加算部22-1は、出力先となるスピーカ(S1)対応の加算部であり、以下の5つの信号処理部、すなわち、
 (1)L信号処理部21L、
 (2)R信号処理部21R。
 (3)プライマリ(Primary)信号処理部(P信号処理部)21P、
 (4)アンビエント(ambient)L信号処理部(AL信号処理部)21AL、
 (5)アンビエント(ambient)R信号処理部(AR信号処理部)21AR、
 これらの処理部において各信号の遅延処理と、増幅処理の結果信号を加算してスピーカ(S1)に出力する音声信号を生成する。
 スピーカ(S1)からは、L信号、R信号、プライマリ(Primary)信号、アンビエント(ambient)L信号、アンビエント(ambient)R信号各々について固有の遅延処理と固有の増幅処理が施された信号の加算結果からなる音声信号が出力される。
 加算部22-2~nも同様、出力先となるスピーカ(S2~Sn)対応の加算部であり、以下の5つの信号処理部、すなわち、
 (1)L信号処理部21L、
 (2)R信号処理部21R。
 (3)プライマリ(Primary)信号処理部(P信号処理部)21P、
 (4)アンビエント(ambient)L信号処理部(AL信号処理部)21AL、
 (5)アンビエント(ambient)R信号処理部(AR信号処理部)21AR、
 これらの処理部において各信号の遅延処理と、増幅処理の結果信号を加算してスピーカ(S2~Sn)に出力する音声信号を生成する。
 このように、出力先となるn個のスピーカ(S1~Sn)は、L信号、R信号、プライマリ(Primary)信号、アンビエント(ambient)L信号、アンビエント(ambient)R信号各々について固有の遅延処理と固有の増幅処理が施された信号の加算結果からなる音声信号が出力される。
 出力信号生成部20の各信号処理部、すなわち、
 (1)L信号処理部21L、
 (2)R信号処理部21R、
 (3)プライマリ(Primary)信号処理部(P信号処理部)21P、
 (4)アンビエント(ambient)L信号処理部(AL信号処理部)21AL、
 (5)アンビエント(ambient)R信号処理部(AR信号処理部)21AR、
 これらの各信号処理部内に構成される各スピーカ対応の遅延部の遅延量と、増幅部の増幅量は、動的(ダイナミック)な変更が可能である。
 各信号処理部内に構成される各スピーカ対応の遅延部の遅延量と、増幅部の増幅量を変更することで、各信号の仮想音源位置を変更することができる。すなわち、音源分離部10の出力する以下の5種類の音声信号、
 (1)L信号
 (2)R信号
 (3)プライマリ(Primary)信号
 (4)アンビエント(ambient)L信号
 (5)アンビエント(ambient)R信号
 これらの仮想音源位置を、様々な位置に変更することが可能となる。すなわち、上記(1)~(5)の音源種類各々に対応する仮想音源位置を様々な位置に変更制御することが可能となり、この制御により様々な音場を構成することが可能となる。
 図3を参照して、5つの種類の音源対応の仮想音源位置の設定と音場の設定例について説明する。
 図3には、2つの異なる仮想音源位置および音場設定例を示している。
 (a)仮想音源位置と音場設定例1は、車両前方中央位置に仮想プライマリ音源位置を設定し、車両前方左右に仮想L信号音源位置と仮想R信号音源位置を設定し、さらに車両後方の左右に仮想アンビエントL信号音源位置と、仮想アンビエントR信号音源位置を設定した構成である。音場は、これら5つの仮想音源位置を結ぶ楕円形状(点線で示す楕円)である。なお、図3(a)は上から観察した平面図であり、音場を平面的なおおよそ円形として示しているが、実際の音場は上下方向に膨らみを持つ扁平型のほぼ球状の音場となる。
 また、(b)仮想音源位置と音場設定例2は、設定例1よりも前の位置に仮想プライマリ音源位置と仮想L信号音源位置と仮想R信号音源位置を設定し、さらに設定例1よりも後の位置に仮想アンビエントL信号音源位置と、仮想アンビエントR信号音源位置を設定した構成である。音場は、これら5つの仮想音源位置を結ぶ楕円形状(点線で示す楕円)である。なお、図3(b)も図3(a)と同様、上から観察した平面図であり、音場を平面的な楕円形として示しているが、実際の音場は上下方向に膨らみを持つ扁平型のほぼ楕円型球状の音場となる。
 図3に示す(a),(b)2種類の仮想音源位置と音場の設定は、図2に示す出力信号生成部20に構成される各信号処理部の遅延部と増幅部の処理量(遅延量、増幅量)を調整することで設定することが可能であり、図3に示す設定以外にも様々な設定の仮想音源と、音場の設定が可能である。
 なお、図2、図3を参照して説明した例では、仮想音源位置の設定対象となる音声信号の種類を以下の5種類の音声信号としている。
 (1)L信号
 (2)R信号
 (3)プライマリ(Primary)信号
 (4)アンビエント(ambient)L信号
 (5)アンビエント(ambient)R信号
 これらは、図2に示す音声分離部10から出力信号生成部20に出力される5種類の信号である。
 図2に示す音声分離部10から出力信号生成部20に出力する音声信号(分離音声信号)の種類は、これら5種類に限定されない。音声分離部10は、例えば、図4に示すような多数の異なる信号を生成して出力信号生成部20に出力することが可能である。
 図4には、以下の各音声信号を示している。
 (1)オリジナルL信号(L)
 (2)オリジナルR信号(R)
 (3)オリジナル信号(C)
 (4)プライマリL信号(PL)
 (5)プライマリR信号(PR)
 (6)プライマリ信号(P)
 (7)アンビエントL信号(AL)
 (8)アンビエントR信号(AR)
 (9)アンビエント信号(A)
 オリジナルL信号(L)、オリジナルR信号(R)は、それぞれ入力音源のLR信号である。オリジナル信号(C)は、入力音源のLR信号の加算信号(L+R)である。また入力音源がモノラル信号の場合は、その入力信号である。
 プライマリL信号(PL)はオリジナルL信号から抽出したメイン音声信号を主構成要素とするプライマリ音声信号である。
 プライマリR信号(PR)はオリジナルR信号から抽出したメイン音声信号を主構成要素とするプライマリ音声信号である
 プライマリ信号(P)はオリジナルC信号(L+R、または入力モノラル信号)から抽出したメイン音声信号を主構成要素とするプライマリ音声信号である。
 アンビエントL信号(AL)はオリジナルL信号から抽出したメイン音声信号以外の音声信号を主構成要素とするアンビエント音声信号である。
 アンビエントR信号(AR)はオリジナルR信号から抽出したメイン音声信号以外の音声信号を主構成要素とするアンビエント音声信号である。
 アンビエント信号(A)はオリジナルC信号(L+R、または入力モノラル信号)から抽出したメイン音声信号以外の音声信号を主構成要素とするアンビエント音声信号である。
 なお、図2を参照して説明した音声信号処理装置構成の音源分離部10内の時間-周波数変換部(STFT)11を、入力音源1のL信号とR信号、個別に処理を行う構成として、周波数-時間逆変換部(ISTFT)13も、L信号とR信号に対して個別に処理を行う構成とすることで、プライマリL信号(PL)や、プライマリR信号(PR)を生成することが可能である。図4に示すその他の信号も、他の信号との加算処理や減算処理によって生成可能である。
 このように、図2に示す構成を適用することで、図4に示す各種類の異なる音声信号の仮想音源位置を様々な位置に設定することが可能であり、この音源位置に応じた様々な音場を構成することができる。
 図4に示す9種類の音声信号の一部を利用した仮想音源位置の設定と音場の設定例について、図5、図6を参照して説明する。
 図5、図6には、以下の5つの異なる仮想音源位置および音場設定例を示している。
 (1)L,R各仮想音源位置を各々1箇所、AL,AR各仮想音源位置を各々2か所に設定した音場構成例
 (2)PL,PR各仮想音源位置を各々1箇所、AL,AR各仮想音源位置を各々2か所に設定した音場構成例
 (3)L,R,PL,PR各仮想音源位置を各々1箇所、AL,AR各仮想音源位置を各々2か所に設定した音場構成例
 (4)C,L,R各仮想音源位置を各々1箇所、AL,AR各仮想音源位置を各々2か所に設定した音場構成例
 (5)P,L,R各仮想音源位置を各々1箇所、AL,AR各仮想音源位置を各々2か所に設定した音場構成例
 音場は、各図に点線で示す楕円であり、複数の仮想音源位置を結ぶ楕円形状となる。なお、先に図3を参照して説明したと同様、図5、図6は上から観察した平面図であり、音場を平面的な楕円として示しているが、実際の音場は上下方向に膨らみを持つ扁平型の楕円型球状の音場となる。
 なお、図5、図6に示す(1)~(5)の設定では、AL,AR各仮想音源位置は、それぞれ2つの異なる位置に設定している。このように、音源分離部10において生成された1つの分離音声信号について複数の異なる個所に仮想音源を設定することも可能となる。
 このように、1つの分離音声信号について複数の異なる個所に仮想音源を設定するための構成例について、図7を参照して説明する。図7には、先に図2を参照して説明した音源分離部10と出力信号生成部20を有する音声信号処理装置の構成を示している。図7に示す構成は、アンビエントL信号の仮想音源を2つの異なる位置に設定するための構成例である。このためには、音源分離部10から出力するアンビエントL信号を、出力信号生成部20内に構成したアンビエントL1信号(AL1)処理部21AL1と、アンビエントL2信号(AL2)処理部21AL2の2つの信号処理部に並列に入力する。
 アンビエントL1信号(AL1)処理部21AL1と、アンビエントL2信号(AL2)処理部21AL2は、それぞれ、各スピーカ(S1~Sn)に対応付けられた遅延部と増幅部を有する。
 アンビエントL1信号(AL1)処理部21AL1と、アンビエントL2信号(AL2)処理部21AL2は、各スピーカ(S1~Sn)に対応付けられた遅延部と増幅部の処理量、すなわち、遅延量と増幅量を異なる設定として各スピーカに対する出力信号を生成する。このような処理を行うことで、音源分離部10において生成された1つの分離音声信号について複数の異なる個所に仮想音源を設定することが可能となる。
 このように、図2や図7に示す信号処理構成を利用することで、入力音源から分離される様々な異なる種類の音声信号に対応する仮想音源位置を様々な位置に1つ以上、設定することが可能となる。音場は各分離音声信号の仮想音源位置とその出力によって規定されるため、各分離音声信号の仮想音源位置とその出力を調整することで、様々な領域、形状の音場を自在に設定する制御が可能となる。
 図2や図7に示す構成では、出力信号生成部20内の各信号処理部21の遅延部と増幅部の処理量、すなわち遅延部の遅延量と増幅部の増幅量は動的(ダイナミック)な変更処理が可能である。
 本開示は、この特性を利用して車両の速度や進行方向の変化に併せて、出力信号生成部20内の各信号処理部21の遅延部の遅延量と増幅部の増幅量を制御して、各分離音声信号の仮想音源位置と音場を動的に変更する構成を実現するものである。以下の項目において、本開示の構成と処理の具体例について説明する。
  [2.本開示の移動装置、および音声信号処理装置の構成例と処理例について]
 本開示の移動装置、および音声信号処理装置は、図2や図7を参照して説明した音声分離部10における音声分離処理と、出力信号生成部20における各スピーカの出力信号生成処理を含む音場制御処理、すなわち、モノポールシンセシス(Monopole Synthesis)を適用して、車両の挙動に応じて、各音源(L,R,P,AL,AR等)の仮想音源位置や音場を動的(ダイナミック)に変更する制御を行うものである。この制御により、例えば車両を運転する運転者(ユーザ)の視点や視野を追随するような音場制御が可能となる。
 図8は、本開示の移動装置100の構成例を示す図である。移動装置100の内部に音声信号処理装置120が装着される。
 移動装置100は、音声信号処理装置120、操作部131、駆動部132、音源入力部141、ユーザ入力部142、センサ143を有する。音声信号処理装置120は、制御部121、記憶部122、入力部123、出力部124を有する。なお、これらの各構成要素は、例えば、CAN(Controller Area Network)、LIN(Local Interconnect Network)、LAN(Local Area Network)、または、FlexRay(登録商標)等の任意の規格に準拠した車載通信ネットワークやバス等によって接続されている。
 操作部131は、例えば移動装置(車両)100のアクセル、ブレーキ、ステアリング(ハンドル)等の操作部である。駆動部132には、エンジン、タイヤ等の車両の駆動に利用される構成要素が含まれる。
 音声信号処理装置120の制御部121は、先に図2を参照して説明した音源分離処理や音声信号生成処理を行う。すなわち、モノポールシンセシス(Monopole Synthesis)を適用した音源制御、音場制御を実行する。なお、制御部121は、先に図2を参照して説明した信号処理をハードウェア、あるいはソフトウェアのいずれか、あるいは両方を適用して実行する。
 ソフトウェアを利用した処理を行う場合、記憶部122に格納されたプログラムを制御部121内のCPU等のプログラム実行部で実行して信号処理を行う。
 記憶部122は、上記制御部121で実行するプログラムや、信号処理に適用するパラメータ等を記憶した記憶部である。また、再生用の音声データ等の記憶領域としても利用される。
 入力部123は、図に示すように、音源入力部141、ユーザ入力部142、センサ143等から様々なデータを入力可能とした入力部である。音源入力部141は、例えばCDやフラッシュメモリ等のメディア再生部や、ネット配信データの入力部等から構成される。ユーザ入力部142は、ユーザによって操作可能なスイッチ、例えば、音楽再生開始指示、停止等の入力を行う入力部である。センサ143は、例えば、距離センサ等のセンサであり、移動装置100に接近するオブジェクトの検出等を行う。出力部124は、音声出力を行うスピーカの他、画像出力用の表示部等も含まれる。
 次に、図9以下を参照して、音声信号処理装置120の制御部121の詳細構成と処理例について説明する。前述したように、制御部121は、先に図2を参照して説明した音源分離処理や音声信号生成処理を行う。すなわち、モノポールシンセシス(Monopole Synthesis)を適用した音源制御、音場制御を実行する。
 図9に示すように、制御部121は、速度情報取得部201、ステアリング情報取得部202、音声制御部203を有する。音声制御部203は、音源分離部203aと出力信号生成部203bを有する。
 速度情報取得部201は、操作部131や駆動部132から移動装置100、すなわち車両の速度情報を取得する。
 ステアリング情報取得部202は、操作部131や駆動部132から移動装置100、すなわち車両のステアリング(ハンドル)設定情報を取得する。
 なお、これらの情報は、例えば、前述したCAN(Controller Area Network)等の車載通信ネットワークを介して取得可能である。
 音声制御部203は、入力部123を介して音源情報251を入力するとともに、速度情報取得部201から移動装置100の速度情報を入力し、ステアリング情報取得部202から、移動装置100のステアリング(ハンドル)設定情報を入力する。
 音源情報251は、例えば先に図2を参照して説明した音源1と同様、LR2チャンネルのステレオ音源である。例えばCD、フラッシュメモリ等のメディア再生音声データやネット配信音声データ等である。
 音声制御部203は、速度情報取得部201から入力する移動装置100の速度情報、または、ステアリング情報取得部202から入力する移動装置100のステアリング(ハンドル)設定情報、これらの少なくともいずれかの情報に応じて、仮想音源位置や音場を制御する処理を実行する。すなわち、音声制御部203は、出力部124を構成する複数のスピーカに対する出力音声信号を生成して出力する。
 具体的には、先に図2を参照して説明した音源分離処理や音声信号生成処理を行う。すなわち、モノポールシンセシス(Monopole Synthesis)を適用した音源制御、音場制御を実現する。
 出力部124を構成する複数スピーカに対する出力音声信号の生成処理は、先に図2を参照して説明した音源分離部10の音源分離処理と音声信号生成部20の音声信号生成処理と同様の処理によって行われる。
 音声制御部203の音源分離部203aは、入力部123を介して音源情報251を入力し、この入力音源を複数の異なる種類の音声信号に分離する。具体的には、例えば、以下の5つの音声信号に分離する。
 (1)L信号
 (2)R信号
 (3)プライマリ(Primary)信号
 (4)アンビエント(ambient)L信号
 (5)アンビエント(ambient)R信号
 次に、音声制御部203の出力信号生成部203bは、上記の5つの分離音声信号の各々について、各スピーカに出力するための出力信号生成処理を実行する。この出力信号生成処理は、先に図2を参照して説明したように、各スピーカに入力する分離音声信号単位の固有の遅延処理と固有の増幅処理によって行われる。すなわち、モノポールシンセシス(Monopole Synthesis)を適用した制御を行う。
 この処理によって、各分離音声信号の仮想音源位置を様々な位置に設定し、さらに様々な領域、形状を持つ音場を設定する制御が実現される。
 音声制御部203は、例えば、速度情報取得部201から入力する移動装置100の速度情報に応じて仮想音源位置や音場を制御する処理を実行する。
 また、ステアリング情報取得部202から入力する移動装置100のステアリング(ハンドル)設定情報に応じて仮想音源位置や音場を制御する処理を実行する。
 具体的には、音声制御部203の出力信号生成部203bは、速度情報取得部201から入力する移動装置100の速度情報や、ステアリング情報取得部202から入力する移動装置100のステアリング(ハンドル)設定情報に応じて、図2を参照して説明した出力信号生成部内の各分離音声信号対応の信号処理部内に構成される各スピーカ対応の遅延部の遅延量と、増幅部の増幅量を変更する制御を行う。
 この制御により、移動装置100の速度や進行方向の変化に応じて仮想音源位置や音場が変更される。これらの制御により、例えば車両を運転する運転者(ユーザ)の視点や視野の変化に合わせて音場の形状が変化するような音場制御が可能となる。
 図9の右側には、速度情報取得部201から入力する移動装置100の速度情報に応じた仮想音源位置と音場の変更制御例を示している。
 例えば、中央のほぼ円状の点線ラインが停車時(@t1)の音場を示している。この円状の点線ライン内のL,R,P,AL,ARは、それぞれ低速走行時(@t1)のL信号、R信号、プライマリ(Primary)信号、アンビエント(ambient)L信号、アンビエント(ambient)R信号、これら各音声信号の仮想音源位置を示している。
 また、中央のほぼ円状の点線ラインの外側にある縦長の点線ラインの楕円が、走行時(@t2)の音場を示している。この縦長楕円状の点線ライン内のL,R,P,AL,ARは、それぞれ走行時(@t2)のL信号、R信号、プライマリ(Primary)信号、アンビエント(ambient)L信号、アンビエント(ambient)R信号、これら各音声信号の仮想音源位置を示している。
 このように、音声制御部203は、車両の移動速度やステアリング(ハンドル)設定情報に応じて、各分離音声信号の仮想音源位置と音場を変更する制御を行う。
  [3.車両の移動速度に応じた仮想音源位置と音場制御の具体例について]
 次に、図10以下を参照して、車両の移動速度に応じた仮想音源位置と音場制御の具体例について説明する。
 図10には、以下の2つの仮想音源、音場設定例を示している。
 (a1)時速30km走行時の仮想音源、音場設定例
 (b1)時速100km走行時の仮想音源、音場設定例
 (a1)時速30km走行時の仮想音源、音場設定例では、車両の長さにほぼ等しい直径のほぼ円状の音場が設定され、その円周上の車両前方位置に仮想プライマリ音源位置(P)が設定されている。また、仮想プライマリ音源位置(P)のやや後方の両サイド位置に仮想L音源位置(L)と仮想R音源位置(R)が設定されている。さらに、車両後方の両サイド位置に仮想アンビエントL音源位置(AL)と仮想アンビエントR音源位置(AR)が設定されている。
 なお、図10(a1)は上から観察した平面図であり、音場を平面的なほぼ円形として示しているが、実際の音場は上下方向に膨らみを持つ扁平型のほぼ球状の音場となる。
 一方、(b1)時速100km走行時の仮想音源、音場設定例では、長軸が車両の長さよりやや長く、短軸が車両幅にほぼ等しい車両前後方向に延びた楕円形で中心が車両のやや前方にある楕円状の音場が設定される。この場合、この楕円の円周上の車両前方位置に仮想プライマリ音源位置(P)が設定される。また、仮想プライマリ音源位置(P)のやや後方の両サイド位置に仮想L音源位置(L)と仮想R音源位置(R)が設定される。さらに、車両の中央付近の両サイド位置に仮想アンビエントL音源位置(AL)と仮想アンビエントR音源位置(AR)が設定される。
 なお、図10(b1)も(a1)と同様、上から観察した平面図であり、音場を平面的な楕円として示しているが、実際の音場は上下方向に膨らみを持つ扁平型の楕円型球状の音場となる。
 (a1)時速30km走行時の仮想音源、音場設定例と(b1)時速100km走行時の仮想音源、音場設定例を比較すると、時速100km走行時の音場は、時速30km走行時の音場より、前方向に延びた形状に変更されている。すなわち、長軸方向(前後方向)は速度が速くなるにしたがって長くなる。また、短軸方向(幅方向)は速度が速くなるにしたがって狭くなる。
 この図10に示す速度に応じた音場設定は、車両を運転するドライバ(ユーザ)の視野範囲に連動した設定となっている。
 図11は、車両を運転するドライバ(ユーザ)の視野範囲の例を示す図である。図11には以下の2つのドライバ視野範囲の例を示している。
 (a2)低速(時速30km)走行時のドライバの視野範囲
 (b2)高速(時速100km)走行時のドライバの視野範囲
 (a2)低速(時速30km)走行時のドライバの視野範囲は、前方の広い範囲を視野範囲としている。すなわち、ゆっくり走行しているので、ドライバは周囲状況を観察しながら運転を行うことが可能な設定である。
 一方、(b2)高速(時速100km)走行時のドライバの視野範囲は、前方の狭い範囲を視野範囲としている。すなわち、高速で走行しているので、ドライバは車両の進行方向の限定された狭い範囲のみを注視して運転を行う。
 先に図10を参照して説明した速度に応じた音場設定例と、図11を参照して説明した速度に応じたドライバの視野範囲との対応関係について、図12、図13を参照して説明する。
 図12は、先に図10を参照して説明した(a1)時速30km走行時の仮想音源、音場設定例と、図11を参照して説明した(a2)低速(時速30km)走行時のドライバの視野範囲を並べて示した図である。
 (a1)時速30km走行時の仮想音源、音場設定例に示すほぼ円状の音場における前方部分の断面の形状、すなわち水平方向に長軸を持つ楕円形状は、(a2)低速(時速30km)走行時のドライバの視野範囲にほぼ一致する。
 すなわち、ドライバは、自分の視野範囲にほぼ一致する広がりを持つ音場を有する再生音を感ずる(聞く)ことになる。
 一方、図13は、先に図10を参照して説明した(b1)時速100km走行時の仮想音源、音場設定例と、図11を参照して説明した(b2)高速(時速100km)走行時のドライバの視野範囲を並べて示した図である。
 (b1)時速100km走行時の仮想音源、音場設定例に示す楕円状の音場における前方部分の断面の形状、すなわち水平方向に長軸を持つ小さな楕円形状は、(b2)高速(時速100km)走行時のドライバの視野範囲にほぼ一致する。
 すなわち、ドライバは、自分の視野範囲にほぼ一致する広がりを持つ音場を有する再生音を感ずる(聞く)ことになる。
 このように、本開示の音声信号処理装置では、車両の移動速度に併せて音場を制御する際、ドライバの視野範囲にほぼ一致する広がりを持つ音場を構成するような制御を実行する。このような音場制御を行うことで、ドライバは、車両の移動速度に応じた視野範囲とほぼ一致する音場を有する再生音を聞くことが可能となる。これにより、ドライバは違和感を発生させることなく再生音を聞くことができる。
  [4.車両のステアリング(ハンドル)設定情報に応じた仮想音源位置と音場制御の具体例について]
 次に、図14以下を参照して、車両のステアリング(ハンドル)設定情報に応じた仮想音源位置と音場制御の具体例について説明する。
 図14には、以下の2つの仮想音源、音場設定例を示している。
 (c1)左方向カーブ走行時の仮想音源、音場設定例
 (d1)右方向カーブ走行時の仮想音源、音場設定例
 (c1)左方向カーブ走行時の仮想音源、音場設定例では、車両の進行方向に相当する車両左前方から右後方に長軸を持つ楕円状の音場が設定され、車両前方の楕円の左上部位置に仮想プライマリ音源位置(P)が設定されている。また、仮想プライマリ音源位置(P)のやや後方の両サイド位置に仮想L音源位置(L)と仮想R音源位置(R)が設定されている。さらに、車両後方の両サイド位置に仮想アンビエントL音源位置(AL)と仮想アンビエントR音源位置(AR)が設定されている。
 なお、図14(c1)は上から観察した平面図であり、音場を平面的な楕円として示しているが、実際の音場は上下方向に膨らみを持つ扁平型の楕円型球状の音場となる。
 一方、(d1)右方向カーブ走行時の仮想音源、音場設定例では、車両の進行方向に相当する車両右前方から左後方に長軸を持つ楕円状の音場が設定され、車両前方の楕円の右上部位置に仮想プライマリ音源位置(P)が設定されている。また、仮想プライマリ音源位置(P)のやや後方の両サイド位置に仮想L音源位置(L)と仮想R音源位置(R)が設定されている。さらに、車両の中央付近の両サイド位置に仮想アンビエントL音源位置(AL)と仮想アンビエントR音源位置(AR)が設定されている。
 なお、図14(d1)も(c1)と同様、上から観察した平面図であり、音場を平面的な楕円として示しているが、実際の音場は上下方向に膨らみを持つ扁平型の楕円型球状の音場となる。
 (c1)左方向カーブ走行時の音場と(d1)右方向カーブ走行時の音場は、いずれも車両進行方向に長軸の設定された楕円型の音場となっている。
 この図14に示す車両のステアリング(ハンドル)設定情報に応じた音場設定は、車両を運転するドライバ(ユーザ)の視野範囲に連動した設定となっている。
 図15は、車両を運転するドライバ(ユーザ)の視野範囲の例を示す図である。図15には以下の2つのドライバ視野範囲の例を示している。
 (c2)左方向カーブ走行時のドライバの視野範囲
 (d2)右方向カーブ走行時のドライバの視野範囲
 (c2)左方向カーブ走行時のドライバの視野範囲は、車両の進行方向である前方左方向に設定されている。すなわち、車両は左方向にカーブして進行しており、ドライバは進行方向である左方向を注視して運転を行っている。
 一方、(d2)右方向カーブ走行時のドライバの視野範囲は、車両の進行方向である前方右方向に設定されている。すなわち、車両は右方向にカーブして進行しており、ドライバは進行方向である右方向を注視して運転を行っている。
 先に図14を参照して説明したステアリング(ハンドル)設定情報に応じた音場設定例と、図15を参照して説明したステアリング(ハンドル)設定情報に応じたドライバの視野範囲との対応関係について、図16、図17を参照して説明する。
 図16は、先に図14を参照して説明した(c1)左方向カーブ走行時の仮想音源、音場設定例と、図15を参照して説明した(c2)左方向カーブ走行時のドライバの視野範囲を並べて示した図である。
 (c1)左方向カーブ走行時の仮想音源、音場設定例に示す車両の左前方から右後方に長軸を持つ楕円状の音場における左前方部分の断面の形状は、(c2)左方向カーブ走行時のドライバの視野範囲にほぼ一致する。
 すなわち、ドライバは、自分の視野範囲にほぼ一致する広がりを持つ音場を有する再生音を感ずる(聞く)ことになる。
 一方、図17は、先に図14を参照して説明した(d1)右方向カーブ走行時の仮想音源、音場設定例と、図15を参照して説明した(d2)右方向カーブ走行時のドライバの視野範囲を並べて示した図である。
 (d1)右方向カーブ走行時の仮想音源、音場設定例に示す車両の右前方から左後方に長軸を持つ楕円状の音場における右前方部分の断面の形状は、(d2)右方向カーブ走行時のドライバの視野範囲にほぼ一致する。
 すなわち、ドライバは、自分の視野範囲にほぼ一致する広がりを持つ音場を有する再生音を感ずる(聞く)ことになる。
 このように、本開示の音声信号処理装置では、車両のステアリング(ハンドル)設定情報に併せて音場を制御する際、ドライバの視野範囲にほぼ一致する広がりを持つ音場を構成するような制御を実行する。このような音場制御を行うことで、ドライバは、車両のステアリング(ハンドル)設定情報に応じた視野範囲とほぼ一致する音場を有する再生音を聞くことが可能となる。これにより、ドライバは違和感を発生させることなく再生音を聞くことができる。
  [5.警告通知のための仮想音源位置と音場制御の具体例について]
 次に、図18以下を参照して、警告通知(アラーム)のための仮想音源位置と音場制御の具体例について説明する。
 本実施例は、車両を運転するドライバに対する警告通知(アラーム)のための仮想音源位置と音場の制御例である。具体的には、例えば、車両がカーブする場合、カーブ方向に仮想音源位置と音場を設定する。また、車両に他の車等のオブジェクトが接近している場合、その接近位置に仮想音源位置と音場を設定する等の処理を行う。
 これらの制御を行うことで、車両のドライバは、注意すべき方向を音によって判断することが可能となる。
 図18には、以下の2つの仮想音源、音場設定例を示している。
 (e)左方向カーブ走行時の仮想音源、音場設定例(アラーム出力設定の場合)
 (f)右方向カーブ走行時の仮想音源、音場設定例(アラーム出力設定の場合)
 (e)左方向カーブ走行時の仮想音源、音場設定例(アラーム出力設定の場合)では、車両の進行方向に相当する車両左前方に集中して各分離音声信号(L,R,P,AL,AR)と音場が設定されている。
 一方、(f)右方向カーブ走行時の仮想音源、音場設定例(アラーム出力設定の場合)では、車両の進行方向に相当する車両右前方に集中して各分離音声信号(L,R,P,AL,AR)と音場が設定されている。
 車両のドライバは、車両の進行方向から集中的に音を聞くことになり、その方向に自然と注意が向けられ、安全な運転を行うことが可能となる。
 なお、このようなアラーム出力設定は、ON/OFFの設定をユーザが行うことが可能であり、アラーム出力の設定がOFFの場合は、先に図14~図17に示すような音場設定が行われる。
 図19は、車両に他の車等のオブジェクトが接近している場合、その接近位置に仮想音源位置と音場を設定する処理例である。
 図19に示すように、車両の後方左から別の車両(オブジェクト)が接近している。このような場合、この別の車両(オブジェクト)の接近位置に相当する車両左後方に集中して各分離音声信号(L,R,P,AL,AR)と音場を設定する。
 車両のドライバは、車両の左後方から集中的に音を聞くことになり、その方向に自然と注意が向けられ、車両が接近していることを察知して安全な運転を行うことが可能となる。
 この図19に示す構成を実現するためには、センサの検出情報を利用した音声制御を行うことが必要となる。このセンサを用いた音声制御構成例について図20を参照して説明する。
 図20に示す制御部121は、先に図9を参照して説明したと同様、速度情報取得部201、ステアリング情報取得部202、音声制御部203を有する。さらに、センサ情報取得部204を有する。音声制御部203は、音源分離部203aと出力信号生成部203bを有する。
 速度情報取得部201は、操作部131や駆動部132から移動装置100、すなわち車両の速度情報を取得する。
 ステアリング情報取得部202は、操作部131や駆動部132から移動装置100、すなわち車両のステアリング(ハンドル)設定情報を取得する。
 さらに、センサ情報取得部204は、例えば距離センサ等のセンサ127の検出情報であるセンサ検出情報252を入力部123を介して取得する。
 なお、これらの情報は、例えば、前述したCAN(Controller Area Network)等の車載通信ネットワークを介して取得可能である。
 音声制御部203は、入力部123を介して音源情報251を入力するとともに、センサ情報取得部204からセンサ検出情報252を入力する。
 音源情報251は、例えば先に図2を参照して説明した音源1と同様、LR2チャンネルのステレオ音源である。例えばCD、フラッシュメモリ等のメディア再生音声データやネット配信音声データ等である。
 音声制御部203は、センサ情報取得部204から入力するセンサ検出情報252に応じて、仮想音源位置や音場を制御する処理を実行する。すなわち、音声制御部203は、出力部124を構成する複数のスピーカに対する出力音声信号を生成して出力する。すなわち、先に図2を参照して説明した音源分離処理や音声信号生成処理を行う。すなわち、モノポールシンセシス(Monopole Synthesis)を適用した音源制御、音場制御を実現する。
 出力部124を構成する複数スピーカに対する出力音声信号の生成処理は、先に図2を参照して説明した音源分離部10の音源分離処理と音声信号生成部20の音声信号生成処理と同様の処理によって行われる。
 音声制御部203の音源分離部203aは、入力部123を介して音源情報251を入力し、この入力音源を複数の異なる種類の音声信号に分離する。具体的には、例えば、以下の5つの音声信号に分離する。
 (1)L信号
 (2)R信号
 (3)プライマリ(Primary)信号
 (4)アンビエント(ambient)L信号
 (5)アンビエント(ambient)R信号
 次に、音声制御部203の出力信号生成部203bは、上記の5つの分離音声信号の各々について、各スピーカに出力するための出力信号生成処理を実行する。この出力信号生成処理は、先に図2を参照して説明したように、各スピーカに入力する分離音声信号単位の固有の遅延処理と固有の増幅処理によって行われる。すなわち、モノポールシンセシス(Monopole Synthesis)を適用した制御を行う。
 この処理によって、各分離音声信号の仮想音源位置を様々な位置に設定し、さらに様々な領域、形状を持つ音場を設定する制御が実現される。
 音声制御部203の出力信号生成部203bは、センサ情報取得部204から入力するセンサ検出情報252に応じて仮想音源位置や音場を制御する処理を実行する。この制御により、例えば車両を運転する運転者(ユーザ)に、注意を向けるべき方向から音が聞こえるような音場制御が可能となる。
 図20の右側には、センサ情報取得部204から入力するセンサ検出情報252に応じた仮想音源位置と音場の変更制御例を示している。
 時間t1では、接近車両がないため、通常走行時の音場設定である。車両を囲むようなほぼ円状の点線ラインの音場が設定される。この円状の音場の点線ライン上にL信号、R信号、プライマリ(Primary)信号、アンビエント(ambient)L信号、アンビエント(ambient)R信号、これら各音声信号の仮想音源位置が設定される。
 時間t2は、左後方から別の車両が接近している状態を示している。この状態では、車両赤筋位置である左後方に全ての分離音声信号の仮想音源位置が設定され、音場も左後方に設定される。
 この仮想音源位置と音場設定により、ドライバは、左後方から集中的に音を聞くことになり、左後方に注意を向けることになる。結果として左後方からの車の接近を察知して、衝突を避けるための安全な運転を行うことが可能となる。
  [6.音声信号処理装置の実行する処理のシーケンスについて]
 次に、図21に示すフローチャートを参照して本開示の音声信号処理装置の実行する処理のシーケンスについて説明する。
 なお、図21に示すフローに従った処理は、例えば、音声信号処理装置の記憶部に格納されたプログラムに従って実行することが可能であり、例えばCPU等のプログラム実行機能を持つ制御部の制御の下で実行される。以下、図21に示すフローの各ステップの処理について順次、説明する。
  (ステップS101)
 まず、ステップS101において、音声信号処理装置の制御部は、車両等の移動装置の速度情報、またはステアリング情報、またはセンサ検出情報の少なくともいずれかの情報を入力する。
 次のステップS102~S103の処理とステップS104~S105の処理と、ステップS106~S107の処理は並列に実行される。
  (ステップS102)
 次に、ステップS102において、制御部は、速度変化の有無を判定する。移動装置の速度の変化が検出された場合、ステップS103に進む。速度変化が検出されない場合はステップS101に戻る。
  (ステップS103)
 ステップS103は、ステップS102において、移動装置の速度変化が検出された場合に実行する処理である。
 ステップS103において、制御部は、速度変化に応じた各分離音声信号の仮想音源位置と音場制御を実行する。
 この処理は、先に図9~図13を参照して説明した処理に相当する。図9に示す制御部121内の音声制御部203は、速度情報取得部201から入力する移動装置100の速度情報に応じて、図2を参照して説明した出力信号生成部内の各分離音声信号対応の信号処理部内に構成される各スピーカ対応の遅延部の遅延量と、増幅部の増幅量を変更する制御を行う。すなわち、移動装置100の速度の変化に応じた仮想音源位置や音場を変更する制御を行う。
 これらの制御の結果として、先に図10~図13を参照して説明したように、車両を運転する運転者(ユーザ)の視点や視野を追随するような音場制御が可能となる。
  (ステップS104)
 ステップS104において、制御部は、移動装置100のステアリング(ハンドル)設定の変化の有無を判定する。移動装置のステアリング(ハンドル)設定の変化が検出された場合、ステップS105に進む。変化が検出されない場合はステップS101に戻る。
  (ステップS105)
 ステップS105は、ステップS104において、移動装置100のステアリング(ハンドル)設定の変化が検出された場合に実行する処理である。
 ステップS105において、制御部は、移動装置のステアリング(ハンドル)設定の変化に応じた各分離音声信号の仮想音源位置と音場制御を実行する。
 この処理は、先に図9と図14~図17を参照して説明した処理に相当する。図9に示す制御部121内の音声制御部203は、ステアリング情報取得部202から入力する移動装置100のステアリング設定情報に応じて、図2を参照して説明した出力信号生成部内の各分離音声信号対応の信号処理部内に構成される各スピーカ対応の遅延部の遅延量と、増幅部の増幅量を変更する制御を行う。すなわち、移動装置100の進行方向の変化に応じて仮想音源位置や音場を変更する制御を行う。
 これらの制御の結果として、先に図14~図17を参照して説明したように、車両を運転する運転者(ユーザ)の視点や視野を追随するような音場制御が可能となる。
  (ステップS106)
 ステップS106において、制御部は、移動装置100に備えられた距離センサ等のセンサからの検出情報に基づいて、接近オブジェクトの有無を判定する。接近オブジェクトが検出された場合、ステップS107に進む。検出されない場合はステップS101に戻る。
  (ステップS107)
 ステップS107は、ステップS106において、移動装置100に対する接近オブジェクトが検出された場合に実行する処理である。
 ステップS107において、制御部は、接近オブジェクトの方向に各分離音声信号の仮想音源位置と音場を集中させる制御を実行する。
 この処理は、先に図18~図20を参照して説明した処理に相当する。図20に示す制御部121内の音声制御部203は、センサ情報取得部204から入力するセンサ検出情報に応じて、図2を参照して説明した出力信号生成部内の各分離音声信号対応の信号処理部内に構成される各スピーカ対応の遅延部の遅延量と、増幅部の増幅量を変更する制御を行う。すなわち、移動装置100に対して接近するオブジェクトの位置や方向に仮想音源位置や音場を集中させる制御を行う。
 これらの制御の結果として、先に図18~図20を参照して説明したように、車両を運転する運転者(ユーザ)は、オブジェクトの接近を知覚し、オブジェクトの衝突を避けるための運転制御を行うことが可能となる。
  [7.本開示の構成のまとめ]
 以上、特定の実施例を参照しながら、本開示の実施例について詳解してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本開示の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。
 なお、本明細書において開示した技術は、以下のような構成をとることができる。
 (1) 移動装置の挙動情報を取得する挙動情報取得部と、
 前記移動装置内の複数の異なる位置に配置されたスピーカからの出力音を制御する音声制御部を有し、
 前記音声制御部は、
 前記挙動情報取得部の取得した情報に応じて、入力音源から得られる分離音声信号各々の仮想音源位置を制御して音場の制御を実行する音声信号処理装置。
 (2) 前記挙動情報取得部は、前記移動装置の速度情報を取得する速度情報取得部であり、
 前記音声制御部は、
 前記速度情報取得部の取得した速度情報に応じて、入力音源から得られる分離音声信号各々の仮想音源位置を制御して音場の制御を実行する(1)に記載の音声信号処理装置。
 (3) 前記挙動情報取得部は、前記移動装置のステアリング情報を取得するステアリング情報取得部であり、
 前記音声制御部は、
 前記ステアリング情報取得部の取得したステアリング情報に応じて、入力音源から得られる分離音声信号各々の仮想音源位置を制御して音場制御を実行する(1)または(2)に記載の音声信号処理装置。
 (4) 前記音声信号処理装置は、さらに、
 前記移動装置に対する接近オブジェクト情報を取得するセンサ情報取得部を有し、
 前記音声制御部は、
 前記センサ情報取得部の取得した接近オブジェクト情報に応じて、入力音源から得られる分離音声信号各々の仮想音源位置を制御して音場制御を実行する(1)~(3)いずれかに記載の音声信号処理装置。
 (5) 前記音声制御部は、
 音源を入力し、入力音源から複数の分離音声信号を取得する音源分離部と、
 前記音源分離部の生成した分離音声信号を入力して、各スピーカおよび各分離音声信号単位の遅延処理と増幅処理を実行する遅延部と増幅部を有する出力信号生成部を有する(1)~(4)いずれかに記載の音声信号処理装置。
 (6) 前記音源分離部は、
 前記音源に含まれる主音源であるプライマリ音源対応の音声信号と、その他の音源であるアンビエント音源対応の音声信号を生成し、
 前記出力信号生成部は、
 前記音源分離部の生成した前記プライマリ音源対応の音声信号と、前記アンビエント音源対応の音声信号各々に対して、個別に遅延処理と増幅処理を実行する(5)に記載の音声信号処理装置。
 (7) 前記音声制御部は、
 前記移動装置の挙動に応じて、入力音源から得られる前記プライマリ音源と、前記アンビエント音源各々の仮想音源位置を個別に制御して音場制御を実行する(6)に記載の音声信号処理装置。
 (8) 前記音源はLR2チャンネルの音源を持つステレオ音声信号であり、
 前記音源分離部は、
 前記音源の構成要素であるL音声信号と、R音声信号と、前記音源に含まれる主音源であるプライマリ音源対応の音声信号と、その他の音源であるアンビエント音源対応の音声信号を生成し、
 前記出力信号生成部は、
 前記音源分離部の生成したL音声信号と、R音声信号と、前記プライマリ音源対応の音声信号と、前記アンビエント音源対応の音声信号各々に対して、個別に遅延処理と増幅処理を実行する(5)に記載の音声信号処理装置。
 (9) 前記音声制御部は、
 前記移動装置の挙動に応じて、前記音源の構成要素であるL音源と、R音源と、入力音源から得られる前記プライマリ音源と、前記アンビエント音源各々の仮想音源位置を個別に制御して音場制御を実行する(8)に記載の音声信号処理装置。
 (10) 前記音源はLR2チャンネルの音源を持つステレオ音声信号であり、
 前記音源分離部は、
 前記音源の構成要素であるL音声信号と、R音声信号と、前記音源に含まれる主音源であるプライマリ音源対応の音声信号と、前記L音声信号から前記プライマリ音源対応の音声信号を減算したアンビエントL音源対応の音声信号と、前記R音声信号から前記プライマリ音源対応の音声信号を減算したアンビエントR音源対応の音声信号を生成し、
 前記出力信号生成部は、
 前記音源分離部の生成したL音声信号と、R音声信号と、前記プライマリ音源対応の音声信号と、前記アンビエントL音源対応の音声信号と、前記アンビエントR音源対応の音声信号各々に対して、個別に遅延処理と増幅処理を実行する(5)に記載の音声信号処理装置。
 (11) 前記音声制御部は、
 前記移動装置の挙動に応じて、前記音源の構成要素であるL音源と、R音源と、入力音源から得られる前記プライマリ音源と、前記アンビエントL音源と、前記アンビエントR音源各々の仮想音源位置を個別に制御して音場制御を実行する(10)に記載の音声信号処理装置。
 (12) 前記音声制御部は、
 前記移動装置の挙動に応じて変化する前記移動装置のドライバの視野範囲を追随する音場を設定するように音場制御を実行する(1)~(11)いずれかに記載の音声信号処理装置。
 (13) 移動装置の挙動を変化させる操作部と、
 前記移動装置の挙動情報を取得する挙動情報取得部と、
 前記移動装置内の複数の異なる位置に配置されたスピーカからの出力音を制御する音声制御部を有し、
 前記音声制御部は、
 前記挙動情報取得部の取得した情報に応じて、入力音源から得られる分離音声信号各々の仮想音源位置を制御して音場の制御を実行する移動装置。
 (14) 前記操作部は、前記移動装置の速度を変化させるアクセルであり、
 前記挙動情報取得部は、前記移動装置の速度情報を取得する速度情報取得部であり、
 前記音声制御部は、
 前記速度情報取得部の取得した速度情報に応じて、入力音源から得られる分離音声信号各々の仮想音源位置を制御して音場の制御を実行する(13)に記載の移動装置。
 (15) 前記操作部は、前記移動装置の進行方向を変化させるステアリングであり、
 前記挙動情報取得部は、前記移動装置のステアリング情報を取得するステアリング情報取得部であり、
 前記音声制御部は、
 前記ステアリング情報取得部の取得したステアリング情報に応じて、入力音源から得られる分離音声信号各々の仮想音源位置を制御して音場制御を実行する(13)または(14)に記載の移動装置。
 (16) 前記移動装置は、さらに、前記移動装置に対する接近オブジェクト情報を取得するセンサを有し、
 前記音声制御部は、
 前記センサの取得した接近オブジェクト情報に応じて、入力音源から得られる分離音声信号各々の仮想音源位置を制御して音場制御を実行する(13)~(15)いずれかに記載の移動装置。
 (17) 音声信号処理装置において実行する音声信号処理方法であり、
 挙動情報取得部が、移動装置の挙動情報を取得する挙動情報取得ステップと、
 音声制御部が、前記移動装置内の複数の異なる位置に配置されたスピーカからの出力音を制御する音声制御ステップを実行し、
 前記音声制御ステップにおいて、
 前記挙動情報取得ステップで取得した挙動情報に応じて、入力音源から得られる分離音声信号各々の仮想音源位置を制御して音場の制御を実行する音声信号処理方法。
 (18) 移動装置において実行する音声信号処理方法であり、
 センサが、前記移動装置に対する接近オブジェクトの有無を検出するステップと、
 音声制御部が、前記移動装置内の複数の異なる位置に配置されたスピーカからの出力音を制御する音声制御ステップを実行し、
 前記音声制御ステップは、
 前記センサの取得した接近オブジェクトの有無情報に応じて、入力音源から得られる分離音声信号各々の仮想音源位置を制御して音場の制御を実行する音声信号処理方法。
 (19) 音声信号処理装置において音声信号処理を実行させるプログラムであり、
 挙動情報取得部に、移動装置の挙動情報を取得させる挙動情報取得ステップと、
 音声制御部に、前記移動装置内の複数の異なる位置に配置されたスピーカからの出力音を制御させる音声制御ステップを実行し、
 前記音声制御ステップにおいて、
 前記挙動情報取得ステップで取得した挙動情報に応じて、入力音源から得られる分離音声信号各々の仮想音源位置を制御して音場の制御を実行させるプログラム。
 また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、LAN(Local Area Network)、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
 なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
 以上、説明したように、本開示の一実施例の構成によれば、自動車の速度や進行方向の変化に応じて、入力音源から得られる分離音声信号であるプライマリ音源やアンビエント音源各々の仮想音源位置を制御して音場の制御を実行する構成が実現される。
 具体的には、例えば、移動装置の速度情報を取得する速度情報取得部と、移動装置のステアリング情報を取得するステアリング情報取得部と、移動装置内の複数の異なる位置に配置されたスピーカからの出力音を制御する音声制御部を有する。音声制御部は、速度情報取得部の取得した速度情報や、ステアリング情報取得部の取得したステアリング情報に応じて、入力音源から得られる分離音声信号であるプライマリ音源や、アンビエント音源各々の仮想音源位置を制御して音場の制御を実行する。
 本構成により、自動車の速度や進行方向の変化に応じて、入力音源から得られる分離音声信号であるプライマリ音源やアンビエント音源各々の仮想音源位置を制御して音場の制御を実行する構成が実現される。
   1 音源
  10 音源分離部
  11 時間-周波数変換部(STFT)
  12 プライマリ音源確率推定部
  13 乗算部
  14 周波数-時間逆変換部(ISTFT)
  15,16 減算部
  20 出力信号生成部
  21 信号処理部
  22 加算部
 100 移動装置
 120 音声信号処理装置
 121 制御部
 122 記憶部
 123 入力部
 124 出力部
 131 操作部
 132 駆動部
 141 音源入力部
 142 ユーザ入力部
 143 センサ
 201 速度情報取得部
 202 ステアリング情報取得部
 203 音声制御部
 204 センサ情報取得部

Claims (19)

  1.  移動装置の挙動情報を取得する挙動情報取得部と、
     前記移動装置内の複数の異なる位置に配置されたスピーカからの出力音を制御する音声制御部を有し、
     前記音声制御部は、
     前記挙動情報取得部の取得した情報に応じて、入力音源から得られる分離音声信号各々の仮想音源位置を制御して音場の制御を実行する音声信号処理装置。
  2.  前記挙動情報取得部は、前記移動装置の速度情報を取得する速度情報取得部であり、
     前記音声制御部は、
     前記速度情報取得部の取得した速度情報に応じて、入力音源から得られる分離音声信号各々の仮想音源位置を制御して音場の制御を実行する請求項1に記載の音声信号処理装置。
  3.  前記挙動情報取得部は、前記移動装置のステアリング情報を取得するステアリング情報取得部であり、
     前記音声制御部は、
     前記ステアリング情報取得部の取得したステアリング情報に応じて、入力音源から得られる分離音声信号各々の仮想音源位置を制御して音場制御を実行する請求項1に記載の音声信号処理装置。
  4.  前記音声信号処理装置は、さらに、
     前記移動装置に対する接近オブジェクト情報を取得するセンサ情報取得部を有し、
     前記音声制御部は、
     前記センサ情報取得部の取得した接近オブジェクト情報に応じて、入力音源から得られる分離音声信号各々の仮想音源位置を制御して音場制御を実行する請求項1に記載の音声信号処理装置。
  5.  前記音声制御部は、
     音源を入力し、入力音源から複数の分離音声信号を取得する音源分離部と、
     前記音源分離部の生成した分離音声信号を入力して、各スピーカおよび各分離音声信号単位の遅延処理と増幅処理を実行する遅延部と増幅部を有する出力信号生成部を有する請求項1に記載の音声信号処理装置。
  6.  前記音源分離部は、
     前記音源に含まれる主音源であるプライマリ音源対応の音声信号と、その他の音源であるアンビエント音源対応の音声信号を生成し、
     前記出力信号生成部は、
     前記音源分離部の生成した前記プライマリ音源対応の音声信号と、前記アンビエント音源対応の音声信号各々に対して、個別に遅延処理と増幅処理を実行する請求項5に記載の音声信号処理装置。
  7.  前記音声制御部は、
     前記移動装置の挙動に応じて、入力音源から得られる前記プライマリ音源と、前記アンビエント音源各々の仮想音源位置を個別に制御して音場制御を実行する請求項6に記載の音声信号処理装置。
  8.  前記音源はLR2チャンネルの音源を持つステレオ音声信号であり、
     前記音源分離部は、
     前記音源の構成要素であるL音声信号と、R音声信号と、前記音源に含まれる主音源であるプライマリ音源対応の音声信号と、その他の音源であるアンビエント音源対応の音声信号を生成し、
     前記出力信号生成部は、
     前記音源分離部の生成したL音声信号と、R音声信号と、前記プライマリ音源対応の音声信号と、前記アンビエント音源対応の音声信号各々に対して、個別に遅延処理と増幅処理を実行する請求項5に記載の音声信号処理装置。
  9.  前記音声制御部は、
     前記移動装置の挙動に応じて、前記音源の構成要素であるL音源と、R音源と、入力音源から得られる前記プライマリ音源と、前記アンビエント音源各々の仮想音源位置を個別に制御して音場制御を実行する請求項8に記載の音声信号処理装置。
  10.  前記音源はLR2チャンネルの音源を持つステレオ音声信号であり、
     前記音源分離部は、
     前記音源の構成要素であるL音声信号と、R音声信号と、前記音源に含まれる主音源であるプライマリ音源対応の音声信号と、前記L音声信号から前記プライマリ音源対応の音声信号を減算したアンビエントL音源対応の音声信号と、前記R音声信号から前記プライマリ音源対応の音声信号を減算したアンビエントR音源対応の音声信号を生成し、
     前記出力信号生成部は、
     前記音源分離部の生成したL音声信号と、R音声信号と、前記プライマリ音源対応の音声信号と、前記アンビエントL音源対応の音声信号と、前記アンビエントR音源対応の音声信号各々に対して、個別に遅延処理と増幅処理を実行する請求項5に記載の音声信号処理装置。
  11.  前記音声制御部は、
     前記移動装置の挙動に応じて、前記音源の構成要素であるL音源と、R音源と、入力音源から得られる前記プライマリ音源と、前記アンビエントL音源と、前記アンビエントR音源各々の仮想音源位置を個別に制御して音場制御を実行する請求項10に記載の音声信号処理装置。
  12.  前記音声制御部は、
     前記移動装置の挙動に応じて変化する前記移動装置のドライバの視野範囲を追随する音場を設定するように音場制御を実行する請求項1に記載の音声信号処理装置。
  13.  移動装置の挙動を変化させる操作部と、
     前記移動装置の挙動情報を取得する挙動情報取得部と、
     前記移動装置内の複数の異なる位置に配置されたスピーカからの出力音を制御する音声制御部を有し、
     前記音声制御部は、
     前記挙動情報取得部の取得した情報に応じて、入力音源から得られる分離音声信号各々の仮想音源位置を制御して音場の制御を実行する移動装置。
  14.  前記操作部は、前記移動装置の速度を変化させるアクセルであり、
     前記挙動情報取得部は、前記移動装置の速度情報を取得する速度情報取得部であり、
     前記音声制御部は、
     前記速度情報取得部の取得した速度情報に応じて、入力音源から得られる分離音声信号各々の仮想音源位置を制御して音場の制御を実行する請求項13に記載の移動装置。
  15.  前記操作部は、前記移動装置の進行方向を変化させるステアリングであり、
     前記挙動情報取得部は、前記移動装置のステアリング情報を取得するステアリング情報取得部であり、
     前記音声制御部は、
     前記ステアリング情報取得部の取得したステアリング情報に応じて、入力音源から得られる分離音声信号各々の仮想音源位置を制御して音場制御を実行する請求項13に記載の移動装置。
  16.  前記移動装置は、さらに、前記移動装置に対する接近オブジェクト情報を取得するセンサを有し、
     前記音声制御部は、
     前記センサの取得した接近オブジェクト情報に応じて、入力音源から得られる分離音声信号各々の仮想音源位置を制御して音場制御を実行する請求項13に記載の移動装置。
  17.  音声信号処理装置において実行する音声信号処理方法であり、
     挙動情報取得部が、移動装置の挙動情報を取得する挙動情報取得ステップと、
     音声制御部が、前記移動装置内の複数の異なる位置に配置されたスピーカからの出力音を制御する音声制御ステップを実行し、
     前記音声制御ステップにおいて、
     前記挙動情報取得ステップで取得した挙動情報に応じて、入力音源から得られる分離音声信号各々の仮想音源位置を制御して音場の制御を実行する音声信号処理方法。
  18.  移動装置において実行する音声信号処理方法であり、
     センサが、前記移動装置に対する接近オブジェクトの有無を検出するステップと、
     音声制御部が、前記移動装置内の複数の異なる位置に配置されたスピーカからの出力音を制御する音声制御ステップを実行し、
     前記音声制御ステップは、
     前記センサの取得した接近オブジェクトの有無情報に応じて、入力音源から得られる分離音声信号各々の仮想音源位置を制御して音場の制御を実行する音声信号処理方法。
  19.  音声信号処理装置において音声信号処理を実行させるプログラムであり、
     挙動情報取得部に、移動装置の挙動情報を取得させる挙動情報取得ステップと、
     音声制御部に、前記移動装置内の複数の異なる位置に配置されたスピーカからの出力音を制御させる音声制御ステップを実行し、
     前記音声制御ステップにおいて、
     前記挙動情報取得ステップで取得した挙動情報に応じて、入力音源から得られる分離音声信号各々の仮想音源位置を制御して音場の制御を実行させるプログラム。
PCT/JP2019/020275 2018-06-26 2019-05-22 音声信号処理装置、移動装置、および方法、並びにプログラム WO2020003819A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201980041171.XA CN112292872A (zh) 2018-06-26 2019-05-22 声音信号处理装置、移动设备、方法和程序
KR1020207036042A KR20210022567A (ko) 2018-06-26 2019-05-22 음성 신호 처리 장치, 이동 장치 및 방법, 그리고 프로그램
JP2020527284A JPWO2020003819A1 (ja) 2018-06-26 2019-05-22 音声信号処理装置、移動装置、および方法、並びにプログラム
EP19826998.7A EP3817405A4 (en) 2018-06-26 2019-05-22 AUDIO SIGNAL PROCESSING DEVICE, MOVING DEVICE, METHOD AND PROGRAM
US17/253,143 US20210274303A1 (en) 2018-06-26 2019-05-22 Sound signal processing device, mobile apparatus, method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-121048 2018-06-26
JP2018121048 2018-06-26

Publications (1)

Publication Number Publication Date
WO2020003819A1 true WO2020003819A1 (ja) 2020-01-02

Family

ID=68986400

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/020275 WO2020003819A1 (ja) 2018-06-26 2019-05-22 音声信号処理装置、移動装置、および方法、並びにプログラム

Country Status (6)

Country Link
US (1) US20210274303A1 (ja)
EP (1) EP3817405A4 (ja)
JP (1) JPWO2020003819A1 (ja)
KR (1) KR20210022567A (ja)
CN (1) CN112292872A (ja)
WO (1) WO2020003819A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022155833A (ja) * 2021-03-31 2022-10-14 マツダ株式会社 車両用音生成装置
CN114025287B (zh) * 2021-10-29 2023-02-17 歌尔科技有限公司 一种音频输出控制方法、系统及相关组件
CN117944704A (zh) * 2022-10-31 2024-04-30 华为技术有限公司 控制方法、装置和运载工具

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000235684A (ja) * 1999-02-12 2000-08-29 Toyota Central Res & Dev Lab Inc 音像位置制御装置
WO2006006553A1 (ja) 2004-07-14 2006-01-19 Matsushita Electric Industrial Co., Ltd. 報知装置
JP2014127935A (ja) * 2012-12-27 2014-07-07 Denso Corp 音像定位装置、及び、プログラム
JP2014127934A (ja) * 2012-12-27 2014-07-07 Denso Corp 音像定位装置、及び、プログラム
JP2016066912A (ja) * 2014-09-25 2016-04-28 本田技研工業株式会社 車両用音楽生成装置、車両用音楽生成方法、および車両用音楽生成プログラム
US9749769B2 (en) 2014-07-30 2017-08-29 Sony Corporation Method, device and system

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001036998A (ja) * 1999-07-16 2001-02-09 Matsushita Electric Ind Co Ltd ステージの音像定位システム
JP4150903B2 (ja) * 2002-12-02 2008-09-17 ソニー株式会社 スピーカ装置
JP3916087B2 (ja) * 2004-06-29 2007-05-16 ソニー株式会社 疑似ステレオ化装置
JP4297077B2 (ja) * 2005-04-22 2009-07-15 ソニー株式会社 仮想音像定位処理装置、仮想音像定位処理方法およびプログラム並びに音響信号再生方式
JP2008035472A (ja) * 2006-06-28 2008-02-14 National Univ Corp Shizuoka Univ 車内外音響伝送システム
JP5303998B2 (ja) * 2008-04-03 2013-10-02 日産自動車株式会社 車外情報提供装置及び車外情報提供方法
JP2009301123A (ja) * 2008-06-10 2009-12-24 Fuji Heavy Ind Ltd 車両の運転支援装置
JP4840421B2 (ja) * 2008-09-01 2011-12-21 ソニー株式会社 音声信号処理装置、音声信号処理方法、プログラム
WO2013094135A1 (ja) * 2011-12-19 2013-06-27 パナソニック株式会社 音分離装置、および音分離方法
US10142758B2 (en) * 2013-08-20 2018-11-27 Harman Becker Automotive Systems Manufacturing Kft System for and a method of generating sound
KR101687825B1 (ko) * 2015-05-18 2016-12-20 현대자동차주식회사 차량 및 그 제어 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000235684A (ja) * 1999-02-12 2000-08-29 Toyota Central Res & Dev Lab Inc 音像位置制御装置
WO2006006553A1 (ja) 2004-07-14 2006-01-19 Matsushita Electric Industrial Co., Ltd. 報知装置
JP2014127935A (ja) * 2012-12-27 2014-07-07 Denso Corp 音像定位装置、及び、プログラム
JP2014127934A (ja) * 2012-12-27 2014-07-07 Denso Corp 音像定位装置、及び、プログラム
US9749769B2 (en) 2014-07-30 2017-08-29 Sony Corporation Method, device and system
JP2016066912A (ja) * 2014-09-25 2016-04-28 本田技研工業株式会社 車両用音楽生成装置、車両用音楽生成方法、および車両用音楽生成プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3817405A4 *

Also Published As

Publication number Publication date
US20210274303A1 (en) 2021-09-02
JPWO2020003819A1 (ja) 2021-08-05
CN112292872A (zh) 2021-01-29
EP3817405A4 (en) 2021-08-04
KR20210022567A (ko) 2021-03-03
EP3817405A1 (en) 2021-05-05

Similar Documents

Publication Publication Date Title
JP6386109B2 (ja) ヘッドレストベースのオーディオシステムのための信号処理
WO2020003819A1 (ja) 音声信号処理装置、移動装置、および方法、並びにプログラム
JP2020039143A (ja) 音源位置データに対応するロケーションにおける音響出力のシミュレート
US8130974B2 (en) Vehicular active sound control system
US10070242B2 (en) Devices and methods for conveying audio information in vehicles
JP2006019908A (ja) 車両用報知音出力装置及びプログラム
JP2014502463A (ja) 車両内のサウンドの方向性制御
CA2675105C (en) Methods and devices for audio upmixing
JP2017153083A (ja) 自動車でオーディオ信号を再生する装置及び方法
JP2007116365A (ja) マルチチャンネル音響システム及びバーチャルスピーカ音声生成方法
EP3392619B1 (en) Audible prompts in a vehicle navigation system
US20070274546A1 (en) Music Contents Reproducing Apparatus
WO2018061956A1 (ja) 会話アシスト装置および会話アシスト方法
JP6791110B2 (ja) 車両用オーディオシステム
US20190143904A1 (en) Vehicle audio presentation controller
US20180227696A1 (en) Method and device for stereophonic depiction of virtual noise sources in a vehicle
JPH11318000A (ja) 車室内の音像定位装置
JP2009222993A (ja) 車両用音声案内装置
JP2010272911A (ja) 音情報提供装置及び音情報提供方法
WO2001003471A1 (fr) Systeme acoustique embarque sur automobile
JP2007312081A (ja) オーディオシステム
JP2021509470A (ja) 車両向けの空間インフォテインメントレンダリングシステム
KR20150093015A (ko) 차량용 지향성 음향장치
JP2018088641A (ja) 会話アシスト装置
US11153686B2 (en) Method for outputting an audio signal into an interior via an output device comprising a left and a right output channel

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19826998

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020527284

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2019826998

Country of ref document: EP

Effective date: 20210126