WO2020017284A1 - 集音拡声装置、その方法、およびプログラム - Google Patents

集音拡声装置、その方法、およびプログラム Download PDF

Info

Publication number
WO2020017284A1
WO2020017284A1 PCT/JP2019/026026 JP2019026026W WO2020017284A1 WO 2020017284 A1 WO2020017284 A1 WO 2020017284A1 JP 2019026026 W JP2019026026 W JP 2019026026W WO 2020017284 A1 WO2020017284 A1 WO 2020017284A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
signal
vehicle
sound collection
loudspeaker
Prior art date
Application number
PCT/JP2019/026026
Other languages
English (en)
French (fr)
Inventor
翔一郎 齊藤
小林 和則
登 原田
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to US17/259,857 priority Critical patent/US11678114B2/en
Publication of WO2020017284A1 publication Critical patent/WO2020017284A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/08Mouthpieces; Microphones; Attachments therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/323Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only for loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/13Acoustic transducers and sound field adaptation in vehicles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R27/00Public address systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/02Spatial or constructional arrangements of loudspeakers

Definitions

  • the present invention relates to a sound collection and loudspeaker technology that uses a microphone and a speaker to facilitate conversation with a vehicle or outside the vehicle.
  • Non-Patent Document 1 Functions called in-car communication and conversation assistance are being installed in automobiles. This is intended to facilitate conversation by collecting voices of a person riding in a front seat and reproducing the voice in a rear seat. In some cases, the sound of the rear seat is collected and reproduced in the front seat. In recent years, making a hands-free phone call while riding in a car has also become popular. With a system such as a web conference, there is a background that conversation with a plurality of people is possible and each utterance point can be distinguished.
  • the present invention relates to a sound collection and loudspeaker capable of intuitively distinguishing which speaker is talking when in-car communication (in-vehicle communication) and talking outside the vehicle, and improving the communication comfort.
  • the purpose is to provide a method and a program.
  • a sound collecting and loudspeaker mounted on a vehicle.
  • the sound collection and loudspeaker system assumes that two or more sound collection and loudspeaker positions are assumed in the vehicle, and from the desired sound source position for localizing the sound image of the emphasized signal to both ears of the subject located at the sound collection and loudspeaker position.
  • the filter for localizing the sound image at the sound source position is applied to the emphasized signal based on the transfer function of the sound source and the transfer function from one or more loudspeakers installed to reproduce the sound at the sound pickup position.
  • a transfer function multiplying unit that outputs a filtered enhancement signal to a speaker, wherein the enhancement signal is a signal obtained by enhancing a target sound emitted from a sound collection position from a signal collected by one or more microphones.
  • a sound collecting and loudspeaker mounted in a vehicle.
  • the sound collecting and loudspeaker device is installed to set at least one of the seats in the front row of the vehicle to the sound collecting position, set at least one of the seats in the rear row of the vehicle to the loudspeaking position, and loudspeak to the loudspeaking position.
  • a speaker installed closer to the loud sounding position than the sound collecting position and in a direction different from the sound collecting position based on the loud sound collecting position
  • a microphone installed to collect sound emitted from the sound collecting position. The sound picked up by the microphone is amplified by localizing a sound image from a speaker to a sound collection position.
  • the present invention when making an in-vehicle call and a call outside the vehicle, it is possible to intuitively distinguish which speaker is talking and to improve the communication comfort.
  • FIG. 2 is a functional block diagram of the sound collection and loudspeaker according to the first embodiment.
  • FIG. 4 is a diagram showing an example of a processing flow of the sound collection and loudspeaker according to the first embodiment.
  • FIG. 3 is a functional block diagram of a sound processing unit according to the first embodiment.
  • FIG. 3 is a functional block diagram of a target sound emphasizing unit according to the first embodiment.
  • FIG. 3 is a functional block diagram of an echo canceller unit according to the first embodiment. The figure for explaining how to obtain a filter.
  • FIG. 3 is a functional block diagram of a sound processing unit according to the first embodiment.
  • FIG. 3 is a functional block diagram of a target sound emphasizing unit according to the first embodiment.
  • FIG. 3 is a functional block diagram of an echo canceller unit according to the first embodiment. The figure for explaining how to obtain a filter.
  • FIG. 3 is a functional block diagram of a transfer function multiplication unit according to the first embodiment.
  • FIG. 4 is a diagram for explaining a virtual sound source position.
  • FIG. 4 is a diagram for explaining a virtual sound source position.
  • FIG. 4 is a diagram for explaining a virtual sound source position.
  • FIG. 2 is a functional block diagram of a sound collection and loudspeaker having only a vehicle outside call function.
  • FIG. 4 is a diagram for explaining a virtual sound source position.
  • FIG. 4 is a diagram for explaining a virtual sound source position.
  • ⁇ Points of the first embodiment> The voices of the speaker inside the vehicle and the speaker of the communication partner outside the vehicle are presented through a different filter for each speaker from the multi-channel speaker, and sound images are localized in different places. Be intuitive and easy to understand.
  • FIG. 3 is a functional block diagram of the sound collection and loudspeaker according to the first embodiment, and FIG. 4 shows a processing flow thereof.
  • the sound collection and loudspeaker includes two sound processing units 110-i, a transmission voice transmission unit 120, and a reception voice distribution unit 130.
  • the vehicle on which the sound collection and loudspeaker system is mounted has a structure as shown in FIGS. 1 and 2 and includes a three-row seat. Further, the vehicle of the present embodiment has one seat on each of the left and right sides of each row, and mainly collects the microphone 91F that collects the voice of the first row speaker and the voice of the third row speaker mainly. And a microphone 91R for collecting sound.
  • the microphones 91F and 91R are each composed of M microphones. Note that F and R are indices indicating forward and backward with respect to the traveling direction of the vehicle, respectively.
  • the vehicle of the present embodiment includes one speaker on each of the left and right sides of each of the seats in the first and third rows.
  • R and L are indexes indicating right and left sides with respect to the traveling direction of the vehicle, right side of the right front seat A of the vehicle, left side of the right front seat A of the vehicle, right side of the left front seat B of the vehicle.
  • the eight loudspeakers installed in the are respectively 92-RF-R, 92-RF-L, 92-LF-R, 92-LF-L, 92-RR-R, 92-RR-L, 92-LR- R, 92-LR-L.
  • the positions of the seats A and B in the first row and the positions of the seats E and F in the third row to be subjected to sound collection and sound amplification are also referred to as sound collection and sound amplification positions.
  • “loudspeaker” means that an electric signal (reproduced signal) is converted into a sound by a loudspeaker such as a speaker and radiated into space. When loudspeaking, it may be radiated with a gain greater than 1 and radiated higher than the original sound, or may be radiated with a gain smaller than 1 and radiated smaller than the original sound. (Gain is equivalent to 1).
  • the signals X F , X R , X C , X P , Y F , Y R , and X r are a complex number representation of a certain frequency component of each signal.
  • the frequency domain signals X F , X R , X C , X p , Y F , Y R , and X r may be directly input and output, or a time domain signal may be input and a frequency domain transform unit (not shown) signals X F of the frequency domain, X R, X C, may be used to convert the X p (e.g.
  • X r domain converter May be converted into a signal in the time domain (eg, inverse Fourier transform) and output.
  • N represents the number of channels of a reproduction signal reproduced by the speaker 93 of the vehicle-mounted acoustic device.
  • the sound collection and loudspeaker device is, for example, a special program in which a special program is read by a known or dedicated computer having a central processing unit (CPU: Central Processing Unit), a main storage device (RAM: Random Access Memory), and the like. Device.
  • the sound collection and loudspeaker executes each process under the control of a central processing unit, for example.
  • the data input to the sound pickup device and the data obtained in each process are stored in, for example, a main storage device, and the data stored in the main storage device is read out to a central processing unit as necessary. Used for other processing.
  • At least a part of each processing unit of the sound collection and loudspeaker may be configured by hardware such as an integrated circuit.
  • Each storage unit included in the sound collection and loudspeaker can be configured by, for example, a main storage device such as a RAM (Random Access Memory) or a middleware such as a relational database or a key-value store.
  • a main storage device such as a RAM (Random Access Memory) or a middleware such as a relational database or a key-value store.
  • each storage unit does not necessarily need to be provided in the sound collection and loudspeaker device, and is constituted by an auxiliary storage device constituted by a hard disk, an optical disk, or a semiconductor memory device such as a flash memory.
  • a configuration may be provided outside the loudspeaker.
  • the sound collection signal X F [X F, 1 , ..., X F, M] which collects mainly speech in the first column of a speaker in the microphone 91F and the other Speakers 92-RF-R, 92-RF-L, 92-LF of the first row seats generated by the acoustic processing unit 110-i '(i' is 1 or 2 and i ⁇ i ')
  • the reproduced signal Y F [Y RF-R , Y RF-L , Y LF-R , Y LF-L ] reproduced by -R, 92-LF-L
  • the reproduced signal X C [X C, 1 ,..., X C, N ] and a received voice signal X p received from the other party.
  • a sound sound collection signal X F , received voice signal X p
  • an acoustic signal emitted from a source other than the sound source Sound (reproduced signals Y F , X C ) and the input.
  • Y RR-R , Y RR-L , Y LR-R , Y LR-L ] and the sound pickup signal X F [X F, 1 ,..., X F, M ] are emitted from the right front seat of the vehicle.
  • enhancement signal X FR and the index of the seat the target sound emphasized to be, collected sound signal X F [X F, 1 , ..., X F, M] emphasized from the target sound emitted from the front left seat of the vehicle
  • a reproduction signal to be reproduced by the speaker in the third row of seats is generated, but a reproduction signal to be reproduced by the speaker in any row of the rear row of the row is generated based on the direction of the car. May be.
  • two target sound enhancers 111-j are provided to emphasize target sounds emitted from two seats on the left front side (passenger seat) and the right front side (driver seat) of the vehicle.
  • the target sound emphasis unit 111-j may be provided according to the number of target sounds to be emphasized.
  • FIG. 5 shows a functional block diagram of the sound processing unit 110-i. Hereinafter, each unit will be described. Hereinafter, one of the sound processing units 110-i will be described, but the other sound processing unit 110-i 'may perform the same signal processing according to the input signal and the output signal, and thus the description thereof will be omitted.
  • FIG. 6 is a functional block diagram of the target sound emphasizing unit 111-j.
  • the target sound emphasis unit 111-j includes a directional sound collection unit 111-j-1, an echo canceller unit 111-j-2, and a howling suppression unit 111-j-3.
  • each unit will be described.
  • one of the target sound enhancers 111-j will be described.
  • the other target sound enhancer 111-j may perform the same signal processing according to the output signal, and thus the description thereof will be omitted.
  • the enhancement signal may be obtained by any method.
  • the emphasis technology of JP-A-2004-078021 can be used.
  • FIG. 7 shows a functional block diagram of the echo canceller unit 111-j-2.
  • the echo canceller unit 111-j-2 includes a first adaptive filter unit 111-j-2-1, a first subtraction unit 111-j-2-2, and a second adaptive filter unit 111-j-2-3. , A second subtraction unit 111-j-2-4.
  • the first subtraction unit 111-j-2-2 highlight signal X 'FR and the first pseudo echo Y 1 as an input, enhancement signal X' of the first echo replica Y 1 is subtracted from the FR, enhanced signal X ' Obtain and output FR, 1 .
  • all the channels may be subtracted, or the sum of all the channels may be subtracted.
  • Y 1, N ] may be subtracted from the emphasis signal X ′ FR , or the sum of the N-channel first pseudo echoes Y 1, n may be subtracted from the emphasis signal X ′ FR .
  • all channels may be subtracted, or the sum of all channels may be subtracted.
  • the first adaptive filter unit 111-j-2-1 receives the emphasized signal X " FR (corresponding to an error signal) from which the echo component has been eliminated, and uses the reproduced signal X C and the emphasized signal X" FR to generate a Update one adaptive filter.
  • the second adaptive filter unit 111-j-2-3 is "as input FR, enhancement signal X and the reproduced signal Y F" enhancement signal X updates the second adaptive filter using the FR.
  • the filter can be updated using the NLMS algorithm described in Reference 1.
  • Reference 1 Toshiro Oga, Yoshio Yamazaki, Yutaka Kaneda, "Acoustic Systems and Digital Processing", edited by IEICE, Corona, 1995, p140,141
  • the echo component may be canceled by any method, not limited to the above-described echo canceling method.
  • the echo cancellation technology disclosed in Japanese Patent Application Laid-Open No. 2010-187086 can be used.
  • the howling suppression section 111-j-3 receives the emphasis signal X " FR as an input, suppresses howling components (S111-j-3), and outputs the signal after the howling component suppression as the emphasis signal XFR .
  • the howling component may be suppressed by any method.
  • a howling suppression technique disclosed in Japanese Patent Application Laid-Open No. 2007-221219 can be used.
  • One of the transfer function multipliers 112-k receives the emphasis signals X FR and X FL and the received voice signal X p as inputs (see FIG. 5).
  • the transfer function multiplying unit 112-k calculates a transfer function from a virtual sound source position (for example, a driver's seat or a passenger's seat) to both ears of a subject located in a right rear seat of the vehicle, and a right rear seat of the vehicle.
  • a filter G RR for localizing a sound image at a virtual sound source position from two speakers 92-RR-R, 92-RR-L and a transfer function to both ears installed for reproducing a sound is a signal X.
  • FR, X FL is applied to the reception voice signal X p (S112), the reproduced signal is emphasized signal after filtering Y RR-R, the Y RR-L to the speaker 92-RR-R, 92- RR-L output I do.
  • the other transfer function multiplier 112-k '(k' is 1 or 2 and k ⁇ k ') receives the enhancement signals X RR and X RL and the received voice signal X p as inputs.
  • the transfer function multiplying unit 112-k ′ calculates a transfer function from a virtual sound source position (for example, a driver's seat or a passenger seat) to both ears of a subject located in a left rear seat of the vehicle, and a left rear seat of the vehicle.
  • a filter G LR for localizing a sound image at a virtual sound source position based on transfer functions from two speakers 92-LR-R and 92-LR-L provided for reproducing sound at the binaural signal.
  • X RR and X RL are applied to the received voice signal X p (S112), and the reproduced signals Y LR-R and Y LR-L which are the emphasized signals after filtering are applied to the speakers 92-LR-R and 92-LR-L.
  • the transfer function multiplying unit 112-k applies a filter G for forming a different sound image for each speaker to the emphasized signal, and obtains a reproduced signal of the speaker.
  • the subsequent signal expression is in the frequency domain.
  • the transfer functions H SL ', H SR ' from the position of the virtual sound source S to both ears and the transfer functions H LL , H LR , H RL , H RR from the two-channel speakers L, R at the ear to both ears are calculated. It is determined by measurement or simulation.
  • the transfer functions H SL ', H SR ', H LL , H LR , H RL , H RR are known (measured)
  • GSL and GSR are obtained so that This is calculated for the number of seats (for example, two seats for in-vehicle communication) and P points (P is an integer of 1 or more) corresponding to the other party of the call.
  • FIG. 9 shows a functional block diagram of the transfer function multiplying unit 112-k.
  • the transfer function multiplying unit 112-k includes six filtering units 112-k-FR-L, 112-k-FR-R, 112-k-FL-L, 112-k-FL-R, 112-k-p. -L, 112-kpR and two adders 112-k-2-L, 112-k-2-R.
  • P 1 and the number of points corresponding to the other party of communication is set to 1.
  • a filtering unit having the number of points P ⁇ 2 may be provided as needed.
  • Received voice signal X p is allocated to which the transfer function multiplying unit, whether further distributed to any filtering unit in the transfer function multiplying unit apportioned, specified by the received voice distribution unit to be described later.
  • the two filtering units 112-k-FR-L and 112-k-FR-R receive the enhancement signal X FR as input, apply filters G FR-L and G FR-R , respectively, and apply the enhancement signal G after filtering. Outputs FR-L X FR and G FR-R X FR .
  • the two filtering units 112-k-FL-L and 112-k-FL-R receive the enhancement signal X FL as input, apply filters G FL-L and G FL-R , respectively, and apply the enhancement signal G after filtering. Outputs FL-L X FL and G FL-R X FL .
  • Two filtering unit 112-k-pL, 112- k-pR inputs the received voice signal X p, respectively filter G pL, G pR apply the highlight signal G pL X p after filtering , and outputs the G pR X p.
  • the virtual sound source position may be any position as long as it can distinguish which speaker is speaking, and may be the same as the actual sound source position or may be different.
  • the virtual sound source position is made to match the actual sound source position, and the callee outside the vehicle sets a position different from the actual sound source position as the virtual sound source position.
  • a virtual sound source position may be set outside the vehicle in order to make it clear that the user is not talking to someone in the vehicle.
  • virtual sound sources 1 and 2 are set as shown in FIGS. 10 and 11.
  • a rear seat corresponding to the position of the actual sound source is set, while a virtual sound source is set ahead when talking with a partner outside the vehicle.
  • the speakers can be more easily distinguished by localizing the sound on the front left side (the position of the virtual sound source 2) and the front right side (the position of the virtual sound source 2).
  • the sound image is localized in a setting where the other vehicle is virtually facing each other (FIG. 11).
  • the driver's seat front seat on the right side
  • the passenger seat there should be no speaker in the front, so the sound coming from the virtual sound source in FIGS. It is possible to intuitively grasp that the communication partner is outside the vehicle.
  • the sound image is localized as shown in FIGS.
  • Transmission voice transmission unit 120 receives as input enhancement signal X FR, X FL, X RR , the X RL, integrated enhancement signal X FR, X FL, X RR , the X RL, generates a transmission voice signal X r Then, corresponding speaker information t is generated and transmitted (S120).
  • the speaker information t is information on the position of a seat in the vehicle corresponding to the emphasis signals X FR , X FL , X RR , X RL and information on the sound collection and loudspeaker position outside the vehicle corresponding to the other party (for example, 10, information indicating the positions of the virtual sound sources 1 and 2 in FIG. 10 and information indicating the seats A ′ to F ′ of the virtual oncoming vehicle sound image in FIG. 11).
  • Received voice distribution unit 130 receives as input the received voice signal X p and speaker information q from the destination, using the speaker information q, separates the reception voice signal X p, the reception voice signal X p separated Is assigned to one of the transfer function multiplying units 112-k in each sound processing unit 110-i based on the speaker information (S130).
  • the speaker information q is the position of the seat uttered information with the utterance location (information q1 sound collection loudspeaker locations in the vehicle corresponding to the received voice signal X p) information (vehicle outside corresponding to the other party collecting
  • the information includes the sound amplification position information q2).
  • the call is "Which seat speaker and conducted in which either" information transfer (reception voice signal X information seat positions in the corresponding vehicle p) from First Play destination function multiplier Determine the department.
  • the transfer function multiplication unit 112-1 in the sound processing unit 110-1 is determined as the transfer function multiplication unit of the reproduction destination.
  • a filter corresponding to the position of the desired virtual sound source is specified from the information of the sound collection and loudspeaker position outside the vehicle corresponding to the communication partner.
  • the correspondence between the utterance point and the filter may be set in advance, or may be determined by the system each time.
  • the sound collection and loudspeaker of the present embodiment may be used only for in-vehicle communication.
  • the transmitting voice transmitting unit 120 and the receiving voice distributing unit 130 may not be provided.
  • the front seats A and B, the rear seats E and F, and the call destination it is possible to communicate with all of the front seats A and B, the rear seats E and F, and the call destination.
  • it may be configured such that it can pass only with a specific call partner.
  • a screen as shown in FIG. 17 is displayed, and a touch panel (input / output means) for receiving an input from the user is provided in each seat, and when the user selects a call partner, a call with the selected call partner is started.
  • Configuration For example, when a user in the driver's seat (seat A) taps on seat F, microphones 91F and 91R and speakers 92-RF-L, 92-RF-R, 92-LR-L and 92-LR-R are activated. .
  • the sound collection and loudspeaker need only operate the parts necessary for generating the reproduced signals Y LR-R , Y LR-L , Y RF-R , and Y RF-L .
  • the sound processing unit 110-i includes the target sound emphasizing unit 111-j.
  • the target sound emitted from the seat using a directional microphone having directivity to the seat to be collected. May be output to the transfer function multiplier 112-k without using the target sound enhancer 111-j.
  • the output value of the directional microphone may be output to the echo canceller unit 111-j-2 without using the directional sound collection unit 111-j-1.
  • the three-row sheet has a configuration in which the microphones and the speakers are provided in the first and third rows. This is because the first and second row seats and the third and second row seats are easy to reach, and in many cases do not require in-vehicle communication.
  • the configuration including the microphone and the speaker in the second row is not excluded, and may be provided as needed.
  • the present embodiment can be applied by setting a seat (sound collection position) and a virtual sound source position for the second row. Further, the present embodiment is not limited to a three-row seat, and may be applied to a vehicle including a two-row seat, a four-row seat or more.
  • the sound collection and loudspeaker device does not include a speaker and a microphone, but the present invention will be described below as a sound collection and loudspeaker device including a speaker and a microphone.
  • the sound collection and loudspeaker is mounted in the vehicle. At least one of the seats in the front row of the vehicle is a sound collection position (for example, seat A), and at least one of the seats of the rear row in the vehicle is a sound enhancement position (for example, seat F).
  • the loudspeakers eg, speakers 92-LR-R, 92-LR-L
  • the loudspeakers are installed at a loudspeaker position (eg, seat F) rather than a sound collection position (eg, seat A) installed for loudspeaker.
  • a microphone for example, microphone 91F
  • a microphone is installed to collect sound emitted from a sound collection position (for example, seat A).
  • the sound picked up by the microphone is localized from the speakers (for example, the speakers 92-LR-R, 92-LR-L) to the sound collection position (for example, the seat A) and is amplified.
  • collecting sound means “collecting sound”
  • collecting sound means “receiving sound with a microphone and storing it as an electric signal”.
  • a program describing this processing content can be recorded on a computer-readable recording medium.
  • a computer-readable recording medium for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used.
  • This program is distributed by selling, transferring, lending, or the like, a portable recording medium such as a DVD or a CD-ROM on which the program is recorded. Further, the program may be stored in a storage device of a server computer, and the program may be distributed by transferring the program from the server computer to another computer via a network.
  • the computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage unit. Then, when executing the processing, the computer reads the program stored in its own storage unit and executes the processing according to the read program.
  • a computer may directly read the program from a portable recording medium and execute processing according to the program. Further, each time a program is transferred from the server computer to the computer, processing according to the received program may be sequentially performed.
  • ASP Application ⁇ Service ⁇ Provider
  • the program includes information to be used for processing by the computer and which is similar to the program (such as data that is not a direct command to the computer but has properties that define the processing of the computer).
  • each device is configured by executing a predetermined program on a computer, at least a part of the processing contents may be realized by hardware.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

車両内通話及び車両外との通話を行う際、直感的にどの話者が話しているかの区別ができ、通話快適性を向上させることができる集音拡声装置を提供する。集音拡声装置は、車両に搭載される。集音拡声装置は、車両内には2つ以上の集音拡声位置が想定されるものとし、強調信号の音像を定位させる所望の音源位置から集音拡声位置に位置する対象者の両耳への伝達関数と、集音拡声位置で音を再生するために設置された1つ以上のスピーカから両耳への伝達関数とから、音源位置に音像を定位させるためのフィルタを強調信号に適用し、フィルタリング後の強調信号をスピーカに出力する伝達関数乗算部とを含み、強調信号は、1以上のマイクロホンで集音された信号から集音拡声位置から発せられる目的音を強調した信号である。

Description

集音拡声装置、その方法、およびプログラム
 本発明は、マイクロホンとスピーカを用いて車両内や車両外との会話を円滑に行う集音拡声技術に関する。
 インカーコミュニケーションや会話アシストと呼ばれる機能が自動車に搭載されつつある(非特許文献1参照)。これは前席に乗車している人の声を集音して後席で再生することで会話を行いやすくするものである。さらに後席の音声を集音して前席で再生するものもある。また、車に乗りながらハンズフリーで電話を行うことも近年盛んにおこなわれるようになってきている。web会議などのシステムであれば、複数人との会話が可能で、かつそれぞれの発話地点の区別が可能という背景がある。
 インカーコミュニケーションにおいては、図1のように話者音声の拡声用スピーカを耳元に設置するのが、少ない音量で音声を提示できるため効果的である。
"「インテリジェントマイク for car」の技術について"、[online]、2018年、日本電信電話株式会社、[平成30年5月24日]、インターネット<URL:http://www.ntt.co.jp/news2018/1802/pdf/180219c.pdf>
 しかしながら、耳元のスピーカから拡声音声を聞くと、すべての話者の音声が後方から聞こえることになり(図2参照)、どの話者が話しているかの区別が難しくなる。例えば、図2の場合、後席の話者F,E、通話相手1,2の音声が全て後方から聞こえるため、音声の方向や位置から直感的に通話相手を判断することはできない。
 本発明は、インカーコミュニケーション(車両内通話)及び車両外との通話を行う際、直感的にどの話者が話しているかの区別ができ、通話快適性を向上させることができる集音拡声装置、その方法、およびプログラムを提供することを目的とする。
 上記の課題を解決するために、本発明の一態様によれば、集音拡声装置は、車両に搭載される。集音拡声装置は、車両内には2つ以上の集音拡声位置が想定されるものとし、強調信号の音像を定位させる所望の音源位置から集音拡声位置に位置する対象者の両耳への伝達関数と、集音拡声位置で音を再生するために設置された1つ以上のスピーカから両耳への伝達関数とから、音源位置に音像を定位させるためのフィルタを強調信号に適用し、フィルタリング後の強調信号をスピーカに出力する伝達関数乗算部とを含み、強調信号は、1以上のマイクロホンで集音された信号から集音拡声位置から発せられる目的音を強調した信号である。
 上記の課題を解決するために、本発明の他の態様によれば、集音拡声装置は、車内に搭載される。集音拡声装置は、車内の前列の座席のうち少なくともいずれか1つを集音位置とし、車内の後列の座席のうち少なくともいずれか1つを拡声位置とし、拡声位置に拡声するために設置された、集音位置よりも拡声位置に近いかつ、拡声位置を基準として集音位置と異なる方向に設置されたスピーカと、集音位置から発せられた音を集音するために設置されたマイクロホンとを含み、マイクロホンにより収音された音を、スピーカから集音位置に音像を定位させて拡声する。
 本発明によれば、車両内通話及び車両外との通話を行う際、直感的にどの話者が話しているかの区別ができ、通話快適性を向上させることができるという効果を奏する。
インカ―コミュニケーションにおけるマイクロホンとスピーカの配置例を示す図。 インカ―コミュニケーションにおける音像の定位位置を示す図。 第一実施形態に係る集音拡声装置の機能ブロック図。 第一実施形態に係る集音拡声装置の処理フローの例を示す図。 第一実施形態に係る音響処理部の機能ブロック図。 第一実施形態に係る目的音強調部の機能ブロック図。 第一実施形態に係るエコーキャンセラ部の機能ブロック図。 フィルタの求め方を説明するための図。 第一実施形態に係る伝達関数乗算部の機能ブロック図。 仮想の音源位置を説明するための図。 仮想の音源位置を説明するための図。 仮想の音源位置を説明するための図。 仮想の音源位置を説明するための図。 車両外通話機能のみを有する集音拡声装置の機能ブロック図。 仮想の音源位置を説明するための図。 仮想の音源位置を説明するための図。 入出力手段の表示する画面の例を示す図。
 以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
<第一実施形態のポイント>
 車両内の話者及び車両外の通信相手の話者の音声を、発話者別に異なるフィルタに通してマルチチャネルスピーカから提示し、別々の場所に音像定位させることにより、会話をしている相手を直感的にわかりやすくする。
<第一実施形態>
 図3は第一実施形態に係る集音拡声装置の機能ブロック図を、図4はその処理フローを示す。
 集音拡声装置は、2つの音響処理部110-iと送話音声送信部120と受話音声振分部130とを含む。
 本実施形態では、集音拡声装置が搭載される車両は、図1、図2のような構造とし、3列シートを備える。さらに、本実施形態の車両は、各列の左右にそれぞれ1つの座席を持ち、主に1列目の話者の音声を集音するマイク91Fと、主に3列目の話者の音声を集音するマイク91Rとを備える。マイク91F、91Rは、それぞれM個のマイクロホンで構成される。なお、F,Rはそれぞれ車両の進行方向に対して前方、後方を示すインデックスである。さらに、本実施形態の車両は、1列目と3列目の各座席の左右に1つずつスピーカを備える。また、R,Lは車両の進行方向に対して右側、左側を示すインデックスとし、車両の右側前方の座席Aの右側、車両の右側前方の座席Aの左側、車両の左側前方の座席Bの右側、車両の左側前方の座席Bの左側、車両の右側後方の座席Eの右側、車両の右側後方の座席Eの左側、車両の左側後方の座席Fの右側、車両の左側後方の座席Fの左側に設置されている8つのスピーカをそれぞれ92-RF-R,92-RF-L,92-LF-R,92-LF-L,92-RR-R,92-RR-L,92-LR-R,92-LR-Lとする。集音、拡声の対象となる1列目の座席A,Bの位置と3列目の座席E,Fの位置を集音拡声位置ともいう。なお、「拡声」とは、スピーカ等の拡声器によって、電気信号(再生信号)を音に変換し、空間に放射することを意味する。拡声時には1より大きいゲインを乗じて元の音より大きくして放射してもよいし、1より小さいゲインを乗じて元の音より小さくして放射してもよいし、大きさを変えずに(ゲインが1に相当)放射してもよい。
 集音拡声装置は、車両内に設置された2つのマイク91F,91Rで集音して得られる集音信号XF=[XF,1,…,XF,M],XR=[XR,1,…,XR,M]と、車載用音響装置(例えば、カーオーディオ等)のスピーカ93で再生される再生信号(例えば、オーディオ信号)XC=[XC,1,…,XC,N]と、通話先から受信する受話音声信号Xpと発話者情報qを入力とし、現実の発話者に対応する仮想の音源位置に音像が定位するように、車両内に設置された8つのスピーカ92-RF-R,92-RF-L,92-LF-R,92-LF-L,92-RR-R,92-RR-L,92-LR-R,92-LR-Lで再生される再生信号YF=[YRF-R,YRF-L,YLF-R,YLF-L],YR=[YRR-R,YRR-L,YLR-R,YLR-L]と、通話先へ送信する送話音声信号Xrと発話者情報tを生成し、出力する。なお、信号XF,XR,XC,Xp,YF,YR,Xrは、それぞれの信号のある周波数成分の複素数表示である。ここで、周波数領域の信号XF,XR,XC,Xp,YF,YR,Xrをそのまま入出力としてもよいし、時間領域の信号を入力とし図示しない周波数領域変換部において周波数領域の信号XF,XR,XC,Xpに変換(例えばフーリエ変換等)して用いてもよいし、周波数領域の信号YF,YR,Xrを図示しない時間領域変換部において時間領域の信号に変換(例えば逆フーリエ変換等)して出力してもよい。また、Nは、車載用音響装置のスピーカ93で再生される再生信号のチャネル数を表す。
 集音拡声装置は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。集音拡声装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。集音拡声装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。集音拡声装置の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。集音拡声装置が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしも集音拡声装置がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置により構成し、集音拡声装置の外部に備える構成としてもよい。
 以下、各部について説明する。
<音響処理部110-i>
 音響処理部110-iの一方は、マイク91Fで主に1列目の発話者の音声を集音した集音信号XF=[XF,1,…,XF,M]と、他方の音響処理部110-i’(i’は1または2であり、i≠i’である)で生成された1列目の座席のスピーカ92-RF-R,92-RF-L,92-LF-R,92-LF-Lで再生される再生信号YF=[YRF-R,YRF-L,YLF-R,YLF-L]と、再生信号XC=[XC,1,…,XC,N]と、通話先から受信する受話音声信号Xpとを入力とする。言い換えると、音像を定位させる対象となる音を発する音源に対応する位置から発せられた音(集音信号XF、受話音声信号Xp)と、該音源以外から発せられるかつ音響信号を得ることができる音(再生信号YF、XC)と、を入力とする。音響処理部110-iの一方は、3列目の座席のスピーカ92-RR-R,92-RR-L,92-LR-R,92-LR-Lで再生される再生信号YR=[YRR-R,YRR-L,YLR-R,YLR-L]と、集音信号XF=[XF,1,…,XF,M]から車両の右側前方の座席から発せられる目的音を強調した強調信号XFRとその座席のインデックス、集音信号XF=[XF,1,…,XF,M]から車両の左側前方の座席から発せられる目的音を強調した強調信号XFLとその座席のインデックスを生成し、出力する。なお、本実施形態では、3列目の座席のスピーカで再生される再生信号を生成するが、車の向きを基準として後列であれば何列目の座席のスピーカで再生される再生信号を生成してもよい。
 他方の音響処理部110-i’は、マイク91Rで主に3列目の発話者の音声を集音した集音信号XR=[XR,1,…,XR,M]と、一方の音響処理部110-iで生成された3列目の座席のスピーカ92-RR-R,92-RR-L,92-LR-R,92-LR-Lで再生される再生信号YR=[YRR-R,YRR-L,YLR-R,YLR-L]と、再生信号XC=[XC,1,…,XC,N]と、通話先から受信する受話音声信号Xpとを入力とし、1列目の座席のスピーカ92-RF-R,92-RF-L,92-LF-R,92-LF-Lで再生される再生信号YF=[YRF-R,YRF-L,YLF-R,YLF-L]と、集音信号XR=[XR,1,…,XR,M]から車両の右側後方の座席から発せられる目的音を強調した強調信号XRRとその座席のインデックス、集音信号XR=[XR,1,…,XR,M]から車両の左側後方の座席から発せられる目的音を強調した強調信号XRLとその座席のインデックスを生成し、出力する。
 音響処理部110-iは、2つの目的音強調部111-jと、2つの伝達関数乗算部112-kとを含む。ただし、i=1,2、j=1,2、k=1,2である。なお、本実施形態では、車両の左側前方(助手席)と右側前方(運転席)の2つの座席から発せられる目的音を強調するために2つの目的音強調部111-jを設けているが、強調したい目的音の数に応じて目的音強調部111-jを設ければよい。図5は、音響処理部110-iの機能ブロック図を示す。以下、各部について説明する。以下では、音響処理部110-iの一方について説明するが、他方の音響処理部110-i’についても入力信号、出力信号に合わせて同様の信号処理を行えばよいため、説明を省略する。
<目的音強調部111-j>
 目的音強調部111-jの一方は、マイク91Fで主に1列目の発話者の音声を集音した集音信号XF=[XF,1,…,XF,M]と、他方の音響処理部110-i’で生成された1列目の座席のスピーカ92-RF-R,92-RF-L,92-LF-R,92-LF-Lで再生される再生信号YF=[YRF-R,YRF-L,YLF-R,YLF-L]と、再生信号XC=[XC,1,…,XC,N]とを入力とし、集音信号XF=[XF,1,…,XF,M]から目的音(前方右側の座席から発せられる音)を強調した強調信号XFRを求め、出力する。
 他方の目的音強調部111-j’(j’は1または2であり、j≠j’である)は、目的音強調部111-jと同様の信号を入力とし、集音信号XF=[XF,1,…,XF,M]から目的音(前方左側の座席から発せられる音)を強調した強調信号XFLを求め、出力する。
 図6は目的音強調部111-jの機能ブロック図を示す。
 目的音強調部111-jは、指向性集音部111-j-1と、エコーキャンセラ部111-j-2と、ハウリング抑圧部111-j-3とを含む。以下、各部について説明する。以下では、一方の目的音強調部111-jについて説明するが、他方の目的音強調部111-j’についても出力信号に合わせて同様の信号処理を行えばよいため、説明を省略する。
(指向性集音部111-j-1)
 指向性集音部111-j-1は、集音信号XF=[XF,1,…,XF,M]を入力とし、集音信号XF=[XF,1,…,XF,M]から目的音(前方右側の座席から発せられる音)を強調した強調信号X'FRを求め(S111-j-1)、出力する。
 どのような方法により強調信号を求めてもよい。例えば、特開2004-078021号公報の強調技術を用いることができる。
(エコーキャンセラ部111-j-2)
 エコーキャンセラ部111-j-2は、強調信号X'FRと、再生信号YF=[YRF-R,YRF-L,YLF-R,YLF-L]と、再生信号XC=[XC,1,…,XC,N]とを入力とし、強調信号X'FRに含まれるスピーカ93で再生される音成分やスピーカ92-RF-R,92-RF-L,92-LF-R,92-LF-Lで再生される音成分を消去し、エコー成分を消去した強調信号X"FRを求め(S111-j-2)、出力する。
 図7は、エコーキャンセラ部111-j-2の機能ブロック図を示す。
 エコーキャンセラ部111-j-2は、第一適応フィルタ部111-j-2-1と、第一減算部111-j-2-2と、第二適応フィルタ部111-j-2-3と、第二減算部111-j-2-4とを含む。
 第一適応フィルタ部111-j-2-1は、再生信号XC=[XC,1,…,XC,N]を入力とし、第一適応フィルタを用いて再生信号XCをフィルタリングし、第一擬似エコーY1を生成し、出力する。
 第一減算部111-j-2-2は、強調信号X'FRと第一擬似エコーY1とを入力とし、強調信号X'FRから第一擬似エコーY1を減算し、強調信号X'FR,1を得、出力する。なお、全てのチャネルをそれぞれ減算してもよいし、全てのチャネルの総和を減算してもよい。例えば、Nチャネルの再生信号XC,n(n=1,2,…,N)をそれぞれフィルタリングしたNチャネルの第一擬似エコーY1,n(ただしY1=[Y1,1,…,Y1,N])をそれぞれ強調信号X'FRから減算してもよいし、Nチャネルの第一擬似エコーY1,nの総和を強調信号X'FRから減算してもよい。
 第二適応フィルタ部111-j-2-3は、再生信号YF=[YRF-R,YRF-L,YLF-R,YLF-L]を入力とし、第二適応フィルタを用いて再生信号YFをフィルタリングし、第二擬似エコーY2を生成し、出力する。
 第二減算部111-j-2-4は、強調信号X'FR,1と第二擬似エコーY2とを入力とし、強調信号X'FR,1から第二擬似エコーY2を減算し、強調信号X"FRを得、出力する。第一減算部111-j-2-2と同様に全てのチャネルをそれぞれ減算してもよいし、全てのチャネルの総和を減算してもよい。
 さらに、第一適応フィルタ部111-j-2-1は、エコー成分を消去した強調信号X"FR(誤差信号に相当)を入力とし、再生信号XCと強調信号X"FRを用いて第一適応フィルタを更新する。同様に、第二適応フィルタ部111-j-2-3は、強調信号X"FRを入力とし、再生信号YFと強調信号X"FRを用いて第二適応フィルタを更新する。
 適応フィルタの更新方法としては様々な方法がある。例えば、参考文献1記載のNLMSアルゴリズム等を用いてフィルタ更新を行うことができる。
(参考文献1)大賀寿郎、山崎芳男、金田豊、「音響システムとディジタル処理」、電子情報通信学会編、コロナ社、1995年、p140,141
 なお、上述のエコー消去方法に限らず、どのような方法によりエコー成分を消去してもよい。例えば、特開2010-187086号公報のエコー消去技術を用いることができる。
(ハウリング抑圧部111-j-3)
 ハウリング抑圧部111-j-3は、強調信号X"FRを入力とし、ハウリング成分を抑圧し(S111-j-3)、ハウリング成分抑圧後の信号を強調信号XFRとして出力する。
 なお、どのような方法によりハウリング成分を抑圧してもよい。例えば、特開2007-221219号公報のハウリング抑圧技術を用いることができる。
<伝達関数乗算部112-k>
 伝達関数乗算部112-kの一方は、強調信号XFR、XFLと、受話音声信号Xpとを入力とする(図5参照)。
 伝達関数乗算部112-kは、仮想の音源位置(例えば、運転席または助手席)から車両の右側後方の座席に位置する対象者の両耳への伝達関数と、車両の右側後方の座席で音を再生するために設置された2つのスピーカ92-RR-R,92-RR-Lから両耳への伝達関数とから仮想の音源位置に音像を定位させるためのフィルタGRRを強調信号XFR,XFL、受話音声信号Xpに適用し(S112)、フィルタリング後の強調信号である再生信号YRR-R,YRR-Lをスピーカ92-RR-R,92-RR-Lに出力する。
 他方の伝達関数乗算部112-k’(k’は1または2であり、k≠k’である)は、強調信号XRR,XRLと、受話音声信号Xpとを入力とする。
 伝達関数乗算部112-k’は、仮想の音源位置(例えば、運転席または助手席)から車両の左側後方の座席に位置する対象者の両耳への伝達関数と、車両の左側後方の座席で音を再生するために設置された2つのスピーカ92-LR-R,92-LR-Lから両耳への伝達関数とから仮想の音源位置に音像を定位させるためのフィルタGLRを強調信号XRR,XRL、受話音声信号Xpに適用し(S112)、フィルタリング後の強調信号である再生信号YLR-R,YLR-Lをスピーカ92-LR-R,92-LR-Lに出力する。
 まとめると、伝達関数乗算部112-kは、発話者ごとに異なる音像を形成するためのフィルタGを強調信号に適用し、スピーカの再生信号を求める。なお、以降の信号表現は周波数領域とする。伝達関数乗算部112-kは音を再生する座席の個数だけ存在する。本実施形態では、3列目の座席を2つとしているため、伝達関数乗算部112-kの個数も2つとしている。
 図8を参照して、フィルタGの求め方を説明する。まず、仮想の音源Sの位置から両耳への伝達関数HSL',HSR'、および耳元の2chスピーカL,Rから両耳への伝達関数HLL,HLR,HRL,HRRを測定、または、シュミレーションにより求める。伝達関数HSL',HSR',HLL,HLR,HRL,HRRが既知(測定済み)である時に、音源信号Xに対し
Figure JPOXMLDOC01-appb-M000001
となるようにGSL,GSRを求める。これを座席数(例えば車内通話の対象として2座席)と通話相手先に対応するP地点分(Pは1以上の整数)求める。
 図9は、伝達関数乗算部112-kの機能ブロック図を示す。
 伝達関数乗算部112-kは、6つのフィルタリング部112-k-FR-L,112-k-FR-R,112-k-FL-L,112-k-FL-R,112-k-p-L,112-k-p-Rと、2つの加算部112-k-2-L,112-k-2-Rとを含む。なお、本実施形態では、P=1とし、通話相手先に対応する地点数を1としているが、必要に応じて地点数P×2のフィルタリング部を設ければよい。受話音声信号Xpが、どの伝達関数乗算部に振り分けられ、さらに振り分けられた伝達関数乗算部の中のどのフィルタリング部に振り分けれるかは、後述する受話音声振分部によって特定される。
 2つのフィルタリング部112-k-FR-L,112-k-FR-Rは、強調信号XFRを入力とし、それぞれフィルタGFR-L、GFR-Rを適用し、フィルタリング後の強調信号GFR-LXFR、GFR-RXFRを出力する。
 2つのフィルタリング部112-k-FL-L,112-k-FL-Rは、強調信号XFLを入力とし、それぞれフィルタGFL-L、GFL-Rを適用し、フィルタリング後の強調信号GFL-LXFL、GFL-RXFLを出力する。
 2つのフィルタリング部112-k-p-L,112-k-p-Rは、受話音声信号Xpを入力とし、それぞれフィルタGp-L、Gp-Rを適用し、フィルタリング後の強調信号Gp-LXp、Gp-RXpを出力する。
 加算部112-k-2-Lは、強調信号GFR-LXFR、GFL-LXFL、Gp-LXpを入力とし、これらの信号を加算して、再生信号YRR-L(=GFR-LXFR+GFL-LXFL+Gp-LXp)を求め、出力する。
 加算部112-k-2-Rは、強調信号GFR-RXFR、GFL-RXFL、Gp-RXpを入力とし、これらの信号を加算して、再生信号YRR-R(=GFR-RXFR+GFL-RXFL+Gp-RXp)を求め、出力する。なお、上述のフィルタGRRはGRR=[GFR-L,GFR-R,GFL-L,GFL-R,Gp-L,Gp-R]と表すことができる。
(仮想の音源位置)
 仮想の音源位置は、どの話者が話しているかを区別することができる位置であればよく、実際の音源位置と一致させてもよいし、異なってもよい。
 例えば、車両内の各座席については、仮想の音源位置と実際の音源位置とを一致させ、車両外の通話先は、実際の音源位置とは異なる位置を仮想の音源位置として設定する。その際、車両内のだれかと話しているのではないことを明確にするために、仮想の音源位置を車両外に設定してもよい。
 例として運転席(右側前方の座席)や助手席のスピーカで提示する際に、図10や図11のように仮想の音源1,2を設定する。車両内の会話音声については、実際の音源の位置に相当する後方の座席を設定する一方で、車両外の相手と通話する際には前方に仮想音源を設定する。たとえば電話会議のような複数地点との会話であれば、前方左側(仮想音源1の位置)と前方右側(仮想音源2の位置)に定位させることにより、発言者の区別がよりつきやすくなる。
 また本システムを搭載する同様の車両との会話であれば、相手の車両が仮想的に向かい合わせにいる設定で音像を定位させる(図11)。運転席(右側前方の座席)や助手席から見ると、本来、前方には発話者がいないはずなので、図10や図11の仮想音源から来る音は、車両内の話者の発話でなく、車両外の通話相手であると直感的な把握が可能である。
 逆に後部座席においては、図12、13のように音像を定位させる。音像を区別して提示すること、特に車両外、車両内を前後で分けることで、会話の直感的な把握が可能であり、運転者が注意力を働かせなくても自然に会話ができることが期待される。
<送話音声送信部120及び受話音声振分部130>
 送話音声送信部120は、強調信号XFR,XFL,XRR,XRLを入力とし、強調信号XFR,XFL,XRR,XRLを統合し、送話音声信号Xrを生成し、対応する発話者情報tを生成し、送信する(S120)。なお、発話者情報tは、強調信号XFR,XFL,XRR,XRLに対応する車両内の座席の位置の情報と、通話相手に対応する車両外の集音拡声位置の情報(例えば、図10における仮想音源1、2の位置を示す情報や、図11における仮想対向車音像の座席A’~F’を示す情報)を含む。
 受話音声振分部130は、送信先から受話音声信号Xpと発話者情報qとを入力とし、発話者情報qを用いて、受話音声信号Xpを分離し、分離した受話音声信号Xpを発話者情報に基づき各音響処理部110-i内の伝達関数乗算部112-kの何れかに振り分ける(S130)。
 なお、発話者情報qは、発話した座席の位置の情報(受話音声信号Xpに対応する車両内の集音拡声位置の情報q1)と発話地点の情報(通話相手に対応する車両外の集音拡声位置の情報q2)を含む。
 例えば、RTPパケットにおいてデータ部分に受話音声信号Xp、送話音声信号Xrを格納し、ヘッダ部分に発話者情報t,qを格納し、通話相手と送受信することがあげられる。
 受話音声振分部130は、その通話が「どの座席の話者と行われているか」の情報(受話音声信号Xpに対応する車両内の座席位置の情報)からまずは再生先の伝達関数乗算部を決定する。例えば、車両の右側後方の座席Eに送信する場合には、再生先の伝達関数乗算部として、音響処理部110-1内の伝達関数乗算部112-1に決定する。
 次に、「どの座席(地点)から話された発話か」の情報(通話相手に対応する車両外の集音拡声位置の情報)から、伝達関数乗算部のどのフィルタ(所望の仮想音源の位置に対応するフィルタ)を適用するかを決定する。言い換えると、通話相手に対応する車両外の集音拡声位置の情報から所望の仮想音源の位置に対応するフィルタを特定する。発話地点とフィルタの対応についてはあらかじめ設定しておいても、その都度システムが決定してもよい。
 なお、3列シートの車両で2列目の座席に車両内通話のスピーカを適用しないケースにおいては、図14のように車両外通話機能のみを有することも可能である。2列目の場合の音像定位の例は図15、図16となる。目的音強調部111-3、伝達関数乗算部112-3における処理内容は、入力信号、出力信号に合わせて目的音強調部111-j、伝達関数乗算部112-kと同様の信号処理を行えばよいため、説明を省略する。
<効果>
 このような構成とすることで、インカーコミュニケーション及び車両外との通話を行う際、直感的にどの話者が話しているかの区別ができ、通話快適性を向上させることができる。
<変形例>
 本実施形態の集音拡声装置を車両内通話のみに利用してもよい。この場合、送話音声送信部120、受話音声振分部130を備えなくともよい。
 本実施形態では、前方の座席A,Bと後方の座席E,F、さらに通話先の全てと通話可能としている。しかしながら、特定の通話相手とのみ通過可能とする構成としてもよい。例えば、図17のような画面を表示し、利用者からの入力を受け付けるタッチパネル(入出力手段)を各座席に設け、利用者が通話相手を選択すると、選択した通話相手との通話を開始する構成とする。例えば、運転席(座席A)の利用者が座席Fをタップすると、マイク91F,91Rとスピーカ92-RF-L,92-RF-R,92-LR-L,92-LR-Rが作動する。集音拡声装置は、再生信号YLR-R,YLR-L、YRF-R,YRF-Lを生成するために必要な部分だけを動作させればよい。
 本実施形態では、音響処理部110-iは目的音強調部111-jを備えるが、例えば、集音対象の座席に対して指向性を有する指向性マイクを用いて、座席から発せられる目的音を強調した強調信号を得られるのであれば、目的音強調部111-jを用いずに指向性マイクの出力値を伝達関数乗算部112-kに出力してもよい。また、指向性集音部111-j-1を用いずに指向性マイクの出力値をエコーキャンセラ部111-j-2に出力してもよい。
 本実施形態では、3列シートで、1列目と3列目にマイクロホンとスピーカを備えた構成としている。これは、1列目と2列目の座席、3列目と2列目の座席の場合、声が届きやすいため、多くの場合、車両内通話を必要としないためである。しかしながら、2列目にマイクロホンとスピーカを備える構成を排除するものではなく、必要に応じて備えてもよい。2列目用に座席(集音拡声位置)と仮想の音源位置を設定することで、本実施形態を適用することができる。また、3列シートに限らず、2列シート、4列シート以上を備える車両において本実施形態を適用してもよい。要は、車両内の共通の音場の中で、走行音やカーオーディオの再生音、その他の車外の騒音等で一般的に会話する際の音量では、互いの声が聞こえずらい位置関係にある場合に適用すればよい。話者を区別できるように仮想の音源位置を設定することで、本実施形態と同様の効果を得ることができる。
 本実施形態では、集音拡声装置は、スピーカとマイクロホンを含まない構成としているが、以下では、スピーカとマイクロホンとを含む集音拡声装置として本発明を説明する。集音拡声装置は、車内に搭載される。車内の前列の座席のうち少なくともいずれか1つを集音位置(例えば、座席A)とし、車内の後列の座席のうち少なくともいずれか1つを拡声位置(例えば、座席F)とする。スピーカ(例えばスピーカ92-LR-R,92-LR-L)は、拡声位置(例えば座席F)に拡声するために設置された、集音位置(例えば座席A)よりも拡声位置(例えば座席F)に近いかつ、拡声位置(例えば座席F)を基準として集音位置(例えば座席A)と異なる方向に設置される(図2,8等参照)。また、マイク(例えばマイク91F)は、集音位置(例えば座席A)から発せられた音を集音するために設置される。マイク(例えばマイク91F)により収音された音を、スピーカ(例えばスピーカ92-LR-R,92-LR-L)から集音位置(例えば座席A)に音像を定位させて拡声する。なお、「集音」とは「音を集めること」を意味し、「収音」とは「音をマイクで受けて電気信号として収めること」を意味する。
<その他の変形例>
 本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
 また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
 この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
 また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。
 このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
 また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (6)

  1.  車両に搭載される集音拡声装置であって、
     車両内には2つ以上の集音拡声位置が想定されるものとし、
     強調信号の音像を定位させる所望の音源位置から前記集音拡声位置に位置する対象者の両耳への伝達関数と、前記集音拡声位置で音を再生するために設置された1つ以上のスピーカから前記両耳への伝達関数とから、前記音源位置に音像を定位させるためのフィルタを強調信号に適用し、フィルタリング後の強調信号を前記スピーカに出力する伝達関数乗算部とを含み、
     前記強調信号は、1以上のマイクロホンで集音された信号から前記集音拡声位置から発せられる目的音を強調した信号である、
     集音拡声装置。
  2.  請求項1の集音拡声装置であって、
     車両外には1つ以上の集音拡声位置が想定されるものとし、
     フィルタリング前の前記強調信号と、その強調信号に対応する車両内の集音拡声位置の情報と通話相手に対応する車両外の集音拡声位置の情報を通話先に送信する送話音声送信部と、
     通話先から音声信号と、その音声信号に対応する車両内の集音拡声位置の情報q1と通話相手に対応する車両外の集音拡声位置の情報q2とを受信し、前記情報q1,q2から前記強調信号に適用する前記フィルタを特定し、音声信号を出力する受話音声振分部とを含む、
     集音拡声装置。
  3.  車両に搭載される集音拡声方法であって、
     車両内には2つ以上の集音拡声位置が想定されるものとし、
     伝達関数乗算部が、強調信号の音像を定位させる所望の音源位置から前記集音拡声位置に位置する対象者の両耳への伝達関数と、前記集音拡声位置で音を再生するために設置された1つ以上のスピーカから前記両耳への伝達関数とから、前記音源位置に音像を定位させるためのフィルタを強調信号に適用し、フィルタリング後の強調信号を前記スピーカに出力する伝達関数乗算ステップとを含み、
     前記強調信号は、1以上のマイクロホンで集音された信号から前記集音拡声位置から発せられる目的音を強調した信号である、
     集音拡声方法。
  4.  請求項3の集音拡声方法であって、
     車両外には1つ以上の集音拡声位置が想定されるものとし、
     フィルタリング前の前記強調信号と、その強調信号に対応する車両内の集音拡声位置の情報と通話相手に対応する車両外の集音拡声位置の情報を通話先に送信する送話音声送信ステップと、
     通話先から音声信号と、その音声信号に対応する車両内の集音拡声位置の情報q1と通話相手に対応する車両外の集音拡声位置の情報q2とを受信し、前記情報q1,q2から前記強調信号に適用する前記フィルタを特定し、音声信号を出力する受話音声振分ステップとを含む、
     集音拡声方法。
  5.  請求項1または請求項2の集音拡声装置としてコンピュータを機能させるためのプログラム。
  6.  車内に搭載される集音拡声装置であって、
     車内の前列の座席のうち少なくともいずれか1つを集音位置とし、
     車内の後列の座席のうち少なくともいずれか1つを拡声位置とし、
     前記拡声位置に拡声するために設置された、前記集音位置よりも前記拡声位置に近いかつ、前記拡声位置を基準として前記集音位置と異なる方向に設置されたスピーカと、
     前記集音位置から発せられた音を集音するために設置されたマイクロホンとを含み、
     前記マイクロホンにより収音された音を、前記スピーカから前記集音位置に音像を定位させて拡声する、
     集音拡声装置。
PCT/JP2019/026026 2018-07-17 2019-07-01 集音拡声装置、その方法、およびプログラム WO2020017284A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/259,857 US11678114B2 (en) 2018-07-17 2019-07-01 Sound collection loudspeaker apparatus, method and program for the same

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-133903 2018-07-17
JP2018133903A JP7124506B2 (ja) 2018-07-17 2018-07-17 集音拡声装置、その方法、およびプログラム

Publications (1)

Publication Number Publication Date
WO2020017284A1 true WO2020017284A1 (ja) 2020-01-23

Family

ID=69163500

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/026026 WO2020017284A1 (ja) 2018-07-17 2019-07-01 集音拡声装置、その方法、およびプログラム

Country Status (3)

Country Link
US (1) US11678114B2 (ja)
JP (1) JP7124506B2 (ja)
WO (1) WO2020017284A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102592833B1 (ko) * 2018-12-14 2023-10-23 현대자동차주식회사 차량의 음성 인식 기능 연동 제어 시스템 및 방법
EP4311214A1 (en) * 2021-03-15 2024-01-24 Sony Group Corporation Information processing device, information processing method, and program
US11516579B2 (en) * 2021-04-12 2022-11-29 International Business Machines Corporation Echo cancellation in online conference systems

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11342799A (ja) * 1998-06-03 1999-12-14 Mazda Motor Corp 車両用会話支援装置
JP2005161873A (ja) * 2003-11-28 2005-06-23 Denso Corp 車室内音場制御システム
JP2008042390A (ja) * 2006-08-03 2008-02-21 National Univ Corp Shizuoka Univ 車内会話支援システム
JP2009023486A (ja) * 2007-07-19 2009-02-05 Xanavi Informatics Corp 車載用の音声処理装置、音声処理システム、及び音声処理方法
JP2012199801A (ja) * 2011-03-22 2012-10-18 Panasonic Corp 会話支援装置及び方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6148218A (en) * 1998-02-13 2000-11-14 Lucent Technologies, Inc. Architecture for multi-sector base stations
JPH11275695A (ja) * 1998-03-19 1999-10-08 Alpine Electronics Inc 音像制御装置
US20090097669A1 (en) * 2007-10-11 2009-04-16 Fujitsu Ten Limited Acoustic system for providing individual acoustic environment
US9769568B2 (en) 2014-12-22 2017-09-19 2236008 Ontario Inc. System and method for speech reinforcement
JP7083576B2 (ja) * 2018-07-13 2022-06-13 アルパイン株式会社 能動型騒音制御システム及び車載オーディオシステム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11342799A (ja) * 1998-06-03 1999-12-14 Mazda Motor Corp 車両用会話支援装置
JP2005161873A (ja) * 2003-11-28 2005-06-23 Denso Corp 車室内音場制御システム
JP2008042390A (ja) * 2006-08-03 2008-02-21 National Univ Corp Shizuoka Univ 車内会話支援システム
JP2009023486A (ja) * 2007-07-19 2009-02-05 Xanavi Informatics Corp 車載用の音声処理装置、音声処理システム、及び音声処理方法
JP2012199801A (ja) * 2011-03-22 2012-10-18 Panasonic Corp 会話支援装置及び方法

Also Published As

Publication number Publication date
JP2020014072A (ja) 2020-01-23
US20210306742A1 (en) 2021-09-30
US11678114B2 (en) 2023-06-13
JP7124506B2 (ja) 2022-08-24

Similar Documents

Publication Publication Date Title
JP6580758B2 (ja) 車両の音声プラットホームにおける電話および娯楽オーディオの管理
WO2020017284A1 (ja) 集音拡声装置、その方法、およびプログラム
JP2016126335A (ja) 区画別音声抑制を有する音区画設備
Schmidt et al. Signal processing for in-car communication systems
WO2020027061A1 (ja) 会話サポートシステム、その方法、およびプログラム
WO2020240880A1 (ja) 評価装置、評価方法、およびプログラム
JP6984559B2 (ja) 集音拡声装置、その方法、およびプログラム
WO2021152759A1 (ja) 評価方法、評価装置、およびプログラム
JP7147849B2 (ja) 集音拡声装置、その方法、およびプログラム
JP6972858B2 (ja) 音響処理装置、プログラム及び方法
JP7255324B2 (ja) 周波数特性変更装置、その方法、およびプログラム
US11894013B2 (en) Sound collection loudspeaker apparatus, method and program for the same
Schmidt et al. Evaluation of in-car communication systems
JP2023036332A (ja) 音響システム
CN115214503A (zh) 车内声音控制方法、装置及汽车
JP2021173881A (ja) 音声処理装置および音声処理方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19837904

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19837904

Country of ref document: EP

Kind code of ref document: A1