WO2009110576A1 - 収音装置 - Google Patents

収音装置 Download PDF

Info

Publication number
WO2009110576A1
WO2009110576A1 PCT/JP2009/054228 JP2009054228W WO2009110576A1 WO 2009110576 A1 WO2009110576 A1 WO 2009110576A1 JP 2009054228 W JP2009054228 W JP 2009054228W WO 2009110576 A1 WO2009110576 A1 WO 2009110576A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound collection
sound
signal
microphones
generated
Prior art date
Application number
PCT/JP2009/054228
Other languages
English (en)
French (fr)
Inventor
利晃 石橋
Original Assignee
ヤマハ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヤマハ株式会社 filed Critical ヤマハ株式会社
Publication of WO2009110576A1 publication Critical patent/WO2009110576A1/ja

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/4223Cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/403Linear arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic

Definitions

  • the present invention relates to a sound collecting device including a long, substantially rectangular parallelepiped housing and a microphone array disposed in the longitudinal direction of the housing.
  • the audio conference apparatus described in Japanese Patent Application Laid-Open No. 8-29 8 6 96 has a rectangular housing, a speaker is provided at the center of the housing, and a microphone is provided in each of the squares of the housing. ing. For this reason, the audio conferencing device collects a louder voice as the user speaks closer to the device.
  • the present invention provides a sound collection device that can equally collect the sound of a user seated at any position of a conference desk.
  • the sound collection device of the present invention includes a long, substantially rectangular parallelepiped housing, a microphone array including a plurality of microphones arranged in the housing along the longitudinal direction, and a sound collection generated by the microphone array.
  • a sound collection control unit that performs sound collection processing with different sound collection directions on the sound signal to generate a plurality of sound collection beam signals, and the sound collection control unit includes the housing.
  • a first sound collecting beam signal is generated by a sound collecting process in which the longitudinal direction of the body is the sound collecting direction
  • a second sound collecting beam signal is produced by a sound collecting process in which the short direction of the housing is the sound collecting direction.
  • generating a target sound collecting beam signal from the plurality of sound collecting beam signals including the first and second sound collecting beam signals.
  • the sound collection device performs sound collection processing (in the case longitudinal direction of the case) from the sound collection signal generated by the microphone array arranged along the case longitudinal direction.
  • the first sound collection beam signal is generated by the sound collection processing having sound collection directivity
  • the second sound collection beam signal is generated by the sound collection processing in which the short direction of the casing is the sound collection direction. Sound from all directions of the sound collecting device can be collected.
  • by generating a target sound collecting beam signal from a plurality of sound collecting beam signals it is possible to specify from which direction the sound is picked up. Therefore, when a sound collecting device is installed on a rectangular conference desk, the sound collecting device can equally collect voice from a user seated at any position on the conference desk.
  • the microphone array of the sound collecting device of the present invention includes a first microphone array disposed on a surface on one long side of the housing and a second microphone disposed on a surface on the other long side of the housing.
  • the sound collection control unit is directed to the sound collection device from the sound collection area on one side of the long side of the housing with respect to the sound collection signal generated by the first microphone array.
  • the sound collecting process is performed with the sound collecting direction as the sound collecting direction, and the sound collecting signal generated by the second microphone array is collected in the direction from the sound collecting area on the other side of the long side toward the sound collecting device.
  • the second sound collecting beam signal is generated by performing sound collecting processing in the direction.
  • the sound collection signal generated by the first microphone array is subjected to sound collection processing in which the direction from the sound collection area on the long side of the housing toward the sound collection device is the sound collection direction.
  • the second sound collection is performed by performing sound collection processing on the sound collection signal generated by the second microphone array so that the direction from the sound collection area on the other side of the long side toward the sound collection device is the sound collection direction. Since the beam signal is generated, the sound emitted in the sound collection areas on both sides of the long side of the housing The second sound collecting beam signal can be generated well and quickly by a relatively simple sound collecting process.
  • the sound collection control unit of the sound collection device of the present invention performs the delay processing of the sound collection signals generated by the plurality of microphones based on the arrangement intervals of the plurality of microphones, thereby performing the first collection.
  • a sound beam signal is generated; and the sound collection control unit determines a delay of the sound collection signal based on a distance between the virtual focus set on the opposite side of the sound collection area with respect to the microphone array and the plurality of microphones. Or the respective distances between the focal points set in one or more sound pickup spots provided in the sound pickup area and the plurality of microphones so that the respective distances obtained by the correction are equal to each other.
  • the second sound collecting beam signal is generated by delaying the sound collecting signals generated by the plurality of microphones so that the distances obtained by correcting the distances by the delay of the sound collecting signals are equal to each other.
  • the sound collection device calculates the distance between each microphone and the virtual focus set on the opposite side of the sound collection area with respect to the microphone array, with respect to the sound collection signals generated by the plurality of microphones.
  • the distance obtained by correcting the delay or the distance between the focal point in the sound collection spot set in the sound collection area and each microphone by the delay of the sound collection signal is the same as the distance obtained by correcting by the delay. Since the second sound collection beam signal is generated by performing delay processing at the same time, the sound emitted in the sound collection area can be collected well.
  • the sound collection device since the sound collection device generates a first sound collection beam signal by performing a delay process based on the arrangement interval of the plurality of microphones, the plurality of microphones act as gun microphones to extend the length from the sound collection device. Sounds emitted at positions separated in the direction can be collected well.
  • the sound collection device of the present invention further includes a sound collection mode reception unit that receives an input of a sound collection mode selected from a plurality of sound collection modes, and the sound collection control unit includes the sound collection control unit. Whether or not the first sound collection beam signal is generated is controlled according to the sound collection mode received by the mode reception unit. In this configuration, the sound collection device controls whether or not the first sound collection beam signal is generated according to the sound collection mode received by the sound collection mode reception unit. Whether or not to generate the sound can be determined according to the sound collection mode selected by the user. That is, the user can specify whether or not to generate the first sound collection beam signal, as necessary.
  • the sound collection device of the present invention further includes a sound collection mode reception unit that receives an input of a sound collection mode selected from a plurality of sound collection modes, and the sound collection control unit includes the sound collection mode.
  • the reception unit controls whether or not to generate the first sound collection beam signal according to the sound collection mode received, and the sound collection control unit is on the opposite side of the sound collection area with respect to the microphone array.
  • the collected sound signals generated by the plurality of microphones so that the distances obtained by correcting the respective distances between the set virtual focus and the plurality of microphones by the delay of the collected sound signals are equal to each other.
  • Delay processing for delaying or correcting each distance between the focal point set in one or more sound pickup spots provided in the sound pickup area and the plurality of microphones by delay of the sound pickup signal Gain The delay processing for delaying the sound collection signals generated by the plurality of microphones so that the respective distances are equal to each other is selectively performed according to the sound collection mode received by the sound collection mode reception unit. Thus, the second sound collecting beam signal is generated.
  • the sound collection control unit delays the sound collection signal so that the distances obtained by correcting the distance between the virtual focus and the microphone by the delay of the sound collection signal are equal to each other, or the sound collection Delay processing that delays the sound collection signal so that the distances obtained by correcting the distance between the focus and the microphone set in one or more sound collection spots provided in the area by the delay of the sound collection signal are equal to each other. Since the second sound collecting beam signal is generated by selectively performing according to the sound collecting mode, the sound emitted in the sound collecting area can be collected well.
  • the sound collection device of the present invention is a sound collection device that is generated based on sound from the short side of the housing.
  • the sound collection beam signal can be generated from the sound collection signal generated from the sound from the longitudinal direction of the casing and the sound collection beam signal can be generated from the sound collection device from all directions. Sound can be picked up. That is, by installing the sound pickup device of the present invention on a rectangular conference desk, the user's voice can be picked up equally regardless of where the user is seated on the conference desk.
  • FIGS. 1A to 1C are a plan view, a front view, and a right side view showing the external appearance of the audio conference apparatus according to an embodiment of the present invention.
  • FIGS. 2A to 2C are diagrams showing a microphone array on the front surface of the housing of the audio conference apparatus, a speaker array on the bottom surface of the housing, and a microphone array on the back surface of the housing.
  • FIG. 3 is a block diagram showing the configuration of the signal processing system of the audio conference apparatus.
  • FIGS. 4A to 4C are explanatory diagrams of spot delay processing, area delay processing, and longitudinal processing for the collected sound signal.
  • Figs. 5A and 5B are diagrams showing the sound collection area and device usage state in face-to-face mode.
  • FIGS. 6A and 6B are diagrams showing a sound collection area and a device use state in the multiple spot mode.
  • FIGS. 7A and 7B are diagrams showing the sound collecting area and the device usage state in the omnidirectional mode.
  • FIG. 8A and FIG. 8B are diagrams showing the sound collecting area and the apparatus usage state in the three-way mode.
  • FIG. 9 is a flowchart showing the flow of sound collection processing according to the sound collection mode.
  • FIGS. 1A to 1C show the external appearance of the audio conference apparatus according to an embodiment of the present invention in a plan view, a front view and a right side view
  • FIGS. 2A to 2C show an audio conference.
  • the microphone arrangement at the front of the device casing, the speaker force arrangement at the bottom of the enclosure, and the microphone arrangement at the rear of the enclosure are shown.
  • This audio conference apparatus 1 has a substantially rectangular parallelepiped casing 2 that is elongated to the left and right, and leg sections 3 that are provided at the left and right ends of the casing 2.
  • the bottom surface of the casing 2 is a device installation surface ( For example, it is a predetermined distance away from the top surface of the conference desk.
  • An operation unit 4 having an operation button such as a numeric keypad and a display screen is provided at the upper right end of the housing 2.
  • the operation unit 4 is connected to a control unit 1 0 (FIG. 3) installed in the housing 2 and accepts an operation input from the user and outputs a signal representing the operation input to the control unit 10.
  • the operation details and execution mode are displayed on the display screen under the control of unit 10.
  • a light emitting unit 5 made of light emitting elements such as LEDs arranged radially about the one point is installed. Each LED of the light emitting unit 5 is turned on / off under the control of the control unit 10 and indicates the direction of arrival of the voice.
  • I / O connector panel 1 1 On the right side of case 2, there is an I / O connector panel 1 1 with a LAN interface, analog audio input terminal, analog audio output terminal, and digital audio input / output terminal. Each connector in 1 is connected to the I / O interface 1 2 (Fig. 3) installed in the chassis 2.
  • the input / output connector panel 11 also has a DC jack to which power is supplied.
  • a force array is constructed.
  • microphones MIC 1 0 1 to MIC 1 1 6 having the same specifications are installed in a straight line in the longitudinal direction of the housing 2 to form a first microphone array.
  • microphones MIC 2 0 1 to MIC 2 1 6 having the same specifications are installed on the rear surface of the housing 2 in a straight line in the longitudinal direction of the housing 2 to form a second microphone array.
  • a lower surface grill 6 having a U-shaped cross section that covers the speaker array and the microphone array is attached to the lower surface of the housing 2 and the front and rear surfaces.
  • the bottom grill 6 is made of a metal plate with a punch mesh, and protects the spin force SP 1 to SP 16, microphone MI C 10 ;! to MIC 1 16, and MI C201 to MI C216. The sound emitted from the speaker and the sound collected by the microphone are allowed to pass.
  • the number of speakers in the speaker array is 16, and the number of microphones in each microphone array is 16.
  • the number of speakers and the number of microphones may be set as appropriate according to the specifications.
  • the speaker interval in each speaker array and the microphone interval in the microphone array are arbitrary. That is, the speakers and microphones may be arranged at regular intervals, densely arranged in the center of the array, and sparsely arranged as going to both ends.
  • FIG. 3 is a block diagram showing the configuration of the signal processing system of the audio conference apparatus 1.
  • the audio conference apparatus 1 is used for, for example, an audio conference performed between a plurality of points, and is installed at each point.
  • the audio conference apparatus 1 collects the voice of the speaker on the own apparatus side with a microphone and generates an audio signal.
  • the audio signal is transmitted to the partner device (not shown) via the communication control device (not shown) on the own device side, the network, and the communication control device on the partner device side.
  • the audio conference apparatus 1 emits the voice of the speaker on the partner apparatus side from the speaker based on the audio signal from the partner apparatus.
  • the audio conference apparatus 1 includes a control unit 10, an input / output connector panel 1 1, an input / output interface 12, a sound output directivity control unit 13, a DZA converter 14, a sound output amplifier 15, a speaker.
  • Array (speakers SP 1 to SP 16), first and second microphone arrays (microphones MIC 101 to MIC 1 16, MIC 201 to MIC 216), sound collecting amplifier 16, AZD converter 17, first and second Sound collecting beam generators 181, 182, sound collecting beam selector 19, echo canceling unit 20, And an operation unit 4.
  • the I / O interface 1 2 converts the audio signal input from the other device or external device (personal computer or audio device) via each connector of the I / O connector panel 11 to a bitstream digital audio signal. And output to the echo cancel unit 20.
  • the input / output interface 1 2 arranges the bucketed audio signal in time series and echo canceling unit 2 By sequentially outputting to 0, the audio signal is converted into a bit stream.
  • the input / output interface 12 digitizes this signal and outputs it to the echo canceling unit 20.
  • Eco-cancelling unit 2 0 says, “Sound based on the audio signal input from the network via the input / output interface 1 2 is emitted from the speakers SP 1 to SP 1 6 and this sound is emitted.
  • the audio is returned to the microphone MIC 1 0 1 to MIC 1 1 6 and MIC 2 0 1 to MIC 2 1 6 and the resulting audio signal is output from the input / output interface 1 2 to the network.
  • the speaker on the device side speaks, the sound is emitted from the speaker on the other device side with a delay. Configuration of the echo cancel unit 20 ⁇ Details of the operation will be described later.
  • the sound emission directivity control unit 1 3 performs delay processing and predetermined amplitude processing on the audio signal supplied from the input / output interface 1 2 and outputs individual sound emission signals for the speakers SP 1 to SP 1 6. Generate and output to DZA converter 14. Each D / A converter 14 converts the individual sound output signal to an analog signal and outputs it to each sound output amplifier 15, and each sound output amplifier 15 amplifies the individual sound output signal to produce a speaker SP 1 ⁇ Give to SP 1 6.
  • the speakers SP 1 to SP 16 convert the supplied individual sound emission signal into sound and emit it to the outside. Since the speakers SP 1 to SP 1 6 are installed downward on the lower surface of the housing 2, the emitted sound is reflected from the upper surface of the desk on which the audio conference device 1 is installed, and the housing 2 and the desk.
  • the audio conference device 1 generates a sound collection beam signal based on the voice of the speaker when the speaker on the own device side speaks. That is, each of the microphones MIC 101 to MIC 1 16 of the first microphone array provided in the front of the housing collects the voice of the speaker on the front side of the audio conference device 1 and collects the sound signal that is an electrical signal. This sound collection signal is output to each sound collection amplifier 16.
  • the microphones MI C20 1 to MI C2 16 in the second microphone array provided on the back of the chassis collect the voice of the speaker on the back side of the device and convert it into a collected sound signal. Output to.
  • Each of the sound collecting amplifiers 16 corresponding to the first microphone array amplifies the collected sound signal and supplies the amplified signal to the AZD converter 17, and the AZD converter evening 17 converts the analog collected sound signal into a digital signal and converts it to the first signal. Is output to the collected sound beam generator 181.
  • the sound collection amplifier 16 corresponding to the second microphone array outputs the sound collection signal to the second sound collection beam generation unit 182 via the AZD converter 17.
  • the sound collection beam generation units 181 and 182 perform delay processing corresponding to the sound collection mode instructed by the control unit 10 on the sound collection signals generated by the microphones MIC 101 to MI C 1 16 and MIC 201 to MIC 216.
  • the collected sound beam selection unit 19 selects and selects the collected sound beam signal MB having the highest signal level from the collected sound beam signals MB 1 x and MB 2 x input from the collected sound beam generation units 181 and 182.
  • the collected sound beam signal MB is output to the echo cancel unit 20.
  • the echo cancellation unit 20 includes an adaptive echo canceller 21.
  • the adaptive echo canceller 21 includes an adaptive filter 21 1 and a post processor 212.
  • the adaptive filter 21 1 estimates the audio signal component that returns from the speaker SP to the microphone MIC based on the input audio signal S 1 corresponding to the individual sound emission signal supplied to the speaker SP, and generates a pseudo-regression sound signal.
  • the post processor 2 1 2 uses the sound pickup beam signal MB selected by the sound pickup beam selector 19 to Echo component is removed by subtracting the pseudo-regression sound signal generated by the evening 2 1 1.
  • the collected sound beam signal from which the echo component has been removed is input to the input / output interface 12.
  • the speech signal that returns from the speaker SP to the microphone MIC can be accurately predicted and removed, and the collected sound signal based on the voice of the speaker collected by the microphone MIC. Can be output from the I / O interface 1 2 to the network.
  • This audio conference apparatus 1 executes four sound collection modes by selecting and performing three patterns of delay processing.
  • three patterns of delay processing spot delay processing, area delay processing, and longitudinal delay processing
  • Figures 4A through 4C show spot delay processing, area delay processing, and longitudinal delay processing for the collected sound signal.
  • the number of microphones is five and the microphones are indicated by M I C 1 to M I C 5 for simplicity of explanation.
  • a delay process is performed to pick up the voice of the speaker uttered in the sound pickup spots P 1 to P 4 at a high gain. That is, in the spot delay processing, the physical distance from the focal points F 1 to F 4 (centers of the sound collection spots P 1 to P 4) to each microphone and the delay time for the sound collection signal generated by the microphone are multiplied by the sound speed.
  • the microphones MIC 1 to MIC 5 perform delay processing to synthesize the collected sound signals after delay processing so that the sum of the obtained correction distance and microphones MIC 1 to MIC 5 is equal. Then, the sound pickup beam signals MB 1 x and MB 2 X are obtained.
  • the physical distance between the farthest microphone MIC 1 from the focal point F 4 is L 1 and the physical distance between the focal point F 4 and each microphone MIC 2 to MIC 5 is L 2 to L 5 (shorter than L 1), respectively. Therefore, the sound generated at the focal point F 4 (or within the sound collection spot P 4) reaches the microphones MIC 2 to MIC 5 earlier than the microphone MIC 1.
  • the sound collection timing (sound wave arrival timing) of the microphones MIC 2 to MIC 5 is the same as the sound collection timing of the sound by the microphone MIC 1 (that is, from the microphones MIC 2 to MIC 5 to the focal point).
  • the difference between the physical distance L2 to L5 and the physical distance L1 is given a delay corresponding to D2 to D5.
  • the signal components corresponding to the sound generated in the sound collection spot around the focal point are matched with each other in the sound collection timing (phase). It is possible to synthesize, and it is possible to raise only the level of the sound generated within the sound collection spot.
  • the signal components corresponding to the sound generated in other areas are synthesized with their sound collection timings (phases) shifted from each other, so the amplitude is canceled between the sound collection signal components. Gain can be suppressed. That is, the sound collection gain of the microphone becomes high only in the direction from the focal point F 4 to the microphones M I C 1 to M I C 5, and the sound collection signal generated by the microphone is converted into a beam.
  • each of the sound collection beam generating units 1 8 1 and 1 8 2 has four sound collection spots set in advance according to the seat position of the conference room and the like. Voices uttered in microphones P1 to P4 and propagated to microphones MIC1 to MIC5 Spot delay processing is performed on the collected sound signal generated based on the above.
  • the sound collection beam generator 1 8 1 is configured to define the direction from the sound collection spot set on one side in the longitudinal direction of the device to the device as the sound collection direction for the sound collection signal generated by the corresponding microphone.
  • the collected sound beam signals MB11 to MB14 are generated by performing spot delay processing.
  • the sound collection beam generation unit 1 8 2 determines the direction from the sound collection spot set on the other side in the longitudinal direction of the device toward the device for the sound collection signal generated by the corresponding microphone.
  • the collected sound beam signals MB 2 1 to MB 2 4 are generated by performing spot delay processing as follows. These sound collecting beam signals MB 1 1 to MB 14 and MB 2 1 to MB 2 4 are generated in parallel.
  • the number of sound collection spots is not limited to four. Further, the number of sound collecting spots may be changed between the front side and the back side of the audio conference apparatus 1.
  • a sound collection area is set in advance, and a virtual focus F 10 is set in advance behind the microphone array.
  • a delay process is performed to collect the sound from the sound collection area toward the focal point F 10 at a high level by the microphone array.
  • the physical distance between the microphones MIC 2 to MIC 5 and the focal point F 10 is L 1 2 to L 1 for the collected signals obtained by converting the sound collected by each microphone MIC 2 to MIC 5.
  • Difference between 5 and microphone MIC 1 and focal point F 1 0 Physical distance L 1 1 A delay corresponding to D 1 2 to D 1 5 is applied.
  • the sound collecting beam signals are generated by synthesizing the sound collecting signals of the microphones MIC 1 to MIC 5.
  • the range between the two half straight lines R 10 and R 11 extending from the focal point F 10 toward the microphone array and passing through the microphones MIC 1 and MIC 5 at both ends thereof is not included. Sound area. Further, the position of the virtual focus is not limited to the position of F 10 in the illustrated example. As a result, the sound arriving from the sound collection area is collected by each microphone MIC 1 to MIC 5, and then adjusted and synthesized so that the sound collection timing by each microphone is substantially the same by area delay processing. Therefore, it is possible to increase the sound collection level of the sound coming from the sound collection area. On the other hand, it comes from areas outside the sound collection area.
  • the collected sound is collected by each microphone and then synthesized by shifting the timing by area delay processing, so that the sound collection gain can be suppressed.
  • the area delay processing can collect sound over a wide area, although the gain is not high because the range of sound collection is wider than the spot delay processing described above.
  • the sound collection beam generation unit 18 1 uses the direction from the sound collection area set on the front side of the own apparatus toward the focal point F 10 on the rear side of the apparatus as the sound collection direction.
  • the sound collection beam generator 1 8 2 performs area delay processing in which the direction from the sound collection area set on the back side of its own device toward the focal point F 10 on the front side of the device is the sound collection direction.
  • These sound collecting beam signals M B 1 a and M B 2 a are generated in parallel.
  • a sound collection area is preset on one side of the microphone array in the longitudinal direction, and a focal point F 20 is preset in the sound collection area.
  • delay processing is performed to pick up the sound from the focus F 20 toward the microphone array at a high level. That is, the physical distance L 2 2 to L 2 between the microphones MIC 2 to MIC 5 and the focal point F 20 is applied to the collected sound signal obtained by converting the sound collected by each microphone MIC 1 to MIC 5. Difference between 5 and microphone MIC 1 and focus F 2 0 and physical distance L 2 1 A delay corresponding to D 2 2 to D 2 5 is applied. Then, the sound collection beam signals are generated by synthesizing the sound collection signals of the microphones M I C 1 to M I C 5.
  • the sound arriving from the sound collection area is collected by the microphones MIC 1 to MIC 5 and then synthesized by adjusting the sound collection timing of the microphones to be substantially the same by the longitudinal delay processing. Therefore, it is possible to increase the sound collection level of the sound arriving from the sound collection area.
  • coming from an area outside the sound collection area The collected sound is picked up by each microphone and then synthesized with the timing shifted by the delay, so that the sound collecting gain can be suppressed.
  • the longitudinal delay processing delay processing is performed according to the arrangement interval of the microphones MIC 1 to MIC 5, so the collected sound beam signal is independent of the physical distance between the focal point F 20 and the microphones MIC 1 to MIC 5. Can be generated.
  • the microphone array can be operated as a gun microphone that can pick up sounds coming from the longitudinal direction.
  • the longitudinal delay processing even if the microphones MIC 1 to MIC 5 collect the return sounds from the speaker SP, the phases of the return sounds are shifted during the delay processing, so that the signal level of the return sounds decreases. . As a result, in the longitudinal direction delay process, the echo is less likely to occur compared to the spot delay process and the carrier delay process.
  • the sound collection pixel generation unit 1 8 1 performs longitudinal delay processing in which the sound collection direction is the direction from the sound collection area on one side in the longitudinal direction of the apparatus toward the apparatus. As a result, the collected sound beam signal MB 15 is generated.
  • the sound collection beam generator 1 8 2 has a direction from the sound collection area on the other side in the longitudinal direction of the device (opposite to the sound collection area of the sound collection beam generator 1 8 1) to the device as the sound collection direction.
  • the sound collection beam signal MB 25 is generated by performing longitudinal delay processing.
  • FIG. 5A and FIG. 5B are diagrams showing the sound collecting area and the device usage state in the face-to-face mode.
  • FIGS. 6A and 6B are diagrams showing a sound collection area and a device use state in the multiple spot mode.
  • FIGS. 7A and 7B are diagrams showing the sound collection area and device usage state in the omnidirectional mode.
  • FIGS. 8A and 8B are diagrams showing the sound collection area and device usage state in the three-way mode.
  • the face-to-face mode sound collection areas are set on the front side and the back side of the audio conference apparatus 1.
  • Collected sound beam generator 1 of audio conference device 1 8 1 performs area delay processing on the collected sound signal generated by collecting the sound from the front of the device to generate the collected sound beam signal MB 1 a, and the collected sound beam generation unit 182
  • the collected sound beam signal MB 2 a is generated by performing area delay processing on the collected sound signal generated by collecting the sound from the direction.
  • the collected sound beam selection unit 19 selects the collected sound beam signal MB 1 a, MB 2 a, which has a higher signal level, as the target collected beam signal MB ) Select as, and output to Echo Canceler 20.
  • the face-to-face mode is the most suitable mode for a user to sit and hold a meeting on both long sides of a rectangular conference desk.
  • a plurality of spots on the front side and back side of the audio conference apparatus 1 and on both sides in the longitudinal direction are set as sound collection areas.
  • the collected sound beam generator 181 of the audio conference apparatus 1 performs spot delay processing on the collected sound signal based on the voice from the four spots on the front side of the audio conference apparatus 1, thereby collecting the collected sound beam signal MB 1 1 ... MB 14 is generated, and a sound collection beam signal MB 15 is generated by performing a longitudinal delay process on the sound collection signal based on the sound from the spot on one side in the longitudinal direction of the apparatus.
  • the sound collection beam generation unit 182 generates sound collection beam signals MB 21 to MB24 from the sound collection signals based on the voices from the four spots on the back side of the audio conference apparatus 1, and the longitudinal direction of the audio conference apparatus 1
  • the sound collection beam signal MB 25 is generated from the sound collection signal based on the sound from the side spot.
  • the sound collection beam selection unit 19 selects the sound collection beam signal having the highest signal level from among the sound collection beam signals MB 11 to MB 15 and MB 21 to MB 25 as the target sound collection beam signal MB.
  • Output to echo cancel unit 20 As described above, the multi-spot mode is an optimal mode for a user to sit down and hold a conference so as to surround a rectangular conference desk.
  • the microphones MIC 101 to MIC 1 16 and MIC 201 to MIC 216 act as ganmics. Regardless of the distance to Good sound can be collected.
  • sound collection areas are set on the front side, back side, and both sides in the longitudinal direction of the audio conference apparatus 1.
  • the sound collection beam generators 181 and 182 of the audio conference device 1 perform area delay processing and longitudinal delay processing to collect sound from the sound collection area on the front side of the device and generate a collected sound signal.
  • the sound collecting beam signal MB 1a is generated based on the sound collecting signal generated by collecting the sound from the sound collecting area on the rear side of the device.
  • the sound collection beam signals MB 15 and MB 25 are generated based on the sound collection signal generated by collecting the sound from the sound collection area.
  • the sound collection beam selection unit 19 selects the sound collection beam signal having the highest signal level from among the sound collection beam signals MB 1 a, MB 2 a, MB 15 and MB 25 as the target sound collection beam signal MB. And output to the echo cancellation unit 20.
  • the omnidirectional mode is the optimal mode for a user to sit down and hold a conference so as to surround a rectangular conference desk.
  • each microphone MIC 101 to MIC 1 1 6 and MIC 201 to MIC 216 act as gun microphones, so the audio conference apparatus 1 Regardless of the distance between the user and the user, the sound can be collected well.
  • sound collection areas are set on the front side, back side, and one longitudinal side of the audio conference device 1.
  • the sound collection beam generators 181 and 182 of the audio conference device 1 perform area delay processing and longitudinal delay processing to collect sound from the sound collection area on the front side of the device and generate a collected sound signal.
  • the sound collecting beam signal MB 2 a is generated, based on the longitudinal direction of the device.
  • a sound collecting beam signal MB 15 is generated based on the sound collecting signal generated by collecting the sound from the sound collecting area.
  • the sound collection beam selector 19 receives the sound collection beam signal MB 1
  • the sound collecting beam signal having the highest signal level among a, MB 2 a, and MB 15 is selected as the target sound collecting beam signal MB and output to the echo canceling unit 20.
  • the 3-way mode is the optimal mode for conducting a conference with a monitor installed on the short side of a rectangular conference desk.
  • each microphone MIC 10 1 to MIC 1 16 acts as a gun microphone, so the audio conference device 1 and the user Sound can be collected well regardless of the distance.
  • microphones MIC 201 to 216 may be used instead of the microphones MIC 101 to MIC 116 for collecting voices coming from the sound collecting area on one side in the longitudinal direction of the audio conference apparatus 1.
  • the microphone of the audio conference device 1 works as a gun microphone that picks up sound coming from the longitudinal direction of the device, it sits away from the audio conference device 1 on one side or both sides of the audio conference device 1 in the longitudinal direction.
  • the user's voice can also be collected correctly. That is, the sound collection by the audio conference apparatus 1 is not easily affected by the length of the conference desk in the longitudinal direction.
  • FIG. 9 is a flowchart showing the flow of sound collection processing according to the sound collection mode. In the following, only the sound collection processing will be described, but sound emission processing is also performed.
  • the control unit 10 performs the following processing according to the input sound collection mode. Do. Here, the sound collection processing is not performed until the sound collection mode is input (No in S101).
  • the control unit 10 Upon receiving the multiple spot mode (Yes in S102), the control unit 10 instructs the sound collection beam generation units 181, 182 to perform sound collection processing in the multiple spot mode. To do. That is, the control unit 10 causes the sound collection beam generation units 181 and 182 to perform spot delay processing on the sound collection signals generated by the microphones MIC 101 to MIC 116 and MIC201 to MIC216, and collects the sound collection beam signals. MB 1 1 to MB 14 and MB 2 1 to MB24 are generated (SI 03). The control unit 10 also performs longitudinal delay processing (first and second longitudinal directions) on the collected sound signals generated by the microphones MIC 101 to MIC 116 and MIC 201 to MIC 216 in the collected sound beam generation units 181 and 182.
  • the control unit 10 causes the sound collection beam selection unit 19 to select the sound collection beam signal MB having the highest signal level from the sound collection beam signals generated by the sound collection beam generation units 181, 182 (S 110). End sound processing.
  • the control unit 10 When receiving the omnidirectional mode (No in S102 and Yes in S105), the control unit 10 instructs the sound collection beam generation units 181 and 182 to perform sound collection processing in the omnidirectional mode. That is, the control unit 10 causes the sound collection beam generation unit 182 to perform longitudinal direction delay processing (second longitudinal delay processing) on the sound collection signals generated by the microphones Ml C201 to MIC216. 25 (S 106), and then causes the sound collection beam generation unit 181 to perform longitudinal delay processing (first longitudinal delay processing) on the sound collection signals generated by the microphones MIC 101 to MIC 1 16. The collected sound beam signal MB 15 is generated (S 108).
  • control unit 10 causes the sound collection beam generation units 181, 182 to perform area delay processing on the sound collection signals generated by the microphones MIC 101 to MIC 116, MIC 201 to MIC 216, thereby collecting the sound collection beacon.
  • Signal signals MB 1 a and MB 2 a are generated (S 109), and the sound collecting beam selecting unit 19 selects the sound collecting beam signal MB having the highest signal level (S 1 10), and the sound collecting process is terminated.
  • the control unit 10 When the control unit 10 accepts the three-way mode (No in S 105 and Yes in S 107), the sound collection signal generated by each microphone MIC 10 1 to MIC 1 16 in the sound collection beam generation unit 181. Is subjected to longitudinal delay processing (first longitudinal delay processing), The collected sound beam signal MB 15 is generated (S 108). In addition, the control unit 10 causes the sound collection beam generation units 181 and 182 to perform area delay processing on the sound collection signals generated by the microphones MIC 101 to MIC 1 16 and MIC20 1 to MIC2 16, Signal signals MB 1 a and MB 2 a are generated (S 109), and the sound collecting beam selecting unit 19 selects the sound collecting beam signal MB having the highest signal level (S 1 10), and the sound collecting process is terminated.
  • the control unit 10 When the control unit 10 receives the face-to-face mode (No in S107), the area delay processing is performed on the collected sound signals generated by the microphones MIC 101 to MIC 1 16. MIC 201 to MIC C 216 in the collected sound beam generation units 181 and 182. Sound collecting beam signals MB 1 a and MB 2 a are generated (S 109), and the sound collecting beam selection unit 19 selects the sound collecting beam signal MB having the highest signal level (S 1 10). Ends sound processing.
  • the audio conferencing apparatus 1 performs various delay processes on the collected sound signal according to the sound collecting mode, generates a collected sound beam signal, and generates the highest signal level among the generated collected sound beam signals. Select a sound pickup beam signal MB with a large noise.
  • the collected sound beam signal MB is transmitted to another audio conference apparatus via the network after the echo is removed by the echo canceling unit 20.
  • the audio conference apparatus 1 has been described.
  • the sound emitting and collecting apparatus including the substantially rectangular parallelepiped housing elongated in one direction and the sound collecting function described above is a sound collecting apparatus. fc good.
  • the face-to-face mode, the multiple spot mode, the omnidirectional mode, and the three-way mode are provided as the sound collection modes.
  • the sound collection mode is formed using spot delay processing, area delay processing, and longitudinal delay processing. Any sound collection mode may be provided as long as it is a sound mode.
  • a sound collection mode for performing different delay processing may be provided for each of the sound collection beam generation units 181 and 182.
  • the sound collection beam selecting unit 19 collects the sound regardless of the sound collection mode. Of the collected sound beam signals input from the sound beam generators 181 and 182, the collected sound beam signal with the highest signal level was output as the target collected sound beam signal. However, the collected sound beam selector 19 may combine and output the collected sound beam signals input from the collected sound beam generators 181 and 182. Thereby, the audio conference apparatus 1 can collect the speech of all users. In addition, the sound collection beam selection unit 19 may synthesize and output a sound collection beam signal having a signal level of a certain level or more among the sound collection beam signals input from the sound collection beam generation units 181, 182. As a result, it is possible to pick up the speech of all users, not noise.
  • the sound collection beam selection unit 19 may select a sound collection beam signal based on the sound collection mode instructed by the control unit 10. For example, in face-to-face mode, the collected sound beam signals MB 1 a and MB 2 a are synthesized and output without outputting the collected sound beam signal MB 1 a and MB 2 a with a higher signal level. To do. In the multiple spot mode, instead of selecting and outputting the collected sound beam signal with the highest signal level, a collected sound beam signal with a signal level above a certain level may be synthesized and output.
  • the voice of the user seated at any position of the conference desk can be collected equally.

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

 長方形状の会議机のどの位置にユーザが着席してもユーザの音声を同等に収音することができる収音装置。音声会議装置(1)は、長尺な筐体(2)の正面及び背面に設けられたマイクアレイが生成した収音信号に対して、収音モードに応じた収音指向性を有する収音装置を行うことにより複数の収音ビーム信号を生成し、これらの信号から目的の収音ビーム信号を生成する。例えば、筐体長手方向を収音方向とする遅延処理を行うことで筐体長手方向両側の収音エリア内で生じた音声に対応する収音ビーム信号を生成し、また、筐体短手方向を収音方向とする遅延処理を行うことで装置正面側および背面側の収音エリア内で生じた音声に対応する収音ビーム信号を生成する。

Description

明細書
収音装置 技術分野
この発明は、 長尺な略直方体形状の筐体と該筐体の長手方向に配置されたマイ クアレイとを備えた収音装置に関する。
背景技術
従来、 音声通信会議を行うための放収音機能を有する音声会議装置が各種提案 されている (特開平 8— 2 9 8 6 9 6号公報参照) 。
特開平 8— 2 9 8 6 9 6号公報に記載の音声会議装置は、 矩形形状の筐体を有 し、 該筐体の中央にスピーカを設け、 該筐体の四角のそれぞれにマイクを設けて いる。 このため、 音声会議装置は、 ユーザが装置に近づいて発言すればするほど 大きな声として収音する。
したがって、 特開平 8— 2 9 8 6 9 6号公報の音声会議装置を会議机の上面に 配置して音声会議を行うと、 装置の近くに着席したユーザの声は大きな声として 収音され、 装置から遠くに着席したユーザの声は、 小さな声として収音されるた め、 着席位置によつて収音信号の信号レベルが変わつてしまうといつた問題が生 じた。 発明の開示
そこで、 本発明は、 会議机のどの位置に着席したユーザの音声も同等に収音す ることができる収音装置を提供する。
この発明の収音装置は、 長尺な略直方体形状の筐体と、 前記筐体にその長手方 向に沿って配列された複数のマイクを備えたマイクアレイと、 該マイクアレイで 生成した収音信号に対して収音方向を異にする収音処理を行って複数の収音ビー ム信号を生成する収音制御ユニットとを備え、 前記収音制御ユニットは、 前記筐 体の長手方向を収音方向とする収音処理により第 1の収音ビーム信号を生成し、 前記筐体の短手方向を収音方向とする収音処理により第 2の収音ビーム信号を生 成し、 前記第 1及び第 2の収音ビーム信号を含む前記複数の収音ビーム信号から 目的の収音ビーム信号を生成することを特徴とする。
この構成では、 収音装置は、 筐体長手方向に沿って配されたマイクアレイが生 成した収音信号から、 筐体の長手方向を収音方向とする収音処理 (筐体長手方向 に収音指向性を有する収音処理) により第 1の収音ビーム信号を生成し、 筐体の 短手方向を収音方向とする収音処理により第 2の収音ビーム信号を生成するので、 収音装置の全方向からの音声を収音することができる。 また、 複数の収音ビーム 信号から目的の収音ビーム信号を生成することにより、 どの方向からの音声を収 音したかを特定することができる。 よって、 長方形状の会議机に収音装置を設置 すると、 収音装置は、 会議机のどの位置に着席したユーザからの音声も同等に収 音することができる。
また、 この発明の収音装置の前記マイクアレイは、 前記筐体の長辺一側の面に 配された第 1のマイクアレイと前記筐体の長辺他側の面に配された第 2のマイク アレイとを備え、 前記収音制御ユニットは、 前記第 1のマイクアレイが生成した 収音信号に対して前記筐体の長辺一側の収音エリアから前記収音装置に向かう方 向を収音方向とする収音処理を行うと共に前記第 2のマイクアレイが生成した収 音信号に対して前記筐体の長辺他側の収音エリアから前記収音装置に向かう方向 を収音方向とする収音処理を行うことにより、 前記第 2の収音ビーム信号を生成 することを特徴とする。
この構成では、 第 1のマイクアレイが生成した収音信号に対して筐体の長辺一 側の収音エリアから収音装置に向かう方向を収音方向とする収音処理を行うと共 に第 2のマイクアレイが生成した収音信号に対して筐体の長辺他側の収音エリア から収音装置に向かう方向を収音方向とする収音処理を行うことにより第 2の収 音ビーム信号を生成するので、 筐体の長辺両側の収音エリァ内で発せられた音声 を良好に収音することができ、 また比較的簡易な収音処理により第 2の収音ビー ム信号を良好かつ迅速に生成することができる。
また、 この発明の収音装置の前記収音制御ユニットは、 前記複数のマイクの配 置間隔に基づいて該複数のマイクが生成した収音信号の遅延処理を行うことで前 記第 1の収音ビーム信号を生成し、 また、 前記収音制御ユニットは、 前記マイク アレイに関し収音エリアと反対側に設定された仮想焦点と前記複数のマイクとの 間のそれぞれの距離を収音信号の遅延により補正して得られるそれぞれの距離が 互いに等しくなるように、 又は、 前記収音エリア内に設けた 1以上の収音スポッ 卜内に設定された焦点と前記複数のマイクとの間のそれぞれの距離を収音信号の 遅延により補正して得られるそれぞれの距離が互いに等しくなるように、 前記複 数のマイクが生成した収音信号を遅延させることで前記第 2の収音ビーム信号を 生成することを特徴とする。
この構成では、 収音装置は、 複数のマイクが生成した収音信号に対して、 マイ クアレイに関して収音エリアと反対側に設定された仮想焦点と各マイクとの間の 距離を収音信号の遅延により補正して得られる距離または収音エリア内に設定さ れた収音スポット内の焦点と各マイクとの間の距離を収音信号の遅延により補正 して得られる距離が互いに等しくなるように遅延処理を行うことで第 2の収音ビ ーム信号を生成するので、 収音エリア内で発せられた音声を良好に収音すること ができる。 また、 収音装置は、 複数のマイクの配置間隔に基づいて遅延処理を行 うことで第 1の収音ビーム信号を生成するので、 複数のマイクをガンマイクとし て作用させて収音装置から長手方向に離隔した位置で発せられた音声を良好に収 音することができる。
更に、 この発明の収音装置は、 複数の収音モードの中から選択された収音モ一 ドの入力を受け付ける収音モード受付ュニットを更に備え、 前記収音制御ュニッ トは、 該収音モード受付ュニッ卜が受け付けた収音モードに応じて前記第 1の収 音ビーム信号を生成するか否かを制御することを特徴とする。 この構成では、 収音装置は、 収音モード受付ユニットが受け付けた収音モード に応じて第 1の収音ビーム信号を生成するか否かを制御するので、 第 1の収音ビ —ム信号の生成の要否をユーザが選択した収音モードに応じて決定することがで きる。 すなわち、 ユーザは、 必要に応じて、 第 1の収音ビーム信号を生成するか 否かを指定することができる。
また、 この発明の収音装置は、 複数の収音モードの中から選択された収音モー ドの入力を受け付ける収音モード受付ュニットを更に備え、 前記収音制御ュニッ トは、 該収音モード受付ュニッ卜が受け付けた収音モードに応じて前記第 1の収 音ビーム信号を生成するか否かを制御し、 また、 前記収音制御ユニットは、 前記 マイクアレイに関し収音エリアと反対側に設定された仮想焦点と前記複数のマイ クとの間のそれぞれの距離を収音信号の遅延により補正して得られるそれぞれの 距離が互いに等しくなるように前記複数のマイクが生成した収音信号を遅延させ る遅延処理、 または、 前記収音エリア内に設けた 1以上の収音スポット内に設定 された焦点と前記複数のマイクとの間のそれぞれの距離を収音信号の遅延により 補正して得られるそれぞれの距離が互いに等しくなるように前記複数のマイクが 生成した収音信号を遅延させる遅延処理を、 前記収音モード受付ュニッ卜が受け 付けた収音モ一ドに応じて選択的に行うことにより、 前記第 2の収音ビーム信号 を生成することを特徴とする。
この構成では、 収音制御ユニットは、 仮想焦点とマイクとの距離を収音信号の 遅延により補正して得られる距離が互いに等しくなるように収音信号を遅延させ る遅延処理、 または、 収音エリア内に設けた 1以上の収音スポット内に設定され た焦点とマイクとの距離を収音信号の遅延により補正して得られる距離が互いに 等しくなるように収音信号を遅延させる遅延処理を収音モードに応じて選択的に 行うことにより第 2の収音ビーム信号を生成するので、 収音エリァ内で発せられ た音声を良好に収音することができる。
この発明の収音装置は、 筐体の短手方向からの音声に基づいて生成された収音 信号から収音ビーム信号を生成すると共に、 筐体の長手方向からの音声に基づい て生成された収音信号から収音ビーム信号を生成することができるので、 収音装 置の全方向からの音声を収音することができる。 すなわち、 長方形状の会議机に この発明の収音装置を設置することで、 会議机のどの位置にユーザが着席しても ユーザの音声を同等に収音することができる。 図面の簡単な説明
第 1 A図ないし第 1 C図は、 本発明の一実施形態に係る音声会議装置の外観を 示す平面図、 正面図および右側面図である。
第 2 A図ないし第 2 C図は、 音声会議装置の筐体正面のマイク配列、 筐体底面 のスピーカ配列及び筐体背面のマイク配列を示した図である。
第 3図は、 音声会議装置の信号処理系の構成を示すプロック図である。
第 4 A図ないし第 4 C図は、 収音信号に対するスポット遅延処理、 エリア遅延 処理および長手方向処理の説明図である。
第 5 A図及び第 5 B図は、 対面モードでの収音エリアおよび装置使用状態を示 す図である。
第 6 A図及び第 6 B図は、 複数スポッ卜モードでの収音エリアおよび装置使用 状態を示す図である。
第 7 A図及び第 7 B図は、 全方向モ一ドでの収音ェリァおよび装置使用状態を 示す図である。
第 8 A図及び第 8 B図は、 3方向モードでの収音ェリァおよび装置使用状態を 示す図である。
第 9図は、 収音モードに応じた収音処理の流れを示すフローチャートである。 発明を実施するための最良の形態
以下、 本発明の実施の形態について図面を参照しながら説明する。 第 1 A図〜第 1 C図は、 本発明の一実施形態に係る音声会議装置の外観を平面 図、 正面図および右側面図で示し、 第 2 A図〜第 2 C図は、 音声会議装置の筐体 正面のマイク配列、 筐体底面のスピー力配列および筐体背面のマイク配列を示す。 この音声会議装置 1は、 左右に長尺な略直方体形状の筐体 2と、 筐体 2の左右 端部に設けられた脚部 3とを有し、 筐体 2の底面は装置設置面 (例えば会議机の 上面) から所定距離離間している。
筐体 2の上面右端部には、 テンキー等の操作ポタンや表示画面を有する操作部 4が設けられている。 操作部 4は、 筐体 2内に設置された制御部 1 0 (第 3図) に接続され、 ユーザからの操作入力を受け付けて操作入力を表す信号を制御部 1 0に出力するとともに、 制御部 1 0の制御下で操作内容や実行モード等を表示画 面に表示する。
筐体 2の上面中央部には、 その一点を中心として放射状に配置された L E D等 の発光素子からなる発光部 5が設置されている。 発光部 5の各 L E Dは、 制御部 1 0の制御下でオンオフし、 音声の到来方向を示す。
筐体 2の右側面には、 L ANインタフェース、 アナログオーディオ入力端子、 アナログオーディオ出力端子、 デジタルオーディオ入出力端子を備える入出力コ ネク夕パネル 1 1が設置されており、 この入出力コネクタパネル 1 1の各コネク 夕は筐体 2内部に設置された入出力インタフェース 1 2 (第 3図) に接続されて いる。 また、 入出力コネクタパネル 1 1は、 電源が供給される D Cジャックも備 える。
筐体 2の下面には、 同仕様の 1 6個のスピ一力 S P 1〜 S P 1 6が筐体 2の長 手方向に沿って一定の間隔で直線状に設置されており、 これによりスピー力ァレ ィが構成される。 筐体 2の正面には、 同仕様のマイク M I C 1 0 1〜M I C 1 1 6が筐体 2の長手方向に直線状に設置され、 第 1のマイクアレイを構成している。 また、 筐体 2の背面には同一仕様のマイク M I C 2 0 1〜M I C 2 1 6が筐体 2 の長手方向に直線状に設置され、 第 2のマイクアレイを構成している。 そして、 筐体 2の下面と正面及び背面側とには、 これらスピーカアレイとマイ クアレイとを覆う断面 U字形状に形成された下面グリル 6が取り付けられている。 この下面グリル 6は、 パンチメッシュが施された金属板で構成されており、 スピ —力 SP 1〜SP 16、 マイク MI C 10;!〜 M I C 1 16、 MI C201〜M I C216を保護するとともに、 スピーカから放音された音声及びマイクが収音 する音声を通過させるようになつている。
なお、 本実施形態では、 スピーカアレイのスピーカ数を 16個とし、 各マイ クアレイのマイク数をそれぞれ 16個としたが、 仕様に応じてスピーカ数及びマ イク数は適宜設定すればよい。 また、 各スピーカアレイにおけるスピーカ間隔及 びマイクアレイにおけるマイク間隔は任意である。 すなわち、 スピーカ及びマイ クは一定間隔で配置してもよく、 アレイ中央部に密に配置し、 両端部にいくに従 い疎に配置するようにしてもよい。
次に、 音声会議装置 1の機能 *構成について、 第 3図を参照して説明する。 第 3図は、 音声会議装置 1の信号処理系の構成を示すブロック図である。
音声会議装置 1は、 例えば複数地点間で行われる音声会議に用いられ、 各地点 に設置される。 音声会議装置 1は、 自装置側の話者の音声をマイクで収音して音 声信号を生成する。 音声信号は、 自装置側の通信制御装置 (図示略) とネットヮ ークと相手装置側の通信制御装置とを介して相手装置 (図示略) へ送信される。 また、 音声会議装置 1は、 相手装置からの音声信号に基づき相手装置側の話者の 音声をスピーカから放音する。
第 3図に示すように、 音声会議装置 1は、 制御部 10、 入出力コネクタパネル 1 1、 入出力インタフェース 12、 放音指向性制御部 13、 DZAコンバータ 1 4、 放音用アンプ 15、 スピーカアレイ (スピーカ SP 1〜SP 16) 、 第 1及 び第 2のマイクアレイ (マイク M I C 101〜M I C 1 16, M I C 201〜M I C 216) 、 収音用アンプ 16、 AZDコンバータ 17、 第 1及び第 2の収音 ビーム生成部 181、 182、 収音ビーム選択部 19、 エコーキャンセル部 20、 及び操作部 4を備える。
入出力イン夕フェース 1 2は、 相手装置や外部機器 (パーソナルコンピュータ やオーディオ機器) から入出力コネクタパネル 1 1の各コネクタを介して入力さ れた音声信号をビットス卜リームのデジタル音声信号に変換してエコーキャンセ ル部 2 0に出力する。 すなわち、 ネットワークと入出力コネクタパネル 1 1の L ANコネクタを介して音声信号が入力された場合、 入出力インタフェース 1 2は、 バケツ卜化された音声信号を時系列に配列してエコーキャンセル部 2 0へ順次出 力することにより、 音声信号をビットストリーム化する。 また、 アナログオーデ ィォ入力端子を介してアナログ信号が入力された場合、 入出力イン夕フェース 1 2は、 この信号をデジタル化してエコーキャンセル部 2 0へ出力する。
ェコ一キャンセル部 2 0は、 「入出力イン夕フェース 1 2を介してネットヮー クから入力された音声信号に基づく音声がスピーカ S P 1〜S P 1 6から放音さ れ、 この放音された音声がマイク M I C 1 0 1〜M I C 1 1 6、 M I C 2 0 1〜 M I C 2 1 6に回帰してその結果生じる音声信号が入出力ィン夕フェース 1 2か らネッ卜ワークへ出力され、 相手装置側の話者が発話した際にその音声が相手装 置側のスピーカから遅れを伴って放音される」 というエコー現象を防ぐものであ る。 エコーキャンセル部 2 0の構成 ·動作の詳細は後述する。
放音指向性制御部 1 3は、 入出力イン夕フェース 1 2から供給された音声信号 に対して遅延処理及び所定の振幅処理等を つてスピーカ S P 1〜S P 1 6毎の 個別放音信号を生成し、 DZAコンバータ 1 4に出力する。 各 D/Aコンバータ 1 4は個別放音信号をアナログ信号に変換して各放音用アンプ 1 5に出力し、 各 放音用アンプ 1 5は個別放音信号を増幅してスピーカ S P 1〜S P 1 6に与える。 スピーカ S P 1〜S P 1 6は、 供給された個別放音信号を音声に変換して外部 に放音する。 スピーカ S P 1〜S P 1 6が筐体 2の下面に下向きに設置されてい るので、 放音された音声は、 音声会議装置 1が設置された机の上面で反射して、 筐体 2と机上面との間隙から斜め上方に会議出席者に向かって伝搬される。 音声会議装置 1は、 自装置側の話者が発話すると話者の音声に基づき収音ビ一 ム信号を生成する。 すなわち、 筐体正面に設けられた第 1のマイクアレイの各マ イク M I C 101〜M I C 1 16は、 音声会議装置 1の正面側の話者の音声を収 音して電気信号である収音信号に変換し、 この収音信号を各収音用アンプ 16に 出力する。 また、 筐体背面に設けられた第 2のマイクアレイのマイク M I C20 1〜M I C2 16は、 装置背面側の話者の音声を収音して収音信号に変換し、 収 音用アンプ 16に出力する。 第 1のマイクアレイに対応する各収音用アンプ 16 は、 収音信号を増幅してそれぞれ AZDコンバータ 17に与え、 AZDコンバー 夕 17は、 アナログの収音信号をデジタル信号に変換して第 1の収音ビーム生成 部 181に出力する。 第 2のマイクアレイに対応する収音用アンプ 16は、 収音 信号を AZDコンバータ 17を介して第 2の収音ビーム生成部 182へ出力する。 収音ビーム生成部 181, 182は、 制御部 10から指示された収音モードに 応じた遅延処理を各マイク M I C 101〜MI C 1 16, MI C201〜M I C 216が生成した収音信号に対して行い、 収音ビーム信号 MB l x、 MB 2 X (x = 0〜16) を生成する。 なお、 収音モードに応じた遅延処理の詳細につい ては、 後述する。
収音ビーム選択部 19は、 収音ビーム生成部 181, 182から入力された収 音ビーム信号 MB 1 x、 MB 2 xの中から最も信号レベルが高い収音ビーム信号 MBを選択し、 選択した収音ビーム信号 MBをエコーキャンセル部 20へ出力す る。
エコーキャンセル部 20は、 適応型エコーキャンセラ 21を備えている。 適応 型エコーキャンセラ 2 1は、 適応型フィルタ 21 1とボストプロセッサ 212と を備えている。 適応型フィルタ 21 1は、 スピーカ SPに供給される個別放音信 号に対応する入力音声信号 S 1に基づき、 スピーカ S Pからマイク M I Cに回帰 する音声信号成分を推定して擬似回帰音信号を生成する。 ポストプロセッサ 2 1 2は、 収音ビーム選択部 19が選択した収音ビーム信号 MBから、 適応型フィル 夕 2 1 1が生成した擬似回帰音信号を減算することによりエコー成分を除去する。 このエコー成分が除去された収音ビーム信号が入出力インタフェース 1 2に入力 される。
このようなェコ一キャンセル処理を行うことにより、 スピーカ S Pからマイク M I Cに回帰する音声信号を的確に予測して除去することができ、 マイク M I C で収音した話者の音声に基づく収音信号のみを入出力イン夕フェース 1 2からネ ットワークへ出力することができる。
次に、 収音モードに応じた遅延処理の詳細について、 第 4図〜第 8図を参照し て説明する。 この音声会議装置 1は、 3パターンの遅延処理を選択して行うこと で 4つの収音モードを実行する。 まず、 3パターンの遅延処理 (スポット遅延処 理、 エリア遅延処理及び長手方向遅延処理) について説明し、 次に 4つの収音モ —ドについて説明する。 第 4 A図ないし第 4 C図は、 収音信号に対するスポット 遅延処理、 エリア遅延処理および長手方向遅延処理を示す。 なお、 第 4図ないし 第 4 C図に示す例では、 説明の簡単化のため、 マイクの数を 5本とし、 マイクを M I C 1〜M I C 5で示す。
( 1 ) スポット遅延処理について
第 4 A図に示すように、 スポット遅延処理では、 例えば会議出席者 (話者) の 着席位置に基づいて装置 1の正面側および背面側の各々に予め設定しておいた狭 ぃ収音エリアすなわち収音スポット P 1〜P 4内で発話された話者の音声を高ゲ インで収音するための遅延処理を行う。 すなわち、 スポット遅延処理では、 焦点 F 1〜F 4 (収音スポット P 1〜P 4の中心) から各マイクまでの物理的距離と マイクにより生成された収音信号に対する遅延時間に音速を乗じて得た補正距離 との和がマイク M I C 1〜M I C 5間で等しくなるように、 各マイク M I C 1〜 M I C 5が収音した収音信号に遅延処理を行い、 遅延処理後の収音信号を合成し て収音ビーム信号 M B 1 x、 M B 2 Xを得る。
例えば、 収音スポッ卜 P 4の焦点 F 4から各マイクまでの物理的距離と遅延処 理による補正距離との和 (遅延補正により得られる距離) をマイク M I C 1 ~M I C 5間で等しくするには、 次の遅延処理を行う。 焦点 F 4から最も遠いマイク M I C 1との物理的距離は L 1であり、 焦点 F 4と各マイク M I C 2〜M I C 5 との物理的距離はそれぞれ L 2〜L 5 (L 1よりも短い) なので、 焦点 F 4 (ま たは収音スポット P 4内) で発生した音声はマイク M I C 1よりも早くマイク M I C 2〜M I C 5へ到達する。 そこで、 マイク M I C 2〜M I C 5による音声の 収音タイミング (音波の到来タイミング) がマイク M I C 1による音声の収音夕 イミングと同じになるように (すなわち、 マイク M I C 2〜M I C 5から焦点ま での物理的距離と遅延処理による補正距離との和がマイク M I C 1と焦点との間 の物理的距離 L 1に等しくなるように) 、 マイク M I C 2〜M I C 5が生成した 収音信号に対して物理的距離 L 2〜L 5と物理的距離 L 1との差 D 2〜D 5に相 当する遅延を付与する。 この差 D iは、 マイク M I C 2〜M I C 5が生成した収 音信号に対する遅延時間を t i且つ音速を cとすると、 D i = c X t iで表され る ( i = 2〜5 ) 。
これにより、 各マイク M I C 1〜M I C 5が生成した収音信号のうち、 焦点周 辺の収音スポット内で発生した音声に対応する信号成分を、 その収音タイミング (位相) を互いに一致させて合成することができ、 収音スポット内で発生した音 声のレベルのみを高くすることができる。 これに対して、 他のエリア内で発生し た音声に対応する信号成分は、 その収音タイミング (位相) が互いにずれた状態 で合成されるため、 各収音信号成分間で振幅が相殺されゲインを抑制することが できる。 すなわち、 マイクの収音ゲインが焦点 F 4からマイク M I C 1〜M I C 5へ向かう方向のみで高くなり、 マイクにより生成される収音信号がビーム化さ れる。
上述のように、 本実施形態の音声会議装置 1では、 収音ビーム生成部 1 8 1 , 1 8 2の各々は、 会議室の座席位置等に合わせて予め設定された 4点の収音スポ ット P 1〜P 4内で発話されマイク M I C 1〜M I C 5に向かって伝播する音声 に基づいて生成された収音信号に対してスポット遅延処理を行う。 収音ビーム生 成部 1 8 1は、 これに対応するマイクが生成した収音信号に対して、 装置の長手 方向一側に設定された収音スポッ卜から装置に向かう方向を収音方向とするスポ ット遅延処理を行うことにより収音ビーム信号 M B 1 1〜M B 1 4を生成する。 一方、 収音ビーム生成部 1 8 2は、 これに対応するマイクが生成した収音信号に 対して、 装置の長手方向他側に設定された収音スポッ卜から装置に向かう方向を 収音方向とするスポット遅延処理を行うことにより収音ビーム信号 M B 2 1〜M B 2 4を生成する。 これらの収音ビーム信号 M B 1 1〜M B 1 4, M B 2 1〜M B 2 4は並行して生成される。 なお、 収音スポットの数は 4点に限らない。 また、 音声会議装置 1の正面側と背面側とで収音スポッ卜の数を変えてもよい。
( 2 ) エリア遅延処理について
第 4 B図に示すように、 エリア遅延処理では、 収音エリアを予め設定し、 また マイクアレイの後方に仮想的な焦点 F 1 0を予め設定する。 そして、 この収音ェ リアから焦点 F 1 0に向かう音声をマイクアレイにより高レベルで収音するため の遅延処理を行う。 すなわち、 各マイク M I C 2〜M I C 5が収音した音声を変 換して得た収音信号に対して、 マイク M I C 2〜M I C 5と焦点 F 1 0間の物理 的距離 L 1 2〜L 1 5とマイク M I C 1と焦点 F 1 0間の物理的距離 L 1 1との 差 D 1 2〜D 1 5に相当する遅延を付与する。 そして、 マイク M I C 1〜M I C 5の収音信号を合成して収音ビーム信号を生成する。 なお、 エリア遅延処理では、 前記焦点 F 1 0からマイクアレイに向かって延びその両端のマイク M I C 1, M I C 5を通過する 2本の半直線 R 1 0, R 1 1で挟まれた範囲が収音エリアとな る。 また、 仮想的な焦点の位置は、 図示例における F 1 0の位置に限定されない。 これにより、 収音エリアから到来した音声は、 各マイク M I C 1〜M I C 5で 収音されたのち、 エリァ遅延処理によって各マイクによる収音タイミングが略同 一になるように調整されて合成されるので、 収音エリアから到来した音声の収音 レベルを高くすることができる。 一方、 収音エリアから外れたエリアから到来し た音声は、 各マイクで収音されたのち、 エリア遅延処理によってタイミングがず らされて合成されるため、 その収音ゲインを抑制することができる。 実験の結果、 収音ェリア力、ら到来した音声の収音レベルと収音ェリアから外れたェリアから到 来した音声の収音レベルは、 — 1 0 d B ©差があることが確かめられた。 また、 エリア遅延処理は、 上述のスポット遅延処理に比べて収音する範囲が広い分、 ゲ インは高くないが、 広いエリアを一括して収音することができる。
本実施形態の音声会議装置 1では、 収音ビーム生成部 1 8 1は、 自装置の正面 側に設定された収音エリアから装置背面側の焦点 F 1 0へ向かう方向を収音方向 とするエリア遅延処理を行うことで収音ビーム信号 M B 1 X ( x = a ) を生成す る。 また、 収音ビーム生成部 1 8 2は、 自装置の背面側に設定された収音エリア から装置正面側の焦点 F 1 0へ向かう方向を収音-方向とするエリア遅延処理を行 うことで収音ビーム信号 M B 2 aを生成する。 これらの収音ビーム信号 M B 1 a , M B 2 aは並行して生成される。
( 3 ) 長手方向遅延処理について
第 4 C図に示すように、 長手方向遅延処理では、 マイクアレイの長手方向一側 に収音エリアを予め設定し、 また収音エリア内に焦点 F 2 0を予め設定する。 そ して、 この焦点 F 2 0からマイクアレイへ向かう音声を高レベルで収音するため の遅延処理を行う。 すなわち、 各マイク M I C 1〜M I C 5が収音した音声を変 換して得た収音信号に対して、 マイク M I C 2〜M I C 5と焦点 F 2 0間の物理 的距離 L 2 2〜L 2 5とマイク M I C 1と焦点 F 2 0間の物理的距離 L 2 1との 差 D 2 2〜D 2 5に相当する遅延を付与する。 そして、 マイク M I C 1〜M I C 5の収音信号を合成して収音ビーム信号を生成する。
これにより、 収音エリアから到来した音声は、 各マイク M I C 1〜M I C 5で 収音されたのち、 長手方向遅延処理によって各マイクによる収音タイミングが略 同一になるように調整されて合成されるので、 収音エリァから到来した音声の収 音レベルを高くすることができる。 一方、 収音エリアから外れたエリアから到来 した音声は、 各マイクで収音されたのち、 上記遅延によってタイミングがずらさ れて合成されるため、 その収音ゲインを抑制することができる。
また、 長手方向遅延処理では、 マイク M I C 1〜M I C 5の配置間隔に応じて 遅延処理を行うため、 焦点 F 2 0とマイク M I C 1〜M I C 5との物理的距離に 関係なく、 収音ビーム信号を生成することができる。 すなわち、 長手方向遅延処 理を行うことで、 マイクアレイを、 その長手方向から到来する音声を収音可能な ガンマイクとして作用させることができる。
更に、 長手方向遅延処理では、 マイク M I C 1〜M I C 5にてスピーカ S Pか らの回帰音を収音したとしても、 遅延処理時に回帰音同士の位相がずれるので、 回帰音の信号レベルが低下する。 この結果、 長手方向遅延処理では、 スポット遅 延処理ゃェリァ遅延処理と比較して、 ェコ一が発生しにくい。
本実施形態の音声会議装置 1では、 収音ピ一ム生成部 1 8 1は、 装置の長手方 向一側の収音エリアから装置に向かう方向を収音方向とする長手方向遅延処理を 行うことで収音ビーム信号 M B 1 5を生成する。 また、 収音ビーム生成部 1 8 2 は、 装置の長手方向他側 (収音ビーム生成部 1 8 1の収音エリアと反対側) の収 音エリアから装置に向かう方向を収音方向とする長手方向遅延処理を行うこ で 収音ビーム信号 M B 2 5を生成する。
次に、 4つの収音モードについて説明する。 第 5 A図及び第 5 B図は、 対面モ ―ドでの収音ェリァおよび装置使用状態を示す図である。 第 6 A図及び第 6 B図 は、 複数スポットモードでの収音エリアおよび装置使用状態を示す図である。 第 7 A図及び第 7 B図は、 全方向モードでの収音エリアおよび装置使用状態を示す 図である。 第 8 A図及び第 8 B図は、 3方向モードでの収音エリアおよび装置使 用状態を示す図である。
( 1 ) 対面モード
第 5 A及び第 5 B図に示すように、 対面モードでは、 音声会議装置 1の正面側 及び背面側に収音エリアが設定される。 音声会議装置 1の収音ビーム生成部 1 8 1は、 装置正面方向からの音声を収音して生成した収音信号に対してエリア遅延 処理を行うことで収音ビーム信号 MB 1 aを生成し、 収音ビーム生成部 182は、 装置背面方向からの音声を収音して生成した収音信号に対してエリア遅延処理を 行うことで収音ビーム信号 MB 2 aを生成する。 そして、 収音ビーム選択部 19 は、 収音ビーム信号 MB 1 a, MB 2 aのうち信号レベルが大きい収音ビーム信 号を目的の収音ビーム信号 MB (ノイズではない会議参加者発言に対応) として 選択し、 エコーキャンセル部 20へ出力する。 以上より、 対面モードは、 矩形の 会議机の両長辺側にユーザが着席して会議を行うのに最適なモードである。
(2) 複数スポットモード
第 6 A及び第 6 B図に示すように、 複数スポットモードでは、 音声会議装置 1 の正面側及び背面側ならびに長手方向両側の複数のスポットが収音エリアとして 設定される。 音声会議装置 1の収音ビーム生成部 181は、 音声会議装置 1の正 面側の 4スポッ卜からの音声に基づく収音信号に対してスポット遅延処理を行う ことで収音ビーム信号 MB 1 1〜MB 14を生成し、 また、 装置の長手方向一側 のスポットからの音声に基づく収音信号に対して長手方向遅延処理を行うことで 収音ビーム信号 MB 15を生成する。 一方、 収音ビーム生成部 182は、 音声会 議装置 1の背面側の 4スポットからの音声に基づく収音信号から収音ビーム信号 MB 21〜MB24を生成し、 音声会議装置 1の長手方向他側のスポッ卜からの 音声に基づく収音信号から収音ビーム信号 MB 25を生成する。 そして、 収音ビ —ム選択部 19は、 収音ビーム信号 MB 1 1〜MB 15, MB 21〜MB 25の うち最も信号レベルが大きい収音ビーム信号を目的の収音ビーム信号 MBとして 選択し、 エコーキャンセル部 20へ出力する。 以上より、 複数スポットモードは、 矩形の会議机を囲むようにユーザが着席して会議を行うのに最適なモードである。 また、 音声会議装置 1の長手方向両側のスポッ卜から到来する音声の収音では、 各マイク M I C 101〜M I C 1 16, MI C201〜M I C 216がガンマイ クとして作用するので、 音声会議装置 1とユーザとの距離に関係なく、 音声を良 好に収音することができる。
(3) 全方向モード
第 7 A及び第 7 B図に示すように、 全方向モードでは、 音声会議装置 1の正面 側、 背面側及び長手方向両側に収音エリアが設定される。 音声会議装置 1の収音 ビーム生成部 181, 182は、 エリァ遅延処理及び長手方向遅延処理を行うこ とで、 装置正面側の収音エリアからの音声を収音して生成した収音信号に基づき 収音ピ一ム信号 MB 1 aを生成し、 装置背面側の収音エリアからの音声を収音し て生成した収音信号に基づき収音ビーム信号 MB 2 aを生成し、 長手方向両側の 収音エリアからの音声を収音して生成した収音信号に基づき収音ビーム信号 MB 15, MB 25を生成する。 そして、 収音ビーム選択部 19は、 収音ビーム信号 MB 1 a, MB 2 a, MB 15, MB 25のうち信号レベルが最も大きい収音ビ ーム信号を目的の収音ビーム信号 MBとして選択し、 エコーキャンセル部 20へ 出力する。 以上より、 全方向モードは、 矩形の会議机を囲むようにユーザが着席 して会議を行うのに最適なモードである。 また、 音声会議装置 1の長手方向両側 の収音エリアから到来する音声の収音では、 各マイク M I C 101〜M I C 1 1 6, MI C201〜MI C216がガンマイクとして作用するので、 音声会議装 置 1とユーザとの距離に関係なく、 音声を良好に収音することができる。
(4) 3方向モード
第 8 A及び第 8 B図に示すように、 3方向モードでは、 音声会議装置 1の正面 側、 背面側及び長手方向一側に収音エリアが設定される。 音声会議装置 1の収音 ビーム生成部 181, 182は、 エリァ遅延処理及び長手方向遅延処理を行うこ とで、 装置正面側の収音エリアからの音声を収音して生成した収音信号に基づき 収音ビーム信号 MB 1 aを生成し、 装置背面側の収音エリアからの音声を収音し て生成した収音信号に基づき収音ビーム信号 MB 2 aを生成し、 装置長手方向一 側の収音エリアからの音声を収音して生成した収音信号に基づき収音ビーム信号 MB 15を生成する。 そして、 収音ビーム選択部 19は、 収音ビーム信号 MB 1 a, MB 2 a, MB 15のうち信号レベルが最も大きい収音ビーム信号を目的の 収音ビーム信号 MBとして選択し、 エコーキャンセル部 20へ出力する。 以上よ り、 3方向モードは、 矩形の会議机の短辺側にモニタを設置して会議を行うのに 最適なモードである。 また、 音声会議装置 1の長手方向一側の収音エリアから到 来する音声の収音では、 各マイク M I C 10 1〜M I C 1 16がガンマイクとし て作用するので、 音声会議装置 1とユーザとの距離に関係なく、 音声を良好に収 音することができる。 なお、 音声会議装置 1の長手方向一側の収音エリアから到 来する音声の収音には、 マイク M I C 101〜M I C 116に代えて、 マイク M I C 201〜M I C 216を用いてもよい。
以上のように、 ユーザの着席位置に応じて適宜収音モードを選択することで、 長方形状の会議机のどの位置にユーザが着席しても、 同等にユーザの発言を収音 することができる。 また、 音声会議装置 1のマイクが装置長手方向から到来する 音声を良好に収音するガンマイクとしても作用するので、 音声会議装置 1の長手 方向一側または両側に音声会議装置 1から離れて着席したユーザの音声も正しく 収音することができる。 すなわち、 音声会議装置 1による収音は、 会議机の長手 方向の長さに影響を受けにくい。
次に、 制御部 10が収音モードに係る操作入力を受け付けた際の収音処理につ いて、 第 9図を参照して説明する。 第 9図は、 収音モードに応じた収音処理の流 れを示すフローチャートである。 なお、 以下では収音処理のみについて説明する が、 放音処理も行われている。
第 9図に示すように、 制御部 10は、 操作部 4にて受け付けられた収音モード が入力されると (S 101で Ye s) 、 入力された収音モードに応じて次の処理 を行う。 ここで、 収音モードが入力されるまで (S 101で No) 、 収音処理を 行わない。
制御部 10は、 複数スポットモードを受け付けると (S 102で Ye s) 、 収 音ビーム生成部 181, 182に対して複数スポットモードでの収音処理を指示 する。 すなわち、 制御部 10は、 収音ビーム生成部 181, 182に各マイク M I C 101〜MI C 1 16, MI C201〜MI C216が生成した収音信号に 対するスポット遅延処理を行わせ、 収音ビーム信号 MB 1 1〜MB 14, MB 2 1〜MB24を生成させる (S I 03) 。 また、 制御部 10は、 収音ビーム生成 部 181, 182に各マイク M I C 101〜M I C 1 16, MI C201〜MI C216が生成した収音信号に対する長手方向遅延処理 (第 1及び第 2の長手方 向遅延処理) を行わせ、 収音ビーム信号 MB 15, MB25を生成させる (S 1 04) 。 制御部 10は、 収音ビーム生成部 181, 182が生成した収音ビーム 信号の中から、 収音ビーム選択部 19に最も信号レベルが大きい収音ビーム信号 MBを選択させ (S 110) 、 収音処理を終了する。
制御部 10は、 全方向モードを受け付けると (S 102で Noかつ S 105で Ye s) , 収音ビーム生成部 181, 182に対して全方向モードでの収音処理 を指示する。 すなわち、 制御部 10は、 収音ビーム生成部 182に各マイク Ml C201〜MI C216が生成した収音信号に対する長手方向遅延処理 (第 2の 長手方向遅延処理) を行わせて収音ビーム信号 MB 25を生成させ (S 106) 、 次に、 収音ビーム生成部 181にマイク M I C 101〜M I C 1 16が生成した 収音信号に対する長手方向遅延処理 (第 1の長手方向遅延処理) を行わせて収音 ビーム信号 MB 15を生成させる (S 108) 。 また、 制御部 10は、 収音ビー ム生成部 181, 182に各マイク M I C 101〜M I C 1 16, MI C201 〜MI C216が生成した収音信号に対するエリア遅延処理を行わせて、 収音ビ ーム信号 MB 1 a, MB 2 aを生成させ (S 109) 、 収音ビーム選択部 19に 最も信号レベルが大きい収音ビーム信号 MBを選択させ (S 1 10) 、 収音処理 を終了する。
制御部 10は、 3方向モ一ドを受け付けると ( S 105で N oかつ S 107で Ye s) , 収音ビーム生成部 181に各マイク M I C 10 1〜M I C 1 16が生 成した収音信号に対して長手方向遅延処理 (第 1の長手方向遅延処理) を行わせ、 収音ビーム信号 MB 15を生成させる (S 108) 。 また、 制御部 10は、 収音 ビーム生成部 181, 182にマイク M I C 101〜MI C 1 16, MI C20 1〜M I C2 16が生成した収音信号に対するエリア遅延処理を行わせて収音ビ —ム信号 MB 1 a, MB 2 aを生成させ (S 109) 、 収音ビーム選択部 19に 最も信号レベルが大きい収音ビーム信号 MBを選択させ (S 1 10) 、 収音処理 を終了する。
制御部 10は、 対面モードを受け付けると (S 107で No) 、 収音ビーム生 成部 181, 182にマイク M I C 101〜M I C 1 16. MI C201〜M I C216が生成した収音信号に対するエリア遅延処理を行わせて収音ビーム信号 MB 1 a, MB 2 aを生成させ (S 109) 、 収音ビーム選択部 19に最も信号 レベルが大きい収音ビーム信号 MBを選択させ (S 1 10) 、 収音処理を終了す る。
以上のように、 音声会議装置 1は、 収音モードに応じた各種遅延処理を収音信 号に対して行い、 収音ビーム信号を生成して、 生成した収音ビーム信号の中から 最も信号レベルが大きい収音ビーム信号 MBを選択する。 この収音ビーム信号 M Bは、 エコーキャンセル部 20にてエコーが除去された後、 ネットワークを介し て他の音声会議装置へ送信される。
なお、 本実施形態では、 音声会議装置 1を用いて説明したが、 一方向に長尺な 略直方体形状の筐体と上述の収音機能とを備える放収音装置ゃ収音装置であって fcよい。
また、 本実施形態では、 収音モードとして、 対面モード、 複数スポットモード、 全方向モード及び 3方向モードを設けたが、 スポット遅延処理、 エリア遅延処理 及び長手方向遅延処理を用いて形成される収音モードであれば、 どのような収音 モードを設けてもよい。 また、 収音ビーム生成部 181, 182毎に異なる遅延 処理を行う収音モ一ドを設けてもよい。
更に、 本実施形態では、 収音ビーム選択部 19は、 収音モードに関係なく、 収 音ビーム生成部 181, 182から入力された収音ビーム信号のうち、 最も信号 レベルが大きい収音ビーム信号を目的の収音ビーム信号であるとして出力した。 しかし、 収音ビーム選択部 19は、 収音ビーム生成部 181, 182から入力さ れた収音ビーム信号を合成して出力してもよい。 これにより、 音声会議装置 1は、 全ユーザの発言を収音することができる。 また、 収音ビーム選択部 19は、 収音 ビーム生成部 181, 182から入力された収音ビーム信号のうち、 信号レベル が一定以上の収音ビーム信号を合成して出力してもよい。 これにより、 ノイズで はない全ユーザの発言を収音することができる。 更に、 収音ビーム選択部 19は、 制御部 10が指示した収音モードに基づいて、 収音ピ一ム信号を選択してもよい。 例えば、 対面モードでは、 収音ビーム信号 MB 1 a, MB 2 aのうち信号レベル が大きい収音ビーム信号を出力せずに、 収音ビーム信号 MB 1 a, MB 2 aを合 成して出力する。 複数スポットモードでは、 最も信号レベルが高い収音ビーム信 号を選択して出力せずに、 一定以上の信号レベルの収音ビーム信号を合成して出 力してもよい。
産業上の利用可能性
本発明の収音装置によれば、 会議机のどの位置に着席したユーザの音声も同等 に収音することができる。

Claims

請求の範囲
1 . 長尺な略直方体形状の筐体と、
前記筐体にその長手方向に沿って配列された複数のマイクを備えたマイクァレ ィと、 .
該マイクアレイで生成した収音信号に対して、 収音方向を異にする収音処理を 行って複数の収音ビーム信号を生成する収音制御ユニットとを備え、
前記収音制御ュニットは、 前記筐体の長手方向を収音方向とする収音処理によ り第 1の収音ビーム信号を生成し、 前記筐体の短手方向を収音方向とする収音処 理により第 2の収音ビーム信号を生成し、 前記第 1及び第 2の収音ビーム信号を 含む前記複数の収音ビーム信号から目的の収音ビーム信号を生成する収音装置。
2 . 前記マイクアレイは、 前記筐体の長辺一側の面に配された第 1のマイクァレ ィと前記筐体の長辺他側の面に配された第 2のマイクアレイとを備え、
前記収音制御ュニッ卜は、 前記第 1のマイクアレイが生成した収音信号に対し て前記筐体の長辺一側の収音エリアから前記収音装置に向かう方向を収音方向と する収音処理を行うと共に前記第 2のマイクアレイが生成した収音信号に対して 前記筐体の長辺他側の収音エリアから前記収音装置に向かう方向を収音方向とす る収音処理を行うことにより、 前記第 2の収音ビーム信号を生成する請求の範囲 第 1項記載の収音装置。
3 . 前記収音制御ユニットは、 前記複数のマイクの配置間隔に基づいて該複数の マイクが生成した収音信号の遅延処理を行うことで前記第 1の収音ビーム信号を 生成し、
前記収音制御ュニットは、 前記マイクアレイに関し収音エリアと反対側に設定 された仮想焦点と前記複数のマイクとの間のそれぞれの距離を収音信号の遅延に より補正して得られるそれぞれの距離が互いに等しくなるように、 又は、 前記収 音エリア内に設けた 1以上の収音スポッ卜内に設定された焦点と前記複数のマイ クとの間のそれぞれの距離を収音信号の遅延により補正して得られるそれぞれの 距離が互いに等しくなるように、 前記複数のマイクが生成した収音信号を遅延さ せることで前記第 2の収音ビーム信号を生成する請求の範囲第 1項に記載の収音 装置。
4. 複数の収音モードの中から選択された収音モードの入力を受け付ける収音モ ード受付ュニッ卜を更に備え、
前記収音制御ュニットは、 該収音モード受付ュニッ卜が受け付けた収音モードに 応じて前記第 1の収音ビーム信号を生成するか否かを制御する請求の範囲第 1項 に記載の収音装置。
5 . 複数の収音モードの中から選択された収音モードの入力を受け付ける収音モ —ド受付ユニットを更に備え、
前記収音制御ュニットは、 該収音モード受付ュニッ卜が受け付けた収音モード に応じて前記第 1の収音ビーム信号を生成するか否かを制御し、
前記収音制御ュニットは、 前記マイクアレイに関し収音エリアと反対側に設定 された仮想焦点と前記複数のマイクとの間のそれぞれの距離を収音信号の遅延に より補正して得られるそれぞれの距離が互いに等しくなるように前記複数のマイ クが生成した収音信号を遅延させる遅延処理、 または、 前記収音エリア内に設け た 1以上の収音スポット内に設定された焦点と前記複数のマイクとの間のそれぞ れの距離を収音信号の遅延により補正して得られるそれぞれの距離が互いに等し くなるように前記複数のマイクが生成した収音信号を遅延させる遅延処理を、 前 記収音モード受付ュニッ卜が受け付けた収音モ一ドに応じて選択的に行うことに より、 前記第 2の収音ビーム信号を生成する請求の範囲第 3項に記載の収音装置。
PCT/JP2009/054228 2008-03-05 2009-02-27 収音装置 WO2009110576A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2008-054994 2008-03-05
JP2008054994A JP2009212927A (ja) 2008-03-05 2008-03-05 収音装置

Publications (1)

Publication Number Publication Date
WO2009110576A1 true WO2009110576A1 (ja) 2009-09-11

Family

ID=41056128

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/054228 WO2009110576A1 (ja) 2008-03-05 2009-02-27 収音装置

Country Status (2)

Country Link
JP (1) JP2009212927A (ja)
WO (1) WO2009110576A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108055619A (zh) * 2018-01-29 2018-05-18 北京麦哲科技有限公司 一种音频采集外放装置
CN108401200A (zh) * 2018-04-09 2018-08-14 北京唱吧科技股份有限公司 一种麦克风装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011066805A (ja) * 2009-09-18 2011-03-31 Oki Electric Industry Co Ltd 収音装置および収音方法
WO2013032001A1 (ja) * 2011-08-29 2013-03-07 日本電気株式会社 音声処理装置、その制御方法および制御プログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09140000A (ja) * 1995-11-15 1997-05-27 Nippon Telegr & Teleph Corp <Ntt> 会議用拡聴器
JP2008011196A (ja) * 2006-06-29 2008-01-17 Yamaha Corp 放収音装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09140000A (ja) * 1995-11-15 1997-05-27 Nippon Telegr & Teleph Corp <Ntt> 会議用拡聴器
JP2008011196A (ja) * 2006-06-29 2008-01-17 Yamaha Corp 放収音装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108055619A (zh) * 2018-01-29 2018-05-18 北京麦哲科技有限公司 一种音频采集外放装置
CN108401200A (zh) * 2018-04-09 2018-08-14 北京唱吧科技股份有限公司 一种麦克风装置

Also Published As

Publication number Publication date
JP2009212927A (ja) 2009-09-17

Similar Documents

Publication Publication Date Title
JP4984683B2 (ja) 放収音装置
JP4816221B2 (ja) 収音装置および音声会議装置
JP4929740B2 (ja) 音声会議装置
JP5050616B2 (ja) 放収音装置
US7190775B2 (en) High quality audio conferencing with adaptive beamforming
JP5028944B2 (ja) 音声会議装置及び音声会議システム
US20090274318A1 (en) Audio conference device
JP4894353B2 (ja) 放収音装置
WO2007058130A1 (ja) 遠隔会議装置及び放収音装置
JP2008005347A (ja) 音声通信装置、および複合プラグ
WO2009110576A1 (ja) 収音装置
JP2008294690A (ja) 音声会議装置および音声会議システム
JP3932928B2 (ja) 拡声装置
JP2008017126A (ja) 音声会議システム
JP4929673B2 (ja) 音声会議装置
JP4867248B2 (ja) スピーカ装置及び音声会議装置
JP2007318521A (ja) 放収音装置
JP2007006073A (ja) スピーカ装置
JP2008022360A (ja) 音声通信装置、および音声通信システム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09717178

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 09717178

Country of ref document: EP

Kind code of ref document: A1