WO2007088730A1 - 音声会議装置 - Google Patents

音声会議装置 Download PDF

Info

Publication number
WO2007088730A1
WO2007088730A1 PCT/JP2007/050617 JP2007050617W WO2007088730A1 WO 2007088730 A1 WO2007088730 A1 WO 2007088730A1 JP 2007050617 W JP2007050617 W JP 2007050617W WO 2007088730 A1 WO2007088730 A1 WO 2007088730A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
signal
sound collection
input
audio
Prior art date
Application number
PCT/JP2007/050617
Other languages
English (en)
French (fr)
Inventor
Toshiaki Ishibashi
Original Assignee
Yamaha Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corporation filed Critical Yamaha Corporation
Priority to EP07706924.3A priority Critical patent/EP2007168B1/en
Priority to US12/162,934 priority patent/US8144886B2/en
Priority to CN2007800040469A priority patent/CN101379870B/zh
Priority to CA2640967A priority patent/CA2640967C/en
Publication of WO2007088730A1 publication Critical patent/WO2007088730A1/ja

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/403Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers loud-speakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/403Linear arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/405Non-uniform arrays of transducers or a plurality of uniform arrays with different transducer spacing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/02Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback

Definitions

  • the present invention relates to an audio conference apparatus for performing an audio conference between a plurality of points via a network or the like.
  • the present invention relates to an audio conference apparatus in which a microphone and a speaker are integrated.
  • the audio conferencing apparatus of Patent Document 1 emits an audio signal input via a network from a speaker arranged on the top surface, and sets a plurality of different directions arranged on the side surface as respective normal directions. An audio signal collected by each microphone is transmitted to the outside via a network.
  • the audio conference apparatus of Patent Document 2 generates a pseudo echo signal corresponding to the microphone position when the speaker selects his / her microphone, and outputs the sound emitted from the microphone and collected. Cancel and send only the voice signal spoken by the corresponding speaker to the outside via the network.
  • Patent Document 1 JP-A-8-298696
  • Patent Document 2 JP-A-5-158492
  • an object of the present invention is to provide an audio conference apparatus capable of promptly performing optimum sound emission / collection even in situations where the sound emission / collection environment is diverse and these conditions change. Is to provide.
  • the audio conference apparatus of the present invention includes a plurality of speakers arranged on the lower surface with the installation surface force and the lower surface force of the housing having legs that separate the lower surface of the housing by a predetermined distance with the external direction as the sound output direction.
  • a plurality of collected beam signals having different sound collection directivities by performing signal processing for sound collection on the collected sound signals collected by the microphone array, and generating the plurality of collected beam signals.
  • the sound pickup environment is detected by comparing the sound pickup beam signals and a specific sound pickup beam signal is selected and output as an output sound signal.
  • the input sound signal and the specific sound pickup beam signal are From the speaker based on Is characterized by comprising a return signal cancellation means sounds speech is controlled so as not included in the output audio signal.
  • the regression sound removing means of the audio conference apparatus of the present invention generates a pseudo regression sound signal based on the input voice signal, and subtracts the pseudo regression sound signal from a specific sound collection beam signal. It is said.
  • the regression sound removal means of the audio conference apparatus according to the present invention comprises a comparison means for comparing the levels of the input audio signal and the specific sound pickup beam signal, and a comparison between the input sound signal and the specific sound pickup beam signal. And a level reducing means for reducing the level of the signal determined to be low by the means.
  • the sound emission control means when an input audio signal is received from another audio conference device, the sound emission control means forms a sound emission beam by the sound emitted from each speaker of the speaker array. Sound emission signal processing such as delay control is performed.
  • the sound emission beam there is a sound beam that is set to converge at a predetermined distance in the room, for example, a position where the conference person is seated, or a virtual point sound source at a certain specific position. There is a sound beam set to diverge and emit sound from a virtual point source.
  • Each speaker emits a sound emission signal given from the sound emission control means into the room.
  • sound emission with a desired sound emission directivity is realized.
  • the sound emitted from the speaker is reflected from the installation surface and propagates to the speaker side in the horizontal direction of the device.
  • Each microphone of the microphone array is installed on the side surface of the housing, collects sound from the side surface direction, and outputs a sound collection signal to the sound collection control means. Since the speaker array and the microphone array are present on different surfaces of the housing in this way, the sneak sound from the speaker to the microphone is reduced.
  • the sound collection control means performs a delay process or the like on each sound collection signal to generate a plurality of sound collection beam signals having strong directivities in different directions in the side surface directions. As a result, the wraparound sound is further suppressed in each collected beam signal.
  • the sound collection control means compares the signal level of each sound collection beam signal, etc., selects a specific sound collection beam signal, and outputs it to the regression sound removal means.
  • the regression sound removal means performs processing that does not include in the output sound signal the sound that is emitted from the sound force array force based on the input sound signal and the specific sound collection beam signal and that wraps around the microphone. Specifically, the regression sound removing means generates a pseudo regression sound signal based on the input speech signal, and subtracts the pseudo regression sound signal from a specific sound collection beam signal, thereby suppressing the wraparound speech. Alternatively, the regression sound removal means compares the signal level of the input sound signal with a specific sound pickup beam signal, and if the signal level of the input sound signal is high, it is determined that the call is mainly being received and specified. If the signal level of a specific sound pickup beam signal is high, the signal level of the input sound signal is reduced by determining that the voice is being transmitted.
  • the volume of the wraparound sound is reduced, the processing load of the regression sound removing unit is reduced, and the output audio signal is quickly optimized.
  • a virtual point sound source is realized by a sound emitting beam
  • a meeting with a sense of reality is realized in addition to the reduction of the return sound.
  • the sound emission beam is made convergent, the sound output is controlled by the sound output beam, and the sound acquisition sound is controlled by the sound collection beam. Therefore, the processing load of the regression sound removal means is greatly reduced, and the output audio signal is optimized more quickly.
  • the optimum sound emission and collection can be easily realized according to the conference environment such as the number of conferences and the number of connected conference points.
  • the casing has a substantially rectangular parallelepiped shape elongated in one direction, and a plurality of speakers and a plurality of microphones are arranged along the elongated direction. It is a feature.
  • a long, substantially rectangular parallelepiped shape is used as a specific housing structure.
  • the audio conference apparatus of the present invention is characterized by comprising control means for setting the sound emission directivity based on the sound collection environment from the sound collection control means and giving the sound emission control means to the sound emission control means.
  • the sound collection control unit detects the sound collection environment based on the sound collection beam.
  • the sound collection environment refers to the number of participants, the position (direction) of the participants relative to the device, the direction of the speakers, and the like.
  • the control means determines the sound emission directivity based on this information.
  • the sound emission directivity is to increase the sound emission intensity with respect to a specific conference direction such as a speaker or to set substantially the same sound emission intensity for the entire conference.
  • the conference person is a person
  • the voice is emitted only to the conference person, and the voice is not leaked in the other direction.
  • the sound is emitted equally to all conference participants.
  • the history of the sound collection environment is stored by the control means, the sound emission directivity and the sound collection environment are estimated based on the history, and the estimated sound emission
  • the directivity is given to the sound emission control means, and the sound collection beam signal selection control according to the estimated sound collection environment is given to the sound collection control means.
  • the control unit stores a history of the sound collection environment. For example, the history of the speaker direction so far is stored. Based on this history, if it is detected that there is almost no change in the speaker direction or there is a speaker direction only in a specific plurality of directions, it is detected that there is a speaker only in the corresponding direction and released.
  • Set sound beam collecting sound beam For example, if the direction of the speaker is limited to the negative direction, the sound output beam is fixed only in this direction. Ma
  • the speaker is in two or three directions, sound is emitted almost equally in all directions, and the speaker direction is detected using only the collected sound beams in these directions. As a result, the processing load can be reduced if sound is appropriately emitted according to the number of conferences, etc., and sound collection is selected only in the conference direction.
  • the voice conference apparatus of the present invention is characterized in that the control means detects the number of input voice signals and sets the sound emission directivity based on the number of input voice signals and the sound collection environment. Yes.
  • the control means detects the number of input voice signals, and detects the number of voice conference apparatuses participating in the conference via the detected number power network. Then, the sound output directivity is set according to the number of connected audio conference apparatuses. Specifically, if the number of audio conferencing equipment connections is one and the number of participants is one-to-one, a virtual point sound source is not particularly required, and the convergence sound emission described above is performed and the conference is performed. Let the person emit sound. On the other hand, when there are a plurality of conference persons who use one audio conference apparatus, the virtual point sound source is set at a substantially central position of the audio conference apparatus to emit sound. On the other hand, if the number of connected audio conferencing devices is multiple, sound with realistic sensation can be emitted by setting multiple virtual point sound sources, etc., or released in different directions for each connection destination as described later. Converge sound.
  • the control means stores the history of the input audio signal and the history of the sound collection environment, and changes in the input audio signal and the sound collection environment based on the both histories. And the sound emission directivity estimated to the sound emission control means based on the relation, and the sound collection beam signal selection control according to the sound collection environment estimated by the sound collection control means. It is characterized by giving.
  • the control means stores the history of the input audio signal, that is, the history of the connection destination and the history of the sound collection environment, and detects the relationship between them. For example, a speaker in the first direction with respect to the device has a conversation with the first connection destination, and a speaker in the second direction with respect to the device has a conversation with the second connection destination. Information that it is. Then, the control means sets the convergence sound emission directivity for each input sound signal (connection destination) so that the sound is emitted only to the corresponding speaker. Further, the control means sets the sound collection beam selection (sound collection directivity) for each output audio signal (connection destination) so that sound is collected only in the corresponding speaker direction. As a result, multiple audio conferences are realized in parallel on one audio conference device, Does not interfere with each other.
  • only one audio conferencing device can be used for various audio conferencing formats and environments depending on the number of points participating in the audio conference and the number of conference participants using one audio conference device.
  • An optimal audio conference can be realized by setting.
  • FIG. 1A is a plan view showing an audio conference apparatus according to the present invention.
  • FIG. 1B is a front view showing the audio conference apparatus according to the present invention.
  • FIG. 1C is a side view showing an audio conference apparatus according to the present invention.
  • FIG. 2A is a front view showing a speaker arrangement and a microphone arrangement of the audio conference apparatus shown in FIG. 1A.
  • FIG. 2B is a bottom view showing the speaker arrangement and the microphone arrangement of the audio conference apparatus shown in FIG. 1B.
  • FIG. 2C is a back view showing the speaker arrangement and microphone arrangement of the audio conference apparatus shown in FIG. 1C.
  • FIG. 3 is a functional block diagram of the audio conference apparatus according to the present invention.
  • FIG. 4 is a plan view showing the distribution of sound collecting beams MB11 to MB14 and MB21 to MB24 of the audio conference apparatus 1 of the present invention.
  • FIG. 5A A diagram showing a case where a person A has a meeting using the audio conference apparatus 1.
  • FIG. 5B is a diagram showing a case where two conferencers A and B hold a meeting with the audio conference apparatus 1 and conference A is a speaker.
  • FIG. 6A is a conceptual diagram showing a sound emission situation when three virtual point sound sources are set.
  • FIG. 6B is a conceptual diagram showing a sound emission situation when two virtual point sound sources are set.
  • FIG. 7 is a diagram showing a situation in which two conference participants A and B have a conversation with different audio conference apparatuses.
  • FIG. 8 is a functional block diagram of an audio conference apparatus using a voice switch 24.
  • FIGS. 1A-1C are three-sided views showing the audio conference apparatus of the present embodiment, FIG. 1A is a plan view, FIG. 1B is a front view (a view of a long side force), and FIG. 1C is a side view. (View from the short side).
  • FIG. 2A-2C are diagrams showing the speaker arrangement and microphone arrangement of the audio conference apparatus shown in FIG. 1A-1C.
  • FIG. 2A is a front view (corresponding to FIG. 1B)
  • FIG. 2B is a bottom view
  • FIG. It is a figure (corresponding to the opposite side of Figure 1B).
  • FIG. 3 is a functional block diagram of the audio conference apparatus according to the present embodiment.
  • the audio conference apparatus 1 mechanically includes a housing 2, a leg 3, an operation unit 4, a light emitting unit 5, and an input / output connector 11.
  • the casing 2 has a substantially rectangular parallelepiped force that is long in one direction, and has a predetermined height that separates the lower surface of the casing 2 from the installation surface at a predetermined interval at both ends of the long side (surface) of the casing 2.
  • Leg 3 is installed.
  • the long surface is referred to as a long surface
  • the short surface is referred to as a short surface.
  • An operation unit 4 including a plurality of buttons and a display screen is provided at one end of the upper surface of the housing 2 in the long direction. These operation units 4 are connected to the control unit 10 installed in the housing 2 to accept the operation input from the conference person and output it to the control unit 10, and the operation content and execution mode are displayed on the display screen. indicate.
  • a light emitting unit 5 made of light emitting elements such as LEDs arranged radially around one point is installed. The light emitting unit 5 emits light according to the light emission control from the control unit 10. For example, when light emission control indicating the speaker direction is input, the light emitting element corresponding to the direction emits light.
  • An input / output connector 11 having a LAN interface, an analog audio input terminal, an analog audio output terminal, and a digital audio input / output terminal is installed on the short surface of the housing 2 on the side where the operation unit 4 is installed.
  • the input / output connector 11 is connected to the input / output IZF 12 installed in the housing 2.
  • a network cable to the LAN interface and connecting it to the network, it can be connected to other voice conference devices on the network.
  • Speakers SP1 to SP16 having the same shape are installed on the lower surface of the housing 2. These speakers SP1 to SP16 are installed in a straight line at regular intervals along the length direction. This constitutes a speaker array.
  • microphones MIC 101 to MIC 116 having the same shape force are installed! These microphones MIC 101 to MIC 116 are installed in a straight line at regular intervals along the longitudinal direction, thereby forming a microphone array.
  • microphones MIC201 to MIC216 having the same shape are also installed on the other long surface of the housing 2. These microphones MIC201 to MIC216 are also installed in a straight line at regular intervals along the longitudinal direction, thereby forming a microphone array.
  • a lower surface grill 6 formed in a shape covering the speaker array and the microphone array and punch meshed is installed on the lower surface side of the housing 2.
  • the number of speakers in the force array is set to 16, and the number of microphones in each microphone array is set to 16.
  • the number of speakers and the number of microphones are appropriately set according to the specification without being limited to this. It ’s good.
  • the distance between the speaker array and the microphone array may not be constant.
  • the speaker array and the microphone array may be arranged densely at the center along the longitudinal direction and sparsely arranged at both ends. .
  • the audio conference apparatus 1 functionally includes a control unit 10, an input / output connector 11, an input / output IZF 12, a sound emission directivity control unit 13, a DZA converter. 14, sound emission amplifier 15, speaker array (speakers SP1 to SP16), microphone array (microphones MIC10 1 to MIC116, MIC201 to MIC216), sound collection amplifier 16, AZD converter 17, sound collection beam generator 181, sound collection A beam generator 182, a collected sound beam selector 19, an echo canceler 20, and an operation unit 4 are provided.
  • the input / output IZF 12 converts the input audio signal input from the other audio conference apparatus through the input / output connector 11 from the data format (protocol) corresponding to the network, and performs the echo canceling unit 20 To the sound output directivity control unit 13.
  • the input / output IZF12 receives input audio signals from a plurality of audio conference apparatuses, the input / output IZF12 identifies these for each audio conference apparatus and controls the sound emission directivity via the echo canceling unit 20 through different transmission paths.
  • the input / output IZF 12 converts the output audio signal generated by the echo cancellation unit 20 into a data format (protocol) corresponding to the network, and transmits it to the network via the input / output connector 11.
  • the sound emission directivity control unit 13 performs each of the speaker arrays based on the designated sound emission directivity.
  • the speakers SP 1 to SP 16 are each subjected to delay processing and amplitude processing specific to the input audio signal to generate individual sound emission signals.
  • the sound emission directivity the sound emission sound is converged at a predetermined position in the long direction of the audio conference apparatus 1, or a virtual point sound source is set to diverge the sound emission sound of the virtual point sound source. Individual sound emission signals that realize these sound emission directivities with sound emitted from the speakers SP1 to SP16 are generated.
  • the sound emission directivity control unit 13 outputs these individual sound emission signals to the DZA converter 14 installed for each of the speakers SP1 to SP16.
  • Each DZA converter 14 converts an individual sound emission signal into an analog form and outputs it to each sound emission amplifier 15, and each sound emission amplifier 15 amplifies the individual sound emission signal and applies it to the speakers SP1 to SP16.
  • Speakers SP1 to SP16 are omnidirectional speakers, which convert a given individual sound emission signal into sound and emit the sound outside. At this time, since the speakers SP1 to SP16 are installed on the lower surface of the housing 2, the emitted sound reflects the installation surface of the desk on which the audio conference device 1 is installed, and the device where the conference person is located. Lateral force is propagated with an upward force.
  • the microphones MIC101 to MIC116 and MIC201 to 216 of the microphone array may be omnidirectional or directional. However, the microphones MIC101 to MIC116 and MIC201 to 216 may be omnidirectional.
  • the sound from the unit is picked up and electrically converted, and the picked-up signal is output to each pick-up amplifier 16.
  • Each of the sound collection amplifiers 16 amplifies the sound collection signal and supplies the amplified signal to the AZD converter 17, and the AZ D converter 17 converts the sound collection signal into a digital signal and outputs it to the sound collection beam generation units 181 and 182.
  • the sound collection beam generation unit 181 receives a sound collection signal from the microphones MIC 101 to MIC 116 installed on one long surface, and the sound collection beam generation unit 182 receives the other long surface.
  • the collected sound signals from the installed microphones MIC201 to MIC216 are input.
  • FIG. 4 is a plan view showing the distribution of the collected sound beams MB11 to MB14 and MB21 to MB24 of the audio conference apparatus 1 according to the present embodiment.
  • the sound collection beam generation unit 181 performs predetermined delay processing or the like on the sound collection signals of the microphones MIC101 to MIC116, and generates sound collection beam signals MB11 to MB14.
  • the sound collection beam signals MB11 to MB14 are on the long surface side where the microphones MIC101 to MIC116 are installed, and different predetermined areas are set at the center of the sound collection intensity along the long surface.
  • the collected sound beam generator 182 performs predetermined delay processing or the like on the collected signals of the microphones MIC201 to MIC216, and generates collected sound beam signals MB21 to MB24.
  • the collected sound beam signals MB21 to MB24 are on the long surface side where the microphones MIC201 to MIC216 are installed, and different predetermined areas are set at the center of the sound collecting intensity along the long surface.
  • the sound collection beam selection unit 19 inputs the sound collection beam signals MB11 to MB14 and MB21 to MB24, compares the signal intensities, and selects the sound collection beam signal MB that meets a predetermined condition set in advance. For example, when only the voice from one speaker is transmitted to another audio conference device, the sound collection beam selection unit 19 selects the sound collection beam signal with the highest signal intensity and selects the specific sound collection beam signal MB. Is output to the echo cancel unit 20. In addition, if multiple sound collecting beam signals are required, such as when multiple audio conferences are held in parallel, the sound collecting beam signals corresponding to the situation are sequentially selected, and each is individually specified. The sound beam signal MB is output to the echo cancel unit 20.
  • the sound collection beam selection unit 19 outputs sound collection environment information including the sound collection direction (sound collection directivity) corresponding to the selected specific sound collection beam signal MB to the control unit 10. Based on the sound collection environment information, the control unit 10 identifies the speaker direction and sets the sound output directivity to be given to the sound output directivity control unit 13.
  • the echo canceling unit 20 is provided with independent echo cancellers 21 to 23, and has a structural force in which these are connected in series. That is, the output of the collected sound beam selector 19 is input to the echo canceller 21, and the output of the echo canceller 21 is input to the echo canceller 22. The output of the echo canceller 22 is input to the echo canceller 23, and the output of the echo canceller 23 is input to the input / output IZF 12.
  • the echo canceller 21 includes an adaptive filter 211 and a post processor 212. Although not shown, the echo cancellers 22 and 23 have the same configuration as the echo canceller 21, and are provided with the adaptive finoleators 221, 231 and the post processors 222, 232, respectively.
  • the adaptive filter 211 of the echo canceller 21 performs pseudo-repetitive sound based on the set sound emission directivity and the sound collection directivity of the selected specific sound collection beam signal MB with respect to the input sound signal S1. Generate a signal.
  • the post processor 212 subtracts the pseudo-regression sound signal for the input sound signal S1 from the specific sound collection beam signal output from the sound collection beam selection unit 19, and outputs the subtracted sound signal to the post processor 222 of the echo canceller 22.
  • the adaptive filter 221 of the echo canceller 22 performs a pseudo-repetitive sound based on the set sound emission directivity and the sound collection directivity of the selected specific sound collection beam signal MB with respect to the input sound signal S2. Generate a signal.
  • the post processor 222 subtracts the pseudo regression sound signal for the input audio signal S2 from the first subtraction signal output from the post processor 212 of the echo canceller 21, and outputs the result to the post processor 232 of the echo canceller 23.
  • the adaptive filter 231 of the echo canceller 23 performs pseudo repetitive sound based on the set sound emission directivity and the sound collection directivity of the specific sound collection beam signal MB selected for the input sound signal S3. Generate a signal.
  • the post processor 232 subtracts the pseudo-regression sound signal for the input sound signal S3 from the second subtraction signal output from the post processor 222 of the echo canceller 22, and outputs the result to the input / output IZF 12 as an output sound signal.
  • any of the echo cancellers 21 to 23 operates, and if there are two input voice signals, any two of the echo cancellers 21 to 23 operate.
  • the input / output IZF 12 receives one input audio signal, and the control unit 10 Detecting that another voice conference device is available.
  • the sound collection beam selection unit 19 As described above, a specific sound collection beam signal is selected from each sound collection beam signal, and sound collection environment information is generated.
  • the control unit 10 acquires the sound collection environment information and detects the speaker direction.
  • predetermined sound emission directivity control is performed. For example, if you set the speaker to converge the emitted sound and not propagate the emitted sound to other areas, the sound emission direction that forms the emitted beam signal that converges to the detected speaker direction Gender control. As a result, even if a conference is held in a space where a large number of people who are not involved in the conference are random, only the speaker who only collects the voice from the speaker at a high SZN ratio can be called. The conference participant's voice can be emitted, and this voice can be prevented from leaking to other people.
  • the sound emission directivity may be controlled by another method.
  • Fig. 5A shows a case where one conference person A holds a conference with the audio conference apparatus 1
  • Fig. 5B shows a case where two conference parties A and B hold a meeting with the audio conference apparatus 1, and the conference person A speaks. It is a figure showing the case of becoming a person.
  • the sound collection beam selection unit 19 selects a sound collection beam signal MB 13 having the direction of presence of the sound gathering signal power conference person A as the center of directivity, and provides this sound collection environment information to the control unit 10.
  • the control unit 10 detects the speaker direction. Then, as shown in FIG. 5A, the control unit 10 sets the sound emission directivity for emitting sound only in the detected speaker A direction. As a result, the voice of the other party can be emitted only to speaker A, and the conference sound can be prevented from propagating (leaking) to other areas.
  • the sound collection beam selector 19 directs the direction in which the person A exists.
  • the sound collection beam signal MB13 which is the center of the characteristics, is selected, and this sound collection environment information is given to the control unit 10.
  • the control unit 10 detects the speaker direction, stores the speaker direction detected before the current speaker direction, reads out the speaker direction, and detects it as the conference direction.
  • the direction of the conferee B is detected as the conference direction.
  • the control unit 10 detects the detected speaker A direction and conference B direction.
  • the sound emission directivity is set such that the virtual point sound source 901 is positioned at the center in the longitudinal direction of the audio conference apparatus 1 so that sound is emitted equally in the direction.
  • the other party's voice can be equally emitted to the party B who is not only the speaker A at that time.
  • the sound collection directivity (specific sound collection beam signal) is switched according to the switching of the speakers, and the sound emission directivity is switched, so that all the conference participants can hear the sound. It is possible to realize an easy audio conference.
  • the present apparatus can easily perform this audio conference by simultaneously including the speaker array and the microphone array.
  • the control unit 10 stores the speaker direction, so that the control unit 10 reads the speaker direction within a predetermined period before the current power and is mainly set.
  • the direction of the speaker can be detected.
  • the control unit 10 instructs the sound collection beam selection unit 19 to perform the selection process using only the corresponding sound collection beam signal.
  • the sound collection beam selection unit 19 performs selection processing only on the corresponding sound collection beam signal, and outputs it to the echo cancellation unit 20. For example, if the speaker voice is always collected from only one direction, it is fixed to this one-way collected beam signal, and if the speaker direction is collected only in two directions, these are collected. The selection process is performed only for the two-way collected sound beam signal. By performing such processing, the sound collection beam selection processing load is reduced, and an output audio signal can be generated more quickly.
  • the input / output IZF 12 receives multiple input audio signals, and the control unit 10 detects this and there are multiple other audio conference devices. Detect that. Then, the control unit 10 sets a different position for each voice conference device as a virtual point sound source, and has a sound emission directivity such that each input voice signal utters and diverges from each virtual point sound source power. Set.
  • FIG. 6A is a conceptual diagram showing a sound emission state when three virtual point sound sources are set.
  • FIG. 6B is a conceptual diagram showing a sound emission state when two virtual point sound sources are set.
  • the solid line indicates the sound output from the virtual point sound source 901
  • the broken line indicates the sound output from the virtual point sound source 902
  • the two-dot chain line indicates the sound output from the virtual point sound source 903. .
  • Virtual point sound sources 901, 902, and 903 corresponding to the signal are set.
  • the virtual point sound sources 901 and 903 are made to correspond to the opposite ends of the casing 1 in the longitudinal direction
  • the virtual point sound source 902 is made to correspond to the center part of the casing 1 in the longitudinal direction.
  • the sound output directivity is set, and the sound output directivity control unit 13 generates individual sound output signals of the speakers SP1 to SP16 by delay control, amplitude control, and the like.
  • the input / output IZF12 receives multiple input audio signals, and the control unit 10 detects this and detects that there are multiple other audio conference devices. Is detected. Further, the control unit 10 detects and stores the signal strength of each input voice signal, and detects the history of each input voice signal. Here, the history of the input voice signal is obtained by detecting whether or not there is a predetermined signal strength, and corresponds to whether or not a conversation is actually performed. At the same time, the control unit 10 detects the history of the speaker direction based on the stored sound collection environment information. The control unit 10 compares the input voice signal history with the speaker direction history, and detects the correlation between the input voice signal and the speaker direction.
  • FIG. 7 shows that two conferees A and B each use a single audio conference device 1 to generate different sounds.
  • FIG. 8 is a diagram showing a situation in which a conversation is held with a voice conference apparatus, and block arrows in FIG. 7 indicate sound emitting beams 801 and 802.
  • FIG. 7 shows a case in which conference A has a conversation with another audio conference apparatus corresponding to the input audio signal S1, and conference B has a conversation with another audio conference apparatus corresponding to the input audio signal S2.
  • the control unit 10 detects this change in signal strength, associates the input audio signal S1 with the conference A, and associates the input audio signal S2 with the conference B. Then, the control unit 10 sets the sound emission directivity so that the input sound signal S1 is emitted only to the conference party A and the input audio signal S2 is emitted only to the conference party B. For this reason, the voice from the party on the conference party A side cannot be heard by the party B, and the voice from the party on the conference party B side cannot be heard by the conference party A.
  • the control unit 10 instructs the sound collection beam selection unit 19 to perform a sound collection beam signal selection process for each sound collection beam signal group corresponding to each of the input sound signals SI and S2.
  • the sound collection beam selection unit 19 performs the selection process described above with the sound collection beam signals MB 11 to MB 14 by the microphones MIC10 1 to MIC 116 on the side where the conference person A exists.
  • the above-described selection processing is performed using the collected sound beam signals MB21 to MB24 by the microphones MIC201 to MIC216 on the side where the conference person B exists.
  • the sound collection beam selection unit 19 outputs the selected sound collection beam signals to the echo cancellation unit 20 as specific sound collection beam signals respectively corresponding to the input sound signals SI and S2.
  • the echo cancellation unit 20 generates echoes by sequentially canceling the specific collected beam signals corresponding to each of the parties A and B, and the input / output IZF 12 attaches data specifying the transmission destination to each.
  • the voice of Conference A is not transmitted to the party B
  • the voice of the party B is not sent to the party A.
  • the conference participants A and B can perform voice communication individually with other audio conference device parties that are different from each other and further interfere with each other.
  • a conference can be held in parallel.
  • control unit 10 operates the power operation unit 4 to indicate that the sound emission is automatically set. May be performed.
  • a voice switch 24 may be used as shown in FIG. 8 which shows an example in which an echo canceller (echo cancel unit 20) is used as the regression sound removal means.
  • FIG. 8 is a functional block diagram of an audio conference apparatus using the voice switch 24.
  • the audio conference apparatus 1 shown in FIG. 8 is obtained by replacing the echo cancel unit 20 of the audio conference apparatus 1 shown in FIG. 3 with a voice switch 24, and the other configurations are the same.
  • the voice switch 24 includes a comparison circuit 25, an input side variable loss circuit 26, and an output side variable.
  • a loss circuit 27 is provided.
  • the comparison circuit 25 inputs the input sound signals S1 to S3 and the specific sound collection beam signal MB, and calculates the signal level (amplitude intensity) of the input sound signals S1 to S3 and the signal level of the specific sound collection beam signal MB. Compare.
  • the comparison circuit 25 detects that the signal levels of the input audio signals S1 to S3 are higher than the signal level of the specific sound collection beam signal MB
  • the conference person of the audio conference device 1 mainly receives the call.
  • the output side variable loss circuit 27 is subjected to reduction control.
  • the output side variable loss circuit 27 reduces the signal level of the specific sound collection beam signal MB according to this reduction control, and outputs it to the input / output IZF 12 as an output audio signal.
  • the conference person of the audio conference apparatus 1 mainly transmits the speech.
  • the input side variable loss circuit 26 is controlled to be reduced.
  • the input-side variable loss circuit 26 includes individual variable loss circuits 261 to 263 that perform variable loss processing on the input audio signals S1 to S3, respectively.
  • the signal level is reduced and given to the sound output directivity control unit 13. [0073] By performing such processing, the loudspeaker array power is mainly reduced during reception, even if the microphone array wraps around, the output voice level is suppressed, so the incoming voice (input voice signal) Transmission to the audio conference device can be prevented.
  • the voice that is emitted from the speaker array is also suppressed during transmission, the voice that wraps around the microphone array is reduced, and it is possible to prevent the incoming voice (input voice signal) from being sent to the other party's voice conference device. .

Abstract

 長尺な略直方体形状の筐体2の長尺な両側面には、それぞれ長尺な方向に沿ってアレイ状に配列されたマイクが形成され、下面には長尺な方向に沿ってアレイ状に配列されたスピーカが形成されている。スピーカアレイは会議環境に応じて設定された放音指向性に基づいて放音ビームを形成する。一方、マイクアレイが収音した収音信号により収音ビームを形成すると、これらから話者方向を検出してこの方向に対応する出力音声信号を形成するとともに、放音指向性の設定に反映させる。また、入力音声信号が複数あれば、放音指向性は複数ある入力音声信号の使用状況に応じて設定される。

Description

明 細 書
音声会議装置
技術分野
[0001] この発明は、ネットワーク等を介して複数の地点間で音声会議を行う音声会議装置
、特にマイクとスピーカとが一体化された音声会議装置に関するものである。
背景技術
[0002] 従来、遠隔地間で音声会議を行う方法として、音声会議を行う地点毎に音声会議 装置を設置して、これら装置をネットワークで接続し、音声信号を通信する方法が多 く用いられている。そして、このような音声会議に利用される音声会議装置が各種考 案されている。
[0003] 特許文献 1の音声会議装置は、ネットワークを介して入力される音声信号を天面に 配置されたスピーカから放音し、側面に配置された異なる複数方向をそれぞれの正 面方向とする各マイクで収音した音声信号を、ネットワークを介して外部に送信する。
[0004] また、特許文献 2の音声会議装置は、話者が自身のマイクを選択すると、このマイク 位置に対応した擬似エコー信号を生成し、マイクに回り込んで収音される放音音声 を打ち消して、該当する話者が発言した音声信号のみを、ネットワークを介して外部 に送信する。
特許文献 1:特開平 8 - 298696号公報
特許文献 2:特開平 5 - 158492号公報
発明の開示
発明が解決しょうとする課題
[0005] し力しながら、特許文献 1や特許文献 2の音声会議装置では、 1つのスピーカから 全方位に放音を行うため、放音指向性を細力べ制御することができな力つた。例えば 、音声会議装置の周囲にいる話者の人数、すなわち一人であるのか、複数人いるの か等に基づいて最適な放音指向性を設定することができな力つた。
[0006] また、特許文献 1や特許文献 2の音声会議装置では、収音時に放音音声の影響を 除去することはできるが、その他の話者音声以外のノイズの影響を効果的に除去す ることはできない。
[0007] さらには、これら特許文献 1や特許文献 2のような音声会議装置では、装置周りの環 境 (会議参加者数、会議室環境等)やネットワーク接続される他地点数等により設定 される多様な放収音環境およびこの放収音環境の変化に対して、適切な対応を行う ことができない。
[0008] したがって、この発明の目的は、放収音環境が多様な状況であり、これらが変化す るような状況であっても、速やかに最適な放収音を行うことができる音声会議装置を 提供することにある。
課題を解決するための手段
[0009] この発明の音声会議装置は、設置面力 筐体下面を所定距離離間させる脚部を備 えた筐体の下面力 外部方向を放音方向として下面に配列された複数のスピーカを 備えたスピーカアレイと、入力音声信号に放音用信号処理を行ってスピーカアレイの 放音指向性を制御する放音制御手段と、筐体の側面から外部方向を収音方向として 側面に配列された複数のマイクを備えたマイクアレイと、該マイクアレイで収音した収 音音声信号に収音用信号処理を行って互いに異なる収音指向性を有する複数の収 音ビーム信号を生成し、該複数の収音ビーム信号を比較して収音環境を検出すると ともに特定の収音ビーム信号を選択して、出力音声信号として出力する収音制御手 段と、入力音声信号と特定の収音ビーム信号とに基づいてスピーカから放音された 音声が出力音声信号に含まれないように制御する回帰音除去手段と、を備えたこと を特徴としている。
[0010] そして、この発明の音声会議装置の回帰音除去手段は、入力音声信号に基づい て擬似回帰音信号を生成し、特定の収音ビーム信号から擬似回帰音信号を減算す ることを特徴としている。または、この発明の音声会議装置の回帰音除去手段は、入 力音声信号と特定の収音ビーム信号とのレベルを比較する比較手段と、入力音声信 号と特定の収音ビーム信号のうち比較手段によって信号レベルが低いと判断された 信号のレベルを低減させるレベル低減手段と、を備えたことを特徴として 、る。
[0011] これらの構成では、他の音声会議装置から入力音声信号を受信すると、放音制御 手段は、スピーカアレイの各スピーカから放音される音声により放音ビームが形成さ れるように遅延制御等の放音用信号処理を行う。ここで、放音ビームとしては、室内 の所定方向で所定距離、例えば会議者が着席している位置に音が収束する設定の サウンドビームや、或る特定位置に仮想点音源が存在し、この仮想点音源カゝら発散 させて放音する設定のサウンドビームなどがある。各スピーカは、放音制御手段から 与えられる放音信号を室内へ放音する。これにより所望の放音指向性力 なる放音 が実現される。スピーカから放音された音声は、設置面を反射して、装置横方向の話 者側に伝搬される。
[0012] マイクアレイの各マイクは筐体の側面に設置され側面方向からの音を収音し、収音 信号を収音制御手段に出力する。このようにスピーカアレイとマイクアレイとが筐体の 異なる面に存在することで、スピーカからマイクへの回り込み音が低減される。収音制 御手段は、各収音信号に遅延処理等を行って、側面方向のそれぞれに異なる方向 に強い指向性を有する複数の収音ビーム信号を生成する。これにより、各収音ビー ム信号ではさらに回り込み音が抑圧される。収音制御手段は、各収音ビーム信号の 信号レベル等を比較して、特定の収音ビーム信号を選択して、回帰音除去手段に出 力する。回帰音除去手段は、入力音声信号と特定の収音ビーム信号とに基づいてス ピー力アレイ力 放音されてマイクロホンに回り込む音声を出力音声信号に含ませな い処理を行う。具体的には、回帰音除去手段は、入力音声信号に基づく擬似回帰音 信号を生成し、特定の収音ビーム信号から擬似回帰音信号を減算することで、回り 込み音声を抑圧する。または、回帰音除去手段は、入力音声信号と特定の収音ビー ム信号との信号レベルを比較して、入力音声信号の信号レベルが高ければ、主に受 話中であると判断して特定の収音ビーム信号の信号レベルを低減し、特定の収音ビ ーム信号の信号レベルが高ければ、主に送話中であると判断して入力音声信号の 信号レベルを低減する。
[0013] このような構成により、回り込み音の収音量が低減され、回帰音除去手段による処 理負荷が軽減されるとともに、素早く出力音声信号が最適化される。また、放音ビー ムで仮想点音源を実現する場合、前記回帰音の低減とともに、臨場感の有る会議が 実現される。また、放音ビームを収束性にすれば、放音ビームにより放音音声が制御 され、収音ビームにより収音音声が制御されることから、回り込み音の収音量が大幅 に抑圧され、回帰音除去手段による処理負荷が大幅に軽減されるとともに、より素早 く出力音声信号が最適化される。このように、本発明の構成を用いることで、会議者 数や接続会議地点数等の会議環境に応じて、最適な放収音が簡単に実現される。
[0014] また、この発明の音声会議装置は、筐体が一方向に長尺な略直方体形状であり、 複数のスピーカおよび複数のマイクが長尺な方向に沿って配列されて 、ることを特徴 としている。
[0015] この構成では、具体的な筐体の構造として長尺な略直方体形状を用いる。この構 造で長尺方向にスピーカおよびマイクを配置することで、直線状にスピーカが配列さ れたスピーカアレイと、直線状にマイクが配列されたマイクアレイとが効率的に配置さ れる。
[0016] また、この発明の音声会議装置は、収音制御手段からの収音環境に基づいて放音 指向性を設定して放音制御手段に与える制御手段を備えたことを特徴としている。
[0017] この構成では、収音制御手段が収音ビームに基づいて収音環境を検出する。ここ で、収音環境とは、会議者数や装置に対する会議者位置 (方向)、話者方向等である 。制御手段はこの情報に基づいて、放音指向性を決定する。ここで、放音指向性とは 、話者等の特定の会議者方向に対して放音強度を強めたり、会議者全体に略同じ放 音強度を設定するものである。これにより、例えば、会議者 (話者)がー人である場合 に、当該会議者にのみ音声を放音し、他方向に音声が漏れない。また、話者と聞い ているだけの人とが存在する場合に、全ての会議者に同等に音声を放音する。
[0018] また、この発明の音声会議装置は、制御手段で収音環境の履歴を記憶し、該履歴 に基づ!/、て放音指向性および収音環境を推定し、推定した放音指向性を放音制御 手段に与えるとともに、推定した収音環境に応じた収音ビーム信号の選択制御を収 音制御手段に与えることを特徴としている。
[0019] この構成では、制御手段は、収音環境の履歴を記憶する。例えば、これまでの話者 方向の履歴を記憶する。そして、この履歴に基づいて話者方向に殆ど変動がなかつ たり、特定の複数方向にのみ話者方向があることを検出すれば、該当する方向にの み話者がいることを検出し、放音ビームゃ収音ビームを設定する。例えば、話者方向 がー方向に限定されれば、この方向にのみ放音ビームゃ収音ビームを固定する。ま た、話者が 2方向や 3方向である場合には、全ての方位に略同等に放音を行うととも に、これらの方向の収音ビームのみで話者方向を検出する。これにより、会議者数等 に応じて適宜放音し、会議者方向にのみ収音の選択を行えばよぐ処理負荷が軽減 される。
[0020] また、この発明の音声会議装置は、制御手段で、入力音声信号数を検出し、該入 力音声信号数と収音環境とに基づいて放音指向性を設定することを特徴としている。
[0021] この構成では、制御手段は、入力音声信号数を検出し、この検出数力 ネットヮー クを介して会議に参加している音声会議装置数を検出する。そして、接続している音 声会議装置数に応じて、放音指向性を設定する。具体的には、音声会議装置接続 数が一つであって、会議者が一対一の場合であれば、特に仮想点音源を必要とせ ず、前述の収束性の放音を行って、当該会議者にのみ音声を放音させる。これに対 して、一つの音声会議装置を使用する会議者が複数の場合は、仮想点音源を該音 声会議装置の略中央位置に設定して放音させる。一方、音声会議装置接続数が複 数であれば、複数の仮想点音源の設定を行う等して、臨場感のある音声を放音させ たり、後述するように接続先毎に異なる方向に放音音声を収束させる。
[0022] また、この発明の音声会議装置は、制御手段で、入力音声信号の履歴と収音環境 との履歴とを記憶し、双方の履歴に基づいて入力音声信号と収音環境の変化との関 連性を検出し、該関連性に基づいて放音制御手段に推定した放音指向性を与える とともに、収音制御手段に推定した収音環境に応じた収音ビーム信号の選択制御を 与えることを特徴として 、る。
[0023] この構成では、制御手段は、入力音声信号の履歴すなわち接続先の履歴と、収音 環境の履歴とを記憶し、これらの関連性を検出する。例えば、本装置に対して第 1の 方向にいる話者は第 1の接続先と会話をし、本装置に対して第 2の方向にいる話者 は第 2の接続先と会話をしている、という情報を取得する。そして、制御手段は、対応 する話者へのみ音声が放音されるように入力音声信号 (接続先)毎に収束性の放音 指向性を設定する。また、制御手段は、対応する話者方向でのみ収音するように出 力音声信号 (接続先)毎に収音ビーム選択 (収音指向性)を設定する。これにより、 1 つの音声会議装置で並行して複数の音声会議が実現され、互いの会議音声同士が 干渉し合わない。
発明の効果
[0024] この発明によれば、音声会議に参加する地点数や、 1つの音声会議装置を使用す る会議者数等による様々な音声会議の形式や環境に対して、唯一台の音声会議装 置により最適な音声会議を実現することができる。
図面の簡単な説明
[0025] [図 1A]本発明の音声会議装置を表す平面図である。
[図 1B]本発明の音声会議装置を表す正面図である。
[図 1C]本発明の音声会議装置を表す側面図である。
[図 2A]図 1Aに示す音声会議装置のスピーカ配列およびマイク配列を示した正面図 である。
[図 2B]図 1Bに示す音声会議装置のスピーカ配列およびマイク配列を示した底面図 である。
[図 2C]図 1Cに示す音声会議装置のスピーカ配列およびマイク配列を示した裏面図 である。
[図 3]本発明の音声会議装置の機能ブロック図である。
[図 4]本発明の音声会議装置 1の収音ビーム MB11〜MB14, MB21〜MB24の分 布を示した平面図である。
[図 5A]—人の会議者 Aが音声会議装置 1で会議をした場合を示す図である。
[図 5B]二人の会議者 A, Bが音声会議装置 1で会議をし、会議者 Aが話者となってい る場合とを示す図である。
[図 6A]3つの仮想点音源を設定した場合の放音状況を示す概念図である。
[図 6B]2つの仮想点音源を設定した場合の放音状況を示す概念図である。
[図 7]二人の会議者 A, Bがそれぞれ、異なる音声会議装置との間で会話をする状況 を示した図である。
[図 8]ボイススィッチ 24を用いた音声会議装置の機能ブロック図である。
発明を実施するための最良の形態
[0026] 本発明の実施形態に係る音声会議装置について、図を参照して説明する。 [0027] 図 1A— 1Cは本実施形態の音声会議装置を表す三面図であり、図 1Aが平面図、 図 1Bが正面図 (長尺の側面側力 見た図)、図 1Cが側面図(短尺側の側面から見た 図)である。
図 2A— 2Cは、図 1A— 1Cに示す音声会議装置のスピーカ配列およびマイク配列 を示した図であり、図 2Aが正面図(図 1Bに相当)、図 2Bが底面図、図 2Cが裏面図( 図 1Bの反対側の面に相当)である。
図 3は本実施形態の音声会議装置の機能ブロック図である。
[0028] 図 1A乃至図 2Cに示すように、本実施形態の音声会議装置 1は、機構的に、筐体 2 、脚部 3、操作部 4、発光部 5、入出力コネクタ 11を備える。
筐体 2は一方向に長尺な略直方体形状力 なり、筐体 2の長尺な辺(面)の両端部 には、筐体 2の下面を設置面から所定間隔離間する所定高さの脚部 3が設置されて いる。なお、以下の説明では、筐体 2の四側面のうち、長尺な面を長尺面、短尺な面 を短尺面と称する。
[0029] 筐体 2の上面における長尺な方向の一方端には、複数のボタンや表示画面からな る操作部 4が設置されている。これら操作部 4は筐体 2内に設置された制御部 10に接 続し、会議者力もの操作入力を受け付けて、制御部 10に出力するとともに、操作内 容ゃ実行モード等を表示画面に表示する。筐体 2の上面中央部には、一点を中心と して放射状に配置された LED等の発光素子からなる発光部 5が設置されて ヽる。発 光部 5は、制御部 10からの発光制御に応じて発光する。例えば、話者方向を示す発 光制御が入力されれば、その方向に対応する発光素子を発光する。
[0030] 筐体 2における操作部 4が設置された側の短尺面には、 LANインターフェース、ァ ナログオーディオ入力端子、アナログオーディオ出力端子、デジタルオーディオ入出 力端子を備える入出力コネクタ 11が設置されており、この入出力コネクタ 11は筐体 2 内部に設置された入出力 IZF12に接続する。また、 LANインターフェースにネットヮ ークケーブルを装着し、ネットワークに接続することで、ネットワーク上の他の音声会 議装置に接続する。
[0031] 筐体 2の下面には、同形状からなるスピーカ SP1〜SP16が設置されている。これら スピーカ SP1〜SP16は長尺方向に沿って一定の間隔で直線状に設置されており、 これによりスピーカアレイが構成される。筐体 2の一方の長尺面には、同形状力 なる マイク MIC 101〜MIC 116が設置されて!、る。これらマイク MIC 101〜MIC 116は 長尺方向に沿って一定の間隔で直線状に設置されており、これによりマイクアレイが 構成される。また、筐体 2の他方の長尺面にも、同形状からなるマイク MIC201〜MI C216が設置されている。これらマイク MIC201〜MIC216も長尺方向に沿って一 定の間隔で直線状に設置されており、これによりマイクアレイが構成される。そして、 筐体 2の下面側には、これらスピーカアレイおよびマイクアレイを覆う形状で形成され 、パンチメッシュされた下面グリル 6が設置されている。なお、本実施形態では、スピ 一力アレイのスピーカ数を 16本とし、各マイクアレイのマイク数をそれぞれ 16本とした 力 これに限ることなぐ仕様に応じてスピーカ数およびマイク数は適宜設定すればよ い。また、スピーカアレイおよびマイクアレイの間隔は一定ではなくてもよぐ例えば、 長尺方向に沿って中央部で密に配置され、両端部に 、くに従 、疎に配置されるよう な態様でもよい。
[0032] 次に、図 3に示すように、本実施形態の音声会議装置 1は、機能的に、制御部 10、 入出力コネクタ 11、入出力 IZF12、放音指向性制御部 13、 DZAコンバータ 14、放 音用アンプ 15、スピーカアレイ(スピーカ SP1〜SP16)、マイクアレイ(マイク MIC10 1〜MIC116, MIC201〜MIC216)、収音用アンプ 16、 AZDコンバータ 17、収音 ビーム生成部 181、収音ビーム生成部 182、収音ビーム選択部 19、エコーキャンセ ル部 20、操作部 4を備える。
[0033] 入出力 IZF12は、入出力コネクタ 11を介して入力された、他の音声会議装置から の入力音声信号をネットワークに対応するデータ形式 (プロトコル)から変換して、ェ コーキャンセル部 20を介して放音指向性制御部 13に与える。この際、入出力 IZF1 2は、複数の音声会議装置から入力音声信号を受信すると、これらを音声会議装置 毎に識別して、それぞれ異なる伝送経路でエコーキャンセル部 20を介して放音指向 性制御部 13に与える。また、入出力 IZF12は、エコーキャンセル部 20で生成される 出力音声信号をネットワークに対応するデータ形式 (プロトコル)に変換して、入出力 コネクタ 11を介して、ネットワークに送信する。
[0034] 放音指向性制御部 13は、指定された放音指向性に基づいて、スピーカアレイの各 スピーカ SP 1〜SP 16にそれぞれ固有の遅延処理及び振幅処理等を入力音声信号 に対して行い個別放音信号を生成する。ここで、放音指向性としては、音声会議装 置 1の長尺な方向における所定位置で放音音声を収束させるものや、仮想点音源を 設定して当該仮想点音源力 放音音声を発散させるものがあり、これら放音指向性 をスピーカ SP1〜SP16からの放音音声で実現するような個別放音信号が生成され る。
[0035] そして、放音指向性制御部 13は、これら個別放音信号をスピーカ SP1〜SP16毎 に設置された DZAコンバータ 14に出力する。各 DZAコンバータ 14は個別放音信 号をアナログ形式に変換して各放音用アンプ 15に出力し、各放音用アンプ 15は個 別放音信号を増幅してスピーカ SP1〜SP16に与える。
[0036] スピーカ SP1〜SP16は、無指向性のスピーカからなり、与えられた個別放音信号 を音声変換して外部に放音する。この際、スピーカ SP1〜SP16は筐体 2の下面に設 置されているので、放音された音声は、音声会議装置 1が設置される机の設置面を 反射して、会議者のいる装置の横力 斜め上方に向力つて伝搬される。
[0037] マイクアレイの各マイク MIC101〜MIC116、 MIC201〜216は、無指向性であつ ても有指向性であってもよいが、有指向性であることが望ましぐ音声会議装置 1の外 部からの音声を収音して電気変換し、収音信号を各収音用アンプ 16に出力する。各 収音用アンプ 16は、収音信号を増幅してそれぞれ AZDコンバータ 17に与え、 AZ Dコンバータ 17は、収音信号をデジタル変換して収音ビーム生成部 181, 182に出 力する。ここで、収音ビーム生成部 181には、一方の長尺面に設置されたマイク MIC 101〜MIC116での収音信号が入力され、収音ビーム生成部 182には、他方の長 尺面に設置されたマィクMIC201〜MIC216での収音信号が入カされる。
[0038] 図 4は本実施形態に係る音声会議装置 1の収音ビーム MB11〜MB14, MB21〜 MB24の分布を示した平面図である。
[0039] 収音ビーム生成部 181は、各マイク MIC101〜MIC116の収音信号に対して所定 の遅延処理等を行い、収音ビーム信号 MB11〜MB14を生成する。収音ビーム信 号 MB11〜MB14は、マイク MIC101〜MIC116が設置された長尺面側で、当該 長尺面に沿って、それぞれに異なる所定領域が収音強度の中心に設定されている。 [0040] 収音ビーム生成部 182は、各マイク MIC201〜MIC216の収音信号に対して所定 の遅延処理等を行い、収音ビーム信号 MB21〜MB24を生成する。収音ビーム信 号 MB21〜MB24は、マイク MIC201〜MIC216が設置された長尺面側で、当該 長尺面に沿って、それぞれに異なる所定領域が収音強度の中心に設定されている。
[0041] 収音ビーム選択部 19は、収音ビーム信号 MB11〜MB14, MB21〜MB24を入 力して信号強度を比較、予め設定した所定条件に適合する収音ビーム信号 MBを選 択する。例えば、一人の話者からの音声のみを他の音声会議装置に送信する場合 には、収音ビーム選択部 19は、最も信号強度の高い収音ビーム信号を選択し、特定 収音ビーム信号 MBとしてエコーキャンセル部 20に出力する。また、複数の音声会 議を並行して行う時のように複数の収音ビーム信号が必要であれば、その状況に応 じた収音ビーム信号を順次選択して、それぞれを個別の特定収音ビーム信号 MBと してエコーキャンセル部 20に出力する。また、収音ビーム選択部 19は、選択した特 定収音ビーム信号 MBに対応する収音方向(収音指向性)を含む収音環境情報を制 御部 10に出力する。制御部 10はこの収音環境情報に基づき、話者方向を特定し、 放音指向性制御部 13に与える放音指向性を設定する。
[0042] エコーキャンセル部 20は、それぞれに独立なエコーキャンセラ 21〜23が設置され ており、これらが直列接続された構造力もなる。すなわち、収音ビーム選択部 19の出 力はエコーキャンセラ 21に入力され、エコーキャンセラ 21の出力はエコーキャンセラ 22に入力される。そして、エコーキャンセラ 22の出力はエコーキャンセラ 23に入力さ れ、エコーキャンセラ 23の出力は入出力 IZF12に入力される。
[0043] エコーキャンセラ 21は適応型フィルタ 211とポストプロセッサ 212とを備える。また、 図示していないが、エコーキャンセラ 22, 23は、エコーキャンセラ 21と同じ構成から なり、それぞれ適応型フイノレタ 221, 231とポストプロセッサ 222, 232とを備免る。
[0044] エコーキャンセラ 21の適応型フィルタ 211は、入力音声信号 S1に対して、設定され る放音指向性と選択される特定収音ビーム信号 MBの収音指向性とに基づく擬似回 帰音信号を生成する。ポストプロセッサ 212は、収音ビーム選択部 19から出力される 特定収音ビーム信号から、入力音声信号 S1に対する擬似回帰音信号を減算して、 エコーキャンセラ 22のポストプロセッサ 222に出力する。 [0045] エコーキャンセラ 22の適応型フィルタ 221は、入力音声信号 S2に対して、設定され る放音指向性と選択される特定収音ビーム信号 MBの収音指向性とに基づく擬似回 帰音信号を生成する。ポストプロセッサ 222は、エコーキャンセラ 21のポストプロセッ サ 212から出力される第 1減算信号から、入力音声信号 S2に対する擬似回帰音信 号を減算して、エコーキャンセラ 23のポストプロセッサ 232に出力する。
[0046] エコーキャンセラ 23の適応型フィルタ 231は、入力音声信号 S3に対して、設定され る放音指向性と選択される特定収音ビーム信号 MBの収音指向性とに基づく擬似回 帰音信号を生成する。ポストプロセッサ 232は、エコーキャンセラ 22のポストプロセッ サ 222から出力される第 2減算信号から、入力音声信号 S3に対する擬似回帰音信 号を減算して、出力音声信号として入出力 IZF12に出力する。ここで、入力音声信 号が 1つであれば、エコーキャンセラ 21〜23のいずれかが動作し、入力音声信号が 2つであれば、エコーキャンセラ 21〜23のいずれ力 2つが動作する。
[0047] このようなエコーキャンセル処理を行うことにより、適切なエコー除去が行われ、自 装置の話者音声のみが出力音声信号として、ネットワークに送信される。この際、放 音ビーム処理と収音ビーム処理とが行われた上で、エコーキャンセル処理が行われ るので、単に無指向性のスピーカを備える場合や、無指向性のマイクを備える場合よ りも、回り込み音を抑圧することができる。さらに、機構的に、前述のようにスピーカと マイクとの間で回り込みが発生しにくい構造であるので、より回り込み音声の抑圧効 果が向上するとともに、機構的に回り込みの発生が少ない分、エコーキャンセル処理 の処理負荷が低減し、より高速に最適な出力音声信号を生成することができる。
[0048] 次に、このような構成および処理を行う音声会議装置の使用例について、図を参照 して説明する。なお、以下に挙げる例は、使用方法の一部であり、これらに類似の使 用方法においても本発明の構成および処理が適用することができる。
[0049] (1)ネットワークを介して接続している他の音声会議装置の数力 つの場合
接続している他の音声会議装置が 1つの場合、すなわち音声会議装置が一対一で 音声会議を行う場合、入出力 IZF12が受信する入力音声信号は 1つであり、制御部 10は、これを検出して、他の音声会議装置力^つであることを検出する。
[0050] また、この入力音声信号の検出とは別の通常処理として、収音ビーム選択部 19は 、前述のように、各収音ビーム信号から特定収音ビーム信号を選択するとともに、収 音環境情報を生成する。制御部 10は、収音環境情報を取得して話者方向を検出し
、所定の放音指向性制御を行う。例えば、話者に放音音声を収束させて、他の領域 に放音音声を伝搬しないような設定を行う場合には、検出した話者方向に収束する 放音ビーム信号を形成する放音指向性制御を行う。これにより、会議に関係しない多 数の人が無作為にいるような空間内で会議を行っていても、話者からの音声のみを 高い SZN比で収音するだけでなぐ話者にのみ相手会議者の音声を放音し、他の 人にこの音声が漏れることを防止することができる。
[0051] ところで、この方法では、会議者が複数人!ヽる場合には、話者のみしか相手会議者 の音声を聞くことができなくなる。
[0052] したがって、このような場合には、放音指向性を他の方法で制御すればよい。
[0053] 図 5Aは一人の会議者 Aが音声会議装置 1で会議をする場合を示し、図 5Bは二人 の会議者 A, Bが音声会議装置 1で会議をし、会議者 Aが話者となっている場合を示 す図である。
[0054] 図 5Aに示すように、会議者が A—人である場合は、当然会議者 Aが話者となる。収 音ビーム選択部 19は、収音信号力 会議者 Aの存在する方向を指向性の中心とす る収音ビーム信号 MB 13を選択し、この収音環境情報を制御部 10に与える。制御部 10は、話者方向を検出する。そして、制御部 10は、図 5Aに示すように、検出した話 者 A方向にのみ放音を行う放音指向性を設定する。これにより、話者 Aのみに相手 会議者の音声を放音し、他の領域に会議音が伝搬する (漏れる)ことを防止すること ができる。
[0055] 一方、図 5Bに示すように、会議者が A, Bの二人であり、会議者 Aが話者となると、 収音ビーム選択部 19は、会議者 Aの存在する方向を指向性の中心とする収音ビー ム信号 MB13を選択し、この収音環境情報を制御部 10に与える。制御部 10は、話 者方向を検出するとともに、今回の話者方向より以前に検出した話者方向を記憶し ておき、その話者方向を読み出して会議者方向として検出する。図 5Bの例であれば 、会議者 Bの方向を会議者方向として検出する。
[0056] そして、制御部 10は、図 5Bに示すように、検出した話者 A方向および会議者 B方 向に同等に放音されるように、音声会議装置 1の長尺方向の中心に仮想点音源 901 が位置するような放音指向性を設定する。これにより、その時点での話者 Aのみでな ぐ会議者 Bへ同等に相手会議者の音声を放音することができる。
[0057] このように、話者の切り替えに応じて収音指向性 (特定収音ビーム信号)を切り替え るとともに、放音指向性を切り替えることで、互いの会議者全員に対して音声が聞き 取りやすい音声会議を実現することができる。そして、本装置は、スピーカアレイとマ イクアレイとを同時に備えていることにより、この音声会議を容易に行うことができる。
[0058] なお、前述のように制御部 10が話者方向を記憶しておくことにより、制御部 10は、 その時点力 以前の所定期間内の話者方向を読み出し、主に設定されている話者 方向を検出することができる。制御部 10は、この話者方向が限定的であることを検出 すると、収音ビーム選択部 19に、対応する収音ビーム信号でのみ選択処理を行う指 示をする。収音ビーム選択部 19は、この指示に従い、該当する収音ビーム信号での み選択処理を行い、エコーキャンセル部 20に出力する。例えば、常時一方向からの み話者音声が収音されるのであれば、この一方向の収音ビーム信号に固定し、二方 向でのみ話者方向が収音されるのであれば、これら二方向の収音ビーム信号でのみ 選択処理を行う。このような処理を行うことで、収音ビーム選択処理負荷が低減され て、より素早く出力音声信号を生成することができる。
[0059] (2)ネットワークを介して接続して 、る他の音声会議装置の数が複数の場合
接続している他の音声会議装置の数が複数の場合、入出力 IZF12が受信する入 力音声信号は複数であり、制御部 10は、これを検出して、他の音声会議装置が複数 あることを検出する。そして、制御部 10は、各音声会議装置に対してそれぞれ異なる 位置を仮想点音源に設定して、それぞれの仮想点音源力ゝら各入力音声信号が発声 し発散するような放音指向性を設定する。
[0060] 図 6Aは 3つの仮想点音源を設定した場合の放音状態を示す概念図である。また、 図 6Bは 2つの仮想点音源を設定した場合の放音状態を示す概念図である。図 6A、 6Bにおいて、実線は仮想点音源 901からの放音音声を示し、破線は仮想点音源 90 2からの放音音声を示し、二点鎖線は仮想点音源 903からの放音音声を示す。
[0061] 例えば、入力音声信号が 3個であれば、図 6Aに示すように、それぞれの入力音声 信号に応じた仮想点音源 901, 902, 903を設定する。この際、仮想点音源 901, 9 03を筐体 1の長尺方向の対向する両端部に対応させ、仮想点音源 902を筐体 1の 長尺方向の中央部に対応させる。この設定に基づいて放音指向性を設定し、放音指 向性制御部 13で、遅延制御および振幅制御等により各スピーカ SP1〜SP16の個 別放音信号を生成する。そして、スピーカ SP1〜SP16が個別放音信号を放音する ことで、異なる 3箇所の仮想点音源 901〜903からそれぞれ音声を発声させた状態 を形成することができる。一方、入力音声信号が 2個であれば、図 6Bに示すように、 それぞれの入力音声信号に応じた仮想点音源 901, 902を設定する。この際、仮想 点音源 901, 902を筐体 1の長尺方向の対向する両端部に対応させる。この設定に 基づいて放音指向性を設定することで、今度は異なる 2箇所の仮想点音源 901, 90 2からそれぞれ音声を発声させた状態を形成することができる。なお、これら仮想点 音源の位置は、予め固定位置に設定してぉ 、てもよ 、。
[0062] これらの切り替えは、制御部 10の放音指向性設定の切り替えのみで行うことができ るので、接続された他の音声会議装置の数、すなわち接続環境に応じて、容易に最 適な放音環境 (放音指向性)を実現することができる。そして、このような仮想点音源 を設定することで、より臨場感の有る会議を行うことができる。なお、この際、放音音声 は発散するため、若干は収音されるが、エコーキャンセル部 20に予め仮想点音源用 の初期パラメータを与えておくことで、回帰音を効果的に除去することができる。
[0063] (3)複数の異なる会議を同時に行う場合
接続している他の音声会議装置の数が複数の場合、入出力 IZF12が受信する入 力音声信号は複数であり、制御部 10は、これを検出して他の音声会議装置が複数 あることを検出する。また、制御部 10は、各入力音声信号の信号強度を検出して記 憶しておき、各入力音声信号の履歴を検出する。ここで、入力音声信号の履歴として は、所定の信号強度があるかないかを検出したものであり、実際に会話が行われて いるかどうかに対応する。これと同時に、制御部 10は、記憶した収音環境情報に基 づいて話者方向の履歴を検出する。制御部 10は、これら入力音声信号履歴と話者 方向履歴とを比較して、入力音声信号と話者方向との相関性を検出する。
[0064] 図 7は、二人の会議者 A, Bがそれぞれ、一個の音声会議装置 1を用いて異なる音 声会議装置との間で会話をする状況を示した図であり、図 7のブロック矢印は放音ビ ーム 801, 802を示す。そして、図 7では、会議者 Aが入力音声信号 S1に対応する 他の音声会議装置と会話し、会議者 Bが入力音声信号 S2に対応する他の音声会議 装置と会話する場合を示す。
[0065] 例えば、図 7に示すような場合では、会議者 Aは入力音声信号 S1による放音に応 答する形で発声し、会議者 Bは入力音声信号 S2による放音に応答する形で発声す る。このような状況では、入力音声信号 S1が所定信号強度である期間が終了するの と略同時に収音ビーム信号 MB13の信号強度が高くなる。そして、収音ビーム信号 MB13の信号強度が低くなるのと略同時に入力音声信号 S1の信号強度が再び高く なる。同様に、入力音声信号 S2が所定信号強度である期間が終了するのと略同時 に収音ビーム信号 MB21の信号強度が高くなる。そして、収音ビーム信号 MB21の 信号強度が低くなるのと略同時に入力音声信号 S2の信号強度が再び高くなる。制 御部 10はこの信号強度の変化を検出して、入力音声信号 S1と会議者 Aとを関連付 けし、入力音声信号 S2と会議者 Bとを関連付けする。そして、制御部 10は、入力音 声信号 S1を会議者 Aにのみ放音し、入力音声信号 S2を会議者 Bにのみ放音するよ うな放音指向性を設定する。このため、会議者 A側の相手からの音声は会議者 Bに 聞こえず、会議者 B側の相手からの音声は会議者 Aに聞こえない。
[0066] 一方、制御部 10は、収音ビーム選択部 19に、各入力音声信号 SI, S2にそれぞれ 対応する収音ビーム信号群毎に収音ビーム信号の選択処理を行うように指示する。 図 7の例であれば、収音ビーム選択部 19は、会議者 Aが存在する側のマイク MIC10 1〜MIC 116による収音ビーム信号 MB 11〜MB 14で前述の選択処理を行うととも に、会議者 Bが存在する側のマイク MIC201〜MIC216による収音ビーム信号 MB 21〜MB24で前述の選択処理を行う。そして、収音ビーム選択部 19は、それぞれに 選択した収音ビーム信号を入力音声信号 SI, S2にそれぞれ対応する特定収音ビ ーム信号としてエコーキャンセル部 20に出力する。エコーキャンセル部 20では会議 者 A, Bのそれぞれに対応する特定収音ビーム信号を順次エコーキャンセル処理し て出力音声信号を生成し、入出力 IZF12ではそれぞれに送信先を指定するデータ を添付する。これにより、会議者 Aの発声音は会議者 B側の相手には送信されず、会 議者 B側の発声音は会議者 A側の相手には送信されない。これにより、会議者 A, B は、同じ音声会議装置 1を利用しながらも、互いに異なる他の音声会議装置側の会 議者と、個別に音声通信を行うことができ、さらに互いに干渉されることなぐ並行して 会議を行うことができる。そして、本実施形態の構成を用いることで、このような並行す る複数の会議を容易に実現することができる。
[0067] なお、前述の各例では、制御部 10が放音 '収音設定を自動的に行う態様を示した 力 操作部 4を操作して、会議者が手動で放音 '収音設定を行うようにしてもよい。
[0068] また、前述の実施形態では、回帰音除去手段としてエコーキャンセラ (エコーキャン セル部 20)を用いた例を示した力 図 8に示すように、ボイススィッチ 24を用いてもよ い。
[0069] 図 8はボイススィッチ 24を用いた音声会議装置の機能ブロック図である。
図 8に示す音声会議装置 1は、図 3に示した音声会議装置 1のエコーキャンセル部 20がボイススィッチ 24に置き換わったものであり、他の構成は同じである。
[0070] ボイススィッチ 24は、比較回路 25、入力側可変損失回路 26、出力側可変
損失回路 27を備える。比較回路 25は、入力音声信号 S1〜S3と、特定収音ビーム 信号 MBとを入力して、入力音声信号 S1〜S3の信号レベル (振幅強度)と特定収音 ビーム信号 MBの信号レベルとを比較する。
[0071] そして、比較回路 25は、入力音声信号 S1〜S3の信号レベルが特定収音ビーム信 号 MBの信号レベルよりも高いことを検出すると、当該音声会議装置 1の会議者が主 に受話中であると判断して、出力側可変損失回路 27に低減制御を行う。出力側可変 損失回路 27は、この低減制御にしたがって特定収音ビーム信号 MBの信号レベルを 低減して、出力音声信号として入出力 IZF12に出力する。
[0072] 一方、比較回路 25は、特定収音ビーム信号 MBの信号レベルが入力音声信号 S1 〜S3の信号レベルよりも高いことを検出すると、当該音声会議装置 1の会議者が主 に送話中であると判断して、入力側可変損失回路 26に低減制御を行う。入力側可変 損失回路 26は、それぞれ入力音声信号 S1〜S3に対して可変損失処理を行う個別 可変損失回路 261〜263を備え、これら個別可変損失回路 261〜263で入力音声 信号 S 1〜S3の信号レベルを低減して、放音指向性制御部 13に与える。 [0073] このような処理を行うことで、主に受話時には、スピーカアレイ力 マイクアレイに回 り込みが発生しても出力音声レベルが抑圧されるので、受話音声 (入力音声信号)を 相手の音声会議装置に送信することを防止できる。一方、送話時には、スピーカァレ イカも放音される音声が抑圧されるので、マイクアレイに回り込む音声が低減し、受 話音声 (入力音声信号)を相手の音声会議装置に送信することを防止できる。
[0074] 以上のように、本実施形態の機構的構成および機能的構成を備えることで、前述の ような多種多様の会議環境に、ただ 1つの音声会議装置で対応することができ、さら に、どの会議環境であっても、最適な放収音環境を会議者に提供することができる。

Claims

請求の範囲
[1] 下面、側面及び設置面から前記下面を所定距離離間させる脚部を有する筐体と、 前記下面力 外部方向を放音方向として、前記下面に配列された複数のスピーカ を備えたスピーカアレイと、
入力音声信号に放音用信号処理を行って前記スピーカアレイの放音指向性を制 御する放音制御手段と、
前記側面から外部方向を収音方向として、前記側面に配列された複数のマイクを 備えたマイクアレイと、
該マイクアレイで収音した収音音声信号に収音用信号処理を行って互いに異なる 収音指向性を有する複数の収音ビーム信号を生成し、該複数の収音ビーム信号を 比較して収音環境を検出するとともに特定の収音ビーム信号を選択して出力する収 音制御手段と、
前記入力音声信号と前記特定の収音ビーム信号とに基づいて、前記スピーカァレ ィから放音された音声が出力音声信号に含まれな 、ように制御する回帰音除去手段 と、
を備えたことを特徴とする音声会議装置。
[2] 前記回帰音除去手段は、前記入力音声信号に基づいて擬似回帰音信号を生成し 、前記特定の収音ビーム信号から前記擬似回帰音信号を減算する請求項 1に記載 の音声会議装置。
[3] 前記回帰音除去手段は、前記入力音声信号と前記特定の収音ビーム信号とのレ ベルを比較する比較手段と、
前記入力音声信号と前記特定の収音ビーム信号のうち、前記比較手段によって信 号レベルが低 ヽと判断された信号のレベルを低減させるレベル低減手段と、を備え た請求項 1に記載の音声会議装置。
[4] 前記筐体は一方向に長尺な略直方体形状であり、前記複数のスピーカおよび前記 複数のマイクは、前記長尺な方向に沿って配列されている請求項 1〜3のいずれか に記載の音声会議装置。
[5] 前記収音制御手段からの前記収音環境に基づ!、て前記放音指向性を設定し前記 放音制御手段に与える制御手段を備えた請求項 1〜4のいずれかに記載の音声会 議装置。
[6] 前記制御手段は、前記収音環境の履歴を記憶し、該履歴に基づ!、て放音指向性 および収音環境を推定し、前記放音制御手段に推定した放音指向性を与えるととも に、前記収音制御手段に推定した収音環境に応じた収音ビーム信号の選択制御を 与える請求項 5に記載の音声会議装置。
[7] 前記制御手段は、入力音声信号数を検出し、該入力音声信号数と前記収音環境 とに基づ 、て前記放音指向性を設定する請求項 5に記載の音声会議装置。
[8] 前記制御手段は、前記入力音声信号の履歴と前記収音環境との履歴とを記憶し、 双方の履歴に基づいて入力音声信号と収音環境の変化との関連性を検出し、該関 連性に基づいて前記放音制御手段に推定した放音指向性を与えるとともに、前記収 音制御手段に推定した収音環境に応じた収音ビーム信号の選択制御を与える請求 項 7に記載の音声会議装置。
PCT/JP2007/050617 2006-01-31 2007-01-17 音声会議装置 WO2007088730A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
EP07706924.3A EP2007168B1 (en) 2006-01-31 2007-01-17 Voice conference device
US12/162,934 US8144886B2 (en) 2006-01-31 2007-01-17 Audio conferencing apparatus
CN2007800040469A CN101379870B (zh) 2006-01-31 2007-01-17 音频会议设备
CA2640967A CA2640967C (en) 2006-01-31 2007-01-17 Audio conferencing apparatus

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2006023422A JP4929740B2 (ja) 2006-01-31 2006-01-31 音声会議装置
JP2006-023422 2006-01-31

Publications (1)

Publication Number Publication Date
WO2007088730A1 true WO2007088730A1 (ja) 2007-08-09

Family

ID=38327308

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2007/050617 WO2007088730A1 (ja) 2006-01-31 2007-01-17 音声会議装置

Country Status (6)

Country Link
US (1) US8144886B2 (ja)
EP (1) EP2007168B1 (ja)
JP (1) JP4929740B2 (ja)
CN (1) CN101379870B (ja)
CA (1) CA2640967C (ja)
WO (1) WO2007088730A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101662693A (zh) * 2008-08-27 2010-03-03 深圳华为通信技术有限公司 多视点媒体内容的发送和播放方法、装置及系统
EP2320676A1 (en) * 2008-08-19 2011-05-11 Huawei Device Co., Ltd. Method, communication device and communication system for controlling sound focusing
US8705778B2 (en) 2008-08-27 2014-04-22 Huawei Technologies Co., Ltd. Method and apparatus for generating and playing audio signals, and system for processing audio signals
US8923529B2 (en) 2008-08-29 2014-12-30 Biamp Systems Corporation Microphone array system and method for sound acquisition
CN107277690A (zh) * 2017-08-02 2017-10-20 北京地平线信息技术有限公司 声音处理方法、装置和电子设备

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4929740B2 (ja) * 2006-01-31 2012-05-09 ヤマハ株式会社 音声会議装置
JP4983630B2 (ja) * 2008-02-05 2012-07-25 ヤマハ株式会社 放収音装置
JP4643698B2 (ja) * 2008-09-16 2011-03-02 レノボ・シンガポール・プライベート・リミテッド マイクロフォンを備えるタブレット・コンピュータおよび制御方法
JP5515728B2 (ja) * 2009-12-24 2014-06-11 ブラザー工業株式会社 端末装置、処理方法および処理プログラム
JP2012054670A (ja) * 2010-08-31 2012-03-15 Kanazawa Univ スピーカアレーシステム
US9226088B2 (en) 2011-06-11 2015-12-29 Clearone Communications, Inc. Methods and apparatuses for multiple configurations of beamforming microphone arrays
US9779757B1 (en) 2012-07-30 2017-10-03 Amazon Technologies, Inc. Visual indication of an operational state
US9786294B1 (en) 2012-07-30 2017-10-10 Amazon Technologies, Inc. Visual indication of an operational state
KR101706133B1 (ko) * 2012-11-12 2017-02-13 야마하 가부시키가이샤 신호 처리 시스템 및 신호 처리 방법
CN104010265A (zh) 2013-02-22 2014-08-27 杜比实验室特许公司 音频空间渲染设备及方法
US9721586B1 (en) 2013-03-14 2017-08-01 Amazon Technologies, Inc. Voice controlled assistant with light indicator
JP6078461B2 (ja) * 2013-12-18 2017-02-08 本田技研工業株式会社 音響処理装置、音響処理方法、及び音響処理プログラム
US9554207B2 (en) 2015-04-30 2017-01-24 Shure Acquisition Holdings, Inc. Offset cartridge microphones
US9565493B2 (en) 2015-04-30 2017-02-07 Shure Acquisition Holdings, Inc. Array microphone system and method of assembling the same
US10412490B2 (en) 2016-02-25 2019-09-10 Dolby Laboratories Licensing Corporation Multitalker optimised beamforming system and method
US10367948B2 (en) 2017-01-13 2019-07-30 Shure Acquisition Holdings, Inc. Post-mixing acoustic echo cancellation systems and methods
CN109994121A (zh) * 2017-12-29 2019-07-09 阿里巴巴集团控股有限公司 消除音频串扰的系统、方法和计算机存储介质
CN108683963B (zh) * 2018-04-04 2020-08-25 联想(北京)有限公司 一种电子设备
EP3804356A1 (en) 2018-06-01 2021-04-14 Shure Acquisition Holdings, Inc. Pattern-forming microphone array
US11297423B2 (en) 2018-06-15 2022-04-05 Shure Acquisition Holdings, Inc. Endfire linear array microphone
CN108810764B (zh) * 2018-07-09 2021-03-12 Oppo广东移动通信有限公司 发声控制方法、装置以及电子装置
CN112889296A (zh) 2018-09-20 2021-06-01 舒尔获得控股公司 用于阵列麦克风的可调整的波瓣形状
JP7334406B2 (ja) * 2018-10-24 2023-08-29 ヤマハ株式会社 アレイマイクロフォンおよび収音方法
EP3942842A1 (en) 2019-03-21 2022-01-26 Shure Acquisition Holdings, Inc. Housings and associated design features for ceiling array microphones
JP2022526761A (ja) 2019-03-21 2022-05-26 シュアー アクイジッション ホールディングス インコーポレイテッド 阻止機能を伴うビーム形成マイクロフォンローブの自動集束、領域内自動集束、および自動配置
US11558693B2 (en) 2019-03-21 2023-01-17 Shure Acquisition Holdings, Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition and voice activity detection functionality
US11445294B2 (en) 2019-05-23 2022-09-13 Shure Acquisition Holdings, Inc. Steerable speaker array, system, and method for the same
EP3977449A1 (en) 2019-05-31 2022-04-06 Shure Acquisition Holdings, Inc. Low latency automixer integrated with voice and noise activity detection
WO2021041275A1 (en) 2019-08-23 2021-03-04 Shore Acquisition Holdings, Inc. Two-dimensional microphone array with improved directivity
JP6773990B1 (ja) * 2019-12-26 2020-10-21 富士通クライアントコンピューティング株式会社 情報処理システム、及び情報処理装置
US11552611B2 (en) 2020-02-07 2023-01-10 Shure Acquisition Holdings, Inc. System and method for automatic adjustment of reference gain
USD944776S1 (en) 2020-05-05 2022-03-01 Shure Acquisition Holdings, Inc. Audio device
US11706562B2 (en) 2020-05-29 2023-07-18 Shure Acquisition Holdings, Inc. Transducer steering and configuration systems and methods using a local positioning system
JP2024505068A (ja) 2021-01-28 2024-02-02 シュアー アクイジッション ホールディングス インコーポレイテッド ハイブリッドオーディオビーム形成システム

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5856563A (ja) * 1981-09-30 1983-04-04 Fujitsu Ltd 拡声電話機用送受話ユニツト
WO1990010347A1 (fr) * 1989-02-23 1990-09-07 Fujitsu Limited Telephone a haut-parleur sans fil
JPH05158492A (ja) 1991-12-11 1993-06-25 Matsushita Electric Ind Co Ltd 音声会議端末装置の話者選択装置
JPH08298696A (ja) 1995-04-27 1996-11-12 Nec Corp 音声会議装置
JPH10285083A (ja) * 1997-04-04 1998-10-23 Toshiba Corp 音声通信装置
JP2003092623A (ja) * 2001-09-17 2003-03-28 Toshiba Corp 音声通信装置とその音声信号処理モジュール
JP2004537233A (ja) * 2001-07-20 2004-12-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ エコー抑圧回路及びラウドスピーカ・ビームフォーマを有する音響補強システム
JP2005229433A (ja) * 2004-02-13 2005-08-25 Sony Corp 音声集音装置と方法
EP1596634A2 (en) 2004-05-11 2005-11-16 Sony Corporation Sound pickup apparatus and echo cancellation processing method

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4311874A (en) * 1979-12-17 1982-01-19 Bell Telephone Laboratories, Incorporated Teleconference microphone arrays
JPH03136557A (ja) * 1989-10-23 1991-06-11 Nec Corp ステレオ用音声会議装置
CA2146688A1 (en) * 1994-05-04 1995-11-05 Gregory Ciurpita Jr. Microphone/loudspeakers and systems using multiple microphone/loudspeakers
JP3377167B2 (ja) * 1997-07-31 2003-02-17 日本電信電話株式会社 場内拡声方法およびその装置
JP3616523B2 (ja) * 1999-06-22 2005-02-02 沖電気工業株式会社 エコーキャンセラ
US7123727B2 (en) * 2001-07-18 2006-10-17 Agere Systems Inc. Adaptive close-talking differential microphone array
KR20040019362A (ko) * 2001-07-20 2004-03-05 코닌클리케 필립스 일렉트로닉스 엔.브이. 후처리기로서 멀티 마이크로폰 에코 억제기를 가지는 음향보강 시스템
JP4214459B2 (ja) * 2003-02-13 2009-01-28 ソニー株式会社 信号処理装置および方法、記録媒体、並びにプログラム
KR100493172B1 (ko) * 2003-03-06 2005-06-02 삼성전자주식회사 마이크로폰 어레이 구조, 이를 이용한 일정한 지향성을갖는 빔 형성방법 및 장치와 음원방향 추정방법 및 장치
CN101778150A (zh) * 2003-05-19 2010-07-14 金泰克斯公司 包含免提电话部件的后视镜组件
EP1704749A1 (en) * 2004-01-07 2006-09-27 Koninklijke Philips Electronics N.V. Audio system having reverberation reducing filter
CN2691200Y (zh) * 2004-04-01 2005-04-06 罗惠玲 一种数码音箱
JP2005354223A (ja) * 2004-06-08 2005-12-22 Toshiba Corp 音源情報処理装置、音源情報処理方法、音源情報処理プログラム
ATE413769T1 (de) * 2004-09-03 2008-11-15 Harman Becker Automotive Sys Sprachsignalverarbeitung für die gemeinsame adaptive reduktion von störgeräuschen und von akustischen echos
JP4654777B2 (ja) * 2005-06-03 2011-03-23 パナソニック株式会社 音響エコーキャンセル装置
WO2007052374A1 (en) * 2005-11-02 2007-05-10 Yamaha Corporation Voice signal transmitting/receiving apparatus
CA2629801C (en) * 2005-11-15 2011-02-01 Yamaha Corporation Remote conference apparatus and sound emitting/collecting apparatus
US8243951B2 (en) * 2005-12-19 2012-08-14 Yamaha Corporation Sound emission and collection device
JP4929740B2 (ja) * 2006-01-31 2012-05-09 ヤマハ株式会社 音声会議装置
JP5070710B2 (ja) * 2006-02-09 2012-11-14 ヤマハ株式会社 通信会議システム、および音声会議装置
JP4816221B2 (ja) * 2006-04-21 2011-11-16 ヤマハ株式会社 収音装置および音声会議装置
JP4747949B2 (ja) * 2006-05-25 2011-08-17 ヤマハ株式会社 音声会議装置
JP4894353B2 (ja) * 2006-05-26 2012-03-14 ヤマハ株式会社 放収音装置
JP4984683B2 (ja) * 2006-06-29 2012-07-25 ヤマハ株式会社 放収音装置
JP2008154056A (ja) * 2006-12-19 2008-07-03 Yamaha Corp 音声会議装置および音声会議システム
JP2008288785A (ja) * 2007-05-16 2008-11-27 Yamaha Corp テレビ会議装置
JP5338040B2 (ja) * 2007-06-04 2013-11-13 ヤマハ株式会社 音声会議装置
JP5012387B2 (ja) * 2007-10-05 2012-08-29 ヤマハ株式会社 音声処理システム
JP5293305B2 (ja) * 2008-03-27 2013-09-18 ヤマハ株式会社 音声処理装置
JP2009290825A (ja) * 2008-06-02 2009-12-10 Yamaha Corp 音響エコーキャンセラ

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5856563A (ja) * 1981-09-30 1983-04-04 Fujitsu Ltd 拡声電話機用送受話ユニツト
WO1990010347A1 (fr) * 1989-02-23 1990-09-07 Fujitsu Limited Telephone a haut-parleur sans fil
JPH05158492A (ja) 1991-12-11 1993-06-25 Matsushita Electric Ind Co Ltd 音声会議端末装置の話者選択装置
JPH08298696A (ja) 1995-04-27 1996-11-12 Nec Corp 音声会議装置
JPH10285083A (ja) * 1997-04-04 1998-10-23 Toshiba Corp 音声通信装置
JP2004537233A (ja) * 2001-07-20 2004-12-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ エコー抑圧回路及びラウドスピーカ・ビームフォーマを有する音響補強システム
JP2003092623A (ja) * 2001-09-17 2003-03-28 Toshiba Corp 音声通信装置とその音声信号処理モジュール
JP2005229433A (ja) * 2004-02-13 2005-08-25 Sony Corp 音声集音装置と方法
EP1596634A2 (en) 2004-05-11 2005-11-16 Sony Corporation Sound pickup apparatus and echo cancellation processing method

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HERBERT BUCHNER ET AL.: "Full-Duplex Systems for Sound Field Recording and Auralization Based on Wave Field Synthesis", AES 116TH CONVENTION, 8 May 2004 (2004-05-08), pages 1 - 9
See also references of EP2007168A4 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2320676A1 (en) * 2008-08-19 2011-05-11 Huawei Device Co., Ltd. Method, communication device and communication system for controlling sound focusing
EP2320676A4 (en) * 2008-08-19 2011-09-28 Huawei Device Co Ltd METHOD, COMMUNICATION DEVICE AND COMMUNICATION SYSTEM FOR CONTROLLING SOUND FOCUSING
CN101662693A (zh) * 2008-08-27 2010-03-03 深圳华为通信技术有限公司 多视点媒体内容的发送和播放方法、装置及系统
WO2010022658A1 (zh) * 2008-08-27 2010-03-04 深圳华为通信技术有限公司 多视点媒体内容的发送和播放方法、装置及系统
US8705778B2 (en) 2008-08-27 2014-04-22 Huawei Technologies Co., Ltd. Method and apparatus for generating and playing audio signals, and system for processing audio signals
US8923529B2 (en) 2008-08-29 2014-12-30 Biamp Systems Corporation Microphone array system and method for sound acquisition
US9462380B2 (en) 2008-08-29 2016-10-04 Biamp Systems Corporation Microphone array system and a method for sound acquisition
CN107277690A (zh) * 2017-08-02 2017-10-20 北京地平线信息技术有限公司 声音处理方法、装置和电子设备

Also Published As

Publication number Publication date
CN101379870B (zh) 2013-03-20
EP2007168B1 (en) 2013-06-26
JP2007208503A (ja) 2007-08-16
EP2007168A9 (en) 2009-07-08
CA2640967C (en) 2013-04-23
CN101379870A (zh) 2009-03-04
US20090052684A1 (en) 2009-02-26
EP2007168A2 (en) 2008-12-24
EP2007168A4 (en) 2010-06-02
US8144886B2 (en) 2012-03-27
CA2640967A1 (en) 2007-08-09
JP4929740B2 (ja) 2012-05-09

Similar Documents

Publication Publication Date Title
JP4929740B2 (ja) 音声会議装置
JP3972921B2 (ja) 音声集音装置とエコーキャンセル処理方法
JP5012387B2 (ja) 音声処理システム
US8666047B2 (en) High quality audio conferencing with adaptive beamforming
EP2026598A1 (en) Voice conference device
JP5050616B2 (ja) 放収音装置
EP2164183A1 (en) Sound signal processor and delay time setting method
JP2008005347A (ja) 音声通信装置、および複合プラグ
WO2008001659A1 (fr) Dispositif d'émission/réception de son
JP2007181099A (ja) 放収音装置
WO2007138985A1 (ja) 放収音装置および放収音装置の制御方法
JP2008294690A (ja) 音声会議装置および音声会議システム
JP4872636B2 (ja) 音声会議装置、音声会議システムおよび放収音ユニット
WO2009110576A1 (ja) 収音装置
JP2008017126A (ja) 音声会議システム
JP4967575B2 (ja) 音声会議装置
JP2007329753A (ja) 音声通信装置および音声通信システム
JP5055987B2 (ja) 音声会議装置および音声会議システム
JP4929673B2 (ja) 音声会議装置
JP2007251406A (ja) 音声信号送受信装置及び音声会議装置
JP4867248B2 (ja) スピーカ装置及び音声会議装置
JP2009010808A (ja) 拡声装置
JP2008022360A (ja) 音声通信装置、および音声通信システム
JP2007006073A (ja) スピーカ装置
JPS6213130A (ja) 会議通話送受信装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2640967

Country of ref document: CA

WWE Wipo information: entry into national phase

Ref document number: 12162934

Country of ref document: US

Ref document number: 200780004046.9

Country of ref document: CN

Ref document number: 2007706924

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE