WO2008018362A1 - dispositif de collecte sonore - Google Patents

dispositif de collecte sonore Download PDF

Info

Publication number
WO2008018362A1
WO2008018362A1 PCT/JP2007/065173 JP2007065173W WO2008018362A1 WO 2008018362 A1 WO2008018362 A1 WO 2008018362A1 JP 2007065173 W JP2007065173 W JP 2007065173W WO 2008018362 A1 WO2008018362 A1 WO 2008018362A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
signal
collected
sensitivity
output
Prior art date
Application number
PCT/JP2007/065173
Other languages
English (en)
French (fr)
Inventor
Shigeru Homma
Original Assignee
Yamaha Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corporation filed Critical Yamaha Corporation
Priority to EP07805894A priority Critical patent/EP2059065A1/en
Priority to US12/376,682 priority patent/US8103018B2/en
Priority to CN2007800294126A priority patent/CN101502129B/zh
Publication of WO2008018362A1 publication Critical patent/WO2008018362A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/403Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers loud-speakers

Definitions

  • the present invention relates to a sound collection device that is used for a conference and the like and picks up speech uttered by a conference participant.
  • Non-Patent Document 1 ITU-T G.711 Appendix II to Recommendation G.711 (02/2000)
  • Non-Patent Document 2 RFC3389 Real-time Transport Protocol (RTP) Payload for Comfort Noise (CN)
  • Patent Document 1 JP 2005-266411 A
  • Patent Document 1 has a problem that a rising sound cannot be detected when an appropriate audio signal cannot be acquired due to insufficient sensitivity of the microphone.
  • the sensitivity of the microphone is increased to detect the rising sound, there is a possibility that the silent section is erroneously recognized as a voiced section.
  • the sensitivity of the microphone was increased, there was a problem that when the loud sound was input at the start-up, the allowable input limit was exceeded (clipped).
  • the present invention provides a sound collecting device that accurately detects a rising sound and performs clipping even when a loud sound is input at the time of rising when performing silence compression. Let's call it Mejiro.
  • the sound collection device of the present invention includes:
  • a microphone array in which a plurality of microphones are arranged
  • the signal distribution means for inputting and distributing and outputting the audio signals picked up by the plurality of microphones, and the first and second having directivity in the same region based on the audio signals distributed and output by the signal distribution means
  • First and second sound collecting signal processing means for generating sound collecting beams, respectively;
  • the sensitivity of the first collected sound beam generated by the first collected sound signal processing means is set to high sensitivity, and the sensitivity of the second collected sound beam generated by the second collected sound signal processing means is reduced.
  • Level setting means to set the sensitivity
  • First and second memories for storing the first and second collected sound beams generated by the first and second collected sound signal processing means, respectively;
  • the first and second collected sound signal processing means detect the signal levels of the first and second collected sound beams, determine whether the detected signal level is sound or silent, and determine the first collected sound.
  • a selector that reads out the collected sound beams stored in the first and second memories, and selects and outputs one of the beams;
  • the selector When the sound determination unit does not detect that the first sound collection beam exceeds the allowable input limit, the selector is set to the first memory at the timing when the determination is changed from silence to sound. It is set to output the stored high-sensitivity sound collection beam, and when the sound determination unit detects that the first sound collection beam exceeds the allowable input limit, it determines from silence to sound.
  • a control unit configured to output the second sound collecting beam stored in the second memory to the selector at the changed timing;
  • the first and second signal distribution means outputs the audio signals picked up by the plurality of microphones. Distributed to the collected sound signal processing means.
  • the first and second collected sound signal processing means generate first and second collected sound beams, and these collected sound beams are set to high sensitivity and low sensitivity, respectively.
  • the high-sensitivity sound collection beam and the low-sensitivity sound collection beam are respectively stored in the memory.
  • the selector sequentially reads and outputs one of the collected sound beams stored in the memory at a timing designated by the control unit.
  • the sound determination unit detects the sound collecting / non-sounding of the collected sound beam, and further detects the collected sound beam that exceeds the allowable input limit (clips).
  • the control unit inputs the determination result of the voice determination unit.
  • control unit sets the selector to select and read out the high-sensitivity sound collection beam when the silence-> sound determination result is input.
  • the control unit sets the selector to select and read the low-sensitivity sound collecting beam when the determination result of silence ⁇ sound is input.
  • the control unit when the sound determining unit makes a sound determination for a predetermined time or more, the sound signal collected by all the microphones to the signal distribution unit Is output to a single sound pickup signal processing means, the level setting means is instructed to set the sound pickup beam generated by the sound pickup signal processing means to high sensitivity, and the selector is It is characterized by performing normal output processing instructing to output a sound collection beam with sensitivity.
  • the control unit sends an audio signal from the normal output process to the signal distribution unit when the audio determination unit changes the determination from sound to silence.
  • the first and second signal processing means are instructed to perform distribution output, and the level setting means is configured to set the sensitivity of the collected sound beams generated by the first and second collected sound signal processing means to high sensitivity, respectively. Instructed to set to low sensitivity, and when the voice judgment unit has not detected a sound collection beam exceeding the allowable input limit, the timing is changed from silence to voice and the sensitivity is high.
  • the voice judgment unit accepts input
  • the processing is changed to a detection mode that is set to output a low-sensitivity sound collection beam at the timing when the judgment is changed from silence to sound.
  • the normal output processing is shifted to a detection mode in which silence detection is performed using a high sensitivity and low sensitivity sound collection beam.
  • the level setting means changes the level of the sound signal picked up by the plurality of microphones and causes the sound collecting signal processing means to input the sound collecting beam. Are set to high sensitivity or low sensitivity, respectively.
  • the level setting means sets the sound collecting beam to high sensitivity or low sensitivity by changing the input / output level ratio of the sound collecting signal processing means. It is characterized by doing.
  • a low-sensitivity sound collection beam and a high-sensitivity sound collection beam are set, and the high-sensitivity sound collection beam is used to reliably detect the timing of silence ⁇ sound, and the high-sensitivity collection beam.
  • the output is switched to a low-sensitivity pickup beam, so that the rising sound can be detected accurately and even if a loud sound is input at the rising The power to do is lost.
  • FIG. 1 is a diagram showing a microphone arrangement of a sound collection device according to the present embodiment.
  • FIG. 2 is a block diagram showing the configuration of the sound collection device of the present embodiment.
  • A, 26B FIFO memory, 27—Sound detector, 28—Control, 29—Encoder
  • the sound collection device is configured to perform predetermined processing on audio signals collected by a plurality of microphones.
  • a sound collection beam (signal) is generated in which sound in a specific area is collected with high sensitivity.
  • sound and silence (whether speech is present) are detected.
  • a sound collecting beam is generated by synthesizing the sound signals collected by all microphones with a delay of a predetermined time (this is the normal mode) .
  • the audio signal collected by each microphone is distributed and input to the signal processing unit divided into two, and the same sound collection area is obtained by each signal processing unit.
  • a sound collecting beam having a different sensitivity corresponding to is generated.
  • silence ⁇ sound is detected with the high-sensitivity sound collection beam, and when the signal level of the high-sensitivity sound collection beam is clipped, the low-sensitivity sound collection beam is output to the subsequent stage (this is called VAD mode). Do).
  • FIG. 1 is a diagram showing a microphone arrangement of the sound collection device according to the present embodiment.
  • the sound collection device of this embodiment includes a plurality of microphones 11 to 18 in a housing 101.
  • the casing 101 has a substantially rectangular parallelepiped shape elongated in one direction.
  • the long surface is referred to as a long surface
  • the short surface is referred to as a short surface.
  • Microphones 11 to 18 having the same specifications are installed on any one long surface of the casing 101. These microphones 11 to 18 are installed in a straight line at regular intervals along the longitudinal direction.
  • the force S with eight microphones in the microphone array is not limited thereto, and the number of microphones may be set as appropriate according to specifications. Further, the intervals between the microphones in the microphone array may not be constant.
  • the microphone array may be arranged densely at the center along the longitudinal direction, and sparsely arranged at both ends. .
  • a microphone array including microphones 11 to 18 generates a sound collecting beam having a strong directivity in a specific region 20;!
  • the sound collection device of the present embodiment delays the sound collected by each microphone of the microphone array for a predetermined time, and synthesizes the delayed sound signal, thereby collecting the sound corresponding to a specific area 20;! -204. Generate multiple beams. Details will be described later.
  • FIG. 2 is a block diagram showing a configuration of the sound collection device according to the present embodiment.
  • the block diagram shown in Fig. 2 shows the processing system for one of the multiple sound collection beams. It is shown.
  • the sound collection device of this embodiment includes microphones 11 to 18, input / output I / F 21, front end multiple (eight in the figure) 22 amplifiers, and 8-channel A / D converter. 23, a digital audio patch 24, a sound collection beam generation unit 25 (25A, 25B), a FIFO memory 26 (26A, 26B), a sound detector 27, a control unit 28, and an encoder 29.
  • the sound collection beam generator 25 and the FIFO memory 26 are each a force that operates as one component in the normal mode, and is functionally divided into two parts in the VAD mode to process different sound collection beams. Operate. Switching between the normal mode and VAD mode is instructed by the control unit 28.
  • the input / output I / F 21 outputs an audio signal collected by the sound collection device to the outside.
  • the input / output I / F21 can also convert the audio signal into a data format (protocol) compatible with the network and output it to the outside.
  • the digital audio signal can also be output to the outside as it is.
  • the input / output I / F21 has a built-in D / A converter if necessary, and can output analog audio signals to the outside.
  • Each microphone in the microphone array; ;! To 18 may be omnidirectional or directional, but collect sound from the outside of the sound pickup device that is desired to be directional and collect the sound signal S ; ⁇ S8 is output to each amplifier 22.
  • Each amplifier 22 amplifies the collected sound signals S1 to S8 by AMP22, respectively, and an A / D converter
  • the A / D converter 23 digitally converts the collected sound signals S1 to S8 and outputs them to the digital audio patch 24.
  • the A / D converter 23 can set individual gains (level ratio of input analog signal and output digital signal) for each collected sound signal, and the gain for each collected signal is set by the control unit 28. Is done.
  • the digital audio patch 24 In the normal mode, the digital audio patch 24 outputs sound collection signals S1 to S8 to the sound collection beam generation unit 25 as shown in FIG. 3 (B). In the V AD mode, the digital audio patch 24 distributes the collected sound signals S1 to S8 input from the A / D converter 23 to the collected sound beam generation units 25A and 25B as shown in FIG. 3 (A). Output.
  • the digital audio patch 24 can change the number of collected sound signals to be distributed and output to the collected sound beam generators 25A and 25B from 0 to 8.
  • the number of the collected sound signals to be output and the combination of the collected sound signals are set by the control unit 28. That is, digital audio patch 24 Can freely change the microphone arrangement and the number of microphones in the microphone array.
  • the sound collection beam generation unit 25 performs predetermined delay processing on the sound collection signal output from the digital audio patch 24! / ⁇ Predetermined direction around the casing 101 (region 20;! -204! /, Generates a sound collection beam signal MB having a strong directivity against shear force.
  • the collected sound signals output from the microphones are strengthened by synthesis.
  • the collected sound signals output from the microphones are weakened by being synthesized because they have different phases. Therefore, the sensitivity of the microphone array is reduced to a beam shape, and a sound collection beam is generated only in the forward direction.
  • the sound collection beam generator 25 can direct the sound collection beam obliquely by giving each sound collection signal a predetermined delay time.
  • the sound signal is set to be output sequentially from the adjacent microphone every time a predetermined time elapses from one end microphone. For example, if the sound source is located in front of one end of the microphone array, the sound wave comes from one end closest to the sound source, and the sound wave comes last to the opposite end. In order to correct this difference in propagation time, a delay time is added to the collected sound signal of each microphone and then synthesized. Since the control unit 28 has information on the microphone position corresponding to each sound pickup signal, the control unit 28 individually controls the delay time of each sound pickup signal. Therefore, the audio signal in a specific direction can be strengthened by synthesis. In this way, by sequentially delaying the audio signals output from the microphones arranged in a row toward one end and the other end, the sound collection beam is inclined according to the delay time.
  • the sound collecting beam generating unit 25 is functionally divided into sound collecting beam generating units 25A and 25B.
  • the sound collection beam generators 25A and 25B perform predetermined delay processing on the sound collection signal output from the digital audio patch 24, respectively, and set a predetermined azimuth (region 201 to 204 (V, shift) /) Generates directional sound collecting beam signals MB 1 and MB 2.
  • the sound collecting beam signals MB 1 and MB2 are obtained by collecting sounds in the same region with different sensitivities. In normal mode and VAD mode, the same area (area 201 to 204) is picked up, so the amount of delay added to each collected signal is the same regardless of whether in normal mode or VAD mode. .
  • the sound collection beam generating unit 25 outputs the sound collection beam signal MB to the FIFO memory 26 and the sound detector 27 in the normal mode.
  • the sound collection beam generators 25A and 25B in the VAD mode output the sound collection beam signals MB1 and MB2 to the functionally divided FIFO memories 26A and 26B, respectively.
  • the collected sound beam generators 25A and 25B output the collected sound beam signals MB1 and MB2 to the sound detector 27.
  • the FIFO memory 26 sequentially stores the input sound collection beam signal MB.
  • the FIFO memory 26 outputs the stored sound collection beam signal MB to the encoder 29 sequentially from the past.
  • the output timing (cycle) is specified by the control unit 28.
  • the collected sound beam signal MB is buffered in the FIFO memory 26 for a predetermined time.
  • the FIFO memories 26A and 26B in the VAD mode sequentially store the input sound pickup beam signals MB1 and MB2, respectively, and output the sound pickup beam signals MB1 and MB2 to the encoder 29 sequentially from the past.
  • the output timing (cycle) is specified by the control unit 28.
  • the collected sound beam signals MB1 and MB2 are buffered in the FIFO memories 26A and 26B for a predetermined time.
  • the sound detector 27 detects the signal level of the input sound pickup beam signal MB.
  • the sound detector 27 determines whether sound is detected or not from the detected signal level. That is, when the signal level of the collected sound beam signal changes from less than a predetermined threshold value to a threshold value or more (when the signal level becomes more than the threshold value), the sound detector 27 determines that there is no sound ⁇ sound. On the other hand, when the signal level of the collected sound beam signal falls from the predetermined threshold value to less than the threshold value, the sound detector 27 determines that the sound is silent ⁇ silent only when the time when the sound collecting beam signal is less than the threshold value continues for a predetermined time or longer. If the time that is less than the threshold is less than the predetermined time, it is determined that the sound continues. The determination result is output to the control unit 28.
  • the sound detector 27 detects the signal levels of the collected sound beam signals MB1 and MB2 inputted in the VAD mode, respectively.
  • the sound detector 27 determines the presence or absence of sound from the signal level of the high-sensitivity sound pickup beam signal MB1. The determination result is output to the control unit 28.
  • the encoder 29 compresses the sound collecting beam signal MB input from the FIFO memory 26 and outputs the compressed sound to the input / output I / F 21.
  • the audio compression method may be based on any method, for example, based on ITU-T G.711.
  • the encoder 29 is input from the FIFO memories 26A and 26B in the VAD mode.
  • the collected sound beam signal MB1 or MB2 is compressed and output to the input / output I / F21.
  • the control unit 28 determines which of the collected sound beam signals MB1 and MB2 is compressed and output. In the encoder 29, the presence or absence of audio compression is set by the control unit 28. In other words, the control unit 28 receives the voice / silence determination from the voice detector 27, and if it is determined to be silent, the control unit 28 compresses the input / output I / F 21 without compressing the voice. Set to not output audio.
  • the control unit 28 receives the determination result of silence ⁇ sound from the voice detector 27, and the encoder 29 When instructed to switch to voice compression, the sound at startup will not be interrupted.
  • the sound detector 27 cannot determine whether there is no sound or no sound. If the judgment threshold is lowered, even if the sound is inherently silent, it is judged as sound. On the other hand, if the signal level of the collected beam signals MB1 and MB2 with high microphone sensitivity is too high, the allowable input limit will be exceeded (clipping).
  • the sound collection device changes the number and arrangement of microphones of the microphone array by the digital audio patch 24, so that the high-sensitivity sound collection beam generation unit and the low-sensitivity use are generated.
  • the sound collection beam generator it is possible to prevent clipping when a loud sound is input during silence ⁇ sound while reliably detecting silence ⁇ sound.
  • FIG. 3 is a conceptual diagram showing the number of microphones and microphone arrangement
  • FIG. 4 is a diagram showing a sound collection area where the microphone array collects sound.
  • Fig. 3 (A) shows the processing system in the VAD mode.
  • the collected sound signals S1, S3, S5, and S7 are sent to the collected sound beam generator 25B, and the collected sound signals S2, S4, S6, And S8 are input to the collected sound beam generator 25A.
  • FIG. 3B is a diagram showing a processing system in the normal mode, and is a diagram showing an example in which all the collected sound signals S 1 to S 8 are input to the collected sound beam generator 25.
  • the control unit 28 performs the setting in the normal mode shown in FIG. 3B when the sound detector 27 has input a sound determination result without a clip stably (for a predetermined time or more) from the sound detector 27.
  • the digital audio patch 24 is connected to the microphone 11 to 18 input systems. All are set to be connected to the sound collection beam generator 25.
  • the A / D converter 23 sets all input systems from the microphone 1;! To 18 to high gain, and outputs the collected sound signal S ;! to S8 at a high level. These settings are instructed by the control unit 28.
  • the sound collection beam generation unit 25 synthesizes the high-level sound collection signals S1 to S8 to generate a high-level sound collection beam signal MB.
  • the sound collecting beam signal MB picks up the sound of the region 202 as shown in FIG. 4B, for example.
  • the collected sound beam signal MB is input to the FIFO memory 26.
  • the control unit 28 sets the output timing of the FIFO memory 26, and the FIFO memory 26 outputs the buffered sound collection beam signal MB to the encoder 29.
  • the collected sound beam signal MB is input to the sound detector 27.
  • the sound detector 27 detects the signal level of the input sound pickup beam signal MB and determines whether it is sound or not.
  • the sound / silence determination result is output to the control unit 28.
  • the control unit 28 sets the encoder 29 to compress the sound collection beam signal MB and output it. In this normal mode, the control unit 28 shifts to the VAD mode when the sound detector 27 receives a sound ⁇ silence determination result from the sound detector 27, and the sound collection beam generation unit 25 and the FIFO memory 26 are turned on. Divide into two and instruct the A / D converter 23 and digital audio patch 24 to perform the following settings.
  • the digital audio patch 24 connects the input system from the microphone 11, the microphone 13, the microphone 15, and the microphone 17 to the sound collection beam generating unit 25B, and the microphone 12, the microphone 14, the microphone 16, and the microphone 18 are connected.
  • the input system from is set to be connected to the collected sound beam generator 25A.
  • the A / D converter 23 sets the input system from the microphone 11, the microphone 13, the microphone 15, and the microphone 17 to a low gain, and outputs the collected sound signals S 1, S3, S5, and S7 at a low level. .
  • the A / D converter 23 sets the input system from the microphone 12, the microphone 14, the microphone 16, and the microphone 18 to a high gain, and outputs the collected sound signals S2, S4, S6, and S8 at a high level.
  • the sound collection beam generation unit 25A combines the high-level sound collection signals S2, S4, S6, and S8 to generate a high-level sound collection beam signal MB1.
  • the sound collection beam generating unit 25B combines the low-level sound collection signals S1, S3, S5, and S7 to generate a low-level sound collection beam signal MB2.
  • the collected sound beam signal MB1 and the collected sound beam signal MB2 are as shown in FIG. Sounds in the same area (area 202 in the figure) are collected.
  • the collected sound beam signal MB1 is input to the FIFO memory 26A, and the collected sound beam signal MB2 is input to the FIFO memory 26B.
  • the control unit 28 sets the output timing of the FIFO memory 26A and the FIFO memory 26B, and the FIFO memory 26A and the FIFO memory 26B output the buffered sound collection beam signal MB1 and the sound collection beam signal MB2 to the encoder 29. .
  • the sound collection beam signal MB 1 and the sound collection beam signal MB 2 are input to the sound detector 27.
  • the sound detector 27 detects the signal levels of the input sound collection beam signal MB1 and the sound collection beam signal MB2, respectively, and determines whether there is sound or no sound.
  • the sound detector 27 determines the presence or absence of sound based on the signal level of the high-level sound pickup beam signal MB1 at normal times, and outputs the determination result to the control unit 28.
  • the signal level of this high-level collected beam signal MB1 is clipped (when the allowable input limit is exceeded), the result of clipping is output to the control unit 28.
  • the control unit 28 sets the encoder 29 not to compress the sound and not to output the compressed sound.
  • the control unit 28 compresses and outputs the high-level sound collecting beam signal MB1 to the encoder 29 when the sound detector 27 has received a sound determination result without a clip.
  • the control unit 28 is set so that the low-level sound pickup beam signal MB2 is compressed and output to the encoder 29 when there is a clip from the sound detector 27 and a sound determination result is input. To do.
  • the control unit 28 shifts from the VAD mode to the normal mode when the sound detector 27 has input a sound determination result without a clip stably (for a predetermined time or more) from the voice detector 27.
  • the sound detector 27 can reliably detect silence ⁇ sound from the signal level of the high-level sound pickup beam signal MB1.
  • the control unit 28 sets the encoder 29 to compress and output the low-level sound pickup beam signal MB2 to the encoder 29. Audio without cracks will be output.
  • the control unit 28 receives the determination result of silence ⁇ sound and sends it to the encoder 29. Instruction to switch to voice compression When you do, the rising voice will not be interrupted.
  • the sound detector 27 when the sound detector 27 is stable (for a predetermined time or more) and outputs a determination result of sound with no clip, the normal mode is entered and all the microphones 11 to 18; Since the sound collection beam is generated using, the sound quality is improved and the voice of the speaker is reliably collected.
  • the control unit 28 shifts to the VAD mode. Therefore, when silence compression is performed, the high-level sound collection beam signal and the low-level sound collection Clips can be prevented while sound is reliably judged by the beam signal ⁇ when sound is compressed, and the voice of the speaker is reliably collected by the high-quality sound collection beam signal of all microphones. Can be output.
  • the control unit 28 individually sets the gain of each input / output system of the A / D converter 23 to generate a high-level sound pickup beam signal and a low-level sound pickup beam signal.
  • the same gain may be set for all the systems of the force A / D converter 23 shown in the example to be formed.
  • the sound collection beam generation unit 25A and the sound collection beam generation unit 25B may be set to have different gains (levels of output signals with respect to each sound collection signal). Even if the sound pickup signals at the same level are input, the sound pickup beam generator 25A may output a high-level sound pickup beam signal, and the sound pickup beam generator 25B may output a low-level sound pickup beam signal.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)

Description

明 細 書
収音装置
技術分野
[0001] この発明は、会議などに用いられ、会議参加者の発話音声を収音する収音装置に 関するものである。
背景技術
[0002] 近年、 IP電話等では音声の有無を検出する機能として VAD (Voice Activity Detec tion)が搭載されており、無音時には音声情報を送信しない機能として DTX (Disconti nuous transmission)が搭載されているものが多い(例えば非特許文献 1、非特許文献 2参照)。無音時に音声情報を送信しない構成 (以下、無音圧縮と言う)とすることで、 送信する情報量(平均ビットレート)を下げることができる。しかし、無音圧縮を行うと、 無音から有音に変化する場合に音声部分の頭が途切れる不都合が生じる。
[0003] そこで、収音した音声を一旦メモリへ格納し、無音から有音に変化する時にメモリか ら過去の音声を読み出して送信することで、立上がり時の音声が途切れないようにし た音声圧縮方法が提案されている (例えば特許文献 1参照)。
非特許文献 1 : ITU-T G.711 Appendix II to Recommendation G.711 (02/2000) 非特許文献 2: RFC3389 Real-time Transport Protocol (RTP) Payload for Comfort N oise (CN)
特許文献 1 :特開 2005— 266411号公報
発明の開示
発明が解決しょうとする課題
[0004] しかし、特許文献 1の方法では、マイクの感度が足りずに適正な音声信号を取得で きないときは、立上がりの音を検出できないという問題が有った。一方で、立上がりの 音を検出するためにマイクの感度を上げた場合、無音区間を有音区間として誤った 認識をする可能性が有った。また、マイクの感度を上げた場合、立上がり時に大きな 音が入力された場合に、許容入力限界を超えてしまう(クリップしてしまう)という問題 が有った。 [0005] 本発明は、無音圧縮を行う場合に、立上がりの音を正確に検出し、かつ、立上がり 時に大きな音が入力された場合であってもクリップすることのない収音装置を提供す ることを目白勺とする。
課題を解決するための手段
[0006] この発明の収音装置は:
複数のマイクを配列してなるマイクアレイと、
前記複数のマイクが収音した音声信号を入力し、分配出力する信号分配手段と、 前記信号分配手段が分配出力した音声信号に基づいて、同じ領域に指向性を有 する第一と第二の収音ビームをそれぞれ生成する第一と第二の収音信号処理手段 と、
前記第一の収音信号処理手段が生成する第一の収音ビームの感度を高感度に設 定し、前記第二の収音信号処理手段が生成する第二の収音ビームの感度を低感度 に設定するレベル設定手段と、
前記第一と第二の収音信号処理手段が生成した第一と第二の収音ビームをそれ ぞれ格納する第一と第二のメモリと、
前記第一と第二の収音信号処理手段が生成した第一と第二の収音ビームの信号 レベルを検出し、検出された信号レベルの有音、無音を判定するとともに、第一の収 音ビームが許容入力限界を超えている力、を検出する音声判定部と、
前記第一と第二のメモリに格納されている収音ビームを読み出し、いずれかを選択 して出力するセレクタと、
前記音声判定部が第一の収音ビームが許容入力限界を超えていることを検出しな いとき、無音から有音に判定を変更したタイミングで、前記セレクタに、前記第一のメ モリに格納されている高感度の収音ビームを出力するように設定し、前記音声判定 部が第一の収音ビームが許容入力限界を超えていることを検出したとき、無音から有 音に判定を変更したタイミングで、前記セレクタに、前記第二のメモリに格納されてい る第二の収音ビームを出力するように設定する制御部と、
を備えることを特徴とする。
[0007] この構成では、複数のマイクで収音した音声信号を、信号分配手段が第一と第二 の収音信号処理手段に分配出力する。第一と第二の収音信号処理手段は第一と第 二の収音ビームを生成し、これらの収音ビームは、それぞれ高感度、低感度に設定 される。高感度の収音ビーム、低感度の収音ビームは、それぞれメモリに格納される 。セレクタは、制御部から指定されるタイミングでメモリに格納されている収音ビームの いずれかを過去のものから順次読み出し、出力する。音声判定部は、収音ビームの 有音、無音を検出し、さらに許容入力限界を超える(クリップする)収音ビームを検出 する。制御部は、音声判定部の判定結果を入力する。制御部は、収音ビームがクリツ プしてない場合において、無音→有音の判定結果が入力されたとき、セレクタに、高 感度の収音ビームを選択して読み出すように設定する。また、制御部は、収音ビーム 力 Sクリップしている場合において、無音→有音の判定結果が入力されたとき、セレクタ に、低感度の収音ビームを選択して読み出すように設定する。
[0008] また、この発明の収音装置は、前記制御部は、前記音声判定部が所定時間以上有 音判定を行っている場合、前記信号分配手段に、全てのマイクが収音した音声信号 を単一の収音信号処理手段に出力するよう指示し、前記レベル設定手段に、前記収 音信号処理手段が生成する収音ビームを高感度に設定するよう指示し、前記セレク タに、高感度の収音ビームを出力するように指示する通常出力処理を行うことを特徴 とする。
[0009] この構成では、所定時間以上安定して有音の判定結果が入力されている場合に、 全てのマイクが収音した音声から単一の高感度の収音ビームを生成し、この収音ビ ームを出力する処理である通常出力処理を行う。これにより安定して有音と判定され ている場合には、発話音声を確実に出力する。
[0010] また、この発明の収音装置は、前記制御部は、前記音声判定部が有音から無音に 判定を変更したときに、前記通常出力処理から、前記信号分配手段に、音声信号を 第一と第二の信号処理手段に分配出力するよう指示し、前記レベル設定手段に、第 一と第二の収音信号処理手段が生成する収音ビームの感度をそれぞれ高感度、ま たは低感度に設定するよう指示し、前記セレクタに、前記音声判定部が許容入力限 界を超える収音ビームを検出していないとき、無音から有音に判定を変更したタイミ ングで、高感度の収音ビームを出力するように設定し、前記音声判定部が許容入力 限界を超える収音ビームを検出しているとき、無音から有音に判定を変更したタイミン グで、低感度の収音ビームを出力するように設定する検出モードへ処理を変更する ことを特徴とする。
[0011] この構成では、所定時間以上安定して有音の判定結果が入力されている状態から
、無音の判定結果が入力された場合に、上記通常出力処理から、高感度、低感度の 収音ビームを用いて無音→有音検出を行う検出モードに移行する。
[0012] また、この発明の収音装置は、前記レベル設定手段は、前記複数のマイクが収音し た音声信号のレベルを変更して前記収音信号処理手段に入力させることにより収音 ビームをそれぞれ高感度、または低感度に設定することを特徴とする。
[0013] また、この発明の収音装置は、前記レベル設定手段は、前記収音信号処理手段の 入力、出力レベル比を変更することにより収音ビームをそれぞれ高感度、または低感 度に設定することを特徴とする。
発明の効果
[0014] この発明によれば、低感度の収音ビーム、高感度の収音ビームを設定し、高感度 の収音ビームで無音→有音のタイミングを確実に検出するとともに、高感度の収音ビ ームがクリップしたときに、出力を低感度の収音ビームに切り換えることで、立上がり の音を正確に検出し、かつ、立上がり時に大きな音が入力された場合であってもタリ ップすること力 S無くなる。
図面の簡単な説明
[0015] [図 1]本実施形態に係る収音装置のマイク配置を示す図
[図 2]本実施形態の収音装置の構成を示すブロック図
[図 3]マイク個数、マイク配置を示す概念図
[図 4]マイクアレイが音声を収音する収音領域を示した図
[0016] 101—筐体、 11〜; 18—マイク、 21—入出力 I/F、 22—収音用アンプ、 23— A/D コンバータ、 24—デジタルオーディオパッチ、 25A, 25B—収音ビーム生成部、 26
A, 26B— FIFOメモリ、 27—音声検出器、 28—制御部、 29—エンコーダ
発明を実施するための最良の形態
[0017] この発明の実施形態に係る収音装置は、複数のマイクで収音した音声信号を所定 時間遅延して合成することにより、特定の領域の音声を高感度で収音した収音ビー ム(信号)を生成する。この収音ビームの信号レベルを監視することにより、有音、無 音 (発話音声の有無)を検出する。所定時間以上安定して有音を検出して!/、る時に は全マイクで収音した音声信号を所定時間遅延して合成することにより収音ビームを 生成する(これを通常モードとする)。一方で、発話音声が収音されなくなった場合、( 機能的に) 2つに分割した信号処理部に各マイクで収音した音声信号を分配入力し 、各信号処理部にて同一収音領域に対応する感度の異なる収音ビームを生成する。 この場合、高感度の収音ビームで無音→有音を検出し、高感度の収音ビームの信号 レベルがクリップした時には低感度の収音ビームを後段に出力する(これを VADモ ードとする)。
[0018] 以下、本発明の実施形態の収音装置について図面を参照して説明する。
図 1は、本実施形態に係る収音装置のマイク配置を示す図である。
本実施形態の収音装置は、筐体 101に、複数のマイク 11〜; 18を備えている。
筐体 101は一方向に長尺な略直方体形状からなる。以下の説明では、筐体 101の 四側面のうち、長尺な面を長尺面、短尺な面を短尺面と称する。
[0019] 筐体 101のいずれか一の長尺面には、同スペックのマイク 11〜; 18が設置されてい る。これらマイク 11〜; 18は長尺方向に沿って一定の間隔で直線状に設置されており
、これによりマイクアレイが構成される。
[0020] なお、本実施形態では、マイクアレイのマイク数を 8本とした力 S、これに限ることなく、 仕様に応じてマイク数は適宜設定すればよい。また、マイクアレイの各マイク間隔は 一定でなくてもよぐ例えば、長尺方向に沿って中央部で密に配置され、両端部に向 力、うに従って疎に配置されるような態様でもよい。
[0021] マイク 11〜; 18よりなるマイクアレイは、特定の領域 20;!〜 204に強い指向性を有す る収音ビームを生成する。本実施形態の収音装置は、マイクアレイの各マイクが収音 する音声をそれぞれ所定時間遅延し、遅延後の音声信号を合成することで、特定の 領域 20;!〜 204に対応する収音ビームを複数生成する。詳細は後述する。
[0022] 次に、図 2は、本実施形態に係る収音装置の構成を示すブロック図である。図 2に 示すブロック図は、上記複数の収音ビームのうち 1つの収音ビームの処理系統につ いて示すものである。図 2に示すように、本実施形態の収音装置は、マイク 11〜; 18、 入出力 I/F21、フロントエンドの複数(同図において 8つ)のアンプ 22、 8チャンネル の A/Dコンバータ 23、デジタルオーディオパッチ 24、収音ビーム生成部 25 (25A, 25B)、 FIFOメモリ 26 (26A, 26B)、音声検出器 27、制御部 28、およびエンコーダ 29、を備えている。収音ビーム生成部 25、および FIFOメモリ 26はそれぞれ、通常モ ード時には 1つの構成部として動作する力 VADモード時には機能的に 2つに分割 されて、それぞれ異なる収音ビームを処理するように動作する。通常モード、 VADモ ードの切り換えは、制御部 28により指示される。
[0023] 入出力 I/F21は、収音装置が収音した音声信号を外部に出力する。なお、入出 力 I/F21は、音声信号を、ネットワークに対応するデータ形式 (プロトコル)に変換し て外部に出力することもでき、無論、デジタル音声信号をそのまま外部に出力するこ とも可能である。なお、入出力 I/F21は、必要に応じて D/Aコンバータを内蔵して おり、アナログ音声信号を外部に出力することも可能である。
[0024] マイクアレイの各マイク;!;!〜 18は、無指向性であっても有指向性であってもよいが 、有指向性であることが望ましぐ収音装置の外部からの音声を収音して収音信号 S ;!〜 S8を各アンプ 22に出力する。
[0025] 各アンプ 22は、収音信号 S 1〜S8をそれぞれ AMP22で増幅して A/Dコンバータ
23に与える。 A/Dコンバータ 23は、収音信号 S1〜S8をそれぞれデジタル変換し てデジタルオーディオパッチ 24に出力する。なお、 A/Dコンバータ 23は、各収音信 号毎に個別のゲイン (入力アナログ信号と出力デジタル信号のレベル比)を設定する ことができ、各収音信号毎のゲインは制御部 28により設定される。
[0026] デジタルオーディオパッチ 24は、通常モード時には図 3 (B)に示すように、収音ビ ーム生成部 25に収音信号 S1〜S8を出力する。デジタルオーディオパッチ 24は、 V ADモード時には図 3 (A)に示すように、 A/Dコンバータ 23から入力される収音信 号 S 1〜S8を収音ビーム生成部 25A、 25Bのそれぞれに分配して出力する。デジタ ノレオーディオパッチ 24は、収音ビーム生成部 25A, 25Bに分配出力する収音信号 の数を 0〜8まで変更することができる。出力する収音信号の数、および収音信号の 組み合わせは制御部 28により設定される。すなわち、デジタルオーディオパッチ 24 は、マイクアレイのマイク配置、マイク数を自由に変更することができるものである。
[0027] 収音ビーム生成部 25は、デジタルオーディオパッチ 24から出力された収音信号に 対して所定の遅延処理を行!/ \筐体 101の周囲所定方位(領域 20;!〜 204の!/、ず れ力、)に強い指向性を有する収音ビーム信号 MBを生成する。
[0028] 例えば全てのマイクに前方から同タイミングで音波が到来したとすると、各マイクか ら出力された収音信号は、合成によって強められる。一方で、これ以外の方向から音 波が到来すると、各マイクから出力される収音信号はそれぞれ位相が異なるために 合成されることによって弱められる。したがって、マイクアレイの感度はビーム状に絞り 込まれて前方にのみ収音ビームを生成する。
[0029] 収音ビーム生成部 25は、各収音信号にそれぞれ所定の遅延時間を付与すること で収音ビームを斜めに向けることができる。収音ビームを斜めにする場合、一方の端 部マイクから所定時間が経過する毎に順次隣のマイクから音声信号を出力するよう に設定する。例えば音源がマイクアレイの一方の端部前方に存在する場合、音源に 最も近い一方の端部から音波が到来し、反対の端部に最後に音波が到来するが、収 音ビーム生成部 25は、この伝搬時間差を補正するように各マイクの収音信号に遅延 時間を付与した後合成する。制御部 28は、各収音信号に対応するマイク位置の情 報を所持しているため、各収音信号の遅延時間を個別に制御する。したがって、特 定の方向の音声信号を合成によって強められる。このように、一列に並んでいるマイ クから出力する音声信号を一端力 他端に向けて順次遅延することにより、収音ビー ムは、その遅延時間に応じて傾斜する。
[0030] VADモード時には、収音ビーム生成部 25が機能的に収音ビーム生成部 25A, 25 Bに分割される。収音ビーム生成部 25A, 25Bは、それぞれデジタルオーディオパッ チ 24から出力された収音信号に対して所定の遅延処理を行い、筐体 101の周囲所 定方位(領域 201 ~204( V、ずれか)に強!/、指向性を有する収音ビーム信号 MB 1 , MB2を生成する。収音ビーム信号 MB 1 , MB2は、同じ領域の音声を異なる感度で 収音したものである。なお、通常モード時、 VADモード時ともに同じ領域 (領域 201 〜204のいずれ力、)を収音するため、各収音信号に付与する遅延量は、通常モード 時、 VADモード時にかかわらず同じ値である。 [0031] 収音ビーム生成部 25は、通常モード時には、収音ビーム信号 MBを FIFOメモリ 26 、および音声検出器 27に出力する。また、 VADモード時の収音ビーム生成部 25A, 25Bは、収音ビーム信号 MB1、 MB2をそれぞれ機能的に分割された FIFOメモリ 2 6A, 26Bに出力する。また、収音ビーム生成部 25A, 25Bは、収音ビーム信号 MB1 、および MB2を音声検出器 27に出力する。
[0032] FIFOメモリ 26は、入力された収音ビーム信号 MBを順次格納する。 FIFOメモリ 26 は、格納した収音ビーム信号 MBを過去のものから順次エンコーダ 29に出力する。 出力タイミング (周期)は制御部 28により指定される。これにより収音ビーム信号 MB は、 FIFOメモリ 26に所定時間分バッファされる。 VADモード時の FIFOメモリ 26A, 26Bは、入力された収音ビーム信号 MB1、 MB2をそれぞれ順次格納し、収音ビー ム信号 MB1、 MB2をそれぞれ過去のものから順次エンコーダ 29に出力する。この 場合も出力タイミング (周期)は制御部 28により指定される。これにより収音ビーム信 号 MB1、 MB2は、 FIFOメモリ 26A, 26Bに所定時間分バッファされる。
[0033] 音声検出器 27は、入力された収音ビーム信号 MBの信号レベルを検出する。音声 検出器 27は、検出した信号レベルから有音、無音の判定を行う。すなわち、音声検 出器 27は、収音ビーム信号の信号レベルが所定の閾値未満から閾値以上に変化し た場合 (信号レベルが閾値以上となった時)、無音→有音と判定する。一方で、音声 検出器 27は、収音ビーム信号の信号レベルが所定の閾値以上から閾値未満となつ た場合、閾値未満となる時間が所定時間以上続く場合にのみ有音→無音と判定する 。閾値未満となった時間が所定時間よりも少ない場合は、有音が継続していると判断 する。判定結果は制御部 28に出力される。
[0034] また、音声検出器 27は、 VADモード時に入力された収音ビーム信号 MB1、 MB2 の信号レベルをそれぞれ検出する。音声検出器 27は、高感度の収音ビーム信号 M B1の信号レベルから有音、無音の判定を行う。判定結果は制御部 28に出力される。
[0035] エンコーダ 29は、通常モード時には、 FIFOメモリ 26から入力された収音ビーム信 号 MBを音声圧縮し、入出力 I/F21に出力する。音声圧縮方式はどのような方式に 基づいてもよいが、例えば ITU—T G. 711に基づく。
[0036] また、エンコーダ 29は、 VADモード時には、 FIFOメモリ 26A, 26Bから入力された 収音ビーム信号 MB1 , MB2のいずれかを音声圧縮し、入出力 I/F21に出力する。 収音ビーム信号 MB1 , MB2のどちらを圧縮して出力するかは制御部 28により設定 される。また、エンコーダ 29は、制御部 28により、音声圧縮の有無が設定される。す なわち、制御部 28は、音声検出器 27から有音、無音の判定を受信し、無音と判定さ れた場合に、エンコーダ 29で音声圧縮をせずに、入出力 I/F21に圧縮音声を出力 しないように設定する。
[0037] 収音ビーム信号 MB1 , MB2は、 FIFOメモリ 26A, 26Bに所定時間分バッファされ るため、制御部 28が音声検出器 27から無音→有音の判定結果を受信してェンコ一 ダ 29に有音圧縮に切り換え指示を行ったとき、立上がり時の音声が途切れることはな い。
し力、し、全てのマイク感度が低ぐ収音ビーム信号 MB 1、 MB2の信号レベルが低 すぎる場合は音声検出器 27が無音→有音の判定を行うことができず、有音、無音判 定閾値を下げた場合には本来無音である場合も有音と判定してしまう。一方でマイク 感度が高ぐ収音ビーム信号 MB1、 MB2の信号レベルが高すぎる場合は、許容入 力限界を超えてしまう(クリップする)。
[0038] そこで、本実施形態の収音装置は、 VADモード時には、デジタルオーディオパッ チ 24により、マイクアレイのマイク個数、配置を変更し、高感度用の収音ビーム生成 部、低感度用の収音ビーム生成部を設定することで、無音→有音を確実に検出しつ つ、無音→有音時に大きな音が入力された場合にクリップを防止する。
[0039] この収音装置の具体的な動作について説明する。図 3は、マイク個数、マイク配置 を示す概念図であり、図 4は、マイクアレイが音声を収音する収音領域を示した図で ある。図 3 (A)は、 VADモード時の処理系統を示した図であり、収音信号 S1 , S3, S 5,および S7を収音ビーム生成部 25Bに、収音信号 S2, S4, S6,および S8を収音 ビーム生成部 25Aに入力する。図 3 (B)は、通常モード時の処理系統を示した図で あり、収音信号 S1〜S8を全て収音ビーム生成部 25に入力する例を示した図である 。制御部 28は、音声検出器 27から安定して (所定の時間以上)クリップが無ぐ有音 の判定結果が入力されている場合、この図 3 (B)の通常モード時の設定を行う。
[0040] 通常モード時には、デジタルオーディオパッチ 24は、マイク 11〜; 18の入力系統を 全て収音ビーム生成部 25に接続するように設定する。 A/Dコンバータ 23は、マイク 1;!〜 18からの入力系統を全て高ゲインに設定し、収音信号 S;!〜 S8を高レベルで 出力する。これらの設定は、制御部 28により指示される。
[0041] 収音ビーム生成部 25は、高レベルの収音信号 S1〜S8を合成し、高レベルの収音 ビーム信号 MBを生成する。この例において収音ビーム信号 MBは、例えば図 4 (B) に示すように、領域 202の音声を収音する。収音ビーム信号 MBは、 FIFOメモリ 26 に入力される。制御部 28は、 FIFOメモリ 26の出力タイミングを設定し、 FIFOメモリ 2 6はバッファした収音ビーム信号 MBをエンコーダ 29に出力する。
[0042] また、収音ビーム信号 MBは、音声検出器 27に入力される。音声検出器 27は、入 力された収音ビーム信号 MBの信号レベルを検出し、有音、無音の判定を行う。有音 、無音の判定結果は制御部 28に出力される。
[0043] 制御部 28は、音声検出器 27から有音の判定結果が入力された場合、エンコーダ 2 9に対し、収音ビーム信号 MBを音声圧縮して出力するように設定する。この通常モ ード時において、制御部 28は、音声検出器 27から有音→無音の判定結果が入力さ れた場合、 VADモードに移行し、収音ビーム生成部 25、および FIFOメモリ 26を 2分 割し、 A/Dコンバータ 23、およびデジタルオーディオパッチ 24に以下のような設定 を行うよう指示する。
[0044] デジタルオーディオパッチ 24は、マイク 11、マイク 13、マイク 15、およびマイク 17か らの入力系統を収音ビーム生成部 25Bに接続し、マイク 12、マイク 14、マイク 16、お よびマイク 18からの入力系統を収音ビーム生成部 25Aに接続するように設定する。
[0045] A/Dコンバータ 23は、マイク 11、マイク 13、マイク 15、およびマイク 17からの入力 系統を低ゲインに設定し、収音信号 S 1 , S3, S5, S7を低レベルで出力する。また、 A/Dコンバータ 23は、マイク 12、マイク 14、マイク 16、およびマイク 18からの入力 系統を高ゲインに設定し、収音信号 S2, S4, S6, S8を高レベルで出力する。
[0046] 収音ビーム生成部 25Aは、高レベルの収音信号 S2, S4, S6, S8を合成し、高レ ベルの収音ビーム信号 MB1を生成する。また、収音ビーム生成部 25Bは、低レベル の収音信号 S1 , S3, S5, S7を合成し、低レベルの収音ビーム信号 MB2を生成する 。ここで、収音ビーム信号 MB1と収音ビーム信号 MB2は、図 4 (A)に示すように、そ れぞれ同じ領域(同図においては領域 202)の音声を収音する。
[0047] 収音ビーム信号 MB1は、 FIFOメモリ 26Aに入力され、収音ビーム信号 MB2は、 F IFOメモリ 26Bに入力される。制御部 28は、 FIFOメモリ 26A、および FIFOメモリ 26 Bの出力タイミングを設定し、 FIFOメモリ 26A、および FIFOメモリ 26Bはバッファした 収音ビーム信号 MB1、および収音ビーム信号 MB2をエンコーダ 29に出力する。
[0048] また、収音ビーム信号 MB1、および収音ビーム信号 MB2は、音声検出器 27に入 力される。音声検出器 27は、上述したように、入力された収音ビーム信号 MB1、収 音ビーム信号 MB2の信号レベルをそれぞれ検出し、有音、無音の判定を行う。ここ で、音声検出器 27は、通常時には高レベルの収音ビーム信号 MB1の信号レベルか ら有音、無音の判定を行い、判定結果を制御部 28に出力する。この高レベルの収音 ビーム信号 MB1の信号レベルがクリップした場合 (許容入力限界を超えた場合)、ク リップした旨の結果を制御部 28に出力する。
[0049] 制御部 28は、音声検出器 27から無音の判定結果が入力されている場合には、ェ ンコーダ 29に対し、音声圧縮をせずに、圧縮音声を出力しないように設定する。一方 、制御部 28は、音声検出器 27からクリップが無ぐ有音の判定結果が入力された場 合、エンコーダ 29に対し、高レベルの収音ビーム信号 MB1を音声圧縮して出力する ように設定する。また、制御部 28は、音声検出器 27からクリップが有り、有音の判定 結果が入力された場合、エンコーダ 29に対し、低レベルの収音ビーム信号 MB2を 音声圧縮して出力するように設定する。さらに、制御部 28は、音声検出器 27から安 定して (所定の時間以上)クリップが無ぐ有音の判定結果が入力されている場合、 V ADモードから通常モードに移行する。
[0050] 以上のようにして、音声検出器 27は、高レベルの収音ビーム信号 MB1の信号レべ ルより、無音→有音を確実に検出することができる。また、無音→有音時に大きな音 が入力された場合には、制御部 28がエンコーダ 29に低レベルの収音ビーム信号 M B2を音声圧縮して出力するように設定するので、外部には音割れ等のない音声が 出力されることとなる。無論、 FIFOメモリ 26A,および FIFOメモリ 26Bにより収音ビ ーム信号 MB1、および収音ビーム信号 MB2がバッファされているため、制御部 28 が無音→有音の判定結果を受信してエンコーダ 29に有音圧縮への切り換え指示を 行ったとき、立上がり時の音声が途切れることはない。
[0051] また、音声検出器 27が安定して (所定の時間以上)クリップが無ぐ有音の判定結 果を出力している場合、通常モードに移行して、全てのマイク 11〜; 18を用いて収音 ビームを生成するため、音質が向上し、発話者の音声を確実に収音する。音声検出 器 27が有音→無音の判定結果を出力した場合、制御部 28は、 VADモードに移行 するため、無音圧縮を行う場合には、高レベルの収音ビーム信号と低レベルの収音 ビーム信号により無音→有音を確実に判定しながらクリップを防止することができ、有 音圧縮を行う場合には全マイクの高音質の収音ビーム信号により発話者の音声を確 実に収音、出力することができる。
[0052] なお、上記例では、制御部 28が A/Dコンバータ 23の各入出力系統のゲインを個 別に設定することで、高レベルの収音ビーム信号と低レベルの収音ビーム信号を生 成する例について示した力 A/Dコンバータ 23の全系統について同じゲインを設 定するようにしてもよい。この場合、収音ビーム生成部 25Aと収音ビーム生成部 25B とでゲイン (各収音信号に対する出力信号のレベル)が異なるように設定すればよい 。同じレベルの収音信号が入力されても、収音ビーム生成部 25Aは高レベルの収音 ビーム信号を出力し、収音ビーム生成部 25Bは低レベルの収音ビーム信号を出力 すればよい。

Claims

請求の範囲
[1] 複数のマイクを配列してなるマイクアレイと、
前記複数のマイクが収音した音声信号を入力し、分配出力する信号分配手段と、 前記信号分配手段が分配出力した音声信号に基づいて、同じ領域に指向性を有 する第一と第二の収音ビームをそれぞれ生成する第一と第二の収音信号処理手段 と、
前記第一の収音信号処理手段が生成する第一の収音ビームの感度を高感度に設 定し、前記第二の収音信号処理手段が生成する第二の収音ビームの感度を低感度 に設定するレベル設定手段と、
前記第一と第二の収音信号処理手段が生成した第一と第二の収音ビームをそれ ぞれ格納する第一と第二のメモリと、
前記第一と第二の収音信号処理手段が生成した第一と第二の収音ビームの信号 レベルを検出し、検出された信号レベルの有音、無音を判定するとともに、第一の収 音ビームが許容入力限界を超えている力、を検出する音声判定部と、
前記第一と第二のメモリに格納されている収音ビームを読み出し、いずれかを選択 して出力するセレクタと、
前記音声判定部が第一の収音ビームが許容入力限界を超えていることを検出しな いとき、無音から有音に判定を変更したタイミングで、前記セレクタに、前記第一のメ モリに格納されている高感度の収音ビームを出力するように設定し、前記音声判定 部が第一の収音ビームが許容入力限界を超えていることを検出したとき、無音から有 音に判定を変更したタイミングで、前記セレクタに、前記第二のメモリに格納されてい る第二の収音ビームを出力するように設定する制御部と、
を備えた収音装置。
[2] 前記制御部は、前記音声判定部が所定時間以上有音判定を行って!/、る場合、 前記信号分配手段に、全てのマイクが収音した音声信号を単一の収音信号処理 手段に出力するよう指示し、
前記レベル設定手段に、前記収音信号処理手段が生成する収音ビームを高感度 に設定するよう指示し、 前記セレクタに、高感度の収音ビームを出力するように指示する通常出力処理を行 う請求項 1に記載の収音装置。
[3] 前記制御部は、前記音声判定部が有音から無音に判定を変更したときに、前記通 常出力処理から、
前記信号分配手段に、音声信号を前記第一と第二の信号処理手段に分配出力す るよう旨示し、
前記レベル設定手段に、前記第一の収音信号処理手段が生成する第一の収音ビ ームの感度を高感度に、前記第二の収音信号処理手段が生成する第二の収音ビー ムの感度を低感度に設定するよう指示し、
前記セレクタに、前記音声判定部が第一の収音ビームが許容入力限界を超えてい ることを検出していないとき、無音から有音に判定を変更したタイミングで、第一の収 音ビームを出力するように設定し、
前記音声判定部が第一の収音ビームが許容入力限界を超えていることを検出して いるとき、無音から有音に判定を変更したタイミングで、第二の収音ビームを出力する ように設定する検出モードへ処理を変更する請求項 2に記載の収音装置。
[4] 前記レベル設定手段は、前記複数のマイクが収音した音声信号のレベルを変更し て前記収音信号処理手段に入力させることにより第一と第二の収音ビームをそれぞ れ高感度、または低感度に設定する請求項 1、請求項 2、または請求項 3に記載の収
[5] 前記レベル設定手段は、前記第一と第二の収音信号処理手段の入力、出カレべ ル比を変更することにより第一と第二の収音ビームをそれぞれ高感度、または低感度 に設定する請求項 1、請求項 2、または請求項 3に記載の収音装置。
PCT/JP2007/065173 2006-08-07 2007-08-02 dispositif de collecte sonore WO2008018362A1 (fr)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP07805894A EP2059065A1 (en) 2006-08-07 2007-08-02 Sound collection device
US12/376,682 US8103018B2 (en) 2006-08-07 2007-08-02 Sound pickup apparatus
CN2007800294126A CN101502129B (zh) 2006-08-07 2007-08-02 声音收集设备

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2006214691A JP4893146B2 (ja) 2006-08-07 2006-08-07 収音装置
JP2006-214691 2006-08-07

Publications (1)

Publication Number Publication Date
WO2008018362A1 true WO2008018362A1 (fr) 2008-02-14

Family

ID=39032894

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2007/065173 WO2008018362A1 (fr) 2006-08-07 2007-08-02 dispositif de collecte sonore

Country Status (5)

Country Link
US (1) US8103018B2 (ja)
EP (1) EP2059065A1 (ja)
JP (1) JP4893146B2 (ja)
CN (1) CN101502129B (ja)
WO (1) WO2008018362A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111954134A (zh) * 2020-08-19 2020-11-17 苏州礼乐乐器股份有限公司 一种带音梁及音隧的全频段高音质薄形扬声器

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010245657A (ja) * 2009-04-02 2010-10-28 Sony Corp 信号処理装置及び方法、並びにプログラム
US9813262B2 (en) 2012-12-03 2017-11-07 Google Technology Holdings LLC Method and apparatus for selectively transmitting data using spatial diversity
CN103873998B (zh) * 2012-12-17 2018-07-03 联想(北京)有限公司 电子设备和声音采集方法
US9591508B2 (en) 2012-12-20 2017-03-07 Google Technology Holdings LLC Methods and apparatus for transmitting data between different peer-to-peer communication groups
US9979531B2 (en) 2013-01-03 2018-05-22 Google Technology Holdings LLC Method and apparatus for tuning a communication device for multi band operation
US10229697B2 (en) * 2013-03-12 2019-03-12 Google Technology Holdings LLC Apparatus and method for beamforming to obtain voice and noise signals
CN104066036A (zh) * 2014-06-19 2014-09-24 华为技术有限公司 拾音装置及拾音方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08505745A (ja) * 1993-01-12 1996-06-18 ベル コミュニケーションズ リサーチ インコーポレーテッド 自己ステアリングマイクロフォンアレイを使用したテレビ会議のための音声ローカリゼーション
JPH10116099A (ja) * 1996-10-11 1998-05-06 Olympus Optical Co Ltd 音声起動録音装置
JP2000137498A (ja) * 1998-10-30 2000-05-16 Olympus Optical Co Ltd 音声録音装置
JP2005266411A (ja) 2004-03-19 2005-09-29 Matsushita Electric Ind Co Ltd 音声圧縮方法および電話器

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001043494A1 (fr) * 1999-12-13 2001-06-14 Kabushiki Kaisha Kenwood Transducteur electroacoustique optique
US20030161485A1 (en) * 2002-02-27 2003-08-28 Shure Incorporated Multiple beam automatic mixing microphone array processing via speech detection
KR100493172B1 (ko) * 2003-03-06 2005-06-02 삼성전자주식회사 마이크로폰 어레이 구조, 이를 이용한 일정한 지향성을갖는 빔 형성방법 및 장치와 음원방향 추정방법 및 장치
US7190775B2 (en) * 2003-10-29 2007-03-13 Broadcom Corporation High quality audio conferencing with adaptive beamforming
US7991167B2 (en) * 2005-04-29 2011-08-02 Lifesize Communications, Inc. Forming beams with nulls directed at noise sources
JP4747949B2 (ja) * 2006-05-25 2011-08-17 ヤマハ株式会社 音声会議装置
JP2008154056A (ja) * 2006-12-19 2008-07-03 Yamaha Corp 音声会議装置および音声会議システム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08505745A (ja) * 1993-01-12 1996-06-18 ベル コミュニケーションズ リサーチ インコーポレーテッド 自己ステアリングマイクロフォンアレイを使用したテレビ会議のための音声ローカリゼーション
JPH10116099A (ja) * 1996-10-11 1998-05-06 Olympus Optical Co Ltd 音声起動録音装置
JP2000137498A (ja) * 1998-10-30 2000-05-16 Olympus Optical Co Ltd 音声録音装置
JP2005266411A (ja) 2004-03-19 2005-09-29 Matsushita Electric Ind Co Ltd 音声圧縮方法および電話器

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111954134A (zh) * 2020-08-19 2020-11-17 苏州礼乐乐器股份有限公司 一种带音梁及音隧的全频段高音质薄形扬声器

Also Published As

Publication number Publication date
US20100046763A1 (en) 2010-02-25
CN101502129B (zh) 2012-11-14
EP2059065A1 (en) 2009-05-13
US8103018B2 (en) 2012-01-24
JP4893146B2 (ja) 2012-03-07
CN101502129A (zh) 2009-08-05
JP2008042549A (ja) 2008-02-21

Similar Documents

Publication Publication Date Title
JP4893146B2 (ja) 収音装置
JP5003531B2 (ja) 音声会議システム
US10250974B2 (en) Signal processing system and signal processing method
CN101455093B (zh) 语音会议装置
KR101715779B1 (ko) 음원 신호 처리 장치 및 그 방법
AU2011201312B2 (en) Estimating own-voice activity in a hearing-instrument system from direct-to-reverberant ratio
EP2192794A1 (en) Improvements in hearing aid algorithms
WO2005032206A3 (en) Adjustable speaker systems and methods
US7340073B2 (en) Hearing aid and operating method with switching among different directional characteristics
US8054999B2 (en) Audio system with varying time delay and method for processing audio signals
US8731212B2 (en) Sound collecting device, acoustic communication system, and computer-readable storage medium
EP1357543A3 (en) Beamformer delay compensation during handsfree speech recognition
JP2007318550A (ja) 放収音装置
JP2008304498A (ja) 音声検出装置、音声会議システムおよび遠隔会議システム
US20070160237A1 (en) Amplifier apparatus and acoustic system
EP1104222A3 (en) Hearing aid
JP2008061186A (ja) 指向特性制御装置、収音装置および収音システム
US20230247361A1 (en) Sound collection system, sound collection method, and non-transitory storage medium
JP2008294600A (ja) 放収音装置、および放収音システム
WO2022102322A1 (ja) 収音システム、収音方法及びプログラム
JP2006114990A (ja) 音響装置
EP1657960B1 (en) Method for detection of ultrasound in a listening device with two or more microphones, and listening device with two or more microphones
KR20180113415A (ko) 소리를 적응적으로 증폭하여 소리를 분석하는 장치 및 사용방법
JP4946381B2 (ja) 放収音装置および放収音システム
CN113573225A (zh) 一种多麦克风话机的音频测试方法和装置

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200780029412.6

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 07805894

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2007805894

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 12376682

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

NENP Non-entry into the national phase

Ref country code: RU