WO2007122729A1 - Communication system, communication apparatus and sound source direction determining apparatus - Google Patents

Communication system, communication apparatus and sound source direction determining apparatus Download PDF

Info

Publication number
WO2007122729A1
WO2007122729A1 PCT/JP2006/308487 JP2006308487W WO2007122729A1 WO 2007122729 A1 WO2007122729 A1 WO 2007122729A1 JP 2006308487 W JP2006308487 W JP 2006308487W WO 2007122729 A1 WO2007122729 A1 WO 2007122729A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound source
sound
camera
microphone array
communication device
Prior art date
Application number
PCT/JP2006/308487
Other languages
French (fr)
Japanese (ja)
Inventor
Akira Date
Original Assignee
Hitachi, Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi, Ltd. filed Critical Hitachi, Ltd.
Priority to PCT/JP2006/308487 priority Critical patent/WO2007122729A1/en
Priority to JP2008511927A priority patent/JPWO2007122729A1/en
Publication of WO2007122729A1 publication Critical patent/WO2007122729A1/en

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems

Definitions

  • the present invention relates to a communication system including a first communication device and a second communication device, and more particularly to a technique for collecting voices of participants.
  • a television video apparatus is disclosed in Japanese Patent Application Laid-Open No. 2 00 0-3 1 2 3 3 6.
  • the television video apparatus includes an input means for inputting a recording, a reproducing means for reproducing the input recording, a photographing means for expanding a person's face, and a face obtained by digitally analyzing the face image of the person in the playback means.
  • Image recording means for storing image data, image changing means for instructing image change, image processing means for changing the face image of the person in the reproducing means to a facial image obtained by the photographing means, and editing processing
  • a display means for displaying the recording with the face changed, and an audio means for outputting the sound.
  • Japanese Patent Application Laid-Open No. 2 0.05-0 9 2 3 4 6 which is a method for authenticating motion in moving images.
  • feature data is extracted from 3D data of a moving image using a three-dimensional higher-order local autocorrelation feature extraction method.
  • the extracted feature data is converted by statistical methods such as multivariate 4 ⁇ prayer, and new feature data is generated. Generate.
  • the operation is authenticated by comparing the generated feature data with the registered data. Disclosure of the invention
  • the radio wave condition of the wireless microphone is invisible and unstable. Therefore, even if participants use a wireless microphone, the video conference system is not always stable.
  • the conventional video conference system plays back the received image and sound-voice in a fixed manner. Therefore, in the conventional video conference system, participants feel uncomfortable due to the discrepancy between image and sound.
  • the present invention has been made in view of the above-described problems, and an object thereof is to provide a realistic communication system.
  • a representative embodiment of the present invention is a communication system including: a first communication device including a processor, a memory, and an interface; and a second communication device including a processor, a memory, and an interface, and connected to the first communication device.
  • the first communication device includes a directional microphone that acquires sound from a specific direction, specifies the position of the source, and acquires the sound from the position of the sound source specified by the first communication device.
  • the directivity of the directional microphone is controlled, and the voice acquired by the directional microphone and the position of the identified sound source are told to the tilt communication second communication device, and the second communication device is said
  • the sound image is localized based on the position of the sound source, and the said sound is output.
  • FIG. 1 is a configuration diagram of a communication system according to a first embodiment of this invention.
  • FIG. 2 is a block diagram of a transmission / reception unit provided in the communication system according to the first embodiment of this invention.
  • FIG. 3 is a flowchart of the sound source direction estimation process according to the first embodiment of the present invention.
  • FIG. 4 is an explanatory diagram of the direction of the sound source according to the first embodiment of the present invention.
  • FIG. 5 is a flowchart of the processing of the noise reduction unit according to the first embodiment of the present invention.
  • FIG. 6 is an explanatory diagram of packet transmission processing of the communication processing unit according to the first embodiment of this invention.
  • FIG. 7 is a flowchart of processing of the localization processing unit according to the first embodiment of the present invention.
  • FIG. 1 is a configuration diagram of a communication system according to a first embodiment of this invention.
  • Figure 1 illustrates the communication system installed in Auditorium 1 and Conference Room 2. Auditorium 1 and Conference Room 2 are located at a distance from each other.
  • Auditorium 1 includes podium 4 and auditorium. At podium 4, speakers 5 A and 5 B will speak while moving. At the audience seat, viewer 9 A watches the lecture. Viewer 9 A can also view the conference room 2. On the other hand, in the conference room, viewer 9B watches the lecture. In the auditorium 1, a microphone array 6A, directional microphones 7A and 7B, a camera 8A, a display 10A, speakers 12A and 12B, and a transmission / reception unit 11A are installed. On the other hand, in the conference room 2, a microphone array 6B, a display 10B, speakers 12C, 12D, and a transmission / reception unit 11B are installed.
  • the microphone arrays 6 A and 6 B include a plurality of microphones.
  • the microphones included in the microphone array 6 A are arranged at the microphone interval d in the horizontal direction (X-axis direction) in FIG.
  • the microphones included in the microphone array 6 B are also arranged in the vertical direction (y-axis direction) of FIG.
  • Directional microphones 7 A and 7 B acquire sound emitted from a specific direction.
  • the transmission / reception unit 11 A controls the directions of the directional microphones 7 A and 7 B with reference to the sound acquired by the microphone array 6 A and the image captured by the camera 8 A.
  • the transceiver 1 1 A directs the directional microphone 7 A in one direction of the speaker 5 A or the speaker 5 B.
  • the transceiver 1 1 A points the directional microphone 7 B toward the speaker 5 A or the speaker 5 B.
  • the directional microphones 7 A and 7 B can acquire the voices of the speakers 5 A and 5 B.
  • Cameras 8 A and 8 B do ⁇ . Specifically, camera 8 A takes the position of podium 4 in auditorium 1.
  • the transmission / reception unit 11 A controls the direction of the camera 8 A with reference to the sound acquired by the microphone array 6 A and the image taken by the camera 8 A.
  • the transmission / reception unit 1 1 A points the camera 8 A toward the speaker 5 A or the speaker 5 B. Accordingly, the camera 8 A can photograph at least one of the speaker 5 A and the speaker 5 B.
  • the camera 8 B operates in the conference room 2.
  • the transmission / reception unit 11 B controls the direction of the camera 8 B by referring to the audio acquired by the microphone array 6 B and the video image obtained by the power camera 8 B.
  • the transmission / reception unit 1 1 B directs the camera 8 B toward the viewer 9 B.
  • the camera 8 B can capture the viewer 9 B.
  • Display 1 OA displays the video taken by camera 8 B installed in conference room 2.
  • the display 10B displays the image captured by the camera 8A installed in the auditorium 1.
  • the viewer 9 B in the conference room 2 can see in the auditorium 1.
  • the spins 12 A and 12 B output the sound acquired by the microphone array 6 B- installed in the conference room.
  • the viewer 9 A in the auditorium can listen to the audio in the conference room 2.
  • the transmission / reception unit 11A performs sound image localization processing by controlling the output timing of the sound from the speakers 12A and 12B.
  • the speakers 12 C and 12 D output sound acquired by at least one of the microphone array 6 B and the directional microphones 7 A and 7 B installed by the auditorium 1.
  • the viewer 9 B in the conference room 2 can listen to the audio of the auditorium 1.
  • the transmission / reception unit 11B performs sound image localization processing by controlling the output timing of the sound from the speakers 12C and 12D.
  • the speaker 12 C and the speaker 12D are preferably arranged equidistant from the center line of the screen 10B in order to bring about the effect of sound image localization.
  • the transmission / reception unit 11 A and the transmission / reception unit 11 B are connected by a communication line 3.
  • the communication line 3 can be anything as long as it can transmit digital signals in real time.
  • the communication line 3 is a local area network (LAN), a dedicated line, a public line, or a wireless communication line.
  • the transmission / reception units 11A and 11B transmit and receive audio acquired by the microphone arrays 6A and 6B and the directional microphones 7A and 7B.
  • the transmission / reception units 11.A and 11B transmit / receive information transmitted by the cameras 8A and 8B.
  • the transceivers 11 11 and 11 B are connected to the direction of the directional microphones 7 A and 7 B Control direction.
  • the transmission / reception units 1 1 A and 1 1 B perform sound image localization processing. Details of the transmission / reception units 1 1 A and 1 1 B will be described with reference to FIG.
  • the communication system according to the first embodiment may be installed in any location.
  • the communication system may be installed in two auditoriums or in two conference rooms.
  • FIG. 2 is a block diagram of the transmission / reception unit 11 1 included in the communication system according to the first embodiment of this invention.
  • the transmitter / receiver 1 1 includes a noise reduction unit 20, a sound source direction estimation unit 2 1, an audio processing unit 2 2, a speaker position specifying unit 2 3, a video processing unit 2 4, a communication processing unit 2 5, and a person extraction unit 2 6
  • the screen includes a position specifying unit 27, a position control unit 28, and a localization processing unit 29 '.
  • the transceiver unit 11 includes a processor, a memory, and an interface.
  • the processor included in the transmitter / receiver unit 1 1 executes a program stored in the memory, thereby reducing the noise reduction unit 20, the sound source direction estimation unit 2 1, the speech processing unit 2 2, and the speaker position specifying unit 2 3.
  • the video processing unit 24, the communication processing unit 25, the person extraction unit 26, the in-screen position specifying unit 27, the position control unit 28, and the localization processing unit 29 are realized.
  • the memory provided in the transmission / reception unit 11 1 stores information executed by the processor and information necessary for the processor.
  • the interface provided in the transmission / reception unit 11 1 is connected to the microphone array 6, the directional microphone 7, the camera 8, and the speaker 12. Furthermore, the interface provided in the transmission / reception unit 11 is connected to another transmission / reception unit 11 via the communication line 3.
  • the noise reduction unit 20 extracts the speaker sound / voice signal from the sound signal acquired by the directional microphone 7.
  • the speakers are speakers 5 A, 5 B, and viewer 9 B.
  • the noise reduction unit 20 may calculate a ⁇ noise reduction signal instead of the speaker voice signal.
  • the noise reduction signal is a signal in which noise included in the audio signal acquired by the directional microphone 7 is reduced. Details of the processing of the noise reduction unit 20 will be described with reference to FIG.
  • the sound source direction estimation unit 21 estimates the direction of the sound source based on the phase difference and the intensity of the audio signal acquired by the microphone array 6. When there are a plurality of sound source forces, the sound source direction estimating unit 21 estimates the directions of the plurality of sound sources. The processing of the sound source direction estimating unit 21 will be described in detail with reference to FIG.
  • the voice processing unit 22 converts the speaker voice extracted by the noise reduction unit 20 into a signal corresponding to the characteristics of the communication line 3. For example, the speech processing unit 22 performs processing such as encoding on the speaker speech extracted by the noise reduction unit 20.
  • the processing unit 24 converts »taken by the camera 8 into a signal corresponding to the characteristics of the communication line 3. For example, the processing unit 24 performs processing such as encoding on the image captured by the camera 8.
  • the person extraction unit 26 extracts a region of the person who is captured by the camera 8 and is reflected on the subject.
  • the persons are speakers 5 A and 5 B and viewer 9 B.
  • the person extracting unit 26 extracts a person area from the camera 8 by a general method.
  • the method for extracting human regions is as follows: “Extracting human regions from image sequences (Toru Tamaki, Satoshi Yamamura, Noboru Onishi: The Institute of Electrical Engineers of Japan, bibliography, Volume C, Vol. 119—C, No. 1, p p. 37—43) ”.
  • the in-screen position specifying unit 27 specifies the position of the area of the person extracted by the person extracting unit 26 in the image taken by the camera 8. Further, the in-screen position specifying unit 27 estimates the direction of the person with the camera 8 as a base point based on the position of the person's area in and the current direction of the camera 8.
  • the speaker position specifying unit 23 determines the direction of the sound source based on the microphone array 6 estimated by the sound source direction estimating unit 21 and the person based on the camera 8 estimated by the on-screen position specifying unit 27. Identify speaker location based on direction.
  • the speaker position specifying unit 23 specifies the position (x, y) of the speaker using Equation (1) and Equation (2).
  • x tand / (tan (i)-tan 0) (1)
  • the horizontal direction in FIG. 1 is the X axis
  • the vertical direction in FIG. 1 is the y axis.
  • the position of a specific viewer 9 A is a point.
  • the position of a specific viewer 9B is the origin.
  • 0 is the direction of the sound source with the microphone array 6 as a base point. Specifically, 0 is the angle between the microphone array 6 and the sound source and the X axis. ⁇ is the direction of the sound source with the camera 8 as a base point. Specifically, ⁇ is the angle between the male connecting the camera 8 and the person (sound source) and the X axis.
  • the position control unit 28 controls the direction of the directional microphone 7 and the camera 8 based on the position of the speaker specified by the speaker position specifying unit 23. Specifically, the position control unit 28 controls the direction of the directional microphone 7 so that the voice from the position of the speaker specified by the speaker position specifying unit 23 is acquired. As a result, the directional microphone 7 can clearly acquire the voice uttered by the speaker. In addition, the position control unit 28 controls the direction of the camera 8 so that the position of the speaker specified by the speaker position specifying unit 23 is determined. As a result, the camera 8 can accurately identify the speaker.
  • the position control unit 28 controls the direction of the directional microphone 7 so that the sound from the direction of the sound source estimated by the sound source direction estimation unit 21 is acquired instead of the position of the speaker.
  • the position control unit 28 may control the direction of the directional microphone 7 so that the sound from the direction of the person specified by the in-screen position specifying unit 27 can be acquired.
  • the position control unit 28 may control the direction of the camera 8 so that the direction of the sound source estimated by the sound source direction estimation unit 21 is captured. In addition, the position control unit 28 may control the direction of the camera 8 so that the direction of the person specified by the in-screen position specifying unit 27 is photographed.
  • the communication processor 2 5 is connected to the communication processor 2 5 and the communication line 3 provided in the other transmitter / receiver 1 1. Communicate through. Specifically, the communication processing unit 25 selects the voice signal converted by the voice processing unit 22, the signal converted by the processing unit 24, and the speaker position specified by the speaker position specifying unit 23. Send and receive. For example, the communication processing unit 25 detects the voice signal converted by the voice processing unit 22, the signal converted by the processing unit 24, and the speaker position specified by the speaker position specifying unit 23. Send it in one packet. The packet transmission process of the communication processing unit 25 will be described in detail with reference to FIG.
  • the communication processing unit 25 obtains the audio signal, the signal, and the position of the speaker from the received bucket.
  • the trap processing unit 24 decodes the! ⁇ Signal received by the communication processing unit 25. Then, the processing unit 24 outputs the decrypted URL from the display 10.
  • the audio processing unit 22 decodes the audio signal received by the communication processing unit 25. Then, the audio processing unit 22 delivers the decoded audio signal to the localization processing unit 29.
  • the localization processing unit 29 performs sound image localization processing on the audio signal received from the audio processing unit 22 based on the speaker position received by the communication processing unit 25. That is, the localization processing unit 29 localizes the sound image of the audio received from the audio processing unit 22 and outputs it from the speaker 12.
  • FIG. 3 is a flowchart of the processing of the sound source direction estimation unit 21 according to the first embodiment of the present invention.
  • the sound source direction estimating unit 21 converts the audio signal acquired by the microphone array 6 into a digital signal (S41).
  • the sound source direction estimating unit 21 obtains a time difference ⁇ t between audio signals acquired by a plurality of microphones included in the microphone array 6. Specifically, the sound source direction estimating unit 21 calculates a time difference ⁇ t that satisfies the following formula (3) (S42).
  • N and k are the order in which the microphones included in the microphone array 6 are counted from the right or left. It is a turn.
  • M— n (t) is an audio signal acquired by the n-th microphone included in the microphone array 6 at time t.
  • M k (t + ⁇ t) is an audio signal acquired by the k-th microphone included in the microphone array 6 at time t + A t.
  • is the ratio of the amplitude of the signal corresponding to M ⁇ n (t) to the amplitude of the signal corresponding to M ⁇ k (t + ⁇ 1;).
  • the sound source direction estimation unit 21 calculates the direction 0 of the sound source with the microphone array 6 as a base point so as to satisfy Equation (4) (S43). Details of the direction ⁇ of the sound source from the microphone array 6 will be described in detail with reference to FIG.
  • V a a X t X cos ⁇ v_a ⁇ X (t + ⁇ t) X cos ⁇ ⁇ ⁇ ⁇ (4) d is the microphone interval of the microphone array 6.
  • V—a is the speed of sound in the air. Then, the sound source direction estimation unit 21 ends this process.
  • the sound source direction estimating unit 21 calculates the direction ⁇ of the sound source.
  • FIG. 4 is an explanatory diagram of the direction ⁇ of the sound source according to the first embodiment of the present invention.
  • is the angle between the microphone array 6A and the sound source when the microphones included in the microphone array 6A are lined up.
  • the direction ⁇ of the sound source based on the microphone array 6 A is an angle between the microphone array 6 A and the sound source and the X axis.
  • the sound source direction estimating unit 21 can calculate the direction ⁇ of the sound source using Equation (4).
  • FIG. 5 is a flowchart of the processing of the noise reduction unit 20 according to the first embodiment of this invention.
  • the noise reduction unit 20 receives the audio signal M_g (t) acquired by the directional microphone 7 (S51). '
  • the noise reduction unit 20 passes the audio band filter through the audio signal M ⁇ g (t) acquired by the directional microphone 7 (S52).
  • the voice band filter is a filter that passes only the voice band signal.
  • the noise reduction unit .20 obtains the speaker voice signal A s (t).
  • the noise reduction unit 20 obtains a noise signal N (t) using Equation (5).
  • N (t) M one g (t) one A one s (t)
  • the noise reduction unit 20 obtains the noise reduction signal A_r. (T) using Equation (6) (S 53) 0 '
  • A— r (t) M_g (t) — kXN (t) ⁇ ⁇ ⁇ (6)
  • the noise reduction signal A 1 r (t) is a signal in which noise included in the audio signal M ⁇ g (t) acquired by the directional microphone 7 is reduced.
  • the noise reduction signal A_r (t) is a signal in which the speaker voice signal A—s (t) and the reduced noise signal N (t) are combined.
  • the noise reduction part 20 complete finishes this process.
  • the noise reduction unit 20 may obtain at least one of the noise reduction signal A—r (t) and the speaker voice signal A—s (t). If the noise reduction unit 20 obtains only the speaker voice signal A — s (t), step S 53 is omitted.
  • FIG. 6 is an explanatory diagram of packet processing of the communication processing unit 25 according to the first embodiment of this invention.
  • the communication processing unit 25 stores the audio signal converted by the audio processing unit 22 in the audio queue 111. Further, the communication processing unit 25 stores the video signal converted by the video processing unit 24 in the queue 112. Further, the communication processing unit 25 stores the position information of the speaker specified by the speaker position specifying unit 23 in the data queue 113. Note that a part of the memory provided in the transmission / reception unit 11 is used for the voice queue 111, the bag queue 112, and the data queue 113.
  • the communication processing unit 25 sequentially extracts audio signals from the audio cue 111 force. Further, the communication processing unit 25 sequentially extracts signals from the queue 112. Further, the communication processing unit 25 sequentially extracts speaker position information from the data queue 113 (114).
  • the communication processing unit 25 uses the extracted voice signal, habit signal, and speaker position information. Create a packet by including it in the packet (115). Then, the communication processing unit 25 transmits the created bucket to the communication processing unit 25 provided in the other transmission / reception unit 11 (116).
  • the communication processing unit 25 ends the packet transmission process.
  • FIG. 7 is a flowchart of the processing of the localization processing unit 29 according to the first embodiment of the present invention.
  • the position processing unit 29 calculates the speaker direction ⁇ based on the position (x, y) of the speaker received by the communication processing unit 25. Specifically, the localization processing unit 29 calculates the direction of the speaker using Equation (7) (S61). Note that the direction of the speaker ⁇ is the direction of the speaker 5 A or 5 B on the screen 10 B, with the specific viewer 9 B as the base point.
  • the localization processing unit 29 calculates the delay time ⁇ ⁇ using Equation (8) (S 62) ⁇
  • d ⁇ s p is the distance between the speakers 12.
  • d—s p is the distance between the speaker 12A and the speaker 12B.
  • d ⁇ sp is the distance between the speaker 12C and the speaker 12D.
  • the localization processing unit 29 determines whether or not the speaker direction ⁇ is less than or equal to ⁇ / 2. When the speaker direction is ⁇ -2 or less, the localization processing unit 29 delays the sound output from the speaker 12 installed on the left side of the auditorium 1 by a delay time ⁇ . On the other hand, the direction of the speaker is The localization processing unit 29, which is larger than ⁇ / 2, delays the sound output from the 'spinning force 1 2' installed on the right side of the auditorium 1 by a delay time ⁇ .
  • the localization processing unit 29 determines whether or not the speaker direction ⁇ is 2 or less. When the speaker direction is ⁇ ⁇ 2 or less, the localization processing unit 29 delays the sound output from the speaker 12 C installed on the left side of the conference room 2 by the delay time. On the other hand, the localization processing unit 29 having the speaker direction ⁇ larger than ⁇ / 2 delays the sound output from the speaker 12 D installed on the right side of the conference room 2 by the delay time A u.
  • the transmission / reception unit 11 identifies the position of the speaker (sound source). Then, the transmission / reception unit 11 controls the direction of the directional microphone 7 and the force lens 8 and performs sound image localization based on the position of the identified speaker.
  • the present invention can be applied to a video conference system.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

A communication system comprises a first communication apparatus having a processor, a memory and an interface and a second communication apparatus connected to the first communication apparatus and also having a processor, a memory and an interface. The first communication apparatus, which has a directional microphone for acquiring sounds from a particular direction, determines the position of a sound source and controls the directivity of the directional microphone so as to acquire the sounds from the determined position of the sound source. The first communication apparatus then notifies the second communication apparatus of both the sounds acquired by the directional microphone and the determined position of the sound source. The second communication apparatus then localizes a sound image based on the position of the sound source as notified of and outputs the sounds as notified of.

Description

明 細 書  Specification
通信システム、 通信装置及び音源方向特定装置 Communication system, communication device, and sound source direction specifying device
技術分野 Technical field
本発明は、 第 1通信装置及び第 2通信装置を備える通信システムに関し、 特に 参加者の音声を収集する技術に関する。  The present invention relates to a communication system including a first communication device and a second communication device, and more particularly to a technique for collecting voices of participants.
背景技術 Background art
近年、 インターネットのブロードバンド化が進み、 広帯域データ通信を利用し たアプリケーションが普及しつつある。 例えば、 コミュニケーション分野では、 画像及び音声を利用したテレビ会議システムが普及しつつある。 テレビ会議シス テムで円滑な会議を行うためには、 参加者の発言のニュアンスを伝えることが重 要となる。 そのため、 テレビ会議システムでは、 臨場感を伝えることが重要とな る。  In recent years, broadbandization of the Internet has progressed, and applications using broadband data communication are becoming widespread. For example, in the communication field, video conferencing systems using images and sound are becoming popular. It is important to convey the nuances of the participants' speeches in order to have a smooth conference using the video conference system. Therefore, it is important to convey a sense of realism in the video conference system.
また、 テレビビデオ装置が、 特開 2 0 0 0— 3 1 2 3 3 6号公報に開示されて レ、る。 このテレビビデオ装置は、 録画を入力する入力手段と、 入力された録画を 再生する 再生手段と、 人物の顔を膨する撮影手段と、 前記赚再生手段の 人物の顔画像をデジタノ 析して顔画像データを保存する赚録画手段と、 画像 変更を指示する画像変更手段と、 前記 再生手段の人物の顔画像を、 前記撮影 手段で した顔面像に変更して編集処理をする画 集処理手段と、 顔の変更 された録画を表示する,表示手段と、 その音声を出力する 音声手段と、 を 備える。  A television video apparatus is disclosed in Japanese Patent Application Laid-Open No. 2 00 0-3 1 2 3 3 6. The television video apparatus includes an input means for inputting a recording, a reproducing means for reproducing the input recording, a photographing means for expanding a person's face, and a face obtained by digitally analyzing the face image of the person in the playback means. Image recording means for storing image data, image changing means for instructing image change, image processing means for changing the face image of the person in the reproducing means to a facial image obtained by the photographing means, and editing processing A display means for displaying the recording with the face changed, and an audio means for outputting the sound.
また、 動画像における動作の認証方法力 特開 2 0.0 5— 0 9 2 3 4 6号公報 に開示されている。 当該認証方法では、 立体高次局所自己相関特徴抽出方式によ つて、 動画像の 3次元データから特徴データを抽出する。 次に、 多変 4 ^祈など の統計的手法によって、.抽出された特徴データを変換して、 新たな特徴デ タを 生成する。 そして、 生成された特徴データと登録データとを比較することによつ て、 動作を認証する。 発明の開示 Further, it is disclosed in Japanese Patent Application Laid-Open No. 2 0.05-0 9 2 3 4 6, which is a method for authenticating motion in moving images. In this authentication method, feature data is extracted from 3D data of a moving image using a three-dimensional higher-order local autocorrelation feature extraction method. Next, the extracted feature data is converted by statistical methods such as multivariate 4 ^ prayer, and new feature data is generated. Generate. Then, the operation is authenticated by comparing the generated feature data with the registered data. Disclosure of the invention
従来のテレビ会議システムでは、 会議の参加者は、 固定マイクを利用する。 し 力 し、 参加者が移動する^ 8\ 従来のテレビ会議システムでは、 参加者の音声を 拾レ、切れなレヽという問題があった。  In conventional video conferencing systems, conference participants use fixed microphones. However, the participants move ^ 8 \ In the conventional video conference system, there was a problem that the participants' voices were picked up and cut off.
そこで、 参加者がワイヤレスマイクを利用することも考えられる。 し力 し、 ヮ ィャレスマイクの電波状態は、 目に見えず不安定である。 そのため、 参加者がヮ ィャレスマイクを利用したとしても、 テレビ会議システムは、 必ずしも安定した Therefore, it may be possible for participants to use wireless microphones. However, the radio wave condition of the wireless microphone is invisible and unstable. Therefore, even if participants use a wireless microphone, the video conference system is not always stable.
、音声で通信できるとは限らない。 It is not always possible to communicate by voice.
また、 従来のテレビ会議システムは、 受信した画像及び音-声を固定的に再生す る。 そのため、 従来のテレビ会議システムでは、 参加者は、 画像と音声との不一 致によって、 違和感を覚える。  In addition, the conventional video conference system plays back the received image and sound-voice in a fixed manner. Therefore, in the conventional video conference system, participants feel uncomfortable due to the discrepancy between image and sound.
本発明は、 前述した問題点に鑑みてなされたものであって、 臨場感のある通信 システムを することを目的とする。  The present invention has been made in view of the above-described problems, and an object thereof is to provide a realistic communication system.
本発明の代表的な形態は、 プロセッサ、 メモリ及びインタフェースを備える第 1通信装置と、 プロセッサ、 メモリ及びインタフェースを備え、 前記第 1通信装 置に接続される第 2通信装置と、 を備える通信システムであって、 第 1通信装置 は、 特定の方向からの音声を取得する指向性マイクを備え、 源の位置を特定し 、 己特定された音源の位置からの音声が取得されるように、 前記指向性マイク の指向性を制御し、 前記指向性マイクによって取得された音声及び前記特定され た音源の位置を、 tilt己第 2通信装置に 言し、 前記第 2通信装置は、 前記 言さ れた音源の位置に基づいて音像を定位させて、 前記 言された音声を出力するこ とを特徴とする。  A representative embodiment of the present invention is a communication system including: a first communication device including a processor, a memory, and an interface; and a second communication device including a processor, a memory, and an interface, and connected to the first communication device. The first communication device includes a directional microphone that acquires sound from a specific direction, specifies the position of the source, and acquires the sound from the position of the sound source specified by the first communication device. The directivity of the directional microphone is controlled, and the voice acquired by the directional microphone and the position of the identified sound source are told to the tilt communication second communication device, and the second communication device is said The sound image is localized based on the position of the sound source, and the said sound is output.
本発明の代表的な形態によれば、 臨場感のあるコミュニケーション環境を提供 できる。 図面の簡単な説明 According to the representative embodiment of the present invention, a realistic communication environment is provided. it can. Brief Description of Drawings
第 1図は、 本発明の第 1の実施の形態の通信システムの構成図である。  FIG. 1 is a configuration diagram of a communication system according to a first embodiment of this invention.
第 2図は、 本発明の第 1の実施の形態の通信システムに備わる送受信部のプロ ック図である。  FIG. 2 is a block diagram of a transmission / reception unit provided in the communication system according to the first embodiment of this invention.
第 3図は、 本発明の第 1の実施の形態の音源方向推定 の処理のフローチヤ一 トである。  FIG. 3 is a flowchart of the sound source direction estimation process according to the first embodiment of the present invention.
第 4図は、 本発明の第 1の実施の形態の音源の方向の説明図である。  FIG. 4 is an explanatory diagram of the direction of the sound source according to the first embodiment of the present invention.
第 5図は、 本発明の第 1の実施の形態の雑音低減部の処理のフローチヤ一トで ある。  FIG. 5 is a flowchart of the processing of the noise reduction unit according to the first embodiment of the present invention.
第 6図は、 本発明の第 1の実施の形態の通信処理部のパケット送信処理の説明 図である。  FIG. 6 is an explanatory diagram of packet transmission processing of the communication processing unit according to the first embodiment of this invention.
第 7図は、 本発明の第 1の実施の形態の定位処理部の処理のフローチャートで ある。 発明を実施するための最良の形態  FIG. 7 is a flowchart of processing of the localization processing unit according to the first embodiment of the present invention. BEST MODE FOR CARRYING OUT THE INVENTION
以下、 本発明の実施の形態を図面を参照して説明する。  Hereinafter, embodiments of the present invention will be described with reference to the drawings.
(第 1の実施の形態) .  (First embodiment)
第 1図は、 本発明の第 1の実施の形態の通信システムの構成図である。  FIG. 1 is a configuration diagram of a communication system according to a first embodiment of this invention.
第 1図では、 講堂 1及び会議室 2 設置される通信システムを説明する。 講堂 1及 会議室 2は、 互いに離れた場所に存在する。  Figure 1 illustrates the communication system installed in Auditorium 1 and Conference Room 2. Auditorium 1 and Conference Room 2 are located at a distance from each other.
講堂 1は、 演壇 4及び客席を含む。 演壇 4では、 講演者 5 A及び 5 Bが移動し ながら講演する。 客席では、 視聴者 9 Aが講演'を視聴する。 また、 視聴者 9 Aは 、 会議室 2の様子も視聴できる。 一方、 会議室では、 視聴者 9 Bが講演を視聴す る。 講堂 1には、 マイクアレイ 6 A、 指向性マイク 7 A、 7 B、 カメラ 8 A、 ディ スプレイ 1 0 A、 スピーカ 1 2 A、 1 2 B及び送受信部 1 1 Aが設置される。 一 方、 会議室 2には、 マイクアレイ 6 B、 ディスプレイ 1 0 B、 スピーカ 1 2 C、 1 2 D及び送受信部 1 1 Bが設置される。 Auditorium 1 includes podium 4 and auditorium. At podium 4, speakers 5 A and 5 B will speak while moving. At the audience seat, viewer 9 A watches the lecture. Viewer 9 A can also view the conference room 2. On the other hand, in the conference room, viewer 9B watches the lecture. In the auditorium 1, a microphone array 6A, directional microphones 7A and 7B, a camera 8A, a display 10A, speakers 12A and 12B, and a transmission / reception unit 11A are installed. On the other hand, in the conference room 2, a microphone array 6B, a display 10B, speakers 12C, 12D, and a transmission / reception unit 11B are installed.
マイクアレイ 6 A及び 6 Bは、 複数のマイクを含む。 マイクアレイ 6 Aに含ま れるマイクは、 第 1図の横方向 (X軸方向) にマイク間隔 dで並ん いる。 同様 に、 マイクアレイ 6 Bに含まれるマイクも、 第 1図の縦方向 (y軸方向) マイ 'ク間隔 dで並んでいる。  The microphone arrays 6 A and 6 B include a plurality of microphones. The microphones included in the microphone array 6 A are arranged at the microphone interval d in the horizontal direction (X-axis direction) in FIG. Similarly, the microphones included in the microphone array 6 B are also arranged in the vertical direction (y-axis direction) of FIG.
指向性マイク 7 A及ぴ 7 Bは、 特定の方向から発せられた音声を取得する。 送 受信部 1 1 Aは、 マイクアレイ 6 Aによって取得された音声及びカメラ 8 Aによ つて撮影された «を参照して、 指向性マイク 7 A及び 7 Bの方向を制御する。 例えば、 送受信部 1 1 Aは、 指向性マイク 7 Aを、 講演者 5 A又は講演者 5 Bの 一方の方向に向ける。 同様に、 送受信部 1 1 Aは、 指向性マイク 7 Bを、 講演者 5 A又は講演者 5 Bの方向に向ける。 これによつて、 指向性マイク 7 A及び 7 B は、 講演者 5 A及び 5 Bの音声を取得できる。  Directional microphones 7 A and 7 B acquire sound emitted from a specific direction. The transmission / reception unit 11 A controls the directions of the directional microphones 7 A and 7 B with reference to the sound acquired by the microphone array 6 A and the image captured by the camera 8 A. For example, the transceiver 1 1 A directs the directional microphone 7 A in one direction of the speaker 5 A or the speaker 5 B. Similarly, the transceiver 1 1 A points the directional microphone 7 B toward the speaker 5 A or the speaker 5 B. As a result, the directional microphones 7 A and 7 B can acquire the voices of the speakers 5 A and 5 B.
カメラ 8 A及び 8 Bは、 ^を^^する。 具体的には、 カメラ 8 Aは、 講堂 1 の演壇 4の を職する。.送受信部 1 1 Aは、 マイクアレイ 6 Aによって取得 された音声及びカメラ 8 Aによって撮影された,を参照して、 カメラ 8 Aの方 向を制御する。 例えば、 送受信部 1 1 Aは、 カメラ 8 Aを、 講演者 5 A又は講演 者 5 Bの方向に向ける。 これによつて、 カメラ 8 Aは、 講演者 5 A及び講演者 5 Bの少なくとも一方を撮影できる。  Cameras 8 A and 8 B do ^^^^. Specifically, camera 8 A takes the position of podium 4 in auditorium 1. The transmission / reception unit 11 A controls the direction of the camera 8 A with reference to the sound acquired by the microphone array 6 A and the image taken by the camera 8 A. For example, the transmission / reception unit 1 1 A points the camera 8 A toward the speaker 5 A or the speaker 5 B. Accordingly, the camera 8 A can photograph at least one of the speaker 5 A and the speaker 5 B.
一方、.カメラ 8 Bは、 会議室 2の,を する。 送受信部 1 1 Bは、 マイク アレイ 6 Bによつて取得された音声及び力メラ 8 Bによつて された映像を参 照して、 カメラ 8 Bの方向を制御する。 例えば、 送受信部 1 1 Bは、 カメラ 8 B を、 視聴者 9 Bの方向に向ける。 これによつて、 カメラ 8 Bは、 視聴者 9 Bを撮 影できる。 ディスプレイ 1 OAは、 会議室 2に設置されたカメラ 8 Bによって された 映像を表示する。 これによつて、 講堂 1に居る視聴者 9 Aは、 会議室 2の映像を 見ることができる。 一方、 ディスプレイ 10Bは、 講堂 1に設置されたカメラ 8 Aによって撮影された を表示する。 これによつて、 会議室 2に居る視聴者 9 Bは、 講堂 1の,を見ることができる。 On the other hand, the camera 8 B operates in the conference room 2. The transmission / reception unit 11 B controls the direction of the camera 8 B by referring to the audio acquired by the microphone array 6 B and the video image obtained by the power camera 8 B. For example, the transmission / reception unit 1 1 B directs the camera 8 B toward the viewer 9 B. As a result, the camera 8 B can capture the viewer 9 B. Display 1 OA displays the video taken by camera 8 B installed in conference room 2. As a result, the viewer 9 A in the auditorium 1 can see the video of the conference room 2. On the other hand, the display 10B displays the image captured by the camera 8A installed in the auditorium 1. As a result, the viewer 9 B in the conference room 2 can see in the auditorium 1.
スピ 力 12 A及び 12 Bは、 会議室に設置されたマイクアレイ 6 B-によって - 取得された音声を出力する。 これによつて、 講堂に居る視聴者 9 Aは、 会議室 2 の音声を聴くことができる。 このとき、 送受信部 11Aは、 スピーカ 12 A及び 12 Bからの音声の出力タイミングを制御することによって、 音像定位処理を行 う。 なお、 音像定位の効果を たらすために、 スピーカ 12 A及びスピーカ 12 Bは、 スクリーン 1 OAの中心線から等謹に配置されるの力 S望ましい。  The spins 12 A and 12 B output the sound acquired by the microphone array 6 B- installed in the conference room. As a result, the viewer 9 A in the auditorium can listen to the audio in the conference room 2. At this time, the transmission / reception unit 11A performs sound image localization processing by controlling the output timing of the sound from the speakers 12A and 12B. In order to bring about the effect of sound image localization, it is desirable that the speaker 12 A and the speaker 12 B have a force S that is placed equidistant from the center line of the screen 1 OA.
一方、 スピーカ 12 C及ぴ 12Dは、 講堂 1によって設置されたマイクアレイ 6 B及ぴ指向性マイク 7A、 7 Bのうち少なくとも一つによって取得された音声 を出力する。 これによつて、 会議室 2に居る視聴者 9 Bは、 講堂 1の音声を聴く ことができる。 このとき、 送受信部 11 Bは、 スピーカ 12C及び 12Dからの 音声の出力タイミングを制御することによって、 音像定位処理を行う。 なお、 音 像定位の効果をもたらすために、 スピーカ 12 C及びスピーカ 12Dは、 スクリ ーン 10Bの中心線から等距離に配置されるのが望ましい。  On the other hand, the speakers 12 C and 12 D output sound acquired by at least one of the microphone array 6 B and the directional microphones 7 A and 7 B installed by the auditorium 1. As a result, the viewer 9 B in the conference room 2 can listen to the audio of the auditorium 1. At this time, the transmission / reception unit 11B performs sound image localization processing by controlling the output timing of the sound from the speakers 12C and 12D. It should be noted that the speaker 12 C and the speaker 12D are preferably arranged equidistant from the center line of the screen 10B in order to bring about the effect of sound image localization.
送受信部 11 Aと送受信部 11 Bとは、 通信回線 3によって接続される。 通信 回線 3は、 デジタル信号をリアルタイムに伝送できるものであれば、 なんでもよ ' レ、。 例えば、 通信回線 3は、 LAN (L o a c 1 Ar e a Ne two r k) 、 専用回線、 公衆回線又は無線通信回線などである。  The transmission / reception unit 11 A and the transmission / reception unit 11 B are connected by a communication line 3. The communication line 3 can be anything as long as it can transmit digital signals in real time. For example, the communication line 3 is a local area network (LAN), a dedicated line, a public line, or a wireless communication line.
送受信部 11 A及び 11 Bは、 マイクアレイ 6 A、 6 B及び指向性マイク 7 A 、 7 Bによって取得された音声を送受信する。 また、 送受信部 11.A及び 11B は、 カメラ 8 A及び 8 Bによって された,を送受信する。 また、 送受信部 11 Α及び 11 Bは、 指向性マイク 7 A、 7 Bの方向及び力メラ 8 A、 8 B,の方 向を制御する。 更に、 送受信部 1 1 A及ぴ 1 1 Bは、 音像定位処理を行う。 なお 、 送受信部 1 1 A及び 1 1 Bについては、 第 2図で詳細を説明する。 The transmission / reception units 11A and 11B transmit and receive audio acquired by the microphone arrays 6A and 6B and the directional microphones 7A and 7B. In addition, the transmission / reception units 11.A and 11B transmit / receive information transmitted by the cameras 8A and 8B. In addition, the transceivers 11 11 and 11 B are connected to the direction of the directional microphones 7 A and 7 B Control direction. Furthermore, the transmission / reception units 1 1 A and 1 1 B perform sound image localization processing. Details of the transmission / reception units 1 1 A and 1 1 B will be described with reference to FIG.
なお、 第 1の実施の形態の通信システムは、 いかなる場所に設置されてもよい 。 例えば、 通信システムは、 二つの講堂に設置されてもよいし、 二つの会議室に 設置されてもよい。  Note that the communication system according to the first embodiment may be installed in any location. For example, the communication system may be installed in two auditoriums or in two conference rooms.
第 2図は、 本発明の第 1の実施の形態の通信システムに備わる送受信部 1 1の ブロック図である。  FIG. 2 is a block diagram of the transmission / reception unit 11 1 included in the communication system according to the first embodiment of this invention.
送受信部 1 1は、 雑音低減部 2 0、 音源方向推定部 2 1、 音声処理部 2 2、 話 者位置特定部 2 3、 映像処理部 2 4、 通信処理部 2 5、 人物抽出部 2 6、 画面内 位置特定部 2 7、 位置制御部 2 8及び定位処理部 2 9 'を備える。  The transmitter / receiver 1 1 includes a noise reduction unit 20, a sound source direction estimation unit 2 1, an audio processing unit 2 2, a speaker position specifying unit 2 3, a video processing unit 2 4, a communication processing unit 2 5, and a person extraction unit 2 6 The screen includes a position specifying unit 27, a position control unit 28, and a localization processing unit 29 '.
なお、 送受信部 1 1は、 プロセッサ、 メモリ及びインタフェースを備える。 送 受信部 1 1に備わるプロセッサは、 メモリに記憶されるプログラムを実行するこ' とによって、 雑音低減部 2 0、 音源方向推定部 2 1、 音声処理部 2 2、 話者位置 特定部 2 3、 映像処理部 2 4、 通信処理部 2 5、 人物抽出部 2 6、 画面内位置特 定部 2 7、 位置制御部 2 8及び定位処理部 2 9を実現する。  The transceiver unit 11 includes a processor, a memory, and an interface. The processor included in the transmitter / receiver unit 1 1 executes a program stored in the memory, thereby reducing the noise reduction unit 20, the sound source direction estimation unit 2 1, the speech processing unit 2 2, and the speaker position specifying unit 2 3. The video processing unit 24, the communication processing unit 25, the person extraction unit 26, the in-screen position specifying unit 27, the position control unit 28, and the localization processing unit 29 are realized.
送受信部 1 1に備わるメモリは、 プロセッサによって実行される情報及びプロ セッサに必要とされる情報等を記憶する。 送受信部 1 1に備わるインタフエ ス は、 マイクアレイ 6、 指向性マイク 7、 カメラ 8及びスピーカ 1 2と接続する。 更に、 送受信部 1 1に備わるインタフェースは、 通信回線 3を介して、 他の送受 信部 1 1と接続する。  The memory provided in the transmission / reception unit 11 1 stores information executed by the processor and information necessary for the processor. The interface provided in the transmission / reception unit 11 1 is connected to the microphone array 6, the directional microphone 7, the camera 8, and the speaker 12. Furthermore, the interface provided in the transmission / reception unit 11 is connected to another transmission / reception unit 11 via the communication line 3.
雑音低減部 2 0は、 指向性マイク 7によって取得された音声信号から、 話者音 . 声信号を抽出する。 本実施の形態では、 話者は、 講演者 5 A、 , 5 B及び視聴者 9 Bである。 なお、 雑音低減部 2 0は、 話者音声信号の代わりに、 -雑音低減信号を 算出してもよい。 雑音低減信号は、 指向性マイク 7によって取得された音声信号 に含まれる雑音が低減された信号である。 なお、 雑音低減部 2 0の処理について は、 第 5図で詳細を説明する。 音源方向推定部 21は、 マイクアレイ 6によって取得された音声信号の位相差 及び弹度に基づいて、 音源の方向を推定する。 複数の音源力存在する場合、 音源 方向推定部 21は、 当該複数の音源のそれぞれの方向を推定する。 なお、 音源方 向推定部 21の処理については、 第 3図で詳細を説明する。 The noise reduction unit 20 extracts the speaker sound / voice signal from the sound signal acquired by the directional microphone 7. In the present embodiment, the speakers are speakers 5 A, 5 B, and viewer 9 B. The noise reduction unit 20 may calculate a −noise reduction signal instead of the speaker voice signal. The noise reduction signal is a signal in which noise included in the audio signal acquired by the directional microphone 7 is reduced. Details of the processing of the noise reduction unit 20 will be described with reference to FIG. The sound source direction estimation unit 21 estimates the direction of the sound source based on the phase difference and the intensity of the audio signal acquired by the microphone array 6. When there are a plurality of sound source forces, the sound source direction estimating unit 21 estimates the directions of the plurality of sound sources. The processing of the sound source direction estimating unit 21 will be described in detail with reference to FIG.
音声処理部 22は、 雑音低減部 20によつて抽出された話者音声を、 通信回線 3の特性に対応する信号に変換する。 例えば、 音声処理部 22は、 雑音低減部 2 0によって抽出された話者音声に対して、 符号化等の処理を行う。  The voice processing unit 22 converts the speaker voice extracted by the noise reduction unit 20 into a signal corresponding to the characteristics of the communication line 3. For example, the speech processing unit 22 performs processing such as encoding on the speaker speech extracted by the noise reduction unit 20.
,処理部 24は、 カメラ 8によって撮影された »を、 通信回線 3の特性に 対応する信号に変換する。 例えば、 処理部 24は、 メラ 8によって撮影さ れた に対して、 符号化等の処理を行う。  The processing unit 24 converts »taken by the camera 8 into a signal corresponding to the characteristics of the communication line 3. For example, the processing unit 24 performs processing such as encoding on the image captured by the camera 8.
人物抽出部 26は、 カメラ 8によって撮影された,から、 当該 に映って レ、る人物の領域を抽出する。 本実施の形態では、 人物は、 講演者 5 A、 5B及ぴ 視聴者 9 Bである。 なお、 人物抽出部 26は、 一般的な方法で、 カメラ 8によつ て された から、 人物の領域を抽出する。 例えば、 人物の領域の抽出方法 は、 「画像系列からの人物領域の抽出 (玉木徹、 山村毅、 大西昇:電気学会論、 文誌、 C分冊、 vo l. 119— C、 No. 1、 p p. 37— 43) 」 に開示さ れている。  The person extraction unit 26 extracts a region of the person who is captured by the camera 8 and is reflected on the subject. In the present embodiment, the persons are speakers 5 A and 5 B and viewer 9 B. It should be noted that the person extracting unit 26 extracts a person area from the camera 8 by a general method. For example, the method for extracting human regions is as follows: “Extracting human regions from image sequences (Toru Tamaki, Satoshi Yamamura, Noboru Onishi: The Institute of Electrical Engineers of Japan, Bibliography, Volume C, Vol. 119—C, No. 1, p p. 37—43) ”.
画面内位置特定部 27は、 カメラ 8によって撮影された,内における、 人物 抽出部 26によって抽出された人物の領域の位置を特定する。 更に、 画面内位置 特定部 27は、 内における人物の領域の位置及ぴカメラ 8の現在の向きに基 づいて、 カメラ 8を基点とする人物の方向を推定する。  The in-screen position specifying unit 27 specifies the position of the area of the person extracted by the person extracting unit 26 in the image taken by the camera 8. Further, the in-screen position specifying unit 27 estimates the direction of the person with the camera 8 as a base point based on the position of the person's area in and the current direction of the camera 8.
話者位置特定部 23は、 音源方向推定部 21によつて推定されたマイクアレイ 6を基点とする音源の方向、 及び画面内位置特定部 27によって推定されたカメ ラ 8を基点とする人物の方向に基づいて、 話者の位置を特定する。  The speaker position specifying unit 23 determines the direction of the sound source based on the microphone array 6 estimated by the sound source direction estimating unit 21 and the person based on the camera 8 estimated by the on-screen position specifying unit 27. Identify speaker location based on direction.
具体的には、 話者位置特定部 23は、 数式 (1) 及び数式 (2) を用いて、 話 者の位置 (x, y) を特定する。 x = t a n d / ( t a n (i) - t a n 0 ) · · · ( 1 ) Specifically, the speaker position specifying unit 23 specifies the position (x, y) of the speaker using Equation (1) and Equation (2). x = tand / (tan (i)-tan 0) (1)
y = ( t a n θ X t a n ) / ( t a n φ— t a n 0 ). · · · ( 2 )  y = (t a n θ X t a n) / (t a n φ— t a n 0).
なお、 本実施の形態では、 第 1図の横方向を X軸とし、 第 1図の縦方向を y軸 とする。 また、 講堂 1においては、 特定の視聴者 9 Aの位置を^点とする。 同様- に、 会議室 2においては、 特定の視聴者 9 Bの位置を原点とする。  In this embodiment, the horizontal direction in FIG. 1 is the X axis, and the vertical direction in FIG. 1 is the y axis. In the auditorium 1, the position of a specific viewer 9 A is a point. Similarly, in conference room 2, the position of a specific viewer 9B is the origin.
また、 0は、 マイクアレイ 6を基点とする音源の方向である。 具体的には、 0 は、 マイクアレイ 6と音源とを結ぶ と、 X軸と、 の角度である。 また、 Φは 、 カメラ 8を基点とする音源の方向である。 具体的には、 < ま、 カメラ 8と人物 (音源) とを結ぶ雄と、 X軸と、 の角度である。  Also, 0 is the direction of the sound source with the microphone array 6 as a base point. Specifically, 0 is the angle between the microphone array 6 and the sound source and the X axis. Φ is the direction of the sound source with the camera 8 as a base point. Specifically, <is the angle between the male connecting the camera 8 and the person (sound source) and the X axis.
位置制御部 2 8は、 話者位置特定部 2 3によって特定させた話者の位置に基づ いて、 指向性マイク 7及びカメラ 8の方向を制御する。 具体的には、 位置制御部 2 8は、 話者位置特定部 2 3によって特定させた話者の位置からの音声が取得さ れるように、 指向性マイク 7の方向を制御する。 これによつて、 指向性マイク 7 は、 話者が発した音声を明確に取得できる。 また、 位置制御部 2 8は、 話者位置 特定部 2 3によって特定させた話者の位置が されるように、 カメラ 8の方向 を制御する。 これによつて、 カメラ 8は、 話者を的確に できる。  The position control unit 28 controls the direction of the directional microphone 7 and the camera 8 based on the position of the speaker specified by the speaker position specifying unit 23. Specifically, the position control unit 28 controls the direction of the directional microphone 7 so that the voice from the position of the speaker specified by the speaker position specifying unit 23 is acquired. As a result, the directional microphone 7 can clearly acquire the voice uttered by the speaker. In addition, the position control unit 28 controls the direction of the camera 8 so that the position of the speaker specified by the speaker position specifying unit 23 is determined. As a result, the camera 8 can accurately identify the speaker.
なお、 位置制御部 2 8は、 話者の位置でなく、 音源方向推定部 2 1によって推 定された音源の方向からの音声が取得されるように、 指向性マイク 7の方向を制 御してもよレヽ。 他にも、 位置制御部 2 8は、 画面内位置特定部 2 7によづて特定 された人物の方向からの音声が取得されるように、 指向性マイク 7の方向を制御 してもよレ、。  Note that the position control unit 28 controls the direction of the directional microphone 7 so that the sound from the direction of the sound source estimated by the sound source direction estimation unit 21 is acquired instead of the position of the speaker. Anyway. In addition, the position control unit 28 may control the direction of the directional microphone 7 so that the sound from the direction of the person specified by the in-screen position specifying unit 27 can be acquired. Les.
同様に、 位置制御部 2 8は、 音源方向推定部 2 1によって推定された音源の方 向が撮影されるように、 カメラ 8の方向を制御してもよい。 他にも、 位置制御部 2 8は、 画面内位置特定部 2 7によって特定された人物の方向が撮影されるよう に、 カメラ 8の方向を制御してもよい。  Similarly, the position control unit 28 may control the direction of the camera 8 so that the direction of the sound source estimated by the sound source direction estimation unit 21 is captured. In addition, the position control unit 28 may control the direction of the camera 8 so that the direction of the person specified by the in-screen position specifying unit 27 is photographed.
通信処理部 2 5は、 他の送受信部 1 1に備わる通信処理部 2 5と通信回線 3を 介して通信する。 具体的には、 通信処理部 25は、 音声処理部 22によって変換 された音声信号、 »処理部 24によって変換された 信号、 及び話者位置特 '定部 23によって特定された話者の位置を送受信する。 例えば、 通信処理部 25 は、 音声処理部 22によつて変換された音声信号、 ,処理部 24によって変換 された,信号、 及びを話者位置特定部 23によって特定された話者の位置を、 一つのパケットに含めて送信する。 なお、 通信処理部 25のパケット送信処理に ついては、 第 6図で詳 を説明する。 The communication processor 2 5 is connected to the communication processor 2 5 and the communication line 3 provided in the other transmitter / receiver 1 1. Communicate through. Specifically, the communication processing unit 25 selects the voice signal converted by the voice processing unit 22, the signal converted by the processing unit 24, and the speaker position specified by the speaker position specifying unit 23. Send and receive. For example, the communication processing unit 25 detects the voice signal converted by the voice processing unit 22, the signal converted by the processing unit 24, and the speaker position specified by the speaker position specifying unit 23. Send it in one packet. The packet transmission process of the communication processing unit 25 will be described in detail with reference to FIG.
また、 通信処理部 25は、 受信したバケツトカ ら、 音声信号、 ,信号及び話 者の位置をそれぞ l¾出する。  In addition, the communication processing unit 25 obtains the audio signal, the signal, and the position of the speaker from the received bucket.
赚処理部 24は、 通信処理部 25が受信した!^信号を復号化する。 そして 、 ,処理部 24は、 復号化された をディスプレイ 10から出力する。 また 、 音声処理部 22は、 通信処理部 25が受信した音声信号を復号化する。 そして 、 音声処理部 22は、 復号化された音声信号を定位処理部 29に引き渡す。 定位処理部 29は、 通信処理部 25が受信した話者の位置に基づいて、 音声処 理部 22から受け取った音声信号に対して音像定位処理を行う。 つまり、 定位処 理部 29は、 音声処理部 22から受け取った音声の音像を定位して、 スピーカ 1 2から出力する。  The trap processing unit 24 decodes the! ^ Signal received by the communication processing unit 25. Then, the processing unit 24 outputs the decrypted URL from the display 10. In addition, the audio processing unit 22 decodes the audio signal received by the communication processing unit 25. Then, the audio processing unit 22 delivers the decoded audio signal to the localization processing unit 29. The localization processing unit 29 performs sound image localization processing on the audio signal received from the audio processing unit 22 based on the speaker position received by the communication processing unit 25. That is, the localization processing unit 29 localizes the sound image of the audio received from the audio processing unit 22 and outputs it from the speaker 12.
第 3図は、 本発明の第 1の実施の形態の音源方向推定部 21の処理のフローチ ヤートである。  FIG. 3 is a flowchart of the processing of the sound source direction estimation unit 21 according to the first embodiment of the present invention.
音源方向推定部 21は、 マイクアレイ 6によつて取得された音声信号を、 デジ タル信每に変換する (S41) 。  The sound source direction estimating unit 21 converts the audio signal acquired by the microphone array 6 into a digital signal (S41).
次に、 音源方向推定部 21は、.マイクアレイ 6に含まれる複数のマイクによつ て取得された音声信号の時間差 Δ tを求める。 具体的には、 音源方向推定部 21 は、 以下の数式 (3) を満たす時間差 Δ tを算出する (S42) 。  Next, the sound source direction estimating unit 21 obtains a time difference Δt between audio signals acquired by a plurality of microphones included in the microphone array 6. Specifically, the sound source direction estimating unit 21 calculates a time difference Δt that satisfies the following formula (3) (S42).
M_n (t) =aM_k (t+A t) · · · (3)  M_n (t) = aM_k (t + A t) (3)
なお、 n及び kは、 マイクアレイ 6に含まれるマイクを右又は左から数えた順 番である。 M— n (t) は、 時刻 tにおいて、 マイクアレイ 6に含まれる n番目 のマイクによって取得された音声信号である。 同様に、 M k (t +Δ t) は、 時刻 t+A tにおいて、 マイクアレイ 6に含まれる k番目のマイクによって取得 された音声信号である。 αは、 M— n (t) に対応する信号の振幅と M—k (t +Δ 1;) に対応する信号の振幅との比である。 、 ' 次に、 音源方向推定部 21は、 数式 (4) を満たすような、 マイクアレイ 6を 基点とする音源の方向 0を算出する (S43) 。 なお、 マイクアレイ 6を基点と する音源の方向 Θについては、 第 4図で詳細を説明する。 N and k are the order in which the microphones included in the microphone array 6 are counted from the right or left. It is a turn. M— n (t) is an audio signal acquired by the n-th microphone included in the microphone array 6 at time t. Similarly, M k (t + Δt) is an audio signal acquired by the k-th microphone included in the microphone array 6 at time t + A t. α is the ratio of the amplitude of the signal corresponding to M− n (t) to the amplitude of the signal corresponding to M−k (t + Δ 1;). Next, the sound source direction estimation unit 21 calculates the direction 0 of the sound source with the microphone array 6 as a base point so as to satisfy Equation (4) (S43). Details of the direction Θ of the sound source from the microphone array 6 will be described in detail with reference to FIG.
d + V一 a X t X c o s Θ = v_a~X (t + Δ t ) X c o s Θ · . · (4) dは、 マイクアレイ 6のマイク間隔である。 V— aは、 空気中の音声速度であ る。 そして、 音源方向推定部 21は、 本処理を終了する。  d + V a a X t X cos Θ = v_a ~ X (t + Δt) X cos Θ · · · (4) d is the microphone interval of the microphone array 6. V—a is the speed of sound in the air. Then, the sound source direction estimation unit 21 ends this process.
以上のように、 音源方向推定部 21は、 音源の方向 Θを算出する。  As described above, the sound source direction estimating unit 21 calculates the direction Θ of the sound source.
第 4図は、 本発明の第 1の実施の形態の音源の方向 Θの説明図である。  FIG. 4 is an explanatory diagram of the direction Θ of the sound source according to the first embodiment of the present invention.
マイクアレイ 6 Aを基点とする音源の方向. Θは、 マイクアレイ 6 Aに含まれる マイクが並んでいる と、 マイグアレイ 6 Aと音源とを結ぶ ,と、 の角度で ある。 つまり、 マイクアレイ 6 Aを基点とする音源の方向 Θは、 マイクアレイ 6 Aと音源とを結ぶ と、 X軸と、 の角度である。 これによつて、 音源方向推定 部 21は、 数式 (4) を用いて、 音源の方向 Θを算出できる。  Direction of sound source based on microphone array 6A. Θ is the angle between the microphone array 6A and the sound source when the microphones included in the microphone array 6A are lined up. In other words, the direction Θ of the sound source based on the microphone array 6 A is an angle between the microphone array 6 A and the sound source and the X axis. As a result, the sound source direction estimating unit 21 can calculate the direction Θ of the sound source using Equation (4).
第 5図は、 本発明の第 1の実施の形態の雑音低減部 20の処理のフローチヤ一 トである。  FIG. 5 is a flowchart of the processing of the noise reduction unit 20 according to the first embodiment of this invention.
まず、 雑音低減部 20は、 指向性マイク 7によって取得された音声信号 M_g (t) を受信する (S51)。 '  First, the noise reduction unit 20 receives the audio signal M_g (t) acquired by the directional microphone 7 (S51). '
次に、 雑音低減部 20は、 指向性マイク 7によつて取得された音声信号 M— g (t) に、 音声帯域ブイルタを通す (S52) 。 音声帯域フィルタは、 音声帯域 の信号のみを通すフィルタである。 これによつて、 雑音低減部.20は、 話者音声 信号 A s (t) を取得する。 次に、 雑音低減部 20は、 数式 (5) を用いて、 雑音信号 N (t) を求める。 N (t) =M一 g (t) 一 A一 s (t) · · · (5) Next, the noise reduction unit 20 passes the audio band filter through the audio signal M−g (t) acquired by the directional microphone 7 (S52). The voice band filter is a filter that passes only the voice band signal. As a result, the noise reduction unit .20 obtains the speaker voice signal A s (t). Next, the noise reduction unit 20 obtains a noise signal N (t) using Equation (5). N (t) = M one g (t) one A one s (t)
次に、 雑音低減部 20は、 数式 (6) を用いて、 雑音低減信号 A_r. (t) を 求める (S 53) 0 ' Next, the noise reduction unit 20 obtains the noise reduction signal A_r. (T) using Equation (6) (S 53) 0 '
A— r (t) =M_g (t) — kXN (t) · · · (6)  A— r (t) = M_g (t) — kXN (t) · · · (6)
ただし、 kは、 ユーザに予め設定される 数である。 なお、 雑音低減信号 A一 r (t) は、 指向性マイク 7によって取得された音声信号 M—g (t) に含まれ る雑音が低減された信号である。 つまり、 雑音低減信号 A_r (t) は、 話者音 声信号 A— s (t) と低減された雑音信号 N (t) とが合わさった信号である。 そして、 雑音低減部 20は、 本処理を終了する。  Here, k is a number set in advance by the user. The noise reduction signal A 1 r (t) is a signal in which noise included in the audio signal M−g (t) acquired by the directional microphone 7 is reduced. In other words, the noise reduction signal A_r (t) is a signal in which the speaker voice signal A—s (t) and the reduced noise signal N (t) are combined. And the noise reduction part 20 complete | finishes this process.
なお、 雑音低減部 20は、 雑音低減信号 A— r (t) 及び話者音声信号 A— s (t) のうち少なくとも一方を求めればよい。 雑音低減部 20が話者音声信号 A — s (t) のみを求める場合には、 ステップ S 53は省略される。  Note that the noise reduction unit 20 may obtain at least one of the noise reduction signal A—r (t) and the speaker voice signal A—s (t). If the noise reduction unit 20 obtains only the speaker voice signal A — s (t), step S 53 is omitted.
第- 6図は、 本発明の第 1の実施の形態の通信処理部 25のパケット^言処理の 説明図である。  FIG. 6 is an explanatory diagram of packet processing of the communication processing unit 25 according to the first embodiment of this invention.
まず、 通信処理部 25は、 音声処理部 22によって変換された音声信号を、 音 声キュー 111に格納する。 また、 通信処理部 25は、 映像処理部 24によって 変換された «信号を、 キュー 112に格納する。 また、 通信処理部 25は 、 話者位置特定部 23によって特定された話者の位置情報を、 データキュー 11 3に格納する。 なお、 音声キュー 111、 赚キュー 112及びデータキュー 1 13は、 送受信部 11に備わるメモリの一部が使用される。  First, the communication processing unit 25 stores the audio signal converted by the audio processing unit 22 in the audio queue 111. Further, the communication processing unit 25 stores the video signal converted by the video processing unit 24 in the queue 112. Further, the communication processing unit 25 stores the position information of the speaker specified by the speaker position specifying unit 23 in the data queue 113. Note that a part of the memory provided in the transmission / reception unit 11 is used for the voice queue 111, the bag queue 112, and the data queue 113.
一方、 通信処理部 25は、 音声キュー 111力 ら、 音声信号を順番に抽出する 。 また、 通信処理部 25は、 キュー 112力ゝら、 ,信号を順番に抽出する 。 更に、 通信処理部 25は、 データキュー 113から、 話者の位置情報を順番に 抽出する (114) 。  On the other hand, the communication processing unit 25 sequentially extracts audio signals from the audio cue 111 force. Further, the communication processing unit 25 sequentially extracts signals from the queue 112. Further, the communication processing unit 25 sequentially extracts speaker position information from the data queue 113 (114).
次に、 通信処理部 25は、 抽出した音声信号、 贿信号及び話者の位置情報を パケットに含めることによって、 パケットを作成する (115) 。 そして、 通信 処理部 25は、.作成したバケツトを、 他の送受信部 11に備わる通信処理部 25 に送信する (116)。 Next, the communication processing unit 25 uses the extracted voice signal, habit signal, and speaker position information. Create a packet by including it in the packet (115). Then, the communication processing unit 25 transmits the created bucket to the communication processing unit 25 provided in the other transmission / reception unit 11 (116).
そして、 通信処理部 25.は、 パケット送信処理を終了する。  Then, the communication processing unit 25 ends the packet transmission process.
第 7図は、 .本発明の第 1の実施の形態の定位処理部 29の処理のフローチヤ一 トである。  FIG. 7 is a flowchart of the processing of the localization processing unit 29 according to the first embodiment of the present invention.
まず、 位処理部 29は、 通信処理部 25が受信した話者の位置 (x, y) に 基づいて、 話者の方向 ψを算出する。 具体的には、 定位処理部 29は、 数式 (7 ) を用いて、 話者の方向 を算出する (S61) 。 なお、 話者の方向 ψは、 特定 の視聴者 9 Bを基点とする、 画面 10 Bに映る講演者 5 A又は 5 Bの方向である  First, the position processing unit 29 calculates the speaker direction ψ based on the position (x, y) of the speaker received by the communication processing unit 25. Specifically, the localization processing unit 29 calculates the direction of the speaker using Equation (7) (S61). Note that the direction of the speaker ψ is the direction of the speaker 5 A or 5 B on the screen 10 B, with the specific viewer 9 B as the base point.
0 = a c o s AT (x2+y2) ) · · · (7) 0 = acos AT (x 2 + y 2 )) (7)
次に、 定位処理部 29は、 数式 (8) を用いて、 遅延時間 Δ ιを算出する (S 62) ο  Next, the localization processing unit 29 calculates the delay time Δ ι using Equation (8) (S 62) ο
Δ u = ά― s pXc o s ^) / v― a · · · (8)  Δ u = ά― s pXc o s ^) / v― a (8)
なお、 d— s pは、 スピーカ 12間の距離である。 講堂 1においては、 d— s pは、 スピーカ 12 Aとスピーカ 12Bとの間の距離である。 また、 会議室 2に おいては、 d— s pは、 スピーカ 12Cとスピーカ 12Dとの間の距離である。 次に、 定位処理部 29は、 音声処理部 22から受け取った音声の音像を定位し て、 スピーカ 12から出力する (S63) 。 このとき、 定位処理部 29は、 二つ のスピーカ 12のうちの一方から出力される音声を、 遅延時間 Διιだけ遅延させ る。  Note that d−s p is the distance between the speakers 12. In the auditorium 1, d—s p is the distance between the speaker 12A and the speaker 12B. In the conference room 2, d−sp is the distance between the speaker 12C and the speaker 12D. Next, the localization processing unit 29 localizes the sound image of the audio received from the audio processing unit 22 and outputs it from the speaker 12 (S63). At this time, the localization processing unit 29 delays the sound output from one of the two speakers 12 by a delay time Διι.
まずは、 講堂 1における音像定位処理について説明する。 まず、 定位処理部 2 9は、 話者の方向 φが π/ 2以下である力否かを判定する。 話者の方向 が πノ- 2以下の場合、 定位処理部 29は、 講堂 1の左側に設置されているスピーカ 12 Αから出力される音声を、 遅延時間 Διιだけ遅延させる。 一方、 話者の方向 が π / 2より大きレ、 、 定位処理部 2 9は、 講堂 1の右側に設置されている'スピ 一力 1 2 Βから出力される音声を、 遅延時間 Δ だけ遅延させる。 First, the sound image localization process in Auditorium 1 will be described. First, the localization processing unit 29 determines whether or not the speaker direction φ is less than or equal to π / 2. When the speaker direction is π-2 or less, the localization processing unit 29 delays the sound output from the speaker 12 installed on the left side of the auditorium 1 by a delay time Διι. On the other hand, the direction of the speaker is The localization processing unit 29, which is larger than π / 2, delays the sound output from the 'spinning force 1 2' installed on the right side of the auditorium 1 by a delay time Δ.
次に、 会議室 2における音像定位処理について説明する。 まず、 定位処理部 2 9は、 話者の方向 φが 2以下であるか否かを判定する。 話者の方向 が π Ζ 2以下の場合、 定位処理部 2 9は、 会議室 2の左側に設置されているスピーカ 1 2 Cから出力される音声を、 遅延時間 だけ遅延させる。 一方、 話者の方向 φ が π / 2より大きい 定位処理部 2 9は、 会議室 2の右側に設置されている スピーカ 1 2 Dから出力される音声を、 遅延時間 A uだけ遅延させる。  Next, the sound image localization process in the conference room 2 will be described. First, the localization processing unit 29 determines whether or not the speaker direction φ is 2 or less. When the speaker direction is π Ζ 2 or less, the localization processing unit 29 delays the sound output from the speaker 12 C installed on the left side of the conference room 2 by the delay time. On the other hand, the localization processing unit 29 having the speaker direction φ larger than π / 2 delays the sound output from the speaker 12 D installed on the right side of the conference room 2 by the delay time A u.
以上のように、 本発明の実施の形態では、 送受信部 1 1は、 話者 (音源) の位 置を特定する。 そして、 送受信部 1 1は、 特定した話者の位置に基づいて、 指向 性マイク 7及び力メラ 8の方向の制御、 並びに音像定位を行う。 産業上の利用可能性  As described above, in the embodiment of the present invention, the transmission / reception unit 11 identifies the position of the speaker (sound source). Then, the transmission / reception unit 11 controls the direction of the directional microphone 7 and the force lens 8 and performs sound image localization based on the position of the identified speaker. Industrial applicability
本発明は、 テレビ会議システムに適用できる  The present invention can be applied to a video conference system.

Claims

請 求 の 範 囲 The scope of the claims
1 . プロセッサ、 メモリ及びインタフェースを備える第 1通信装置と、 プロセッ サ、 メモリ及びインタフェースを備え、 認己第 1通信装置に接続される第 2通信 装置と、 を備える通信システムであって、 1. A communication system comprising: a first communication device comprising a processor, a memory and an interface; and a second communication device comprising a processor, a memory and an interface and connected to the first self-communication device,
第 1通信装置は、  The first communication device is
特定の方向からの音声を取得する指向性マイクを備え、  With a directional microphone that captures sound from a specific direction,
音源の位置を特定し、  Locate the sound source,
前記特定された音源の位置からの音声が取得されるように、 前記指向性マイク の指向性を制御し、  Controlling the directivity of the directional microphone so that sound from the position of the identified sound source is acquired;
- 前記指向性マイクによって取得された音声及び前記特定された音源の位倉を、 f己第 2通信装置に 言し、 -Say the voice acquired by the directional microphone and the position of the specified sound source to the second communication device.
l己第 2通信装置は、  l The second communication device
された音源の位置に基づレ、て音像を定位させて、 読送信された音声 を出力することを とする通信システム。  A communication system in which a sound image is localized based on the position of the read sound source, and the read and transmitted sound is output.
2 . 請求項 1に記載の通信システムであって、 2. A communication system according to claim 1,
frf己第 1通信装置は、  frf first communication device is
複数のマイクを含むマイクアレイを備え、  It has a microphone array that contains multiple microphones,
前記マイクアレイによって取得された音声に基づいて、 当該マイクアレイを基- 点とする音源の方向を推定し、  Based on the sound acquired by the microphone array, the direction of the sound source with the microphone array as a base point is estimated,
編己推定された音源の方向に基づいて、 音源の位置を特定することを特徴とす る。  The feature is that the position of the sound source is specified based on the direction of the sound source estimated.
3 . 請求項 1に記載の通信システムであって、 3. A communication system according to claim 1,
. 前記第 1通信装置は、. ' を ϋ¾するカメラを備え、 The first communication device is: Equipped with a camera that
前記力メラによつて撮影された に基づレヽて、 当該カメラを基点とする音源 の方向を推定し、 · '  Estimate the direction of the sound source with the camera as the base point based on the image taken by the power mela.
前記推定された音源の方向に基づいて、 音源の位置を特定することを特徴とす る。  The position of the sound source is specified based on the estimated direction of the sound source.
4 . 請求項 1に記載の通信システムであって、 4. A communication system according to claim 1,
前記第 1通信装置は、  The first communication device is:
複数のマイクを含むマイクアレイと、 »を撮影するカメラと、 を備え、 前記マイクアレイによって取得された音声に基づいて、 当該マイクアレイを基 点とする音源の方向を推定し、  A microphone array including a plurality of microphones, and a camera for photographing », and based on the sound acquired by the microphone array, the direction of a sound source based on the microphone array is estimated,
前記力メラによつて ¾ ^された ¾ に基づレ、て、 当該力メラを基点とする音源 の方向を推定し、  The direction of the sound source based on the force mela is estimated based on
tilt己推定されたマイクアレイを基点とする音源の方向及び前記推定されたカメ : ラを基点とする音源の方向に基づいて、 音源の位置を特定することを特徴とする  tilt identifies the position of the sound source based on the direction of the sound source based on the estimated microphone array and the direction of the sound source based on the estimated camera:
5 . 請求項 1に記載の通信システムであって、 5. A communication system according to claim 1,
前記第 1通信装置は、  The first communication device is:
を するカメラを備え、  Equipped with a camera
前記特定された位置が されるように、 前記カメラの方向を制御することを 特徴とする。  The direction of the camera is controlled so that the specified position is determined.
6 . プロセッサ、 メモリ及びインタフェースを備える通信装置であって、 音像を定位して音声を出力する出力装置に接続され、 6. A communication device comprising a processor, a memory and an interface, connected to an output device for localizing the sound image and outputting sound,
. 特定の方向からの音声を取得する指向性マイクを備え、 ' 音源の位置を特定し、 Features a directional microphone that captures audio from a specific direction 'Locate the sound source,
前記特定された音源の位置からの音声が取得されるように、 前記指向性マイク の指向性を制御し、  Controlling the directivity of the directional microphone so that sound from the position of the identified sound source is acquired;
前記特定された音源の位置を音像定位用のデータとして、 前記指向性マイクに よって取得された音声と共に、 前記出力装置に送信することを特徴とする通信装  A communication device characterized in that the specified sound source position is transmitted as sound image localization data to the output device together with the sound acquired by the directional microphone.
7 . 請求項 6に記載の通信装置であって、 · 7. The communication device according to claim 6,
更に、 複数のマイクを含むマイクアレイを備え、  Furthermore, a microphone array including a plurality of microphones is provided,
前記マイクアレイによって取得された音声に基づいて、 当該マイクアレイを基 点とする音源の方向を推定し、  Based on the sound acquired by the microphone array, the direction of the sound source based on the microphone array is estimated,
前記推定された音源の方向に基づいて、 音源の位置を特定することを特徴とす る。  The position of the sound source is specified based on the estimated direction of the sound source.
8 . 請求項 6に記載の通信装置であって、 8. The communication device according to claim 6, wherein
. 更に、 赚を膨するカメラを備え、  In addition, it has a camera that swells
前記力メラによつて撮影された ¾mに基づレ、て、 当該カメラを基点とする音源 の方向を推定し、  Estimate the direction of the sound source with the camera as a base point based on ¾m photographed by the force mela,
前記推定された音源の方向に基づいて、 音源の位置を特定することを特徴とす る。  The position of the sound source is specified based on the estimated direction of the sound source.
9 . 請求項 6に記載の通信装置であって、 9. The communication device according to claim 6, wherein
更に、 複数のマイクを含むマイクアレイと、 贿を撮影するカメラと、 を備え 前記マイクアレイによって取得された音声に基づいて、 前記マイクアレイを基 .点とする音源の方向を推定し、 tinsカメラによって された »に基づいて、 前記カメラを基点とする音源 の方向を推定し、 A microphone array including a plurality of microphones; and a camera that captures a heel; and based on sound acquired by the microphone array, estimating a direction of a sound source based on the microphone array, Based on the »made by the tins camera, the direction of the sound source from the camera is estimated,
前記推定されたマイクアレイを基点とする音源の方向及び前記推定された力メ ラを基点とする音源の方向に基づいて、 音源の位置を特定することを特徴とする 0  The position of the sound source is specified based on the direction of the sound source based on the estimated microphone array and the direction of the sound source based on the estimated force meter.
1 0. 請求項 6に記載の通信装置であって、 1 0. The communication device according to claim 6,
,を 影するカメラを備え、  With a camera that shadows
前記特定された位置が撮影されるように、 前記カメラの方向を制御することを 特徴とする。  The direction of the camera is controlled so that the specified position is photographed.
- 1 1. プロセッサ、 メモリ及びインタフェースを備える音源方向特定装置であつ て、 -1 1. A sound source direction identification device with a processor, memory and interface.
複数のマイクを含むマイクアレイと、 特定の方向からの音声を取得する指向性 マイクと、 を備え、  A microphone array including a plurality of microphones, a directional microphone that acquires sound from a specific direction, and
前記マイクアレイによって取得された音声に基づいて、 音源の方向を推定し、 肅己推定された音源の方向からの音声が取得されるように、 tins指向性マイク の指向性を制御することを特徴とする音源方向特定装置。  The direction of the sound source is estimated based on the sound acquired by the microphone array, and the directivity of the tins directional microphone is controlled so that the sound from the direction of the sound source estimated by the self is acquired. A sound source direction specifying device.
PCT/JP2006/308487 2006-04-18 2006-04-18 Communication system, communication apparatus and sound source direction determining apparatus WO2007122729A1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2006/308487 WO2007122729A1 (en) 2006-04-18 2006-04-18 Communication system, communication apparatus and sound source direction determining apparatus
JP2008511927A JPWO2007122729A1 (en) 2006-04-18 2006-04-18 Communication system, communication device, and sound source direction identification device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2006/308487 WO2007122729A1 (en) 2006-04-18 2006-04-18 Communication system, communication apparatus and sound source direction determining apparatus

Publications (1)

Publication Number Publication Date
WO2007122729A1 true WO2007122729A1 (en) 2007-11-01

Family

ID=38624657

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2006/308487 WO2007122729A1 (en) 2006-04-18 2006-04-18 Communication system, communication apparatus and sound source direction determining apparatus

Country Status (2)

Country Link
JP (1) JPWO2007122729A1 (en)
WO (1) WO2007122729A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6967735B1 (en) * 2021-01-13 2021-11-17 パナソニックIpマネジメント株式会社 Signal processing equipment and signal processing system

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05244587A (en) * 1992-02-26 1993-09-21 Mitsubishi Electric Corp Camera controller for television conference
JPH05316239A (en) * 1992-05-08 1993-11-26 Toshiba Corp Conference system
JPH10227849A (en) * 1997-02-14 1998-08-25 Fuji Xerox Co Ltd Sound source position measuring device, camera image pick-up controller, sound source position recording device, and sound source position measurement method
JPH11308591A (en) * 1998-04-21 1999-11-05 Fujitsu Ltd Information communication system
JPH11331827A (en) * 1998-05-12 1999-11-30 Fujitsu Ltd Television camera
JP2000041228A (en) * 1998-07-22 2000-02-08 Fujitsu Ltd Speaker position detector
JP2003008974A (en) * 2001-06-22 2003-01-10 Nippon Telegr & Teleph Corp <Ntt> Zoom estimate method, device, zoom estimate program, and recording medium with the program recorded thereon

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05244587A (en) * 1992-02-26 1993-09-21 Mitsubishi Electric Corp Camera controller for television conference
JPH05316239A (en) * 1992-05-08 1993-11-26 Toshiba Corp Conference system
JPH10227849A (en) * 1997-02-14 1998-08-25 Fuji Xerox Co Ltd Sound source position measuring device, camera image pick-up controller, sound source position recording device, and sound source position measurement method
JPH11308591A (en) * 1998-04-21 1999-11-05 Fujitsu Ltd Information communication system
JPH11331827A (en) * 1998-05-12 1999-11-30 Fujitsu Ltd Television camera
JP2000041228A (en) * 1998-07-22 2000-02-08 Fujitsu Ltd Speaker position detector
JP2003008974A (en) * 2001-06-22 2003-01-10 Nippon Telegr & Teleph Corp <Ntt> Zoom estimate method, device, zoom estimate program, and recording medium with the program recorded thereon

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6967735B1 (en) * 2021-01-13 2021-11-17 パナソニックIpマネジメント株式会社 Signal processing equipment and signal processing system
JP2022108638A (en) * 2021-01-13 2022-07-26 パナソニックIpマネジメント株式会社 Signal processing device and signal processing system

Also Published As

Publication number Publication date
JPWO2007122729A1 (en) 2009-08-27

Similar Documents

Publication Publication Date Title
CN109218651B (en) Optimal view selection method in video conference
US10645518B2 (en) Distributed audio capture and mixing
JP6086923B2 (en) Apparatus and method for integrating spatial audio encoded streams based on geometry
EP3627860A1 (en) Audio conferencing using a distributed array of smartphones
JP5878549B2 (en) Apparatus and method for geometry-based spatial audio coding
US9338544B2 (en) Determination, display, and adjustment of best sound source placement region relative to microphone
JP2007019907A (en) Speech transmission system, and communication conference apparatus
JP5857674B2 (en) Image processing apparatus and image processing system
CN113906503A (en) Processing overlapping speech from distributed devices
EP2352290B1 (en) Method and apparatus for matching audio and video signals during a videoconference
US20220272454A1 (en) Managing playback of multiple streams of audio over multiple speakers
CN106664501A (en) System, apparatus and method for consistent acoustic scene reproduction based on informed spatial filtering
WO2008014697A1 (en) A method and an apparatus for obtaining acoustic source location information and a multimedia communication system
WO2012142975A1 (en) Conference terminal audio signal processing method, and conference terminal and video conference system
US20170324931A1 (en) Adjusting Spatial Congruency in a Video Conferencing System
JP2021520760A (en) Positioning of sound source
JP7070910B2 (en) Video conference system
JP5418327B2 (en) Video conferencing equipment
JP4501037B2 (en) COMMUNICATION CONTROL SYSTEM, COMMUNICATION DEVICE, AND COMMUNICATION METHOD
JP5120020B2 (en) Audio communication system with image, audio communication method with image, and program
WO2007122729A1 (en) Communication system, communication apparatus and sound source direction determining apparatus
WO2018173139A1 (en) Imaging/sound acquisition device, sound acquisition control system, method for controlling imaging/sound acquisition device, and method for controlling sound acquisition control system
JP2006339869A (en) Apparatus for integrating video signal and voice signal
JP4198915B2 (en) Spatial sonic steering system
JP2007251355A (en) Relaying apparatus for interactive system, interactive system, and interactive method

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 06732245

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2008511927

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 06732245

Country of ref document: EP

Kind code of ref document: A1