WO2009128366A1 - コミュニケーションシステム及びコミュニケーションプログラム - Google Patents

コミュニケーションシステム及びコミュニケーションプログラム Download PDF

Info

Publication number
WO2009128366A1
WO2009128366A1 PCT/JP2009/057108 JP2009057108W WO2009128366A1 WO 2009128366 A1 WO2009128366 A1 WO 2009128366A1 JP 2009057108 W JP2009057108 W JP 2009057108W WO 2009128366 A1 WO2009128366 A1 WO 2009128366A1
Authority
WO
WIPO (PCT)
Prior art keywords
pressure level
sound pressure
point
unit
sound
Prior art date
Application number
PCT/JP2009/057108
Other languages
English (en)
French (fr)
Inventor
竹田 真弓
Original Assignee
コニカミノルタホールディングス株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by コニカミノルタホールディングス株式会社 filed Critical コニカミノルタホールディングス株式会社
Publication of WO2009128366A1 publication Critical patent/WO2009128366A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R27/00Public address systems

Definitions

  • the present invention relates to a communication system and a communication program that enable communication between different points via a network.
  • Communication systems that enable communication between different points via a network or the like are progressing day by day due to an increase in communication line capacity represented by broadband, high performance of computers in the system, and the like.
  • communication line capacity represented by broadband, high performance of computers in the system, and the like.
  • volume volume of your voice in consideration of the distance to the other party and the surrounding environment, the volume of the voice you want, Speak at the loudness level that the other party can hear. For example, when talking in secret, speak with a low voice, and when speaking to a person far away, speak in loud voice.
  • the environment in which you are and the environment in which you are located may differ (for example, the environment in which you are located is a quiet environment).
  • the other party is a noisy environment
  • Patent Document 1 automatically adjusts the volume of a telephone so that the other party's voice can be heard according to the environment around the telephone.
  • Patent Document 2 the technology described in Patent Document 2 is such that, in a network conference system using user terminals connected via a network, one user terminal receives voice data from another user terminal. The terminal notifies other user terminals that it has been received. Other user terminals that have received the notification display according to the notification, so that the user can check whether or not the voice is heard without asking the other party.
  • Patent Document 1 only adjusts the volume so that the speaker's voice can be heard on the telephone, and the listener may not be listening at the loudness desired by the speaker. For example, when the speaker speaks with a low voice of a secret level, the volume on the listener's phone is adjusted to a high volume. If the volume is adjusted in this way, the nuance from the viewpoint of the loudness of the voice is slightly deviated, which is far from the state of talking at the same place.
  • Patent Document 2 only displays whether or not the sound is heard, and, similar to the technique described in Patent Document 1, the listener does not hear at the loudness desired by the speaker. There is a case.
  • an object of the present invention is to provide a communication system and a communication program capable of speaking with a loudness level desired by the speaker and a loudness level that the listener can hear, as if actually speaking at the same place. There is.
  • a communication system provides: A communication system that enables communication between a first point and a second point via a network, A voice input unit that is installed at the first point and receives a voice at the first point; An audio output unit that is installed at the second point and outputs the audio input by the audio input unit; A sound pressure level acquisition unit for acquiring a sound pressure level at an arbitrary position of the second point; A notification unit that is installed at the first point and notifies the first point of the sound pressure level acquired by the sound pressure level acquisition unit so as to notify a person at the first point; It is characterized by having.
  • the communication program includes: A voice input unit that is installed at a first point and receives voice at the first point; An audio output unit installed at a second point and outputting the audio input by the audio input unit; A communication program for enabling communication between the first point and the second point using a computer, A sound pressure level acquisition step of acquiring a sound pressure level at an arbitrary position of the second point; A notification step of notifying the first point of the sound pressure level acquired by the sound pressure level acquisition step so as to notify the person at the first point; Is executed by a computer.
  • the communication system and the communication program according to the present invention it is possible to speak with the loudness of the voice desired by the speaker and the loudness of the voice that the listener can hear, as if actually speaking at the same place.
  • FIG. 1 is a schematic diagram of a communication system according to the present invention. It is a schematic diagram which shows the typical structure of the communication system which concerns on this invention. It is a flowchart figure which shows the operation
  • FIG. 1 is a schematic diagram of a communication system according to the present invention.
  • the room X (first point) and the room Y (second point) at different points are connected via the network 3 so that two-way communication is possible.
  • the display 102 is installed in the living room X, and the display 202 is installed in the living room Y.
  • the display 102 displays the scene of the room Y
  • the display 202 displays the scene of the room X.
  • the person A enrolled in the room X can interact with the person B enrolled in the room Y using the communication system shown in FIG. Even if the person A is not in the room X, the person B in the room Y can see the scene of the room X.
  • FIG. 2 is a schematic diagram showing a typical configuration of a communication system according to the present invention.
  • the communication device 1 is installed in the living room X, and the communication device 2 is installed in the living room Y.
  • the communication device 1 and the communication device 2 are connected via a network 3 to constitute a communication system as a whole.
  • the communication apparatus 1 includes a PC (computer) 101, a display 102, a speaker 103, a camera 104, and a microphone 105.
  • the PC 101 transmits a signal to the communication device 2 and receives a signal from the communication device 2.
  • the display 102, the speaker 103, and the like are connected to the PC 101, and the operation of the display 102 to which the PC 101 is connected is controlled by a predetermined program.
  • the PC 101 or the PC 201 functions as a sound pressure level acquisition unit and a person extraction unit.
  • the PC 101 includes a CPU (Central Processing Unit) 101A, a ROM (Read Only Memory) 101B, a RAM (Random Access Memory) 101C, an HDD (Hard Disc Drive) 101D, and the like.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • HDD Hard Disc Drive
  • the CPU 101A controls the overall operation of the PC 101, and is connected to the ROM 101B, the RAM 101C, and the like.
  • the CPU 101A reads various programs stored in the ROM 101B, develops them in the RAM 101C, and controls the operation of each unit. Further, the CPU 101A executes various processes in accordance with the program expanded in the RAM 101C, and stores the processing results in the RAM 101C. Then, the processing result stored in the RAM 101C is stored in a predetermined storage destination.
  • the ROM 101B is a storage medium that stores programs, data, and the like in advance, and includes a magnetic or optical recording medium or a semiconductor memory.
  • the RAM 101C forms a work area for temporarily storing data processed by various programs executed by the CPU 101A.
  • the communication program according to the present invention is stored in the hard disk HDD 101D.
  • the CPU 101A in the PC 101 controls the operation of the camera 104 and the like according to a predetermined program, and realizes communication with the communication device 2 in the living room Y.
  • the display 102 functioning as a notification unit displays a video of the room Y and a video of a person in the room Y, and the video displayed is taken by the camera 204 in the communication device 2.
  • the display 102 is preferably a large screen with a high resolution in order to enhance a sense of reality, for example, a 50-inch display.
  • the speaker 103 that functions as an audio output unit provides audio generated in the room Y in the room X, and may be built in the display 102 or may be separate from the display 102.
  • the speaker 103 preferably has two or more channels.
  • the camera 104 shoots a room X or a person in the room X, and distributes the shot scene to the communication device 2 via the network 3.
  • the microphone 105 functioning as an audio input unit collects sound generated in the room X, and the sound collected by the microphone 105 is distributed to the speaker 203 in the communication device 2 via the network 3.
  • the microphone 105 is preferably a stereo microphone in order to enhance the sense of reality.
  • FIG. 3 is a flowchart showing an operation of notifying the volume at which one's voice can be heard in the other party's room.
  • description will be made assuming a situation where the person A in the room X makes a voice toward the room Y.
  • the voice is input when the person A in the room X speaks to the room Y (step S1).
  • the voice input in step S1 is performed when the microphone 105 receives the voice when the person A speaks to the microphone 105 installed in the room X.
  • step S2 the audio signal input to the microphone 105 is transmitted to the communication device 2 in the room Y through the network 3, and the sound is output from the speaker 203 in the room Y (step S2).
  • a method for acquiring the sound pressure level For example, there is a method of measuring the sound pressure level at the reference position and calculating and acquiring the sound pressure level at an arbitrary position from the measurement result.
  • a method for calculating and acquiring the sound pressure level based on the audio signal input to the microphone 105 and the distance between the speaker 203 and an arbitrary position will be described.
  • a measuring device is installed at a reference position (a position away from the speaker 203 by r 1 [m]), and the sound of the sound output from the speaker 203 by the measuring device (the sound is the sound input to the microphone 105).
  • the pressure level Lp 1 is measured.
  • the sound pressure level Lp 2 at an arbitrary position is obtained by the following equation (1).
  • Lp 2 Lp 1 -20log 10 (r 2 / r 1 ) (1)
  • Lp 1 Sound pressure level [dB] at a position r 1 [m] away from the speaker 203
  • Lp 2 Sound pressure level [dB] at a position r 2 [m] away from the speaker 203
  • the sound pressure level of the entire room Y can be acquired.
  • the sound pressure level due to noise is measured by a measuring instrument installed at the reference position in a state where no sound is output from the speaker 203.
  • the sound pressure level of the sound output from the speaker 203 is measured, and the sound pressure level Lp 1 at the reference position is determined by subtracting the sound pressure level of the noise from the measurement result.
  • a method of obtaining a sound pressure level by actually installing a plurality of measuring devices for measuring the sound pressure level at various positions in the room Y can be considered.
  • multiple sound level meters are installed in each seat in the room Y (preferably at a height near the position of the ear of the person sitting on the seat), and the sound pressure level is adjusted with these sound level meters.
  • the sound pressure level is obtained by measuring.
  • the place where the measuring device is installed may be, for example, a boundary portion between the living room Y and a living room adjacent to the living room Y.
  • the sound pressure level at each location for a newly generated sound may be estimated using a value measured in advance.
  • a sound with a known sound pressure level is generated.
  • a measuring instrument is placed at a location (sound receiving side) across the wall from the sound source, the sound pressure level is measured, and the sound pressure level on the sound source side is changed. While creating a table of the sound pressure level of the sound source and the sound pressure level on the receiving side. Thereafter, the sound pressure level may be estimated using the table. Since sound transmission is also affected by frequency, accuracy may be improved by adding frequency as a parameter to the table.
  • the sound In addition to the presence or absence of walls (the shape of the building), the sound also affects the sound, such as the wall material, wind, and humidity. You may consider the material of the wall of the living room Y, the direction of a wind, humidity, etc. However, as the number of parameters increases, the amount of calculation (which also affects the processing time) increases, and the amount of calculation and accuracy are in a trade-off relationship, so it is preferable to prioritize speed over accuracy improvement.
  • the PC 101 is operated by the communication program to notify the sound pressure level (step S4).
  • Notification process The notification timing is preferably notified when the person A wants to know.
  • the sound pressure level may be displayed as an image on the display 102 in the room X.
  • An example in which the sound pressure level is displayed as an image is shown in FIG.
  • the sound pressure level acquired in step S3 in FIG. 3 is divided into four stages and displayed on the display 102 by color shades T1 to T4.
  • the region where the sound pressure level is high is indicated by T1 which is the darkest color
  • the region where the sound pressure level is low is indicated by T4 which is the lightest color.
  • a person in the room X is displayed on the display 102 by synthesizing the image of the sound pressure level displayed by the color shading and the image of the scene of the room Y photographed by the camera 204 functioning as the photographing unit on the display 102.
  • A can recognize how his / her voice is heard by a person in the room Y. Therefore, if the loudness is adjusted by looking at the image displayed on the display 102, it is possible to talk with the loudness desired by the other party and the loudness of the voice heard by the other party.
  • a real-time image is displayed as the image on the display 102, and the difference in sound pressure level may be displayed in a different color instead of a color shade.
  • the method of notifying the sound pressure level is not limited to the method of displaying on the display 102, and other notification methods (sound, smell, etc.) may be used.
  • FIG. 5 is an explanatory diagram illustrating an example in which a person in the room Y is extracted and displayed in association with the sound pressure level.
  • the scene image of the room Y taken by the camera 204 is analyzed, and a person reflected in the camera 204 is extracted. Specifically, for example, by performing template matching using a standard face image prepared in advance, a process of extracting (cutting out) an area where a face exists from the face image is performed.
  • a face area detection method the following 1. ⁇ 3. It is also possible to use the method shown in FIG. 1. While scanning a window area (rectangular area) of a predetermined size with respect to the face image, whether or not an area representing a human face is included in the window area is determined based on the pixel value in the window area and the predetermined value. (For example, JP-A-2003-22441, JP-A-8-339445). According to this method, a face area can be detected from a complex background at high speed and with a high authentication rate by a face finding algorithm that does not require motion information or color information. 2.
  • a method using a so-called neural network that trains images of face parts of a plurality of people, stores the results as a learning dictionary, and compares the newly input face images with each other to determine face area detection (for example, H. Rowley, S. Baluja, and T. Kanade. “Newral Network-Based Face Detection” In IEEE Patt. Anal. Mach. Intell ,. volume 20, pages 22-38, 1998.). 3.
  • This is a method using a detector proposed by Viola et al. (Viola-Jones detector), which stores various face area detection identifiers and uses them step by step, that is, as the comparison proceeds.
  • a method for detecting face area detection while reducing the number of identifiers for example, P. Viola and M. Jones.
  • the discriminant function of the space where the face and the non-face are complicated can be configured by combining a plurality of simple discriminant functions using simple image feature amounts.
  • the extracted person is displayed on the display 102 as shown in FIG. 5 (in the example shown in FIG. 5, three persons P1 to P3 are displayed). If the background color of each person is displayed differently depending on the sound pressure level (the sound pressure level acquired in step S3 in FIG. 3), which person hears his / her voice at a louder volume and which person hears his / her voice lower You can recognize whether you are listening at the volume, and you can adjust the size of your voice based on the recognition result.
  • the sound pressure level the sound pressure level acquired in step S3 in FIG. 3
  • the layout of the room Y is displayed in advance, a “ ⁇ ” mark is displayed on the seat portion of each person (for example, Mr. Kobayashi and Mr. Tanaka), and the color in the “ ⁇ ” mark is displayed. It may be different depending on the sound pressure level. For example, as shown in FIG. 6, “O” marks are displayed as W (White), B (Blue), and R (Red), and a person who is listening at a small volume is displayed as W (White). A person who is listening at a high volume is displayed as B (Blue), and a person who is heard at a very high volume is displayed as R (Red). In this way, the loudness of one's own voice can be adjusted by looking at the displayed image as in the display form shown in FIG.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

 居室Xに居る人物Aがマイクロフォン105に向かって話すと、居室Yのスピーカー203から音声が出力される。そして居室Yにおける任意位置の音圧レベルが取得され、取得した音圧レベルを居室Xのディスプレイ102に表示されることにより、自分の声が希望の音量になっているのか把握すること出来る。

Description

コミュニケーションシステム及びコミュニケーションプログラム
 本発明は、ネットワークを介して異なる地点間の通信を可能とするコミュニケーションシステム及びコミュニケーションプログラムに関するものである。
 ネットワーク等を介して異なる地点間の通信を可能とするコミュニケーションシステムは、ブロードバンドに代表される通信回線容量の増大や、当該システム内のコンピュータの高性能化等により日々進歩している。また、ネットワーク等を介したコミュニケーションシステムでは、異なる地点間に居る者同士があたかも目の前に居るように話が出来ることが要望されている。
 ところで、同じ場所に居る者同士が話をする場合、相手との距離や周りの環境等を考慮して自分の声の大きさ(音量)を調整し、自分が希望する声の大きさ、且つ相手が聞こえる声の大きさで話をする。例えば、内緒話をする場合は小さな声で話をし、遠くにいる者に話をする場合は大きな声で話をする。
 しかし、異なる地点間に居る者同士がマイクやスピーカー等を含むコミュニケーションシステムを通じて話をする場合、自分が居る環境と相手が居る環境が異なる場合があり(例えば自分が居る環境は静かな環境であり、相手が居る環境は騒がしい環境である場合)、相手が居る環境を把握出来ず、自分が希望する声の大きさ、且つ相手が聞こえる声の大きさで話をすることが難しい。
 そこで、このような点を踏まえ、適切な音量により異なる地点間で話をする技術が提案されている。
 特許文献1に記載の技術は、電話機の周囲の環境に応じて相手の音声が聞こえるよう、電話機の音量を最適に自動調整するものである。
 また、特許文献2に記載の技術は、ネットワークを介して接続された利用者端末を用いたネットワーク会議システムにおいて、一の利用者端末が他の利用者端末から音声データを受信すると一の利用者端末は他の利用者端末に対して受信した旨を通知するものである。通知を受信した他の利用者端末は通知に応じた表示を行うので、利用者は通話相手に対して問いかけることなく、音声が聞こえているかどうかを確認出来る。
実開平05-6954号公報 特開2004-48329号公報
 しかし、特許文献1に記載の技術では、電話機において話し手の声が聞こえるような音量に調整されるだけであり、話し手が希望する声の大きさで聞き手が聞いていない場合がある。例えば、話し手が内緒話程度の小さい声で話したときに、聞き手側の電話機において大きな音量に調整されてしまう場合である。このように音量が調整されてしまうと、声の大きさという観点でのニュアンスが微妙にずれてしまい、同じ場所で話をする状態とはかけ離れてしまう。
 また、特許文献2に記載の技術でも音声が聞こえているかどうかが表示されているだけであり、特許文献1に記載の技術と同様に、話し手が希望する声の大きさで聞き手が聞いていない場合がある。
 そこで、本発明の目的は、実際に同じ場所で話をしているように、話し手が希望する声の大きさ、且つ聞き手が聞こえる声の大きさで話が出来るコミュニケーションシステム及びコミュニケーションプログラムを提供することにある。
 上記目的を達成するため、本発明に係るコミュニケーションシステムは、
 ネットワークを介して第1地点と第2地点との間の通信を可能とするコミュニケーションシステムであって、
 前記第1地点に設置され、前記第1地点における音声が入力される音声入力部と、
 前記第2地点に設置され、前記音声入力部により入力された音声を出力する音声出力部と、
 前記第2地点の任意位置における音圧レベルを取得する音圧レベル取得部と、
 前記第1地点に設置され、前記第1地点に居る人物に通知するように、前記音圧レベル取得部により取得された音圧レベルを前記第1地点に通知する通知部と、
を有することを特徴とするものである。
 また、本発明に係るコミュニケーションプログラムは、
 第1地点に設置され、前記第1地点における音声が入力される音声入力部と、
 第2地点に設置され、前記音声入力部により入力された音声を出力する音声出力部と、
を有するコミュニケーションシステムに対し、コンピュータを利用して前記第1地点と前記第2地点との間の通信を可能とするコミュニケーションプログラムであって、
 前記第2地点の任意位置における音圧レベルを取得する音圧レベル取得工程と、
 前記第1地点に居る人物に通知するように、前記音圧レベル取得工程により取得された音圧レベルを前記第1地点に通知する通知工程と、
をコンピュータに実行させることを特徴とするものである。
 本発明に係るコミュニケーションシステム及びコミュニケーションプログラムによれば、実際に同じ場所で話をしているように、話し手が希望する声の大きさ、且つ聞き手が聞こえる声の大きさで話が出来る。
本発明に係るコミュニケーションシステムの概略図である。 本発明に係るコミュニケーションシステムの代表的な構成を示す模式図である。 自分の声が相手の居室で聞こえる音量を通知する動作を示すフローチャート図である。 音圧レベルをディスプレイ上に画像として表示する例を示す説明図である。 居室Yにおける人物を抽出して音圧レベルと対応づけて表示する例を示す説明図である。 居室Yにおける人物と音圧レベルと対応づけて表示する例を示す説明図である。
 図1は本発明に係るコミュニケーションシステムの概略図である。
 異なる地点にある居室X(第1地点)と居室Y(第2地点)はネットワーク3を経由して接続されており、双方向のコミュニケーションが可能となっている。
 居室Xにはディスプレイ102が設置されており、居室Yにはディスプレイ202が設置されている。ディスプレイ102には居室Yの情景が映し出され、ディスプレイ202には居室Xの情景が映し出される。例えば居室Xに在籍する人物Aは、居室Yに在籍する人物Bと図1に示すコミュニケーションシステムを利用して対話することが出来る。また、居室Xに人物Aが居なくても、居室Yに居る人物Bは居室Xの情景を見ることが出来る。
 図2は本発明に係るコミュニケーションシステムの代表的な構成を示す模式図である。
 居室Xにはコミュニケーション装置1が設置されており、居室Yにはコミュニケーション装置2が設置されている。コミュニケーション装置1とコミュニケーション装置2がネットワーク3を介して接続され、全体としてのコミュニケーションシステムが成り立っている。
 コミュニケーション装置1とコミュニケーション装置2は同様の構成になっているため、コミュニケーション装置1に基づいて各構成を説明する。
 コミュニケーション装置1はPC(コンピュータ)101と、ディスプレイ102と、スピーカー103と、カメラ104と、マイクロフォン105から構成されている。
 コミュニケーション装置2へ信号を送信したり、コミュニケーション装置2から信号を受信したりすることはPC101によって行われる。またディスプレイ102やスピーカー103等はPC101に接続されており、所定のプログラムによってPC101が接続されているディスプレイ102等の動作を制御する。なお、本実施形態においてPC101又はPC201が、音圧レベル取得部、人物抽出部として機能する。
 PC101にはCPU(Central Processing Unit)101A、ROM(Read Only Memory)101B、RAM(Random Access Memory)101C、HDD(Hard Disc Drive)101D等が内蔵されている。
 CPU101AはPC101全体の動作を制御するものであり、ROM101BやRAM101C等に接続されている。このCPU101Aは、ROM101Bに格納されている各種プログラムを読み出してRAM101Cに展開し、各部の動作を制御する。また、CPU101Aは、RAM101Cに展開したプログラムに従って各種処理を実行し、その処理結果をRAM101Cに格納する。そして、RAM101Cに格納した処理結果を所定の保存先に保存させる。
 ROM101Bは、プログラムやデータ等を予め記憶する記憶媒体であり、磁気的、光学的記録媒体、若しくは半導体メモリで構成されている。
 RAM101Cは、CPU101Aによって実行される各種プログラムによって処理されたデータ等を一時的に記憶するワークエリアを形成する。
 本発明に係るコミュニケーションプログラムはハードディスクHDD101Dに記憶されている。
 PC101におけるCPU101Aが所定のプログラムによりカメラ104等の動作を制御し、居室Yのコミュニケーション装置2とのコミュニケーションを実現する。
 通知部として機能するディスプレイ102は居室Yの映像や居室Yに居る人物の映像を映し出すものであり、映し出される映像はコミュニケーション装置2におけるカメラ204によって撮影されたものである。ディスプレイ102は臨場感を高めるために高解像度の大画面であることが好ましく、例えば50インチのディスプレイである。
 音声出力部として機能するスピーカー103は居室Yで発せられた音声を居室Xにおいて提供するものであり、ディスプレイ102に内蔵されていても良いし、ディスプレイ102と別体であっても良い。またスピーカー103は2チャンネル以上あることが好ましい。
 カメラ104は居室Xや居室Xに居る人物を撮影し、ネットワーク3を介して、撮影した情景をコミュニケーション装置2に配信する。
 音声入力部として機能するマイクロフォン105は居室Xで発生する音声を収集し、マイクロフォン105で収集した音声はネットワーク3を介して、コミュニケーション装置2におけるスピーカー203に配信される。マイクロフォン105は臨場感を高めるためにステレオマイクであることが好ましい。
 図1及び図2に示すコミュニケーションシステムでは、居室Xに居る人物と居室Yに居る人物が会話をする場合、自分の声が相手の居室でどのような音量で聞こえるか認識することが可能である。この点について以下に説明する。
 図3は自分の声が相手の居室で聞こえる音量を通知する動作を示すフローチャート図である。図3では、居室Xに居る人物Aが居室Yに向かって声を出す状況を想定して説明する。
 まず、居室Xに居る人物Aが居室Yに向かって声を発することにより音声が入力される(ステップS1)。ステップS1における音声の入力は居室Xに設置されたマイクロフォン105に対して人物Aが声を発した際に、マイクロフォン105が音声を受信することによって行われる。
 次にマイクロフォン105に入力された音声の信号がネットワーク3を通じて居室Yのコミュニケーション装置2に送信され、居室Yにおけるスピーカー203により音声が出力される(ステップS2)。そしてスピーカー203により出力された音声が居室Yにおいてどのような音量により聞こえるかを把握するため、コミュニケーションプログラムによりPC201が作動し、任意位置における音圧レベルを取得する動作が実行される(ステップS3:音圧レベル取得工程)。
 音圧レベルを取得する方法として各種の方法が考えられ、例えば基準位置の音圧レベルを測定し、その測定結果から任意位置における音圧レベルを算出して取得する方法がある。以下、マイクロフォン105に入力された音声の信号と、スピーカー203と任意位置との距離と、に基づいて音圧レベルを算出して取得する方法を説明する。
 まず、基準位置(スピーカー203からr[m]離れた位置)に測定器を設置し、測定器によりスピーカー203から出力された音声(当該音声はマイクロフォン105に入力された音声である)の音圧レベルLpを測定する。そして基準位置における音圧レベルLpを測定した後で、以下の式(1)により任意位置での音圧レベルLpを求めるようにする。
Lp=Lp-20log10(r/r)  ・・・(1)
Lp:スピーカー203からr[m]離れた位置における音圧レベル[dB]
Lp:スピーカー203からr[m]離れた位置における音圧レベル[dB]
 上記式(1)により居室Yにおける色々な位置の音圧レベルを算出すれば、居室Y全体の音圧レベルを取得することが出来る。なお、周囲の騒音を考慮する場合は、スピーカー203から音声を出力しない状態で、基準位置に設置した測定器により騒音による音圧レベルを測定する。そしてスピーカー203から出力された音声の音圧レベルを測定し、測定結果から騒音の音圧レベルを差し引いて基準位置における音圧レベルLpを把握するようにする。
 音圧レベルを取得する方法として音圧レベルを測定する測定器を居室Yの色々な位置に複数台設置し、実際に測定することにより音圧レベルを取得する方法も考えられる。例えば、居室Y内にある各々の座席に複数台の騒音計を設置(好ましくは、座席に座っている人の耳の位置付近の高さに設置)し、それらの騒音計で音圧レベルを測定することにより音圧レベルを取得する。測定器を設置する場所は、例えば居室Yと居室Yに隣接する居室との境界部分でも良い。測定器を常時設置するのではなく、予め測定しておいた値を用いて新たに発生した音に対する各所での音圧レベルを推測するようにしても良い。例えば、音圧レベルが既知である音を発生させ、例えば、音源から壁を挟んだ箇所(受音側)に測定器を置き、音圧レベルを測定して、音源側の音圧レベルを変えながら音源の音圧レベル-受音側の音圧レベルのテーブルを作成しておく。以降はそのテーブルを用いて音圧レベルを推測するようにしても良い。音の伝達は、周波数も影響があるため、テーブルにパラメータとして周波数を加えることにより精度の向上を図っても良い。
 また、音は、壁の有無(建物の形状)だけではなく、その他、壁の材質や風、湿度等も音に影響があるため、推測の精度を上げるためには、居室Yの広さ、居室Yの壁の材質、風の向き、湿度等を考慮しても良い。ただし、パラメータが増えると計算量(処理時間にも影響)も増加し、計算量と精度はトレードオフの関係にあるため、精度向上よりも速度を優先する方が好ましい。
 図3に示すステップS3において任意位置における音圧レベルを取得すると、取得した音圧レベルを居室Xに居る人物Aに知らせるため、コミュニケーションプログラムによりPC101が作動し、音圧レベルを通知する(ステップS4:通知工程)。通知するタイミングは人物Aが知りたい時に通知することが好ましい。
 居室Xに居る人物Aに音圧レベルを通知する方法は各種考えられ、例えば居室Xにおけるディスプレイ102に音圧レベルを画像として表示することが考えられる。音圧レベルを画像として表示する例を図4に示す。図3におけるステップS3で取得した音圧レベルを4段階に分けて色の濃淡T1~T4によりディスプレイ102で表示する。音圧レベルが高い領域は最も濃い色であるT1で示し、音圧レベルが低い領域は最も薄い色であるT4により示す。色の濃淡により表示する音圧レベルの画像と、撮影部として機能するカメラ204により撮影された居室Yの情景の画像と、を合成した画像をディスプレイ102に表示することにより、居室Xに居る人物Aは自分の声が居室Yに居る人物にとってどのように聞こえているか認識することが出来る。従って、ディスプレイ102に表示されている画像を見て声の大きさを調整すれば、自分が希望する声の大きさで、且つ相手に聞こえる声の大きさで話をすることが可能である。なお、ディスプレイ102の画像はリアルタイムの画像が表示され、また、音圧レベルの差を色の濃淡でなく、異なる色により表示させても良い。また、音圧レベルを通知する方法はディスプレイ102に表示させる方法に限定されず、他の通知する方法(音、におい等)でも構わない。
 以上説明したように、居室Xに居る人物と居室Yに居る人物が会話をする場合、相手側の居室の音圧レベルを話し手に通知すれば、自分の声が相手の居室でどのような音量で聞こえるか認識することが可能であり、実際に同じ場所で話をしているように、話し手が希望する声の大きさ、且つ聞き手が聞こえる声の大きさで話が出来る。
 図4とは異なり、別の方法で音圧レベルを画像としてディスプレイ102に表示させることも出来る。図5は居室Yにおける人物を抽出して音圧レベルと対応づけて表示する例を示す説明図である。
 カメラ204により撮影した居室Yの情景の画像を解析し、カメラ204に映る人物を抽出する。具体的には、例えば予め用意された標準の顔画像を用いたテンプレートマッチングを行うことにより、顔画像から顔の存在している領域を抽出する(切り出す)処理を行う。
 なお、顔領域の検出手法として、以下1.~3.に示す方法を用いてもよく、また、その他の手法を用いても実現可能である。
1.顔画像に対して、所定サイズのウィンドウ領域(矩形領域)を走査しつつ、このウィンドウ領域内に人の顔を表した領域が含まれるか否かの判定を該ウィンドウ領域内の画素値と所定のしきい値とを比較することで行う方法(例えば、特開2003-22441号公報、特開平8-339445号公報)。なお、この方法によれば、動き情報や色情報を必要としない顔発見アルゴリズムによって、複雑背景の中から高速且つ高い認証率で顔領域を検出することができる。
2.複数人の顔部位の画像をトレーニングさせてその結果を学習辞書として記憶しておき、新たに入力された顔画像と比較することで顔領域検出の判定を行う所謂ニューラルネットを用いた方法(例えば、H.Rowley,S.Baluja,and T.Kanade.“Newral Network-Based Face Detection”In IEEE Patt.Anal.Mach.Intell,.volume 20,pages 22-38,1998.)。
3.Violaらの提案した検出器(Viola-Jones検出器)を用いた方法であって、様々な顔領域検出用の識別子を記憶しておき、これを段階的に用いてすなわち比較が進むにつれて使用する識別子の数を減少させていきながら顔領域検出の判定を行う方法(例えば、P. Viola and M. Jones. Rapid object detection using a boosted cascade of simple features. In Proc. of IEEE Conference on Computer Vision and Pattern Recognition, Kauai, HI, December 2001.)。なお、この方法によれば、顔と非顔との入り組んだ空間の識別関数を、簡単な画像特徴量を用いた単純な判別関数を複数組み合わせて構成することができる。
 カメラ204に映る人物を抽出した後は、抽出した人物を図5に示すようにディスプレイ102上に表示させる(図5に示す例では人物P1~P3の3人が表示されている)。各人物の背景色を音圧レベル(図3のステップS3により取得した音圧レベル)により異なるように表示すれば、どの人物が自分の声を大きな音量で聞き、どの人物が自分の声を小さな音量で聞いているか認識することができ、その認識結果を踏まえて、自分の声の大きさを調整することが出来る。
 また、図6に示すように予め居室Yのレイアウトを表示させ、各人物(例えば小林さん、田中さん)の席の部分に「○」印を表示し、その「○」印の中の色を音圧レベルにより異なるようにしてもよい。例えば「○」印の中を図6に示すようにW(White)、B(Blue)、R(Red)により表示とし、小さな音量により聞いている人物はW(White)で表示する。また、大きな音量により聞いている人物はB(Blue)で表示し、非常に大きな音量により聞こえている人物はR(Red)で表示する。このようにすれば図5に示した表示形態と同様に、表示された画像を見て、自分の声の大きさを調整することが出来る。
 以上、本発明の実施の形態を図面によって説明してきたが、本発明は当該実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲における変更や追加があっても本発明に含まれる。
 1、2 コミュニケーション装置
 101、201 PC
 102、202 ディスプレイ
 103、203 スピーカー
 104、204 カメラ
 105、205 マイクロフォン
 101A、201A CPU
 101B、201B ROM
 101C、201C RAM
 101D、201D HDD

Claims (12)

  1.  ネットワークを介して第1地点と第2地点との間の通信を可能とするコミュニケーションシステムであって、
     前記第1地点に設置され、前記第1地点における音声が入力される音声入力部と、
     前記第2地点に設置され、前記音声入力部により入力された音声を出力する音声出力部と、
     前記第2地点の任意位置における音圧レベルを取得する音圧レベル取得部と、
     前記第1地点に設置され、前記第1地点に居る人物に通知するように、前記音圧レベル取得部により取得された音圧レベルを前記第1地点に通知する通知部と、
    を有することを特徴とするコミュニケーションシステム。
  2.  前記音圧レベル取得部は、前記音声入力部により入力された音声の信号と、前記音声出力部と前記任意位置との距離と、に基づいて前記音圧レベルを算出し、前記音圧レベルを取得する請求項1に記載のコミュニケーションシステム。
  3.  前記音圧レベル取得部は、前記任意位置における音圧レベルを測定することにより、前記音圧レベルを取得する請求項1に記載のコミュニケーションシステム。
  4.  前記通知部は、前記音圧レベル取得部により取得された音圧レベルを画像として表示する請求項1から請求項3までの何れか1項に記載のコミュニケーションシステム。
  5.  前記第2地点に設置され、前記第2地点の情景を撮影する撮影部を有し、
     前記通知部は、前記音圧レベル取得部により取得された音圧レベルの画像と、前記撮影部により撮影された画像と、を合成した画像を表示する請求項1から請求項4までの何れか1項に記載のコミュニケーションシステム。
  6.  前記第2地点に居る人物を抽出する人物抽出部を有し、
     前記通知部は、前記人物抽出部により抽出された人物と、前記音圧レベル取得部により取得された音圧レベルと、を対応づけて、前記音圧レベル取得部により取得された音圧レベルを前記第1地点に通知する請求項1から請求項5までの何れか1項に記載のコミュニケーションシステム。
  7.  第1地点に設置され、前記第1地点における音声が入力される音声入力部と、
     第2地点に設置され、前記音声入力部により入力された音声を出力する音声出力部と、
    を有するコミュニケーションシステムに対し、コンピュータを利用して前記第1地点と前記第2地点との間の通信を可能とするコミュニケーションプログラムであって、
     前記第2地点の任意位置における音圧レベルを取得する音圧レベル取得工程と、
     前記第1地点に居る人物に通知するように、前記音圧レベル取得工程により取得された音圧レベルを前記第1地点に通知する通知工程と、
    をコンピュータに実行させることを特徴とするコミュニケーションプログラム。
  8.  前記音圧レベル取得工程は、前記音声入力部により入力された音声の信号と、前記音声出力部と前記任意位置との距離と、に基づいて前記音圧レベルを算出し、前記音圧レベルを取得する請求項7に記載のコミュニケーションプログラム。
  9.  前記音圧レベル取得工程は、前記任意位置における音圧レベルを測定することにより、前記音圧レベルを取得する請求項7に記載のコミュニケーションプログラム。
  10.  前記通知工程は、前記音圧レベル取得工程により取得された音圧レベルを画像として表示する請求項7から請求項9までの何れか1項に記載のコミュニケーションプログラム。
  11.  前記コミュニケーションシステムは、前記第2地点に設置され、前記第2地点の情景を撮影する撮影部を有し、
     前記通知工程は、前記音圧レベル取得工程により取得された音圧レベルの画像と、前記撮影部により撮影された画像と、を合成した画像を表示する請求項7から請求項10までの何れか1項に記載のコミュニケーションプログラム。
  12.  前記コミュニケーションシステムは、前記第2地点に居る人物を抽出する人物抽出部を有し、
     前記通知工程は、前記人物抽出部により抽出された人物と、前記音圧レベル取得工程により取得された音圧レベルと、を対応づけて、前記音圧レベル取得工程により取得された音圧レベルを前記第1地点に通知する請求項7から請求項11までの何れか1項に記載のコミュニケーションプログラム。
PCT/JP2009/057108 2008-04-16 2009-04-07 コミュニケーションシステム及びコミュニケーションプログラム WO2009128366A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2008-106691 2008-04-16
JP2008106691 2008-04-16

Publications (1)

Publication Number Publication Date
WO2009128366A1 true WO2009128366A1 (ja) 2009-10-22

Family

ID=41199063

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/057108 WO2009128366A1 (ja) 2008-04-16 2009-04-07 コミュニケーションシステム及びコミュニケーションプログラム

Country Status (1)

Country Link
WO (1) WO2009128366A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004186870A (ja) * 2002-12-02 2004-07-02 Nippon Telegr & Teleph Corp <Ntt> テレビ会議方法、利用者端末装置の処理方法、利用者端末装置、プログラム及び記録媒体
JP2007129623A (ja) * 2005-11-07 2007-05-24 Nippon Telegr & Teleph Corp <Ntt> 情報伝達システム及び音声可視化装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004186870A (ja) * 2002-12-02 2004-07-02 Nippon Telegr & Teleph Corp <Ntt> テレビ会議方法、利用者端末装置の処理方法、利用者端末装置、プログラム及び記録媒体
JP2007129623A (ja) * 2005-11-07 2007-05-24 Nippon Telegr & Teleph Corp <Ntt> 情報伝達システム及び音声可視化装置

Similar Documents

Publication Publication Date Title
US10733970B2 (en) Noise control method and device
US9923535B2 (en) Noise control method and device
US9905215B2 (en) Noise control method and device
JP7100824B2 (ja) データ処理装置、データ処理方法及びプログラム
US11412341B2 (en) Electronic apparatus and controlling method thereof
CN113301372A (zh) 直播方法、装置、终端及存储介质
KR20130096983A (ko) 얼굴을 포함하는 영상 처리 방법 및 장치
CN114531564A (zh) 处理方法及电子设备
JP4708960B2 (ja) 情報伝達システム及び音声可視化装置
US20200013209A1 (en) Image and sound pickup device, sound pickup control system, method of controlling image and sound pickup device, and method of controlling sound pickup control system
US20240144948A1 (en) Sound signal processing method and electronic device
CN114594892B (zh) 远程交互方法、远程交互设备以及计算机存储介质
WO2009128366A1 (ja) コミュニケーションシステム及びコミュニケーションプログラム
WO2021192991A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2009060220A (ja) コミュニケーションシステム及びコミュニケーションプログラム
JP2007251355A (ja) 対話システム用中継装置、対話システム、対話方法
TWI687917B (zh) 語音系統及聲音偵測方法
CN106060394A (zh) 一种拍照方法、装置和终端设备
JP2012068419A (ja) カラオケ装置
CN111091807A (zh) 语音合成方法、装置、计算机设备及存储介质
WO2018088210A1 (ja) 情報処理装置および方法、並びにプログラム
JP7111202B2 (ja) 収音制御システム及び収音制御システムの制御方法
US20240155289A1 (en) Context aware soundscape control
KR200294684Y1 (ko) 대화형 디지털 액자
JP7397084B2 (ja) データ作成方法及びデータ作成プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09731805

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 09731805

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP